CN114861638B - 一种中文同义词扩展方法及装置 - Google Patents
一种中文同义词扩展方法及装置 Download PDFInfo
- Publication number
- CN114861638B CN114861638B CN202210658022.1A CN202210658022A CN114861638B CN 114861638 B CN114861638 B CN 114861638B CN 202210658022 A CN202210658022 A CN 202210658022A CN 114861638 B CN114861638 B CN 114861638B
- Authority
- CN
- China
- Prior art keywords
- synonym
- chinese
- candidate keyword
- initial
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 235000008429 bread Nutrition 0.000 description 26
- 235000009508 confectionery Nutrition 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 208000034656 Contusions Diseases 0.000 description 2
- UIIMBOGNXHQVGW-UHFFFAOYSA-M Sodium bicarbonate Chemical compound [Na+].OC([O-])=O UIIMBOGNXHQVGW-UHFFFAOYSA-M 0.000 description 2
- 208000034526 bruise Diseases 0.000 description 2
- 235000013312 flour Nutrition 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000003513 alkali Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 235000015927 pasta Nutrition 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 235000017557 sodium bicarbonate Nutrition 0.000 description 1
- 229910000030 sodium bicarbonate Inorganic materials 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了一种中文同义词扩展方法,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
Description
技术领域
本发明涉及一种从中文文本数据中挖掘同义词的方法,特别涉及中文同义词扩展方法及装置。
背景技术
同义词作为一种重要的文本语义形式,是数据挖掘、知识获取、自然语言处理等领域的重要研究对象。同义词扩展旨在从海量文本语料中自动地抽取词与词之间的同义语义知识,获取结构化的同义知识体系,继而扩展获得同义词集合。
传统的同义词扩展方法主要有两类:基于模板匹配的方法和基于分布语义相似的方法。基于模板匹配的方法利用构建的同义模板从文本数据中挖掘同义词,该方法扩展的同义词集合具有较高的准确率,但是其覆盖率较低。面对复杂多样的非结构化文本,基于模板匹配的方法因覆盖率低而很难获得令人满意的效果。基于分布语义相似的方法利用词与词之间的语义相似特征来挖掘同义词,该方法需用利用词与词之间的同义特征来预测词与词之间是否存在同义关系。面对复杂多样的非结构化文本,词与词之间的同义特征较难获取,使得基于分布语义相似的方法准确率较低,难以满足实际的应用需求。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种中文同义词扩展方法及装置,能够有效地解决传统中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。
基于上述目的,本说明书一个或多个实施例提供了一种中文同义词扩展方法,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
基于所述中文候选关键词集合K1,获取初始同义词集合E1;
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P。
作为一种可选的实施方式,所述基于所述非结构化中文文本集合,获取中文候选关键词集合K1,包括:
对所述非结构化中文文本集合进行分词与词性标注处理;
从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1;
对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1。
作为一种可选的实施方式,所述基于所述中文候选关键词集合K1,获取初始同义词集合E1,包括:
对所述中文候选关键词集合K1,进行排序处理;
从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1。
作为一种可选的实施方式,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合;
对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1;
基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1;
获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1;
将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
作为一种可选的实施方式,所述基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1,包括:
对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1;
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1;
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1。
作为一种可选的实施方式,所述获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1,包括:
对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1。
作为一种可选的实施方式,所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
作为一种可选的实施方式,所述相似性约束策略得分的计算公式为:
其中,
作为一种可选的实施方式,所述领域独立约束策略得分的计算公式为:
其中,
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))]。
作为本发明的第二个方面,提供了一种中文同义词扩展装置,包括:
第一采集模块,用于获取任意非结构化中文文本集合;
第二采集模块,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
第三采集模块,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1;
放置模块,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块,用于输出扩展后的中文同义词集合池P。
从上面所述可以看出,本说明书一个或多个实施例提供的一种中文同义词扩展方法及装置,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的中文同义词扩展方法的逻辑示意图;
图2为本说明书一个或多个实施例的计算候选关键词xi类型化的逻辑示意图;
图3为本说明书一个或多个实施例的中文同义词扩展方法装置的逻辑示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
为实现上述发明目的,本发明提供了一种中文同义词扩展方法及装置,该方法既能够应用于智能终端,例如台式机、笔记本电脑等,还能够应用于服务器、服务器集群、云服务器等,在此不做具体限定。
作为本发明的第一个方面,提供了一种中文同义词扩展方法,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
基于所述中文候选关键词集合K1,获取初始同义词集合E1;
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P。
该实施例中,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
参见附图1,本发明提出的一种中文同义词扩展方法,以中文百科类网站(https://baike.baidu.com/)和中文非结构化语料SogouCA(https://www.sogou.com/labs/resource/ca.php)为例来完成中文同义词扩展。作为本发明的一种实施例,提供了一种中文同义词扩展方法,包括:
S100、获取任意非结构化中文文本集合;
S200、基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
其中,所述S200包括:
S201、基于自然语言处理工具jieba,对所述非结构化中文文本集合进行分词与词性标注处理;
S202、从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1;
例如:给定语句实例“馒头,古称蛮头,别称馍馍、蒸馍,为包子的本称,中国传统面食之一。”,对该语句实例进行分词及词性标注预处理后,获得词性标注集合{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n为/p包子/n的/uj本称/n中国/ns传统/n面食/n之一/r};从该词性标注集合中提取出名词,组成中文候选词集合H1:{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n包子/n本称/n中国/ns传统/n面食/n}。
S203、对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1。
对上例进行关键词提取,获得中文候选关键词集合K1:{本称中国蛮头古称别称包子面食传统馍馍馒头蒸馍}。
S300、基于所述中文候选关键词集合K1,获取初始同义词集合E1;
其中,所述S300包括:
对所述中文候选关键词集合K1,进行排序处理;从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1。
S400、将初始同义词集合E1放入初始的中文同义词集合池P中;
S500、对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
迭代计算过程,如附图2所示。
其中,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
S501、基于Scrapy爬虫工具,抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合,具体实例结果如下:
以馒头为例,百科文本信息框中别名字段文本集为:{馍馍 蛮头 蒸饼};以元宵节为例,百科文本信息框中别名字段文本集为{上元节 天官节 春灯节 小正月 元夕}
S502、基于自然语言处理工具jieba,对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1,具体实例结果如下:
中文同义词种子集合D1:D1={{馒头 馍馍 蛮头 蒸饼},{元宵节 上元节 天官节春灯节 小正月 元夕},…}。
S503、基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1;
其中,S503包括:对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1,具体实例结果如下:
训练数据正样本PT1:
PT1={{馒头 馍馍},{馍馍 蒸饼},{蛮头 蒸饼},{元宵节 上元节}…}。
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1,具体实例结果如下:
训练数据负样本NT1:NT1={{馒头 元宵节},{馍馍 春灯节},{蒸饼 元夕},…}。
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1,具体实例结果如下:
中文同义词扩展训练数据集T1:T1={{PT1|1},{NT1|0}}。
S504、获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1;
其中,S504包括:对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1,具体实例如下:
以馒头的句子“制作馒头所需的原料为面粉、发酵粉、水、碱等。”为例,设置上下文语境窗口大小为5,获得的馒头的上下文语境包括:{原料 面粉 发酵粉 水碱}。
S505、将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
S600、输出扩展后的中文同义词集合池P。
作为一种可选的实施例,所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
作为一种可选的实施例,所述相似性约束策略得分的计算公式为:
其中,
作为一种可选的实施例,所述领域独立约束策略得分的计算公式为:
其中,
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))]。
本发明公开的一种中文同义词扩展方法,与已有的方法比较,具有如下特点和优点:
(1)本发明利用少量同义词种子集合作为训练数据集来训练中文同义词扩展模型,进而利用中文同义词扩展模型从大量的中文文本数据中扩展更多的同义词集合,解决已有方法同义词抽取覆盖率低的问题。
(2)本发明在中文同义词扩展模型中融入上下文语境信息,不需要人工制定中文同义词模板和定义同义语义特征,有效地解决中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。
(3)本发明在中文同义词扩展模型中融入两种约束策略,即:相似性约束策略和领域独立约束策略,进而可获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
作为本发明的第二个方面,与所述中文同义词扩展方法相对应的,本发明还提供了一种中文同义词扩展装置,如图3所示,包括:
第一采集模块10,用于获取任意非结构化中文文本集合;
第二采集模块20,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
第三采集模块30,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1;
放置模块40,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块50,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块60,用于输出扩展后的中文同义词集合池P。
该实施例中,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
Claims (9)
1.一种中文同义词扩展方法,其特征在于,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
基于所述中文候选关键词集合K1,获取初始同义词集合E1;
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P,
其中,所述领域独立约束策略得分的计算公式为:
其中,
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))];
其中,bc-snc为孪生神经网络模型,n为同义词集合中的同义词个数。
2.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于所述非结构化中文文本集合,获取中文候选关键词集合K1,包括:
对所述非结构化中文文本集合进行分词与词性标注处理;
从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1;
对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1。
3.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于所述中文候选关键词集合K1,获取初始同义词集合E1,包括:
对所述中文候选关键词集合K1,进行排序处理;
从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1。
4.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合;
对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1;
基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1;
获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1;
将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
5.根据权利要求4所述的中文同义词扩展方法,其特征在于,所述基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1,包括:
对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1;
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1;
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1。
6.根据权利要求4所述的中文同义词扩展方法,其特征在于,所述获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1,包括:
对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1。
7.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于预训练好的语境同义词识别分类器bc-snc(X),X表示为候选关键词xi与中文同义词集合池P的合集,分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
8.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述相似性约束策略得分的计算公式为:
其中,
9.一种中文同义词扩展装置,其特征在于,包括:
第一采集模块,用于获取任意非结构化中文文本集合;
第二采集模块,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1;
第三采集模块,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1;
放置模块,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值所对应的同义词集合/>计算该候选关键词xi与同义词集合/>的相似性约束策略得分/>以及领域独立约束策略得分/>若类型得分最大值/>相似性约束策略得分/>以及领域独立约束策略得分/>分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合/>中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块,用于输出扩展后的中文同义词集合池P;
其中,所述领域独立约束策略得分的计算公式为:
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))];
其中,bc-snc为孪生神经网络模型,n为同义词集合中的同义词个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210658022.1A CN114861638B (zh) | 2022-06-10 | 2022-06-10 | 一种中文同义词扩展方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210658022.1A CN114861638B (zh) | 2022-06-10 | 2022-06-10 | 一种中文同义词扩展方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861638A CN114861638A (zh) | 2022-08-05 |
CN114861638B true CN114861638B (zh) | 2024-05-24 |
Family
ID=82625010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210658022.1A Active CN114861638B (zh) | 2022-06-10 | 2022-06-10 | 一种中文同义词扩展方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861638B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN110442760A (zh) * | 2019-07-24 | 2019-11-12 | 银江股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN113076740A (zh) * | 2021-03-31 | 2021-07-06 | 中国建设银行股份有限公司 | 政务服务领域的同义词挖掘方法及装置 |
CN113988056A (zh) * | 2021-11-08 | 2022-01-28 | 阿里巴巴(中国)有限公司 | 一种同义词获取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
CN110991168B (zh) * | 2019-12-05 | 2024-05-17 | 京东方科技集团股份有限公司 | 同义词挖掘方法、同义词挖掘装置及存储介质 |
EP3885962A1 (en) * | 2020-03-28 | 2021-09-29 | Tata Consultancy Services Limited | Method and system for extraction of key-terms and synonyms for the key-terms |
-
2022
- 2022-06-10 CN CN202210658022.1A patent/CN114861638B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN110442760A (zh) * | 2019-07-24 | 2019-11-12 | 银江股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN113076740A (zh) * | 2021-03-31 | 2021-07-06 | 中国建设银行股份有限公司 | 政务服务领域的同义词挖掘方法及装置 |
CN113988056A (zh) * | 2021-11-08 | 2022-01-28 | 阿里巴巴(中国)有限公司 | 一种同义词获取方法及装置 |
Non-Patent Citations (6)
Title |
---|
Improving answer selection with global features;Gu, SW (Gu, Shengwei);《EXPERT SYSTEMS》;20200827;全文 * |
Neural Entity Synonym Set Generation using Association Information and Entity Constraint;Subin Huang;《 2020 IEEE International Conference on Knowledge Graph (ICKG)》;20200911;全文 * |
Ontology-aided Word2vec based Synonym Identification for Ontology Alignment;Minhwan Kim;《2020 IEEE International Conference on Big Data and Smart Computing (BigComp)》;20200420;全文 * |
一种基于词语相似度计算的本体映射方法;徐健;方安;洪娜;;现代图书情报技术;20130225(第02期);全文 * |
中国英语年度新词语提取与同义词识别研究;刘永芳;《CNKI》;20200601;全文 * |
基于同义词链的中文关键词提取算法;张颖颖;谢强;丁秋林;;计算机工程;20101005(第19期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114861638A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679580B (zh) | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 | |
Li et al. | Nonparametric bayes pachinko allocation | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN106991127B (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108132927A (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN106970981B (zh) | 一种基于转移矩阵构建关系抽取模型的方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN107480194B (zh) | 多模态知识表示自动学习模型的构建方法及系统 | |
D’Silva et al. | Unsupervised automatic text summarization of Konkani texts using K-means with Elbow method | |
CN109299211A (zh) | 一种基于Char-RNN模型的文本自动生成方法 | |
De Roover et al. | Mixture simultaneous factor analysis for capturing differences in latent variables between higher level units of multilevel data | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
Wu et al. | Collaboratively training sentiment classifiers for multiple domains | |
CN112836051A (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
Gunawan et al. | Clustering articles in bahasa indonesia using self-organizing map | |
D’silva et al. | Automatic text summarization of konkani texts using pre-trained word embeddings and deep learning | |
CN112784017B (zh) | 基于主亲和性表示的档案跨模态数据特征融合方法 | |
Sharma et al. | Resume Classification using Elite Bag-of-Words Approach | |
CN114861638B (zh) | 一种中文同义词扩展方法及装置 | |
KR20200053334A (ko) | 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |