CN114861638A - 一种中文同义词扩展方法及装置 - Google Patents

一种中文同义词扩展方法及装置 Download PDF

Info

Publication number
CN114861638A
CN114861638A CN202210658022.1A CN202210658022A CN114861638A CN 114861638 A CN114861638 A CN 114861638A CN 202210658022 A CN202210658022 A CN 202210658022A CN 114861638 A CN114861638 A CN 114861638A
Authority
CN
China
Prior art keywords
synonym
chinese
candidate keyword
candidate
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210658022.1A
Other languages
English (en)
Other versions
CN114861638B (zh
Inventor
皇苏斌
赵森严
汪千松
蒋胜
刘三民
李钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Polytechnic University
Original Assignee
Anhui Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Polytechnic University filed Critical Anhui Polytechnic University
Priority to CN202210658022.1A priority Critical patent/CN114861638B/zh
Publication of CN114861638A publication Critical patent/CN114861638A/zh
Application granted granted Critical
Publication of CN114861638B publication Critical patent/CN114861638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种中文同义词扩展方法,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。

Description

一种中文同义词扩展方法及装置
技术领域
本发明涉及一种从中文文本数据中挖掘同义词的方法,特别涉及中文同义词扩展方法及装置。
背景技术
同义词作为一种重要的文本语义形式,是数据挖掘、知识获取、自然语言处理等领域的重要研究对象。同义词扩展旨在从海量文本语料中自动地抽取词与词之间的同义语义知识,获取结构化的同义知识体系,继而扩展获得同义词集合。
传统的同义词扩展方法主要有两类:基于模板匹配的方法和基于分布语义相似的方法。基于模板匹配的方法利用构建的同义模板从文本数据中挖掘同义词,该方法扩展的同义词集合具有较高的准确率,但是其覆盖率较低。面对复杂多样的非结构化文本,基于模板匹配的方法因覆盖率低而很难获得令人满意的效果。基于分布语义相似的方法利用词与词之间的语义相似特征来挖掘同义词,该方法需用利用词与词之间的同义特征来预测词与词之间是否存在同义关系。面对复杂多样的非结构化文本,词与词之间的同义特征较难获取,使得基于分布语义相似的方法准确率较低,难以满足实际的应用需求。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种中文同义词扩展方法及装置,能够有效地解决传统中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。
基于上述目的,本说明书一个或多个实施例提供了一种中文同义词扩展方法,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1
基于所述中文候选关键词集合K1,获取初始同义词集合E1
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure BDA0003689158570000021
所对应的同义词集合
Figure BDA0003689158570000022
计算该候选关键词xi与同义词集合
Figure BDA0003689158570000023
的相似性约束策略得分
Figure BDA0003689158570000024
以及领域独立约束策略得分
Figure BDA0003689158570000025
若类型得分最大值
Figure BDA0003689158570000026
相似性约束策略得分
Figure BDA0003689158570000027
以及领域独立约束策略得分
Figure BDA0003689158570000028
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure BDA0003689158570000029
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P。
作为一种可选的实施方式,所述基于所述非结构化中文文本集合,获取中文候选关键词集合K1,包括:
对所述非结构化中文文本集合进行分词与词性标注处理;
从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1
对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1
作为一种可选的实施方式,所述基于所述中文候选关键词集合K1,获取初始同义词集合E1,包括:
对所述中文候选关键词集合K1,进行排序处理;
从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1
作为一种可选的实施方式,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合;
对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1
基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1
获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1
将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
作为一种可选的实施方式,所述基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1,包括:
对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1
作为一种可选的实施方式,所述获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1,包括:
对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1
作为一种可选的实施方式,所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
作为一种可选的实施方式,所述相似性约束策略得分
Figure BDA0003689158570000034
的计算公式为:
Figure BDA0003689158570000031
其中,
Figure BDA0003689158570000035
作为一种可选的实施方式,所述领域独立约束策略得分
Figure BDA0003689158570000036
的计算公式为:
Figure BDA0003689158570000032
其中,
Figure BDA0003689158570000033
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))]。
作为本发明的第二个方面,提供了一种中文同义词扩展装置,包括:
第一采集模块,用于获取任意非结构化中文文本集合;
第二采集模块,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1
第三采集模块,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1
放置模块,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure BDA0003689158570000041
所对应的同义词集合
Figure BDA0003689158570000042
计算该候选关键词xi与同义词集合
Figure BDA0003689158570000043
的相似性约束策略得分
Figure BDA0003689158570000044
以及领域独立约束策略得分
Figure BDA0003689158570000045
若类型得分最大值
Figure BDA0003689158570000046
相似性约束策略得分
Figure BDA0003689158570000047
以及领域独立约束策略得分
Figure BDA0003689158570000048
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure BDA0003689158570000049
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块,用于输出扩展后的中文同义词集合池P。
从上面所述可以看出,本说明书一个或多个实施例提供的一种中文同义词扩展方法及装置,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的中文同义词扩展方法的逻辑示意图;
图2为本说明书一个或多个实施例的计算候选关键词xi类型化的逻辑示意图;
图3为本说明书一个或多个实施例的中文同义词扩展方法装置的逻辑示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
为实现上述发明目的,本发明提供了一种中文同义词扩展方法及装置,该方法既能够应用于智能终端,例如台式机、笔记本电脑等,还能够应用于服务器、服务器集群、云服务器等,在此不做具体限定。
作为本发明的第一个方面,提供了一种中文同义词扩展方法,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1
基于所述中文候选关键词集合K1,获取初始同义词集合E1
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure BDA0003689158570000051
所对应的同义词集合
Figure BDA0003689158570000052
计算该候选关键词xi与同义词集合
Figure BDA0003689158570000053
的相似性约束策略得分
Figure BDA0003689158570000054
以及领域独立约束策略得分
Figure BDA0003689158570000055
若类型得分最大值
Figure BDA0003689158570000056
相似性约束策略得分
Figure BDA0003689158570000057
以及领域独立约束策略得分
Figure BDA0003689158570000058
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure BDA0003689158570000059
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P。
该实施例中,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
参见附图1,本发明提出的一种中文同义词扩展方法,以中文百科类网站(https://baike.baidu.com/)和中文非结构化语料SogouCA(https://www.sogou.com/labs/resource/ca.php)为例来完成中文同义词扩展。作为本发明的一种实施例,提供了一种中文同义词扩展方法,包括:
S100、获取任意非结构化中文文本集合;
S200、基于所述非结构化中文文本集合,获取中文候选关键词集合K1
其中,所述S200包括:
S201、基于自然语言处理工具jieba,对所述非结构化中文文本集合进行分词与词性标注处理;
S202、从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1
例如:给定语句实例“馒头,古称蛮头,别称馍馍、蒸馍,为包子的本称,中国传统面食之一。”,对该语句实例进行分词及词性标注预处理后,获得词性标注集合{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n为/p包子/n的/uj本称/n中国/ns传统/n面食/n之一/r};从该词性标注集合中提取出名词,组成中文候选词集合H1:{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n包子/n本称/n中国/ns传统/n面食/n}。
S203、对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1
对上例进行关键词提取,获得中文候选关键词集合K1:{本称中国蛮头古称别称包子面食传统馍馍馒头蒸馍}。
S300、基于所述中文候选关键词集合K1,获取初始同义词集合E1
其中,所述S300包括:
对所述中文候选关键词集合K1,进行排序处理;从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1
S400、将初始同义词集合E1放入初始的中文同义词集合池P中;
S500、对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure BDA0003689158570000071
所对应的同义词集合
Figure BDA0003689158570000072
计算该候选关键词xi与同义词集合
Figure BDA0003689158570000073
的相似性约束策略得分
Figure BDA0003689158570000074
以及领域独立约束策略得分
Figure BDA0003689158570000075
若类型得分最大值
Figure BDA0003689158570000076
相似性约束策略得分
Figure BDA0003689158570000077
以及领域独立约束策略得分
Figure BDA0003689158570000078
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure BDA0003689158570000079
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
迭代计算过程,如附图2所示。
其中,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
S501、基于Scrapy爬虫工具,抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合,具体实例结果如下:
以馒头为例,百科文本信息框中别名字段文本集为:{馍馍 蛮头 蒸饼};以元宵节为例,百科文本信息框中别名字段文本集为{上元节 天官节 春灯节 小正月 元夕}
S502、基于自然语言处理工具jieba,对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1,具体实例结果如下:
中文同义词种子集合D1:D1={{馒头 馍馍 蛮头 蒸饼},{元宵节 上元节 天官节春灯节 小正月 元夕},…}。
S503、基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1
其中,S503包括:对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1,具体实例结果如下:
训练数据正样本PT1
PT1={{馒头 馍馍},{馍馍 蒸饼},{蛮头 蒸饼},{元宵节 上元节}…}。
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1,具体实例结果如下:
训练数据负样本NT1:NT1={{馒头 元宵节},{馍馍 春灯节},{蒸饼 元夕},…}。
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1,具体实例结果如下:
中文同义词扩展训练数据集T1:T1={{PT1|1},{NT1|0}}。
S504、获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1
其中,S504包括:对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1,具体实例如下:
以馒头的句子“制作馒头所需的原料为面粉、发酵粉、水、碱等。”为例,设置上下文语境窗口大小为5,获得的馒头的上下文语境包括:{原料 面粉 发酵粉 水碱}。
S505、将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
S600、输出扩展后的中文同义词集合池P。
作为一种可选的实施例,所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
作为一种可选的实施例,所述相似性约束策略得分
Figure BDA0003689158570000081
的计算公式为:
Figure BDA0003689158570000082
其中,
Figure BDA0003689158570000083
作为一种可选的实施例,所述领域独立约束策略得分
Figure BDA0003689158570000084
的计算公式为:
Figure BDA0003689158570000085
其中,
Figure BDA0003689158570000086
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))]。
本发明公开的一种中文同义词扩展方法,与已有的方法比较,具有如下特点和优点:
(1)本发明利用少量同义词种子集合作为训练数据集来训练中文同义词扩展模型,进而利用中文同义词扩展模型从大量的中文文本数据中扩展更多的同义词集合,解决已有方法同义词抽取覆盖率低的问题。
(2)本发明在中文同义词扩展模型中融入上下文语境信息,不需要人工制定中文同义词模板和定义同义语义特征,有效地解决中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。
(3)本发明在中文同义词扩展模型中融入两种约束策略,即:相似性约束策略和领域独立约束策略,进而可获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
作为本发明的第二个方面,与所述中文同义词扩展方法相对应的,本发明还提供了一种中文同义词扩展装置,如图3所示,包括:
第一采集模块10,用于获取任意非结构化中文文本集合;
第二采集模块20,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1
第三采集模块30,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1
放置模块40,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块50,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure BDA0003689158570000101
所对应的同义词集合
Figure BDA0003689158570000102
计算该候选关键词xi与同义词集合
Figure BDA0003689158570000103
的相似性约束策略得分
Figure BDA0003689158570000104
以及领域独立约束策略得分
Figure BDA0003689158570000105
若类型得分最大值
Figure BDA0003689158570000106
相似性约束策略得分
Figure BDA0003689158570000107
以及领域独立约束策略得分
Figure BDA0003689158570000108
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure BDA0003689158570000109
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块60,用于输出扩展后的中文同义词集合池P。
该实施例中,对于获得的任意的非结构化中文文本集合,获取中文候选关键词集合K1,计算中文候选关键词集合K1中的每一个候选关键词xi,分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词xi与已有的同义词集合的类似程度,基于计算结果判断是将该候选关键词xi加入已有的同义词集合中,或者在中文同义词集合池P生成一个新的同义词集合{xi},最终输出扩展后的中文同义词集合池P。
本发明通过引入相似性约束策略和领域独立约束策略,可以获得高准确率的同义词集合,以解决中文非结构化文本中同义词扩展准确率低的问题。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

Claims (10)

1.一种中文同义词扩展方法,其特征在于,包括:
获取任意非结构化中文文本集合;
基于所述非结构化中文文本集合,获取中文候选关键词集合K1
基于所述中文候选关键词集合K1,获取初始同义词集合E1
将初始同义词集合E1放入初始的中文同义词集合池P中;
对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure FDA0003689158560000011
所对应的同义词集合
Figure FDA0003689158560000012
计算该候选关键词xi与同义词集合
Figure FDA0003689158560000013
的相似性约束策略得分
Figure FDA0003689158560000014
以及领域独立约束策略得分
Figure FDA0003689158560000015
若类型得分最大值
Figure FDA0003689158560000016
相似性约束策略得分
Figure FDA0003689158560000017
以及领域独立约束策略得分
Figure FDA0003689158560000018
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure FDA0003689158560000019
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出扩展后的中文同义词集合池P。
2.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于所述非结构化中文文本集合,获取中文候选关键词集合K1,包括:
对所述非结构化中文文本集合进行分词与词性标注处理;
从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H1
对所述中文候选词集合H1进行关键词提取,获得中文候选关键词集合K1
3.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于所述中文候选关键词集合K1,获取初始同义词集合E1,包括:
对所述中文候选关键词集合K1,进行排序处理;
从排序处理后获得的中文候选关键词集合中,将第1个关键词作为初始同义词集合E1
4.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为:
抓取百科类文本信息框数据,并从所述百科类文本信息框数据中抽取别名字段文本集合;
对别名字段文本集合进行分词与词性标注处理,生成同义词扩展训练初始数据集D1
基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1
获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1
将所述同义词扩展训练数据集T1和上下文语境集合C1对原始的语境同义词识别分类器进行迭代训练,获得训练好的语境同义词识别分类器bc-snc(X)。
5.根据权利要求4所述的中文同义词扩展方法,其特征在于,所述基于同义词扩展训练初始数据集D1构建同义词扩展训练数据集T1,包括:
对所述同义词扩展训练初始数据集D1进行正采样,获得中文同义词扩展训练数据正样本PT1
对所述同义词扩展训练初始数据集D1进行负采样,获得中文同义词扩展训练数据负样本NT1
合并所述中文同义词扩展训练数据正样本PT1和中文同义词扩展训练数据负样本NT1,获得同义词扩展训练数据集T1
6.根据权利要求4所述的中文同义词扩展方法,其特征在于,所述获取所述同义词扩展训练数据集T1中每个同义词的上下文语境集合C1,包括:
对所述同义词扩展训练数据集T1,获取T1中每个同义词在文本语料中的前N个关键词和后N个关键词,构成同义词上下文语境集合C1
7.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk的计算公式为:
Sk=Sigmoid(bc-snc(XEk∪xi,C1)-bc-snc(XEk,C1))
其中,bc-snc为孪生神经网络模型,Sigmoid(X)=1/(1+e-x)。
8.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述相似性约束策略得分
Figure FDA0003689158560000021
的计算公式为:
Figure FDA0003689158560000022
其中,
Figure FDA0003689158560000023
9.根据权利要求1所述的中文同义词扩展方法,其特征在于,所述领域独立约束策略得分
Figure FDA0003689158560000024
的计算公式为:
Figure FDA0003689158560000031
其中,
Figure FDA0003689158560000032
KL(xi,tj)=∑[p(xi)log(p(xi))-p(xi)log(q(tj))]。
10.一种中文同义词扩展装置,其特征在于,包括:
第一采集模块,用于获取任意非结构化中文文本集合;
第二采集模块,用于基于所述非结构化中文文本集合,获取中文候选关键词集合K1
第三采集模块,用于基于所述中文候选关键词集合K1,获取初始同义词集合E1
放置模块,用于将初始同义词集合E1放入初始的中文同义词集合池P中;
计算模块,用于对于中文候选关键词集合K1中的每一个候选关键词xi,基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词xi与所述中文同义词集合池P中每一个同义词集合Ek的类型得分Sk,获得类型得分最大值
Figure FDA0003689158560000033
所对应的同义词集合
Figure FDA0003689158560000034
计算该候选关键词xi与同义词集合
Figure FDA0003689158560000035
的相似性约束策略得分
Figure FDA0003689158560000036
以及领域独立约束策略得分
Figure FDA0003689158560000037
若类型得分最大值
Figure FDA0003689158560000038
相似性约束策略得分
Figure FDA0003689158560000039
以及领域独立约束策略得分
Figure FDA00036891585600000310
分别超出阈值α、β以及γ,则将该候选关键词xi加入同义词集合
Figure FDA00036891585600000311
中,否则,在中文同义词集合池P生成一个新的同义词集合{xi};
输出模块,用于输出扩展后的中文同义词集合池P。
CN202210658022.1A 2022-06-10 2022-06-10 一种中文同义词扩展方法及装置 Active CN114861638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210658022.1A CN114861638B (zh) 2022-06-10 2022-06-10 一种中文同义词扩展方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210658022.1A CN114861638B (zh) 2022-06-10 2022-06-10 一种中文同义词扩展方法及装置

Publications (2)

Publication Number Publication Date
CN114861638A true CN114861638A (zh) 2022-08-05
CN114861638B CN114861638B (zh) 2024-05-24

Family

ID=82625010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210658022.1A Active CN114861638B (zh) 2022-06-10 2022-06-10 一种中文同义词扩展方法及装置

Country Status (1)

Country Link
CN (1) CN114861638B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169012A1 (en) * 2015-12-09 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and System for Synonym Data Mining
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN113076740A (zh) * 2021-03-31 2021-07-06 中国建设银行股份有限公司 政务服务领域的同义词挖掘方法及装置
US20210304749A1 (en) * 2020-03-28 2021-09-30 Tata Consultancy Services Limited Method and system for extraction of key-terms and synonyms for the key-terms
CN113988056A (zh) * 2021-11-08 2022-01-28 阿里巴巴(中国)有限公司 一种同义词获取方法及装置
US20220083733A1 (en) * 2019-12-05 2022-03-17 Boe Technology Group Co., Ltd. Synonym mining method, application method of synonym dictionary, medical synonym mining method, application method of medical synonym dictionary, synonym mining device and storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169012A1 (en) * 2015-12-09 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and System for Synonym Data Mining
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
US20220083733A1 (en) * 2019-12-05 2022-03-17 Boe Technology Group Co., Ltd. Synonym mining method, application method of synonym dictionary, medical synonym mining method, application method of medical synonym dictionary, synonym mining device and storage medium
US20210304749A1 (en) * 2020-03-28 2021-09-30 Tata Consultancy Services Limited Method and system for extraction of key-terms and synonyms for the key-terms
CN113076740A (zh) * 2021-03-31 2021-07-06 中国建设银行股份有限公司 政务服务领域的同义词挖掘方法及装置
CN113988056A (zh) * 2021-11-08 2022-01-28 阿里巴巴(中国)有限公司 一种同义词获取方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GU, SW (GU, SHENGWEI): "Improving answer selection with global features", 《EXPERT SYSTEMS》, 27 August 2020 (2020-08-27) *
MINHWAN KIM: "Ontology-aided Word2vec based Synonym Identification for Ontology Alignment", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING (BIGCOMP)》, 20 April 2020 (2020-04-20) *
SUBIN HUANG: "Neural Entity Synonym Set Generation using Association Information and Entity Constraint", 《 2020 IEEE INTERNATIONAL CONFERENCE ON KNOWLEDGE GRAPH (ICKG)》, 11 September 2020 (2020-09-11) *
刘永芳: "中国英语年度新词语提取与同义词识别研究", 《CNKI》, 1 June 2020 (2020-06-01) *
张颖颖;谢强;丁秋林;: "基于同义词链的中文关键词提取算法", 计算机工程, no. 19, 5 October 2010 (2010-10-05) *
徐健;方安;洪娜;: "一种基于词语相似度计算的本体映射方法", 现代图书情报技术, no. 02, 25 February 2013 (2013-02-25) *

Also Published As

Publication number Publication date
CN114861638B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
US10949709B2 (en) Method for determining sentence similarity
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
Cao et al. A density-based method for adaptive LDA model selection
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
Fahad et al. Inflectional review of deep learning on natural language processing
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
WO2017206492A1 (zh) 二元特征词典的构建方法和装置
CN108132927A (zh) 一种融合图结构与节点关联的关键词提取方法
CN112347761B (zh) 基于bert的药物关系抽取方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN108920545B (zh) 基于扩展的情感词典和卡方模型的中文情感特征选择方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111581974A (zh) 一种基于深度学习的生物医学实体识别方法
CN114579746A (zh) 一种优化的高精度文本分类方法及装置
CN111178091B (zh) 一种多维度的中英双语数据清洗方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
Jain et al. Named Entity Recognition in Hindi Using Hyperspace Analogue to Language and Conditional Random Field.
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
D’silva et al. Automatic text summarization of konkani texts using pre-trained word embeddings and deep learning
Purba et al. Effect of Random Splitting and Cross Validation for Indonesian Opinion Mining using Machine Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant