CN114861638A

CN114861638A - 一种中文同义词扩展方法及装置

Info

Publication number: CN114861638A
Application number: CN202210658022.1A
Authority: CN
Inventors: 皇苏斌; 赵森严; 汪千松; 蒋胜; 刘三民; 李钧
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-08-05
Anticipated expiration: 2042-06-10
Also published as: CN114861638B

Abstract

本说明书实施例提供了一种中文同义词扩展方法，对于获得的任意的非结构化中文文本集合，获取中文候选关键词集合K₁，计算中文候选关键词集合K₁中的每一个候选关键词x_i，分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词x_i与已有的同义词集合的类似程度，基于计算结果判断是将该候选关键词x_i加入已有的同义词集合中，或者在中文同义词集合池P生成一个新的同义词集合{x_i}，最终输出扩展后的中文同义词集合池P。

Description

一种中文同义词扩展方法及装置

技术领域

本发明涉及一种从中文文本数据中挖掘同义词的方法，特别涉及中文同义词扩展方法及装置。

背景技术

同义词作为一种重要的文本语义形式，是数据挖掘、知识获取、自然语言处理等领域的重要研究对象。同义词扩展旨在从海量文本语料中自动地抽取词与词之间的同义语义知识，获取结构化的同义知识体系，继而扩展获得同义词集合。

传统的同义词扩展方法主要有两类：基于模板匹配的方法和基于分布语义相似的方法。基于模板匹配的方法利用构建的同义模板从文本数据中挖掘同义词，该方法扩展的同义词集合具有较高的准确率，但是其覆盖率较低。面对复杂多样的非结构化文本，基于模板匹配的方法因覆盖率低而很难获得令人满意的效果。基于分布语义相似的方法利用词与词之间的语义相似特征来挖掘同义词，该方法需用利用词与词之间的同义特征来预测词与词之间是否存在同义关系。面对复杂多样的非结构化文本，词与词之间的同义特征较难获取，使得基于分布语义相似的方法准确率较低，难以满足实际的应用需求。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种中文同义词扩展方法及装置，能够有效地解决传统中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。

基于上述目的，本说明书一个或多个实施例提供了一种中文同义词扩展方法，包括：

获取任意非结构化中文文本集合；

基于所述非结构化中文文本集合，获取中文候选关键词集合K₁；

基于所述中文候选关键词集合K₁，获取初始同义词集合E₁；

将初始同义词集合E₁放入初始的中文同义词集合池P中；

对于中文候选关键词集合K₁中的每一个候选关键词x_i，基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k，获得类型得分最大值

所对应的同义词集合

计算该候选关键词x_i与同义词集合

的相似性约束策略得分

以及领域独立约束策略得分

若类型得分最大值

相似性约束策略得分

以及领域独立约束策略得分

分别超出阈值α、β以及γ，则将该候选关键词x_i加入同义词集合

中，否则，在中文同义词集合池P生成一个新的同义词集合{x_i}；

输出扩展后的中文同义词集合池P。

作为一种可选的实施方式，所述基于所述非结构化中文文本集合，获取中文候选关键词集合K₁，包括：

对所述非结构化中文文本集合进行分词与词性标注处理；

从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H₁；

对所述中文候选词集合H₁进行关键词提取，获得中文候选关键词集合K₁。

作为一种可选的实施方式，所述基于所述中文候选关键词集合K₁，获取初始同义词集合E₁，包括：

对所述中文候选关键词集合K₁，进行排序处理；

从排序处理后获得的中文候选关键词集合中，将第1个关键词作为初始同义词集合E₁。

作为一种可选的实施方式，所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为：

抓取百科类文本信息框数据，并从所述百科类文本信息框数据中抽取别名字段文本集合；

对别名字段文本集合进行分词与词性标注处理，生成同义词扩展训练初始数据集D₁；

基于同义词扩展训练初始数据集D₁构建同义词扩展训练数据集T₁；

获取所述同义词扩展训练数据集T₁中每个同义词的上下文语境集合C₁；

将所述同义词扩展训练数据集T₁和上下文语境集合C₁对原始的语境同义词识别分类器进行迭代训练，获得训练好的语境同义词识别分类器bc-snc(X)。

作为一种可选的实施方式，所述基于同义词扩展训练初始数据集D₁构建同义词扩展训练数据集T₁，包括：

对所述同义词扩展训练初始数据集D₁进行正采样，获得中文同义词扩展训练数据正样本PT₁；

对所述同义词扩展训练初始数据集D₁进行负采样，获得中文同义词扩展训练数据负样本NT₁；

合并所述中文同义词扩展训练数据正样本PT₁和中文同义词扩展训练数据负样本NT₁，获得同义词扩展训练数据集T₁。

作为一种可选的实施方式，所述获取所述同义词扩展训练数据集T₁中每个同义词的上下文语境集合C₁，包括：

对所述同义词扩展训练数据集T₁，获取T₁中每个同义词在文本语料中的前N个关键词和后N个关键词，构成同义词上下文语境集合C₁。

作为一种可选的实施方式，所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k的计算公式为：

S_k＝Sigmoid(bc-snc(XE_k∪x_i,C₁)-bc-snc(XE_k,C₁))

其中，bc-snc为孪生神经网络模型，Sigmoid(X)＝1/(1+e^-x)。

作为一种可选的实施方式，所述相似性约束策略得分

的计算公式为：

其中，

作为一种可选的实施方式，所述领域独立约束策略得分

的计算公式为：

其中，

KL(x_i,t_j)＝∑[p(x_i)log(p(x_i))-p(x_i)log(q(t_j))]。

作为本发明的第二个方面，提供了一种中文同义词扩展装置，包括：

第一采集模块，用于获取任意非结构化中文文本集合；

第二采集模块，用于基于所述非结构化中文文本集合，获取中文候选关键词集合K₁；

第三采集模块，用于基于所述中文候选关键词集合K₁，获取初始同义词集合E₁；

放置模块，用于将初始同义词集合E₁放入初始的中文同义词集合池P中；

计算模块，用于对于中文候选关键词集合K₁中的每一个候选关键词x_i，基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k，获得类型得分最大值

所对应的同义词集合

计算该候选关键词x_i与同义词集合

的相似性约束策略得分

以及领域独立约束策略得分

若类型得分最大值

相似性约束策略得分

以及领域独立约束策略得分

输出模块，用于输出扩展后的中文同义词集合池P。

从上面所述可以看出，本说明书一个或多个实施例提供的一种中文同义词扩展方法及装置，对于获得的任意的非结构化中文文本集合，获取中文候选关键词集合K₁，计算中文候选关键词集合K₁中的每一个候选关键词x_i，分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词x_i与已有的同义词集合的类似程度，基于计算结果判断是将该候选关键词x_i加入已有的同义词集合中，或者在中文同义词集合池P生成一个新的同义词集合{x_i}，最终输出扩展后的中文同义词集合池P。

本发明通过引入相似性约束策略和领域独立约束策略，可以获得高准确率的同义词集合，以解决中文非结构化文本中同义词扩展准确率低的问题。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的中文同义词扩展方法的逻辑示意图；

图2为本说明书一个或多个实施例的计算候选关键词x_i类型化的逻辑示意图；

图3为本说明书一个或多个实施例的中文同义词扩展方法装置的逻辑示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

为实现上述发明目的，本发明提供了一种中文同义词扩展方法及装置，该方法既能够应用于智能终端，例如台式机、笔记本电脑等，还能够应用于服务器、服务器集群、云服务器等，在此不做具体限定。

作为本发明的第一个方面，提供了一种中文同义词扩展方法，包括：

获取任意非结构化中文文本集合；

将初始同义词集合E₁放入初始的中文同义词集合池P中；

所对应的同义词集合

计算该候选关键词x_i与同义词集合

的相似性约束策略得分

以及领域独立约束策略得分

若类型得分最大值

相似性约束策略得分

以及领域独立约束策略得分

输出扩展后的中文同义词集合池P。

该实施例中，对于获得的任意的非结构化中文文本集合，获取中文候选关键词集合K₁，计算中文候选关键词集合K₁中的每一个候选关键词x_i，分别从语境同义词识别分类器、相似性约束策略以及领域独立约束策略三个维度计算该候选关键词x_i与已有的同义词集合的类似程度，基于计算结果判断是将该候选关键词x_i加入已有的同义词集合中，或者在中文同义词集合池P生成一个新的同义词集合{x_i}，最终输出扩展后的中文同义词集合池P。

参见附图1，本发明提出的一种中文同义词扩展方法，以中文百科类网站(https://baike.baidu.com/)和中文非结构化语料SogouCA(https://www.sogou.com/labs/resource/ca.php)为例来完成中文同义词扩展。作为本发明的一种实施例，提供了一种中文同义词扩展方法，包括：

S100、获取任意非结构化中文文本集合；

S200、基于所述非结构化中文文本集合，获取中文候选关键词集合K₁；

其中，所述S200包括：

S201、基于自然语言处理工具jieba，对所述非结构化中文文本集合进行分词与词性标注处理；

S202、从分词与词性标注处理后获得的非结构化中文文本集合中获得中文候选词集合H₁；

例如：给定语句实例“馒头，古称蛮头，别称馍馍、蒸馍，为包子的本称，中国传统面食之一。”，对该语句实例进行分词及词性标注预处理后，获得词性标注集合{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n为/p包子/n的/uj本称/n中国/ns传统/n面食/n之一/r}；从该词性标注集合中提取出名词，组成中文候选词集合H₁：{馒头/n古称/n蛮头/n别称/v馍馍/n蒸馍/n包子/n本称/n中国/ns传统/n面食/n}。

S203、对所述中文候选词集合H₁进行关键词提取，获得中文候选关键词集合K₁。

对上例进行关键词提取，获得中文候选关键词集合K₁：{本称中国蛮头古称别称包子面食传统馍馍馒头蒸馍}。

S300、基于所述中文候选关键词集合K₁，获取初始同义词集合E₁；

其中，所述S300包括：

对所述中文候选关键词集合K₁，进行排序处理；从排序处理后获得的中文候选关键词集合中，将第1个关键词作为初始同义词集合E₁。

S400、将初始同义词集合E₁放入初始的中文同义词集合池P中；

S500、对于中文候选关键词集合K₁中的每一个候选关键词x_i，基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k，获得类型得分最大值

所对应的同义词集合

计算该候选关键词x_i与同义词集合

的相似性约束策略得分

以及领域独立约束策略得分

若类型得分最大值

相似性约束策略得分

以及领域独立约束策略得分

迭代计算过程，如附图2所示。

其中，所述预训练好的语境同义词识别分类器bc-snc(X)的训练过程为：

S501、基于Scrapy爬虫工具，抓取百科类文本信息框数据，并从所述百科类文本信息框数据中抽取别名字段文本集合，具体实例结果如下：

以馒头为例，百科文本信息框中别名字段文本集为：{馍馍蛮头蒸饼}；以元宵节为例，百科文本信息框中别名字段文本集为{上元节天官节春灯节小正月元夕}

S502、基于自然语言处理工具jieba，对别名字段文本集合进行分词与词性标注处理，生成同义词扩展训练初始数据集D₁，具体实例结果如下:

中文同义词种子集合D₁：D₁＝{{馒头馍馍蛮头蒸饼},{元宵节上元节天官节春灯节小正月元夕},…}。

S503、基于同义词扩展训练初始数据集D₁构建同义词扩展训练数据集T₁；

其中，S503包括：对所述同义词扩展训练初始数据集D₁进行正采样，获得中文同义词扩展训练数据正样本PT₁，具体实例结果如下：

训练数据正样本PT₁：

PT₁＝{{馒头馍馍},{馍馍蒸饼},{蛮头蒸饼},{元宵节上元节}…}。

对所述同义词扩展训练初始数据集D₁进行负采样，获得中文同义词扩展训练数据负样本NT₁，具体实例结果如下：

训练数据负样本NT₁：NT₁＝{{馒头元宵节},{馍馍春灯节},{蒸饼元夕},…}。

合并所述中文同义词扩展训练数据正样本PT₁和中文同义词扩展训练数据负样本NT₁，获得同义词扩展训练数据集T₁，具体实例结果如下：

中文同义词扩展训练数据集T₁：T₁＝{{PT₁|1},{NT₁|0}}。

S504、获取所述同义词扩展训练数据集T₁中每个同义词的上下文语境集合C₁；

其中，S504包括：对所述同义词扩展训练数据集T₁，获取T₁中每个同义词在文本语料中的前N个关键词和后N个关键词，构成同义词上下文语境集合C₁，具体实例如下：

以馒头的句子“制作馒头所需的原料为面粉、发酵粉、水、碱等。”为例，设置上下文语境窗口大小为5，获得的馒头的上下文语境包括：{原料面粉发酵粉水碱}。

S505、将所述同义词扩展训练数据集T₁和上下文语境集合C₁对原始的语境同义词识别分类器进行迭代训练，获得训练好的语境同义词识别分类器bc-snc(X)。

S600、输出扩展后的中文同义词集合池P。

作为一种可选的实施例，所述基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k的计算公式为：

S_k＝Sigmoid(bc-snc(XE_k∪x_i,C₁)-bc-snc(XE_k,C₁))

其中，bc-snc为孪生神经网络模型，Sigmoid(X)＝1/(1+e^-x)。

作为一种可选的实施例，所述相似性约束策略得分

的计算公式为：

其中，

作为一种可选的实施例，所述领域独立约束策略得分

的计算公式为：

其中，

KL(x_i,t_j)＝∑[p(x_i)log(p(x_i))-p(x_i)log(q(t_j))]。

本发明公开的一种中文同义词扩展方法，与已有的方法比较，具有如下特点和优点：

(1)本发明利用少量同义词种子集合作为训练数据集来训练中文同义词扩展模型，进而利用中文同义词扩展模型从大量的中文文本数据中扩展更多的同义词集合，解决已有方法同义词抽取覆盖率低的问题。

(2)本发明在中文同义词扩展模型中融入上下文语境信息，不需要人工制定中文同义词模板和定义同义语义特征，有效地解决中文同义词模板制定耗时耗力、中文同义语义特征抽取困难问题。

(3)本发明在中文同义词扩展模型中融入两种约束策略，即：相似性约束策略和领域独立约束策略，进而可获得高准确率的同义词集合，以解决中文非结构化文本中同义词扩展准确率低的问题。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

作为本发明的第二个方面，与所述中文同义词扩展方法相对应的，本发明还提供了一种中文同义词扩展装置，如图3所示，包括：

第一采集模块10，用于获取任意非结构化中文文本集合；

第二采集模块20，用于基于所述非结构化中文文本集合，获取中文候选关键词集合K₁；

第三采集模块30，用于基于所述中文候选关键词集合K₁，获取初始同义词集合E₁；

放置模块40，用于将初始同义词集合E₁放入初始的中文同义词集合池P中；

计算模块50，用于对于中文候选关键词集合K₁中的每一个候选关键词x_i，基于预训练好的语境同义词识别分类器bc-snc(X)分别计算该候选关键词x_i与所述中文同义词集合池P中每一个同义词集合E_k的类型得分S_k，获得类型得分最大值

所对应的同义词集合

计算该候选关键词x_i与同义词集合

的相似性约束策略得分

以及领域独立约束策略得分

若类型得分最大值

相似性约束策略得分

以及领域独立约束策略得分

输出模块60，用于输出扩展后的中文同义词集合池P。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。