CN110427613A

CN110427613A - 一种近义词发现方法及其系统、计算机可读存储介质

Info

Publication number: CN110427613A
Application number: CN201910638943.XA
Authority: CN
Inventors: 饶竹一; 张云翔
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-08
Anticipated expiration: 2039-07-16
Also published as: CN110427613B

Abstract

本发明为一种近义词发现方法及其系统、计算机可读存储介质，所述方法包括：获取原始语料数据，并确定原始语料数据中的待识别词汇；获取待识别词汇的词意向量；根据词意向量生成与词意向量对应的词向量数据库；将词意向量与词向量数据库中的近义词进行匹配，获取词向量数据库中与词意向量对应的多个候选近义词；将多个候选近义词分别替代原始语料数据中待识别词汇得到对应的多个二次语料数据；对原始语料数据进行语义分析得到第一语义分析结果，并对多个二次语料数据分别进行语义分析得到多个第二语义分析结果；将多个第二语义分析结果逐一与第一语义分析结果进行对比，并根据对比结果确定待识别词汇的近义词。本发明能够提高近义词发现的精准性。

Description

一种近义词发现方法及其系统、计算机可读存储介质

技术领域

本发明涉及近义词发现技术领域，具体涉及一种近义词发现方法及其系统、计算机可读存储介质。

背景技术

近义词，是指词汇意义相同或相近的词语，如“美好”和“美妙”、“懒惰”和“怠惰”、“枯萎”和“干枯”、“宽敞”和“宽阔”，与“近义词”意思相近的词为同义词，近义词的识别和发现在信息检索、信息表示以及编制后控制词表等，都具有十分重要的意义，目前近义词发现方法主要侧重于基于词汇字面相似度算法、基于词素的语义相似度算法以及基于语义词典的语义相似度算法，这些分类体系和词表资源都是手工构建的，无需机器学习，能够保证一定程度的质量，但是却要花费大量的人力为代价，并且人力在构建分类体系和词表资源时容易出现一定错误，影响近义词识别和发现的精准程度。

发明内容

本发明的目的在于提出一种基于词向量的近义词发现方法及其系统、计算机可读存储介质，以提高近义词识别和发现的精准性。

为了实现本发明目的，根据本发明第一方面，本发明实施例提供一种近义词发现方法，所述方法包括如下步骤：

获取原始语料数据，并确定所述原始语料数据中的待识别词汇；

获取所述待识别词汇的词意向量；

根据所述词意向量生成与所述词意向量对应的词向量数据库；

将所述词意向量与所述词向量数据库中的近义词进行匹配，获取词向量数据库中与所述词意向量对应的多个候选近义词；

将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；

对所述原始语料数据进行语义分析得到第一语义分析结果，并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果；

将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。

优选地，所述获取所述待识别词汇的词意向量包括：

根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量；

采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。

优选地，所述根据所述词意向量生成与所述词意向量对应的词向量数据库包括：

采用词意向量训练工具对所述词意向量进行训练得到与所述词意向量对应的词向量数据库，所述词向量数据库包括与所述待识别词汇对应的多个候选近义词。

优选地，所述根据对比结果确定所述待识别词汇的近义词包括：

若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差，则确定该候选近义词不是所述待识别词汇的近义词，否则，确定该候选近义词为所述待识别词汇的近义词。

若根据对比结果确定所述待识别词汇的近义词为一个，则输出该近义词；

若根据对比结果确定所述待识别词汇的近义词为多个，则分别计算多个近义词与所述待识别词汇的词意向量的相似度，并将多个近义词按相似度排序后输出。

根据本发明第二方面，本发明实施例提供一种近义词发现系统，包括：

数据获取单元，被配置为获取原始语料数据并确定所述原始语料数据中的待识别词汇；

词意向量获取单元，被配置为获取所述待识别词汇的词意向量；

数据库生成单元，被配置为根据所述词意向量生成与所述词意向量对应的词向量数据库；

近义词匹配单元，被配置为将所述词意向量与所述词向量数据库中的近义词进行匹配，获取词向量数据库中与所述词意向量对应的多个候选近义词；

语料数据处理单元，被配置为将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；

语义分析单元，被配置为对所述原始语料数据进行语义分析得到第一语义分析结果，并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果；

近义词筛选单元，被配置为将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。

优选地，所述词意向量获取单元包括：

第一词意向量单元，被配置为根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量；

第二词意向量单元，被配置为采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。

优选地，所述近义词筛选单元包括：

语义对比单元，用于将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比；

近义词确定单元，用于根据对比结果确定所述待识别词汇的近义词；其中，若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差，则确定该候选近义词不是所述待识别词汇的近义词，否则，确定该候选近义词为所述待识别词汇的近义词。

优选地，所述近义词筛选单元包括：

近义词排序输出单元，被配置为将近义词进行排序并输出；其中，若根据对比结果确定所述待识别词汇的近义词为一个，则输出该近义词；若根据对比结果确定所述待识别词汇的近义词为多个，则分别计算多个近义词与所述待识别词汇的词意向量的相似度，并将多个近义词按相似度排序后输出。

根据本发明第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述近义词发现方法。

在本发明实施例中，采用词向量训练工具对需要发现近义词的数据进行数据库和词向量训练得到对应的模型，通过预先训练好的模型获取待识别词汇的多个候选近义词，然后将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；基于深度学习网络模型对所述原始语料数据和所述多个二次语料数据分别进行语义分析得到第一语义结果和多个第二语义分析结果；最后将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。本发明实施例提供的方法步骤可以在计算机上自动执行，解决人力在构建分类体系和词表资源时容易出现错误的问题，提高近义词识别和发现的精准程度和效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中一种近义词发现方法流程图。

图2为本发明实施例二中一种近义词发现系统示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

如图1所示，本发明实施例一提供本发明实施例提供一种近义词发现方法，所述方法包括如下步骤：

步骤S1、获取原始语料数据，并确定所述原始语料数据中的待识别词汇；

步骤S2、获取所述待识别词汇的词意向量；

步骤S3、根据所述词意向量生成与所述词意向量对应的词向量数据库；

步骤S4、将所述词意向量与所述词向量数据库中的近义词进行匹配，获取词向量数据库中与所述词意向量对应的多个候选近义词；

步骤S5、将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；

步骤S6、对所述原始语料数据进行语义分析得到第一语义分析结果，并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果；

步骤S7、将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。

具体而言，本实施例在进行近义词的识别和发现之前，将需要发现同义词的数据进行采集，在获取需要发现同义词的数据时，会将需要发现同义词的词汇所在段落和文档进行整体采集，随后对采集到的语料数据依次进行去标点符号、分词、去停用词和大写转换为小写处理，选取语料数据中给定的词汇，对词汇所在段落进行去标点符号、分词、去停用词和大写转换为小写处理；词库内存储的词汇数据会通过词向量训练工具进行训练，得到对应每个词汇的词向量数据库，并将词向量数据库进行保存；使用词向量训练工具(例如Word2vec)分别对预处理后的语料数据和语料数据中的词汇进行训练，之后通过梯度优化的方式，对训练得出的对应语料数据的词向量和对应词汇的词向量进行处理，得出语料数据的词向量和对应词汇的词向量最优解。其中，最优解是指代入的语料数据的词向量和对应词汇的词向量与词向量数据库对比，产生的最相似解，采用梯度下降算法，将得出的语料数据词向量和对应词汇词向量最优解进行计算，求解原理为梯度下降算法计算。其中，自然语言处理的都是文字，如要对100个文字的小段文本做分析，而算法运算需要的输入是数字，比如y＝w*x+b，无论是中文汉字还是英文字母，都需要将文字映射成数字才行，映射后的结果就是词向量，词库内的词汇数据会在训练后形成计算机能快速识别的词向量数据。

在一些实施例中，所述步骤S2包括：

具体而言，局部加权算法是指在每次预测新样本时会重新训练临近的数据得到新参数值，从而得到样本的最优解。

在一些实施例中，所述步骤S3包括：

在一些实施例中，所述步骤S7中根据对比结果确定所述待识别词汇的近义词包括：

具体而言，所述相似度通过计算得出的词向量数据库中与词汇词意向量会转化为计算机所能识别的语言进行校对，将计算得出的词向量数据库中与词汇词意向量进行对比，计算机可自动筛选出差异最小的词汇。

进一步地，根据近义词对应的相似度与预设相似度的比较结果来确定近义词最终是否输出该近义词，例如只输出相似度大于90％的近义词。

如图2所示，本发明实施例二提供一种近义词发现系统，包括：

数据获取单元1，被配置为获取原始语料数据并确定所述原始语料数据中的待识别词汇；

词意向量获取单元2，被配置为获取所述待识别词汇的词意向量；

数据库生成单元3，被配置为根据所述词意向量生成与所述词意向量对应的词向量数据库；

近义词匹配单元4，被配置为将所述词意向量与所述词向量数据库中的近义词进行匹配，获取词向量数据库中与所述词意向量对应的多个候选近义词；

语料数据处理单元5，被配置为将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；

语义分析单元6，被配置为对所述原始语料数据进行语义分析得到第一语义分析结果，并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果；

近义词筛选单元7，被配置为将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。

在一些实施例中，所述词意向量获取单元2包括：

第一词意向量单元21，被配置为根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量；

第二词意向量单元22，被配置为采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。

在一些实施例中，所述近义词筛选单元7包括：

语义对比单元71，用于将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比；

近义词确定单元72，用于根据对比结果确定所述待识别词汇的近义词；其中，若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差，则确定该候选近义词不是所述待识别词汇的近义词，否则，确定该候选近义词为所述待识别词汇的近义词。

在一些实施例中，所述近义词筛选单元7包括：

近义词排序输出单元73，被配置为将近义词进行排序并输出；其中，若根据对比结果确定所述待识别词汇的近义词为一个，则输出该近义词；若根据对比结果确定所述待识别词汇的近义词为多个，则分别计算多个近义词与所述待识别词汇的词意向量的相似度，并将多个近义词按相似度排序后输出。

需说明的是，本实施例二所述系统用于实现所述实施例一所述方法，因此，关于本实施例二所述系统未详述的有关部分可以参阅实施例一所述方法得到，此处不再赘述。

还应该理解，可以以很多方式实施实施例一所述方法和实施例二所述系统，包括作为过程、装置或系统。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施，非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(CD)或数字通用碟(DVD))、闪速存储器等。在一些实施例中，程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。

本发明实施例三提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述的近义词发现方法。

通过以上实施例描述可知，本发明采用词向量训练工具对需要发现近义词的数据进行数据库和词向量训练得到对应的模型，通过预先训练好的模型获取待识别词汇的多个候选近义词，然后将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据；基于深度学习网络模型对所述原始语料数据和所述多个二次语料数据分别进行语义分析得到第一语义结果和多个第二语义分析结果；最后将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比，并根据对比结果确定所述待识别词汇的近义词。本发明实施例提供的方法步骤可以在计算机上自动执行，解决人力在构建分类体系和词表资源时容易出现错误的问题，提高近义词识别和发现的精准程度和效率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种近义词发现方法，其特征在于，所述方法包括如下步骤：

获取所述待识别词汇的词意向量；

2.如权利要求1所述的近义词发现方法，其特征在于，所述获取所述待识别词汇的词意向量包括：

3.如权利要求1所述的近义词发现方法，其特征在于，所述根据所述词意向量生成与所述词意向量对应的词向量数据库包括：

4.如权利要求1所述的近义词发现方法，其特征在于，所述根据对比结果确定所述待识别词汇的近义词包括：

5.如权利要求4所述的近义词发现方法，其特征在于，所述根据对比结果确定所述待识别词汇的近义词包括：

6.一种近义词发现系统，其特征在于，包括：

7.如权利要求6所述的近义词发现系统，其特征在于，所述词意向量获取单元包括：

8.如权利要求6所述的近义词发现系统，其特征在于，所述近义词筛选单元包括：

9.如权利要求8所述的近义词发现系统，其特征在于，所述近义词筛选单元包括：

10.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～5中任一项所述的近义词发现方法。