CN113220865B

CN113220865B - 一种文本相似词汇检索方法、系统、介质及电子设备

Info

Publication number: CN113220865B
Application number: CN202110406519.XA
Authority: CN
Inventors: 郑元杰; 庄承阳; 姜岩芸; 刘弘; 黄文慧
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-06-24
Anticipated expiration: 2041-04-15
Also published as: CN113220865A

Abstract

本公开提供了一种文本相似词汇检索方法、系统、介质及电子设备，获取文本中的待聚类的词语；根据获取的词语，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重，根据权重得到最终的词嵌入向量；根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类；本公开结合词语内部的笔画信息、子字符信息和字符信息，给予词语内部组件合理的权重，实现了词嵌入向量的联合优化，提高了词嵌入向量的质量，极大的提高了文本相似词汇检索的准确度。

Description

一种文本相似词汇检索方法、系统、介质及电子设备

技术领域

本公开涉及文本数据处理技术领域，特别涉及一种文本相似词汇检索方法、系统、介质及电子设备。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

自然语言处理作为计算机科学和人工智能(Artificial Intelligence,AI)领域的重要研究学科具有巨大的优势。自然语言处理的研究目的在于使计算机理解和应用人类语言，从而实现人机之间的声音、文字、图像等信息交互。

把单词视为基本单元，并将单词映射到向量空间来学习词嵌入已成为一种重要的方法。词向量作为语言模型的输入单词特征，在自然语言处理任务中有着广泛的应用，比如情感分析、命名实体识别、命名实体消歧、机器翻译、文本分类和文本语义相似性分析。词嵌入向量作为单词特征，能够从多个角度去考虑词的信息，不仅蕴含着词语与词语在向量空间上的距离信息，还包含着丰富的语义信息。但是，传统的训练词嵌入向量的方法需要消耗巨大的计算资源，无法高效的处理以亿计的大规模文本语料库。

发明人发现，与英文不同的是，中文词语可能由一个或多个字符组成，并且，每一个字符包含着丰富的语义信息。比如说，词语“眼睛”由汉字“眼”和汉字“睛”两个字符组成。现有的方案中并未考虑构成词语的笔画、子字符和字符对于表达词语语义的贡献度的问题，通常情况下，词语能够表达出80％-90％的语义信息，然而只根据构成词语的字符、子字符和笔画，无法完全的表达出词语的整个语义。

发明内容

为了解决现有技术的不足，本公开提供了一种文本相似词汇检索方法、系统、介质及电子设备，结合词语内部的笔画信息、子字符信息和字符信息，给予词语内部组件合理的权重，实现了词嵌入向量的联合优化，提高了词嵌入向量的质量，极大的提高了文本相似词汇检索的准确度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种文本相似词汇检索方法。

一种文本相似词汇检索方法，包括以下过程：

获取目标词语和待检索的包含多个词语的文本数据；

根据获取的目标词语和文本数据，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重，根据权重得到最终的词嵌入向量；

根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类，根据聚类结果得到与目标词语匹配的识别结果。

进一步的，根据获取的词语，使用Skip-Gram语言模型，得到初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量；

分别根据初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量，得到各自构建的词嵌入向量在词语相似度任务上的得分；

根据得分和预设转换函数，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重。

更进一步的，预设转换函数为：F(x)＝e^x-1。

更进一步的，笔画、子字符、字符和词语在构建词嵌入向量过程中的权重为：

其中，λ₁,λ₂,λ₃,λ₄分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重，ρ1、ρ2、ρ3和ρ4分别为笔画、子字符、字符和词语的得分。

更进一步的，分别利用初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量，在预设数据集上进行相似度任务评估；

计算词语之间的相似度，使用标注得分和由词嵌入向量计算的相似度值计算皮尔逊相关系数，取皮尔逊相关系数的平均值作为词嵌入向量在词语相似度任务上的得分。

更进一步的，利用字符构建的词嵌入向量为各个字符向量的加和与字符向量个数的比值。

更进一步的，利用子字符构建的词嵌入向量为各个子字符向量的加和与字符向量个数的比值。

更进一步的，利用笔画构建的词嵌入向量为各个笔画向量的加和与笔画向量个数的比值。

本公开第二方面提供了一种文本相似词汇检索系统。

一种文本相似词汇检索系统，包括：

数据获取模块，被配置为：获取文本中的待聚类的词语；

词嵌入向量构建模块，被配置为：根据获取的词语，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重，根据权重得到最终的词嵌入向量；

词汇检索模块，被配置为：根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的文本相似词汇检索方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的文本相似词汇检索方法中的步骤。

与现有技术相比，本公开的有益效果是：

本公开所述的文本相似词汇检索方法、系统、介质及电子设备，结合词语内部的笔画信息、子字符信息和字符信息，给予词语内部组件合理的权重，实现了词嵌入向量的联合优化，提高了词嵌入向量的质量，极大的提高了文本相似词汇检索的准确度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为公开实施例1提供的词嵌入向量的构建方法的流程示意图。

图2为公开实施例1提供的优化词嵌入向量的方法示意图。

图3为公开实施例1提供的结果示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1-3所示，本公开实施例1提供了一种文本相似词汇检索方法，包括以下过程：

获取目标词语和待检索的包含多个词语的文本数据；

具体的，词嵌入向量的获取，包括以下内容：

步骤(1)：使用Skip-Gram语言模型获取初始词嵌入向量、初始字符嵌入向量、初始子字符嵌入向量、初始笔画嵌入向量。

步骤(2)：使用仅由字符组成的词嵌入向量，在WordSim-297数据集上进行词语相似度任务评估。对WordSim-297数据集中的297对数据计算词语之间的相似度，使用人工标注得分和由词嵌入向量计算的相似度值计算皮尔逊相关系数，取皮尔逊相关系数的平均值作为词嵌入向量在词语相似度任务上的最终得分。

在步骤(2)中，定义滑动窗口中的第i个词语为w_i，该词语由n个汉字组成，汉字集合定义为C＝{c_i1,c_i2,…,c_i(n-1),c_in}，此时能够得到仅使用汉字构建的词嵌入向量，仅使用汉字构建词嵌入向量的公式如下所示：

步骤(3)：使用仅由子字符组成的词嵌入向量，在WordSim-297数据集上进行词语相似度任务评估。对WordSim-297数据集中的297对数据计算词语之间的相似度，使用人工标注得分和由词嵌入向量计算的相似度值计算皮尔逊相关系数，取皮尔逊相关系数的平均值作为词嵌入向量在词语相似度任务上的最终得分。

在步骤(3)中：定义滑动窗口中第i个词语为w_i，词语由n个汉字组成，汉字集合定义为C＝{c_i1,c_i2,…,c_i(n-1),c_in}，词语由m个子字符组成，子字符集合定义为Sub＝{sub_i1,sub_i2,…,sub_i(m-1),sub_imn}。

于是，能够生成仅使用子字符构建的词嵌入向量，仅使用子字符构建词嵌入向量的公式如下所示：

步骤(4)：使用仅由笔画串组成的词嵌入向量，在WordSim-297数据集上进行词语相似度任务评估。对WordSim-297数据集中的297对数据计算词语之间的相似度，使用人工标注得分和由词嵌入向量计算的相似度值计算皮尔逊相关系数，取皮尔逊相关系数的平均值作为词嵌入向量在词语相似度任务上的最终得分。

在步骤(4)中：定义滑动窗口中第i个词语为w_i，词语由n个汉字组成，汉字集合定义为C＝{c_i1,c_i2,…,c_i(n-1),c_in}，词语可以视为由m个子字符组成的形式或者由笔画串组成的形式，子字符集合定义为：

Sub＝{sub_i1,sub_i2,…,sub_i(m-1),sub_im}；

笔画集合定义为：

S＝{s_i1,s_i2,…,s_i(r-1),s_ir}；

利用笔画特征信息生成词嵌入向量的公式如下所示：

步骤(5)：将初始词嵌入向量，仅由字符组成的词嵌入向量，仅由子字符组成的词嵌入向量，仅由笔画串组成的词嵌入向量在词语相似度任务上的得分，经过转换函数进行变换。求取词语内部组件所对应的权重。

在步骤(5)中，利用得分ρ和转换函数F(x)＝e^x-1计算词语、字符、子字符、笔画在构建词嵌入向量中的权重，公式如下所示：

其中，λ₁,λ₂,λ₃,λ₄分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重系数。

最终构建的词嵌入向量如下所示：

根据以上步骤和权重算法，便可以完成在使用语言模型的前提下，使用权重算法构建词嵌入向量，并对词嵌入向量的优化过程。相对于已有的语言模型方法，权重算法能够充分利用笔画、子字符、字符和词语的特征信息，从而构建出最优的词嵌入向量，提高使用词嵌入向量完成文本相似词汇检索任务的准确率

在词语相似度任务上，本实验使用基于权重算法获取的词嵌入向量对WordSim-240数据集中的词对进行了分析，比较了词嵌入向量w(1)、字-词联合嵌入向量w(2)、子字符-字-词联合嵌入向量w(3)和笔画-子字符-字-词联合嵌入向量w(4)的精度。

以词对(“李白”，“诗”)、(“蛋白质”，“文物”)为例，其中在WordSim-240数据集中“李白”和“诗”的人工标注得分为9.2，二者的相似度较高；“蛋白质”和“文物”的人工标注得分为0.15，二者的相似度较低。本实验分别对词对进行分析，发现给予词语内部组件合理的权重后生成的词嵌入向量，对词语相似度比较的效果较好。

同时，本专利获取的词嵌入向量，能够有效提高词语类比推理任务的准确度，如表1所示。

表1：各类语言模型及w(1)、w(2)、w(3)、w(4)在词语类比推理任务上的准确率(％)。

使用笔画-子字符-字-词联合嵌入向量w(4)，在“国家-首都”数据集上的准确率为68.49％，在“城市-省会”数据集上的准确率为73.86％，在“家庭关系”数据集上的准确率为72.93％。

实施例2：

本公开实施例2提供了一种文本相似词汇检索系统，包括：

数据获取模块，被配置为：获取目标词语和待检索的包含多个词语的文本数据；

词嵌入向量构建模块，被配置为：根据获取的目标词语和文本数据，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重，根据权重得到最终的词嵌入向量；

词汇检索模块，被配置为：根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类，根据聚类结果得到与目标词语匹配的识别结果。

所述系统的工作方法与实施例1提供的文本相似词汇检索方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的文本相似词汇检索方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的文本相似词汇检索方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种文本相似词汇检索方法，其特征在于：包括以下过程：

获取目标词语和待检索的包含多个词语的文本数据；

根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类，根据聚类结果得到与目标词语匹配的识别结果；

根据获取的词语，使用Skip-Gram语言模型，得到初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量；

根据得分和预设转换函数，得到词语、字符、子字符和笔画在构建词嵌入向量中的权重；

预设转换函数为：F(x)＝e^x-1；

笔画、子字符、字符和词语在构建词嵌入向量过程中的权重为：

其中，λ₁,λ₂,λ₃,λ₄分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重，ρ1、ρ2、ρ3和ρ4分别为笔画、子字符、字符和词语的得分；

分别利用初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量，在预设数据集上进行相似度任务评估；

2.如权利要求1所述的文本相似词汇检索方法，其特征在于：

利用字符构建的词嵌入向量为各个字符向量的加和与字符向量个数的比值。

3.如权利要求1所述的文本相似词汇检索方法，其特征在于：

利用子字符构建的词嵌入向量为各个子字符向量的加和与字符向量个数的比值。

4.如权利要求1所述的文本相似词汇检索方法，其特征在于：

利用笔画构建的词嵌入向量为各个笔画向量的加和与笔画向量个数的比值。

5.一种文本相似词汇检索系统，其特征在于：包括：

词汇检索模块，被配置为：根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类，根据聚类结果得到与目标词语匹配的识别结果；

预设转换函数为：F(x)＝e^x-1；

6.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-4任一项所述的文本相似词汇检索方法中的步骤。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任一项所述的文本相似词汇检索方法中的步骤。