CN110688452A

CN110688452A - 一种文本语义相似度评估方法、系统、介质和设备

Info

Publication number: CN110688452A
Application number: CN201910782086.0A
Authority: CN
Inventors: 孙健; 汤宇腾; 彭德光; 白梨; 唐贤伦
Original assignee: Chongqing Trillion Light Polytron Technologies Inc
Current assignee: Chongqing Trillion Light Polytron Technologies Inc
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-14
Anticipated expiration: 2039-08-23
Also published as: CN110688452B

Abstract

本发明提出一种文本语义相似度评估方法、系统、介质和设备，包括获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型；根据所述语义向量模型对所述文本数据集中的文本进行排序；专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集；将所述训练样本集作为神经网络的输入，训练文本语义相似模型；将用户的询问语句输入所述语义相似模型，获取文本检索结果；在大量词频相似或语义具有专业知识情境下，本发明能有效提高文本检索的效率和准确性。

Description

一种文本语义相似度评估方法、系统、介质和设备

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本语义相似度评估方法、系统、介质和设备。

背景技术

目前对于文本相似度的研究主要倾向于两个方面：文本表示和相似度计算。关于文本表示，目前主要有词袋法和TF-IDF(term frequency and inverse documentfrequency)等标准文本表示方法。而常用的相似度计算方法包括余弦相似度、欧氏距离、杰卡德系数等。当文本之间单词重叠率不高且存在需要专业知识才能准确理解时，词袋法和TF-IDF词向量表示方法将不再适用于表示文本间的相似性。这是由于词袋法和TF-IDF等表示方法往往忽略了单词的词序以及单词间的关联性。而且基于上述文本表示方法的相似度计算方法更多是针对于文本中的词频组成的词向量，而非文本语义的相似度。

此外，传统的文本处理方法，往往需要预先消耗大量的人工成本进行数据标注，费时费力且效率低。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种文本语义相似度评估方法、系统、介质和设备，主要解决如何提高文本间语义相似性计算的准确性问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种文本语义相似度评估方法，包括：

获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型；

根据所述语义向量模型对所述文本数据集中的文本进行排序；

专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集；

将所述训练样本集作为神经网络的输入，训练文本语义相似模型；

将用户的询问语句输入所述语义相似模型，获取文本检索结果。

可选地，所述通过无监督学习方式构建语义向量模型包括：

获取所述文本数据集中文本对应的目标词向量；

根据所述文本数据集获取对应的询问文本；

获取所述询问文本对应的询问词向量；

根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数；

根据所述语义相似度函数计算所述文本数据集与所述询问文本中对应语句的语义相似度，获取语义向量模型。

可选地，所述语义相似度函数包括：

Simh(Q,D)＝P_d*(T_d-Dist(Q,D))/T_d+P_c*Cos(Q，D)

其中，Q表示所述询问文本词向量集合，D表示所述文本数据集中的文本词向量集合；Dist(Q，D)为距离相似度，Cos(Q，D)为余弦相似度；P_d表示距离相似度的权重，P_c表示余弦相似度的权重；T_d为距离相似度的阈值。

可选地，所述创建训练样本集包括：

根据所述文本数据集中文本与所述询问文本中语句的相似度大小，对所述文本数据集中的文本语句进行排序，

根据设定的所述语义相似度阈值，按照排序结果将所述文本数据集中文本对应的语句与所述询问文本对应的语句组成训练数据组；

专业人员依据领域知识校准所述训练数据组，创建训练样本集。

可选地，所述训练文本语义相似度模型包括：

创建神经网络拓扑结构；

利用所述神经网络的激活函数构造预测模型；

根据所述预测模型构造所述神经网络的损失函数；

将所述训练样本集输入所述神经网络，训练所述文本语义相似模型。

可选地，所述预测模型表示为：

其中，

表示所述文本数据集中与询问文本中语句对应的第i个词向量；Q_i表示所述询问文本中的第i个词向量；f表示语义相似度分数；k表示所述文本数据集中被选中作为所述训练样本集的第K个词向量；N为所述文本数据集中文本总数。

可选地，所述损失函数表示为：

其中，M为所述训练样本集中训练样本的数量；

表示所述文本数据集中与询问文本中语句对应的第i个词向量；Q_i表示所述询问文本中的第i个词向量。

一种文本语义相似度评估系统，包括：

模型创建模块，用于获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型；

排序模块，根据所述语义向量模型对所述文本数据集中的文本进行排序；

校准模块，用于专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集；

语义模型训练模块，用于将所述训练样本集作为神经网络的输入，训练文本语义相似模型；

应用模块，用于将用户的询问语句输入所述语义相似模型，获取文本检索结果。

一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序被处理器加载执行时，实现所述文本语义相似度评估方法。

一种设备，包括处理器和存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载并执行所述计算机程序，使得所述设备执行所述文本语义相似度评估方法。

如上所述，本发明一种文本语义相似度评估方法、系统、介质和设备，具有以下有益效果。

通过计算文本间的语义相似的，获取文本间的语义关联性，并加入人为校准标记，可提高文本检索的准确性；通过语义相似度排序筛选样本，快速缩小文本检索的范围，提高文本检索的效率。

附图说明

图1为本发明一实施例中的文本语义相似度评估方法的流程图。

图2为本发明一实施例中的文本语义相似度评估系统的模块图。

图3为本发明一实施例中的设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种文本语义相似度评估方法，包括步骤S01-S05。

在步骤S01中，获取文本数据，创建文本数据集，并通过无监督学习方式构建语义向量模型：

可从维基百科Wikipedia、WordNet和DBpedia等公用的文本知识网站中获取文本数据。维基百科等百科全书类网站包含众多的知识门类，可以通过词条检索的方式获取某一领域的知识文本。以法律领域为例，司法判例可以为律师提供直接的参考信息，有利于律师根据参考信息做出陈述。同样的在法律咨询中，在先的司法案例如与当前案件具有较高的相似性，则可作为当前案件的一种具有足够说服力的工具。因此，可从百科类网站中抓取有关法律的各类判例及其他文本资料，并输入本地数据库中，创建法律文本数据集。

在一实施例中，构建语义向量模型，还需要获取文本数据集对应的询问文本，询问文本的获取可通过收集整理网站上用户通常的询问语句，也可通过本领域专家整理该领域常见的询问文本。以法律领域为例，可通过Python等爬虫工具从法务之家、法务论坛等处抓取询问语句，构建询问文本。

计算询问文本和文本数据集中文本的语义相似度。在进行相似度计算之前，可预先对文本数据集中的文本进行分词处理，分词可采用常规的Hanlp分词方法，这里不对具体分词方法进行限制。

将经过分词的到的词语通过word2vec转化成词向量。也可采用TF-IDF算法构建文本数据集对应的词向量，获取文本数据集中文本对应的目标词向量。

在一实施例中，也可采用同样的方法获取询问文本对应的询问词向量。

在一实施例中，假设有询问文本Q和文本数据集中文本D，文本Q由N_q个单词组成，询问文本Q的向量空间可表示为：

其中，表示询问文本Q中第K个单词的词向量。

同样的，文本D由N_d个单词组成，文本D的向量空间可表示为：

其中，

表示文本D中第K个单词的词向量。

计算文本Q和D的距离相似度Dist(Q,D)，可表示为：

其中，

表示询问文本Q中第K个单词的词向量与文本D中词向量的距离，其具体可表示为：

其中，dist表示两个词向量间的欧式距离。

距离相似度的权重可通过标准化的TF-IDF算法计算得到，具体可表示为：

其中，tfidf_k对应第K个单词的词频。

为了保持距离相似度计算的对称性，可将Dist(Q,D)进一步表示为：

Dist(Q,D)＝min{Dist(Q,D),Dist(D，Q)}

在一实施例中，根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数，可表示为：

Sim_h(Q,D)＝P_d*(Td-Dist(Q,D))/Td+P_c*Cos(Q,D)

其中，P_d表示距离相似度的权重，P_c表示余弦相似度的权重；T_d为距离相似度的阈值，其中P_d+P_c＝1。将阈值引入语义相似度函数是为了保障在距离相似度的值为0，余弦相似度值为1时，语义相似度的值为1。P_d和P_c的值可根据经验进行调整。

根据构造的语义相似度函数可以计算出询问文本中对应语句与文本数据集中对应文本的语义相似度。通过询问文本和文本数据集进行模型训练，获取语义向量模型。

在步骤S02中，根据所述语义向量模型对所述文本数据集中的文本进行排序：

可以按照计算得到的语义相似度值由大到小对文本数据集中的文本进行排序。在一实施例中，根据询问文本中语句的语义，可获取对应的聚类文本数据，聚类的每一个类别的文本数据可按照相似度的大小进行降序排列。

在步骤S03中，专业人员根据专业知识校准文本排序结果，并根据校准结果创建训练样本集：

可通过专业人员对排序结果进行人工校准。在一实施例中，也可设置语义相似度阈值，根据步骤S02中得到的排序结果，结合语义相似度的阈值可筛选出对应的文本数据库中文本。根据步骤S02中的聚类类别可将询问文本中的语句与文本数据库中的文本组成训练数据组。将所有的训练数据组整合成训练样本集，用于训练文本检索模型。

在一实施例中，假设询问文本包含M个询问语句，可表示为：

{Q_i，i＝1，...，M}

用户可通过选择任何一个询问语句Q_i获取语义相似度较高的文本数据集中文本。以

表示经过筛选的文本数据集中的文本，则训练样本集可表示为：

在步骤S04中，将训练样本集作为神经网络的输入，训练文本语义相似模型，获取与询问文本语义相似度最高的所述文本数据集中的文本。

在一实施例中，将训练样本集中的训练数据组作为输入，创建神经网络拓扑结构；可采用卷积神经网络构造网络拓扑结构。卷积神经网络通常包括输入层、卷积层、池化层、隐含层和输出层。卷积层利用多个过滤器的窗函数以不同间隔提起输入数据的特征，文本中所有信息将积聚在卷积层。再由池化层对特征信息进行进一步筛选，根据池化层的阈值，筛选出达到阈值的特征数据，通过卷积神经网络对输出结果进行打分。

在一实施例中，设置隐含层的激活函数为双曲函数tanh，则通过双曲函数构造的预测模型可表示为：

其中，f为语义相似度分数；k表示所述文本数据集中被选中作为所述训练样本集的第K个词向量，N为文本数据集中文本总数。

根据预测模型构造卷积神经网络的损失函数，具体可表示为：

其中，M为训练样本集中的样本数量。

根据前述构造的神经网络拓扑结构，将训练样本输入卷积神经网络，对训练样本进行评分，得到文本语义相似模型。

在步骤S05中，将用户的询问语句输入所述语义相似模型，获取文本检索结果：

在一实施例中，可以根据用户输入的询问文本，通过询问文本与文本数据集按照构建训练样本集的方法构建检索文本对，将检索文本对输入文本语义相似模型，检索文本对评分越高，则语义相似度越高，根据评分情况获取与询问文本语义相似度最高的文本数据集中的文本。

根据本发明的实施例，还提供了一种计算机存储介质，存储介质中存储有计算机程序，该计算机程序执行时可以实现前述的语义分析识别方法。计算机存储介质可以包括计算机存储的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质包括磁性介质(如：软盘、硬盘、磁带)、光介质(如：DVD)、半导体介质(如：固态硬盘)等。

请参阅图2，本实施例提供一种文本语义相似度评估系统，用于执行前述方法实施例中所述的语义分析识别方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。

在一实施例中，文本语义相似度评估系统包括模型创建模块10、排序模块11、校准模块12、语义模型训练模块13、应用模块14。模型创建模块10用于辅助执行执行前述方法实施例介绍的步骤S01，排序模块11用于执行前述方法实施例介绍的步骤S02，校准模块12用于执行前述方法实施例中的步骤S03；语义模型训练模块13用于执行前述方法实施例中的步骤S04；应用模块14用于执行前述方法实施例中的步骤S05。

请参阅图3，本实施例提供一种设备，设备可以是台式机、便携式电脑等，具体地，设备至少包括处理器20和存储器21。

处理器20用于执行前述方法实施例中的全部或部分步骤。处理器20可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明一种文本相似度评估方法、系统、介质和设备，通过通过相似度计算进行文本排序，根据排序结果进行文本筛选，可代替人工获取标注数据；经过筛选后的文本数据用于构建训练样本集，可极大地提高文本检索销率；通过构造神经网络，训练文本语义相似模型，将经过相似度计算的样本作为神经网络输入，增强语句之间的关联性，可有效增强文本语义检索的准确性。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种文本语义相似度评估方法，其特征在于，包括：

2.根据权利要求1所述的文本语义相似度评估方法，其特征在于，所述通过无监督学习方式构建语义向量模型包括：

获取所述文本数据集中文本对应的目标词向量；

根据所述文本数据集获取对应的询问文本；

获取所述询问文本对应的询问词向量；

3.根据权利要求2所述的文本语义相似度评估方法，其特征在于，所述语义相似度函数包括：

Simh(Q，D)＝P_d*(T_d-Dist(Q，D))/T_d+P_c*Cos(Q，D)

其中，Q表示所述询问文本词向量集合，D表示所述文本数据集中的文本词向量集合；Dist(Q,D)为距离相似度，Co_s(Q,D)为余弦相似度；P_d表示距离相似度的权重，P_c表示余弦相似度的权重；T_d为距离相似度的阈值。

4.根据权利要求2所述的文本语义相似度评估方法，其特征在于，所述创建训练样本集包括：

5.根据权利要求1所述的文本语义相似度评估方法，其特征在于，所述训练文本语义相似度模型包括：

创建神经网络拓扑结构；

利用所述神经网络的激活函数构造预测模型；

根据所述预测模型构造所述神经网络的损失函数；

6.根据权利要求5所述的文本语义相似度评估方法，其特征在于，所述预测模型表示为：

其中，

7.根据权利要求5所述的文本语义相似度评估方法，其特征在于，所述损失函数表示为：

其中，M为所述训练样本集中训练样本的数量；

8.一种文本语义相似度评估系统，其特征在于，包括：

9.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现权利要求1至7任一所述的方法。

10.一种设备，其特征在于，包括处理器和存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载并执行所述计算机程序，使得所述设备执行权利要求1至7中任一所述的方法。