CN110413988A

CN110413988A - 文本信息匹配度量的方法、装置、服务器及存储介质

Info

Publication number: CN110413988A
Application number: CN201910521519.7A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-11-05
Anticipated expiration: 2039-06-17
Also published as: CN110413988B

Abstract

本发明涉及人工智能领域，公开了一种文本信息匹配度量的方法，所述文本信息匹配度量的方法包括：在接收到目标文本和相似文本时，读取目标文本和相似文本中的字词粒度；根据读取到的目标文本的字词粒度和相似文本的字词粒度，获取目标文本的向量表征信息和相似文本的向量表征信息；当将目标文本的向量表征信息和相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取预置孪生网络模型计算的目标文本与相似文本的相似度；在获取到目标文本与相似文本之间的相似度时，匹配与目标文本相似度最高的相似文本。本发明还公开了一种装置、服务器及存储介质。实现了基于词语和单字集成的文本相似度匹配算法，进一步提高句子语义分析效果。

Description

文本信息匹配度量的方法、装置、服务器及存储介质

技术领域

本发明涉及智能推荐领域，尤其涉及一种文本信息匹配度量的方法、装置、服务器及计算机可读存储介质。

背景技术

最近几年随着word2vec和GloVe等词语分布表示工具的出现和完善，词语的表示信息越来越丰富，每个词向量不仅包含较为丰富的语义信息，同时每个词向量之间还存在一定的关系，可以通过简单的运算来得到预料中未包含词语的向量信息。自2012年来，卷积神经网络(convolutional neural networks，CNN)模型在图像识别中大放异彩，更多的研究者们开始将CNN模型移植到自然语言处理的任务上来，以获取不同文本之间的相似度。

目前业内的问题相似度算法主要包括：1、在平均词嵌入之间求余弦相似性的基准方法；2、词移距离：使用两文本间的词嵌入，测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离；3、Smooth Inverse Frequency对每个词嵌入赋予不同的权重。但这些方法存在基于句子词语的相似度量仍存在无法比较准确，且语义的剥离往往有较大偏差。

发明内容

本发明的主要目的在于提供一种文本信息匹配度量的方法，旨在解决在相似度算法中获取文本的语义往往有较大偏差，导致相似度度量不准确的技术问题。

为实现上述目的，本发明提供一种文本信息匹配度量的方法，所述文本信息匹配度量的方法包括：

在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，其中所述相似文本至少为一个；

根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息；

当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度；

在获取到所述目标文本与所述相似文本之间的相似度时，匹配与所述目标文本相似度最高的相似文本。

可选的，所述在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，包括：

在接收到目标文本和相似文本时，获取预置知识库；

当获取到所述预置知识库时，分解所述目标文本和所述相似文本；

在分解所述目标文本和所述相似文本时，读取所述目标文本和所述相似文本中的字词粒度。

可选的，所述根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息，包括：

在读取到所述目标文本的字词粒度和所述相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型；

根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息；

根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息。

可选的，所述根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息，包括：

当调用所述预置第一神经网络模型时，将读取到的所述目标文本的字词粒度和所述相似文本的字词粒度分别作为所述预置第一神经网络模型的输入值；

在运行所述预置第一神经网络模型时，检测所述预置第一神经网络的权重矩阵以及隐藏层；

在检测到所述预置第一神经网络的权重矩阵以及隐藏层时，分别获取所述预置第一神经网络模型输出的所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息。

可选的，所述根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息之后，所述根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息之前，还包括：

当获取到所述目标文本的字词向量表征信息的数量和所述相似文本的字词向量表征信息的数量时，判断所述目标文本与所述相似文本的字词向量表征信息的数量是否一致；

当所述目标文本的字词向量表征信息的数量与所述相似文本的字词向量表征信息的数量不一致时，根据预置阈值修改所述目标文本或所述相似文本的字词向量表征信息的数量。

可选的，所述根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息，包括：

当调用所述预置第二神经网络模型时，分别将所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息作为所述预置第二神经网络模型的输入值；

在运行所述预置第二神经网络模型时，检测所述预置第二神经网络的权重矩阵以及隐藏层；

在检测到所述预置第二神经网络的权重矩阵以及隐藏层时，获取所述预置第二神经网络模型输出的所述目标文本的向量表征信息和所述相似文本的向量表征信息。

可选的，所述当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度，包括：

在获取到所述目标文本的向量表征信息以及所述相似文本的向量表征信息时，向所述预置孪生神经网络模型中输入所述目标文本的向量表征信息和所述相似文本的向量表征信息；

当输入所述目标文本的向量表征信息和所述相似文本的向量表征信息时，检测到所述预置孪生神经网络模型的注意力机制以及前向网络编码将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为隐藏层的初始值；

根据所述预置孪生神经网络模型的函数公式获取所述目标文本和所述相似文本之间的相似度。

此外，为实现上述目的，本发明还提供一种文本信息匹配度量的装置，所述文本信息匹配度量的装置包括：

读取模块，用于在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，其中所述相似文本至少为一个；

第一获取模块，用于根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息；

第二获取模块，用于当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度；

匹配模块，用于在获取到所述目标文本与所述相似文本之间的相似度时，匹配与所述目标文本相似度最高的相似文本。

可选的，所述读取模块具体用于：

在接收到目标文本和相似文本时，获取预置知识库；

可选的，所述第一获取模块包括：

第一调用单元，用于在读取到所述目标文本的字词粒度和所述相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型；

第一获取单元，用于根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息；

第二获取单元，用于根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息。

可选的，所述第一获取单元具体用于：

可选的，所述第一获取模块，还包括：

判断单元，用于当获取到所述目标文本的字词向量表征信息的数量和所述相似文本的字词向量表征信息的数量时，判断所述目标文本与所述相似文本的字词向量表征信息的数量是否一致；

修改单元，用于当所述目标文本的字词向量表征信息的数量与所述相似文本的字词向量表征信息的数量不一致时，根据预置阈值修改所述目标文本或所述相似文本的字词向量表征信息的数量。

可选的，所述第二获取单元具体用于：

可选的，所述第二获取模块具体用于：

此外，为实现上述目的，本发明还提供一种服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本信息匹配度量程序，所述文本信息匹配度量程序被所述处理器执行时实现如上发明所述的文本信息匹配度量的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文本信息匹配度量程序，所述文本信息匹配度量程序被处理器执行时实现如上发明所述的文本信息匹配度量方法的步骤。

本发明实施例提出的一种文本信息匹配度量的方法、装置、服务器及计算机可读存储介质，通过在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，其中所述相似文本至少为一个；根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息；当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度；在获取到所述目标文本与所述相似文本之间的相似度时，匹配与所述目标文本相似度最高的相似文本，实现了基于词语和单字集成的文本相似度匹配算法，进一步提高句子语义分析效果。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图；

图2为本发明文本信息匹配度量的方法第一实施例的流程示意图；

图3为本发明文本信息匹配度量的方法第二实施例的流程示意图；

图4为本发明文本信息匹配度量的方法第三实施例的流程示意图；

图5为图4中S22的步骤的细化流程示意图；

图6为本发明文本信息匹配度量的方法第四实施例的流程示意图；

图7为图4中S23的步骤的细化流程示意图；

图8为本发明文本信息匹配度量的方法第五实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，其中所述相似文本至少为一个；根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息；当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度；在获取到所述目标文本与所述相似文本之间的相似度时，匹配与所述目标文本相似度最高的相似文本。

由于现有技术在相似度算法中获取文本的语义往往有较大偏差，导致相似度度量不准确。

本发明提供一种解决方案，使基于词语和单字集成的文本相似度匹配算法，进一步提高句子语义分析效果。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端是服务器。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本信息匹配度量程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的文本信息匹配度量程序，并执行以下操作：

在接收到目标文本和相似文本时，读取目标文本和相似文本中的字词粒度，其中所述相似文本至少为一个；

根据读取到的目标文本的字词粒度和相似文本的字词粒度，获取目标文本的向量表征信息和相似文本的向量表征信息；

当将目标文本的向量表征信息和相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取预置孪生网络模型计算的目标文本与相似文本之间的相似度；

在获取到目标文本与相似文本之间的相似度时，匹配与目标文本相似度最高的相似文本。

进一步地，处理器1001可以调用存储器1005中存储的文本信息匹配度量程序，还执行以下操作：

在接收到目标文本和相似文本时，获取预置知识库；

当获取到预置知识库时，分解目标文本和相似文本；

在分解目标文本和相似文本时，读取所述目标文本和相似文本中的字词粒度。

在读取到目标文本的字词粒度和相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型；

根据预置第一神经网络模型，获取目标文本的字词向量表征信息和相似文本的字词向量表征信息；

根据预置第二神经网络模型，获取目标文本的向量表征信息和相似文本的向量表征信息。

当调用预置第一神经网络模型时，将读取到的目标文本的字词粒度和相似文本的字词粒度分别作为预置第一神经网络模型的输入值；

在运行预置第一神经网络模型时，检测预置第一神经网络的权重矩阵以及隐藏层；

在检测到预置第一神经网络的权重矩阵以及隐藏层时，分别获取预置第一神经网络模型输出的目标文本的字词向量表征信息和相似文本的字词向量表征信息。

当获取到目标文本的字词向量表征信息的数量和相似文本的字词向量表征信息的数量时，判断目标文本与相似文本的字词向量表征信息的数量是否一致；

当目标文本的字词向量表征信息的数量与相似文本的字词向量表征信息的数量不一致时，根据预置阈值修改目标文本或相似文本的字词向量表征信息的数量。

当调用预置第二神经网络模型时，分别将目标文本的字词向量表征信息和相似文本的字词向量表征信息作为预置第二神经网络模型的输入值；

在运行预置第二神经网络模型时，检测预置第二神经网络的权重矩阵以及隐藏层；

在检测到预置第二神经网络的权重矩阵以及隐藏层时，获取预置第二神经网络模型输出的目标文本的向量表征信息和相似文本的向量表征信息。

在获取到目标文本的向量表征信息以及相似文本的向量表征信息时，向预置孪生神经网络模型中输入目标文本的向量表征信息和相似文本的向量表征信息；

当输入目标文本的向量表征信息和相似文本的向量表征信息时，检测到预置孪生神经网络模型的注意力机制以及前向网络编码将目标文本的向量表征信息和相似文本的向量表征信息作为隐藏层的初始值；

根据预置孪生神经网络模型的函数公式获取目标文本和相似文本之间的相似度。

参照图2，图2为本发明文本信息匹配度量的方法第一实施例，文本信息匹配度量的方法包括：

步骤S10，在接收到目标文本和相似文本时，读取目标文本和相似文本中的字词粒度；

服务器在接收到终端发送的待处理文本时，读取待处理文本中的字词粒度。其中待处理文本包括目标文本与相似文本，且相似文本可以是一个也可以是多个。目标文本与相似文本都是由字词粒度组成的，例如，目标文本为琅琊榜1号年化率多少，相似文本为琅琊榜1号产品收益率。服务器在获取到目标文本和相似文本时，对目标文本和相似文本中的字词进行分解，读取目标文本和相似文本中的字词粒度。例如，将目标文本拆解为，琅琊榜、1号、年化、多少等，或者，将相似文本拆解为琅琊榜、1号、产品、收益、率等。

步骤S20，根据读取到的目标文本的字词粒度和相似文本的字词粒度，获取目标文本的向量表征信息和相似文本的向量表征信息；

当服务器获取到目标文本的字词粒度和相似文本的字词粒度时，将获取到的字词粒度进行翻译，获取每一个字词粒度对应的语义信息，再将获取到的语义信息进行综合得到目标文本的向量表征信息和相似文本的向量表征信息。例如，当服务器获取到目标文本的字词粒度和相似文本的字词粒度对应的向量表征信息时，根据字粒度和词粒度在文本中的位置，将获取到字粒度和词粒度对应的向量表征信息按照文本中的位置进行拼接，通过拼接来获取到目标文本的向量表征信息和相似文本的向量表征信息。

步骤S30，当将目标文本的向量表征信息和相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取预置孪生网络模型计算的目标文本与相似文本之间的相似度；

服务器在获取到目标文本与相似文本的向量表征信息时，调用预置孪生神经网络模型。在调用预置孪生神经网络模型时，将获取到的目标文本与相似文本分别作为预置孪生神经网络模型的输入值，孪生神经网络模型是一类包含两个或两个以上相同子网络的神经网络架构。这里相同是指它们具有相同的配置即具有相同的参数和权重，参数更新在两个子网上共同进行。孪生神经网络在涉及发现相似性或两个可比较的事物之间的关系的任务中流行，例如一些例子是复述评分，其中输入是两个句子，输出是它们是多么相似的得分；或签名验证，确定两个签名是否来自同一个人。通常，在这样的任务中，使用两个相同的子网络来处理两个输入，并且另一个模块将取得它们的输出并产生最终输出。在运行输入目标文本与相似文本后，获取孪生神经网络模型计算的相似度。

步骤S40，在获取到目标文本与相似文本之间的相似度时，匹配与所述目标文本相似度最高的相似文本。

服务器在获取到目标文本与相似文本之间的相似度时，匹配相似度最高的相似文本。当相似文本不止一个时，分别获取每一个相似文本与目标文本之间的相似度，服务器在获取到每一个相似文本与目标文本之间的相似度时，匹配与目标文本相似度最高的相似文本。

在本实施例中，服务器在接收到目标文本和相似文本时，读取目标文本和相似文本中的字词粒度。服务器在读取到目标文本和相似文本中的字词粒度时，获取目标文本的向量表征信息和相似文本的向量表征信息。当服务器将获取到的目标文本的向量表征信息和相似文本的向量表征信息作为预置孪生神经网络模型的输入值时，获取孪生网络模型计算的相似度，匹配与目标文本相似度最高的相似文本，基于词语和单字集成的句子相似度匹配算法，进一步提高句子语义分析效果。

进一步的，参照图3，图3为本发明文本信息匹配度量的方法第二实施例，基于上述图2所示的实施例，步骤S10包括：

步骤S11，在接收到目标文本和相似文本时，获取预置知识库；

步骤S12，当获取到预置知识库时，分解目标文本和相似文本；

步骤S13，在分解目标文本和相似文本时，读取所述目标文本和相似文本中的字词粒度。

在服务器获取到用户向客服机器人发送的目标文本和相似文本时，获取预先设置的知识库。知识库可以为中文维基百科，而中文维基百科包括闽南语维基百科、粤语维基百科、文言文维基百科、吴语维基百科、闽东语维基百科、赣语维基百科及客家语维基百科等。不仅对闽南语、粤语、文言文、吴语、闽东语、赣语及客家语等字、或做出了相应的描述，还对闽南语、粤语、文言文、吴语、闽东语、赣语及客家语等文本做出了相应的描述。当获取到预先设置的知识库时，根据知识库中的字、词对目标文本和相似文本中的字、词粒度进行拆解，获取拆解到的字、词粒度。在进行拆解时，先将目标文本和相似文本中的信息拆解成词粒度，当不能将目标文本和相似文本中的信息拆解成词粒度时，再拆解成字粒度。

在本实施例中，服务器在接收到目标文本和相似文本时，获取预置知识库，根据获取到的预置知识库，将目标文本和相似文本中的信息分解成字词粒度，并读取目标文本和相似文本中的字词粒度，通过预置知识库，精确的对目标文本和相似文本进行分解，并读取目标文本和相似文本中字词粒度。

参照图4，图4为本发明文本信息匹配度量的方法第三实施例，基于上述图2所示的实施例，步骤S20包括：

步骤S21，在读取到目标文本的字词粒度和相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型；

步骤S22，根据预置第一神经网络模型，获取目标文本的字词向量表征信息和相似文本的字词向量表征信息；

步骤S23，根据预置第二神经网络模型，获取目标文本的向量表征信息和相似文本的向量表征信息。

服务器在获取到目标文本的字词粒度和相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型。预先设置的第一神经网络模型和第二神经网络模型可以是循环神经网络模型、卷积神经网络模型以及隐马尔科夫模型等。服务器根据预置第一神经网络模型和目标文本的字词粒度、相似文本的字词粒度，获取到目标文本的字词向量表征信息和相似文本的字词向量表征信息。服务器根据预置第二神经网络模型和目标文本的字词向量表征信息、相似文本的字词向量表征信息，获取到目标文本的向量表征信息和相似文本的向量表征信息。其中，预置第一神经网络模型和预置第二神经网络模型都是经过预训练的。神经网络模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。即先基于训练数据构建一个神经网络，当这个模型训练好以后获取模型通过训练数据所学得的参数，例如隐层的权重矩阵——获取权重在神经网络模型中学习的知识库中的字和词。神经网络只能接受数值输入，不能把一个单词字符串作为输入。因此，基于训练文档来构建我们自己的知识库(vocabulary)再对单词进行one-hot编码。假设从知识库中抽取出10000个唯一不重复的单词组成词汇表。对这10000个单词进行one-hot编码，得到的每个单词都是一个10000维的向量，向量每个维度的值只有0或者1，假如单词ants在词汇表中的出现位置为第3个，那么ants的向量就是一个第三维度取值为1，其他维度都为0的10000维的向量(ants＝[0,0,1,0,...,0])。

在本实施例中，服务器在获取到目标文本的字词粒度和相似文本的字词粒度时，调用预置第一神经网络模型和预置第二神经网络模型。根据预置第一神经网络模型和目标文本的字词粒度、相似文本的字词粒度，获取到目标文本的字词向量表征信息和相似文本的字词向量表征信息。根据预置第二神经网络模型和目标文本的字词向量表征信息、相似文本的字词向量表征信息，获取到目标文本的向量表征信息和相似文本的向量表征信息，采用神经网络模型获取到待处理文本的向量表征信息，避免待处理文本在语义上存在偏差。

参照图5，图5为图4中步骤S22的细化流程图，基于上述图4所示的实施例，步骤S22包括：

步骤S221，当调用预置第一神经网络模型时，将读取到的目标文本的字词粒度和相似文本的字词粒度分别作为预置第一神经网络模型的输入值；

步骤S222，在运行预置第一神经网络模型时，检测预置第一神经网络的权重矩阵以及隐藏层；

步骤S223，在检测到预置第一神经网络的权重矩阵以及隐藏层时，分别获取预置第一神经网络模型输出的目标文本的字词向量表征信息和相似文本的字词向量表征信息。

当服务器调用预先设置的第一神经网络模型时，将获取到的目标文本的字词粒度和相似文本的字词粒度分别作为预置第一神经网络模型的输入值，在运行预置第一神经网络模型时，服务器检测预置第一神经网络模型的权重矩阵以及隐藏层，在检测到预置第一神经网络模型的权重矩阵以及隐藏层时，分别获取到预置第一神经网络模型输出的目标文本的字词粒度和相似文本的字词粒度对应的字词向量表征信息。预先设置的第一神经网络模型可以是循环神经网络模型、卷积神经网络模型以及隐马尔科夫模型等。预先设置的第一神经网络模型需要经过知识库中字和词来进行预训练，其原理为就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。词向量其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。通过对知识库中字和词进行这种数值表示方式的学习，能够让我们基于这样的数值进行向量化的操作从而得到一些相应标注的语义信息。

在本实施例中，服务器在调用预置第一神经网络模型时，将读取到的目标文本的字词粒度和相似文本的字词粒度作为预置第一神经网络模型的输入值，当运行预置第一神经网络模型时，获取预置第一神经网络模型输出的目标文本的字词粒度和相似文本的字词粒度对应的字词向量表征信息，通过预置的神经网络模型精确的获取到字词粒度对应的字词向量表征信息。

参照图6，图6为本发明文本信息匹配度量的方法第四实施例，基于上述图5所示的实施例，步骤S22之后，还包括：

步骤S50，当获取到目标文本的字词向量表征信息的数量和相似文本的字词向量表征信息的数量时，判断目标文本与相似文本的字词向量表征信息的数量是否一致；

步骤S60，当目标文本的字词向量表征信息的数量与相似文本的字词向量表征信息的数量不一致时，根据预置阈值修改目标文本或相似文本的字词向量表征信息的数量。

服务器在获取到目标文本的字词粒度向量表征的数量和相似文本的字词向量表征信息的数量时，判断目标文本中的字词粒度的向量表征数量与相似文本中字词粒度的向量表征数量是否相同；当数量相同时不做处理；当数量不相同时，获取预置的阈值，根据阈值修改目标文本或相似文本的字词粒度的向量表征数量。例如，目标文本中的字词粒度的向量表征数量为5时，相似文本中的字词粒度的向量表征数量为4时，目标文本中的向量表达式为ants＝[0,0,0,0,0,1]，而相似文本中的向量表达式为空格＝[0,0,0,0,1,0]。

在本实施例中，当服务器在获取到目标文本的字词粒度向量表征的数量和相似文本的字词向量表征信息的数量时，判断目标文本中的字词粒度的向量表征数量与相似文本中字词粒度的向量表征数量是否相同，当确定数量不相同时，获取预置的阈值，根据阈值修改目标文本或相似文本的字词粒度的向量表征数量，采用神经网络对不同长度的句子进行处理成定长的半结构化数据。

参照图7，图7为图4中步骤S23的细化流程图，基于上述图4所示的实施例，步骤S23包括：

步骤S231，当调用预置第二神经网络模型时，分别将目标文本的字词向量表征信息和相似文本的字词向量表征信息作为预置第二神经网络模型的输入值；

步骤S232，在运行预置第二神经网络模型时，检测预置第二神经网络的权重矩阵以及隐藏层；

步骤S233，在检测到预置第二神经网络的权重矩阵以及隐藏层时，获取预置第二神经网络模型输出的目标文本的向量表征信息和相似文本的向量表征信息。

当服务器向预置的第二神经网络输入目标文本的字词向量表征信息和相似文本的字词向量表征信息时，获取目标文本的字词向量表征信息和相似文本的字词向量表征信息在预置的第二神经网络中的上下层信息；在综合字词粒度向量表征上下层信息，得到目标文本的向量表征信息和相似文本的向量表征信息，其中目标文本的向量表征信息和相似文本的向量表征信息是通过综合文本中的字粒度和词粒度对应向量表征信息得到的。当服务器获取到知识库中不同的字和词时，根据获取到的字和词构建一个神经网络框架，通过在该神经网络框架中预先训练获取到的字和词，该字和词都标注有对应的信息，通过各个字和词对应的信息优化神经网络中的参数以及权重。当知识库中所有的字和词都对经网络中的参数以及权重进行优化后，将生成的神经网络模型作为预置的第二神经网络模型。第二神经网络在获取到输入到权重矩阵中的字粒度和词粒度的向量表征信息时，通过计算获取到字粒度和词粒度的向量表征信息对应的标注信息(即上下层)，将获取到字粒度和词粒度的向量表征信息对应的标注信息进行综合，得到该文本的语义向量表征信息。

在本实施例中，服务器在调用预置第二神经网络模型时，分别将目标文本的字词向量表征信息和相似文本的字词向量表征信息作为预置第二神经网络模型的输入值，在运行预置第二神经网络模型时，获取预置第二神经网络模型输出的目标文本向量表征信息和相似文本的向量表征信息，通过神经网络模型更加精确的获取到目标文本与相似文本的语义信息。

参照图8，图8为本发明文本信息匹配度量的方法的第五实施例，基于上述图2所示的实施例，步骤S30包括：

步骤S31，在获取到目标文本的向量表征信息以及相似文本的向量表征信息时，向预置孪生神经网络模型中输入目标文本的向量表征信息和相似文本的向量表征信息；

步骤S32，当输入目标文本的向量表征信息和相似文本的向量表征信息时，检测到所述预置孪生神经网络模型的注意力机制以及前向网络编码将目标文本的向量表征信息和相似文本的向量表征信息作为隐藏层的初始值；

步骤S33，根据预置孪生神经网络模型的函数公式获取目标文本和相似文本之间的相似度。

当服务器获取到目标文本的向量表征信息和相似文本的向量表征信息时，向预置孪生神经网络模型输入获取到的目标文本的向量表征信息和相似文本的向量表征信息。当相似文本有多个时，向预先设置的孪生神经网络中输入该目标文本向量表征信息以及对应文本中的任意一个相似文本向量表征信息。当预先设置孪生神经网络模型在获取到输入的文本向量表征信息时，预先设置的孪生神经网络模型中的注意力机制在获取到输入的文本向量表征信息时，发送至前向网络编码。前向网络编码在接收到文本向量表征信息时，将接收到文本向量表征信息编码为隐藏层的初始值。通过初始值以及预训练得到的函数公式计算出两个文本之间的相似度，其中，tanh、w、u为孪生神经网络模型预训练后优化的参数，q、k为文本向量表征的初始值。

在本实施例中，服务器在获取到目标文本的向量表征信息和相似文本的向量表征信息时，向预置孪生神经网络模型输入获取到的目标文本的向量表征信息和相似文本的向量表征信息，当检测到预置孪生神经网络模型的注意力机制以及前向网络编码将目标文本的向量表征信息和相似文本的向量表征信息作为隐藏层的初始值，服务器根据预置孪生神经网络模型中的函数公式，获取到预置孪生神经网络模型计算出的目标文本与相似文本之间的相似度，采取端到端的学习策略，利用孪生神经网络，从句子对输入到语义相似判断输出。

此外，本发明实施例还提出一种服务器，服务器包括：存储器、处理器及存储在存储器上并可在所述处理器上运行的文本信息匹配度量程序，文本信息匹配度量程序被处理器执行时实现如上实施例的文本信息匹配度量的方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质上存储有文本信息匹配度量程序，文本信息匹配度量程序被处理器执行时实现如上实施例的文本信息匹配度量方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本信息匹配度量的方法，其特征在于，所述文本信息匹配度量的方法包括：

2.如权利要求1所述的文本信息匹配度量的方法，其特征在于，所述在接收到目标文本和相似文本时，读取所述目标文本和所述相似文本中的字词粒度，包括：

在接收到目标文本和相似文本时，获取预置知识库；

3.如权利要求1所述的文本信息匹配度量的方法，其特征在于，所述根据读取到的所述目标文本的字词粒度和所述相似文本的字词粒度，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息，包括：

4.如权利要求3所述的文本信息匹配度量的方法，其特征在于，所述根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息，包括：

5.如权利要求3所述的文本信息匹配度量的方法，其特征在于，所述根据所述预置第一神经网络模型，获取所述目标文本的字词向量表征信息和所述相似文本的字词向量表征信息之后，所述根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息之前，还包括：

6.如权利要求3所述的文本信息匹配度量的方法，其特征在于，所述根据所述预置第二神经网络模型，获取所述目标文本的向量表征信息和所述相似文本的向量表征信息，包括：

7.如权利要求1-6中任意一项所述的文本信息匹配度量的方法，其特征在于，所述当将所述目标文本的向量表征信息和所述相似文本的向量表征信息作为预置孪生网络模型的输入值时，获取所述预置孪生网络模型计算的所述目标文本与所述相似文本之间的相似度，包括：

8.一种文本信息匹配度量的装置，其特征在于，所述文本信息匹配度量的装置包括：

9.一种服务器，其特征在于，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本信息匹配度量程序，所述文本信息匹配度量程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本信息匹配度量的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本信息匹配度量程序，所述文本信息匹配度量程序被处理器执行时实现如权利要求1至7中任一项所述的文本信息匹配度量方法的步骤。