CN112749554A

CN112749554A - 确定文本匹配度的方法、装置、设备及存储介质

Info

Publication number: CN112749554A
Application number: CN202010081678.2A
Authority: CN
Inventors: 李振阳; 梁涛; 李超; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2021-05-04
Anticipated expiration: 2040-02-06
Also published as: CN112749554B

Abstract

本申请公开了一种确定文本匹配度的方法、装置、设备及存储介质，该方法包括：获得待分析的第一文本和第二文本；确定第一文本与第二文本之间的第一匹配信息，第一匹配信息用于表征第一文本的各个词与第二文本的各个词之间的相似性；确定第一文本的第一上下文特征信息和第二文本的第二上下文特征信息；依据第一上下文特征信息和第二上下文特征信息，确定第二匹配信息，第二匹配信息用于表征第一文本的上下文特征与第二文本的上下文特征之间的相似性；利用第一匹配信息和第二匹配信息，确定第一文本和第二文本的匹配程度。本申请的方案可以提高文本匹配的准确度。

Description

确定文本匹配度的方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种确定文本匹配度的方法、装置、设备及存储介质。

背景技术

文本匹配是自然语言理解的一个核心问题，它可以应用于大量的自然语言处理任务中，如，信息检索、机器翻译以及问答系统等等。以视频推荐这一信息检索场景为例，用户输入的搜索语句为一个文本，将该搜索语句这一文本与视频库中各个视频的标题文本进行匹配，可以将标题文本与该搜索语句的匹配度较高的视频推荐给用户。

其中，传统的文本匹配方法主要是基于词汇重合度的匹配算法。然而，基于词汇重合度的文本匹配仅仅从文本的字面层面进行文本匹配，导致基于词汇重合度的文本匹配的局限性较大，很容易出现文本匹配结果与实际不符的情况，从而影响到文本匹配的准确度。

发明内容

有鉴于此，本申请提供了一种确定文本匹配度的方法、装置、设备及存储介质，以提高文本匹配的准确度。

为实现上述目的，一方面，本申请提供了一种确定文本匹配度的方法，包括：

获得待分析的第一文本和第二文本；

确定所述第一文本与所述第二文本之间的第一匹配信息，所述第一匹配信息用于表征所述第一文本的各个词与所述第二文本的各个词之间的相似性；

确定所述第一文本的第一上下文特征信息和第二文本的第二上下文特征信息；

依据所述第一上下文特征信息和所述第二上下文特征信息，确定第二匹配信息，所述第二匹配信息用于表征所述第一文本的上下文特征与所述第二文本的上下文特征之间的相似性；

利用所述第一匹配信息和所述第二匹配信息，确定所述第一文本和所述第二文本的匹配程度。

在一种可能的情况中，所述确定所述第一文本的第一上下文特征信息和第二文本的第二上下文特征信息，包括：

通过已训练的上下文提取模型依次提取所述第一文本中各个词的上下文特征，得到所述第一文本的第一上下文特征信息；

通过已训练的上下文特征提取模型依次提取所述第二文本中各个词的上下文特征，得到所述第二文本的第二上下文特征信息。

在又一种可能的情况中，所述第一上下文特征信息包括：所述第一文本中各个词的上下文特征；

所述第二文本特征信息包括：所述第二文本中各个词的上下文特征；

所述依据所述第一上下文特征信息和所述第二上下文特征信息，确定第二匹配信息，包括：

依据所述第一文本中各个词的上下文特征以及所述第二文本中各个词的上下文特征，分别计算第一文本中各个词与所述第二文本中各个词之间的上下文特征相似性，得到第二匹配信息，所述第二匹配信息包括：所述第一文本中每个词分别与所述第二文本中各词的上下文特征相似性。

在又一种可能的情况中，所述利用所述第一匹配信息和所述第二匹配信息，确定所述第一文本和所述第二文本的匹配程度，包括：

将所述第一匹配信息和所述第二匹配信息输入到已训练的文本匹配模型，得到所述文本匹配模型输出的文本匹配结果，所述文本匹配结果用于表征所述第一文本和所述第二文本的匹配程度。

在又一种可能的情况中，所述文本匹配模型输出的文本匹配结果为用于表征所述第一文本和所述第二文本之间匹配程度的文本匹配特征；

在得到所述文本匹配模型输出的所述文本匹配特征之后，还包括：

基于所述文本匹配特征，确定出所述第一文本和第二文本之间的匹配可能性和不匹配可能性；

依据所述匹配可能性和不匹配可能性，确定所述第一文本和第二文本的匹配度得分。

在一种可能的实现方式中，所述基于所述文本匹配特征，确定出所述第一文本和第二文本之间的匹配可能性和不匹配可能性，包括：

将所述文本匹配特征输入已经过训练的转换模型，得到所述第一文本和第二文本之间的匹配可能性和不匹配可能性；

所述依据所述匹配可能性和不匹配可能性，确定所述第一文本和第二文本的匹配度得分，包括：

对所述匹配可能性和不匹配可能性进行归一化处理，得到所述第一文本和所述第二文本的匹配度得分。

又一方面，本申请还提供了一种确定文本匹配度的装置，包括：

文本获得单元，用于获得待分析的第一文本和第二文本；

第一匹配单元，用于确定所述第一文本与所述第二文本之间的第一匹配信息，所述第一匹配信息用于表征所述第一文本的各个词与所述第二文本的各个词之间的相似性；

上下文确定单元，用于确定所述第一文本的第一上下文特征信息和第二文本的第二上下文特征信息；

第二匹配单元，用于依据所述第一上下文特征信息和所述第二上下文特征信息，确定第二匹配信息，所述第二匹配信息用于表征所述第一文本的上下文特征与所述第二文本的上下文特征之间的相似性；

匹配分析单元，用于利用所述第一匹配信息和所述第二匹配信息，确定所述第一文本和所述第二文本的匹配程度。

又一方面，本申请还提供了一种计算机设备，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于执行以上任一项所述的确定文本匹配度的方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一项所述的确定文本匹配度的方法。

经由上述的技术方案可知，本申请结合两个文本之间的第一匹配信息和第二匹配信息确定两个文本的匹配程度。由于第一匹配信息反映的是这两个文本中各个词之间相似性，而第二匹配信息反映的是两个文本的上下文特征之间的相似性，且文本的上下文特征可以反映出文本中每个词的上下文关系以及各个词之间语义关系，使得文本匹配过程既考虑到两个文本中个词之间的相似性，又考虑了文本内各个词之间的整体语义关系以及两个文本之间上下文特征之间的关系，从而实现了结合更多更深层次的信息进行文本匹配，有利于提高文本匹配结合与实际的相符性，进而有利于提高文本匹配的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请提供的确定文本匹配度的系统的一种组成架构示意图；

图2示出了本申请一种确定文本匹配度的方法一个实施例的流程示意图；

图3为本申请的确定文本匹配度的方法的一种实现原理框架图；

图4示出了本申请一种确定文本匹配度的方法又一个实施例的流程示意图；

图5示出了本申请的确定文本匹配度的方法的又一种实现原理框架图；

图6示出了本申请一种确定文本匹配度的方法的又一种流程示意图；

图7示出了本申请一种确定文本匹配度的装置一个实施例的组成结构示意图；

图8示出了本申请提供的一种计算机设备的一种组成架构示意图。

具体实施方式

在本申请的方案涉及到人工智能(Artificial Intelligence,AI)技术。其中，AI技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面结合附图对本申请的方案进行介绍。

本申请的方案适用于任意涉及到文本匹配的场景。

为了便于理解，可以参见图1，其示出了本申请所适用的一种确定文本匹配度的系统的一种组成结构示意图。

由图1可以看出，该系统可以包括：至少一台服务器101和至少一个终端102。

其中，该至少一台服务器101可以构成一个分布式服务器系统或者是服务器集群。

终端102可以通过网络与服务器101建立通信连接。

该终端可以向服务器101传输需要匹配的文本，比如，在信息检索场景中，终端可以向服务器发送需要搜索的信息文本，以便服务器基于该信息文本搜索与该信息文本匹配的文本所指向的数据信息。又如，在智能对话场景中，终端可以向服务器传输用户输入的文本，以便服务器从预置的对话语句库中匹配出适合作为回复语句的文本。

相应的，服务器可以依次确定终端传输的文本与待匹配的各条文本的匹配程度，以便找到匹配程度较高的文本。

为了便于理解，结合一个应用场景进行说明，以视频推荐这一应用场景为例说明。

终端102可以获得用户输入的视频搜索语句，并将视频搜索语句发送给服务器101。

服务器101依次确定该视频搜索语句这一文本与各个视频的视频标题的文本匹配程度，并向终端返回与该视频搜索语句的文本匹配程度较高的视频标题(或者视频标题所指向的视频)的信息。

可以理解的是，在实际应用中，该服务器101还可以连接有数据库103，该数据库中可以存储有文本库，文本库中包含多条文本，例如，文本库可以为视频标题库。相应的，服务器可以依次确定终端发送的文本与文本库中各条文本的匹配程度。当然，服务器本地存储文本库也同样适用于本申请实施例。

需要说明的是，图1仅仅是确定文本匹配度的系统的一种可能情况，在实际应用中，也可以不需要终端提供需要分析的文本，比如，需要利用计算机设备确定不同文本之间的匹配程度，以实现文本分类等，则计算机设备不需要与终端存在交互，在该种情况下，确定文本匹配度的系统也可以仅包括服务器或者个人计算机等计算机设备。

又如，在某些应用场景下，需要对上传的视频(或者音频)的内容与视频(或者音频)的标题进行分析，以判断视频中内容是否存在无关铺垫过长的情况，例如，在用于实现短视频上传或者发布的应用等平台中，需要分析视频是否存在无关铺垫过长的情况。在该种情况下，需要将视频(或者音频)中的音频转换为文本，并将文本切分为至少一个短文本，然后，计算每个短文本与标题文本之间的匹配得分。在此基础上，可以根据各个短文本对应的匹配得分，分析匹配得分较高的短文本在音频转换出的文本中的具体位置和出现频率等，来分析该视频(或者音频)的内容是否存在了较多与标题关联性较低的无关铺垫，进而得到是否存在无关铺垫过长的情况。

当然，以上是以涉及到文本匹配的几种情况为例说明，在实际应用中，还可以其他应用场景也可能会涉及到文本匹配，无论哪种应用场景中所涉及到的文本匹配均可以使用本申请所提供的确定文本匹配度的方案。结合以上介绍，下面结合流程图对本申请确定文本匹配度的方法进行介绍。

如图2为本申请提供的确定文本匹配度的方法一个实施例的流程示意图，本实施例的方法可以应用于前面提到的计算机设备，或者是由至少一台计算机设备组成的分布式系统等，本实施例的方法可以包括：

S201，获得待分析的第一文本和第二文本。

其中，第一文本和第二文本为需要分析匹配程度的两个文本，为了便于区分，这两个文本分别称为第一文本和第二文本。

如，以智能对话系统为例，第一文本可以为用户输入的文本或者用户输入的语音转换出的文本，而第二文本可以为预置的问询语句库中各条问询语句的文本。

又如，第一文本和第二文本也可以从计算机设备从待文本的多条文本中取出的当前待分析的任意两条文本。

可以理解的是，每条文本包括至少一个字符串，如，文本可以一个短语、一个语句或者多条语句等等。

S202，确定第一文本与第二文本之间的第一匹配信息。

该第一匹配信息用于表征第一文本的各个词与第二文本的各个词之间的相似性。

其中，每个词包含至少一个字符，第一文本和第二文本均包括至少一个词。

如，针对第一文本中的每个词，需要分别确定第一文本中该词与第二文本中各个词的相似性。然后构建出包含第一文本中每个词分别与第二文本中各个词之间相似性的第一匹配信息。当然，也可以是针对第二文本中每个词，分别确定第二文本中该词与第一文本中各个词的相似性，以得到第一匹配信息，其原理本质是相同的。

举例说明，假设第一文本包括词1和词2，而第二文本包括词3、词4和词5，第一匹配信息可以表征出如下信息：

第一文本中词1与第二文本中词3之间的相似性1；

第一文本中词1与第二文本中词4之间的相似性2；

第一文本中词1与第二文本中词5之间的相似性3；

第一文本中词2与第二文本中词3之间的相似性4；

第一文本中词2与第二文本中词4之间的相似性5；

以及，第一文本中词2与第二文本中词5之间的相似性6。

在一个示例中，该第一匹配信息可以为第一匹配矩阵，其中，第一匹配矩阵为L1*L2的矩阵，其中，L1为第一文本包含的词的数量，L2为第二文本中包含的词的数量。如，第一文本具有2个词，第二文本具有3个词，该第一匹配矩阵为2*3的矩阵。相应的，该第一匹配矩阵中每个元素对应两个词的相似性，其中，元素对应的两个词分别属于第一文本和第二文本，且不同元素对应的两个词不同。比如，仍以上面提到的第一文本包括词1和词2，第二文本包括词3、词4和词5为例，第一匹配矩阵为2*3的矩阵，其包括6个元素，这6个元素分别为上面提到的词1与词3的相似性1、词1与词4的相似性2以及相似性3、相似性4、相似度5和相似度6。

可选的，为了确定第一匹配信息和后续的第二匹配信息，本申请还可以先对第一文本分词，得到第一文本分词出的各个词；同时，对第二文本分词，得到第二文本分词出的各个词。然后，分别确定第一文本中每个词与第二文本中每个词之间的相似性。

可以理解的是，对于任意两个词，确定这两个词之间的相似性的方式可以有多种可能。

在一种可能的情况中，考虑到计算机设备中通过词的词向量来表示该词，因此，任意两个词之间的相似性可以为这两个词的词向量之间的相似性。具体的，在该步骤S202之前，还可以先确定出第一文本中各个词的词向量以及第二文本中各个词的词向量。在该基础上，可以分别计算第一文本中各个词的词向量与第二文本中各个词的词向量之间的相似性(如，余弦相似性)，从而构建出包含第一文本中每个词的词向量与第二文本中各个词的词向量之间的相似度的第一匹配信息。

S203，确定第一文本的第一上下文特征信息和第二文本的第二上下文特征信息。

其中，文本的上下文特征信息表征了文本中各个词的上下文特征信息。而词的上下文特征信息除了包含该词本身的特征信息，还包含了该词的上下文特征。如，文本的上下文特征信息可以反映文本中每个词的上下文以及词与上下文之间的语义关系等等。

其中，确定文本的上下文特征可以基于文本中各个词的先后顺序，依次分析文本中每个词的前面以及后面的词，并提取出每个词的上下文特征信息。

在一种可选方式中，可以预先训练上下文提取模型。相应的，通过已训练的上下文提取模型可以依次提取文本(如第一文本或者第二文本)中各个词的上下文特征，得到该文本的上下文特征信息。

其中，该上下文提取模型可以对文本中每个词进行双向特征分析与提取。如，该上下文提取模型可以为双向门控循环单元BiGRU，或者是双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)模型等。

S204，依据第一上下文特征信息和第二上下文特征信息，确定第二匹配信息。

该第二匹配信息用于表征第一文本的上下文特征与第二文本的上下文特征之间的相似性。

如，在第一上下文特征信息包括第一文本中各个词的上下文特征，且第二文本特征信息包括第二文本中各个词的上下文特征的情况下，第二匹配信息可以表征第一文本中每个词的上下文特征分别与第二文本中各个词的上下文特征之间的相似性。

具体的，可以依据第一文本中各个词的上下文特征以及第二文本中各个词的上下文特征，分别计算第一文本中各个词与第二文本中各个词之间的上下文特征相似性，得到第二匹配信息。该第二匹配信息包括：第一文本中每个词分别与该第二文本中各词的上下文特征相似性。其中，两个词的上下文特征相似性就是两个词的上下文特征的相似性。

举例说明，第一文本包括词1和词2，则第一上下文特征信息包括：第一文本中词1的上下文特征以及词2的上下文特征；第二文本包括词3、词4和词5，则第二上下文特征信息包括：第二文本中词3的上下文特征、词4的上下文特征和词5的上下文特征。相应的，需要计算如下6组词之间的上下文特征相似性：

词1的上下文特征与词3的上下文特征之间的上下文特征相似性1；

词1的上下文特征与词4的上下文特征之间的上下文特征相似性2；

词1的上下文特征与词5的上下文特征之间的上下文特征相似性3；

词2的上下文特征与词3的上下文特征之间的上下文特征相似性4；

词2的上下文特征与词4的上下文特征之间的上下文特征相似性5；

以及，词2的上下文特征与词5的上下文特征之间的上下文特征相似性6。

相应的，第二匹配特征信息可以表征如上六个上下文特征相似性。

与第一匹配信息类似，该第二匹配信息也可以为一个矩阵，为了便于区分称为第二匹配矩阵。其中，第二匹配矩阵同样为L1*L2的矩阵，其中，L1为第一文本包含的词的数量，L2为第二文本中包含的词的数量。相应的，与第一匹配矩阵类似，该第二匹配矩阵中每个元素对应两个词的上下文特征之间的相似性，且，每个元素对应的两个词分别属于第一文本和第二文本，其中，不同元素对应的两个词不同。

比如，仍以上面提到的第一文本包括词1和词2，第二文本包括词3、词4和词5为例，第二匹配矩阵为2*3的矩阵，其包括6个元素，每个元素对应上面例子中的一组词，且这6个元素分别为上面提到的6组词对应的6个上下文特征相似性。

其中，在两个词各自的上下文特征的相似性确定的情况下，确定这两个词之间的上下文特征的相似性的方式可以有多种。如，计算机设备中一般通过向量来表示上下文特征，因此，本申请中第一文本中每个词的上下文特征可以为反映该词在第一文本中上下文特征的上下文特征向量。相应的，为了确定第一文本中第一词的上下文特征与第二文本中第二词的上下文特征之间的上下文特征相似性，可以计算第一文本中该第一词的上下文特征向量与第二文本中第二词的上下文特征向量之间的相似性(如，余弦相似性)。其中，第一词可以表示第一文本中任意一个词，第二词可以表示第二文本中任意一个词。

S205，利用第一匹配信息和第二匹配信息，确定第一文本和第二文本的匹配程度。

其中，第一匹配信息反映出的第一文本和第二文本中词之间的相似性，是一种显式相似性；而第二匹配信息依据第一文本中各个词的上下文特征和第二文本中上下文特征分析出的能够反映出第一文本和第二文本在词、短句和语句等多层级上关系，属于文本之间的隐式相似性，因此，结合这第一匹配信息和第二匹配信息可以实现更为全面以及更细粒度的分析这两个文本之间的匹配程度。

其中，该匹配程度可以为一个匹配等级，匹配得分、匹配概率值或者第一文本和第二文本是否匹配的结果，还可以是其他能够反映出第一文本和第二文本匹配程度的其他信息。

其中，基于第一匹配信息和第二匹配信息，分析第一文本和第二文本的匹配程度的具体方式可以有多种，本申请对此不加限制。

如，在一种可能的情况中，可以预先训练用于确定两个文本之间匹配程度的文本匹配模型。相应的，将第一匹配信息和第二匹配信息输入到已训练的文本匹配模型，得到文本匹配模型输出的文本匹配结果，文本匹配结果用于表征第一文本和第二文本的匹配程度。

其中，该文本匹配模型可以利用标注有实际匹配结果的多对文本样本组训练得到，其中，每对文本样本组包括两个文本样本，该实际匹配结果可以包括匹配和不匹配两种结果。当然，在实际应用中，在训练该文本匹配模型时，还可以先提取出每对文本样本组的第一匹配信息和第二匹配信息，然后再基于每对文本样本组的第一匹配信息和第二匹配信息对该文本匹配模型进行训练。具体的，后续会以一种情况详细说明。

该文本匹配模型可以为任意机器学习模型，可选的，该文本匹配模型可以为经过训练的神经网络模型，如，卷积神经网络(Convolutional Neural Networks，CNN)模型。

可见，本申请结合两个文本之间的第一匹配信息和第二匹配信息确定两个文本的匹配程度。由于第一匹配信息反映的是这两个文本中各个词之间相似性，而第二匹配信息反映的是两个文本的上下文特征之间的相似性，且文本的上下文特征可以反映出文本中每个词的上下文关系以及各个词之间语义关系，使得文本匹配过程既考虑到两个文本中个词之间的相似性，又考虑了文本内各个词之间的整体语义关系以及两个文本之间上下文特征之间的关系，从而实现了结合更多更深层次的信息进行文本匹配，有利于提高文本匹配结合与实际的相符性，进而有利于提高文本匹配的准确度。

为了便于理解，以结合预先训练的模型来实现文本匹配为例，对本申请的方案进行介绍。

如图3，其示出了本申请确定文本匹配度的一种实现原理框架图。

由图3可以看出，本申请在获得待分析匹配度的文本1和文本2之后，一方面，会基于文本1和文本2直接计算相似性，此处计算的是文本1和文本2中各个词之间的相似度，从而得到第一匹配信息。又一方面，会将文本1和文本2分别输入到上下文提取模型，以提取出文本1中各个词的上下文特征以及文本2中各个词的上下文特征；然后，再基于文本1中提取出的各个词的上下文特征以及文本2中各个词的上下文特征进行相似性计算，得到第二匹配信息。

通过以上两个分支分别得到文本1和文本2对应的第一匹配信息和第二匹配信息之后，会将第一匹配信息和第二匹配信息合并为一份匹配信息并输入到文本匹配模型中。

为了便于理解，采用流程图对图3所示的原理框架图进行说明。如图4所示，其示出了在图3所示的实现原理框架基础上，确定文本匹配度的方法的一种实现流程示意图。图4所示的流程可以包括：

S401，获得待分析的第一文本和第二文本。

S402，依据第一文本中的各个词以及第二文本中的各个词，计算第一文本中各个词分别与第二文本中各个词之间的相似性，得到第一匹配信息。

该第一匹配信息包括：第一文本中各个词分别与第二文本中各个词之间的相似性。

可选的，该第一匹配信息可以为第一匹配矩阵，该第一匹配矩阵中包括：第一文本中每个词分别与第二文本中各个词之间的相似性。

如，可以分别对第一文本和第二文本分词，以确定第一文本中包含的各个词以及第二文本中包含的各个词。然后，可以分别确定第一文本中各个词的词向量以及确定第二文本中各个词的词向量。在该基础上，分别计算第一文本中各个词的词向量与第二文本中各个词的词向量之间的余弦相似性，从而构建出包含计算出的所有余弦相似性的第一匹配矩阵。第一匹配矩阵中各个元素的含义可以参见前面实施例的相关介绍，在此不再赘述。

其中，词的词向量可以有多种方式确定，如，可以依据预先构建出的词表中各个词的词向量，查询出文本中的词的词向量。当然，还可以有其他确定文本中词的词向量的方式，在此不加限制。

该步骤S402相当于图3中基于S1和S2通过相似度计算得到第一匹配信息的部分。

S403，将第一文本输入到已训练的第一上下文提取模型，并将第二文本输入已训练第二上下文提取模型，得到该第一上下文提取模型输出的第一上下文特征信息以及第二上下文提取模型输出的第二上下文特征信息。

其中，第一上下文特征信息包括：第一文本中各个词的上下文特征。相应的，第二文本特征信息包括：第二文本中各个词的上下文特征。

可以理解的是，在第一文本和第二文本中各个词通过词向量表示的情况下，将第一文本输入到第一上下文提取模型实际上是将第一文本中各个词的词向量输入到该第一上下文提取模型。相应的，将第二文本输入第二上下文提取模型可以是将第二文本中各个词的词向量输入到该第二上下文提取模型。

在一个示例中，考虑到计算机设备通过上下文提取模型提取出的文本中各个词的上下文特征可以通过向量表示，为了便于区分，将表示文本中词的上下文特征称为上下文特征向量。相应的，该第一上下文特征信息可以为包括第一文本中各个词的上下文特征向量的第一上下文特征矩阵；而该第二上下文特征信息可以为包括第二文本中各个词的上下文特征向量的第二上下文特征矩阵。

其中，为了能够较为快速的完成文本匹配分析，本实施例以将第一文本和第二文本输入到不同的上下文提取模型进行上下文特征信息提取为例，其中，为了便于区分，将用于对第一文本进行上下文特征提取的上下文提取模型称为第一上下文提取模型；而提取第二文本的上下文提取模型称为第二文本提取模型。如图3所示，文本1和文本2分别输入到不同的上下文提取模型，以分别提取这两个文本的上下文特征信息。

可以理解的是，在实际应用中，也可以仅仅设置一个上下文提取模型，通过分别利用该上下文提取模型依次对文本1和文本2进行上下文特征提取；或者是，并行调用该上下文提取模型，以实现同时对文本1和文本2进行上下文特征提取。在该种情况下，第一上下文提取模型和第二上下文提取模型为同一个上下文提取模型。

S404，依据第一文本中各个词的上下文特征以及第二文本中各个词的上下文特征，分别计算第一文本中各个词与该第二文本中各个词之间的上下文特征相似性，得到第二匹配信息。

其中，第二匹配信息包括：第一文本中各个词的上下文特征分别与该第二文本中各词的上下文特征之间的上下文特征相似性。

与第一匹配信息相似，在第一文本和第二文本中各个词的上下文特征通过上下文特征向量表示的情况下，则可以分别计算第一文本中各个词的上下文特征向量分别与第二文本中各个词的上下文特征向量之间的余弦相似性。在该种情况，可以构建出包含计算出的所有余弦相似性的第二匹配矩阵，该第二匹配矩阵包含了计算第一文本中各个词的上下文特征向量分别与第二文本中各个词的上下文特征向量之间的余弦相似性。

S405，将该第一匹配信息和该第二匹配信息输入到已训练的文本匹配模型，得到该文本匹配模型输出的文本匹配特征。

该文本匹配特征用于表征第一文本和第二文本的匹配程度。

如图3所示，第一匹配信息和第二匹配信息堆叠之后会一并输入到该文本匹配模型，以使得该文本匹配模型同时对第一匹配信息和第二匹配信息进行处理，从而得到第一文本和第二文本之间匹配程度的文本匹配特征。

S406，基于该文本匹配特征，确定出该第一文本和第二文本之间的匹配可能性和不匹配可能性。

其中，匹配可能性为第一文本和第二文本匹配的可能性，如，第一文本和第二文本匹配的概率或者得分。

不匹配可能性为第一文本和第二文本不匹配的可能性，如第一文本和第二文本不匹配的概率或者得分。

例如，匹配可能性为0.8，而不匹配可能性为0.4。

可以理解的是，虽然文本匹配特征可以反映出第一文本和第二文本的匹配程度，但是从用户角度来看，该文本匹配特征并不能够直观反映出第一文本和第二文本之间匹配的概率。因此，为了便于能够直观反映出第一文本和第二文本之间的匹配情况，需要对文本匹配特征进行转换，以得到直接反应这两个文本之间的匹配可能性和不匹配可能性。

如图3，文本匹配模型输出该第一文本和第二文本之间的文本匹配特征之后，还会对该文本匹配特征量化处理，以得到该第一文本和第二文本之间匹配的可能性，以及，第一文本和第二文本之间不匹配的可能性。

在一种可能的情况中，可以预先训练用于对文本匹配模型输出的文本匹配特征进行量化处理的转换模型。如，转换模型可以为预先训练的神经网络模型，例如，可以为多层感知器(Multi-Layer Perceptron，MLP)。

可以理解的是，该步骤S403与该步骤S404和S405的顺序可以互换，也可以是同时执行，比如，在执行步骤S403的同时，执行该步骤S404和S405。

S407，依据该匹配可能性和不匹配可能性，确定该第一文本和第二文本的匹配度得分。

该匹配度得分可以为表征第一文本和第二文本匹配的评分，或者是，表征第一文本和第二文本匹配的概率。

可以理解的是，匹配可能性和不匹配可能性实际上分别反映的是第一文本和第二文本在匹配和不匹配这两个方向上的可能性，但是在实际应用中，可能仅仅关心这两个文本在匹配这一方向上的可能性，因此，需要结合这两个方向上的可能性，最终得到能够直观反映这两个文本之间匹配程度的得分。

如，将匹配可能性和不匹配可能性进行归一化，得到反映该第一文本和第二文件匹配程度的匹配度得分。

需要说明的是，该步骤S406和S407为可选步骤，其目的是为了能够转换出可以直观反映出第一文本和第二文本匹配程度的匹配度得分。

可选的，为了进一步提高分析出的文本匹配结果的准确性，本申请可以利用标注有文本匹配结果的多个文本样本对统一训练该上下文提取模型和该文本匹配模型。如，针对每个文本样本对，文本样本对中两个样本依次按照图3所示结构进行处理，并得到预测出的该文本样本对的匹配度得分；然后，基于每个文本样本对预测出的匹配度得到以及实际标注的文本匹配结果，检测预测准确率，如果准确率符合要求，则训练结束；否则，调整上下文提取模型和该文本匹配模型，并重复训练。

在实施例确定文本匹配度的过程中，利用了预先训练的上下文提取模型来提取文本中各个词的上下文特征，这样，可以通过对已有的已经成熟的模型进行训练，得到适合提取文本中的词在该文本中上下文特征的模型，从而有利于提高提取上下文特征的可靠度和效率。同时，本申请在包含第一文本和第二文本之间多层次匹配信息的第一匹配信息和第二匹配信息之后，也利用了预先训练的文本匹配模型来确定这两个文本之间的匹配程度，从而有利于通过文本匹配模型从第一匹配信息和第二匹配信息中捕获更丰富的匹配信息，有利于提高文本匹配的精准度。

为了便于理解本申请的方案，下面以上下文提取模型为训练出的双向门控循环单元BiGRU模型，文本匹配模型为训练出的卷积神经网络CNN模型为例对本申请的方案进行说明。如图5，其示出了本申请的方案的又一种实现原理框架图。在图5中是以上下文提取模型为BiGRU模型，文本匹配模型为训练出的CNN模型说明。

下面结合图5的原理框架，通过图6所示的确定文本匹配度的方法的流程示意图进行介绍。图6所示的流程包括：

S601，获得待分析的第一文本和第二文本。

S602，确定第一文本中各个词的词向量以及第二文本中各个词的词向量，构建第一文本的第一文本矩阵和第二文本的第二文本矩阵。

其中，该第一文本矩阵包括第一文本中各个词各自的词向量。如，每个词的词向量为维度为V，V为不小于1的自然数；且假设第一文本的长度(即第一文本中包含的词的数量)为ls1，则该第一文本矩阵的维度为ls1*V，相应的该第一文本矩阵的每一行表示第一文本中一个词的词向量。

类似的，该第二文本矩阵包括第二文本中各个词的词向量。如，仍假设词向量的维度为V，且第二文本的长度为ls2，则该第一文本矩阵的维度为ls2*V，第二文本矩阵的每一行表示第二文本中一个词的词向量。

可以理解的是，为了确定出第一文本和第二文本中各自包含的词，在该步骤S602之前，还可以分别对第一文本和第二文本分词。

S603，基于第一文本矩阵和第二文本矩阵，计算第一匹配矩阵。

具体的，计算第一文本矩阵中各行表示的词向量分别与第二文本矩阵中各行表示的词向量之间的余弦相似性，从而得到第一匹配矩阵。

如，第一文本矩阵的维度为ls1*V，第二文本矩阵的维度为ls2*V，则针对第一文本矩阵中每一行表示的词向量，需要计算该词向量与第二文本矩阵中各行表示的词向量之间的余弦相似度，这样，第一文本矩阵中ls1个词向量分别与第二文本矩阵中ls2个词向量进行余弦相似度计算，可以得到ls1*ls2个余弦相似度，相应的，该第一匹配矩阵的维度为ls1*ls2，即第二匹配矩阵包含该ls1*ls2个余弦相似度。

如参见图5，第一文本矩阵可以为文本1的文本矩阵，第二文本矩阵可以为文本2的文本矩阵，则由这两个文本矩阵中的词向量对的余弦相似度，则可以得到匹配矩阵1。

S604，将第一文本矩阵输入的已训练的第一BiGRU模型，并将第二文本矩阵输入到已训练的第二BiGRU模型，得到第一BiGRU模型输出的第一上下文特征矩阵以及第二BiGRU模型输出的第二上下文特征矩阵。

其中，由于文本矩阵中包含的文本中各个词的词向量，因此，在将文本矩阵输入到BiGRU模型之后，BiGRU模型会按照文本中各个词的先后顺序，针对每个词的词向量，对词向量、该词向量前面的其他词向量以及该词向量后面的词向量进行分析，从而提取反映该词的上下文特征的上下文特征向量。

相应的，第一上下文特征矩阵包含第一文本中各个词的上下文特征向量，第二上下文特征矩阵包括第二文本中各个词的上下文特征向量。其中，文本中每个词的上下文特征向量表征该词在该文本中的上下文特征。

其中，每个词对应的上下文特征向量的维度与该词的词向量的维度相同。如，假设词向量的维度为V，则上下文特征向量的维度为V，如果第一文本的长度为ls1，该第一上下文特征矩阵的维度为ls1*V。相应的，如果第二文本的长度为ls2，则该第二文本矩阵的维度为ls2*V。

S605，基于第一上下文特征矩阵和第二上下文特征矩阵，计算得到第二匹配矩阵。

其中，第二匹配矩阵包括：第一文本中各个词的上下文特征向量分别与该第二文本中各词的上下文特征向量之间的余弦相似性。

如，针对第一上下文特征矩阵中每个词的上下文特征向量，分别计算该上下文特征向量与第二上下文特征矩阵中各个词的上下文特征向量之间的余弦相似性。相应的，所有计算出的余弦相似性就构成了该第二匹配矩阵。

例如，第一上下文特征矩阵包括第一文本中ls1个词的上下文特征向量，第二上下文特征矩阵包括第二文本中ls2个词的上下文特征向量，则最终可以计算出ls1*ls2对上下文特征向量之间的余弦相似度，相应的，该第二匹配矩阵的维度为ls1*ls2。

如参见图5，文本1对应的文本矩阵输入到一个双向门控循环单元BiGRU模型，的同时，文本2表示的文本矩阵输入到另一个BiGRU模型。在此基础上，左侧的该BiGRU模型输出文本1的上下文特征矩阵与右侧的BiGRU模型输出的文本2的上下文特征矩阵之间会进行上下文特征向量的余弦相似度计算，从而得到匹配矩阵2。

S606，将该第一匹配矩阵和该第二匹配矩阵堆叠后输入到已训练的CNN模型，得到该CNN模型输出的文本匹配特征。

该文本匹配特征用于表征第一文本和第二文本的匹配程度。

其中，第一匹配矩阵和第二匹配矩阵堆叠为一个整体，并输入到该训练好的CNN模型中。其中，第一匹配矩阵和第二匹配矩阵的堆叠类似于图片处理过程，将第一匹配矩阵和第二匹配矩阵分别看成一个图片，则这两个矩阵堆叠可以构成一个两通道的图片。

CNN根据第一匹配矩阵和该第二匹配矩阵可以从单词级别、短句级别以及句子级别捕获第一文本和第二文本的匹配模式，并最终确定出第一文本和第二文本的文本匹配特征。

S607，将该文本匹配特征输入到已训练的多层感知器，得到该多层感知器输出的匹配得分和不匹配得分。

S608，对匹配得分和不匹配得分进行归一化，得到表征第一文本和第二文本匹配程度的匹配概率。

又一方面，本申请还提供了一种确定文本匹配度的装置。如图7所示，其示出了本申请一种确定文本匹配度的装置的一种组成结构示意图，本实施例的装置可以包括：

文本获得单元701，用于获得待分析的第一文本和第二文本；

第一匹配单元702，用于确定第一文本与第二文本之间的第一匹配信息，第一匹配信息用于表征第一文本的各个词与第二文本的各个词之间的相似性；

上下文确定单元703，用于确定第一文本的第一上下文特征信息和第二文本的第二上下文特征信息；

第二匹配单元704，用于依据第一上下文特征信息和第二上下文特征信息，确定第二匹配信息，第二匹配信息用于表征第一文本的上下文特征与第二文本的上下文特征之间的相似性；

匹配分析单元705，用于利用第一匹配信息和第二匹配信息，确定第一文本和第二文本的匹配程度。

在一种可能的实现方式中，上下文确定单元，包括：

第一上下文提取单元，用于通过已训练的上下文提取模型依次提取第一文本中各个词的上下文特征，得到第一文本的第一上下文特征信息；

第二上下文提取单元，用于通过已训练的上下文特征提取模型依次提取第二文本中各个词的上下文特征，得到第二文本的第二上下文特征信息。

在又一种可能的实现方式中，第一上下文特征信息包括：第一文本中各个词的上下文特征；

第二文本特征信息包括：第二文本中各个词的上下文特征；

第二匹配单元，具体为，用于依据第一文本中各个词的上下文特征以及第二文本中各个词的上下文特征，分别计算第一文本中各个词与第二文本中各个词之间的上下文特征相似性，得到第二匹配信息，第二匹配信息包括：第一文本中每个词分别与第二文本中各词的上下文特征相似性。

在又一种可能的实现方式中，匹配分析单元，具体为，用于第一匹配信息和第二匹配信息输入到已训练的文本匹配模型，得到文本匹配模型输出的文本匹配结果，文本匹配结果用于表征第一文本和第二文本的匹配程度。

可选的，文本匹配模型输出的文本匹配结果为用于表征第一文本和第二文本之间匹配程度的文本匹配特征；

相应的，该装置还可以包括：还包括：

匹配特征量化单元，用于在匹配分析单元得到文本匹配模型输出的文本匹配特征之后，基于文本匹配特征，确定出第一文本和第二文本之间的匹配可能性和不匹配可能性；

得分确定单元，用于依据匹配可能性和不匹配可能性，确定第一文本和第二文本的匹配度得分。

可选的，匹配特征量化单元具体为，用于将文本匹配特征输入已经过训练的转换模型，得到第一文本和第二文本之间的匹配可能性和不匹配可能性；

得分确定单元，具体为，用于对匹配可能性和不匹配可能性进行归一化处理，得到第一文本和第二文本的匹配度得分。

又一方面，本申请还提供了一种计算机设备，如，参见图8，其示出了本申请实施例所适用的计算机设备的一种组成结构示意图。在图8中，该计算机设备800可以包括：处理器801和存储器802。

可选的，该计算机设备还可以包括：通信接口803、输入单元804和显示器805和通信总线806。

其中，处理器801、存储器802、通信接口803、输入单元804和显示器805均通过通信总线806完成相互间的通信。

该处理器801可以调用存储器802中存储的程序，具体的，处理器所执行的操作可以参见前面确定文本匹配度的方法的相关操作。

存储器802中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获得待分析的第一文本和第二文本；

当然，该存储器还存储有处理器执行前面确定文本匹配度的方法中其他操作所需的程序。

在一种可能的实现方式中，该存储器802可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以上所提到的程序，以及至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用过程中所创建的数据。

该通信接口803可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括输入单元804，该输入单元可以包括触摸感应单元、键盘等等。

该显示器805包括显示面板，如触摸显示面板等。

当然，图8所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图8所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的确定文本匹配度的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种确定文本匹配度的方法，其特征在于，包括：

获得待分析的第一文本和第二文本；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一文本的第一上下文特征信息和第二文本的第二上下文特征信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第一上下文特征信息包括：所述第一文本中各个词的上下文特征；

4.根据权利要求1或2所述的方法，其特征在于，所述利用所述第一匹配信息和所述第二匹配信息，确定所述第一文本和所述第二文本的匹配程度，包括：

5.根据权利要求4所述的方法，其特征在于，所述文本匹配模型输出的文本匹配结果为用于表征所述第一文本和所述第二文本之间匹配程度的文本匹配特征；

6.根据权利要求5所述的方法，其特征在于，所述基于所述文本匹配特征，确定出所述第一文本和第二文本之间的匹配可能性和不匹配可能性，包括：

7.一种确定文本匹配度的装置，其特征在于，包括：

文本获得单元，用于获得待分析的第一文本和第二文本；

8.根据权利要求7所述的装置，其特征在于，所述上下文确定单元，包括：

第一上下文提取单元，用于通过已训练的上下文提取模型依次提取所述第一文本中各个词的上下文特征，得到所述第一文本的第一上下文特征信息；

第二上下文提取单元，用于通过已训练的上下文特征提取模型依次提取所述第二文本中各个词的上下文特征，得到所述第二文本的第二上下文特征信息。

9.一种计算机设备，其特征在于，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于执行以上权利要求1至6任一项所述的确定文本匹配度的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至6任一项所述的确定文本匹配度的方法。