CN109522406A

CN109522406A - 文本语义匹配方法、装置、计算机设备和存储介质

Info

Publication number: CN109522406A
Application number: CN201811183652.8A
Authority: CN
Inventors: 徐冰; 张晓�; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-03-26

Abstract

本申请涉及一种基于自然语言处理的文本语义匹配方法、装置、计算机设备和存储介质。所述方法包括：获取第一文本和第二文本；提取第一文本的第一词向量序列和第二文本的第二词向量序列，将所述第一词向量序列和第二词向量序列分别输入预先设置的双向长短期记忆网络，得到双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示，将第一语义表示和第二语义表示进行组合后，输入预先设置的神经网络模型，得到神经网络模型输出的匹配标签，根据匹配标签，确定匹配标签与预设标签是否匹配，若匹配，则确定第一文本和第二文本的语义匹配。采用本方法能够提高文本语义匹配的效率以及准确性。

Description

文本语义匹配方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本语义匹配方法、装置、计算机设备和存储介质。

背景技术

语义匹配是指将两个或者两个以上的自然语句的语义进行解析，若两个句子的语义相近或者相同，即可以认为两个或者两个以上的自然语句的语义匹配。语义匹配可以运用在新闻事件分类的场景下，通过语义匹配的方法，将语义匹配的新闻事件归为一类，从而对新闻事件进行分类。现有的分类方式有两种，一种是人工分类，即通过查阅新闻文本的内容，然后判断两个新闻文本是否描述的是同一事件，这种方式耗时耗力，而且效率非常低；另一种是通过机器学习进行分类，在通过机器学习进行分类时，首先需要提取新闻文本的特征，然后通过构建分类模型，将两个新闻文本的特征输入分类模型中进行分类，以此判断两个新闻文本是否相近。

然而，对于分类模型预测的准确性，完全取决于提取的特征是否能体现新闻文本的语义，由于对于不同行业，不同类型的新闻事件，可能需要选取不同类型的特征，因此特征选取不当，可能造成分类的准确性下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决语义分类时效率低下以及准确性低问题的文本语义匹配方法、装置、计算机设备和存储介质。

一种文本语义匹配方法，所述方法包括：

获取第一文本和第二文本；

提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列；

将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；

将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签；

根据所述匹配标签，确定所述匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配。

在其中一个实施例中，还包括：分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征；根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。

在其中一个实施例中，还包括：对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。

在其中一个实施例中，还包括：根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

在其中一个实施例中，还包括：将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注输出值和第二标注输出值；将所述第一标注输出值和所述第二标注输出值进行组合后，输入初始神经网络；根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对所述初始神经网络进行迭代，当所述初始神经网络输出所述目标标签的概率达到所述终止条件时，得到所述神经网络模型。

在其中一个实施例中，所述匹配标签为1或0，所述预设标签为1；还包括：当所述匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定所述第一文本和所述第二文本的语义匹配；当所述匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定所述第一文本和所述第二文本的语义不匹配。

在其中一个实施例中，所述第一语义表示和所述第二语义表示均为N维向量；还包括：将所述第一语义表示和所述第二语义表示进行拼接，得到2*N维的组合特征向量；所述组合特征向量输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签。

一种文本语义匹配装置，所述装置包括：

获取模型，用于获取第一文本和第二文本；

提取模块，用于提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列；

转化模块，用于将所述第一词向量序列和所述第二词向量序列分别输入预先设置的双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；

标签输出模块，用于将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签；

匹配模块，用于根据所述匹配标签，确定所述匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取第一文本和第二文本；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取第一文本和第二文本；

上述文本语义匹配方法、装置、计算机设备和存储介质，通过双向长短期记忆网络对第一文本和第二文本分别进行编码，建立第一文本和第二文本的语句结构的联系，无需进行特征提取，然后通过有监督的神经网络模型进行语义匹配，通过模型输出的标签，即可以确认匹配标签与预设标签是否匹配。上述过程无需人工参与，在大量的样本训练神经网络模型时，可以明显提高匹配的准确性，从而使文本语义匹配的效率以及准确性得到明显提升。

附图说明

图1为一个实施例中文本语义匹配方法的应用场景图；

图2为一个实施例中文本语义匹配方法的流程示意图；

图3为一个实施例中提取第一词向量序列和第二词向量序列步骤的流程示意图；

图4为一个实施例中神经网络模型训练步骤的流程示意图；

图5为另一个实施例中文本语义匹配方法的流程示意图；

图6为一个实施例中文本语义匹配装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本语义匹配方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑等，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体的，终端102可以通过HTTP访问互联网中的服务器104，服务器104中存储大量的文本，文本可以是新闻、公众号文章、微博等，终端102中指定的程序通过HTTP访问服务器104，从服务器104中获取新闻、公众号文章、微博等文本。

进一步的，终端102可以实现对新闻事件进行分类。终端102中预先设置了双向长短期记忆网络的程序和神经网络模型。终端102根据HTTP访问地址的设置，可以从指定服务器104中获取新闻文本，可以将两个新闻文本作为一次输入，判断两个新闻文本语义是否匹配，若匹配，则将两个新闻文本分为同一类，若不匹配，则两个新闻文本不是同一分类。

具体的，终端102在进行语义匹配时，首先需要提取两个新闻文本的词向量序列，分别将两个新闻文本输入双向短期记忆网络，可以得到两个新闻文本对应的语义表示，然后将两个语义表示进行组合，输入神经网络模型中，神经网络模型输出匹配标签，终端102根据输出的匹配标签确定两个新闻文本的语义是否匹配。

在一个实施例中，如图2所示，提供了一种文本语义匹配方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取第一文本和第二文本。

第一文本和第二文本可以是新闻文章、微博文章、公众号文章。

具体的，第一文本和第二文本可以通过爬虫脚本，从互联网中获取新闻文章、微博文章、公众号文章。

步骤204，提取第一文本的第一词向量序列和第二文本的第二词向量序列。

词向量序列表示第一文本和第二文本中词向量按一定顺序排列组成的序列，词向量可以通过词向量工具从第一文本和第二文本中提取。

具体的，第一文本为“山竹袭港吹倒大树”，分词后为山竹、袭港、吹倒、大树，通过词向量工具中的特征词库，查询得到山竹的词向量为(0，0，0，0，1)，袭港的词向量为(0，1，0，0，0)，吹倒的词向量为(0，0，1，0，0)，大树的词向量为(0，0，0，1，0)，其中，词向量的维度与特征词库维度一致，本实施例中维度为5，但是实际应用时，特征词库维度远大于5，以保证匹配的准确性。获取词向量后，得到第一词向量序列为{(0，0，0，0，1)、(0，1，0，0，0)、(0，0，1，0，0)、(0，0，0，1，0)}。可以采用相同的方法，获得第二词向量序列。通过词向量序列可较好的解析文本的语义，从而提高语义匹配的准确性。

步骤206，将第一词向量序列和第二词向量序列分别输入预先设置的双向长短期记忆网络，得到双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示。

双向长短期记忆网络(Bidirectional Long Short-Term Memory，Bi-LSTM)是一种神经递归神经网络，包含两个LSTM网络，分别为正向输入网络和反向输入网络，通过正向输入网络和反向输入网络输出的结果，可以得到文本的语义表示。

具体的，以步骤204中的第一词向量序列为例，将{(0，0，0，0，1)、(0，1，0，0，0)、(0，0，1，0，0)、(0，0，0，1，0)}中每一个词向量依次输入正向输入网络和反向输入网络，得到Bi-LSTM的输出，该输出即第一语义表示。实质上，每个词向量均表示与特征词库的相似标签，在将词向量序列输入Bi-LSTM编码后，可以输入文本与特征词库的相似度。本步骤中，可以选择合适大小的特征词库，保证特征词库中特征词尽可能涵盖文本中的词语，从而使Bi-LSTM的输入信息量较大，从而确保匹配的准确性。

步骤208，将第一语义表示和第二语义表示进行组合后，输入预先设置的神经网络模型，得到神经网络模型输出的匹配标签。

第一语义表示和第二语义表示均可以是向量，那么组合的方式可以是首尾相接的方式，拼接得到一个多维向量，将该多维向量输入预先设置的神经网络模型，得到神经网络模型输出的标签。

神经网络模型(Neural Networks，NN)是一种方法模型，神经网络模型在大量样本学习后，可以自动执行对输入的分类，样本学习的目标是使隐层的参数收敛。本步骤中，由于输入较为复杂，可以采用深度神经网络模型(Deep Neural Network，DNN)，DNN包括有多个隐层，以此应对本步骤中复杂的非线性问题。

步骤210，根据匹配标签，确定匹配标签与预设标签是否匹配，若匹配，则确定第一文本和第二文本的语义匹配。

匹配标签为神经网络模型的输出，匹配标签可以采用字母、数字等表示，不同的匹配标签表示不同的匹配程度。

具体的，可以设置两个匹配标签分别为1和0，预设标签为1，当匹配标签为1时，匹配标签与预设标签匹配，确定第一文本和第二文本的语义匹配，当匹配标签为0时，匹配标签与预设标签不匹配，确定第一文本和第二文本的语义不匹配，值得说明的是，匹配标签还可以设置其他不同的组合，例如a和b等，相应的，预设标签可以设置为a。

上述文本语义匹配方法中，通过双向长短期记忆网络对第一文本和第二文本分别进行编码，建立第一文本和第二文本的语句结构的联系，无需进行特征提取，然后通过有监督的神经网络模型进行语义匹配，通过模型输出的标签，即可以确认匹配标签与预设标签是否匹配。上述过程无需人工参与，在大量的样本训练神经网络模型时，可以明显提高匹配的准确性，从而使文本语义匹配的效率以及准确性得到明显提升。

在一实施例中，如图3所示，提供一种提取第一词向量序列和第二词向量序列步骤的示意性流程图，具体如下：

步骤302，别对第一文本和第二文本进行特征提取，得到第一文本的第一文本特征和第二文本的第二文本特征。

步骤304，根据第一文本的第一文本特征得到第一词向量序列，以及根据第二文本的第二文本特征得到第二词向量序列。

本步骤中，通过提取第一文本和第二文本的特征，从而构建第一词向量序列和第二词向量序列，即，采用词向量序列的形式标识文本的语义，以便后续模型的编码。

对于步骤302，在一实施例中，特征可以通过对第一文本和第二文本进行分词后，去除停顿词、程度词、城市名、人名等后得到，本实施例中的特征为多个单词。对于构建第一文本特征和第二文本特征的步骤如下：对第一文本进行分词，得到第一单词集合，对第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对第二文本进行分词，得到第二单词集合，对第二单词集合中的单词进行从左至右的排序，得到第二文本特征。本实施例采用分词的方式，可以避免停顿词、程度词、城市名、人名等对文本语义的干扰，从而提高文本语义匹配的准确性。

具体的，第一文本为“平安科技获国际文本识别领域评测比赛世界第一，再刷新AI图像领域实力”，通过分词工具分词后，得到“平安科技，获，国际，文本识别，领域，评测，比赛，世界第一，再，刷新，AI，图像领域，实力”，那么，根据预先设置的过滤条件对分词结果进行过滤，得到“平安科技，文本识别，领域，评测，比赛，世界第一，刷新，AI，图像领域，实力”，其中去除“国际”“再”，避免限定词对文本语义的干扰，从而使文本特征能更加准确的表示文本的语义。

另外，对第一单词集合和第二单词集合中的单词进行从左至右的排序，可以按照单词在原文本中的位置进行从左至右的排序，排序规则可以设置为阅读顺序，即从文本的左至右。

对于步骤304，在一实施例中，构建第一词向量序列和第二词向量序列的步骤可以是：根据预设维度的词语表，将第一文本特征中每个单词分别查询词语表，得到第一词向量集合，将第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列，将第二文本特征中每个单词查询所述词语表，得到第二词向量集合，将第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

本实施例中，通过查询词语表的方式，将第一文本特征和第二文本特征中的单词转化为词向量。

在另一实施例中，为了保证第一词向量序列和第二词向量序列保持长度一致，可以预先设置序列长度，例如，设置序列长度为10，当第一词向量序列和第二词向量序列的序列长度大于10时，删除部分词向量，序列长度小于10时，采用补零的方式对齐，以此保证输入长度一致。

在一实施例中，如图4所示，提供一种神经网络模型训练步骤的示意性流程图，具体如下：

步骤402，将第一标注文本和第二标注文本分别输入双向长短期记忆网络，得到双向长短期记忆网络输出的第一标注输出值和第二标注输出值。

第一标注文本和第二标注文本均为语料库中的文本，第一标注文本和第二文本均被标签标记。

步骤404，将所述第一标注语义表示和所述第二标注语义表示进行组合后，输入初始神经网络。

步骤406，根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对初始神经网络进行迭代，当初始神经网络输出目标标签的概率达到终止条件时，得到神经网络模型。

本实施例中，通过预先设置语料库，然后设置训练条件，对初始神经网络进行训练，即可以训练出具有分类能力的神经网络模型。

对于步骤406，在一实施例中，可以采用损失函数的输出值作为终止条件，具体通过计算初始神经网络输出预测标签与目标标签之间的对比损失值，反向训练初始神经网络，以此加快初始神经网络的隐层的参数收敛的速度，当对比损失值收敛时，停止训练，输出此时的初始神经网络为神经网络模型。

在另一实施例中，可以采用具有稠密隐层的深度神经网络模型作为神经网络模型，深度神经网络模型具有多个隐层，因此对于本实施例中多维度的输入具有较准确的处理能力，从而提高匹配的准确性。

在一实施例中，可以设置匹配标签为1和0两种，预设标签可以设置为1，当匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定第一文本和第二文本的语义匹配；当匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定第一文本和第二文本的语义不匹配。

在另一实施例中，神经网络模型采用打分函数输出，打分区间为(0，1]，打分的分值越靠近1，则说明第一文本和第二文本的语义靠近。基于此，可以将打分区间设置为多个子区间，例如：相同区间、相似区间、不同区间等，输出值落在区间(0.7，1]时，确定第一文本和第二文本的语义相同，输出值落在区间(0.4，0.7]时，确定第一文本和第二文本的语义相似，输出值落在区间(0，0.4]时，确定第一文本和第二文本的语义不同。通过设置打分函数以及将预设标签设置为打分区间，可以丰富语义匹配时的输出效果。

在一实施例中，第一语义表示和第二语义表示均为N维向量，那么进行组合后，得到2*N维的组合特征向量。

在一实施例中，如图5所示，提供另一种文本语义匹配方法的示意性流程图，本实施例中，第一文本和第二文本均为新闻文本，第一文本和第二文本语义相同表示，对应的两个新闻文本描述相同的事件，主要步骤包括：

步骤502，通过预先设置的爬虫脚本从预设新闻来源获取待预测新闻文本，将待预测新闻文本存储在数据库中。

步骤504，从数据库中取出第一待预测新闻文本和第二待预测新闻文本，按照预先设置的分类规则，将第一待预测新闻文本设置分类标签。

分类标签可以采用字母表示，例如，A、B、C、D等，分类规则可以根据取出待预测新闻文本的顺序进行编号，例如，设置第一待预测新闻文本的分类标签为A。

步骤506，对第一待预测新闻文本和第二待预测新闻文本进行分词，得到第一待预测新闻文本的第一新闻特征和第二待预新闻文本的第二新闻特征。

步骤508，将第一新闻特征和第二新闻特征向量化为固定维度的第一新闻向量序列和第二新闻向量序列。

步骤510，分别将第一新闻向量序列和第二新闻向量序列作为双向长短期记忆网络中进行编码，依次得到第一新闻事件表示和第二新闻事件表示。

步骤512，将第一新闻事件表示和第二新闻事件表示拼接后输入神经网络模型，得到神经网络模型输出的匹配标签。

步骤514，若匹配标签为1，则将第二待预测新闻文本的分类标签设置为第一待预测新闻文本的分类标签，若匹配标签为0，则为第二待预测文本设置新的分类标签。

具体的，若是，第一待预测新闻文本的分类标签为A，这设置第二待预测新闻文本的分类标签为A，若否，设置第二待预测新闻文本的分类标签为B。

步骤516，从数据库中取出第三待分类文本，从而已分配分类标签中取出一条待分类新闻文本重复步骤506-步骤514。

步骤518，完成数据中所有待预测新闻文本的分类。

本发明实施例，通过语义的匹配，可以对新闻事件进行分类，由此，可以便于新闻发布平台中，新闻的推送监管，一方面可以监管其中负面舆论的新闻，另一方面，可以避免相同内容的新闻推送，降低阅读体验。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种文本语义匹配装置，包括：获取模型602、提取模块604、转化模块606、标签输出模块608和匹配模块610，其中：

获取模型602，用于获取第一文本和第二文本；

提取模块604，用于提取第一文本的第一词向量序列和第二文本的第二词向量序列；

转化模块606，用于将第一词向量序列和第二词向量序列分别输入预先设置的双向长短期记忆网络，得到双向长短期记忆网络输出的第一词向量序列对应的第一语义表示和第二词向量序列对应的第二语义表示；

标签输出模块608，用于将第一语义表示和第二语义表示进行组合后，输入预先设置的神经网络模型，得到神经网络模型输出的匹配标签；

匹配模块610，用于根据匹配标签，确定匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配。

在一个实施例中，还包括特征提取模块，用于分别对第一文本和第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征，提取模块604还用于根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。

在一个实施例中，特征提取模块还用于对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。

在一个实施例中，提取模块604还用于根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

在一个实施例中，还包括训练模块，用于将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示；将所述第一标注语义表示和所述第二标注语义表示进行组合后，输入初始神经网络；根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对所述初始神经网络进行迭代，当所述初始神经网络输出所述目标标签的概率达到所述终止条件时，得到所述神经网络模型。

在一实施例中，匹配标签为1或0，所述预设标签为1，匹配模块610还用于当所述匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定所述第一文本和所述第二文本的语义匹配；当所述匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定所述第一文本和所述第二文本的语义不匹配。

在一个实施例中，第一语义表示和第二语义表示均为N维向量，标签输出模块608还用于将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签。

关于文本语义匹配装置的具体限定可以参见上文中对于文本语义匹配方法的限定，在此不再赘述。上述文本语义匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本语义匹配时的第一文本和第二文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本语义匹配方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取第一文本和第二文本；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征；根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示；将所述第一标注语义表示和所述第二标注语义表示进行组合后，输入初始神经网络；根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对所述初始神经网络进行迭代，当所述初始神经网络输出所述目标标签的概率达到所述终止条件时，得到所述神经网络模型。

在一个实施例中，匹配标签为1或0，所述预设标签为1；处理器执行计算机程序时还实现以下步骤：当所述匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定所述第一文本和所述第二文本的语义匹配；当所述匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定所述第一文本和所述第二文本的语义不匹配。

在一个实施例中，所述第一语义表示和所述第二语义表示均为N维向量；处理器执行计算机程序时还实现以下步骤：将所述第一语义表示和所述第二语义表示进行拼接，得到2*N维的组合特征向量；所述组合特征向量输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取第一文本和第二文本；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征；根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示；将所述第一标注语义表示和所述第二标注语义表示进行组合后，输入初始神经网络；根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对所述初始神经网络进行迭代，当所述初始神经网络输出所述目标标签的概率达到所述终止条件时，得到所述神经网络模型。

在一个实施例中，匹配标签为1或0，所述预设标签为1；计算机程序被处理器执行时还实现以下步骤：当所述匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定所述第一文本和所述第二文本的语义匹配；当所述匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定所述第一文本和所述第二文本的语义不匹配。

在一个实施例中，所述第一语义表示和所述第二语义表示均为N维向量；计算机程序被处理器执行时还实现以下步骤：将所述第一语义表示和所述第二语义表示进行拼接，得到2*N维的组合特征向量；所述组合特征向量输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本语义匹配方法，所述方法包括：

获取第一文本和第二文本；

2.根据权利要求1所述的方法，其特征在于，在提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列之前，还包括：

分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征；

所述提取所述第一文本的第一词向量序列和所述第二文本的第二词向量序列，包括：

根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列。

3.根据权利要求2所述的方法，其特征在于，所述分别对所述第一文本和所述第二文本进行特征提取，得到所述第一文本的第一文本特征和第二文本的第二文本特征，包括：

对所述第一文本进行分词，得到第一单词集合，对所述第一单词集合中的单词进行从左至右的排序，得到第一文本特征；

对所述第二文本进行分词，得到第二单词集合，对所述第二单词集合中的单词进行从左至右的排序，得到第二文本特征。

4.根据权利要求3所述的方法，其特征在于，所述根据第一文本的所述第一文本特征得到第一词向量序列，以及根据第二文本的所述第二文本特征得到第二词向量序列，包括：

根据预设维度的词语表，将所述第一文本特征中每个单词分别查询所述词语表，得到第一词向量集合；将所述第一词向量集合中的词向量进行从左至右的排序，得到第一词向量序列；

将所述第二文本特征中每个单词查询所述词语表，得到第二词向量集合；将所述第二词向量集合中的词向量进行从左至右的排序，得到第二词向量序列。

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型训练的步骤，包括：

将第一标注文本和第二标注文本分别输入所述双向长短期记忆网络，得到所述双向长短期记忆网络输出的第一标注语义表示和第二标注语义表示；

将所述第一标注语义表示和所述第二标注语义表示进行组合后，输入初始神经网络；

根据第一标注文本和第二标注文本的目标标签以及预先设置的终止条件，利用预先设置的样本集对所述初始神经网络进行迭代，当所述初始神经网络输出所述目标标签的概率达到所述终止条件时，得到所述神经网络模型。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述匹配标签为1或0，所述预设标签为1；

所述根据所述匹配标签，确定所述匹配标签与预设标签是否匹配，若匹配，则确定所述第一文本和所述第二文本的语义匹配，包括：

当所述匹配标签为1时，确定所述匹配标签与所述预设标签匹配，确定所述第一文本和所述第二文本的语义匹配；

当所述匹配标签为0时，确定所述匹配标签与所述预设标签不匹配，确定所述第一文本和所述第二文本的语义不匹配。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述第一语义表示和所述第二语义表示均为N维向量；

所述将所述第一语义表示和所述第二语义表示进行组合后，输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签，包括：

将所述第一语义表示和所述第二语义表示进行拼接，得到2*N维的组合特征向量；

所述组合特征向量输入预先设置的神经网络模型，得到所述神经网络模型输出的匹配标签。

8.一种文本语义匹配装置，其特征在于，所述装置包括：

获取模型，用于获取第一文本和第二文本；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。