CN111259144A

CN111259144A - 多模型融合文本匹配方法、装置、设备和存储介质

Info

Publication number: CN111259144A
Application number: CN202010045333.1A
Authority: CN
Inventors: 李勇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09

Abstract

本发明涉及人工智能领域，提供一种多模型融合文本匹配方法、装置、设备和存储介质。方法包括：获取待处理的数据；通过第一神经网络模型将待处理的数据进行初筛，得到候选标准词，第一神经模型为双向门控循环单元模型、注意力模型以及softmax层串联结构的神经网络；通过第二神经网络模型将候选标准词实体初筛，得到标注实体，第二神经网络模型为条件随机场；将标注实体输入至第三神经网络模型，得到多个相似度,第三神经网络模型为卷积深度语义结构模型；获取多个相似度的权重，将相似度乘以对应的相似度的权重，得到多个标注实体得分；将标注得分对应的标注实体按照数值大小从大到小的排序，形成对应标准术语。提高文本匹配的准确率。

Description

多模型融合文本匹配方法、装置、设备和存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种多模型融合文本匹配方法、装置、设备和存储介质。

背景技术

传统的处理过程需要大量专业人员根据实际情况进行匹配，将待匹配数据与国家发布的标准库中的名称的匹配。这种方式工作量巨大，效率非常低，且容易出现错误。随着互联网技术的发展，出现一系列基于字符串、词袋模型，或者利用机器学习、深度学习等方式实现文本匹配的方案，本质即为文本相似度计算进行匹配。在文本匹配领域，传统的文本匹配检索模型，如BM25,是基于词袋模型的精确匹配模型。但这个模型存在一定的问题，即无法处理词语的语义相关性。不能识别例如“头痛”和“头疼”等具有高度语义一致性的词语，也无法理解用词相近但语义不同的句子。而近年来新流行的利用深度学习进行端到端文本匹配模型比较好的解决了语义理解的问题，涌现出大量直接对样本进行深度文本匹配的建模方法，如深度语义结构模型(deep semantic structured model，DSSM)、基于单词序列的卷积深度语义结构模型(convolutional deep semantic，CDSSM)等。这种深度文本匹配模型相比于传统文本检索匹配模型，缓解了语义理解问题，但仍存在弱点，这种端到端的模型为了获得比较好的表现，常常使用结构非常复杂的神经网络模型，训练起来非常困难，需要大量的标签样本。

发明内容

本发明提供了一种通过配置多模型融合文本匹配方法，能够提高了文本匹配的准确度。

第一方面，本发明提供一种多模型融合文本匹配方法，包括：

获取待处理的数据；

通过第一神经网络模型将所述待处理的数据进行初筛，得到候选标准词，所述第一神经模型为双向门控循环单元模型、注意力模型以及软最大值softmax层串联结构的神经网络；

通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体，所述第二神经网络模型为条件随机场；

将所述标注实体输入至第三神经网络模型，得到多个相似度,所述第三神经网络模型为卷积深度语义结构模型；

获取多个所述相似度的权重，将所述相似度乘以对应的所述相似度的权重，得到多个标注实体得分；

将所述标注得分对应的标注实体按照数值大小从大到小的排序，形成对应标准术语。

在一些可能的设计中，所述通过第一神经网络模型将所述待处理的数据进行初筛，得到候选标准词，包括：

将所述待处理的数据输入至所述双向门控循环单元模型，通过所述双向门控循环单元模型将所述待处理的数据转换成向量矩阵，得到特征向量；

将所述特征向量输入至所述注意力模型，通过权值对所述特征向量进行加权求和，得到多个文本标签以及对应文本标签的概率；

将所述多个文本标签以及对应文本标签的概率通过softmax层分类，得到所述候选标准词。

在一些可能的设计中，所述通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体，所述第二神经网络模型为条件随机场，包括：

获取带标注的语料数据，所述带标注的语料数据至少包括词语、词性以及字在词语中的位置；

通过所述第二神经网络模型对所述医疗语料数据迭代，得到训练好的条件随机场模型；

获取所述候选标准词的词语、词性以及字在词语中的位置，得到所述候选标准词的词语特征；

将所述词语特征输入至所述训练好的条件随机场模型，通过所述训练好的条件随机场模型生成序列标注，得到标注实体。

在一些可能的设计中，所述将所述标注实体输入至第三神经网络模型，得到多个相似度，所述第三神经网络模型为卷积深度语义结构模型，包括：

将所述标注实体输入至所述第三神经网络模型，所述第三神经网络模型为卷积深度语义结构模型；

通过链接卷积层对所述标注实体进行卷积操作，得到多个相似度；

将所述多个相似度链接池化层，通过窗口输出所述多个相似度中的最大值。

在一些可能的设计中，所述获取待处理的数据之前，所述方法还包括：

获取多个训练数据；

将所述训练数据输入至所述第一神经网络模型，通过神经网络训练算法以及所述训练数据更新所述第一次神经网络模型的神经元权值，以得到目标模型；

调整所述目标模型的神经元的权值，并更新所述第一神经网络模型。

在一些可能的设计中，所述将所述待处理的数据通过第一神经网络模型进行初筛，得到候选标准词之后，所述通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体之前，所述方法还包括：

所述第一神经网络模型得到候选标准词后，返回一个32位的2进制数；

若第i位是1，则确定第i+1层的神经网络运行正常，所述i是大于等于0且小于32的整数；

若第i位是0，则确定第i+1层的神经网络运行存在异常。

在一些可能的设计中，所述获取多个所述相似度的权重，将所述相似度乘以对应的所述相似度的权重，得到多个所述标注实体得分，包括：

通过

计算所述权重，其中Fw是指所述权值，N是指所述核心关键词出现的句子数，M是指所述特征向量的数量；

将所述相似度乘以对应的所述相似度的权重，得到多个所述标注实体得分。

第二方面，本发明提供一种多模型融合文本匹配装置，具有实现对应于上述第一方面提供的多模型融合文本匹配平台的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

所述多模型融合文本匹配装置包括：

输入输出模块，用于获取待处理的数据；

处理模块，用于通过第一神经网络模型将所述待处理的数据进行初筛，得到候选标准词，所述第一神经模型为双向门控循环单元模型、注意力模型以及软最大值softmax层串联结构的神经网络；通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体，所述第二神经网络模型为条件随机场；通过所述输入输出模块将所述标注实体输入至第三神经网络模型，得到多个相似度,所述第三神经网络模型为卷积深度语义结构模型；获取多个所述相似度的权重，将所述相似度乘以对应的所述相似度的权重，得到多个标注实体得分；将所述标注得分对应的标注实体按照数值大小从大到小的排序，形成对应标准术语。

在一些可能的设计中，所述处理模块还用于：

获取多个训练数据；

在一些可能的设计中，所述处理模块还用于：

若第i位是0，则确定第i+1层的神经网络运行存在异常。

在一些可能的设计中，所述处理模块还用于：

通过

本发明又一方面提供了一种多模型融合文本匹配设备，其包括至少一个连接的处理器、存储器、输入输出单元，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方法。

本发明又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明提出了一整套数据标准化治理方案，本发明主要分两个大的模块，模块一：基于知识图谱初筛模块；模块二：基于深度文本相似的匹配模块。相比现有机制，主要有以下三点作为创新之处：第一，在深度文本匹配之前，先引入知识图谱等外部知识对标准词进行初筛，使匹配过程更加准确，更具可解释性。第二，在知识图谱候选列表的生成过程中，除了常见的实体提取，实体链接外，还引入标签类别分类器，在知识图谱中寻找目标实体的上层标签，根据该标签获得更多相关的标准词实体，减少标准词被遗漏的情况，提高召回率。第三，在深度文本相似度匹配之后，结合医疗业务实际情况，利用医疗文本相似规则进一步修正相似度匹配值。

附图说明

图1为本发明实施例中多模型融合文本匹配方法的流程示意图；

图2为本发明实施例中多模型融合文本匹配装置的结构示意图；

图3为本发明实施例中多模型融合文本匹配设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本发明中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

为解决上述技术问题，本发明主要提供以下技术方案

本发明通过采用多模型对话意图识别系统，结合了规则过滤、传统相似度以及深度语义匹配，不仅解决了传统基于字面匹配准确率不高，还加快了深度文本匹配的效率。通过文本检索和传统相似度方法，选择快速匹配并返回，解决一定量的数据需求；当传统相似度方法无法解决的问题，选择用深度语义或文本分类相结合的方式。所采用的方法都是毫秒级返回的高效算法，通过模型融合的方式，相比使用单一模型进行意图识别，可以极大地提高准确度，增强对话系统的智能性。

请参照图1，以下对本发明提供一种多模型融合文本匹配方法进行举例说明，所述方法包括：

101、获取待处理的数据。

将待处理的数据通过知识图谱和深度学习技术与数据库标准的医疗数据相匹配。由于各地的信息化平台中存储的各个数据库与国家发布的标准库之间存在差异,存在大量用语和标准术语不一致情况。会导致报销方面发生错误,因此需要我们进行标准化数据治理，将数据映射成标准的术语形式，即对码操作。

102、通过第一神经网络模型将待处理的数据进行初筛，得到候选标准词。

第一神经模型为双向门控循环单元(Bi-GRU)模型、注意力(Attention)模型以及软最大值softmax层串联结构的神经网络。

由标签类别分类器模块和医学实体抽取链接模块组成。通过标签分类器可获得输入文本的上层标签，利用知识图谱获得标签相关标准词实体作为部分候选标准词；通过医学实体抽取，实体链接，获取知识图谱中相关的另一部分候选标准词实体。标签类别分类器以知识图谱中标准词的上层结构标签词为分类标签，通过输入模块,将输入文本转化为词向量矩阵，再经过卷积神经网络(及其变体)得到文本的长距离语义特征。然后经过注意力模块，给予文本中各词不同权重，最后输出文本标签及各标签的概率。

103、通过第二神经网络模型将候选标准词实体初筛，得到标注实体。

第二神经网络模型为条件随机场(conditional random field algorithm，CRF)。

利用知识图谱进行初筛的另一部分是基于医学实体的提取，实体提取的方法有很多种，有传统的基于规则的方法，和基于统计的方法。本发明采用条件随机场，利用一阶谓词模型识别实体简称。首先文本进行分词，之后建立一阶条件随机场模型对分词结果进行序列标注生成简称。

104、将标注实体输入至第三神经网络模型，得到多个相似度。

第三神经网络模型为卷积深度语义结构模型。

传统的相似度计算不能考虑到语义信息，如BM25等，本发明使用深度学习匹配模型，计算输入文本和候选标准词的相似度。然后，提出了一种利用医学规则修正模型相似度的方法。在相似度计算部分，主要分两个步骤，先是基于深度文本匹配模型，再通过业务实际情况给予调整。深度文本匹配模型能够从大量的样本中自动提取词语之间的关系，识别文本的语义含义，能够更精细地描述文本匹配问题。该模块将输入文本和候选标准词通过模型计算出文本相似度。

105、获取多个相似度的权重，将相似度乘以对应的相似度的权重，得到多个标注实体得分。

得到候选词的深度学习文本相似度匹配得分，本发明提出根据业务逻辑进行进一步的调整相似度得分。考虑到某些词，例如身体部位等，在实际业务中，意义占比较大。通过模型不能很好的区分不同子字符串的业务重要程度，比如不同身体部位的两个形似的字符串，实际含义完全不同。本发明创造性提出医疗文本规则，如果输入文本和候选文本同时包含身体部位关键字，并且分数大于阈值进行后处理操作：根据输入文本和候选文本包含的身体部位关键字是否相同，相似度分数乘以不同的系数，使得不同身体部位的文本相似度得分尽量低。

106、将得分对应的标注实体按照数值大小从大到小的排序，形成对应标准术语。

一些实施方式中，通过第一神经网络模型将待处理的数据进行初筛，得到候选标准词，包括：

将待处理的数据输入至双向门控循环单元模型，通过双向门控循环单元模型将待处理的数据转换成向量矩阵，得到特征向量；

将特征向量输入至注意力模型，通过权值对特征向量进行加权求和，得到多个文本标签以及对应文本标签的概率；

将多个文本标签以及对应文本标签的概率通过softmax层分类，得到候选标准词。

上述实施方式中，在标签分类步骤采用Bi-GRU模型把输入文本表示成一个向量。由于医学文本中，而每个词所占的权重是不一样的。比如“右侧/肩部/老年/性/骨质疏松症/伴有/病理性/骨折，”在做文本分类时，显然更依赖于“骨质疏松症”、“骨折”等词，而与“伴有”等词基本无关。所以采用Attention机制计算每一个特征词的权值，然后进行加权平均。即对关键词的注意力更大，加入Attention之后可以很直观的解释各个词对分类类别的重要性。

一些实施方式中，通过第二神经网络模型将候选标准词实体初筛，得到标注实体，包括：

获取带标注的语料数据，带标注的语料数据至少包括词语、词性以及字在词语中的位置；

通过第二神经网络模型对医疗语料数据迭代，得到训练好的条件随机场模型；

获取候选标准词的词语、词性以及字在词语中的位置，得到候选标准词的词语特征；

将词语特征输入至训练好的条件随机场模型，通过训练好的条件随机场模型生成序列标注，得到标注实体。

上述实施方式中，在构建CRF命名体识别模型的时候，先准备好标注好的医疗语料数据，读入训练语料，对于每一个词语提取医疗实体相关词语特征，包括词语、词性、字在词语中的位置等，最后，采用CRF++对输入的训练语料迭代，生成CRF模型。模型训练完毕后，对于新输入文本，先进行医学文本切词，获取词语特征，利用刚刚训练好的模型进行识别抽取，获得医疗相关实体。

一些实施方式中，将标注实体输入至第三神经网络模型，得到多个相似度，包括：

将标注实体输入至第三神经网络模型，第三神经网络模型为卷积深度语义结构模型；

通过链接卷积层对标注实体进行卷积操作，得到多个相似度；

将多个相似度链接池化层，通过窗口输出多个相似度中的最大值。

在上述实施方式中，出使用CDSSM模型，该模型解决了传统全链接神经网络参数太多，忽略词序关系的问题。同时对于这种局部信息很强的匹配问题，可以较好的将学到的局部匹配信息应用到全局。模型结构首先将输入文本和标准词表示为词向量。然后，链接卷积层对每个词向量进行卷积操作，得到短语的一种向量表达。之后再链接池化层，对所有窗口输出的向量固定位置取最大值，即池化操作。

一些实施方式中，获取待处理的数据之前，方法还包括：

获取多个训练数据；

将训练数据输入至第一神经网络模型，通过神经网络训练算法以及训练数据更新第一次神经网络模型的神经元权值，以得到目标模型；

调整目标模型的神经元的权值，并更新第一神经网络模型。

上述实施方式中，通过上述方法训练第一神经网络模型，使其具有对应的功能。

一些实施方式中，将待处理的数据通过第一神经网络模型进行初筛，得到候选标准词之后，方法还包括：

第一神经网络模型得到候选标准词后，返回一个32位的2进制数；

若第i位是1，则确定第i+1层的神经网络运行正常，i是大于等于0且小于32的整数；

若第i位是0，则确定第i+1层的神经网络运行存在异常。

上述实施方式中，通过异常标志检查第一神经网络模型每一层神经网络的执行状况，异常标志是指一个用于检测代码异常的32位二进制数，通过二进制数的每一位代表传每一层神经网络运行的状态。

一些实施方式中，获取多个相似度的权重，将相似度乘以对应的相似度的权重，得到多个标注实体得分，包括：

通过

计算权重，其中Fw是指权值，N是指核心关键词出现的句子数，M是指特征向量的数量；

将相似度乘以对应的相似度的权重，得到多个标注实体得分。

上述实施方式中，通过上述方法计算对应词汇的权重。

如图2所示的一种多模型融合文本匹配装置20的结构示意图，其可应用于多模型融合文本匹配。本发明实施例中的多模型融合文本匹配装置能够实现对应于上述图1所对应的实施例中所执行的多模型融合文本匹配方法的步骤。多模型融合文本匹配装置20实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述多模型融合文本匹配装置可包括输入输出模块201和处理模块202，所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。输入输出模块201可用于控制所述输入输出模块201的输入、输出以及获取操作。

一些实施方式中，所述输入输出模块201可用于获取待处理的数据；

所述处理模块202可用于通过第一神经网络模型将所述待处理的数据进行初筛，得到候选标准词，所述第一神经模型为双向门控循环单元模型、注意力模型以及软最大值softmax层串联结构的神经网络；通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体，所述第二神经网络模型为条件随机场；通过所述输入输出模块将所述标注实体输入至第三神经网络模型，得到多个相似度,所述第三神经网络模型为卷积深度语义结构模型；获取多个所述相似度的权重，将所述相似度乘以对应的所述相似度的权重，得到多个标注实体得分；将所述标注得分对应的标注实体按照数值大小从大到小的排序，形成对应标准术语。

一些实施方式中，所述处理模块202还用于：

获取多个训练数据；

一些实施方式中，所述处理模块202还用于：

若第i位是0，则确定第i+1层的神经网络运行存在异常。

一些实施方式中，所述处理模块202还用于：

通过

上面从模块化功能实体的角度分别介绍了本发明实施例中的多模型融合文本匹配装置，以下从硬件角度介绍一种多模型融合文本匹配设备，如图3所示，其包括：处理器、存储器、输入输出单元(也可以是收发器，图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1所对应的实施例中多模型融合文本匹配方法对应的程序。例如，当计算机设备实现如图2所示的多模型融合文本匹配装置20的功能时，所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由多模型融合文本匹配装置20执行的多模型融合文本匹配方法中的各步骤。或者，所述处理器执行所述计算机程序时实现上述图2所对应的实施例的多模型融合文本匹配装置20中各模块的功能。又例如，该计算机程序可以为图1所对应的实施例中多模型融合文本匹配方法对应的程序。

所称处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入输出单元也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为输入输出单元。该输入输出可以为收发器。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种多模型融合文本匹配方法，其特征在于，所述方法包括：

获取待处理的数据；

2.根据权利要求1所述的方法，其特征在于，所述通过第一神经网络模型将所述待处理的数据进行初筛，得到候选标准词，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体，所述第二神经网络模型为条件随机场，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述标注实体输入至第三神经网络模型，得到多个相似度，所述第三神经网络模型为卷积深度语义结构模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待处理的数据之前，所述方法还包括：

获取多个训练数据；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述将所述待处理的数据通过第一神经网络模型进行初筛，得到候选标准词之后，所述通过第二神经网络模型将所述候选标准词实体初筛，得到标注实体之前，所述方法还包括：

若第i位是0，则确定第i+1层的神经网络运行存在异常。

7.根据权利要求1所述的方法，其特征在于，所述获取多个所述相似度的权重，将所述相似度乘以对应的所述相似度的权重，得到多个所述标注实体得分，包括：

通过

8.一种多模型融合文本匹配装置，其特征在于，所述装置包括：

输入输出模块，用于获取待处理的数据；

9.一种多模型融合文本匹配设备，其特征在于，所述多模型融合文本匹配设备包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。