CN114676237A

CN114676237A - 语句相似度确定方法、装置、计算机设备和存储介质

Info

Publication number: CN114676237A
Application number: CN202210255053.2A
Authority: CN
Inventors: 郝凯风; 李剑锋; 侯翠琴
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-28

Abstract

本发明涉及一种语句相似度确定方法方法、装置、计算机设备和存储介质，该方法包括：接收用户问题；利用实体识别模型得到用户问题中的实体信息；利用属性识别模型得到用户问题中的属性信息；在预设的知识图谱中检索与属性信息相关的标准属性信息；根据实体信息和标准属性信息，在知识图谱中确定候选语句；采用多个不同的相似度算法，分别计算用户问题与候选语句的相似度，得到各相似度算法对应的相似度结果；对多个相似度结果进行融合，得到最终结果信息。上述方法可以提高相似度识别精准度。

Description

语句相似度确定方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及语句相似度确定方法、装置、计算机设备和存储介质。

背景技术

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

传统关系相似度计算主要通过词频统计实现，缺少泛化能力，且无法计算语义级别的相似度，比如“住持”和“方丈”。因此需要一种高效的关系相似度计算模型。

发明内容

本申请提供了一种语句相似度确定方法、装置、计算机设备和存储介质。

第一方面提供了一种语句相似度确定方法，包括：

接收用户问题；

将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；

将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；

在预设的知识图谱中检索与所述属性信息相关的标准属性信息；

根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；

针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；

将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。

在一些实施例中，在得到所述候选语句与所述用户问题的最终相似度结果之后，还包括：

确定所述用户问题的所有候选语句中满足预设条件的命中语句，所述预设条件为所述命中语句的最终相似度结果大于其他候选语句的最终相似度结果；

在所述知识图谱内检索出所述命中问题对应的命中答案，将所述命中答案作为所述用户问题的答案。

在一些实施例中，所述接收用户问题，识别所述用户问题的实体信息和属性信息，包括：

所述用户问题输入预配置的BERT-BiLSTM-CRF模型中，得到所述用户问题中的实体信息；其中，所述BERT-BiLSTM-CRF模型包括： BERT预训练模型层、BiLSTM网络层以及CRF推理层，所述BERT 预训练模型层用于将每个字符进行编码得到对应字符的字向量；所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量；所述CRF推理层用于基于所述新的特征向量输出概率最大的实体信息。

在一些实施例中，对所述用户问题进行分词处理得到词序列，通过WordEmbedding获取每个词的词向量w1，w2…，wn；

将词向量w1，w2…，wn映射成对应的概念词向量e1，e2…， en；

将概念词向量e1，e2…，en输入到属性识别模型的Bi-LSTM层，并使用实体层的表征向量Entity进行Attention操作得到第二隐藏向量h1，h2…，hn；

将第二隐藏向量h1，h2…，hn再次输入到属性识别模型的 Bi-LSTM层，并使用短语层的表征向量Phrase进行Attention操作，并对输出的第三隐藏向量进行加权求和，得到表征向量Vector；

将表征向量Vector输入到属性识别模型的全连接层并进行 Softmax操作，得到所述用户问题中的属性信息。

在一些实施例中，所述根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句，包括：

提取所述用户问题中的实体和第一属性词；

根据所述用户问题中的实体，在知识图谱中查找与所述实体匹配的多个第二属性词；

计算所述第一属性词和多个所述第二属性词之间的相关度，并根据相关度对多个所述第二属性词进行筛选，确定第三属性词；

如果所述第三属性词为多个，统计每个所述第三属性词在所述知识图谱中出现的次数，并将出现次数最多的第三属性词作为标准属性；

将所述实体信息视为主语或宾语，与所述标准属性相结合，从所述知识图谱中检索并找到对应的三元组，根据所述三元组确定候选语句。

在一些实施例中，所述采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果，包括：

采用Bert算法计算所述用户问题与候选语句的第一相似度；

采用BM25算法计算所述用户问题与候选语句的第二相似度；

采用fasttext算法计算所述用户问题与候选语句的第三相似度。

在一些实施例中，所述将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果，包括：

将多个所述相似度结果根据Bagging策略进行投票，得到最终结果信息。

第二方面提供了一种语句相似度确定装置，包括：

接收单元，用于接收用户问题；

实体识别，用于利用实体识别模型得到所述用户问题中的实体信息；

属性获取，用于利用属性识别模型得到所述用户问题中的属性信息；

标准化单元，用于在预设的知识图谱中检索与所述属性信息相关的标准属性信息；

候选语句单元，用于根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；

相似计算单元，用于采用多个不同的相似度算法，分别计算所述用户问题与候选语句的相似度，得到各相似度算法对应的相似度结果；

结果输出单元，用于对所述多个相似度结果进行融合，得到最终结果信息。

第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述语句相似度确定方法的步骤。

第四方面提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述语句相似度确定方法的步骤。

上述语句相似度确定方法、装置、计算机设备和存储介质，接收用户问题；利用实体识别模型得到所述用户问题中的实体信息；利用属性识别模型得到所述用户问题中的属性信息；在预设的知识图谱中检索与所述属性信息相关的标准属性信息；根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；采用多个不同的相似度算法，分别计算所述用户问题与候选语句的相似度，得到各相似度算法对应的相似度结果；对所述多个相似度结果进行融合，得到最终结果信息。因此，采用多模型并行的方法同时计算不同维度相似度，整合所有相似度模型结果给出最终相似度计算结果，更全面的衡量关系相似度。

附图说明

图1为一个实施例中提供的语句相似度确定方法的实施环境图；

图2为一个实施例中计算机设备的内部结构框图；

图3为一个实施例中语句相似度确定方法的流程图；

图4为一个实施例中语句相似度确定装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的语句相似度确定方法的实施环境图，如图1所示，在该实施环境中，可以包括计算机设备110以及终端 120。

计算机设备110为数据提供方设备，计算机设备110具有接口，例如可以为接口是API(Application Programming Interface，即应用程序接口)。终端120为理赔请求输入方，具有接口配置界面，当语句相似度确定时，用户可以通过终端120输入请求，以使计算机设备 110进行接下来的语句相似度确定。

需要说明的是，终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。计算机设备 110以及终端110可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示，该计算机设备可以包括通过系统总线连接的处理器、存储介质、存储器和网络API接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语句相似度确定方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语句相似度确定方法。该计算机设备的网络API接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提出了一种语句相似度确定方法，该语句相似度确定方法可以应用于上述的计算机设备110中，具体可以包括以下步骤：

步骤101、接收用户问题；

该实施中，用户问题可以是用户问的佛学领域的问题。

步骤102、将用户问题输入至实体识别模型得到用户问题中的实体信息；

该步骤中，实体识别模型为BERT-BiLSTM-CRF模型，上述步骤 102可以包括：将用户问题输入预配置的BERT-BiLSTM-CRF模型中，得到用户问题的命名实体；其中，BERT-BiLSTM-CRF模型包括： BERT预训练模型层、BiLSTM网络层以及CRF推理层，BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量；BiLSTM 网络层用于将字向量组成的序列双向编码获取新的特征向量；CRF 推理层用于基于新的特征向量输出概率最大的命名实体。

本实施例基于BERT模型构建的命名实体识别模型，很好的解决了标注数据不足以及实体边界模糊时实体识别困难，精度不高的问题，提高实体识别模型的性能和识别准确率。

举例说明，实体识别模型输入：王小小的哥哥是谁？转成模型的 word序列也就是(王，小，小，的，哥，哥，是，谁，？)，经过BERT 层编码和Bi-LSTM层后，实体识别结果输出：(B，I，I，O，O，O， O，O，O)，其中B表示实体的开始word，I表示实体的中间或结束 word，O表示不是实体的word。模型的输出也就是“王小小”被预测为实体部分。

步骤103、将用户问题输入至属性识别模型得到用户问题中的属性信息；

在一些实施例中，上述步骤103可以包括：

步骤1031、对用户问题进行分词处理得到词序列，通过Word Embedding获取每个词的词向量w1，w2…，wn；

步骤1032、将词向量w1，w2…，wn映射成对应的概念词向量 e1，e2…，en；

步骤1033、将概念词向量e1，e2…，en输入到属性识别模型的 Bi-LSTM层，并使用实体层的表征向量Entity进行Attention操作得到第二隐藏向量h1，h2…，hn；

步骤1034、将第二隐藏向量h1，h2…，hn再次输入到属性识别模型的Bi-LSTM层，并使用短语层的表征向量Phrase进行Attention 操作，并对输出的第三隐藏向量进行加权求和，得到表征向量Vector；

步骤1035、将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作，得到用户问题中的属性信息。

首先对用户的问题语句进行分词得到句子的词序列，通过WordEmbedding获取每个词的词向量w1，w2...， wn。然后经过实体概念映射操作映射成对应的概念的词向量e1，e2...， en，词向量携带了单词语义信息，而且通过实体的概念映射可以获取整个问题句子的更深层的语义。将概念化的词向量输入Bi-LSTM层，并使用实体层的表征向量Entity进行Attention操作得到隐藏向量h1， h2...，hn。Bi-LSTM可以很好的学习到对应词前后的语义信息，使用实体层信息进行Attention操作可以很好地将实体层的语义信息融入到模型中。然后将上一层得到的序列表征向量再次输入到Bi-LSTM 层，并使用短语层的表征向量Phrase进行Attention操作，做一个近似于加权求和的操作，得到表征向量Vector。这里学习到表征向量 Vector很好的融合了实体层语义、短语层语义、问题层语义。最后，将学习到的表征向量Vector经过全连接层以及Softmax操作，得到句子(用户问题)中对应到知识图谱的关系(属性)类别。其中实体层Entity、短语层Phrase的处理如下：

实体层语义Entity：实体是自然语言的基本单位之一，基于知识图谱的实体语义理解为上层语义计算，特别是问题中的实体语义。本发明关于实体层的语义解析这里使用了语义社团搜索模型，获取实体层的语义信息。

短语层语义Phrase：短文本是自然语言的最常见形式之一，起到对实体和更复杂文本单元(如问句)的承接作用，短文本已经有了基本的语法结构和上下文的语义信息。这里主要是使用动词模板用来细粒度的语义表示，并综合使用了上下文信息进行实体的概念化。

步骤104、在预设的知识图谱中检索与属性信息相关的标准属性信息；

可以理解的是，知识图谱中的属性词也就是同一个属性或关系可能有多个表达方式，其中，第一属性词和多个第二属性词之间的相关度计算方法可以采用将属性词转换为语义向量并进行语义关联性分析，生成多个第二属性词和第一属性词之间相关度的排序和/或相关度，然后根据预设相关度阈值和/或相关度排序筛选策略，确定出一个或多个第三属性词。如果存在多个第三属性词，统计每个第三属性词在知识图谱中出现的次数，次数最多的作为标准属性，即语义相同的属性词，采用最常用的属性词作为标准谓词，确定为标准属性。

步骤105、根据实体信息和标准属性信息，在知识图谱中确定候选语句；

在一些实施例中，上述步骤104可以包括：

步骤1041、提取用户问题中的实体和第一属性词；

步骤1042、根据用户问题中的实体，在知识图谱中查找与该实体匹配的多个第二属性词；

步骤1043、计算第一属性词和多个第二属性词之间的相关度，并根据相关度对多个第二属性词进行筛选，确定出一个或多个第三属性词；

步骤1044、如果第三属性词为多个，统计每个第三属性词在知识图谱中出现的次数，并将出现次数最多的第三属性词作为标准属性；

步骤1045、将实体信息视为主语或宾语，与标准属性相结合，从知识图谱中检索并找到对应的三元组，根据三元组确定候选语句。

在知识图谱中，知识数据是以(S、P、O)三元组形式保存的，对应表示为实体、属性(关系)、属性值(关系类别)，其中实体和其对应的属性值可能都是以实体的形式表示的。

步骤106、针对每个候选语句，采用多个不同的相似度算法分别计算候选语句与用户问题的相似度，得到候选语句对应的多个的相似度结果；

可以理解的是，在知识图谱中确定的候选语句可能不止一个，当候选语句是多个的时候，则需要分别计算每个候选语句与用户问题之间的相似度，又每个候选语句与用户问题的相似度的计算是采用多个不同的相似度算法计算的，故每个候选问题对应多个(相似度算法的个数)相似度结果。

在一些实施例中，对于每一组数据对，都使用Bert，BM25，fasttext 模型计算相似度，这些模型输入输出形式相同，均是输入一组数据对，输入改数据对对应的相似度，相似度结果在0到1之间，但相似度计算过程各有侧重，Bert模型侧重语义角度相似度，BM25侧重字符串角度相似度，fasttext可以用更细粒度的切分形式解决输入数据不在模型词表中收录的情况，采用三种模型可以从三种不同的维度计算相似度结果。

采用多种相似度算法计算用户问题与候选语句之间的相似度，根据计算得到的相似度确定用户问题的目标答案，从多个维度计算用户问题与每个候选问题之间的相似度，根据计算得到的相似度确定目标问题的目标答案，提高了目标问题的目标答案的准确率。

步骤107、将每个候选语句的多个相似度结果进行融合，得到候选语句与用户问题的最终相似度结果。

可以理解的是，将每个候选问题对应多个相似度结果进行融合后得到的结果才是该候选语句与用户问题的最终相似度结果。

该步骤中，将获取的相似度结果根据Bagging策略进行投票，得到最终结果信息。

Bagging(装袋)又叫自助聚集，是一种根据均匀概率分布从数据中重复抽样(有放回)的技术。每个抽样生成的自助样本集上，训练一个基分类器；对训练过的分类器进行投票，将测试样本指派到得票最高的类中。每个自助样本集都和原数据一样大。有放回抽样，一些样本可能在同一训练集中出现多次，一些可能被忽略。

在一些实施例中，在得到候选语句与用户问题的最终相似度结果之后，还包括：

步骤108、确定用户问题的所有候选语句中满足预设条件的命中语句，预设条件为命中语句的最终相似度结果大于其他候选语句的最终相似度结果；

该步骤中，在候选语句为多个时，每个候选语句对应一个最终候选相似度结果，需要从多个候选语句中选择出与用户问题最相似的语句，可以是将用户问题的所有候选语句按照最终相似度结果按照由小到大或由小到大排序，选择排在队列末尾或者首位的候选语句为命中语句即可。

步骤109、在知识图谱内检索出命中问题对应的命中答案，将命中答案作为用户问题的答案。

如图4所示，在一个实施例中，提供了一种语句相似度确定装置，该语句相似度确定装置可以集成于上述的计算机设备110中，具体可以包括：

接收单元411，用于接收用户问题；

实体识别412，用于将所述用户问题输入至实体识别模型得到用户问题中的实体信息；

属性获取413，用于将所述用户问题输入至属性识别模型得到用户问题中的属性信息；

标准化单元414，用于在预设的知识图谱中检索与属性信息相关的标准属性信息；

候选语句单元415，用于根据实体信息和标准属性信息，在知识图谱中确定候选语句；

相似计算单元416，用于针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；

结果输出单元417，用于将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。

在一个实施例中，提出了一种计算机设备，计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：接收用户问题；将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；在预设的知识图谱中检索与所述属性信息相关的标准属性信息；根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收用户问题；将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；在预设的知识图谱中检索与所述属性信息相关的标准属性信息；根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语句相似度确定方法，其特征在于，所述方法包括：

接收用户问题；

2.根据权利要求1所述的语句相似度确定方法，其特征在于，在得到所述候选语句与所述用户问题的最终相似度结果之后，还包括：

3.根据权利要求1所述的语句相似度确定方法，其特征在于，所述接收用户问题，识别所述用户问题的实体信息和属性信息，包括：

所述用户问题输入预配置的BERT-BiLSTM-CRF模型中，得到所述用户问题中的实体信息；其中，所述BERT-BiLSTM-CRF模型包括：BERT预训练模型层、BiLSTM网络层以及CRF推理层，所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量；所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量；所述CRF推理层用于基于所述新的特征向量输出概率最大的实体信息。

4.根据权利要求1所述的语句相似度确定方法，其特征在于，

对所述用户问题进行分词处理得到词序列，通过Word Embedding获取每个词的词向量w1，w2…，wn；

将词向量w1，w2…，wn映射成对应的概念词向量e1，e2…，en；

将第二隐藏向量h1，h2…，hn再次输入到属性识别模型的Bi-LSTM层，并使用短语层的表征向量Phrase进行Attention操作，并对输出的第三隐藏向量进行加权求和，得到表征向量Vector；

将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作，得到所述用户问题中的属性信息。

5.根据权利要求1所述的语句相似度确定方法，其特征在于，所述根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句，包括：

提取所述用户问题中的实体和第一属性词；

6.根据权利要求1所述的语句相似度确定方法，其特征在于，所述采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果，包括：

采用Bert算法计算所述用户问题与所述候选语句的第一相似度；

采用BM25算法计算所述用户问题与所述候选语句的第二相似度；

采用fasttext算法计算所述用户问题与所述候选语句的第三相似度。

7.根据权利要求1所述的语句相似度确定方法，其特征在于，所述将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果，包括：

8.一种语句相似度确定装置，其特征在于，包括：

接收单元，用于接收用户问题；

实体识别单元，用于将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；

属性获取单元，用于将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；

相似计算单元，用于针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；

结果输出单元，用将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述语句相似度确定方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述语句相似度确定方法的步骤。