CN113139034A

CN113139034A - 一种语句匹配方法、语句匹配装置及智能设备

Info

Publication number: CN113139034A
Application number: CN202010054565.3A
Authority: CN
Inventors: 熊为星; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-07-20

Abstract

本申请提供了一种语句匹配方法、语句匹配装置、智能设备及计算机可读存储介质，其中，该方法包括：接收输入语句；对所述输入语句进行预处理；将与处理后的所述输入语句输入至已训练的第一检索模型及第二检索模型中，得到候选语句集合，所述候选语句集合中包含有一条以上与所述输入语句相匹配的候选语句；将所述输入语句以及所述候选语句集合输入至已训练的排序模型中，得到各个候选语句与所述输入语句的相似度得分；获取所述排序模型所输出的排序后的各个候选语句。通过本申请方案，可实现检索精度与检索时间的平衡。

Description

一种语句匹配方法、语句匹配装置及智能设备

技术领域

本申请属于人工智能技术领域，尤其涉及一种语句匹配方法、语句匹配装置、智能设备及计算机可读存储介质。

背景技术

当前，智能客服等智能设备可以接收用户的输入问题，并基于该输入问题在FAQ语料库中进行检索，以向用户反馈该输入问题的答复。上述检索有两种较为常见的方式，一种是采用单模型的检索方式，另一种是采用类似BERT(Bidirectional EncoderRepresentations from Transformers)这种大模型的检索方式；然而，上述采用单模型的检索方式通常难以满足业务的精度需要，而采用类似BERT这种大模型的检索方式无法一次性对FAQ语料库完成全量语料检索，需要小批次的进行多次语料检索，这导致其检索时间较长，无法完成工程化的目标。基于此，当前的检索方式难以实现检索精度与检索时间的平衡。

发明内容

本申请实施例提供了一种语句匹配方法、语句匹配装置、智能设备及计算机可读存储介质，可实现检索精度与检索时间的平衡，帮助用户在语料库中快速准确的找到与输入语句相匹配的语句。

第一方面，本申请实施例提供了一种答复方法，包括：

接收输入语句；

对上述输入语句进行预处理；

将处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合，其中，上述第一检索模型用于基于上述输入语句的字词在预设的语料库中检索与上述输入语句相匹配的语句，上述第二检索模型用于基于上述输入语句的语义在上述语料库中检索与上述输入语句相匹配的语句，上述候选语句集合中包含有一条以上与上述输入语句相匹配的候选语句；

将上述输入语句以及上述候选语句集合输入至已训练的排序模型中，得到各个候选语句与上述输入语句的相似度得分，其中，上述排序模型基于随机森林模型及线性模型构建而得，上述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与上述输入语句的相似度得分的计算；

获取上述排序模型所输出的排序后的各个候选语句，其中，上述各个候选语句基于上述相似度得分由高至低的顺序进行排序。

第二方面，本申请实施例提供了一种语句匹配装置，包括：

语句接收单元，用于接收输入语句；

预处理单元，用于对上述输入语句进行预处理；

语句检索单元，用于将处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合，其中，上述第一检索模型用于基于上述输入语句的字词在预设的语料库中检索与上述输入语句相匹配的语句，上述第二检索模型用于基于上述输入语句的语义在上述语料库中检索与上述输入语句相匹配的语句，上述候选语句集合中包含有一条以上与上述输入语句相匹配的候选语句；

得分计算单元，用于将上述输入语句以及上述候选语句集合输入至已训练的排序模型中，得到各个候选语句与上述输入语句的相似度得分，其中，上述排序模型基于随机森林模型及线性模型构建而得，上述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与上述输入语句的相似度得分的计算；

排序输出单元，用于获取上述排序模型所输出的排序后的各个候选语句，其中，上述各个候选语句基于上述相似度得分由高至低的顺序进行排序。

本申请的第三方面提供了一种智能设备，上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请的第五方面提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

由上可见，通过本申请方案，首先接收输入语句，然后对上述输入语句进行预处理，接着将处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合，其中，上述第一检索模型用于基于上述输入语句的字词在预设的语料库中检索与上述输入语句相匹配的语句，上述第二检索模型用于基于上述输入语句的语义在上述语料库中检索与上述输入语句相匹配的语句，上述候选语句集合中包含有一条以上与上述输入语句相匹配的候选语句，再将上述输入语句以及上述候选语句集合输入至已训练的排序模型中，得到各个候选语句与上述输入语句的相似度得分，其中，上述排序模型基于随机森林模型及线性模型构建而得，上述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与上述输入语句的相似度得分的计算，最后获取上述排序模型所输出的排序后的各个候选语句，其中，上述各个候选语句基于上述相似度得分由高至低的顺序进行排序。通过本申请方案，结合了基于上述输入语句的字词进行检索的第一检索模型以及基于上述输入语句的语义进行检索的第二检索模型对输入语句进行了粗略筛选，并基于粗略筛选的结果再通过排序模型进行重排，可召回与输入语句语义相关的候选文本，实现检索精度与检索时间的平衡。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语句匹配方法的实现流程示意图；

图2是本申请实施例提供的语句匹配方法中，第二检索模型的工作流程示意图；

图3是本申请实施例提供的语句匹配方法中，各个模型的工作流程示意图；

图4是本申请实施例提供的语句匹配装置的结构框图；

图5是本申请实施例提供的智能设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例的一种语句匹配方法及语句匹配装置可应用于机器人、智能手机、平板电脑等具备人机交互功能的智能设备中，为了说明本申请的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例提供的一种语句匹配方法进行描述，请参阅图1，本申请实施例中的语句匹配方法包括：

步骤101，接收输入语句；

在本申请实施例中，智能设备可以先获取待反馈的输入语句，上述输入语句指的是用户在与智能设备交互的过程中所输入的语句。可选地，上述输入语句可以是用户通过文字所输入的语句；或者，上述语句也可以是用户通过语音所输入的语句，此处不对上述输入语句的输入形式作出限定。

步骤102，对上述输入语句进行预处理；

在本申请实施例中，上述预处理包括问句纠错，繁简转换，拼音转汉字，去标点符号，分词，做相关的句法分析提取出该问句中的关键词语、业务词语、名词及动词等操作，此处不作限定。具体地，可以将预处理的结果，例如提取出的关键词语、业务词语、名词及动词存储在相应的缓存空间，等待后续步骤进行调用。

步骤103，将处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合；

在本申请实施例中，语料人员预先设定有一语料库，上述语料库为核心数据。该语料库中包括了一些常用的用户咨询的问题，以及各个问题所对应的一个或多个答案。本步骤中所进行的检索操作，具体为在语料库所存储的问题中进行检索。检索过程中，使用到了两个检索模型，分别为第一检索模型及第二检索模型，具体地，可以是分别将上述输入语句输入至上述第一检索模型及第二检索模型中，得到上述第一检索模型所输出的第一语句集合，并得到上述第二检索模型所输出的第二语句集合，最后对上述第一语句集合及第二语句集合取并集，即可得到候选语句集合，此处不对上述第一语句集合所包含的语句的数量以及上述第二语句集合所包含的语句的数量做出限定。可选地，为了方便后续计算，此处可以将上述第一语句集合所包含的语句的数量与上述第二语句集合所包含的语句的数量均设置为N，N为预设的正整数，例如，N可以为50；也即，上述第一检索模型基于上述输入语句的字词在上述语料库中检索出与上述输入语句最为匹配的50条语句，上述第二检索模型基于上述输入语句的语义在上述语料库中检索出与上述输入语句最为匹配的50条语句。当然，上述N也可以是其它数值，本申请实施例不对N的取值作出限定。具体地，此处对上述两个检索模型的工作过程进行说明：

上述第一检索模型采用的是ElasticSearch技术，具体为一项根据词频-逆文本频率指数(term frequency-inverse document frequency，TF-IDF)算法进行快速检索的开源技术，其对于中文的检索可以是基于字符级别，也可以是基于词级别。具体地，可以先对上述语料库中的各条语句基于ElasticSearch中的IK分词器进行分词后再进行索引构建，其中，上述IK分词器可选定为ik_max_word分词模式。在将上述输入语句输入至上述第一检索模型后，可以通过该第一检索模型获得上述语料库中的各个语句与上述输入语句的ElasticSearch相似度得分，其中，上述ElasticSearch相似度得分基于TF-IDF算法计算而得。下面再对TF-IDF算法作出说明：

TF指的是待查询文本中的各个词条在索引中的文本中的出现次数，该出现次数越多，就代表越相关(也即越相似)。以下通过实例进行说明：

待查询文本为：

Query1：hello world

索引中的文本为:

Query2：hello you,and world is very good.

Query3:：hello,how are you.

则相比较之下，Query1中的词条“hello”及“world”在Query2中共出现2次，在Query3中共出现1次，则可确定对于TF这一指标来说，Query2相比于Query3与Query1更相似。

IDF指的是待查询文本中的各个词条在整个索引的所有文档中的出现次数，该出现次数越多，就代表越不相关(也即越不相似)。以下通过实例进行说明：

待查询文本为：

Query1：hello world

索引中的文本为:

Query2：hello,today is very good

Query3：hi world,how are you

又假设在索引中共有一万条文档，hello这个单词在所有文档中，一共出现了1万次，而world在所有文档中，只出现了100次，则可确定对于IDF这一指标来说，Query3相比于Query2与Query1更相似。

具体地，上述TF-IDF算法所采用的公式如下：

tfidf_i,j＝tf_i,j*idf_i (3)

上述公式(1)中，n_i,j是待查询文本中的某一词语在文件d_j中出现的次数，而该公式中的分母是在文件d_j中所有字词的出现次数之和。

上述公式(2)中，|D|为语料库中的文件总数，|{j:t_i∈d_j}|为包含词语t_i的文件的数目。考虑到当词语不在语料库中时会导致分母为0，因而在公式(2)的分母中，需要加上常数1。

通过上述公式可知，某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。基于此，可通过TF-IDF过滤掉常见的词语，保留重要的词语。以上的TF-IDF算法已内置于上述第一检索模型中，因而可直接使用第一检索模型进行召回，即可得到若干与输入语句相匹配的语料库中的语句。为了有效地减少计算量，此处不需要全部召回，因而，这里只需将在上述语料库中筛选得到的上述ElasticSearch相似度得分最高的前N个语句输出至上述第一语句集合中即可。

上述第二检索模型是基于句向量的语义检索方式，上述基于句向量的语义检索不仅速度较快，而且检索时更多地依赖于语义的相关性，能够区别于ElasticSearch技术的偏字符级别及词级别的匹配。具体地，上述第二检索模型基于BERT模型而构建。上述BERT模型是一个新的语言表达模型，可以理解为一个通用的感知自然语言理解(Natural-languageunderstanding，NLU)模型，可以为不同的自然语言处理(Natural language processing，NLP)任务提供支持。本申请实施例中，可以使用BERT模型来编码输入语句以及语料库中的各个语句的句向量，比较句向量间的余弦相似度来进行召回。这种方式区于传统的句向量生成方式：传统的句向量生成方式更多的是采用word embedding的方式取加权平均，该方式无法理解上下文的语义，会导致同一个词在不同的语境意思可能不一样，但是却会被表示成同样的word embedding；而采用BERT模型的句向量生成方式可理解句意，能够排除了词向量加权引起的误差。具体地，上述第二检索模型的工作流程如附图2所示：

附图2中的sentenceA及sentenceB分别为输入语句及语料库中的任一语句，LCMRM层为抽取出BERT编码中的倒数第二层的输出后与输入的掩码状态进行相乘所得到的输出值，其中，上述掩码状态表示的是该位置是否有内容。以下通过实例进行说明：假定序列的最大长度是20，输入的有效的字符只有10位，加上[CLS]与[SEP]这两个占位符后，仍有8个字符是空的，这8个空着的字符所对应的掩码状态被设置为0，其他位置(也即有效的字符及占位符所对应的掩码状态)被设置为1。将输入的sentenceA及sentenceB这两个语句分别进行句向量编码输出后，得到两个1*768维的句向量，随后对这两个句向量进行余弦相似度计算，计算公式如下所示：

上式中的a、b分别代表语句的句向量。通过上式所得到的余弦相似度即为sentenceA及sentenceB之间的BERT语义相似度得分。与上述第一检索模型类似，为了有效地减少计算量，此处不需要全部召回，因而，这里只需将在上述语料库中筛选得到的上述BERT语义相似度得分最高的前N个语句输出至上述第二语句集合中即可。

步骤104，将上述输入语句以及上述候选语句集合输入至已训练的排序模型中，得到各个候选语句与上述输入语句的相似度得分；

在本申请实施例中，先对上述排序模型进行说明：

上述排序模型基于随机森林模型及线性模型构建而得，具体地，上述排序模型可通过训练所确定的一个以上文本特征实现对各个候选语句与上述输入语句的相似度得分的计算。

其中，研发人员可预先设置有若干个候选文本特征，包括ElasticSearch相似度得分、BERT语义相似度得分、杰卡德相似度得分、编辑距离得分及实体词语匹配相似度得分等，上述实体词语匹配相似度得分包括关键词语匹配相似度得分、业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分等，此处不作限定。考虑到候选文本特征过多，为了减轻计算量，本申请实施例中，只需从上述候选文本特征中选取几样重要的文本特征进行排序即可，具体地，可以基于预设的标准验证集，通过上述随机森林模型对候选文本特征进行训练，并根据上述随机森林模型对上述候选文本特征的训练结果，得出各个文本特征的重要性排序，以此确定上述排序模型所采用的文本特征；也即，通过随机森林模型，筛选出最为重要的预设数量个文本特征。其中，上述预设数量可以为5，此处不作限定。

随后，再通过上述线性模型对上述排序模型所采用的文本特征进行训练，以确定上述排序模型所采用的各个文本特征的权重，并最终基于上述排序模型所采用的文本特征，以及上述排序模型所采用的各个文本特征的权重，获得已训练的匹配模型。也即，在模型的预测过程中，只会考虑基于上述随机森林模型所确定的预设数量个文本特征，其它文本特征可以不再考虑，以此节省时间。

具体地，此处再针对上述各个候选文本特征进行说明：

上述各个候选语句与上述输入语句的ElasticSearch相似度得分可通过第一检索模型而得，上述各个候选语句与上述输入语句的BERT语义相似度得分可通过第二检索模型而得，此处不作赘述。

上述各个候选语句与上述输入语句的杰卡德相似度得分可通过如下公式计算而得：

上式中，J(sentent1,sentent2)代表语句sentent1及语句sentent2之间的杰卡德相似度；I表示取交集；Y表示取并集。以下通过实例进行说明：如语句1为“如何养成好习惯”，语句2为“好习惯对一个人的影响有多大”，则语句1与语句2的杰卡德相似度得分的计算过程如下：语句1长度为7个字；语句2长度为13个字；其中，语句1和语句2重叠的部分为“好习惯”这三个字，也即，重叠的部分的长度为3，所以语句1∩语句2的值为3；语句1与语句2共出现有7+13-3(重叠的部分)＝20个字，所以语句1∪语句2的值为20；通过上式，可知语句1与语句2的杰卡德相似度得分为3/20＝0.15。

上述各个候选语句与上述输入语句的编辑距离得分可通过如下公式计算而得：

L(sentent1,sentent2)＝1-n/Math.Max(str1.length,str2.length)

其中，str1.length为语句sentent1的长度；str2.length为语句sentent2的长度；n为由sentent1转换为sentent2的编辑次数。其中，上述编辑次数，指的是对语句sentent1进行编辑操作的次数，上述编辑操作包括插入、删除及替换。以下通过实例进行说明：如语句1为“ivan1”，语句2为“ivan2”，由语句1转换成语句2时，替换最后一个字符“1”即可，则编辑次数为1次；这两个语句中，最长字符串为语句2，其长度为5；则语句1与语句2的编辑距离相似度得分为1-1/5＝0.8。

上述各个候选语句与上述输入语句的实体词语匹配相似度得分可通过如下公式计算而得：

其中，输入语句的实体词语在候选语句中存在的个数除以输入语句中的实体词语的个数即为该候选语句的实体词语匹配相似度得分，需要注意的，当输入语句中不存在实体词时，上述各个候选语句与上述输入语句的实体词语匹配相似度得分被设置为1。也即，首先统计输入语句的实体词语的数量，随后统计候选语句的目标实体词语的数量，上述目标实体词语指的是输入语句中所存在的实体词语，所求得的候选语句的目标实体词语的数量与输入语句的实体词语的数量即为候选语句对应的实体词语匹配相似度得分。上述实体词语具体指的是业务词语、关键词语、名词及动词中的一种；也即，关键词语匹配相似度得分、业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分都可以通过上式进行计算。

具体地，针对关键词语，可以由语料人员预先设定一关键词语库，然后基于上述关键词语库，检测上述输入语句中是否存在关键词语，当上述输入语句中存在关键词语时，可统计上述输入语句的关键词语的数量，同时统计各个候选语句中目标关键词语的数量，其中，上述目标关键词语为与上述输入语句的任一关键词语相匹配的词语，然后分别计算各个候选语句的目标关键词语的数量与上述输入语句的关键词语的数量的比值，作为各个候选语句的关键词语匹配相似度得分。也即是说，输入语句通过上述关键词语库来判断自身所包含的关键词语，候选语句通过上述输入语句所包含的关键词语来判断自身所包含的目标关键词语。例如，假定基于上述关键词语库发现输入语句S_in存在三个关键词语k1、k2及k3，又通过比对，发现候选语句S₁中存在和k1相匹配的词语，也即S₁中包含一个目标关键词语，为k1，则可计算得到比值

上述比值

即为该候选语句的关键词语匹配相似度得分。需要注意的是的，当输入语句不存在关键词语时，可直接设定各个候选语句的关键词语匹配相似度得分均为1。

具体地，针对业务词语，与上述关键词语类似，也可以由语料人员预先设定一业务词语库，将各个业务类别所常用的业务词语存放于该业务词语库中，然后基于上述业务词语库，检测上述输入语句中是否存在业务词语，当上述输入语句中存在业务词语时，可统计上述输入语句的业务词语的数量，同时统计各个候选语句中目标业务词语的数量，其中，上述目标业务词语为与上述输入语句的任一业务词语相匹配的词语，然后分别计算各个候选语句的目标业务词语的数量与上述输入语句的业务词语的数量的比值，作为各个候选语句的业务词语匹配相似度得分。也即是说，输入语句通过上述业务词语库来判断自身所包含的业务词语，候选语句通过上述输入语句所包含的业务词语来判断自身所包含的目标业务词语。例如，假定基于上述业务词语库发现输入语句S_in存在三个业务词语a1、a2及a3，又通过比对，发现候选语句S₁中存在和a1及a3相匹配的词语，也即S₁中包含两个目标业务词语，分别为a1及a3，则可计算得到比值

上述比值

即为该候选语句的业务词语匹配相似度得分。需要注意的是的，当输入语句不存在业务词语时，可直接设定各个候选语句的业务词语匹配相似度得分均为1。

需要注意的是，针对名词及动词来说，不需要设定对应的词库，只需在预处理时进行词性分析即可确定。

上述排序模型不仅可以计算得到各个候选语句在重要的几个文本特征上的得分，而且还可以根据这几个重要的文本特征的权重(通过对线性模型训练而得)。下表给出一个通过上述随机森林模型及线性模型所确定的最重要的前5个文本特征及对应权重的示例：

基于排序模型所采用的文本特征，以及排序模型所采用的文本特征的对应权重，可以对各个候选语句所得到的各个文本特征的得分进行加权计算，以得到各个候选语句与上述输入语句的相似度得分。

步骤105，获取上述排序模型所输出的排序后的各个候选语句。

在本申请实施例中，排序模型还可以基于相似度得分由高至低的顺序对各个候选语句进行排序及输出。候选语句的排序越靠前，则认为该候选语句与输入语句越匹配；基于此，可向用户反馈与输入语句最为匹配的候选语句(也即相似度得分最高的候选语句)在语料库中所存储的对应答案；也可以直接用户反馈与输入语句最为匹配的前X个候选语句(也即相似度得分最高的前X个候选语句)，此处不作限定。

请参阅图3，图3示出了本申请所提出的语句匹配方法中，各个模型的工作流程：输入语句在经过预处理后被投入到并行的第一检索模型及第二检索模型中，得到候选语句集合，该候选语句集合被投入到排序模型中，基于排序结果向用户反馈对应的答复。

由上可见，通过本申请实施例，结合了基于上述输入语句的字词进行检索的第一检索模型以及基于上述输入语句的语义进行检索的第二检索模型对输入语句进行了粗略筛选，并基于多个文本特征再通过排序模型对上述粗略筛选的结果进行重排，以获得语料库中的语句与输入语句的最终匹配程度，后续智能设备可直接基于上述重排的结果进行答复反馈。上述过程实现了检索精度与检索时间的平衡。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

本申请实施例二提供了一种语句匹配装置，上述语句匹配装置可集成于智能设备中，如图4所示，本申请实施例中的语句匹配装置400包括：

语句接收单元401，用于接收输入语句；

预处理单元402，用于对上述输入语句进行预处理；

语句检索单元403，用于将处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合，其中，上述第一检索模型用于基于上述输入语句的字词在预设的语料库中检索与上述输入语句相匹配的语句，上述第二检索模型用于基于上述输入语句的语义在上述语料库中检索与上述输入语句相匹配的语句，上述候选语句集合中包含有一条以上与上述输入语句相匹配的候选语句；

得分计算单元404，用于将上述输入语句以及上述候选语句集合输入至已训练的排序模型中，得到各个候选语句与上述输入语句的相似度得分，其中，上述排序模型基于随机森林模型及线性模型构建而得，上述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与上述输入语句的相似度得分的计算；

排序输出单元405，用于获取上述排序模型所输出的排序后的各个候选语句，其中，上述各个候选语句基于上述相似度得分由高至低的顺序进行排序。

可选地，上述语句检索单元403包括：

第一检索子单元，用于将上述输入语句输入至上述第一检索模型，得到上述第一检索模型所输出的第一语句集合；

第二检索子单元，用于将上述输入语句输入至上述第二检索模型，得到上述第二检索模型所输出的第二语句集合，其中，上述第一语句集合所包含的语句的数量与上述第二语句集合所包含的语句的数量均为N，N为预设的正整数；

并集求取子单元，用于对上述第一语句集合与上述第二语句集合取并集，得到候选语句集合。

可选地，上述第一检索模型基于用于分布式全文检索的ElasticSearch而构建，上述第一检索子单元，包括：

第一计算子单元，用于将上述输入语句输入至上述第一检索模型中，获得上述语料库中的各个语句与上述输入语句的ElasticSearch相似度得分，其中，上述ElasticSearch相似度得分基于词频-逆文本频率指数TF-IDF算法计算而得；

第一筛选子单元，用于在上述语料库中，将筛选得到的上述ElasticSearch相似度得分最高的前N个语句输出至上述第一语句集合中。

可选地，上述第二检索模型基于BERT模型而构建，上述第二检索子单元，包括：

第二计算子单元，用于将上述输入语句输入至上述第二检索模型中，获得上述语料库中的各个语句与上述输入语句的BERT语义相似度得分，其中，上述BERT语义相似度得分基于输入语句的句向量与语料库中的语句的句向量的余弦相似度计算而得；

第二筛选子单元，用于在上述语料库中，将筛选得到的上述BERT语义相似度得分最高的前N个语句输出至上述第二语句集合中。

可选地，上述语句匹配装置还包括：

匹配模型第一训练子单元，用于基于预设的标准验证集，通过上述随机森林模型对候选文本特征进行训练，其中，上述候选文本特征包括如下一项以上：ElasticSearch相似度得分、BERT语义相似度得分、杰卡德相似度得分、编辑距离得分、关键词语匹配相似度得分，业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分；

文本特征确定子单元，用于根据上述随机森林模型对上述候选文本特征的训练结果，确定上述排序模型所采用的文本特征；

匹配模型第二训练子单元，通过上述线性模型对上述排序模型所采用的文本特征进行训练，以确定上述排序模型所采用的各个文本特征的权重；

匹配模型获取子单元，用于基于上述排序模型所采用的文本特征，以及上述排序模型所采用的各个文本特征的权重，获得已训练的匹配模型。

由上可见，在本申请实施例中，语句匹配装置结合了基于上述输入语句的字词进行检索的第一检索模型以及基于上述输入语句的语义进行检索的第二检索模型对输入语句进行了粗略筛选，并基于多个文本特征再通过排序模型对上述粗略筛选的结果进行重排，以获得语料库中的语句与输入语句的最终匹配程度，后续智能设备可直接基于上述重排的结果进行答复反馈。上述过程实现了检索精度与检索时间的平衡。

实施例三

本申请实施例三提供了一种智能设备，请参阅图5，本申请实施例中的智能设备5包括：存储器501，一个或多个处理器502(图5中仅示出一个)及存储在存储器501上并可在处理器上运行的计算机程序。其中：存储器501用于存储软件程序以及模块，处理器502通过运行存储在存储器501的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤：

上述第一检索子单元，包括：

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，上述将与处理后的上述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于上述第一检索模型及上述第二检索模型的输出结果得到候选语句集合，包括：

将上述输入语句输入至上述第一检索模型，得到上述第一检索模型所输出的第一语句集合；

将上述输入语句输入至上述第二检索模型，得到上述第二检索模型所输出的第二语句集合，其中，上述第一语句集合所包含的语句的数量与上述第二语句集合所包含的语句的数量均为N，N为预设的正整数；

对上述第一语句集合与上述第二语句集合取并集，得到候选语句集合。

在上述一种可能的实施方式作为基础而提供的第三种可能的实施方式中，上述第一检索模型基于用于分布式全文检索的ElasticSearch而构建，上述将上述输入语句输入至上述第一检索模型，得到上述第一检索模型所输出的第一语句集合，包括：

将上述输入语句输入至上述第一检索模型中，获得上述语料库中的各个语句与上述输入语句的ElasticSearch相似度得分，其中，上述ElasticSearch相似度得分基于词频-逆文本频率指数TF-IDF算法计算而得；

在上述语料库中，将筛选得到的上述ElasticSearch相似度得分最高的前N个语句输出至上述第一语句集合中。

在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中，上述第二检索模型基于BERT模型而构建，上述将上述输入语句输入至上述第二检索模型，得到上述第一检索模型所输出的第二语句集合，包括：

将上述输入语句输入至上述第二检索模型中，获得上述语料库中的各个语句与上述输入语句的BERT语义相似度得分，其中，上述BERT语义相似度得分基于输入语句的句向量与语料库中的语句的句向量的余弦相似度计算而得；

在上述语料库中，将筛选得到的上述BERT语义相似度得分最高的前N个语句输出至上述第二语句集合中。

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中，上述语句匹配方法还包括：

基于预设的标准验证集，通过上述随机森林模型对候选文本特征进行训练，其中，上述候选文本特征包括如下一项以上：ElasticSearch相似度得分、BERT语义相似度得分、杰卡德相似度得分、编辑距离得分、关键词语匹配相似度得分，业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分；

根据上述随机森林模型对上述候选文本特征的训练结果，确定上述排序模型所采用的文本特征；

通过上述线性模型对上述排序模型所采用的文本特征进行训练，以确定上述排序模型所采用的各个文本特征的权重；

基于上述排序模型所采用的文本特征，以及上述排序模型所采用的各个文本特征的权重，获得已训练的匹配模型。

应当理解，在本申请实施例中，所称处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器501可以包括只读存储器和随机存取存储器，并向处理器502提供指令和数据。存储器501的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器501还可以存储设备类型的信息。

由上可见，在本申请实施例中，智能设备结合了基于上述输入语句的字词进行检索的第一检索模型以及基于上述输入语句的语义进行检索的第二检索模型对输入语句进行了粗略筛选，并基于多个文本特征再通过排序模型对上述粗略筛选的结果进行重排，以获得语料库中的语句与输入语句的最终匹配程度，后续智能设备可直接基于上述重排的结果进行答复反馈。上述过程实现了检索精度与检索时间的平衡。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语句匹配方法，其特征在于，包括：

接收输入语句；

对所述输入语句进行预处理；

将处理后的所述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于所述第一检索模型及所述第二检索模型的输出结果得到候选语句集合，其中，所述第一检索模型用于基于所述输入语句的字词在预设的语料库中检索与所述输入语句相匹配的语句，所述第二检索模型用于基于所述输入语句的语义在所述语料库中检索与所述输入语句相匹配的语句，所述候选语句集合中包含有一条以上与所述输入语句相匹配的候选语句；

将所述输入语句以及所述候选语句集合输入至已训练的排序模型中，得到各个候选语句与所述输入语句的相似度得分，其中，所述排序模型基于随机森林模型及线性模型构建而得，所述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与所述输入语句的相似度得分的计算；

获取所述排序模型所输出的排序后的各个候选语句，其中，所述各个候选语句基于所述相似度得分由高至低的顺序进行排序。

2.如权利要求1所述的语句匹配方法，其特征在于，所述将与处理后的所述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于所述第一检索模型及所述第二检索模型的输出结果得到候选语句集合，包括：

将所述输入语句输入至所述第一检索模型，得到所述第一检索模型所输出的第一语句集合；

将所述输入语句输入至所述第二检索模型，得到所述第二检索模型所输出的第二语句集合，其中，所述第一语句集合所包含的语句的数量与所述第二语句集合所包含的语句的数量均为N，N为预设的正整数；

对所述第一语句集合与所述第二语句集合取并集，得到候选语句集合。

3.如权利要求2所述的语句匹配方法，其特征在于，所述第一检索模型基于用于分布式全文检索的ElasticSearch而构建，所述将所述输入语句输入至所述第一检索模型，得到所述第一检索模型所输出的第一语句集合，包括：

将所述输入语句输入至所述第一检索模型中，获得所述语料库中的各个语句与所述输入语句的ElasticSearch相似度得分，其中，所述ElasticSearch相似度得分基于词频-逆文本频率指数TF-IDF算法计算而得；

在所述语料库中，将筛选得到的所述ElasticSearch相似度得分最高的前N个语句输出至所述第一语句集合中。

4.如权利要求2所述的语句匹配方法，其特征在于，所述第二检索模型基于BERT模型而构建，所述将所述输入语句输入至所述第二检索模型，得到所述第一检索模型所输出的第二语句集合，包括：

将所述输入语句输入至所述第二检索模型中，获得所述语料库中的各个语句与所述输入语句的BERT语义相似度得分，其中，所述BERT语义相似度得分基于输入语句的句向量与语料库中的语句的句向量的余弦相似度计算而得；

在所述语料库中，将筛选得到的所述BERT语义相似度得分最高的前N个语句输出至所述第二语句集合中。

5.如权利要求1至4任一项所述的语句匹配方法，其特征在于，所述语句匹配方法还包括：

基于预设的标准验证集，通过所述随机森林模型对候选文本特征进行训练，其中，所述候选文本特征包括如下一项以上：ElasticSearch相似度得分、BERT语义相似度得分、杰卡德相似度得分、编辑距离得分、关键词语匹配相似度得分、业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分；

根据所述随机森林模型对所述候选文本特征的训练结果，确定所述排序模型所采用的文本特征；

通过所述线性模型对所述排序模型所采用的文本特征进行训练，以确定所述排序模型所采用的各个文本特征的权重；

基于所述排序模型所采用的文本特征，以及所述排序模型所采用的各个文本特征的权重，获得已训练的匹配模型。

6.一种语句匹配装置，其特征在于，所述语句匹配装置还包括：

语句接收单元，用于接收输入语句；

预处理单元，用于对所述输入语句进行预处理；

语句检索单元，用于将处理后的所述输入语句输入至已训练的第一检索模型及第二检索模型中，并基于所述第一检索模型及所述第二检索模型的输出结果得到候选语句集合，其中，所述第一检索模型用于基于所述输入语句的字词在预设的语料库中检索与所述输入语句相匹配的语句，所述第二检索模型用于基于所述输入语句的语义在所述语料库中检索与所述输入语句相匹配的语句，所述候选语句集合中包含有一条以上与所述输入语句相匹配的候选语句；

得分计算单元，用于将所述输入语句以及所述候选语句集合输入至已训练的排序模型中，得到各个候选语句与所述输入语句的相似度得分，其中，所述排序模型基于随机森林模型及线性模型构建而得，所述排序模型通过训练所确定的一个以上文本特征实现对各个候选语句与所述输入语句的相似度得分的计算；

排序输出单元，用于获取所述排序模型所输出的排序后的各个候选语句，其中，所述各个候选语句基于所述相似度得分由高至低的顺序进行排序。

7.如权利要求6所述的语句匹配装置，其特征在于，所述语句检索单元包括：

第一检索子单元，用于将所述输入语句输入至所述第一检索模型，得到所述第一检索模型所输出的第一语句集合；

第二检索子单元，用于将所述输入语句输入至所述第二检索模型，得到所述第二检索模型所输出的第二语句集合，其中，所述第一语句集合所包含的语句的数量与所述第二语句集合所包含的语句的数量均为N，N为预设的正整数；

并集求取子单元，用于对所述第一语句集合与所述第二语句集合取并集，得到候选语句集合。

8.如权利要求6所述的语句匹配装置，其特征在于，所述语句匹配装置还包括：

匹配模型第一训练子单元，用于基于预设的标准验证集，通过所述随机森林模型对候选文本特征进行训练，其中，所述候选文本特征包括如下一项以上：ElasticSearch相似度得分、BERT语义相似度得分、杰卡德相似度得分、编辑距离得分、关键词语匹配相似度得分，业务词语匹配相似度得分、名词匹配相似度得分及动词匹配相似度得分；

文本特征确定子单元，用于根据所述随机森林模型对所述候选文本特征的训练结果，确定所述排序模型所采用的文本特征；

匹配模型第二训练子单元，通过所述线性模型对所述排序模型所采用的文本特征进行训练，以确定所述排序模型所采用的各个文本特征的权重；

匹配模型获取子单元，用于基于所述排序模型所采用的文本特征，以及所述排序模型所采用的各个文本特征的权重，获得已训练的匹配模型。

9.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。