CN110427463B

CN110427463B - 搜索语句响应方法、装置及服务器和存储介质

Info

Publication number: CN110427463B
Application number: CN201910731246.9A
Authority: CN
Inventors: 周辉阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2023-11-24
Anticipated expiration: 2039-08-08
Also published as: CN110427463A

Abstract

本申请公开了一种搜索语句响应方法、装置、系统及一种服务器和计算机可读存储介质，该方法包括：获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；确定所述搜索语句中的实体词和谓词，并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。由此可见，本申请提供的搜索语句响应方法，提高了搜索语句召回和响应的准确率。

Description

搜索语句响应方法、装置及服务器和存储介质

技术领域

本申请涉及计算机应用技术领域，更具体地说，涉及搜索语句响应方法、装置及服务器和计算机可读存储介质。

背景技术

在问答对的建设过程中，线上问答对的召回是算法的核心能力体现。某个领域中的数据量有限，但用户的问法是无限的，因此如何基于有限的数据兜住用户无限的真实搜索是召回算法的核心所在。

在相关技术中，对于用户搜索语句的响应方法如下：在搜索语句所属的领域的候选语料中进行ES(ElasticSearch，一个基于Lucene的搜索服务器)召回，将排在第一的召回结果对应的答案作为该搜索语句的响应结果。但是，上述方案中排在第一的召回结果往往不是与该搜索语句最接近的语句，召回准确度较低，导致响应结果不准确，用户满意度较低。

因此，如何提高搜索语句召回和响应的准确率是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种搜索语句响应方法、装置及一种服务器和一种计算机可读存储介质，提高了搜索语句召回和响应的准确率。

为实现上述目的，本申请第一方面提供了一种搜索语句响应方法，包括：

获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；

确定所述搜索语句中的实体词和谓词，并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；

基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。

结合本申请的第一方面，在本申请第一方面的第一种实施方式中，所述确定所述搜索语句中的实体词和谓词，包括：

对所述搜索语句中的词进行词类标注，并确定所述目标领域对应的实体词词类；

将所述搜索语句中所属词类在所述实体词词类中的词作为所述实体词；

根据所述实体词确定所述搜索语句中的谓词。

结合本申请的第一方面，在本申请第一方面的第二种实施方式中，还包括：

若所述候选语料中不存在所述搜索语句对应的召回结果，则记录所述搜索语句对应的日志；

获取所述搜索语句对应的目标响应结果，并将所述搜索语句与所述目标响应结果的对应关系加入所述候选语料中。

结合本申请的第一方面、本申请第一方面的第一种实施方式和本申请第一方面的第二种实施方式，在本申请第一方面的第三种实施方式中，所述基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果，包括：

基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果。

结合本申请第一方面的第三种实施方式中，在本申请第一方面的第四种实施方式中，所述基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果，包括：

确定每个所述召回结果与所述搜索语句之间的词向量相似度，并根据所述词向量相似度和第一权重系数计算每个所述召回结果的词向量权重值；

确定每个所述召回结果与所述搜索语句之间的字符相似度，并根据所述字符相似度和第二权重系数计算每个所述召回结果的字符权重值；

将所述词向量权重值与所述字符权重值的和作为每个所述召回结果的加权值；

将加权值最高的召回结果在所述候选语料库中对应的响应结果作为所述搜索语句对应的响应结果。

为实现上述目的，本申请第二方面提供了一种搜索语句响应装置，包括：

获取模块，用于获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；

召回模块，用于确定所述搜索语句中的实体词和谓词，并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；

响应模块，用于基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。

为实现上述目的，本申请第三方面提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述搜索语句响应方法的步骤。

通过以上方案可知，本申请提供的一种搜索语句响应方法，包括：获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；确定所述搜索语句中的实体词和谓词，并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。

本申请提供的搜索语句响应方法，利用搜索语句中的实体词和谓词进行ES召回，保证了召回结果是聚焦在该实体词和谓词上面，而不是一些无关的词，提高了搜索语句召回的准确度。另外，对于各召回结果，基于与该搜索语句的词向量相似度进行精准排序，解决了因语序和近义词造成的召回排序不准确，选取相似度虽高的召回结果作为搜索语句的响应结果，提高了搜索语句响应的准确度。由此可见，本申请提供的搜索语句响应方法，提高了搜索语句召回和响应的准确率。本申请还公开了一种搜索语句响应装置及一种服务器和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种搜索语句响应系统的架构图；

图2为本申请实施例提供的一种搜索语句响应方法的流程图；

图3为图2中步骤S103的细化流程图；

图4为图2中步骤S107的细化流程图；

图5为本申请实施例提供的另一种搜索语句响应方法的流程图；

图6为本申请实施例提供的一种搜索语句响应装置的结构图；

图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请的发明人经研究发现，在相关技术中，对于用户输入的搜索语句，当存在ES召回结果时，由于ES无法区分搜索语句中各个词语的重要性程度，而是更加注重词语之间的匹配程度，导致与该搜索语句语义最相似的语句排序靠后。例如，若搜索语句为“为什么企鹅不会飞”，ES召回结果的排序为：“鸵鸟和企鹅为什么不会飞”、“企鹅为什么叫企鹅”、“为什么鸵鸟和企鹅是鸟类也不能飞”、“为什么企鹅有翅膀却不会飞”。可见，与搜索语句最相似的语句为“为什么企鹅有翅膀却不会飞”，但其排序结果较为靠后，却把“鸵鸟和企鹅为什么不会飞”排在了第一位。因此，在本申请中，首先确定搜索语句中包括主语在内的实体词和谓词，仅依据实体词和谓词进行ES召回，使得ES的召回结果是聚焦在该实体词和谓词上面，而不是一些无关的词，提高了搜索语句召回的准确度。

另外，在相关技术中，与搜索语句语义最相似的语句也会由于语序和某些词语的变化导致ES得分较低，召回排序靠后。例如，同样对于“为什么企鹅不会飞”的搜索语句，ES数据库中存在的语句为“请问企鹅为什么不能飞翔呢”，其中，“为什么”和“企鹅”的语序发生了变化，“不会”变成了“不能”，“飞”变成了“飞翔”，增加了疑问词“请问”。上述变化会导致该语句在ES召回排序较为靠后，召回排序准确度较低。因此，在本申请中，对于各召回结果，基于与该搜索语句的词向量相似度进行精准排序，解决了上述语序和近义词的问题，选取相似度虽高的召回结果作为搜索语句的响应结果，提高了搜索语句响应的准确度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的搜索语句响应方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种搜索语句响应系统的架构图，如图1所示，包括交互设备10、服务器20和搜索服务器30。其中，交互设备10与服务器20之间、服务器20与搜索服务器30之间通过网络40进行通信连接。

其中，交互设备10用于与用户进行交互，可以为AI(中文全称：人工智能，英文全称：Artificial Intelligence)设备，例如智能音箱等，能够接收用户的搜索语句。该交互设备10可以支持用户的语音输入、也可以支持用户的文字输入，即该搜索语句可以为语音形式，也可以为文字形式。具体的，当交互设备10接收到用户的搜索语句之后，可以首先分析该搜索语句为语音形式还是文字形式，若该搜索语句为语音形式，此时可以其进行语音识别，得到对应的文字形式，以便服务器20对文字形式的搜索语句进行处理。

服务器20为交互设备10对应的后台服务器，用于对交互设备10传入的搜索语句进行处理。首先确定搜索语句所属领域对应的候选语料，为搜索服务器30的召回指定范围。其次确定该搜索语句中包含主语在内的实体词和谓词，使得搜索服务器30仅依据实体词和谓词进行召回，召回结果是聚焦在该实体词和谓词上面，而不是一些无关的词，提高了搜索语句召回的准确度。最后，对于召回结果基于与该搜索语句的词向量相似度进行精准排序，解决了相关技术中语序和近义词的问题，选取相似度虽高的召回结果作为搜索语句的响应结果，提高了搜索语句响应的准确度。

搜索服务器30中存储有语料库，用于利用服务器20传入的实体词和谓词在语料库中相应的候选语料中进行召回，并返回召回结果。可以理解的是，为了提高召回效率和精度，本申请中的搜索服务器30可以为ES，由于其内置bm25算法(一种基于概率检索模型、评价搜索词和文档之间相关性的算法)，召回速度快、精度高。

本申请实施例公开了一种搜索语句响应方法，提高了搜索语句召回和响应的准确率。

参见图2，本申请实施例提供的一种搜索语句响应方法的流程图，如图2所示，包括：

S101：交互设备向服务器发送搜索语句；

在本步骤中，交互设备获取用户通过语音或文字形式输入的搜索语句，对于语音形式的搜索语句对其进行语音识别得到文字形式的搜索语句，发送至对应的服务器。

S102：服务器利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；

在具体实施中，服务器利用分类模型确定搜索语句所属的目标领域，例如，十万个为什么、音乐、视频、天气、导航等领域，分类模型用于对搜索语句的意图进行分类。每个领域在搜索服务器中存储有其对应的候选语料，搜索服务器基于该搜索语句对应的候选语料进行召回，召回的相似语句均为目标领域的语句，相对于基于整个语料库进行召回，召回的效率和准确度更高。

本步骤中分类模型的训练过程包括：利用每个领域的正样本数据和负样本数据训练每个所述领域对应的分类子模型；将所有所述分类子模型整合为所述分类模型。本实施例不对分类模型的类型进行具体限定，由于xgboost分类模型的准确度比较高，因此优选为xgboost分类模型，相应的上述分类子模型为xgboost分类子模型。每个领域均对应一个分类子模型，利用该领域的正样本数据和负样本数据训练其对应的分类子模型，正样本数据为属于该领域的数据，负样本数据为属于其他领域的数据。例如，对于十万个为什么领域，正样本数据为十万个为什么领域下的数据，负样本数据为音乐、视频、天气、导航等领域的数据。所有领域对应的分类子模型均训练完成后，将其整合为一个完整的分类模型，该分类模型的输入为搜索语句，输出为该搜索语句对应的目标领域。

S103：服务器确定所述搜索语句中的实体词和谓词；

为了避免ES召回结果中包含与搜索语句不相关信息，例如，搜索语句为“为什么企鹅不会飞”，搜索相关信息为企鹅，而ES召回结果为“鸵鸟和企鹅为什么不会飞”，ES召回了鸵鸟的不相关信息，在本步骤中，服务器需要确定搜索语句中的实体词和谓词，对于搜索语句中的多个实体词和多个谓词需要同时保留。

作为一种可行的实施方式，服务器可以根据搜索语句的语法结构对其进行分析，得到结构化语句，并确定该结构化语句中的实体词和谓词。例如，对于中文语句，可以根据中文的句型、语法及添加相应的修饰词规则来匹配，得到对应的结构化语句。如结构化语句的句型可以为：修饰词+主语+谓语+宾语+语气词等句型，可以将其中的主语和宾语确定为该搜索语句的实体词，其中的谓语确定为该搜索语句的谓词。另外，对于其他语言形式的语句，同样可以根据其语法等特性得到对应的结构化语句，进而确定实体词和谓词。例如，搜索语句为“听音乐”，对应的结构化语句可以为“听(谓语)+音乐(宾语)”，其中的“听”为谓词，“音乐”为实体词。

作为另一种可行的实施方式，也可以对该搜索语句中的词进行词类标注，并根据目标领域对应的实体词词类确定该目标语句中的实体词和谓词，将在后续实施例进行详细介绍。

S104：服务器将实体词和谓词发送至搜索服务器；

S105：搜索服务器利用所述实体词和所述谓词在所述候选语料中得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；

由于直接利用整个搜索语句进行召回，召回结果中会包含与搜索语句不相关信息。因此，本步骤中搜索服务器利用上一步骤提取的实体词和谓词进行召回，此处的搜索服务器为ES，保证了召回结果的品质。

另外，对于每个召回结果进行筛选，强制必须包含上述实体词和谓词，可以进一步将召回结果聚焦在实体词和谓词上，进一步提高召回准确度。对于“为什么企鹅不会飞”的例子，必须包含关键字“企鹅”和“飞”，即过滤掉不含“企鹅”或“飞”的召回结果。可以理解的是，此筛选过程的执行主体可以为服务器，也可以为搜索服务器。

S106：搜索服务器将召回结果返回至服务器；

S107：服务器基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。

可以理解的是，由于ES中内置bm25算法会自动对各召回结果按照字词的相似度进行排序，语序和近义词的问题会影响排序结果。因此，在本步骤中，为了解决上述语序和近义词的问题，服务器对接收到的召回结果进行重新排序，以保证排序结果第一的召回结果为与搜索语句最相似的语句。排序方式为基于每个召回结果与搜索语句之间的词向量相似度，即将每个召回结果和搜索语句进行词向量表示，计算各召回结果对应的词向量与搜索语句对应的词向量的余弦相似度。在大规模的语料预训练面前，语义相近的词语的词向量是近似的，也就是说，对于“为什么企鹅不会飞”的例子，“飞”和“飞翔”的词向量接近。由于在进行词向量表示时，首先对整个语句进行分词，然后对每个分词进行向量表示，再将其结果相加，因此对于仅语序不同的两个语句，其词向量表示结果相同。也就是说，对于“为什么企鹅不会飞”的例子，“为什么企鹅”和“企鹅为什么”的词向量相同。可见，基于每个召回结果与搜索语句之间的词向量相似度进行排序可以解决近义词和语序的问题。

此处不对词向量的表示方法进行具体限定，例如，可以采用Word Embedding算法。现有的机器学习方法往往无法直接处理文本数据，因此需要找到合适的方法，将文本数据转换为数值型数据，由此引出了Word Embedding的概念。如果将词看作文本的最小单元，可以将Word Embedding理解为一种映射，其过程为将文本空间中的某个词，通过一定的方法、映射或嵌入(embedding)到另一个数值向量空间。当然，也可以采用Word2vec算法等，只要保证近义词的词向量相近且互为逆序的语句的词向量相近均在本实施例的保护范围内。此处也不对词向量的具体类型进行限定，例如，可以采用Glove词向量，其使用了超大规模的中文语料进行预训练。

需要说明的是，本步骤除采用基于词向量相似度的排序方式，还可以增加基于字符相似度的排序方式。即本步骤可以包括：基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果。此处的字符相似度优选为编辑距离，编辑距离是针对二个字符串的差异程度的量化量测，量测方式为统计至少需要多少次的处理才能将一个字符串变成另一个字符串。当然也可以采用其他度量字符相似度的方式，在此不进行具体限定。由于采用两种不同的计算相似度方式，可以为各相似度分配权重系数，并计算相似度的加权值，按照加权值进行排序。

S108：服务器返回响应结果至交互设备。

在本步骤中，服务器将排序结果第一的召回结果作为与用户输入的搜索语句最相近的语句，将该召回结果在候选语料库中对应的响应结果返回至交互设备。

在上述实施例的基础上，作为一种优选实施方式，还包括：若所述候选语料中不存在所述搜索语句对应的召回结果，则记录所述搜索语句对应的日志；获取所述搜索语句对应的目标响应结果，并将所述搜索语句与所述目标响应结果的对应关系加入所述候选语料中。

在具体实施中，若ES没有召回到任何结果，则触发兜底逻辑。兜底逻辑指当常见的任务型技不能包含用户输入的搜索语句的意图时，采用qa(问答)或者chat(闲聊)的方式去回答，使得AI产品更加智能。对于“为什么企鹅不会飞”的例子，若候选语料中不含任何与“企鹅”和“飞”相关的语句，则记录详细的LOG日志，离线用脚本定时处理呈现没有召回结果的搜索语句。人工需要定时的去补充相关的问答对，即该搜索语句对应的目标响应结果。以实时提升语料库中数据量和响应质量。可以理解的是，增加的问答对中的问句，即没有召回结果的搜索语句，还需新增到目标模型的正样本数据中，对目标模型对应的分类子模型进行重新训练，不断提高分类模型的分类准确度。

本申请实施例提供的搜索语句响应方法，利用搜索语句中的实体词和谓词进行ES召回，保证了召回结果是聚焦在该实体词和谓词上面，而不是一些无关的词，提高了搜索语句召回的准确度。另外，对于各召回结果，基于与该搜索语句的词向量相似度进行精准排序，解决了因语序和近义词造成的召回排序不准确，选取相似度虽高的召回结果作为搜索语句的响应结果，提高了搜索语句响应的准确度。由此可见，本申请实施例提供的搜索语句响应方法，提高了搜索语句召回和响应的准确率。

本实施例介绍一种通过对搜索语句中的词进行词类标注的方式确定该搜索语句中的实体词和谓词的方法，以上述服务器为执行主体进行介绍，具体的，如图3所示，上述实施例中的步骤S103可以包括：

S31：对所述搜索语句中的词进行词类标注，并确定所述目标领域对应的实体词词类；

在本步骤中，首先对搜索语句中的词进行词类标注。作为一种可行的实施的方式，可以利用NLU(中文全称：自然语言理解，英文全称：Natural Language Understanding)对所述搜索语句进行分词处理，并对每个分词进行词类标注，即对搜索语句中全部的词语进行词类标注。对于“为什么企鹅不会飞”的例子，NLU会将其分词为“为什么”、“企鹅”、“不会”和“飞”，将“为什么”标注为kg.interrogative(疑问词)，将“企鹅”标注为kg.animal(动物)，将“不会”标注为kg.adv(副词)，将“飞”标注为kg.v(动词)。

作为另一种可行的实施方式，可以抽取所述搜索语句中的关键词，并对每个所述关键词进行词类标注，即仅对搜索语句中的关键词进行词类标注。此处不限定具体的抽取方法，例如可以采用textrank4zh算法。对于“为什么企鹅不会飞”的例子，textrank4zh算法抽取的关键词为“企鹅”和“飞”，则仅对这两个词进行标注，提高效率。

在本步骤中，还需确定目标领域对应的实体词词类。每一个领域都有指定的实体词词类，例如，音乐领域的实体词词类包括专辑，歌曲，歌手等，十万个为什么领域的实体词词类包括人体、植物、动物、海洋、食品、天文、科技、物理、化学、生活等。

S32：将所述搜索语句中所属词类在所述实体词词类中的词作为所述实体词；

在本步骤中，将搜索语句中所属词类在实体词词类中的词作为实体词，右上可知，动物的词类为kg.animal，因此，可以判定“企鹅”为实体词。在上一步骤中介绍的另一种可行的实施方式中，本步骤包括：将所属词类在所述实体词词类中的关键词作为所述实体词。

S33：根据所述实体词确定所述搜索语句中的谓词。

本步骤的目的为确定搜索语句中的谓词。在步骤S31中介绍的一种可行的实施方式中，本步骤包括：抽取所述搜索语句中的关键词，并将所述关键词中除所述实体词之外的关键词作为所述谓词。此处抽取关键词的步骤与前述类似，在此不再赘述。在步骤S31中介绍的另一种可行的实施方式中，本步骤包括：将所述关键词中除所述实体词之外的关键词作为所述谓词。例如，抽取到的关键词为“企鹅”和“飞”，“企鹅”为实体词，则将“飞”作为谓词。

由此可见，本实施例利用通过对搜索语句中的词进行词类标注的方式确定该搜索语句中的实体词和谓词，相比于对整个搜索语句进行结构化处理的方式，准确度较高，进而提高了ES召回准确度。

本实施例介绍一种基于每个召回结果与搜索语句之间的词向量相似度和字符相似度对召回结果进行排序的方法，同样以服务器为执行主体进行介绍。具体的，如图4所示，上述实施例中的步骤S107可以包括：

S71：确定每个所述召回结果与所述搜索语句之间的词向量相似度，并根据所述词向量相似度和第一权重系数计算每个所述召回结果的词向量权重值；

S72：确定每个所述召回结果与所述搜索语句之间的字符相似度，并根据所述字符相似度和第二权重系数计算每个所述召回结果的字符权重值；

S73：将所述词向量权重值与所述字符权重值的和作为每个所述召回结果的加权值；

S74：将加权值最高的召回结果在所述候选语料库中对应的响应结果作为所述搜索语句对应的响应结果。

在本实施例中，由于采用两种不同的计算相似度方式，可以为各相似度分配权重系数，并计算相似度的加权值，按照加权值进行排序。也就是说，为词向量相似度分配第一权重系数，为字符相似度分配第二权重系数，分别计算各召回结果的词向量权重值和字符权重值，进而计算每个召回结果的加权值，按照加权值由高至低进行排序，将排序结果第一的召回结果在候选语料库中对应的响应结果确定为搜索语句对应的响应结果。

若字符相似度采用编辑距离的计算方式，例如，对于长度为10的搜索语句，其与某个召回结果的编辑距离为3，则该召回结果与搜索语句的字符相似度为(10-3)/10＝0.7，第二权重系数为3，则该召回结果的字符权重值为2.1。若该召回结果与搜索语句的词向量之间的余弦相似度为0.8，第二权重系数为5，则该召回结果的词向量权重值为4.0。该召回结果最终的加权置为6.1。

由此可见，采用词向量相似度和字符相似度结合的排序方式对ES的召回结果进行排序，在保证召回结果与搜索语句字符匹配度较高的前提下，解决了近义词和语序的问题，排序结果较为准确。进而将排序结果第一的召回结果在候选语料库中对应的响应结果确定为搜索语句对应的响应结果，响应准确度较高。

本申请实施例公开了一种搜索语句响应方法，相对于前几个实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图5，本申请实施例提供的另一种搜索语句响应方法的流程图，如图5所示，包括：

S201：获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；

S202：利用NLU对所述搜索语句进行分词处理，并对每个分词进行词类标注；

S203：确定所述目标领域对应的实体词词类；

S204：将所述搜索语句中所属词类在所述实体词词类中的词作为所述实体词；

在本实施例中，利用NLU对搜索语句进行分词和词类标注，据此确定搜索语句中的实体词，结果较为准确。

S205：抽取所述搜索语句中的关键词，并将所述关键词中除所述实体词之外的关键词作为所述谓词。

S206：利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回，并判断是否存在召回结果；若是，则进入S207；若否，则进入S211；

其中，每个所述召回结果均包括所述实体词和所述谓词；

S207：确定每个所述召回结果与所述搜索语句之间的词向量相似度，并根据所述词向量相似度和第一权重系数计算每个所述召回结果的词向量权重值；

S208：确定每个所述召回结果与所述搜索语句之间的字符相似度，并根据所述字符相似度和第二权重系数计算每个所述召回结果的字符权重值；

S209：将所述词向量权重值与所述字符权重值的和作为每个所述召回结果的加权值；

S210：将加权值最高的召回结果在所述候选语料库中对应的响应结果作为所述搜索语句对应的响应结果。

在本实施例中，采用词向量相似度和字符相似度结合的排序方式对ES的召回结果进行排序，为各相似度分配权重系数，并计算相似度的加权值，按照加权值由高至低进行排序，将排序结果第一的召回结果在候选语料库中对应的响应结果确定为搜索语句对应的响应结果。

S211：记录所述搜索语句对应的日志；

S212：获取所述搜索语句对应的目标响应结果，并将所述搜索语句与所述目标响应结果的对应关系加入所述候选语料中。

在本实施例中，若ES没有召回到任何结果，则触发兜底逻辑。记录详细的LOG日志，离线用脚本定时处理呈现没有召回结果的搜索语句。人工需要定时的去补充相关的问答对，即该搜索语句对应的目标响应结果。

由此可见，本实施例利用NLU对搜索语句进行分词和词类标注，据此确定搜索语句中的实体词，结果较为准确，进而提高ES召回的准确度。另外，采用词向量相似度和字符相似度结合的排序方式对ES的召回结果进行排序，在保证召回结果与搜索语句字符匹配度较高的前提下，解决了近义词和语序的问题。同时通过人工补充没有召回结果的搜索语句对应的响应结果，以实时提升语料库中数据量和响应质量。

为了便于理解，下面结合本申请的一种应用场景进行介绍。结合图1，交互设备10采集到用户的语音形式的搜索语句，对其进行语音识别得到文字形式的搜索语句“为什么企鹅不会飞”，将其发送至服务器20。

服务器20利用分类模型确定该搜索语句属于“十万个为什么”领域，在ES中确定该领域对应的候选语料。服务器20确定该搜索语句的实体词为“企鹅”、谓词为“飞”，将该实体词和谓词发送至ES。

ES在候选语料中利用“企鹅”和“飞”进行召回，得到20个召回结果，并将其返回至服务器20。服务器20对该召回结果进行筛选，将不包含“企鹅”、和“飞”的召回结果过滤掉，计算各召回结果与搜索语句的编辑距离对应得分，计算各召回结果对应的词向量与搜索语句对应的词向量之间的余弦相似度，将上述得分与余弦相似度的和确定为各向量的加权得分，确定加权得分最高的召回结果对应的响应结果，将该响应结果发送至交互设备10，交互设备10通过语音输出该响应结果。

下面对本申请实施例提供的一种搜索语句响应装置进行介绍，下文描述的一种搜索语句响应装置与上文描述的一种搜索语句响应方法可以相互参照。

参见图6，本申请实施例提供的一种搜索语句响应装置的结构图，如图6所示，包括：

获取模块601，用于获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料；

召回模块602，用于确定所述搜索语句中的实体词和谓词，并利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；

响应模块603，用于基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果。

本申请实施例提供的搜索语句响应装置，利用搜索语句中的实体词和谓词进行ES召回，保证了召回结果是聚焦在该实体词和谓词上面，而不是一些无关的词，提高了搜索语句召回的准确度。另外，对于各召回结果，基于与该搜索语句的词向量相似度进行精准排序，解决了因语序和近义词造成的召回排序不准确，选取相似度虽高的召回结果作为搜索语句的响应结果，提高了搜索语句响应的准确度。由此可见，本申请实施例提供的搜索语句响应装置，提高了搜索语句召回和响应的准确率。

在上述实施例的基础上，作为一种优选实施方式，还包括：

训练模块，用于利用每个领域的正样本数据和负样本数据训练每个所述领域对应的分类子模型；

整合模块，用于将所有所述分类子模型整合为所述分类模型。

在上述实施例的基础上，作为一种优选实施方式，所述召回模块602包括：

标注单元，用于对所述搜索语句中的词进行词类标注，并确定所述目标领域对应的实体词词类；

第一确定单元，用于将所述搜索语句中所属词类在所述实体词词类中的词作为所述实体词；

第二确定单元，用于根据所述实体词确定所述搜索语句中的谓词；

召回单元，用于利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词。

在上述实施例的基础上，作为一种优选实施方式，所述标注单元包括：

标注子单元，用于利用NLU对所述搜索语句进行分词处理，并对每个分词进行词类标注；

确定子单元，用于确定所述目标领域对应的实体词词类；

所述第二确定单元具体为抽取所述搜索语句中的关键词，并将所述关键词中除所述实体词之外的关键词作为所述谓词的单元。

抽取子单元，用于抽取所述搜索语句中的关键词，并对每个所述关键词进行词类标注；

确定子单元，用于确定所述目标领域对应的实体词词类；

所述第一确定单元具体为将所属词类在所述实体词词类中的关键词作为所述实体词的单元；

所述第二确定单元具体为将所述关键词中除所述实体词之外的关键词作为所述谓词的单元。

在上述实施例的基础上，作为一种优选实施方式，还包括：

记录模块，用于若所述候选语料中不存在所述搜索语句对应的召回结果，则记录所述搜索语句对应的日志；

加入模块，用于获取所述搜索语句对应的目标响应结果，并将所述搜索语句与所述目标响应结果的对应关系加入所述候选语料中。

在上述实施例的基础上，作为一种优选实施方式，所述响应模块603具体为基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果的模块。

在上述实施例的基础上，作为一种优选实施方式，所述响应模块603包括：

第一计算单元，用于确定每个所述召回结果与所述搜索语句之间的词向量相似度，并根据所述词向量相似度和第一权重系数计算每个所述召回结果的词向量权重值；

第二计算单元，用于确定每个所述召回结果与所述搜索语句之间的字符相似度，并根据所述字符相似度和第二权重系数计算每个所述召回结果的字符权重值；

加权单元，用于将所述词向量权重值与所述字符权重值的和作为每个所述召回结果的加权值；

响应单元，用于将加权值最高的召回结果在所述候选语料库中对应的响应结果作为所述搜索语句对应的响应结果。

在上述实施例的基础上，作为一种优选实施方式，所述字符相似度具体为每个所述召回结果与所述搜索语句之间的编辑距离。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种服务器，参见图7，本申请实施例提供的一种服务器70的结构图，如图7所示，可以包括处理器71和存储器72。

其中，处理器71可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器71可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器71可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器71还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器72可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器72还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器72至少用于存储以下计算机程序721，其中，该计算机程序被处理器71加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的测试监管方法中的相关步骤。另外，存储器72所存储的资源还可以包括操作系统722和数据723等，存储方式可以是短暂存储或者永久存储。其中，操作系统722可以包括Windows、Unix、Linux等。

在一些实施例中，终端70还可包括有显示屏73、输入输出接口74、通信接口75、传感器76、电源77以及通信总线78。

当然，图7所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图7所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例服务器所执行的搜索语句响应方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种搜索语句响应方法，其特征在于，包括：

获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料，所述分类模型是由所有分类子模型整合得到的，分类子模型为利用每个领域的正样本数据和负样本数据训练每个领域对应的分类子模型；

根据所述实体词确定所述搜索语句中的谓词；

利用ElasticSearch基于所述实体词和所述谓词在所述候选语料中进行召回得到所述搜索语句对应的召回结果；其中，每个所述召回结果均包括所述实体词和所述谓词；

基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果；

其中，对所述搜索语句中的词进行词类标注，包括：

利用自然语言理解技术对所述搜索语句进行分词处理，并对每个分词进行词类标注；

所述根据所述实体词确定所述搜索语句中的谓词，包括：

抽取所述搜索语句中的关键词，并将所述关键词中除所述实体词之外的关键词作为所述谓词；

或，

对所述搜索语句中的词进行词类标注，包括：

抽取所述搜索语句中的关键词，并对每个所述关键词进行词类标注；

将所述搜索语句中所属词类在所述实体词词类中的词作为所述实体词，包括：

将所属词类在所述实体词词类中的关键词作为所述实体词；

所述根据所述实体词确定所述搜索语句中的谓词，包括：

将所述关键词中除所述实体词之外的关键词作为所述谓词。

2.根据权利要求1所述搜索语句响应方法，其特征在于，还包括：

3.根据权利要求1或2所述搜索语句响应方法，其特征在于，所述基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果，包括：

4.根据权利要求3所述搜索语句响应方法，其特征在于，所述基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果，包括：

5.根据权利要求3所述搜索语句响应方法，其特征在于，所述字符相似度具体为每个所述召回结果与所述搜索语句之间的编辑距离。

6.一种搜索语句响应装置，其特征在于，包括：

获取模块，用于获取搜索语句，利用分类模型确定所述搜索语句所属的目标领域，并确定所述目标领域的候选语料，所述分类模型是由所有分类子模型整合得到的，分类子模型为利用每个领域的正样本数据和负样本数据训练每个领域对应的分类子模型；

响应模块，用于基于每个所述召回结果与所述搜索语句之间的词向量相似度得到所述搜索语句的响应结果；

其中，所述召回模块包括：

第一确定单元，用于将所述搜索语句中所属词类在所述实体词词类中的词作为实体词；

其中，所述标注单元，用于利用自然语言理解技术对所述搜索语句进行分词处理，并对每个分词进行词类标注；

所述第二确定单元，用于抽取所述搜索语句中的关键词，并将所述关键词中除所述实体词之外的关键词作为所述谓词；

或，

所述标注单元，用于抽取所述搜索语句中的关键词，并对每个所述关键词进行词类标注；

所述第一确定单元，用于将所属词类在所述实体词词类中的关键词作为所述实体词；

所述第二确定单元，用于将所述关键词中除所述实体词之外的关键词作为所述谓词。

7.根据权利要求6所述的搜索语句响应装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的搜索语句响应装置，其特征在于，所述响应模块具体用于基于每个所述召回结果与所述搜索语句之间的词向量相似度和字符相似度得到所述搜索语句的响应结果。

9.根据权利要求8所述的搜索语句响应装置，其特征在于，所述响应模块包括：

10.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

将所述搜索语句中所属词类在所述实体词词类中的词作为实体词；

根据所述实体词确定所述搜索语句中的谓词，所述谓词为搜索语句中的谓语；

其中，对所述搜索语句中的词进行词类标注，包括：

所述根据所述实体词确定所述搜索语句中的谓词，包括：

或，

对所述搜索语句中的词进行词类标注，包括：

将所属词类在所述实体词词类中的关键词作为所述实体词；

所述根据所述实体词确定所述搜索语句中的谓词，包括：

将所述关键词中除所述实体词之外的关键词作为所述谓词。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述搜索语句响应方法的步骤。