CN110442718A

CN110442718A - 语句处理方法、装置及服务器和存储介质

Info

Publication number: CN110442718A
Application number: CN201910731237.XA
Authority: CN
Inventors: 周辉阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-12
Anticipated expiration: 2039-08-08
Also published as: CN110442718B

Abstract

本申请公开了一种语句处理方法、装置、系统及一种服务器和计算机可读存储介质，该方法包括：对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。由此可见，本申请提供的语句处理方法，提高了语句处理效率和语料库中语句聚类的准确度。

Description

语句处理方法、装置及服务器和存储介质

技术领域

本申请涉及计算机应用技术领域，更具体地说，涉及语句处理方法、装置及服务器和计算机可读存储介质。

背景技术

在问答对的建设过程中，线上问答对的数据质量和服务稳定想是核心竞争力所在。问答产品的逻辑建设往往是决定产品智能化程度的关键，在用户的实际体验中，所有用户对同一个问题有不同的问法。基于此，对于一些结构化知识的领域，产品对于相同意图和主题的回复都需要是统一的标注答案。

在相关技术中，对于语料库中语句的聚类方法如下：首先对语料库中的语句进行编辑距离的计算，编辑距离小于阈值则认为两条语句是同类的语料。此外，对整体的数据采用k-means(中文全称：k均值聚类算法，英文全称：k-means clustering algorithm)进行聚类处理。人工对两种不同的度量方式的结果进行审核，对于相同类别的语句统一撰写标准答案。但是，上述方案的聚类结果不准确，用户满意度较低。

因此，如何提高语料库中语句聚类的准确度是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种语句处理方法、装置及一种服务器和一种计算机可读存储介质，提高了语料库中语句聚类的准确度。

为实现上述目的，本申请第一方面提供了一种语句处理方法，包括：

对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；

计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；

基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。

结合本申请的第一方面，在本申请第一方面的第一种实施方式中，所述计算每个语句对中两个语句之间的语义相似度作为第一语义相似度，包括：

利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度。

结合本申请的第一方面，在本申请第一方面的第二种实施方式中，所述基于所述第一语义相似度对所述语料库进行聚类得到聚类结果包括：

确定在阈值范围内的第一语义相似度对应的语句对为候选语句对，利用所述候选语句对构建语句关系图；

对所述语句关系图进行图聚类得到聚类结果；其中，所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内。

结合本申请的第一方面、本申请第一方面的第一种实施方式和本申请第一方面的第二种实施方式，在本申请第一方面的第三种实施方式中，还包括：

当接收到搜索语句时，在所述语料库中确定所述搜索语句对应的召回结果；

计算所述搜索语句与每个所述召回结果之间的语义相似度作为第二语义相似度；

基于所述第二语义相似度确定所述搜索语句所属的目标类别，并返回所述目标类别对应的响应结果。

为实现上述目的，本申请第二方面提供了一种语句处理装置，包括：

召回模块，用于对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；

第一计算模块，用于计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；

聚类模块，用于基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。

为实现上述目的，本申请第三方面提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述语句处理方法的步骤。

通过以上方案可知，本申请提供的一种语句处理方法，包括：对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。

本申请提供的语句处理方法，首先在语料库中召回各候选语句的召回结果，使得在后续聚类过程中每个候选语句只需要与其对应的召回结果进行匹配，提高了语句处理效率。其次，基于各语句之间的语义相似度进行聚类，同时解决了因语序、近义词以及增加无关助词造成的聚类结果不准确，提高了语料库中语句聚类的准确度。由此可见，本申请提供的语句处理方法，提高了语句处理效率和语料库中语句聚类的准确度。本申请还公开了一种语句处理装置及一种服务器和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种语句处理系统的架构图；

图2为本申请实施例提供的一种语句处理方法的流程图；

图3为图2中步骤S105的细化流程图；

图4为本申请实施例提供的另一种语句处理方法的流程图；

图5为本申请实施例提供的又一种语句处理方法的流程图；

图6为本申请实施例提供的一种语句处理装置的结构图；

图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请的发明人经研究发现，首先相关技术中的编辑距离无法解决语序逆序的问题，比如，“为什么企鹅不会飞”和“企鹅为什么不会飞”中的字词内容完全一致，仅仅因为语序不同导致他们之间的编辑距离大于阈值，不能归为同一类别。其次，k-means不能解决类位置的问题，k-means作为经典的聚类算法，其致命的问题是需要输入聚类的个数，也就是类别的个数，但是在语句处理之前，不知道语料库中到底有多少个类别，因此，采用随机设定聚类个数的做法，但这种做法往往导致了聚类结果不准确。另外，上述两种聚类方法都只能进行浅层表面字词级别的聚类，无法深入语义去理解句子的真实意图。例如，针对“为什么企鹅不会飞”和“请问一下企鹅为什么不能够飞翔”，后者相对于前者增加了一个语气助词“请问一下”、调整了“为什么”和“企鹅”的语序，将“不会”变成了同义词“不能够”，“飞”变成了同义词“飞翔”。两句话的语义完全一致，但是上述两种基于字词匹配度的算法均无法完成相似性判断把他们归为一类。因此，本申请采用基于语句之间的语义相似度的方式进行聚类，同时解决了因语序、近义词以及增加无关助词造成的聚类结果不准确，提高了语料库中语句聚类的准确度。

同时，在相关技术中，编辑距离需要两两计算关联度，算法复杂度为语句总数的平方级别，k-means为反复迭代寻找最优聚类，算法复杂度和时间复杂度都很高。因此，在本申请中，采用召回算法对语料库中的各候选语句进行召回，每个候选语句只需与其对应的召回结果进行相似度计算，避免了两两匹配，能够极大程度上缩小算法的时间复杂度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的语句处理方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种语句处理系统的架构图，如图1所示，包括交互设备10、服务器20和搜索服务器30。其中，交互设备10与服务器20之间、服务器20与搜索服务器30之间通过网络40进行通信连接。

其中，交互设备10用于与用户进行交互，可以为AI设备，例如智能音箱等，能够接收用户的搜索语句。该交互设备10可以支持用户的语音输入、也可以支持用户的文字输入，即该搜索语句可以为语音形式，也可以为文字形式。具体的，当交互设备10接收到用户的搜索语句之后，可以首先分析该搜索语句为语音形式还是文字形式，若该搜索语句为语音形式，此时可以其进行语音识别，得到对应的文字形式，以便服务器20对文字形式的搜索语句进行处理。

服务器20为交互设备10对应的后台服务器，用于上线前对语料库中的语句进行聚类，对同一类别的语句确定统一的响应结果。具体的，服务器20首先确定语料库中的各候选语句的召回结果，然后基于每个候选语句与其对应的召回结果的语义相似度进行聚类，最后为聚类结果中的每一个类别设置统一的响应结果。服务器20还用于上线后对交互设备10传入的搜索语句进行响应。

搜索服务器30中存储有语料库，用于对服务器20传入的候选语句中进行召回，并返回召回结果。本申请不对搜索服务器采用的召回算法进行限定，例如可以采用倒排索引算法，当然，为了提高召回效率和精度，本申请中的搜索服务器30优选为ES(ElasticSearch，一个基于Lucene的搜索服务器)，由于其内置bm25算法(一种基于概率检索模型、评价搜索词和文档之间相关性的算法)，召回速度快、精度高。

本申请实施例公开了一种语句处理方法，提高了语料库中语句聚类的准确度。

参见图2，本申请实施例提供的一种语句处理方法的流程图，如图2所示，包括：

S101：服务器向搜索服务器发送语料库中的每个候选语句；

在本步骤中，服务器将语料库中的所有候选语句依次发送至搜索服务器，以得到每个候选语句对应的召回结果。

S102：搜索服务器对每个所述候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；

本步骤的目的在于确定各候选语句的召回结果，以减少后续聚类算法的匹配次数，降低聚类算法的时间复杂度。此处不对具体的召回算法进行限定，例如可以采用倒排索引算法，当然，为了提高召回效率和精度，优选为ES，由于其内置了bm25算法，可以提高召回效率和精度。

优选的，本步骤可以包括：去除语料库中的每个候选语句中的领域关键词，并将去除领域关键词后的候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果。在具体实施中，语料库中的各候选语句被标注为不同的领域，例如，十万个为什么、音乐、视频、天气、导航等领域。每个领域均对应表征该领域特性、其他领域的语句不具备的领域关键词，例如，十万个为什么领域的领域关键词为“为什么”，天气领域的领域关键词为“天气”，音乐领域的领域关键词为“播放”、“暂停”等。利用去除领域关键词后的候选语句进行召回，由于减少了候选语句中词语的数量，可以提高召回效率。

举例来说，对于候选语句“为什么企鹅不会飞”，去除领域关键词“为什么”，利用“企鹅不会飞”在整个语料库中进行召回，得到其对应的召回结果。

优选的，本步骤可以包括：确定语料库中的每个候选语句所属的领域，在每个所述候选语句所属的领域对应的候选语料中对每个所述候选语句进行召回，得到每个所述候选语句对应的召回结果。在具体实施中，每个领域在搜索服务器中存储有其对应的候选语料，搜索服务器可以基于候选语句所属领域对应的候选语料进行召回，召回的相似语句均为该领域的语句，相对于基于整个语料库进行召回，召回的效率和准确度更高。对应确定候选语句所属的领域的具体过程，此处不进行限定，例如可以根据候选语句中是否包含上述领域关键词确定所属领域，也可以利用分类模型进行确定，本领域技术人员可以根据实际情况灵活选择。

举例来说，对于候选语句“为什么企鹅不会飞”，确定其所属领域为十万个为什么领域，利用“为什么企鹅不会飞”在十万个为什么领域对应的候选语料中进行召回，得到其对应的召回结果。

当然也可以将上述两种优选实施方式进行结合，即确定语料库中的每个候选语句所属的领域，将去除领域关键词后的候选语句在每个候选语句所属的领域对应的候选语料中进行召回，得到每个候选语句对应的召回结果。

举例来说，对于候选语句“为什么企鹅不会飞”，去除领域关键词“为什么”，确定其所属领域为十万个为什么领域，利用“企鹅不会飞”在十万个为什么领域对应的候选语料中进行召回，得到其对应的召回结果。

S103：搜索服务器向服务器返回召回结果；

S104：服务器计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；

本步骤的目的在于计算每个候选语句与其对应的召回结果之间的语义相似度，以便后续步骤据此进行聚类。此处只需计算候选语句与其对应的召回结果之间的语义相似度，与相关技术中需要与整个语料库中的其他语句均进行匹配的方案相比，提高了匹配效率。

本实施例不对语义相似度具体的计算方法进行限定，例如，可以利用两个语句之间的词向量相似度表示两个语句之间的语义相似度。此处不对词向量的表示方法进行具体限定，例如，可以采用Word Embedding算法。现有的机器学习方法往往无法直接处理文本数据，因此需要找到合适的方法，将文本数据转换为数值型数据，由此引出了Word Embedding的概念。如果将词看作文本的最小单元，可以将Word Embedding理解为一种映射，其过程为将文本空间中的某个词，通过一定的方法、映射或嵌入(embedding)到另一个数值向量空间。当然，也可以采用Word2vec算法等，只要保证近义词的词向量相近且互为逆序的语句的词向量相近均在本实施例的保护范围内。此处也不对词向量的具体类型进行限定，例如，可以采用Glove词向量，其使用了超大规模的中文语料进行预训练。

优选的，本实施例可以利用Bert模型计算两个语句之间的语义相似度，即本步骤包括：利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度。

Bert模型在预训练阶段，采用了海量的无监督的中文语料，从中可以学到很多的语料特征知识，例如，所有近义词的关系。Bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。在本实施中，NLP任务具体为确定语句对中两个语句的语义相似度，具体的微调过程为：确定正样本语句对和负样本语句对；其中，所述正样本语句对中的两个语句属于相同的领域且包含相同的实体；利用所述正样本语句对和所述负样本语句对训练Bert模型得到所述训练完成的Bert模型。

整个语料库中的候选语句被划分为不同的领域，每个领域对应几个到几十个不等的意图。例如，音乐领域的意图包括播放、搜索歌曲名，搜索歌词，搜索专辑名等，每个意图对应有成千上万条的标注语料。在模型正负样本的构建过程中，遵循的原则为同领域同意图且参数一致为正样本语句对，否则为负样本语句对。

举例来说，对于音乐领域的播放意图下的三条候选语句：“播放刘德华的忘情水”、“我想听刘德华的忘情水”和“我想听刘德华的冰雨”，其对应的标注分别为“播放[singer]刘德华[singer]的[song]忘情水[song]”、“我想听[singer]刘德华[singer]的[song]忘情水[song]”和“我想听[singer]刘德华[singer]的[song]冰雨[song]”。第一条候选语句和第二条候选语句在参数类型([singer]和[song])和实体(刘德华、忘情水)都完全一致，因此第一条候选语句和第二条候选语句组成正样本语句对。而第一条候选语句和第三条候选语句在参数类型([singer]和[song])上是一致的，但是在实体上却不一致，第一条候选语句包含的实体为刘德华和忘情水，而第三条候选语句包含的实体为刘德华和冰雨，因此第一条候选语句和第三条候选语句组成负样本语句对。

在具体的训练过程中，负样本语句对的数量可以多于正样本语句对的数量，例如共构建了1.1亿的语句对，正、负样本语句对的比例为1:10，即1000万正样本语句对和1亿负样本语句对，利用这些语句对训练预先获取的预训练完成的Bert模型，得到适用于本实施例的Bert模型。

S105：服务器基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。

在本步骤中，服务器基于每个语句对中两个语句之间的语义相似度进行聚类。具体的，可以设定语义相似度的最小阈值，基于语义相似度不断迭代选择最相似，即将语义相似度最大的两个语句划分为同一类，直到聚类完成。当然，为了提高聚类效率，可以采用单路径层次聚类的方式，即按顺序处理各候选语句。将第一个候选语句作为已处理的语句，后续候选语句与已处理的文档簇进行语义相似性＝度计算，大于设定阈值则将其归为同一类，否则将其作为已处理的语句，直到最后一个候选语句处理完成即完成聚类。

聚类完成后，还可以对聚类结果进行人工的判定和筛选，对认定同一类的语句统一撰写标准答案，即响应结果，属于同一类别的语句均映射至统一的响应结果，完成后进行上线。

在本实施例中，由于服务器为交互设备的后台服务器，后续数据要入库的时候自动判别是否存在同类语句，存在则直接映射至该语句对应的已有的响应结果，不存在再进行新增，避免每次新增数据之后还需要重新进行k-means聚类。

本申请实施例提供的语句处理方法，首先在语料库中召回各候选语句的召回结果，使得在后续聚类过程中每个候选语句只需要与其对应的召回结果进行匹配，提高了语句处理效率。其次，基于各语句之间的语义相似度进行聚类，同时解决了因语序、近义词以及增加无关助词造成的聚类结果不准确，提高了语料库中语句聚类的准确度。由此可见，本申请实施例提供的语句处理方法，提高了语句处理效率和语料库中语句聚类的准确度。

本实施例介绍一种具体的语句聚类方法，以上述实施例中的服务器为执行主体进行介绍。具体的，如图3所示，上述实施例中的步骤S105可以包括：

S51：确定在阈值范围内的第一语义相似度对应的语句对为候选语句对，利用所述候选语句对构建语句关系图；

在本步骤中，为前述步骤计算的各语句对对应的语义相似度设置阈值范围，如(0.7,1)，即将语义相似度大于0.7小于1对应的语句对确定为候选语句对，此处不包括1是为了排除完全相同的两个语句组成的语句对，提高后续步骤的聚类效率。

在具体实施中，每个语句可以表示为一个节点，候选语句对可以表示为一条连线，所有候选语句对组成语句关系图。例如，候选语句对可以表示为：语句A——语义相似度——语句B。在语句关系图中，语义相似度在阈值范围内的两个语句之间存在连线，语义相似度在不阈值范围内的两个语句之间不存在连线。优选的，语句关系图可以存储至图形关系数据库neo4j中。

S52：对所述语句关系图进行图聚类得到聚类结果；其中，所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内。

在本步骤中，对上一步骤构建的语句关系图进行图聚类，即将之间存在连线的两个语句划分为同一类别。此处不对具体的图聚类算法进行限定，若该语句关系图存储于neo4j中，本步骤可以包括：利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果。并查集算法在作用为查找节点组，即本步骤中的同一类别，其中每个节点都可从同一组中的任何其他节点访问，而不考虑关系的方向。并查集算法提供近恒定时间操作(与输入大小无关)来添加新组、合并现有组以及确定两个节点是否位于同一组中。也就是说，利用并查集算法可以得到语句关系图中所有联通分量，即所有类别和各个类别中包含的语句。

由此可见，在本实施例中利用图聚类对语料库中的各候选语句进行聚类，可以自动识别类别数量，与相关技术中的k-means算法需要人为指定类别数量的方案相比，聚类准确度较高。

本申请实施例公开了一种语句处理方法，同样以服务器为执行主体进行介绍，相对于第一个实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图4，本申请实施例提供的另一种语句处理方法的流程图，如图4所示，包括：

S201：对语料库中的每个候选语句在所述语料库中进行ES召回，得到每个所述候选语句对应的召回结果；

在本实施例中，采用ES对候选语句进行召回，提高了召回效率。

S202：计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；

S203：确定在阈值范围内的第一语义相似度对应的语句对为候选语句对，利用所述候选语句对构建语句关系图；

S204：利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果；其中，所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内。

S205：确定所述聚类结果中每个类别的响应结果。

由此可见，在本实施例中，首先在语料库中进行ES召回得到各候选语句的召回结果，召回效率较高，且使得在后续聚类过程中每个候选语句只需要与其对应的召回结果进行匹配，提高了语句处理效率。其次，基于各语句之间的语义相似度进行聚类，同时解决了因语序、近义词以及增加无关助词造成的聚类结果不准确，提高了语料库中语句聚类的准确度。另外，利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果，图聚类可以自动识别类别数量，与相关技术中的k-means算法需要人为指定类别数量的方案相比，聚类准确度较高。

本实施例公开了一种搜索语句的响应方法，具体的：

参见图5，本申请实施例提供的另一种语句处理方法的流程图，如图5所示，包括：

S301：交互设备向服务器发送搜索语句；

在本步骤中，交互设备获取用户通过语音或文字形式输入的搜索语句，对于语音形式的搜索语句对其进行语音识别得到文字形式的搜索语句，发送至对应的服务器。

S302：服务器将所述搜索语句发送至搜索服务器；

S303：搜索服务器在语料库中确定所述搜索语句对应的召回结果；

S304：搜索服务器向服务器返回召回结果；

S305：服务器计算所述搜索语句与每个所述召回结果之间的语义相似度作为第二语义相似度；

S306：服务器基于所述第二语义相似度确定所述搜索语句所属的目标类别和所述目标类别对应的响应结果；

S307：服务器向交互设备返回所述响应结果。

在具体实施中，若存在在阈值范围内的语义相似度，则判定搜索语句在语料库中存在同类项，直接映射到已有的响应结果中即可，即目标类别对应的响应结果。具体可以选取语义相似度的最大值，确定该语义相似度对应的召回结果，返回该召回结果对应的响应结果，也可以在阈值范围内的语义相似度对应的召回结果中随机选择，将选择的召回结果对应的响应结果作为该搜索语句的响应结果，在此不进行具体限定。

作为一种优选实施方式，本实施例还包括：若不存在所述目标类别，则获取所述搜索语句对应的目标响应结果，并将所述搜索语句加入所述语料库中，以便在所述语料库的聚类结果中增加所述搜索语句对应的类别。

在具体实施中，若所有召回结果与搜索语句的语义相似度均不满足阈值范围，则触发兜底逻辑。兜底逻辑指当常见的任务型技不能包含用户输入的搜索语句的意图时，采用qa(问答)或者chat(闲聊)的方式去回答，使得AI产品更加智能。记录详细的LOG日志，离线用脚本定时处理呈现没有召回结果的搜索语句。人工需要定时的去补充相关的问答对，即该搜索语句对应的目标响应结果。以实时提升语料库中数据量和响应质量。可以理解的是，增加的问答对中的问句，即没有召回结果的搜索语句，还需新增到语料库中，预设时间对语料库进程重新聚类，增加该搜索语句对应的目标类别，不断AI产品的响应能力，提高用户满意度。

由此可见，在本实施例中当接收到搜索语句时，自动判别是否存在同类语句，存在则直接映射至该语句对应的已有的响应结果，同时通过人工补充没有召回结果的搜索语句对应的响应结果，以实时提升语料库中数据量和响应质量。

为了便于理解，下面结合本申请的一种应用场景进行介绍。结合图1，交互设备10采集到用户的语音形式的搜索语句，对其进行语音识别得到文字形式的搜索语句“为什么企鹅不会飞”，将其发送至服务器20。

服务器20利用分类模型确定该搜索语句属于“十万个为什么”领域，在ES中确定该领域对应的候选语料，去除领域关键词“为什么”，将“企鹅不会飞”发送至ES。

ES在候选语料中利用“企鹅不会飞”进行召回，若存在召回结果，则将其返回至服务器20。服务器20确定其中一个召回结果对应的响应结果，将该响应结果发送至交互设备10，交互设备10通过语音输出该响应结果。

下面对本申请实施例提供的一种语句处理装置进行介绍，下文描述的一种语句处理装置与上文描述的一种语句处理方法可以相互参照。

参见图6，本申请实施例提供的一种语句处理装置的结构图，如图6所示，包括：

召回模块601，用于对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果；

第一计算模块602，用于计算每个语句对中两个语句之间的语义相似度作为第一语义相似度；其中，每个所述语句对包括所述候选语句和所述候选语句对应的召回结果；

聚类模块603，用于基于所述第一语义相似度对所述语料库进行聚类得到聚类结果，并确定所述聚类结果中每个类别的响应结果。

本申请实施例提供的语句处理装置，首先在语料库中召回各候选语句的召回结果，使得在后续聚类过程中每个候选语句只需要与其对应的召回结果进行匹配，提高了语句处理效率。其次，基于各语句之间的语义相似度进行聚类，同时解决了因语序、近义词以及增加无关助词造成的聚类结果不准确，提高了语料库中语句聚类的准确度。由此可见，本申请实施例提供的语句处理装置，提高了语句处理效率和语料库中语句聚类的准确度。

在上述实施例的基础上，作为一种优选实施方式，所述召回模块601具体为去除语料库中的每个候选语句中的领域关键词，并将去除领域关键词后的候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果的模块。

在上述实施例的基础上，作为一种优选实施方式，所述召回模块601具体为确定语料库中的每个候选语句所属的领域，在每个所述候选语句所属的领域对应的候选语料中对每个所述候选语句进行召回，得到每个所述候选语句对应的召回结果的模块。

在上述实施例的基础上，作为一种优选实施方式，所述第一计算模块602具体为利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度的模块。

在上述实施例的基础上，作为一种优选实施方式，还包括：

确定模块，用于确定正样本语句对和负样本语句对；其中，所述正样本语句对中的两个语句属于相同的领域且包含相同的实体；

训练模块，用于利用所述正样本语句对和所述负样本语句对训练Bert模型得到所述训练完成的Bert模型。

在上述实施例的基础上，作为一种优选实施方式，所述聚类模块603包括：

构建单元，用于确定在阈值范围内的第一语义相似度对应的语句对为候选语句对，利用所述候选语句对构建语句关系图；

聚类单元，用于对所述语句关系图进行图聚类得到聚类结果；其中，所述聚类结果中同一类别中的任意两个语句之间的语义相似度均在所述阈值范围内；

确定单元，用于确定所述聚类结果中每个类别的响应结果。

在上述实施例的基础上，作为一种优选实施方式，所述聚类单元具体为利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果的单元。

在上述实施例的基础上，作为一种优选实施方式，还包括：

接收模块，用于当接收到搜索语句时，在所述语料库中确定所述搜索语句对应的召回结果；

第二计算模块，用于计算所述搜索语句与每个所述召回结果之间的语义相似度作为第二语义相似度；

返回模块，用于基于所述第二语义相似度确定所述搜索语句所属的目标类别，并返回所述目标类别对应的响应结果。

在上述实施例的基础上，作为一种优选实施方式，还包括：

加入模块，用于若不存在所述目标类别，则获取所述搜索语句对应的目标响应结果，并将所述搜索语句加入所述语料库中，以便在所述语料库的聚类结果中增加所述搜索语句对应的类别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种服务器，参见图7，本申请实施例提供的一种服务器70的结构图，如图7所示，可以包括处理器71和存储器72。

其中，处理器71可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器71可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器71可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器71还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器72可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器72还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器72至少用于存储以下计算机程序721，其中，该计算机程序被处理器71加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的测试监管方法中的相关步骤。另外，存储器72所存储的资源还可以包括操作系统722和数据723等，存储方式可以是短暂存储或者永久存储。其中，操作系统722可以包括Windows、Unix、Linux等。

在一些实施例中，终端70还可包括有显示屏73、输入输出接口74、通信接口75、传感器76、电源77以及通信总线78。

当然，图7所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图7所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例服务器所执行的语句处理方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语句处理方法，其特征在于，包括：

2.根据权利要求1所述语句处理方法，其特征在于，所述对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果，包括：

去除语料库中的每个候选语句中的领域关键词，并将去除领域关键词后的候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果。

3.根据权利要求1所述语句处理方法，其特征在于，所述对语料库中的每个候选语句在所述语料库中进行召回，得到每个所述候选语句对应的召回结果，包括：

确定语料库中的每个候选语句所属的领域，在每个所述候选语句所属的领域对应的候选语料中对每个所述候选语句进行召回，得到每个所述候选语句对应的召回结果。

4.根据权利要求1所述语句处理方法，其特征在于，所述计算每个语句对中两个语句之间的语义相似度作为第一语义相似度，包括：

5.根据权利要求4所述语句处理方法，其特征在于，所述利用训练完成的Bert模型计算每个语句对中两个语句之间的语义相似度作为第一语义相似度之前，还包括：

确定正样本语句对和负样本语句对；其中，所述正样本语句对中的两个语句属于相同的领域且包含相同的实体；

利用所述正样本语句对和所述负样本语句对训练Bert模型得到所述训练完成的Bert模型。

6.根据权利要求1所述语句处理方法，其特征在于，所述基于所述第一语义相似度对所述语料库进行聚类得到聚类结果包括：

7.根据权利要求6所述语句处理方法，其特征在于，对所述语句关系图进行图聚类得到聚类结果，包括：

利用neo4j的并查集算法对所述语句关系图进行图聚类得到聚类结果。

8.根据权利要求1至7中任一项所述语句处理方法，其特征在于，还包括：

9.根据权利要求8所述语句处理方法，其特征在于，还包括：

若不存在所述目标类别，则获取所述搜索语句对应的目标响应结果，并将所述搜索语句加入所述语料库中，以便在所述语料库的聚类结果中增加所述搜索语句对应的类别。

10.一种语句处理装置，其特征在于，包括：

11.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述语句处理方法的步骤。