CN110377706A

CN110377706A - 基于深度学习的搜索语句挖掘方法及设备

Info

Publication number: CN110377706A
Application number: CN201910675854.2A
Authority: CN
Inventors: 周辉阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-25
Anticipated expiration: 2039-07-25
Also published as: CN110377706B

Abstract

本发明公开了一种基于深度学习的搜索语句挖掘方法、装置、计算机设备及存储介质，属于网络技术领域。本发明提供的技术方案，通过按照第二目标领域的一些领域条件，对属于第一目标领域的原始搜索语句进行筛选，并基于筛选结果进一步的过滤掉不关注的语句，再进一步采用扩充和再次筛选的方式来从另一个维度提高语句数量和质量，从而再确定需要进行人工提交答案的搜索语句，不仅大大降低了人工成本，而且还能够在扩充了搜索语句本身的同时，大大提高数据质量。

Description

基于深度学习的搜索语句挖掘方法及设备

技术领域

本发明涉及网络技术领域，特别涉及一种基于深度学习的搜索语句挖掘方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的发展，用户对人机对话服务的需求越来越高。在人机对话服务中，关键的一个环节在于问答对的数量和质量一直是我们关心的核心问题，该问答对也即是搜索语句和答案。

目前的搜索语句来源一般是海量抓取网络上的已有问答对，然后对其进行数据清洗，再进行搜索语句召回，再对召回的搜索语句进行人工审核，然而，通过这种方式不仅人工成本高昂，且得到的搜索语句包括了很多脏数据，质量很差。

发明内容

本发明实施例提供了一种基于深度学习的搜索语句挖掘方法、装置、计算机设备及存储介质，解决了现有挖掘的人工成本高以及语句质量差的问题。所述技术方案如下：

一方面，提供了一种基于深度学习的搜索语句挖掘方法，所述方法包括：

获取属于第一目标领域的多个原始搜索语句；

根据多个第二目标领域的实体词，从多个所述原始搜索语句中筛选出多个第一搜索语句，每个所述第一搜索语句至少对应于一个所述第二目标领域的实体词；

将所述多个第一搜索语句输入分类器，通过所述分类器，从所述多个第一搜索语句中筛选出多个第二搜索语句，每个所述第二搜索语句符合对应领域的领域条件且不属于所述第一目标领域；

对所述多个第二搜索语句进行扩充，得到多个第三搜索语句；

从所述多个第三搜索语句筛选出符合对应领域的领域条件的多个第四搜索语句；

基于所述多个第四搜索语句，确定目标搜索语句，所述目标搜索语句为需要提交询问答案的搜索语句。

一方面，提供了一种基于深度学习的搜索语句挖掘装置，所述装置包括：

获取模块，用于获取属于第一目标领域的多个原始搜索语句；

第一筛选模块，用于根据多个第二目标领域的实体词，从多个所述原始搜索语句中筛选出多个第一搜索语句，每个所述第一搜索语句至少对应于一个所述第二目标领域的实体词；

第二筛选模块，用于将所述多个第一搜索语句输入分类器，通过所述分类器，从所述多个第一搜索语句中筛选出多个第二搜索语句，每个所述第二搜索语句符合对应领域的领域条件且不属于所述第一目标领域；

语句扩充模块，用于对所述多个第二搜索语句进行扩充，得到多个第三搜索语句；

第三筛选模块，用于从所述多个第三搜索语句筛选出符合对应领域的领域条件的多个第四搜索语句；

确定模块，用于基于所述多个第四搜索语句，确定目标搜索语句，所述目标搜索语句为需要提交询问答案的搜索语句。

在一种可能实现方式中，所述第一筛选模块用于对于每个所述原始搜索语句，判断所述原始搜索语句中是否包括所述多个第二目标领域中任一第二目标领域的实体词，如果是，则将所述原始搜索语句确定为所述第一搜索语句，如果否，则将所述原始搜索语句丢弃。

在一种可能实现方式中，所述分类器包括第一级分类器和第二级分类器，所述第一级分类器基于作为正样本的所述第二目标领域的搜索语句和作为负样本的其他领域的搜索语句训练得到，所述第二级分类器基于作为正样本的所述第二目标领域的搜索语句和作为负样本的包含所述第二目标领域的关键词且属于所述第一目标领域的搜索语句训练得到；

所述第二筛选模块用于将所述多个第一搜索语句输入所述第一级分类器，通过所述第一级分类器筛选出符合对应领域的领域条件的中间搜索语句；将所述中间搜索语句输入所述第二级分类器，通过所述第二级分类器筛选出包含所述第二目标领域的关键词且属于所述第一目标领域的多个第二搜索语句。

在一种可能实现方式中，所述语句扩充模块用于分别对所述多个第二目标领域的实体词和所述多个第二目标领域的关键词进行拼接，得到多个部分搜索语句；基于所述多个部分搜索语句，调用目标功能接口，以得到所述多个部分搜索语句的补全搜索语句；将所述多个部分搜索语句的补全搜索语句添加至所述多个第二搜索语句，得到所述多个第三搜索语句。

在一种可能实现方式中，所述第三筛选模块用于按照所述多个第二目标领域的多个部分搜索语句，从所述多个第三搜索语句中筛选除包括对应第二目标领域中任一部分搜索语句的第四搜索语句。

在一种可能实现方式中，所述装置还包括：

完整性检测模块，用于检测所述多个第四搜索语句的语义完整性，当任一第四搜索语句的语义完整性不符合完整性要求，将所述第四搜索语句丢弃。

在一种可能实现方式中，所述确定模块包括：

聚类单元，用于对所述多个第四搜索语句进行聚类，得到多个类，每个类中包括至少一个第四搜索语句；

确定单元，用于将每个类的聚类中心对应的第四搜索语句确定为目标搜索语句。

在一种可能实现方式中，所述聚类单元用于：

分别提取所述多个第四搜索语句的关键词；

基于所述多个第四搜索语句的关键词，确定所述多个第四搜索语句中两两之间的相似度；

基于所述相似度，确定目标图，所述目标图中的一个图节点代表一个第四搜索语句，图节点之间的连线用于表示两个第四搜索语句之间的相似度大于目标相似度；

将所述目标图中的最小关联子图代表的多个第四搜索语句分为一类。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如上述的基于深度学习的搜索语句挖掘方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如上述的基于深度学习的搜索语句挖掘方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少可以包括：

本发明实施例提供的方法，通过按照第二目标领域的一些领域条件，对属于第一目标领域的原始搜索语句进行筛选，并基于筛选结果进一步的过滤掉不关注的语句，再进一步采用扩充和再次筛选的方式来从另一个维度提高语句数量和质量，从而再确定需要进行人工提交答案的搜索语句，不仅大大降低了人工成本，而且还能够在扩充了搜索语句本身的同时，大大提高数据质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的人机对话服务系统100的结构框图；

图2是本发明实施例提供的一种基于深度学习的搜索语句挖掘方法的流程图；

图3是本发明实施例提供的一种基于深度学习的搜索语句挖掘方法的示例性流程图；

图4是本发明实施例提供的一种基于深度学习的搜索语句挖掘装置的结构示意图；

图5是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术，具体通过如下实施例进行说明：

图1示出了本申请一个示例性实施例提供的人机对话服务系统100的结构框图。该人机对话服务系统100包括：终端110和人机对话服务平台140。

终端110通过无线网络或有线网络与人机对话服务平台110相连。终端110可以是固定终端或是移动终端，例如，移动终端可以为智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持人机对话服务的应用程序。该应用程序可以是导航程序、社交应用程序、即时通讯应用程序、信息分享程序中的任意一种。示意性的，终端110是用户使用的终端，终端110中运行的应用程序内可以登录有用户账号。

终端110通过无线网络或有线网络与人机对话服务平台140相连。

地图服务平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。可选地，人机对话服务平台140包括：人机对话服务器、问答对数据库以及用户信息数据库。人机对话服务器用于提供终端110提供人机对话服务。人机对话服务器可以是一台或多台。当人机对话服务器是多台时，存在至少两台人机对话服务器用于提供不同的人机对话服务，和/或，存在至少两台人机对话服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。该问答对数据库用于存储人机对话服务平台的问答对，该用户信息数据库用于提供用户的相关信息，以便后续为终端提供个性化的服务功能。当然，该人机对话服务平台140还可以包括其他功能服务器，以便提供更全面且多样化的服务。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述地图服务系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

下面首先对本发明实施例涉及到的一些名词进行解释：

实体：指表示一个概念的基本单位。

问答对：也称为QA，就是一问一答，回答用户的每一个问题。

分类器，也即是模型，是基于深度学习训练得到，可以用于预测语料属于某个领域、意图的分类器。

BERT(Bidirectional Encoder Representations from Transformer)模型：BERT模型的目标是利用大规模无标注语料训练、获得文本的语义表示，然后，将文本的语义表示在特定NLP(Natural Language Processing，自然语言处理)任务中作微调，最终应用于该NLP任务。

Query：用户的搜索语句，也可以称为用户的搜索语句，该Query可以包含用户的语音、文字、图片输入等形式。

Chat：闲聊，指的是用户说的无特别意图的话。

图2是本发明实施例提供的一种基于深度学习的搜索语句挖掘方法的流程图，该挖掘方法可以应用于作为服务器的计算机设备上，参见图2，该方法包括：

201、计算机设备获取属于第一目标领域的多个原始搜索语句。

该第一目标领域是指闲聊(chat)或者未知(default)领域，对于人机对话系统来说，其可以对当前搜索语句的领域进行识别，从而确定如何回复，对于一些搜索语句，其内容被识别为闲聊，或者由于无法匹配到任一已知领域，而被识别为未知领域，对于这类搜索语句，为了提高人机对话的智能性，提升用户的人机对话体验，需要为这类搜索语句设置对应的答案信息，以保证人机对话顺畅进行。

在该步骤201中，计算机设备可以对人机对话系统的线上日志进行挖掘，将属于上述第一目标领域的原始搜索语句(query)筛选出来。在一种可能实现方式中，该筛选过程可以通过spark计算引擎来实现。

202、对于每个该原始搜索语句，计算机设备判断该原始搜索语句中是否包括该多个第二目标领域中任一第二目标领域的实体词，如果是，则将该原始搜索语句确定为该第一搜索语句，如果否，则将该原始搜索语句丢弃。

对于属于第一目标领域的多个原始搜索语句来说，其有些可能确实是闲聊类的查询，那么，需要对于关注领域相关的搜索语句进行语料召回，而筛选掉不关注的领域的搜索语句，因此，可以基于多个所关注的第二目标领域的实体词来进行搜索语句的筛选。

以第二目标领域为“十万个为什么”为例，其领域的实体词可以为“为什么”，基于上述步骤202的实现，可以将原始搜索语句中包括“为什么”的搜索语句召回，示例如下：“为什么吸烟有害健康”“为什么人们屋前不种桑树”“叶子为什么会落叶”“为什么红酒要醒酒”“为什么百香果不开花”“为什么万钧剑”“为什么万达没有复联”“为什么头疼”等等。

上述步骤202是根据多个第二目标领域的实体词，从多个该原始搜索语句中筛选出多个第一搜索语句的过程，其中，通过筛选所得到的每个该第一搜索语句至少对应于一个该第二目标领域的实体词。该对应可以是指搜索语句包括实体词本身或者实体词的近义词或同义词等，本发明实施例对此不做限定。

203、计算机设备将该多个第一搜索语句输入该第一级分类器，通过该第一级分类器筛选出符合对应领域的领域条件的中间搜索语句。

其中，该第一级分类器基于作为正样本的该第二目标领域的搜索语句和作为负样本的其他领域的搜索语句训练得到。该第一级分类器可以用于初步筛选，以得到符合领域条件的中间搜索语句。

仍然以第二目标领域为“十万个为什么”为例，对于该领域来说，可以将该领域的搜索语句作为正样本，以其他领域(例如音乐、天气等)的搜索语句作为负样本，训练得到第一类分类器，用以筛选出符合“十万个为什么”领域的领域条件的第一级分类器。

204、计算机设备将该中间搜索语句输入该第二级分类器，通过该第二级分类器筛选出包含该第二目标领域的关键词且属于该第一目标领域的多个第二搜索语句。

为了能够进一步筛选掉包含领域关键词但是属于闲聊的搜索语句，避免这类搜索语句的干扰，本发明实施例还进一步提供了第二级分类器。该第二级分类器基于作为正样本的该第二目标领域的搜索语句和作为负样本的包含该第二目标领域的关键词且属于该第一目标领域的搜索语句训练得到；该第二级分类器可以用于精细筛选，以过滤掉属于闲聊的搜索语句以及语句本身无意义但是包含领域关键词的query搜索语句，例如，以“十万个为什么”领域为例，可以过滤掉“为什么万钧剑”“为什么万达没有复联”“为什么头疼”等语句。

其中，对于同一个第二目标领域，该第二级分类器的正样本与上述第一级分类器的正样本均为该第二目标领域的搜索语句，而第二级分类器的负样本则于第一级分类器的负样本不同，其主要包括属于闲聊的搜索语句以及一些人工标注的关键词，这类关键词可以为主观词，以使得第二级分类器能够过滤掉一些无意义的搜索语句，例如，关键词可以为不好吃、贵、便宜等主观词，过滤掉的搜索语句可以为“为什么米饭不好吃”“为什么鱼很贵”“为什么矿泉水这么便宜”，而通过筛选所得到的搜索语句则是包含第二目标领域的关键词且有意义的搜索语句。例如，“为什么吸烟有害健康”“为什么人们屋前不种桑树”“叶子为什么会落叶”“为什么红酒要醒酒”“为什么百香果不开花”。

上述步骤203至204是将该多个第一搜索语句输入分类器，通过该分类器，从该多个第一搜索语句中筛选出多个第二搜索语句的过程，其中，以分类器为两级分类器，也即是，分类器包括第一级分类器和第二级分类器为例进行说明，每个该第二搜索语句符合对应领域的领域条件且不属于该第一目标领域。在一种可能实现方式中，上述分类器可以采用Bert模型实现，也即是，其中第一级分类器和第二级分类器分别可以采用Bert模型实现。

需要说明的是，在本发明实施例中，可以基于各个第二目标领域分别进行第一级分类器和第二级分类器的训练，以便对各个第二目标领域的搜索语句进行初步筛选和精细筛选，以降低语料数量，提高语料的质量。

205、计算机设备分别对该多个第二目标领域的实体词和该多个第二目标领域的关键词进行拼接，得到多个部分搜索语句。

对于各个第二目标领域来说，其均设置有对应的实体词和关键词，例如“十万个为什么”这个领域，关键词可以设置为“为什么”、“为啥”以及“为何”等，候选的实体词可以包括动物、植物、天文、历史、国旗、体育、食材以及艺术等类别的词，通过对每个第二目标领域的实体词和关键词进行拼接，可得到该第二目标领域的参考搜索语句。其拼接规则可以为：关键词+实体词，或，实体词+关键词，由于这些拼接得到的语句不是完整的搜索语句，因此在本发明实施例中称为部分搜索语句，拼接出来的部分搜索语句可以为“为什么秋葵”，“秋葵为什么”，“为什么枸杞”。

206、计算机设备基于该多个部分搜索语句，调用目标资源接口，以得到该多个部分搜索语句的补全搜索语句。

通过上述拼接过程可以得到一些能够用于查询的部分搜索语句，以基于领域本身的角度来提供更多语料，基于这些部分搜索语句可以基于网络开放资源和/或网络授权资源，来对这些部分搜索语句进行补全，以得到能够更多的语料，例如，该网络开放资源可以为sugg等，该目标资源接口可以是该网络开放资源和/或网络授权资源的访问接口，当然，该网络开放资源和/或网络授权资源还可以是某个领域的资源，本发明实施例对此不做限定。在该步骤206中，可以根据第二目标领域，调用与第二目标领域对应的目标资源接口，以得到该第二目标领域的补全搜索语句。

207、计算机设备将该多个部分搜索语句的补全搜索语句添加至该多个第二搜索语句，得到该多个第三搜索语句。

该第三搜索语句包括了基于第二目标领域所扩充得到的补全搜索语句和已有的多个第二搜索语句，对已有的第二搜索语句进行扩充，从第二目标领域的角度，进一步扩充语料的数量，达到数据全面的目的，提高语料的覆盖程度。

需要说明的是，上述步骤205至206的过程可以在开始进行挖掘后的任一时刻进行，只要在步骤208之前将补全搜索语句添加至已有第二搜索语句中即可，本发明实施例对其实现时机不做限定。

208、计算机设备按照该多个第二目标领域的多个部分搜索语句，从该多个第三搜索语句中筛选出包括对应第二目标领域中任一参考搜索语句的第四搜索语句。

其中，参考搜索语句为搜索语句属于某个第二目标领域的领域条件。对于上述扩充所得到的搜索语句来说，为了避免扩充时增加了一些不关注的语句，则本发明实施例还可以对该多个第三搜索语句进行进一步筛选，以得到符合领域条件的搜索语句，例如，该符合领域条件可以是指召回的搜索语句本身包含了目标领域的参考搜索语句，或者召回的搜索语句包含关键词和相关实体。例如，对于“为什么秋葵”这个部分搜索语句，返回的补全搜索语句应包含该第二目标领域的参考搜索语句，返回的补全搜索语句应同时包含“为什么”和“秋葵”。因此，针对十万个为什么领域中的“为什么秋葵”，可以通过筛选得到如下搜索语句：“为什么秋葵有粘液”，“为什么秋葵那么难吃”，“为什么秋葵有点苦”等。

通过上述步骤208的筛选，可以从该多个第三搜索语句筛选出符合对应领域的领域条件的多个第四搜索语句，避免由于扩充搜索语句所带来的一些多余信息，通过筛选来提高语料质量。其中，该步骤208是以领域条件为参考搜索语句为例进行说明的，该领域条件还可以是其他条件，本发明实施例对此不做限定。

209、计算机设备检测该多个第四搜索语句的语义完整性，当任一第四搜索语句的语义完整性不符合完整性要求，将该第四搜索语句丢弃。

该步骤209为可选步骤。为了避免搜索语句是不完整的表达，提高语料质量，可以对第四搜索语句进行语义表达的检测，以判断一句话是否完整，如果一句话不完整，则不是我们所关注的搜索语句。该语义完整性检测可以通过语义vad(Voice ActivityDetection，语音活动性检测)模型实现，该语义VAD模型可以是基于LSTM(Long Short-TermMemory，长短期记忆网络)结合注意力机制训练出的分类器，该训练过程可以采用各个领域的原始搜索语句作为正样本，采用去除了某些实体之后的搜索语句作为负样本。通过这类语义完整性检测后，可以筛选掉例如“为什么你在”，“为什么秋葵”，这类不完整的语句表达，从而通过筛选得到“为什么秋葵有粘液”，“为什么秋葵那么难吃”，“为什么秋葵有点苦”等语义表达完整的语句。

210、对该多个第四搜索语句进行分类，得到多个类，每个类中包括至少一个第四搜索语句。

为了降低人工撰写答案的工作量，对于一些相似的搜索语句可以撰写一个答案，因此，可以采用分类的方式，确定相似的搜索语句。需要说明的是，该分类算法可以采用任一种可以实现语句分类的算法，例如聚类算法，该聚类算法可以图聚类算法、k-means算法、主题模型聚类算法或密度聚类算法等等，又例如相似度算法等等。

本发明实施例不做具体限定。在一种可能实现方式中，该对该多个第四搜索语句进行聚类，得到多个类包括：分别提取该多个第四搜索语句的关键词；基于该多个第四搜索语句的关键词，确定该多个第四搜索语句中两两之间的相似度；基于该相似度，确定目标图，该目标图中的一个图节点代表一个第四搜索语句，图节点之间的连线用于表示两个第四搜索语句之间的相似度大于目标相似度；将该目标图中的最小关联子图代表的多个第四搜索语句分为一类。

其中，在关键词提取时可以采用文本摘要提取(TextRank4ZH)算法，在进行相似度计算时可以采用杰卡相似度算法，通过该杰卡相似度算法可以计算集合之间的相似度，该集合之间的相似度可以是集合之间的交集和并集之间的比值。上述目标相似度可以用于衡量相似度高低，以确定是否在图节点之间进行连线，从而表示搜索语句之间的相似程度。上述最小关联子图可以是neo4j(图形数据库)中的并查集，本发明实施例对此不做具体限定。

211、该计算机设备将每个类的类中心对应的第四搜索语句确定为目标搜索语句，该目标搜索语句为需要提交查询答案的搜索语句。

其中，类中心对应的第四搜索语句能够代表该类所表达的查询含义，因此可以通过该类中心对应的第四搜索语句来降低待处理的搜索语句数量。当分类算法采用聚类算法时，该类中心则是指聚类中心。

在一种可能实现方式中，还可以基于每个类的类中心对应的第四搜索语句进行筛选，例如，对于任一个人机交互服务来说，如果该人机交互服务没有选中所有领域，则基于该人机交互服务所得到的原始搜索语句中被分到第一目标领域的搜索语句也有可能本身属于某个第二目标领域，因此，可以再基于该人机交互服务未选中的领域进行筛选，以筛选出待处理的搜索语句。例如，上述“为什么秋葵有粘液”是能支持的搜索语句，因此在这一步中就会被过滤掉。这一步处理后剩下的搜索语句会是“为什么秋葵那么难吃”，“为什么秋葵有点苦”。

在一种可能实现方式中，还可以增加人工审核步骤，来快速的审核挖掘出来的搜索语句是否合理，例如，是否真的是十万个为什么领域的语料，在经过人工审核后，可以将审核结果作为标准反馈给分类器作为样本数据，例如，正样本加入正样本，不是十万个为什么领域的语料就加入负样本，以便通过循环的迭代会使得分类器的筛选越来越准确。

经过上述过程所得到的目标搜索语句，可以提交给供应商来撰写答案，当接收到供应商返回的答案时，可以经过验收并直接入库上线，以提供优质的人机交互服务。

参见图3所示的本发明的一个示例性实施例中，采用了基于BERT模型、sugg和图聚类结合来实现上述搜索语句挖掘方法，收集线上用户日志，由于用户日志是每天都在变化的数据源，因此，可以保证挖掘的持续性问题和不断新增。对收集到的用户日志进行挖掘，以得到线上日志中不能支持的搜索语句，例如被识别为闲聊的搜索语句，或者无法识别的搜索语句。然后，利用领域实体来进行搜索语句的初步召回，以确定领域的候选搜索语句，也即是第一搜索语句，再利用BERT模型的二次分类来进一步过滤，并利用对候选实体词进行拼接得到的“短搜索语句”，也即是部分搜索语句，结合sugg所提供的搜索语句资源来进行搜索语句的扩充，再基于一定规则进行过滤，并通过语义完整性检测和线上支持的检测，以解决数据的质量问题，整个流程涉及到的数据量很大，可用数据多，能快速的解决领域的建设和补充问题。最后采用图聚类的算法对搜索语句进行聚类，把相似的搜索语句聚类在一起，这样就不会导致相似的搜索语句重复编写，节省人力和财力。

图4是本发明实施例提供的一种基于深度学习的搜索语句挖掘装置的结构示意图。参见图4，该装置包括：

获取模块401，用于获取属于第一目标领域的多个原始搜索语句；

第一筛选模块402，用于根据多个第二目标领域的实体词，从多个所述原始搜索语句中筛选出多个第一搜索语句，每个所述第一搜索语句至少对应于一个所述第二目标领域的实体词；

第二筛选模块403，用于将所述多个第一搜索语句输入分类器，通过所述分类器，从所述多个第一搜索语句中筛选出多个第二搜索语句，每个所述第二搜索语句符合对应领域的领域条件且不属于所述第一目标领域；

语句扩充模块404，用于对所述多个第二搜索语句进行扩充，得到多个第三搜索语句；

第三筛选模块405，用于从所述多个第三搜索语句筛选出符合对应领域的领域条件的多个第四搜索语句；

确定模块406，用于基于所述多个第四搜索语句，确定目标搜索语句，所述目标搜索语句为需要提交询问答案的搜索语句。

在一种可能实现方式中，所述装置还包括：

在一种可能实现方式中，所述确定模块包括：

分类单元，用于对所述多个第四搜索语句进行分类，得到多个类，每个类中包括至少一个第四搜索语句；

确定单元，用于将每个类的分类中心对应的第四搜索语句确定为目标搜索语句。

在一种可能实现方式中，所述分类单元用于：

分别提取所述多个第四搜索语句的关键词；

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的基于深度学习的搜索语句挖掘装置在挖掘搜索语句时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于深度学习的搜索语句挖掘装置与挖掘方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备可以提供为服务器，该计算机设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的基于深度学习的搜索语句挖掘方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端中的处理器执行以完成上述实施例中的基于深度学习的搜索语句挖掘方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的搜索语句挖掘方法，其特征在于，所述方法包括：

获取属于第一目标领域的多个原始搜索语句；

2.根据权利要求1的方法，其特征在于，所述根据多个第二目标领域的实体词，从多个所述原始搜索语句中筛选出多个第一搜索语句包括：

对于每个所述原始搜索语句，判断所述原始搜索语句中是否包括所述多个第二目标领域中任一第二目标领域的实体词，如果是，则将所述原始搜索语句确定为所述第一搜索语句，如果否，则将所述原始搜索语句丢弃。

3.根据权利要求1的方法，其特征在于，所述分类器包括第一级分类器和第二级分类器，所述第一级分类器基于作为正样本的所述第二目标领域的搜索语句和作为负样本的其他领域的搜索语句训练得到，所述第二级分类器基于作为正样本的所述第二目标领域的搜索语句和作为负样本的包含所述第二目标领域的关键词且属于所述第一目标领域的搜索语句训练得到；

所述将所述多个第一搜索语句输入分类器，通过所述分类器，从所述多个第一搜索语句中筛选出多个第二搜索语句包括：

将所述多个第一搜索语句输入所述第一级分类器，通过所述第一级分类器筛选出符合对应领域的领域条件的中间搜索语句；将所述中间搜索语句输入所述第二级分类器，通过所述第二级分类器筛选出包含所述第二目标领域的关键词且属于所述第一目标领域的多个第二搜索语句。

4.根据权利要求1的方法，其特征在于，所述对所述多个第二搜索语句进行扩充，得到多个第三搜索语句包括：

分别对所述多个第二目标领域的实体词和所述多个第二目标领域的关键词进行拼接，得到多个部分搜索语句；

基于所述多个部分搜索语句，调用目标功能接口，以得到所述多个部分搜索语句的补全搜索语句；

将所述多个部分搜索语句的补全搜索语句添加至所述多个第二搜索语句，得到所述多个第三搜索语句。

5.根据权利要求1的方法，其特征在于，所述基于所述多个第四搜索语句，确定目标搜索语句之前，所述方法还包括：

检测所述多个第四搜索语句的语义完整性，当任一第四搜索语句的语义完整性不符合完整性要求，将所述第四搜索语句丢弃。

6.根据权利要求1的方法，其特征在于，所述基于所述多个第四搜索语句，确定目标搜索语句包括：

对所述多个第四搜索语句进行分类，得到多个类，每个类中包括至少一个第四搜索语句；

将每个类的聚类中心对应的第四搜索语句确定为目标搜索语句。

7.根据权利要求6的方法，其特征在于，所述对所述多个第四搜索语句进行分类，得到多个类包括：

分别提取所述多个第四搜索语句的关键词；

8.一种基于深度学习的搜索语句挖掘装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述终端包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于深度学习的搜索语句挖掘方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于深度学习的搜索语句挖掘方法所执行的操作。