CN110765244B

CN110765244B - 获取应答话术的方法、装置、计算机设备及存储介质

Info

Publication number: CN110765244B
Application number: CN201910883201.3A
Authority: CN
Inventors: 王健宗; 程宁; 于凤英
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-06-06
Anticipated expiration: 2039-09-18
Also published as: WO2021051521A1; CN110765244A

Abstract

本发明公开了获取应答话术的方法、装置、计算机设备及存储介质获取待识别的目标文本信息；将待识别的目标文本信息输入到ES数据库中进行检索，通过倒排索引得到与目标文本信息相似的候选文档集合；将候选文档集合中的每个候选文档与待识别的目标文本信息输入到相似度识别模型中，通过相似度识别模型输出每个候选文档与目标文本信息的相似度；每个候选文档对应一个意图；若目标候选文档与待识别的目标文本信息的相似度分值大于阈值，则确定目标候选文档所对应的目标意图；每个意图具有关联的应答话术；确定目标意图对应的目标应答话术；输出目标应答话术。本发明实施例中的方法，基于人工智能输出标准的应答话术，极大的提高了客服质量。

Description

获取应答话术的方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种获取应答话术的方法、装置、计算机设备及存储介质。

背景技术

大多数企业为了提高服务质量都设有客服部门，例如，互联网企业、金融服务企业、制造业等，人工客服可以通过语音或者文字交谈了解用户需求。

客服需要根据用户的语音或文字的交谈内容来判断其所需业务，并根据用户的反应和提出的问题进行进一步的判断回答。用户的语言表达能力及表达习惯均不同，因此传统的人工客服需要具有良好的表达能力去说明意图，优秀的逻辑思维能力理解用户的意图，才能做出正确的判断，如何说服用户，这些业务能力会根据人工客服自身的能力素质、训练时间和工作经验的不同有很大的区别，不同的客服的服务质量良莠不齐，可能造成人工客服整体服务质量较低。

发明内容

本发明实施例提供一种获取应答话术的方法、装置、计算机设备及存储介质，用于输出应答话术，提高客服质量。

第一方面，本发明实施例提供了一种获取应答话术的方法，包括：

获取待识别的目标文本信息；

将所述待识别的目标文本信息输入到ES数据库中进行检索，通过倒排索引得到与所述目标文本信息相似的候选文档集合；

将所述候选文档集合中的每个候选文档与所述待识别的目标文本信息输入到相似度识别模型中，通过所述相似度识别模型输出每个候选文档与所述目标文本信息的相似度；所述每个候选文档对应一个意图；

若目标候选文档与所述待识别的目标文本信息的相似度分值大于阈值，则确定所述目标候选文档所对应的目标意图；每个所述意图具有关联的应答话术；

确定所述目标意图对应的目标应答话术；

输出所述目标应答话术。

第二方面，本发明实施例提供了一种获取应答话术的装置，包括：

获取模块，用于获取待识别的目标文本信息；

检索模块，用于将所述获取模块获取的所述待识别的目标文本信息输入到ES数据库中进行检索，通过倒排索引得到与所述目标文本信息相似的候选文档集合；

相似度识别模块，用于将所述检索模块检索后得到的所述候选文档集合中的每个候选文档与所述待识别的目标文本信息输入到相似度识别模型中，通过所述相似度识别模型输出每个候选文档与所述目标文本信息的相似度；所述每个候选文档对应一个意图；

意图确定模块，用于当相似度识别模块确定的目标候选文档与所述待识别的目标文本信息的相似度分值大于阈值，确定所述目标候选文档所对应的目标意图；每个所述意图具有关联的应答话术；

应答话术确定模块，用于确定所述意图确定模块确定的所述目标意图所对应的目标应答话术；

输出模块，用于输出所述应答话术确定模块确定的所述目标应答话术。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种通信系统的场景示意图；

图2是本发明实施例中一种获取应答话术的方法的一个实施例的步骤流程示意图；

图3是本发明实施例中一种获取应答话术的方法的另一个实施例的步骤流程示意图；

图4是本发明实施例中一种获取应答话术的装置的一个实施例的结构示意图；

图5是本发明实施例中一种获取应答话术的装置的另一个实施例的结构示意图；

图6是本发明实施例中计算机设备的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种获取应答话术的方法，该方法可应用于一种通信系统，如图1所示，该通信系统包括服务器和终端，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；该终端包括但不限定于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。本发明实施例中一种获取应答话术的方法的执行主体以服务器为例进行说明。本申请实施例中，服务器获取待识别的目标文本信息；将所述待识别的文本信息输入到ES数据库中进行检索，通过倒排索引得到与目标文本信息相似的候选文档集合，缩小了检索范围，然后将候选文档集合中的每个候选文档与目标文本信息输入到相似度识别模型中，通过所述相似度识别模型输出每个候选文档与所述待识别的文本信息的相似度，提高了相似度识别模型的处理效率；若目标候选文档与目标文本信息的相似度分值大于阈值，则确定所述目标候选文档所对应的目标意图；基于正确的目标意图确定所述目标意图对应的目标应答话术，将该目标应答话术输出，基于人工智能输出标准的应答话术，极大了提高了客服质量。

请参阅图2所示，本发明实施例提供了一种获取应答话术的方法的一个实施例的流程示意图，该获取应答话术的方法可以具体包括如下步骤：

S101、获取待识别的目标文本信息。

服务器接收终端发送的语音信息或者文本信息，若服务器接收到终端发送的文本信息，则不需要转换；若终端发送的是语音信息，则可以将该语音信息转换为文本信息，然后对接收到的文本信息进行预处理，其中，该预处理包括对接收到的文本信息进行去重、去语气词和纠错等处理，得到该目标文本信息。

该终端可以为语音输出设备，例如固定电话，手机等。该终端也可以为智能终端设备，例如，智能手机、电脑、掌上电脑等。本申请实施例中，该终端可以以手机为例进行举例说明。

在一个应用场景中，服务器可以接收手机发送的语音信息，该语音信息可以为咨询信息，例如，服务器接收到用户通过电话发送的语音信息，该语音信息可以为“我想找一款保险，适合儿童的”。服务器接收到该语音信息，将该语音信息转换为对应的文本信息。将该文本信息进行预处理之后，得到该目标文本信息。

在另一个应用场景中，服务器还可以主动向手机呼出语音信息，例如，该语音信息可以为“您好，您是我们的VIP客户，我们现在正在举办回馈老客户活动，其中，A保险非常适合您”。然后，服务器会接收用户通过手机发送的语音信息，例如，该语音信息为“A保险是理财型的，还是消耗型的”，服务器可以将接收到的语音信息转换为待识别的文本信息。将该文本信息进行预处理之后，得到该目标文本信息。

S102、将所述待识别的目标文本信息输入到ES数据库中进行检索，通过倒排索引得到与所述目标文本信息相似的候选文档集合。

本申请实施例中的文档(Document)是指代表以文本形式存在的存储对象，涵盖多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再比如一封邮件，一条短信，一条微博也可以称之为文档。本申请实施例中的文档表征文本信息。

该ES数据库中预先存储了文档集合，该文档集合包括了大量的文档，该文档集合中可以包括多个子集合，不同的业务场景对应不同的子集合，例如寿险对应子集合A，该子集合A中对应存储寿险相关的文档，车险对应子集合B，子集合B中对应存储车险相关的文档。

ES(ElasticSearch)是一款分布式全文检索框架，底层基于Lucene实现，ES中包含多个字段，每个字段会有自己的倒排索引。首先，将该待识别的目标文本信息输入到ES数据库中，ES通过分词器将该待识别的目标文本信息按照一定规则切分为单词(如按照非字符切分，按照空格切分等等)，针对单词进行再加工，比如转小写、删除或新增等处理。

将待识别的目标文本信息进行分词，得到词序列，例如，该文档信息为“A保险是理财型的，还是消耗型的”，分词后的词序列为“A保险是理财型的，还是消耗型的”，然后提取该词序列中的关键词，例如，该关键词为“A保险”，“理财型”，“消耗型”

倒排索引：从单词的角度看，是单词到文档ID的关联关系，也就是说通过单词搜索到文档ID。

正排索引：从单词的角度看，是文档ID到文档内容、单词的关联关系，也就是说通过ID获取到文档的内容。

倒排索引项(Posting)主要包含如下的信息：

1、文档ID，用于获取该文档对应的信息。

2、单词频率，记录该单词在该文档中出现的次数。

3、位置，记录单词在文档中的分词位置。

倒排索引的检索流程为：在ES数据库中，每个文档都对应一个文档ID，文档内容被表示为一系列关键词的集合，在搜索引擎中，关键词也已经转换为关键词ID，例如，在本申请实施例中，待识别的文档经过分词，提取了m个关键词(单词)，首先根据单词倒排索引搜索到对应的文档ID，然后根据正排索引查询文档ID的完整内容，最后返回该文档ID对应的完整内容。

本申请实施例中，将待识别的目标文本信息进行分词后，得到单词序列，通过倒排索引检索单词序列所对应的文本ID，计算单词序列中每个单词在不同的文本ID所对应的文本中的单词频率，根据每个单词在对应的文本ID中位置的权重确定待识别的目标文本信息与候选文档的相似度，搜索出相似的候选文档，按照相似度从高到底的顺序选择预置数量的候选文档，例如TOP30条候选文档，该预置数量的候选文档组成候选文档集合。本申请实施例中，倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。然后可以快速搜索出与该待识别的目标文本信息相似的预置数量的文档。

S103、将所述候选文档集合中的每个候选文档与所述待识别的目标文本信息输入到相似度识别模型，得到每个候选文档与所述待识别的目标文本信息的相似度；

该相似度识别模型包括分词模型；该分词模型可以为隐马尔可夫模型(hidingmarkov model，HMM)。该分词模型是根据第一训练样本集对HMM模型进行训练得到的，该第一训练样本集包括的训练样本为分词后的词序列，且对词序列中的每个词进行标注，标注特征，例如该特征可以是词性、实体位置、上下文关系等。

该相似度识别模型还包括识别模型，该识别模型为逻辑回归(LogisticRegression，LR)模型，对于多维空间中存在的样本点，用特征的线性组合(特征加权)去拟合空间中点的分布和轨迹。该LR模型具有简单、高效、易于并行且在线学习(动态扩展)的优点。

有监督训练数据集(X，Y)，X表示特征，Y表示相似度，w表示该某一特征对应的权重，最终的线性模型如下：

Y＝w₀+w₁x₁+w₂x₂+…+w_nx_n 公式1；

该识别模型是通过LR模型学习第二样本数据集得到的，该第二样本数据集中每一个样本包括一个语料对，及该语料对的相似度；该语料对包括第一语料和第二语料，将第一语料进行分词，得到第一词序列；将第二语料进行分词，得到第二词序列；将第一词序列转换成第一词向量序列，将第二词序列转换成第二词向量序列，计算第一词向量序列和第二词向量序列之间的距离，该距离用于指示第一语料和第二语料之间的相似度；提取第一词序列的特征及特征值，提取第二词序列的特征及特征值，该特征包括但不限定于词性、词义、上下文关系、句子成分(主语、谓语、宾语等)、类别(如字、词组、成语等)等。将每个样本特征向量和相似度输入到上述公式1进行训练，得到上述模型中的参数w。得到训练好的相似度识别模型。

将每个候选文档与待识别的目标文本信息输入到已训练好的相似度识别模型中，得到每个候选文档与待识别的目标文本信息的相似度的具体方法可以为:

首先，通过分词模型对目标文本信息进行分词，得到第一词序列，且该第一词序列中的每个单词可以标注特征，及每个特征对应的特征值；通过该分词模型对每个候选文档进行分词，得到第二词序列，该第二词序列中的每个单词可以标注特征,及每个特征对应的特征值。

然后，将第一词序列和第二词序列输入到识别模型，确定每个特征对应的特征向量。

该识别模型计算在第一词序列和第二词序列中的相同位置对应的特征的相似度。例如，第一词序列为：我想了解一款儿童险；第二词序列为：我想知道儿童险的作用。在每个位置得到该位置上对应的词的词性如下表示例：

位置

1

2

3

4

5

6

7

第一词序列

我

想

了解

一款

儿童险

。

0

词性

代词

动词

数量词

名词

分隔符

补位

第二词序列

我

想

知道

儿童险

的

作用

。

词性

代词

动词

名词

虚词

名词

分隔符

由上表所示，在位置1，第一词序列中的特征(词性)对应的特征值为代词，第二词序列中的特征(词性)对应的特征值为代词，特征(词性)对应的特征值相似，关联度为1；同理，位置2，位置3和位置4，特征(词性)对应的特征值相似，关联度为1；位置5，特征(词性)对应的特征值相似，关联度为0；后续不一一举例，每个位置的第一特征(如词性)对应特征值的关联度组成第一特征向量，即为x₁；每个位置的第二特征(如实体位置)对应特征值的关联度组成第二特征向量，即为x₂；每个位置的第n特征对应特征的关联度组成第n特征向量，即为x_n。

最后，可以根据每个特征向量，及每个特征对应的权重，输出目标文本信息与候选文档的相似度。

将x₁，x₂，。。。x_n输入到上述公式1中，得到目标文本信息与候选文档的相似度。

可选的，候选文档经过分词模型分词后，单词的数量为预置数量，例如，该数量可以为6个、7个、或8个等，具体的数量不限定，该预置数量是根据经验得到的，例如，在对话中，通常7个特征词就可以表明一句话的语义，因此，在ES库中存储的候选文档可以是经过筛选特征词处理之后的文档。例如，一个语料，“我想知道儿童险的作用”，可以通过词频、信息增益等方法对该语料进行处理，只保留上述语料中的特征词，处理之后的语料为“儿童险作用”，很明显，仅通过处理之后的语料就可以表明该语料的语义。同理如果第一词序列(待识别的目标文本信息)也进行筛选特征词处理之后，再进行相似度计算，第一词序列保留与第二词序列相同数量的特征词之后，再计算第一词序列和第二词序列之间的相似度，可以有效的降低数据处理维度，提高速率。

在通过分词模型对目标文本信息进行分词，得到第一词序列；分词模型对候选文档进行分词，得到第二词序列的步骤之后，在将第一词序列和第二词序列输入到识别模型，确定每个特征对应的特征向量步骤之前，所述方法还可以包括如下步骤：

若第一词序列中包含的单词的数量大于门限，则在第一词序列中选取预置数量的特征词，将该预置数量的特征词作为输入到识别模型中的第一词序列，该第一词序列中的特征词的数量与该第二词序列中的单词的特征词数量相同。

选取特征词的方法包括但不限于基于信息增益的方式和基于词频的方式。其中，信息增益是指某一个特征词在整个文档中能够带来的信息量，通过能够带来的信息量来衡量该特征词的重要性。词频是指某一个词在整个文档中出现的频率，出现的频率越大，可能该特征词在整个文档中的重要性越大。

本实施例中，首先可以通过ES数据库通过倒排索引检索，提高检索速度，检索出与待处理的目标文本信息相近似的候选文档集合，该候选文档集合包括预置数量的候选文档，极大的减少了候选文档的数量，提高了相似度识别模型的目标文本信息和候选文档集相似度的识别效率。

S104、若目标候选文档与所述待识别的目标文本信息的相似度大于阈值，则确定所述目标候选文档所对应的目标意图。

该目标候选文档为在候选文档集合中与目标文本信息的相似度大于阈值的候选文档，该目标候选文档的数量并不限定，该目标候选文档的数量可以为1个，也可以为多个(本实施例中的多个包括2个及以上)，本示例中，以该目标候选文档为1个进行举例说明。每个候选文档均会对应一个意图，该意图与候选文档关联存储；该意图可以包括但不限定于主体信息字段和状态字段。例如，一个候选文档为：我想要了解儿童险。其中，该主体信息字段用于指示需求，在该例子中，该主体信息字段指示“儿童险”；该状态字段用于指示“是”或“否”，在该示例中，需要了解为“是”，不需要了解为“否”，综上，该候选文档对应的意图为：儿童险-是。

该阈值可以为0.6、0.7或0.8等，本示例中，该阈值可以以0.7为例进行说明。若目标候选文档(我想了解儿童险)与目标文本信息的相似度大于0.7，则确定该目标候选文档所对应的目标意图(如，儿童险-是)。

S105、确定所述目标意图对应的目标应答话术；每个所述意图具有关联的应答话术。

对每个意图关联至少一个应答话术，该应答话术是根据经验预先存储的。例如，意图为：儿童险-是，意图中的状态指示“是”，表明客户“需要”，主体信息指示“儿童险”，关联的应答话术的主要目的是说明儿童险，应答话术需要重点说明儿童险的作用，费用等等。若意图为：儿童险-否，表明客户“不需要”，主体信息指示“儿童险”，关联的应答话术的主要目的可以为：第一种话术，重点说明儿童险的优势，希望客户对儿童险有正确的理解。第二种话术，扩大险种范围，险种举例，并简要说明每种险适用人群，询问客户需要哪个险种。

S106、输出所述目标应答话术。

向终端发送该目标应答话术。输出该目标应答话术的方式可以是语音输出，也可以是文字输出，此处并不限定。

若目标意图关联一个目标应答话术，则输出该目标应答话术；若目标意图关联了至少两个目标应答话术，则可以按照预先设置的应答话术的优先级，确定优先输出哪个应答话术。或者，获取终端所属客户的客户信息，根据客户信息选择应答话术，例如，该客户为VIP客户，已婚，且已经购买过其他险种，没有购买儿童险的记录，那么选择第一种应答话术作为目标应答话术输出。

进一步的，S107、若所述标候选文档与所述待识别的目标文本信息的相似度小于或者等于所述阈值，将所述待识别的目标文本信息输入到断句模型中，通过所述断句模型输出断句后的文本信息；所述断句后的文本信息作为待识别的目标文本信息。

若候选文档集合中的所有候选文档与该待识别的目标文本信息的相似度均小于或者等于0.7，则表明可能由于目标文本信息的长度过长，影响相似度识别模型识别的准确率，则将待识别的目标文本信息输入到断句模型中，通过该断句模型对该目标文本信息进行断句，将断句后的文本信息作为待识别的目标文本信息，将该待识别的目标文本信息输入到ES数据中进行检索，重复执行步骤S20-S60。

可选的，该断句模型为长短期记忆网络(Long Short-Term Memory，LSTM)和条件随机场模型(conditional random field algorithm,CRF)的组合模型,通过所述断句模型输出断句后的文本信息，包括：

首先，将所述待识别的目标文本信息输入到所述LSTM中，通过LSTM对目标文本信息中的每个词进行特征标注，得到具有特征标注的目标文本信息；该LSTM是通过对样本集进行训练得到的，该样本集中包括多个具有特征标注的语料。

LSTM(Long Short Term Memory)，是一种特殊类型的RNN(循环神经网络)，能够学习长期的依赖关系。本示例中的LSTM模型用于对待识别的目标文本进行特征标注，本示例中的特征标注包括但不限于词性标注、句子成分标注和实体识别。本示例中的实体可以指人名，地名，组织名称，某领域专有名称等，由于不同的领域所使用的语句和词具有一定的规律性，该断句模型可是根据不同的应用领域进行训练得到的，该领域包括金融领域，制造业领域，科技领域等等，本申请实施例中断句模型以金融领域为例进行说明。获取用于训练LSTM的第三样本数据集，该第三样本数据集中包含的样本为金融领域中的语料，且每个语料中的词具有特征标注，LSTM通过对第三样本训练集的学习，得到模型参数。

将待识别的目标文本信息输入到该LSTM中，LSTM输出当前词语被标注的特征，例如，待识别的目标文本信息为“我想了解儿童险疾病险”，本示例中以一个特征(词性)为例说明，如：我(代词)要(能愿动词)了解(动词)儿童险(专有名词)疾病险(专有名词)。

然后，将具有特征标注的目标文本信息输入到CRF中，采用CRF根据特征标注在该目标文本中插入分隔符，输出断句后的至少两个文本信息。

LSTM包括输入层、隐藏层和输出层，其中该LSTM的输出层为CRF，将具有特征标注的文本信息输入到CRF中，CRF的特征函数在滑动窗口下确定单词之间的关系，即单词在句子中出现的位置，当前单词标记的特征，计算在每两个词之间插入分隔符的概率，根据该概率确定分隔符的位置，基于CRF对LSTM的输出结果进行条件干预，选择概率最大的最优路径。

由于词性、句子成分和实体等特征对于句子断句有明显的影响，CRF综合计算各个特征进行断句会更准确，例如，以“我想了解儿童险疾病险”为例，其中“要”和“了解”这两个词都是动词，在两个动词之间断句的概率很低，而且从句子成分来看，“要”是状语，“了解”是谓语，状语和谓语之间断句的概率较低，“了解”是动词，“儿童险”是名词，动词和名词之间断句的概率比较低；而且，“了解”是谓语，“儿童险”是宾语，在谓语和宾语之间断句概率低；“儿童险”和“疾病险”都是专有名词，都是宾语，而且无关联关系，则确定“儿童险”和“疾病险”之间加入分隔符，对句子进行断句。输出断句后的文本信息，即“我要了解儿童险、疾病险”。

若返回的句子中有句子的字数大于断句前字数的60％，则只返回该句子；若返回的句子中没有句子的字数大于断句前字数的60％，则返回所有句子。

然后将返回后的句子重复执行S102-S106中的步骤。

本实施例中，对待识别的文本信息进行断句，将长句切分为短句，以提高ES数据库检索的效率及相似度识别模型的识别准确率。且将句子进行断句后，可以将断句之后的话术存储到ES数据库中，不断更新ES数据中的候选文档；不断增加候选文档的数据量。提高后续ES数据库检索的准确率。

进一步的，在步骤S101中，获取待识别的目标文本信息的具体步骤还可以包括：

向终端输出询问语句，所述询问语句携带类别标签；

以语音信息为例，服务器可以向客户所属的电话呼出询问语句，本示例中的询问语句并非限定该语句是问句，而是为了区分接收到的语句而功能上的命名，本示例中呼出的语句可以称为“询问语句”，而接收到的语句可以称为“回答语句”，以下不赘述。

例如，该询问语句是针对某一个保险品种的呼出询问语句，该询问语句为“当前针对老客户推出的儿童险功能很广，希望您了解一下”，该询问语句携带类别标签，该类别标签为“儿童险”，该类别标签仅是举例说明，并不造成对本申请的限定。

接收终端发送的所述询问语句对应的回答语句，所述回答语句携带所述类别标签；所述回答语句作为所述待识别的目标文本信息。

接收用户通过手机发送的回答语句，例如，该回答语句可以为“好的，我想了解儿童医疗保险”，该回答语句携带该类别标签。

将所述该回答语句输入到所述ES数据库中所述类别标签对应的目标子数据库中进行检索。

该类别标签的作用用于在ES数据库中进行索引检索，在该ES数据库中可以将候选文档(也可以理解为候选话术)进行分类存储，该问答语句携带类别标签，服务器可以根据该类别标签将该问答语句输入到子数据库(儿童险数据库)中检索，提高了ES数据库的检索效率。

可选的，若所述目标意图的数量为至少两个，每个所述目标意图对应一个优先级，所述根据所述目标意图确定所述目标意图对应的目标应答话术，包括：

按照每个目标意图对应的优先级，选择最高优先级的目标意图所对应的目标应答话术。

在步骤S103中，若与目标文本信息相似度大于阈值的目标候选文档的数据至少有两个，那么该目标意图也可能有两个；或者，若所述标候选文档与所述待识别的目标文本信息的相似度小于或者等于所述阈值，需要对该目标文本信息进行断句，断句之后，断句后的目标文本信息也可能对应至少两个目标候选文档，这种情况下，也可能有至少两个目标意图。

预先设置意图的优先级，例如，投诉类的意图优先级别最高，需要了解某一类保险的意图的优先级为第二优先级，而想要基础了解保险的优先级为第三优先级。需要说明的是，本示例中，仅是对意图对应的优先级别进行举例说明，意图和优先级别此处不能穷举，在其他的类别中，需要对应的设置意图与优先级。

例如，当有两个意图时，该两个意图，分别为“投诉类的意图”和“想要了解某一类保险的意图”，那么优先选择“投诉类的意图”对应的目标应答话术并进行输出。

可选的，在输出所述目标应答话术之后，所述方法还包括：

接收终端反馈的反馈语句；

当向终端输出该目标应答话术之后，可以接收用户的反馈语句，例如，该反馈语句为“好的”，“我不想了解”等等。

提取所述反馈语句中的特征信息。

若该反馈语句为语音信息，则该特征信息可以包括但不限定于音高，音调等；语音信号可以通过麦克风转化成电信号，转换成语音波形图，声音作为波的一种，频率(声源在一秒内振动的次数)和振幅是描述波的重要属性，频率的大小与我们通常所说的音高对应，而振幅影响声音的大小(音调)。若该反馈语句为文本信息，则该特征信息包括但不限定于评价词，文本表情，标点符号等。

根据所述特征信息对所述反馈语句进行情感识别，得到指示结果，所述指示结果用于指示情感倾向；

可以根据特征信息基于高斯混合模型(Adaptive background mixture modelsfor real-time tracking，GMM)、支持向量机(Support Vector Machine,SVM)，隐马尔可夫模型(Hidden Markov Model，HMM)进行语音情感识别。

若该反馈语句是文本信息，则可以基于神经网络中的注意力机制，结合上下文信息，并结合评价词，文本表情等特征输出指示结果，例如，该指示结果包括情感是正向情感，还是反向情感。

根据所述指示结果指示的情感倾向对所述目标应答话术进行评分。

本示例中，每个目标应答话术对应有一个基础分，例如该基础分可以是50分，若根据指示结果相应的在基础分的基础上增加或减少一定的分值，增加的分值和减少的分值可以相同，也可以不同。可以根据用户反馈的反馈语句，识别用户的情感，用户是满意，不满意，高兴还是不高兴，然后根据情感的指示结果在反馈到目标应答话术，例如，若该反馈语句指示的情况是反向情感，则需要在基础分的基础上每次减少2分，若累计减少的分数大于或者等于门限(例如门限为10分)，累计分数达到了10分(5次反馈的反馈语句均是反向情感)，则需要对该目标应答话术进行修正。

为了方便理解，请参阅图3所示，图3为本发明一个实施例的场景示意图。

S301、获取待识别的目标文本信息，目标文本信息可以为文字或语音所转换的输入文本。

S302、通过去重、去语气词和纠错对输入文本进行预处理。

S303、将预处理后的目标文本信息输入到所述ES数据库中所述类别标签对应的目标子数据库中进行检索，通过倒排索引得到与所述目标文本信息相似的候选文档集合(如TOP30条候选话术)。

S304、通过LR模型将对TOP30候选话术和目标文本信息的相似度进行相似度打分。

S305、若相似度的分数值大于0.7，则执行308；若该相似度小于或者等于0.7，则执行步骤306。

S306、使用LSTM+CRF对目标文本信息进行断句，输出断句后的文本信息。

S307、判断断句后的文本信息中的句子的字数是否大于断句前字数的60％。

S3071、若返回的断句后的文本信息中有句子的字数超过断句前字数的60％，则只返回该句子；S3072、若返回的句子中没有句子的字数未超过断句前字数的60％，则返回所有句子。将返回后的句子重复执行步骤303-305中的操作。

S308、返回目标候选话术所对应的意图目标意图；

S309、判断目标意图的数量；若目标意图的数量为多个(多个为大于或者等于2个)，执行步骤310；若目标意图的数量为一个，则执行步骤311。

S310、若目标意图的数量为多个，则根据每个目标意图对应的优先级规则返回最终的目标意图。

S311、确定最终的目标意图。

S312、根据返回的最终的目标意图意图，返回目标意图对应的目标应答话术。

本实施例中，首先，将待识别的文本信息输入到ES数据库中进行检索，通过ES数据库的倒排检索功能先筛选出预置数量(例如20个)的候选文档集合，可以极大的减少输入到相似度识别模型的文档量，再由相似度识别模型识别目标文本信息和每个候选文档的相似度，识别相似度的目的是为了找到候选文档对应的目标意图，根据相似度识别目标意图包括两种情况：1)当相似度大于阈值时，则直接确定目标候选文档所对应的目标意图；2)若相似度小于阈值时，则不能确定最终的目标意图，这种情况下，有可能是由于句子过长从而使得相似度模型识别准确率降低，进一步的，通过断句模型(LSMT+CRF)将待识别的目标文本信息输入到断句模型中，通过断句模型对待识别的目标文本信息进行断句，将长句断成短句，然后，再将短句重新输入到ES数据库中，ES数据库重新检索，最后得到最终的目标意图及最终的目标意图对应的目标应答话术。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图4所示，本发明实施例还提供了一种获取应答话术的装置的一个实施例,该装置400与上述方法实施例相对应。该获取应答话术的装置400包括：：

获取模块401，用于获取待识别的目标文本信息；

检索模块402，用于将所述获取模块401获取的所述待识别的目标文本信息输入到ES数据库中进行检索，通过倒排索引得到与所述目标文本信息相似的候选文档集合；

相似度识别模块403，用于将所述检索模块402检索后得到的所述候选文档集合中的每个候选文档与所述待识别的目标文本信息输入到相似度识别模型中，通过所述相似度识别模型输出每个候选文档与所述目标文本信息的相似度；所述每个候选文档对应一个意图；

意图确定模块404，用于当相似度识别模块403确定的目标候选文档与所述待识别的目标文本信息的相似度分值大于阈值，确定所述目标候选文档所对应的目标意图；每个所述意图具有关联的应答话术；

应答话术确定模块405，用于确定所述意图确定模块404确定的所述目标意图所对应的目标应答话术；

输出模块406，用于输出所述应答话术确定模块405确定的所述目标应答话术。

可选的，该装置400还包括断句模块407；

断句模块407，用于当相似度识别模块403确定的目标候选文档与所述待识别的目标文本信息的相似度分值小于或者等于所述阈值时，将所述待识别的目标文本信息输入到断句模型中，通过所述断句模型输出断句后的文本信息；所述断句后的文本信息作为待识别的目标文本信息；

检索模块402，还用于将所述待识别的文本信息输入到ES数据库中进行检索的步骤。

可选的，所述断句模型为长短期记忆网络LSTM和条件随机场模型CRF的组合模型；

断句模块407，还用于将所述待识别的目标文本信息输入到所述LSTM中，对所述目标文本信息中的每个词进行特征标注，得到具有特征标注的目标文本信息；该LSTM是通过对样本集进行训练得到的，该样本集中包括多个具有特征标注的语料；将具有特征标注的目标文本信息输入到CRF中，采用CRF根据特征标注在该目标文本中插入分隔符，输出断句后的至少两个文本信息。

可选的，相似度识别模块403，还用于通过分词模型对目标文本信息进行分词，得到第一词序列，且该第一词序列中的每个单词可以标注特征，及每个特征对应的特征值；通过该分词模型对每个候选文档进行分词，得到第二词序列，该第二词序列中的每个单词可以标注特征,及每个特征对应的特征值；将第一词序列和第二词序列输入到识别模型，确定每个特征对应的特征向量；根据每个特征向量，及每个特征对应的权重，输出目标文本信息与候选文档的相似度。

可选的，获取模块401，还用于向终端输出询问语句，所述询问语句携带类别标签；接收终端发送的所述询问语句对应的回答语句，所述回答语句携带所述类别标签；所述回答语句作为所述待识别的目标文本信息；所述将所述待识别的目标文本信息输入到ES数据库中进行检索，包括：将所述回答语句输入到所述ES数据库中所述类别标签对应的目标子数据库中进行检索。

可选的，所述目标意图的数量为至少两个，每个所述目标意图对应一个优先级；

意图确定模块404，还用于按照每个目标意图对应的优先级，选择最高优先级的目标意图所对应的目标应答话术。

请参阅图5所示，在上述图4对应的实施例的基础上，本发明实施例还提供了一种获取应答话术的装置的另一个实施例，该装置500还包括接收模块408，提取模块409，情感识别模块410和评分模块411；

接收模块408，用于接收终端反馈的反馈语句，该反馈语句为目标应答话术对应的语句；

提取模块409，用于提取所述接收模块408接收的反馈语句中的特征信息；

情感识别模块410，用于根据所述提取模块409提取的特征信息对所述反馈语句进行情感识别，得到指示结果，所述指示结果用于指示情感倾向；

评分模块411，用于根据所述情感识别模块410得到的指示结果指示的情感倾向对所述目标应答话术进行评分。

关于获取应答话术的装置的具体说明可以参见上文中对于获取应答话术的方法实施例中的说明，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备600，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线604连接的处理器601、存储器602和网络接口603。其中，该计算机设备的处理器601用于提供计算和控制能力。该计算机设备的存储器602包括非易失性存储介质、内存储器。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口603用于与外部的终端通过网络连接通信。该计算机程序被处理器601执行时以实现一种获取应答话术的方法。

在一个实施例中，提供了一种计算机设备，包括存储器602、处理器601及存储在存储器上并可在处理器601上运行的计算机程序，处理器601执行计算机程序时实现上述实施例中获取应答话术的方法，例如图2所示的步骤S101-S106，或者图3中所示的步骤，为避免重复，这里不再赘述。或者，处理器601执行计算机程序时实现获取应答话术的装置这一实施例中的各模块/单元的功能。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中获取应答话术的方法的步骤，例如图2所示的步骤S101-S106，或者图3中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现获取应答话术的装置这一实施例中的各模块/单元的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种获取应答话术的方法，其特征在于，包括：

获取待识别的目标文本信息；

确定所述目标意图对应的目标应答话术；

输出所述目标应答话术；

所述通过所述相似度识别模型输出每个候选文档与所述目标文本信息的相似度之后，还包括：

若目标候选文档与所述待识别的目标文本信息的相似度分值小于或者等于所述阈值，则将所述待识别的目标文本信息输入到断句模型中，通过所述断句模型输出断句后的文本信息；所述断句后的文本信息作为待识别的目标文本信息；所述断句模型为长短期记忆网络LSTM和条件随机场模型CRF的组合模型；LSTM包括输入层、隐藏层和输出层，其中该LSTM的输出层为CRF，将具有特征标注的文本信息输入到CRF中，CRF的特征函数在滑动窗口下确定单词之间的关系，即单词在句子中出现的位置，当前单词标记的特征，计算在每两个词之间插入分隔符的概率，根据该概率确定分隔符的位置，基于CRF对LSTM的输出结果进行条件干预，选择概率最大的最优路径；

执行所述将所述待识别的文本信息输入到ES数据库中进行检索的步骤，至，所述输出所述目标应答话术的步骤；

所述将所述待识别的目标文本信息输入到断句模型中，通过所述断句模型输出断句后的文本信息，包括：

将所述待识别的目标文本信息输入到所述LSTM中，对所述目标文本信息中的每个词进行特征标注，得到具有特征标注的目标文本信息；该LSTM是通过对样本集进行训练得到的，该样本集中包括多个具有特征标注的语料；

将具有特征标注的目标文本信息输入到CRF中，采用CRF根据特征标注在该目标文本中插入分隔符，输出断句后的至少两个文本信息；

所述将所述候选文档集合中的每个候选文档与所述待识别的文本信息输入到相似度识别模型中，通过所述相似度识别模型输出每个候选文档与所述待识别的文本信息的相似度，包括：

通过分词模型对目标文本信息进行分词，得到第一词序列，且该第一词序列中的每个单词可以标注特征，及每个特征对应的特征值；通过该分词模型对每个候选文档进行分词，得到第二词序列，该第二词序列中的每个单词可以标注特征,及每个特征对应的特征值；

将第一词序列和第二词序列输入到识别模型，确定每个特征对应的特征向量；

根据每个所述特征向量，及每个特征对应的权重，输出目标文本信息与候选文档的相似度。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别的目标文本信息，包括：

向终端输出询问语句，所述询问语句携带类别标签；

接收终端发送的所述询问语句对应的回答语句，所述回答语句携带所述类别标签；所述回答语句作为所述待识别的目标文本信息；

所述将所述待识别的目标文本信息输入到ES数据库中进行检索，包括：

将所述回答语句输入到所述ES数据库中所述类别标签对应的目标子数据库中进行检索。

3.根据权利要求1所述的方法，其特征在于，所述目标意图的数量为至少两个，每个所述目标意图对应一个优先级，所述根据所述目标意图确定所述目标意图对应的目标应答话术，包括：

4.根据权利要求1所述的方法，其特征在于，所述输出所述目标应答话术之后，所述方法还包括：

接收终端反馈的反馈语句；

提取所述反馈语句中的特征信息；

5.一种获取应答话术的装置，其特征在于，包括：

获取模块，用于获取待识别的目标文本信息；

输出模块，用于输出所述应答话术确定模块确定的所述目标应答话术；

所述装置还包括：

断句模块，用于当相似度识别模块确定的目标候选文档与所述待识别的目标文本信息的相似度分值小于或者等于所述阈值时，将所述待识别的目标文本信息输入到断句模型中，通过所述断句模型输出断句后的文本信息；所述断句后的文本信息作为待识别的目标文本信息；所述断句模型为长短期记忆网络LSTM和条件随机场模型CRF的组合模型；LSTM包括输入层、隐藏层和输出层，其中该LSTM的输出层为CRF，将具有特征标注的文本信息输入到CRF中，CRF的特征函数在滑动窗口下确定单词之间的关系，即单词在句子中出现的位置，当前单词标记的特征，计算在每两个词之间插入分隔符的概率，根据该概率确定分隔符的位置，基于CRF对LSTM的输出结果进行条件干预，选择概率最大的最优路径；

检索模块，还用于将所述待识别的文本信息输入到ES数据库中进行检索的步骤；

所述断句模块，还用于将所述待识别的目标文本信息输入到所述LSTM中，对所述目标文本信息中的每个词进行特征标注，得到具有特征标注的目标文本信息；该LSTM是通过对样本集进行训练得到的，该样本集中包括多个具有特征标注的语料；将具有特征标注的目标文本信息输入到CRF中，采用CRF根据特征标注在该目标文本中插入分隔符，输出断句后的至少两个文本信息；

所述相似度识别模块，还用于通过分词模型对目标文本信息进行分词，得到第一词序列，且该第一词序列中的每个单词可以标注特征，及每个特征对应的特征值；通过该分词模型对每个候选文档进行分词，得到第二词序列，该第二词序列中的每个单词可以标注特征,及每个特征对应的特征值；将第一词序列和第二词序列输入到识别模型，确定每个特征对应的特征向量；根据每个特征向量，及每个特征对应的权重，输出目标文本信息与候选文档的相似度。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。