CN110727764A

CN110727764A - 一种话术生成方法、装置及话术生成设备

Info

Publication number: CN110727764A
Application number: CN201910957719.7A
Authority: CN
Inventors: 刘坤; 陈功; 高宗
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-24

Abstract

本申请公开了一种话术生成方法、装置及话术生成设备，该方法包括：获得问题文本，从数据库中查找与问题文本对应的答案文本，将问题文本和答案文本结合为待提取文本，采用文本提取模型对问题文本和与问题文本对应的答案文本进行提取，以获得提取结果，并根据提取结果生成话术，从而解决了现有技术中不能根据问题文本和该问题对应的答案文本结合而成的文本进行自动提取以生成话术的问题。

Description

一种话术生成方法、装置及话术生成设备

技术领域

本申请涉及信息处理领域，具体而言，涉及一种话术生成方法、装置及话术生成设备。

背景技术

在现有技术中，客服人员根据人工对数据库中的内容进行查找，以查找与客户提出的问题文本相匹配的答案文本，并将查找的答案文本直接反馈给客户，然而，当答案文本篇幅过长时，客服人员需要人工对该答案文本做删减修改处理，以从该答案文本中提取出客户需要的信息，并根据提取出的客户需要的信息自行组织语言以生成话术，再根据话术内容向客户进行反馈。在客服人员查找与问题文本相匹配的答案文本，并对该答案文本进行人工信息提取的过程中，会耗费大量的时间，导致客服人员与客户之间的对话时间也会随之加长，严重降低了客服热线的接通率，也导致了较差的客户体验。因此，现有技术中，存在不能根据问题文本和该问题对应的答案文本结合而成的文本进行自动提取以生成话术的问题。

申请内容

针对上述问题，本申请提供了一种话术生成方法、装置及话术生成设备，解决了不能根据问题文本和该问题对应的答案文本结合而成的文本进行自动提取以生成话术的问题。

第一方面，本申请提供了一种话术生成方法，包括：

根据本申请的实施例，优选地，在上述话术生成方法中，获得问题文本；

从数据库中查找与所述问题文本对应的答案文本；

将所述问题文本和所述答案文本结合为待提取文本；

采用文本提取模型对所述待提取文本进行提取，以得到与所述问题文本对应的话术文本。

根据本申请的实施例，优选地，在上述话术生成方法中，文本提取模型包括语言模型和神经网络模型，采用文本提取模型对所述待提取文本进行提取，以得到与所述问题文本对应的话术文本的步骤包括：

根据待提取文本生成对应的字符序列；

采用所述语言模型对所述字符序列的映射向量进行编码，以得到高阶语义特征向量；

采用所述神经网络模型对所述高阶语义特征向量进行解码，将解码结果作为话术文本。

根据本申请的实施例，优选地，在上述话术生成方法中，所述语言模型包括XLNet模型。

根据本申请的实施例，优选地，在上述话术生成方法中，获得问题文本的步骤包括：

对获得的语音信息进行识别，以得到文字信息；

判断所述文字信息是否是所述数据库中的问题；

当所述文字信息是所述数据库中的问题时，将所述文字信息保存为所述问题文本。

根据本申请的实施例，优选地，在上述话术生成方法中，当所述文字信息不是所述数据库中的问题时，所述方法还包括：

提取所述文字信息中的关键词；

计算所述文字信息的关键词与所述数据库中各问题文本的关键词的匹配度；

将与所述文字信息的关键词匹配度最高的问题文本作为所述语音信息对应的问题文本。

根据本申请的实施例，优选地，在上述话术生成方法中，从数据库中查找与所述问题文本对应的答案文本的步骤包括：

提取所述问题文本的关键词；

根据所述问题文本的关键词，从所述数据库中查找与所述问题文本的关键词对应的答案文本。

根据本申请的实施例，优选地，在上述话术生成方法中，从数据库中查找与所述问题文本的关键词对应的答案文本的步骤包括：

从所述数据库中查找与所述问题文本的关键词对应的结构化数据，其中，所述结构化数据包括：预设关键词、与所述预设关键词对应的问题文本以及与所述预设关键词对应的答案文本。

根据本申请的实施例，优选地，在上述话术生成方法中，所述数据库中包括多条结构化数据，从所述数据库中查找与所述问题文本的关键词对应的结构化数据的步骤包括：

计算所述问题文本的关键词与所述数据库中各结构化数据包括的预设关键词的匹配度；

判断是否存在大于预设匹配度阈值的匹配度；

当存在大于预设匹配度阈值的匹配度时，将匹配度最高的预设关键词所属的结构化数据作为与所述问题文本的关键词对应的结构化数据。

根据本申请的实施例，优选地，在上述话术生成方法中，当不存在大于预设匹配度阈值的匹配度时，所述方法还包括：

根据所述问题文本的关键词生成提示信息以进行提示。

第二方面，本申请提供了一种话术生成装置，所述装置包括：

问题获得模块，用于获得问题文本；

答案查找模块，用于从数据库中查找与所述问题文本对应的答案文本；

文本结合模块，用于将所述问题文本和所述答案文本结合为待提取文本；

话术提取模块，用于采用文本提取模型对所述待提取文本进行提取，以得到与所述问题文本对应的话术文本。

第三方面，本申请提供了一种存储介质，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现上述第一方面中任意一项的话术生成方法。

第四方面，本申请提供了一种话术生成设备，包括存储器和处理器，所述存储器上存储有能够被所述处理器执行的存储介质，该存储介质被所述处理器执行时实现上述第一方面中任意一项的话术生成方法。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：通过获得问题文本和与所述问题文本对应的答案文本，采用文本提取模型对所述问题文本和与所述问题文本对应的答案文本进行提取，以获得提取结果，并根据所述提取结果生成话术，从而解决了不能根据问题文本和该问题对应的答案文本结合而成的文本进行自动提取以生成话术的问题。

附图说明

通过结合附图阅读下文示例性实施例的详细描述可更好地理解本申请公开的范围。其中所包括的附图是：

图1为本申请实施例提供的话术生成方法的流程图；

图2为本申请实施例提供的话术生成方法的另一流程图；

图3为本申请实施例提供的话术生成方法的另一流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例一

请结合参阅图1、图2和图3，本申请实施例提供了一种话术生成方法，该方法包括步骤S110至步骤S140。

步骤S110，获得问题文本。

可以理解，客服人员能够通过各种交互工具与用户进行交流以获取信息，例如，通过对话框获得的信息为文字信息；通过电话获得的信息为语音信息。

具体的，在本实施例中，步骤S110包括步骤S111至步骤S116。

步骤S111，对获得的语音信息进行识别，以得到文字信息。

可以理解，本申请是对文字信息进行提取，因此，当客服人员获得语音信息时，需要对所述语音信息进行识别，以得到该语音信息对应的文字信息，以方便后续处理。

步骤S112，判断所述文字信息是否是所述数据库中的问题。

应当说明的是，在本实施中，数据库中预存了客服人员在与客户进行沟通的过程中客户有可能提出的所有问题文本，并且，在所述数据库中，每一个问题文本都有其对应的答案文本。

具体的，所述数据库的构建过程包括：构建问题库和构建答案库。

构建所述问题库的过程包括：获得预设问题文本；采用深度学习模型对所述预设问题文本进行扩展，以得到扩展问题文本，其中，所述扩展问题文本是对所述预设问题文本的表达方式进行扩展，因此，所述扩展问题文本具有与所述预设问题文本相同的关键词；采用文本关键词提取算法对所述预设问题文本和所述扩展问题文本进行关键词提取，以得到所述预设问题文本的关键词和所述扩展问题文本的关键词，其中，一组关键词对应一个预设问题文本和多个对该预设问题文本进行扩展得到的扩展问题文本。

构建所述答案库的过程包括：获得初始答案文本；采用文本关键词提取算法对所述初始答案文本进行语义分析，并按照语义分析结果将所述初始答案文本划分为不超过预设字数阈值的答案文本；采用文本关键词提取算法对所述答案文本进行关键词提取，以得到所述答案文本的关键词。

在将构建的所述问题库和所述答案库存储至数据库之后，将所述预设问题文本的关键词与所述答案文本的关键词进行对比，当关键词的匹配度达到预设阈值时，将所述关键词、所述关键词对应的所述预设问题文本，以及所述关键词对应的所述答案文本按照顺序进行排列，并生成结构化数据，将该结构化数据存储至所述数据库。应当说明的是，所述数据库中某一个答案文本可能有多个与之对应问题文本；所述数据库中的某一个问题文本也可能有多个与之对应的答案文本。

由于每个人的表述方式不同，用户提供的信息不一定与所述数据库中预存的问题文本的描述方式完全相同，因此，需要对所述文字信息是否是所述数据库中的问题进行判断。

当步骤S112的判断结果为是时，即当所述文字信息是所述数据库中的问题时，执行步骤S113。

步骤S113，将所述文字信息保存为所述问题文本。

可以理解，此时，当所述文字信息是所述数据库中的问题时，无需对所述文字信息做任何处理，直接将所述文字信息保存为所述问题文本。

当步骤S112的判断结果为否时，即当所述文字信息不是所述数据库中的问题时，执行步骤S114至步骤S116。

步骤S114，提取所述文字信息中的关键词。

可以理解，由于客户的个人表述方式导致所述文字信息不是所述数据库中的问题时，有可能是所述文字信息中包括的无用信息过多，因此需要采用文本关键词提取算法对所述文字信息进行关键词提取；也有可能是所述文字信息过短，因此需要采用文本关键词提取算法对所述文字信息进行语义分析，再根据语义分析结果进行关键词提取。对所述文字信息进行关键词提取所得到的所述文字信息的关键词能够作为后续进一步处理的依据。

步骤S115，计算所述文字信息的关键词与所述数据库中各问题文本的关键词的匹配度。

可以理解，所述数据库中预存了预设的问题文本以及该预设的问题文本的关键词信息，因此，能够根据所述文字信息的关键词，计算出所述文字信息的关键词与所述数据库中各问题文本的关键词的匹配度，并生成匹配度列表，在所述匹配度列表中，将获得的匹配度按照从高到低的顺序或从低到高的顺序进行排序。

步骤S116，将与所述文字信息的关键词匹配度最高的问题文本作为所述语音信息对应的问题文本。

可以理解，根据所述匹配度列表中列出的所述文字信息的关键词与所述数据库中各问题文本的关键词的匹配度，能够查找与所述文字信息的关键词匹配度最高的所述数据库中存储的预设问题文本的关键词，从而得到所述数据库中存储的该关键词对应的预设问题文本。

可以理解，基于客服人员的操作，确认获得的与所述文字信息的关键词匹配度最高的数据库中的预设问题文本是否是所述语音信息对应的问题文本，当获得的预设问题文本是所述语音信息对应的问题文本时，保存所述预设问题文本。当获得的预设问题文本不是所述语音信息对应的问题文本时，需要生成提示信息，以提示用户重新提出问题。

步骤S120，从数据库中查找与所述问题文本对应的答案文本。

可以理解，此步骤中所述的问题文本为查找的所述数据库中的结构化数据中的预设问题文本，在所述结构化数据中，每个预存问题文本都具有与之对应的一个或多个答案文本，因此，在确定了预设问题文本的前提下，能够从所述数据库中查找出与该预设问题文本对应的答案文本，具体的，从所述数据库中查找出与该预设问题文本对应的答案文本的方式可以是将所述问题文本输入ElasticSearch搜索引擎，以搜索到所述数据库中与所述问题文本对应的答案文本；也可以是通过将关键词输入ElasticSearch搜索引擎，以搜索到所述数据库中与所述问题文本的关键词对应的答案文本。

特别的，在本实施例中，从数据库中查找与所述问题文本对应的答案文本的步骤包括：提取所述问题文本的关键词；根据所述问题文本的关键词，从所述数据库中查找与所述问题文本的关键词对应的答案文本。

可以理解，相比于通过问题文本对所述数据库进行查找，通过关键词对数据库进行查找能够更加快速高效地获得相关信息。

在本实施例中，从数据库中查找与所述问题文本的关键词对应的答案文本的步骤包括：从所述数据库中查找与所述问题文本的关键词对应的结构化数据，其中，所述结构化数据包括：预设关键词、与所述预设关键词对应的问题文本以及与所述预设关键词对应的答案文本。

可以理解，从所述数据库中查找与所述问题文本的关键词对应的结构化数据的步骤可以是：将所述问题文本的关键词作为索引，将该索引与所述数据库中存储的结构化数据进行对比；并判断所述数据库中是否存在与所述索引对比一致的结构化数据；当所述数据库中存在于所述索引对比一致的结构化数据时，将该结构化数据作为与所述问题文本的关键词对应的结构化数据。

特别的，在本实施例中，所述数据库中包括多条结构化数据，从所述数据库中查找与所述问题文本的关键词对应的结构化数据的步骤包括：计算所述问题文本的关键词与所述数据库中各结构化数据包括的预设关键词的匹配度；判断是否存在大于预设匹配度阈值的匹配度；当存在大于预设匹配度阈值的匹配度时，将匹配度最高的预设关键词所属的结构化数据作为与所述问题文本的关键词对应的结构化数据。

可以理解，匹配度大于预设匹配度阈值的结构化数据包括的关键词可能有多个，因此，当存在大于预设匹配度阈值的匹配度时，将匹配度最高的关键词所属的结构化数据作为与所述问题文本的关键词对应的结构化数据，能够保证该结构化数据中包括的答案文本是所述问题文本最为贴切的答案文本。

在本实施例中，当不存在大于预设匹配度阈值的匹配度时，根据所述问题文本的关键词生成提示信息以进行提示。

可以理解，当不存在大于预设匹配度阈值的匹配度时，表示所述数据库中存储的结构化数据对应的答案文本不能够解答用户提出的问题，因此，根据所述问题文本的关键词生成提示信息，以提示用户确认所述关键词是否正确，用户可对该提示信息进行确认，或更改问题表述方式并再次提问。

步骤S130，将所述问题文本和所述答案文本结合为待提取文本。

可以理解，当查找问题文本和与所述问题文本对应的答案文本之后，该答案文本可能较长，因此需要对该答案文本进行提炼，以得到精炼压缩的答案文本，该答案文本也可能表述方式太过书面，直接向用户反馈该答案文本不利于客户的理解；因此，将所述问题文本和所述答案文本结合为待提取文本以作后续处理，一方面能够对答案文本进行压缩，缩短客服人员与客户交流的时间；另一方面能够将所述问题文本的表述方式作为参考，通过后续处理过程生成与之表述方式类似的答案信息，以贴近用户的表述习惯；进一步地，将所述问题文本和所述答案文本结合为待提取文本以作后续处理，还能够便于客服人员通过所述问题文本深入分析客户需求，以根据分析结果对客户做出进一步的引导。

步骤S140，采用文本提取模型对所述待提取文本进行提取，以得到与所述问题文本对应的话术文本。

可以理解，本实施例中的文本提取模型包括语言模型和神经网络模型。本申请所述的语言模型包括但不限于：XLNet模型、BERT模型、ELMO模型以及GPT模型，特别的，在本实施例中，所述语言模型为XLNet模型。在XLNet模型中，采用预训练模型对待提取文本进行预训练；通过对句子中词语的排列组合，把目标词语的一些下文词语排到该目标词语的上文位置中，由此获知该目标词语的上文信息和下文信息，从而达到对输入的文本信息进行摘要的功能。

具体的，在本实施例中，步骤S140包括步骤S141至步骤S143。

步骤S141，根据待提取文本生成对应的字符序列。

可以理解，根据所述待提取文本，生成的字符序列的形式可以是：[CLS,Tok1,…,TokN,SEP,TokK,…,TokM]，其中，CLS为输入起始标记，SEP为所述问题文本与所述答案文本之间的间隔标记，Tok1至TokN为输入的待提取文本中所述问题文本的各字符，TokK至TokM为输入的待提取文本中所述答案文本的各字符。

步骤S142，采用所述语言模型对所述字符序列的映射向量进行编码，以得到高阶语义特征向量。

可以理解，将所述字符序列的映射向量作为所述语言模型的输入，所述语言模型按输入顺序对所述向量进行编码，以得到对应字符序列的具有上下文背景信息的高阶语义特征向量。

步骤S143，采用所述神经网络模型对所述高阶语义特征向量进行解码，将解码结果作为话术文本。

可以理解，本实施例中所述的神经网络模型包括但不限于LSTM模型、RNN模型以及seq2seq模型，特别的，本实施例中的神经网络模型为seq2seq模型。

实施例二

本申请实施例还提供了一种话术生成装置，所述装置包括：问题获得模块，用于获得问题文本。

在本实施例中，所述问题获得模块用于执行实施例一种的步骤S110，因此，关于所述问题获得模块的具体描述可以参照前文对所述步骤S110的具体描述，在此不作一一赘述。

答案查找模块，用于从数据库中查找与所述问题文本对应的答案文本。

由于查找模块和图1中步骤S120的实现原理类似，因而在此不作更多说明。

文本结合模块，用于将所述问题文本和所述答案文本结合为待提取文本。

由于查找模块和图1中步骤S130的实现原理类似，因而在此不作更多说明。

由于查找模块和图1中步骤S140的实现原理类似，因而在此不作更多说明。

实施例三

本申请实施例还提供了一种存储介质，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如实施例一中所述的话术生成方法。其中，所述存储介质包括但不限于：闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时可以实现如下方法步骤：

获得问题文本；

从数据库中查找与所述问题文本对应的答案文本；

将所述问题文本和所述答案文本结合为待提取文本；

上述方法步骤的具体实施例过程可参见第一实施例，本实施例在此不再赘述。

实施例四

本申请实施例还提供了一种话术生成设备，包括存储器和处理器，所述存储器上存储有能够被所述处理器执行的存储介质，该存储介质被所述处理器执行时实现如实施例一中所述的话术生成方法。

综上所述，本申请提供的话术生成方法、装置及话术生成设备，通过获得问题文本和与所述问题文本对应的答案文本，采用文本提取模型对所述问题文本和与所述问题文本对应的答案文本进行提取，以获得提取结果，并根据所述提取结果生成话术，能够解决现有技术中不能根据问题文本和该问题对应的答案文本结合而成的文本进行自动提取以生成话术的问题。进一步地，通过采用文本关键词提取算法对所述问题文本进行关键词提取，以得到所述问题文本的关键词；并根据所述问题文本的关键词，从所述数据库查找与所述问题文本的关键词匹配度最高的答案文本，避免了当多个答案文本都包括与所述问题文本相同关键词时，客服人员在短时间内对客户提出的问题进行人工快速搜索，并从搜索到的答案文本中人工筛选出的答案文本不是与所述问题文本最为匹配的答案文本，从而不能满足客户需求的问题。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

虽然本申请所公开的实施方式如上，但所述的内容只是为了便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属技术领域内的技术人员，在不脱离本申请所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种话术生成方法，其特征在于，

获得问题文本；

从数据库中查找与所述问题文本对应的答案文本；

将所述问题文本和所述答案文本结合为待提取文本；

2.根据权利要求1所述的话术生成方法，其特征在于，文本提取模型包括语言模型和神经网络模型，采用文本提取模型对所述待提取文本进行提取，以得到与所述问题文本对应的话术文本的步骤包括：

根据待提取文本生成对应的字符序列；

3.根据权利要求2所述的话术生成方法，其特征在于，所述语言模型包括XLNet模型。

4.根据权利要求1所述的话术生成方法，其特征在于，获得问题文本的步骤包括：

对获得的语音信息进行识别，以得到文字信息；

判断所述文字信息是否是所述数据库中的问题；

5.根据权利要求4所述的话术生成方法，其特征在于，当所述文字信息不是所述数据库中的问题时，所述方法还包括：

提取所述文字信息中的关键词；

6.根据权利要求1所述的话术生成方法，其特征在于，从数据库中查找与所述问题文本对应的答案文本的步骤包括：

提取所述问题文本的关键词；

7.根据权利要求6所述的话术生成方法，其特征在于，从数据库中查找与所述问题文本的关键词对应的答案文本的步骤包括：

8.根据权利要求7所述的话术生成方法，其特征在于，所述数据库中包括多条结构化数据，从所述数据库中查找与所述问题文本的关键词对应的结构化数据的步骤包括：

判断是否存在大于预设匹配度阈值的匹配度；

9.根据权利要求8所述的话术生成方法，其特征在于，当不存在大于预设匹配度阈值的匹配度时，所述方法还包括：

根据所述问题文本的关键词生成提示信息以进行提示。

10.一种话术生成装置，其特征在于，所述装置包括：

问题获得模块，用于获得问题文本；

11.一种存储介质，其特征在于，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如权利要求1至9中任意一项中的话术生成方法。

12.一种话术生成设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被所述处理器执行的存储介质，该存储介质被所述处理器执行时实现如权利要求1至9中任意一项所述的话术生成方法。