CN110765776B

CN110765776B - 回访标注样本数据的生成方法及装置

Info

Publication number: CN110765776B
Application number: CN201910962631.4A
Authority: CN
Inventors: 王福钋; 杜新凯; 赵义刚; 李朋超
Original assignee: Sunshine Property & Casualty Insurance Co
Current assignee: Sunshine Property & Casualty Insurance Co
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2024-05-10
Anticipated expiration: 2039-10-11
Also published as: CN110765776A

Abstract

本发明提供一种回访标注样本数据的生成方法及装置，其中，该方法包括：获取待标注的回访通话语音数据；对待标注的回访通话语音数据进行语音识别，得到回访文本数据；将回访文本数据中回访者与受访者的回复文本数据进行分离，得到待标注的回访文本数据；根据回访者的当前问题文本数据对应的话术类型，确定当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据。上述技术方案提高了回访标注样本数据生成的效率。

Description

回访标注样本数据的生成方法及装置

技术领域

本发明涉及样本数据标注处理技术领域，特别涉及一种回访标注样本数据的生成的方法及装置。

背景技术

随着自然语言处理(NLP)技术的发展，智能客服机器人以其低成本、高效率、便于维护等优势受到业界追捧。自然语言处理是智能客服机器人采用的最关键的技术，通常采用机器学习方式来实现。机器学习方法中，监督学习需要的样本量相对更少、性能更稳定，因此可以在多个实际场景中应用。监督学习需要一定量的标注样本，通常采用人工标注方式进行，这种方式成本高、效率低下。通常标注1小时的语音数据，需要消耗8个工时。现有一些通过聚类、预标注或半监督学习的方式来减少人工标注成本，但仍然需要一定的人工标注量。

智能客服机器人需要大量的标注数据，在保险行业中，NPS回访是一个重要的客服场景。各家公司都累积了大量的通话录音，如果能通过这些历史录音自动生成标注数据，对智能客服机器人的开发将有较大助益。因此，目前亟需一种对机器学习过程中样本进行快速准确标注的方法。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种回访标注样本数据的生成方法，用以提高回访标注样本数据生成的效率，该方法包括：

获取待标注的回访通话语音数据；

对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；

对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据。

本发明实施例还提供了一种回访标注样本数据的生成装置，用以提高回访标注样本数据生成的效率，该装置包括：

获取单元，用于获取待标注的回访通话语音数据；

语音识别单元，用于对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；

样本生成单元，用于对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述回访标注样本数据的生成方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述回访标注样本数据的生成方法的计算机程序。

本发明实施例提供的回访标注样本数据的生成方案通过：获取待标注的回访通话语音数据；对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据，实现了自动快速生成回访标注样本数据，提高了回访标注样本数据的生成效率，对智能客服机器人的开发有较大助益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中回访标注样本数据的生成的原理示意图；

图2是本发明实施例中回访标注样本数据的生成方法的流程示意图；

图3是本发明实施例中回访标注样本数据的生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人发现：智能客服机器人需要大量的标注数据，在保险行业NPS(NetworkPromote Sales)回访场景下，客服讲话的话术是固定的(质检要求)，客服根据客户的回答选择下一轮对话的话术，示例如下：

如客服问：“请问您是王小明先生吗？”，若客户回答“是”，那么下一步要问“您是否愿意话一分钟时间接受我们公司的回访？”；若客户回答：“不是”，那么下一句就要说“不好意思，打扰了，再见。”

基于以上发明人发现的技术问题，提出了一种回访标注样本数据的生成方案，该方案可以实现自动标注样本数据，即给原始样本打标签，后续用于模型训练，可以是神经网络模型，也可以是其它模型。首先，结合图1说明该方案自动标注样本数据生成的原理：

1.客服的问题是固定的，因此我们可以通过简单的语义匹配算法来确定当前的对话进行到了哪个分支；

2.根据当前分支，即可确定客户的回复是回答的哪个问题；

3.根据客服下一句的话术，可以判断客户讲话的语义；

4.通过上述1、2、3即可自动产生客户讲话的标注数据。

下面对回访标注样本数据的生成方案进行详细介绍如下。

图2是本发明实施例中回访标注样本数据的生成方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤101：获取待标注的回访通话语音数据；

步骤102：对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；

步骤103：对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据。

本发明实施例提供的回访标注样本数据的生成方法实现了自动快速生成回访标注样本数据，提高了回访标注样本数据的生成效率，对智能客服机器人的开发有较大助益。

下面结合图1和图2，对本发明实施例提供的回访标注样本数据的生成方法涉及的各个步骤，进行详细介绍。

一、首先，介绍上述步骤101。

具体实施时，在步骤101中，回访通话语音数据可以为保险行业或其他行业中各家公司累积的大量的通话录音，即历史录音(图1所示)。

二、其次，介绍上述步骤102。

具体实施时，该步骤102是语音识别，话者分离的过程，可以通过下面实施例提到的语音识别单元，例如一语音识别引擎(图1所示)来实现该步骤102，该语音识别引擎将该录音进行转写(即语音识别，将语音数据转换成文本数据)和话者分离(按通话者，通话角色进行语句分离)，结果(待标注的回访文本数据)可以如下表1所示。

表1

其中，上表1中第一列(tStart)代表通话开始时间，第二列(tEnd)代表通话结束时间，第三列(text)代表通话内容(即文本数据)，第四列(role)代表通话者(即通话角色)；第二行代表第一通话者、第一通话者的第一句话(即第一个问题)对应的文本数据、相关通话时间信息；第三行代表第二通话者、第二通话者的第一句话(即第一个回复)对应的文本数据、相关通话时间信息，以此类推，直至得到所有进行分离后的问题和回复的文本数据。

三、最后，介绍上述步骤103。

具体实施时，该步骤103是客服(回访者)话术识别，客户(受访者)回复提取的过程，可以通过下面实施例提到的样本生成单元，例如一样本生成服务器(图1所示)来实现该步骤103。下面对该步骤103进行详细介绍。

以生成一个问题对应的回访标注样本数据，例如以上表1中第一轮对话生成回访标注样本数据为例，进行介绍。

在一个实施例中，根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识，可以包括：

根据回访者的当前问题文本数据，确定回访者的当前问题文本数据对应的当前话术类型；

根据所述当前话术类型，以及预先存储的话术类型与问题标识的关系，确定回访者的当前问题标识。

具体实施时，客服(回访者)在每一轮对话中的话术(谈话模式)是固定的，例如，话术类型可以包括“身份确认”的话术类型或“回访意愿确认”的话术类型等等(如下表2中第二列所示)，根据回访者的当前问题文本数据，即可以确定回访者的当前问题文本数据对应的当前话术类型；根据当前话术类型，到预先存储的话术类型与问题标识的关系(可以是一张表格或图表等)中去匹配查找，得到当前话术类型对应的当前问题标识(例如下表2中第一列所示的问题编号)，例如话术类型是“身份确认”，那么对应的问题标识(例如编号)就是“1”，即第一个问题。上述确定当前问题标识的方案效率高。

在一个实施例中，根据回访者的当前问题文本数据，确定回访者的当前问题文本数据对应的当前话术类型，可以包括：

从回访者的当前问题文本数据中提取关键字；

根据提取出的关键字，以及预先存储的关键字与话术类型的关系，确定回访者的当前问题文本数据对应的当前话术类型。

具体实施时，可以通过提取关键字匹配等操作识别出来客服(回访者)当前问的是第几个问题，确定话术类型效率高，进而提高了回访标注样本数据生成的效率。

接着，紧跟客服后面的客户语音识别结果即为客户关于这个问题的回复。如客服问“您好打扰您了我是阳光保险公司回访部门的工作人员请问您王小明吗”，这句话是身份确认的标准话术(话术类型)。客户紧跟着的回复是“是的”(通过上表1的通话时间顺序找到)。那么“是的”就是客户关于身份确认问题的回复(当前问题对应的受访者的待标注回复文本数据，例如下表2中第三列数据所示)。

在一个实施例中，在根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据，之后，还可以包括：识别当前问题对应的受访者的待标注回复文本数据的语义；

根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记，可以包括：

根据待标注回复文本数据的语义，以及预先存储的回复文本数据语义与标记类型的关系，确定待标注回复文本数据对应的标记。

具体实施时，将待标注回复文本数据的语义识别结果(待标注回复文本数据的语义)，输入到一预先存储的回复文本数据语义与标记类型的关系(该关系也可以是一张表格或图表等)中进行匹配，找到待标注回复文本数据对应的标记，效率高。

在一个实施例中，识别当前问题对应的受访者的待标注回复文本数据的语义，可以包括：

获取回访者的当前问题文本数据对应的下一问题文本数据；

根据下一问题文本数据的话术类型，确定当前问题对应的受访者的待标注回复文本数据的语义。

具体实施时，由于客服的问题、话术是固定的，因此，根据客服(回访者)下一句的话术，可以判断客户(受访者)当前讲话(当前问题对应的受访者的待标注回复文本数据)的语义。例如，当前问题是：上表1的通话时间：“2.03-6.32”一行回访者所问的问题，这时想确认上表1的通话时间：“7.19-7.43”一行受访者所回复讲话(当前问题对应的受访者的待标注回复文本数据)的语义，那么首先获取当前问题对应的下一问题的话术类型：上表1中通话时间：“7.85-18.55”一行回访者所问的下一问题的话术类型是：“回访意愿确认”的话术类型，那么，证明当前问题对应的受访者的待标注回复文本数据的语义是确认了身份的语义。

接着，可以将待标注回复文本数据的语义(确认了身份的语义)输入到预先存储的回复文本数据语义与标记类型的关系(例如一张表格)中匹配查找，确定待标注回复文本数据对应的标记，例如，将确认了身份的语义输入到一个预先存储的回复文本数据语义与标记类型的关系中，匹配出待标注回复文本数据对应的标记(例如下表2中的用户语义标签)：“是”，于是，将这个“是”的标记与待标注回复文本数据进行关联，形成如下表2中所示的关系，根据回访者的当前问题标识(例如问题标号1、2等等)，回访者的当前问题(名称或话术类型)以及上述关系关联，即将这个标记与相关的用户答案联系起来，即可生成一个标注样本生成当前问题对应的回访标注样本数据，直至生成所有问题(所有轮对话)对应的回访标注样本数据，生成的回访标注样本如下表2所示。

问题编号	话术类型	用户回复	用户语义标签
				1	身份确认	是的	是
1	身份确认	不是的	否
				1	身份确认	不对	否
2	回访意愿确认	好啊	同意
				2	回访意愿确认	没时间	不同意
2	回访意愿确认	我开车呢待会再打	用户忙

表2

基于同一发明构思，本发明实施例中还提供了一种回访标注样本数据的生成装置，如下面的实施例所述。由于回访标注样本数据的生成装置解决问题的原理与回访标注样本数据的生成方法相似，因此回访标注样本数据的生成装置的实施可以参见回访标注样本数据的生成方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例中回访标注样本数据的生成装置的结构示意图，如图3所示，该装置包括：

获取单元01，用于获取待标注的回访通话语音数据；

语音识别单元02，用于对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；

样本生成单元03，用于对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；根据待标注回复文本数据，以及预先存储的回复文本数据与标记类型的关系，确定待标注回复文本数据对应的标记；将待标注回复文本数据与确定出的标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据。

在一个实施例中，据回访者的当前问题文本数据，确定回访者的当前问题文本数据对应的当前话术类型，可以包括：

从回访者的当前问题文本数据中提取关键字；

获取回访者的当前问题文本数据对应的下一问题文本数据；

本发明实施例提供技术方案的有益技术效果是：实现了自动快速生成回访标注样本数据，提高了回访标注样本数据的生成效率，对智能客服机器人的开发有较大助益。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种回访标注样本数据的生成方法，其特征在于，包括：

获取保险行业中待标注的回访通话语音数据；

对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；每一条回访文本数据包括：通话开始时间、通话结束时间、通话内容及通话角色；

对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；获取回访者的当前问题文本数据对应的下一问题文本数据；根据下一问题文本数据的话术类型，确定当前问题对应的受访者的待标注回复文本数据的语义；根据待标注回复文本数据的语义，以及预先存储的回复文本数据语义与标记类型的关系，确定待标注回复文本数据对应的语义标记；将待标注回复文本数据与确定出的语义标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据；所述回访标注样本数据包括：问题标识、话术类型、回复文本数据及语义标记，所述回访标注样本数据用于模型训练。

2.如权利要求1所述的回访标注样本数据的生成方法，其特征在于，根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识，包括：

3.如权利要求2所述的回访标注样本数据的生成方法，其特征在于，根据回访者的当前问题文本数据，确定回访者的当前问题文本数据对应的当前话术类型，包括：

从回访者的当前问题文本数据中提取关键字；

4.一种回访标注样本数据的生成装置，其特征在于，包括：

获取单元，用于获取保险行业中待标注的回访通话语音数据；

语音识别单元，用于对所述待标注的回访通话语音数据进行语音识别，得到回访文本数据；将所述回访文本数据中回访者的问题文本数据与受访者的回复文本数据按通话时间顺序和角色进行分离，得到待标注的回访文本数据；每一条回访文本数据包括：通话开始时间、通话结束时间、通话内容及通话角色；

样本生成单元，用于对于待标注的回访文本数据进行如下处理，直至生成所有问题对应的回访标注样本数据：根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识；根据当前问题标识和通话时间顺序，确定当前问题对应的受访者的待标注回复文本数据；获取回访者的当前问题文本数据对应的下一问题文本数据；根据下一问题文本数据的话术类型，确定当前问题对应的受访者的待标注回复文本数据的语义；根据待标注回复文本数据的语义，以及预先存储的回复文本数据语义与标记类型的关系，确定待标注回复文本数据对应的语义标记；将待标注回复文本数据与确定出的语义标记进行关联，形成关联关系；根据回访者的当前问题标识，回访者的当前问题以及所述关联关系，生成当前问题对应的回访标注样本数据，直至生成所有问题对应的回访标注样本数据；所述回访标注样本数据包括：问题标识、话术类型、回复文本数据及语义标记，所述回访标注样本数据用于模型训练。

5.如权利要求4所述的回访标注样本数据的生成装置，其特征在于，根据回访者的当前问题文本数据对应的话术类型，确定回访者的当前问题标识，包括：

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一所述方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至3任一所述方法的计算机程序。