CN112669863A

CN112669863A - 一种基于变声能力的人机接力服务方法

Info

Publication number: CN112669863A
Application number: CN202011579324.7A
Authority: CN
Inventors: 赵发君; 卫海智; 苏玉虎; 吴疆; 李钊辉
Original assignee: Kexun Jialian Information Technology Co ltd
Current assignee: Kexun Jialian Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16

Abstract

本发明公开了一种基于变声能力的人机接力服务方法，变声服务中每一个电话机器人发音音色对应一个变声模型，且电话机器人音色编号与变声模型编号相同；提取人工客服语音流中的BN数据，所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息；变声服务根据电话机器人发音音色编号载入对应编号的变声模型，通过变声模型将BN数据转变成与机器人发音音色相同的音频序列，并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中。利用变声模型将人工客服的说话声音转换成与电话机器人发音音色相同的声音，使得用户对人机切换无感知，提升业务服务效果及水平。

Description

一种基于变声能力的人机接力服务方法

技术领域

本发明涉及语音定向变声技术领域，更具体地说，涉及一种基于变声能力的人机接力服务方法，

背景技术

人工智能技术近年发展迅速，尤其在智能客服领域，目前电话机器人已经广泛应用于物流、金融、运营商、餐饮等行业。在很多业务场景，电话机器人无法完美解决用户需求，例如：投诉、复杂业务办理等，需要人工客服介入，解决用户需求。电话接力方式是其中一种人机结合的电话服务方式，即电话机器人在无法解决或者办理的情况下，将电话转接到人工客服接听并解决。

目前电话机器人发出的声音与人工客服声音差距较大，转接人工服务时用户感知较为明显，可能存在不适应或者不满意等情况，导致用户对客服服务不满意。

发明内容

本发明的目的在于提供一种基于变声能力的人机接力服务方法，通过变声服务与电话平台结合，将人工客服的说话声音转换成与电话机器人发音音色相同的声音，使得用户对人机切换无感知，提升业务服务效果及水平用以解决上述背景技术中存在的技术问题。

本发明技术方案一种基于变声能力的人机接力服务方法，变声服务中每一个电话机器人发音音色对应一个变声模型，且电话机器人音色编号与变声模型编号相同；

步骤1：电话机器人向IVR发出转接人工服务请求，IVR接收转接任务并将通话话路转接到人工坐席平台，同时，电话机器人将历史交互信息和电话机器人音色编号推送至人工坐席平台；

步骤2：人工坐席平台从电话机器人无法解答或者办理的节点继续解答或者办理业务，并将人工坐席平台应答语音流实时传送到变声服务中；

步骤3：提取人工客服语音流中的BN数据，所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息；

步骤4：变声服务根据电话机器人发音音色编号载入对应编号的变声模型，通过变声模型将BN数据转变成与机器人发音音色相同的音频序列，并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中；

步骤5：通过IVR将语音实时向客服播报。

在一个优选地实施例中，变声模型的构建方法为：

S1、采集通话信道下的真人通话录音；

S2、提取录音中的音色数据；

S3、通过音色数据训练变声模型，得到与电话机器人发音音色相同的变声模型。

在一个优选地实施例中，所述BN数据和音色数据均通过LSTMP模型提取。

在一个优选地实施例中，所述变声模型为FFNN模型。

在一个优选地实施例中，所述变声服务器采用http接口和nginx负载。

在一个优选地实施例中，所述变声服务采用流推式且生成速率大于1。

本发明技术方案的有益效果是：

1、利用变声模型将人工客服的说话声音转换成与电话机器人发音音色相同的声音，使得用户对人机切换无感知，提升业务服务效果及水平。

2、http接口支持实时语音流输入、输出，人工客服音频每20ms向变声服务发送一次，保证语音输出的实时性，nginx负载保证变声的可靠性；变声服务采用流推式且生成速率大于1，保证变声音频的连续性。

附图说明

图1为本发明整体逻辑框架图，

图2为本发明整体流程图，

图3为本发明变声模型构建流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

如图1-图2所示，本发明一种基于变声能力的人机接力服务方法，在电话机器人无法解决用户提出的问题时，人工客服接力继续为顾客提供服务。为实现机电话机器人到人工客服应答的无感知切换，通过变声服务对人工客服变声。变声服务中每一个电话机器人发音音色对应一个变声模型，且电话机器人音色编号与变声模型编号相同。通过变声模型将人工客服音色转换成电话机器人音色，实现同音色接力服务。具体接力服务包括以下步骤：

步骤3：提取人工客服语音流中的BN数据，BN数据包括与人工客服发音音色无关的语义和韵律参数信息；

步骤5：通过IVR将语音实时向客服播报。

如图3所示，变声模型采用机器学习法，通过采集真人语音训练学习构建，变声模型的构建方法为：

S1、采集通话信道下的真人通话录音；

S2、提取录音中的音色数据；

BN数据和音色数据均通过LSTMP模型提取。LSTMP(长短期记忆+投射层)是LSTM的变种算法，在LSTM的基础上增加了压缩层，把LSTM的高纬度输出向量降维，减少神经单元的维度，从而减少了参数矩阵的参数数量，降低了LSTM的计算量。变声中通过LSTMP模型提取源音频中的BN数据，变声模型构建中所通过LSTMP提取音色数据。

所述变声模型为FFNN模型。FFNN(前馈神经网络)，在变声中将BN数据输入到FFNN模型中，输出的结果为含有电话机器人音色的音频序列，即变声后的音频序列。

WaveNet模型采用softmax层作为输出层，将FFNN模型生成的不自然的音频序列，通过层层堆叠的延时卷积单元转换成更为流畅的语音作为输出。

IVR为互动式应答系统，实现用户、电话机器人、人工坐席平台、变声服务之间的语音流、信息输送。

变声服务器采用http接口和nginx负载。http接口支持实时语音流输入输出，人工客服音频每20ms向变声服务发送一次，保证语音输出的实时性，nginx负载保证变声的可靠性。

变声服务采用流推式且生成速率大于1，保证变声音频的连续性。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法，如无特别说明和限定，均按照本领域的常规手段进行实施。

Claims

1.一种基于变声能力的人机接力服务方法，其特征在于，变声服务中每一个电话机器人发音音色对应一个变声模型，且电话机器人音色编号与变声模型编号相同；

步骤2：人工坐席平台从电话机器人无法解答或者业务办理的节点继续解答或者办理业务，并将人工坐席平台应答语音流实时传送到变声服务中；

步骤5：通过IVR将语音实时向客服播报。

2.根据权利要求1所述的基于变声能力的人机接力服务的方法，其特征在于，变声模型的构建方法为：

S1、采集通话信道下的真人通话录音；

S2、提取录音中的音色数据；

3.根据权利要求2所述的基于变声能力的人机接力服务的方法，所述BN数据和音色数据均通过LSTMP模型提取。

4.根据权利要求1所述的基于变声能力的人机接力服务的方法，所述变声模型为FFNN模型。

5.根据权利要求1所述的基于变声能力的人机接力服务的方法，其特征在于，所述变声服务器采用http接口和nginx负载。

6.根据权利要求1所述的基于变声能力的人机接力服务的方法，其特征在于，所述变声服务采用流推式且生成速率大于1。