CN112669863A - 一种基于变声能力的人机接力服务方法 - Google Patents

一种基于变声能力的人机接力服务方法 Download PDF

Info

Publication number
CN112669863A
CN112669863A CN202011579324.7A CN202011579324A CN112669863A CN 112669863 A CN112669863 A CN 112669863A CN 202011579324 A CN202011579324 A CN 202011579324A CN 112669863 A CN112669863 A CN 112669863A
Authority
CN
China
Prior art keywords
sound
service
voice
model
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011579324.7A
Other languages
English (en)
Inventor
赵发君
卫海智
苏玉虎
吴疆
李钊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kexun Jialian Information Technology Co ltd
Original Assignee
Kexun Jialian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kexun Jialian Information Technology Co ltd filed Critical Kexun Jialian Information Technology Co ltd
Priority to CN202011579324.7A priority Critical patent/CN112669863A/zh
Publication of CN112669863A publication Critical patent/CN112669863A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于变声能力的人机接力服务方法,变声服务中每一个电话机器人发音音色对应一个变声模型,且电话机器人音色编号与变声模型编号相同;提取人工客服语音流中的BN数据,所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息;变声服务根据电话机器人发音音色编号载入对应编号的变声模型,通过变声模型将BN数据转变成与机器人发音音色相同的音频序列,并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中。利用变声模型将人工客服的说话声音转换成与电话机器人发音音色相同的声音,使得用户对人机切换无感知,提升业务服务效果及水平。

Description

一种基于变声能力的人机接力服务方法
技术领域
本发明涉及语音定向变声技术领域,更具体地说,涉及一种基于变声能力的人机接力服务方法,
背景技术
人工智能技术近年发展迅速,尤其在智能客服领域,目前电话机器人已经广泛应用于物流、金融、运营商、餐饮等行业。在很多业务场景,电话机器人无法完美解决用户需求,例如:投诉、复杂业务办理等,需要人工客服介入,解决用户需求。电话接力方式是其中一种人机结合的电话服务方式,即电话机器人在无法解决或者办理的情况下,将电话转接到人工客服接听并解决。
目前电话机器人发出的声音与人工客服声音差距较大,转接人工服务时用户感知较为明显,可能存在不适应或者不满意等情况,导致用户对客服服务不满意。
发明内容
本发明的目的在于提供一种基于变声能力的人机接力服务方法,通过变声服务与电话平台结合,将人工客服的说话声音转换成与电话机器人发音音色相同的声音,使得用户对人机切换无感知,提升业务服务效果及水平用以解决上述背景技术中存在的技术问题。
本发明技术方案一种基于变声能力的人机接力服务方法,变声服务中每一个电话机器人发音音色对应一个变声模型,且电话机器人音色编号与变声模型编号相同;
步骤1:电话机器人向IVR发出转接人工服务请求,IVR接收转接任务并将通话话路转接到人工坐席平台,同时,电话机器人将历史交互信息和电话机器人音色编号推送至人工坐席平台;
步骤2:人工坐席平台从电话机器人无法解答或者办理的节点继续解答或者办理业务,并将人工坐席平台应答语音流实时传送到变声服务中;
步骤3:提取人工客服语音流中的BN数据,所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息;
步骤4:变声服务根据电话机器人发音音色编号载入对应编号的变声模型,通过变声模型将BN数据转变成与机器人发音音色相同的音频序列,并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中;
步骤5:通过IVR将语音实时向客服播报。
在一个优选地实施例中,变声模型的构建方法为:
S1、采集通话信道下的真人通话录音;
S2、提取录音中的音色数据;
S3、通过音色数据训练变声模型,得到与电话机器人发音音色相同的变声模型。
在一个优选地实施例中,所述BN数据和音色数据均通过LSTMP模型提取。
在一个优选地实施例中,所述变声模型为FFNN模型。
在一个优选地实施例中,所述变声服务器采用http接口和nginx负载。
在一个优选地实施例中,所述变声服务采用流推式且生成速率大于1。
本发明技术方案的有益效果是:
1、利用变声模型将人工客服的说话声音转换成与电话机器人发音音色相同的声音,使得用户对人机切换无感知,提升业务服务效果及水平。
2、http接口支持实时语音流输入、输出,人工客服音频每20ms向变声服务发送一次,保证语音输出的实时性,nginx负载保证变声的可靠性;变声服务采用流推式且生成速率大于1,保证变声音频的连续性。
附图说明
图1为本发明整体逻辑框架图,
图2为本发明整体流程图,
图3为本发明变声模型构建流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
如图1-图2所示,本发明一种基于变声能力的人机接力服务方法,在电话机器人无法解决用户提出的问题时,人工客服接力继续为顾客提供服务。为实现机电话机器人到人工客服应答的无感知切换,通过变声服务对人工客服变声。变声服务中每一个电话机器人发音音色对应一个变声模型,且电话机器人音色编号与变声模型编号相同。通过变声模型将人工客服音色转换成电话机器人音色,实现同音色接力服务。具体接力服务包括以下步骤:
步骤1:电话机器人向IVR发出转接人工服务请求,IVR接收转接任务并将通话话路转接到人工坐席平台,同时,电话机器人将历史交互信息和电话机器人音色编号推送至人工坐席平台;
步骤2:人工坐席平台从电话机器人无法解答或者办理的节点继续解答或者办理业务,并将人工坐席平台应答语音流实时传送到变声服务中;
步骤3:提取人工客服语音流中的BN数据,BN数据包括与人工客服发音音色无关的语义和韵律参数信息;
步骤4:变声服务根据电话机器人发音音色编号载入对应编号的变声模型,通过变声模型将BN数据转变成与机器人发音音色相同的音频序列,并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中;
步骤5:通过IVR将语音实时向客服播报。
如图3所示,变声模型采用机器学习法,通过采集真人语音训练学习构建,变声模型的构建方法为:
S1、采集通话信道下的真人通话录音;
S2、提取录音中的音色数据;
S3、通过音色数据训练变声模型,得到与电话机器人发音音色相同的变声模型。
BN数据和音色数据均通过LSTMP模型提取。LSTMP(长短期记忆+投射层)是LSTM的变种算法,在LSTM的基础上增加了压缩层,把LSTM的高纬度输出向量降维,减少神经单元的维度,从而减少了参数矩阵的参数数量,降低了LSTM的计算量。变声中通过LSTMP模型提取源音频中的BN数据,变声模型构建中所通过LSTMP提取音色数据。
所述变声模型为FFNN模型。FFNN(前馈神经网络),在变声中将BN数据输入到FFNN模型中,输出的结果为含有电话机器人音色的音频序列,即变声后的音频序列。
WaveNet模型采用softmax层作为输出层,将FFNN模型生成的不自然的音频序列,通过层层堆叠的延时卷积单元转换成更为流畅的语音作为输出。
IVR为互动式应答系统,实现用户、电话机器人、人工坐席平台、变声服务之间的语音流、信息输送。
变声服务器采用http接口和nginx负载。http接口支持实时语音流输入输出,人工客服音频每20ms向变声服务发送一次,保证语音输出的实时性,nginx负载保证变声的可靠性。
变声服务采用流推式且生成速率大于1,保证变声音频的连续性。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。

Claims (6)

1.一种基于变声能力的人机接力服务方法,其特征在于,变声服务中每一个电话机器人发音音色对应一个变声模型,且电话机器人音色编号与变声模型编号相同;
步骤1:电话机器人向IVR发出转接人工服务请求,IVR接收转接任务并将通话话路转接到人工坐席平台,同时,电话机器人将历史交互信息和电话机器人音色编号推送至人工坐席平台;
步骤2:人工坐席平台从电话机器人无法解答或者业务办理的节点继续解答或者办理业务,并将人工坐席平台应答语音流实时传送到变声服务中;
步骤3:提取人工客服语音流中的BN数据,所述BN数据包括与人工客服发音音色无关的语义和韵律参数信息;
步骤4:变声服务根据电话机器人发音音色编号载入对应编号的变声模型,通过变声模型将BN数据转变成与机器人发音音色相同的音频序列,并通过WaveNet模型将音频序列转换成流畅语音输送至IVR中;
步骤5:通过IVR将语音实时向客服播报。
2.根据权利要求1所述的基于变声能力的人机接力服务的方法,其特征在于,变声模型的构建方法为:
S1、采集通话信道下的真人通话录音;
S2、提取录音中的音色数据;
S3、通过音色数据训练变声模型,得到与电话机器人发音音色相同的变声模型。
3.根据权利要求2所述的基于变声能力的人机接力服务的方法,所述BN数据和音色数据均通过LSTMP模型提取。
4.根据权利要求1所述的基于变声能力的人机接力服务的方法,所述变声模型为FFNN模型。
5.根据权利要求1所述的基于变声能力的人机接力服务的方法,其特征在于,所述变声服务器采用http接口和nginx负载。
6.根据权利要求1所述的基于变声能力的人机接力服务的方法,其特征在于,所述变声服务采用流推式且生成速率大于1。
CN202011579324.7A 2020-12-28 2020-12-28 一种基于变声能力的人机接力服务方法 Pending CN112669863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579324.7A CN112669863A (zh) 2020-12-28 2020-12-28 一种基于变声能力的人机接力服务方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579324.7A CN112669863A (zh) 2020-12-28 2020-12-28 一种基于变声能力的人机接力服务方法

Publications (1)

Publication Number Publication Date
CN112669863A true CN112669863A (zh) 2021-04-16

Family

ID=75410733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579324.7A Pending CN112669863A (zh) 2020-12-28 2020-12-28 一种基于变声能力的人机接力服务方法

Country Status (1)

Country Link
CN (1) CN112669863A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227188A1 (zh) * 2021-04-27 2022-11-03 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
CN116246643A (zh) * 2022-12-26 2023-06-09 深度好奇(杭州)科技有限公司 语音机器人与人工座席音色归一化的方法、系统及设备
WO2023102932A1 (zh) * 2021-12-10 2023-06-15 广州虎牙科技有限公司 音频转换方法、电子设备、程序产品及存储介质
CN117411970A (zh) * 2023-10-17 2024-01-16 广州易风健康科技股份有限公司 一种基于声音处理的人机耦合客服控制方法及系统
CN118555143A (zh) * 2024-07-29 2024-08-27 广东保伦电子股份有限公司 一种音频加密和解密方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016045479A1 (zh) * 2014-09-25 2016-03-31 北京橙鑫数据科技有限公司 客服电话处理方法及装置
CN111246027A (zh) * 2020-04-28 2020-06-05 南京硅基智能科技有限公司 一种实现人机协同的语音通讯系统及方法
CN111739549A (zh) * 2020-08-17 2020-10-02 北京灵伴即时智能科技有限公司 声音优化方法及声音优化系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016045479A1 (zh) * 2014-09-25 2016-03-31 北京橙鑫数据科技有限公司 客服电话处理方法及装置
CN111246027A (zh) * 2020-04-28 2020-06-05 南京硅基智能科技有限公司 一种实现人机协同的语音通讯系统及方法
CN111739549A (zh) * 2020-08-17 2020-10-02 北京灵伴即时智能科技有限公司 声音优化方法及声音优化系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
党建武 等: "《听觉信息处理研究前沿》", 31 December 2019, 上海:上海交通大学出版社, pages: 163 - 165 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227188A1 (zh) * 2021-04-27 2022-11-03 平安科技(深圳)有限公司 语音的智能客服回答方法、装置以及计算机设备
WO2023102932A1 (zh) * 2021-12-10 2023-06-15 广州虎牙科技有限公司 音频转换方法、电子设备、程序产品及存储介质
CN116246643A (zh) * 2022-12-26 2023-06-09 深度好奇(杭州)科技有限公司 语音机器人与人工座席音色归一化的方法、系统及设备
CN116246643B (zh) * 2022-12-26 2023-07-28 深度好奇(杭州)科技有限公司 语音机器人与人工座席音色归一化的方法、系统及设备
CN117411970A (zh) * 2023-10-17 2024-01-16 广州易风健康科技股份有限公司 一种基于声音处理的人机耦合客服控制方法及系统
CN117411970B (zh) * 2023-10-17 2024-06-07 广州易风健康科技股份有限公司 一种基于声音处理的人机耦合客服控制方法及系统
CN118555143A (zh) * 2024-07-29 2024-08-27 广东保伦电子股份有限公司 一种音频加密和解密方法

Similar Documents

Publication Publication Date Title
CN112669863A (zh) 一种基于变声能力的人机接力服务方法
US11282516B2 (en) Human-machine interaction processing method and apparatus thereof
CN106063255B (zh) 显示视频会议期间的演讲者的方法和系统
KR20200124594A (ko) 인간-기계 대화 방법, 장치 및 전자 기기
CN111885273B (zh) 人机协作可管控智能语音外呼方法及智能外呼机器人平台
JP2022524944A (ja) インタラクション方法、装置、電子機器及び記憶媒体
US8332231B2 (en) Apparatus and method for processing service interactions
CN109977218B (zh) 一种应用于对话场景的自动应答系统和方法
US7665024B1 (en) Methods and apparatus for controlling a user interface based on the emotional state of a user
CN110442701A (zh) 语音对话处理方法及装置
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN112100352A (zh) 与虚拟对象的对话方法、装置、客户端及存储介质
US20200092339A1 (en) Providing device control instructions for increasing conference participant interest based on contextual data analysis
CN110147435A (zh) 对话生成方法、装置、设备及存储介质
CN110557451A (zh) 对话交互处理方法、装置、电子设备和存储介质
US11115526B2 (en) Real time sign language conversion for communication in a contact center
US12046249B2 (en) Bandwidth extension of incoming data using neural networks
CN111739549B (zh) 声音优化方法及声音优化系统
CN111263014A (zh) 用于聊天机器人与人类通话的可编程智能代理机
CN114500757A (zh) 语音交互方法、装置、计算机设备及存储介质
KR20230038165A (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN114760425A (zh) 数字人生成方法、装置、计算机设备和存储介质
WO2021109741A1 (zh) 一种服务方法、装置、系统、设备及存储介质
US11741964B2 (en) Transcription generation technique selection
CN112185383A (zh) 一种用于客服回访的处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination