CN113873324A

CN113873324A - 一种音频处理的方法、装置、存储介质和设备

Info

Publication number: CN113873324A
Application number: CN202111212389.2A
Authority: CN
Inventors: 李锦焕; 田升; 穆少垒
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2021-12-31

Abstract

本申请公开了一种音频处理的方法、装置、存储介质和设备，基于人工坐席的原声音频，获得嘴型动画视频，对所述原声音频进行变声处理，得到变声音频，基于所述嘴型动画视频和所述变声音频，合成数字人视频。利用本申请所示方案，基于原声音频的嘴型动画视频与变声音频合成得到数字人视频，能够使数字人的嘴型与视频中播放的客服语音准确匹配。

Description

一种音频处理的方法、装置、存储介质和设备

技术领域

本申请涉及智能客服领域，尤其涉及一种音频处理的方法、装置、存储介质和设备。

背景技术

当前客户通过坐席系统与人工坐席进行沟通时，单纯进行语音交互会显得较为无趣，为了丰富客户体验，智能客户领域推出了一种面向客户面对面沟通的数字人客服，即根据人工坐席的原声音频，虚拟得出数字人视频，并在客户端的界面中同步播放数字人视频。

然而，现有方式虚拟得出的数字人视频中，嘴型动作显得不够逼真，即数字人的嘴型与视频中播放的客服语音不匹配，给客户带来较为差劲的观感。

发明内容

本申请提供了一种音频处理的方法、装置、存储介质和设备，目的在于使数字人的嘴型与视频中播放的客服语音准确匹配。

为了实现上述目的，本申请提供了以下技术方案：

一种音频处理的方法，包括：

基于人工坐席的原声音频，获得嘴型动画视频；

对所述原声音频进行变声处理，得到变声音频；

基于所述嘴型动画视频和所述变声音频，合成数字人视频。

可选的，所述基于人工坐席的原声音频进行基音检测，获得嘴型动画视频，包括：

对人工坐席的原声音频进行基音检测，得到基音轨迹信息；所述基音轨迹信息包括各个基音，以及每个所述基音的时间戳和持续时间；所述时间戳表征所述基音在所述原声音频中的出现时间点；

对于每个所述基音，获取与所述基音对应的嘴型图像；

对n张所述嘴型图像进行动画合成，得到所述基音的嘴型动画；n代表所述嘴型图像的动画帧数；所述动画帧数为所述基音的持续时间与预设数值的乘积；

按照所述基音的出现时间点由早到晚的顺序，对各个所述基音的嘴型动画进行排列组合，得到嘴型动画视频。

可选的，所述基于所述嘴型动画视频和所述变声音频，合成数字人视频，包括：

将所述变声音频划分为m个子音频；m为大于1的正整数；每个所述子音频的播放时长均相同；

按照所述子音频的播放时序由早到晚的顺序，将各个所述子音频进行排序，得到子音频序列；

将所述嘴型动画视频划分为m个子视频；每个所述子视频的播放时长均相同；

按照所述子视频的播放时序由早到晚的顺序，将各个所述子视频进行排序，得到子视频序列；

将所述子音频序列中的每个子音频，与所述子视频序列中的每个子视频进行配对，得到组合序列；所述组合序列包括m个组合；每个所述组合均包括一个所述子音频和一个所述子视频，且所述组合的序号、所述子音频的序号和所述子视频的序号均相同；

对于每个所述组合，将所述组合中的子音频和子视频进行合成处理，得到与所述组合对应的短视频；

按照序号由前到后的顺序，将与每个所述组合对应的短视频进行排列组合，得到数字人视频。

可选的，所述对所述原声音频进行变声处理，得到变声音频，包括：

将原声音频划分为m个子音频；m为大于1的正整数；每个所述子音频的播放时长均相同；

对于每个所述子音频，判断所述子音频是否为无声音频；

在所述子音频不为所述无声音频的情况下，将所述子音频标识为有效音频；

对各个所述有效音频进行变声处理，得到各个有效变声音频；

按照所述有效变声音频的播放时序由早到晚的顺序，将各个所述有效变声音频进行排列组合，得到变声音频。

可选的，所述对于每个所述子音频，判断所述子音频是否为无声音频之后，还包括：

在所述子音频为所述无声音频的情况下，将所述子音频标识为无效音频，并对所述无效音频进行删除。

预先获取与所述人工坐席进行沟通的用户的个人信息；

对所述个人信息进行分析，得到所述用户的偏好声音；

按照所述偏好声音，对所述原声音频进行变声处理，得到变声音频。

判断所述人工坐席的业务范围中是否包含变声沟通业务；

在确定所述人工坐席的业务范围中包含所述变声沟通业务的情况下，对所述原声音频进行变声处理，得到变声音频。

可选的，还包括：

在确定所述人工坐席的业务范围中不包含所述变声沟通业务的情况下，禁止对所述原声音频进行变声处理；

所述基于所述嘴型动画视频和所述变声音频，合成数字人视频，包括：

基于所述嘴型动画视频和所述原声音频，合成数字人视频。

可选的，还包括：

将所述数字人视频发送给客户端，使得所述客户端调用多媒体界面播放所述数字人视频。

一种音频处理的装置，包括：

嘴型视频获得单元，用于基于人工坐席的原声音频，获得嘴型动画视频；

变声音频获得单元，用于对所述原声音频进行变声处理，得到变声音频；

数字人视频合成单元，用于基于所述嘴型动画视频和所述变声音频，合成数字人视频。

可选的，所述嘴型视频获得单元具体用于：

对于每个所述基音，获取与所述基音对应的嘴型图像；

可选的，所述数字人视频合成单元具体用于：

可选的，所述变声音频获得单元具体用于：

对于每个所述子音频，判断所述子音频是否为无声音频；

可选的，所述变声音频获得单元还用于：

可选的，所述变声音频获得单元具体用于：

预先获取与所述人工坐席进行沟通的用户的个人信息；

对所述个人信息进行分析，得到所述用户的偏好声音；

可选的，所述变声音频获得单元具体用于：

判断所述人工坐席的业务范围中是否包含变声沟通业务；

可选的，所述变声音频获得单元还用于：

所述数字人视频合成单元具体用于：

基于所述嘴型动画视频和所述原声音频，合成数字人视频。

可选的，还包括：

视频发送单元，用于将所述数字人视频发送给客户端，使得所述客户端调用多媒体界面播放所述数字人视频。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的音频处理的方法。

一种音频处理的设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的音频处理的方法。

本申请提供的技术方案，基于人工坐席的原声音频，获得嘴型动画视频。对所述原声音频进行变声处理，得到变声音频。基于所述嘴型动画视频和所述变声音频，合成数字人视频。利用本申请所示方案，基于原声音频的嘴型动画视频与变声音频合成得到数字人视频，能够使数字人的嘴型与视频中播放的客服语音准确匹配。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种音频处理的方法的流程示意图；

图1b为本申请实施例提供的一种音频处理的方法的流程示意图；

图2为本申请实施例提供的另一种音频处理的方法的流程示意图；

图3为本申请实施例提供的一种音频处理的装置的架构示意图；

图4为本申请实施例提供的一种应用环境示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请人发现：原声音频中包含有杂音，现有技术通常会对原声音频进行变声处理，得到变声音频，变声处理过程中无法区分杂音和客服语音，只能将杂音和客服语音都转变成相同音色的声音，后续在对变声音频进行嘴型合成时，由于杂音的音色与客服语音的音色相同，故合成得到的嘴型动画视频中会存在与杂音对应的嘴型动作，导致由变声视频和嘴型动画视频合成得到的数字人视频中，数字人的嘴型与播放的客服语音不匹配。

此外，申请人还发现：直接对原声音频进行嘴型合成所得到的嘴型动画视频中，由于原声音频中的杂音与客服语音存在较为明显的音色区别和音量区别，因此，与杂音对应的嘴型动作，相较于与客服语音对应的嘴型动作，会显得较为不明显(即嘴型动作的幅度较小)，较为容易被用户忽视掉，从用户观感上来说，数字人的嘴型与视频中播放的客服语音会显得更为准确匹配。

基于上述申请人的发现，本申请实施例提供了一种音频处理的方法。

如图1a和图1b所示，为本申请实施例提供的一种音频处理的方法的流程示意图，包括如下步骤：

S101：对人工坐席的原声音频进行基音检测，得到基音轨迹信息。

其中，基音是指发浊音时声带振动的周期，基音周期的估计称为基音检测，其目的是提取出与声带振动频率一致或尽可能相吻合的基音周期变化的轨迹曲线。

需要说明的是，基音轨迹信息包括各个基音，以及每个基音的时间戳和持续时间。在本申请实施例中，时间戳表征基音在原声音频中的出现时间点。

S102：对于每个基音，获取与基音对应的嘴型图像。

S103：计算基音的持续时间与预设数值的乘积，得到嘴型图像的动画帧数。

S104：对n张嘴型图像进行动画合成，得到基音的嘴型动画。

其中，n代表嘴型图像的动画帧数。

S105：按照基音的出现时间点由早到晚的顺序，对各个基音的嘴型动画进行排列组合，得到嘴型动画视频。

S106：对原声音频进行变声处理，得到变声音频。

其中，对原声音频进行变声处理，得到变声音频的具体过程，包括如下步骤：

1、将原声音频划分为m个子音频；m为大于1的正整数；每个子音频的播放时长均相同；

2、对于每个子音频，判断子音频是否为无声音频；

3、在子音频不为无声音频的情况下，将子音频标识为有效音频；

4、对各个有效音频进行变声处理，得到各个有效变声音频；

5、按照有效变声音频的播放时序由早到晚的顺序，将各个有效变声音频进行排列组合，得到变声音频；

6、在子音频为无声音频的情况下，将子音频标识为无效音频，并对无效音频进行删除。

需要说明的是，删除无效音频，且只对有效音频进行变声处理，能够省略不必要的变声处理工作，从而有效提高变声处理的效率。

可选的，可以预先获取与人工坐席进行沟通的用户的个人信息，对个人信息进行分析，得到用户的偏好声音，并按照偏好声音，对原声音频进行变声处理，得到变声音频。

需要说明的是，按照偏好声音，对原声音频进行变声处理，得到变声音频，能够确保最终展示给用户的变声声音，为用户所喜欢的声音。具体的，假设用户的个人信息包括年龄为18岁、性别为女、且个人历史购物信息中记录有多条xx卡通人物的产品的购买记录，对该用户的个人信息进行分析，得到用户的偏好声音为xx卡通人物的声音，故按照xx卡通人物的声音，对原声音频进行变声处理，得到变声音频，从而有效丰富用户体验。

此外，个别业务场景下，需要采用人工坐席的原有声音与客户进行沟通，而不适宜采用其他变声得到的声音与客户沟通。

可选的，可以判断人工坐席的业务范围中是否包含变声沟通业务，在确定人工坐席的业务范围中包含变声沟通业务的情况下，对原声音频进行变声处理，得到变声音频；在确定人工坐席的业务范围中不包含变声沟通业务的情况下，禁止对原声音频进行变声处理，并基于嘴型动画视频和原声音频，合成数字人视频。

S107：将变声音频划分为m个子音频。

其中，m为大于1的正整数，每个子音频的播放时长均相同。

S108：按照子音频的播放时序由早到晚的顺序，将各个子音频进行排序，得到子音频序列。

S109：将嘴型动画视频划分为m个子视频。

其中，每个子视频的播放时长均相同。

S110：按照子视频的播放时序由早到晚的顺序，将各个子视频进行排序，得到子视频序列。

S111：将子音频序列中的每个子音频，与子视频序列中的每个子视频进行配对，得到组合序列。

其中，组合序列包括m个组合，每个组合均包括一个子音频和一个子视频，且组合的序号、子音频的序号和子视频的序号均相同。

S112：对于每个组合，将组合中的子音频和子视频进行合成处理，得到与组合对应的短视频。

S113：按照序号由前到后的顺序，将与每个组合对应的短视频进行排列组合，得到数字人视频。

需要说明的是，将嘴型动画视频拆分为各个子视频，以及将变声音频拆分为各个子音频，而后利用对应的子视频和子音频合成得到短视频，最后对各个短视频进行排列组合，得到数字人视频，相较于直接利用嘴型动画视频和变声视频合成得到数字人视频，本实施例所示方式得到的数字人视频，数字人的嘴型和视频中播放的客服语音更为匹配。

S114：将数字人视频发送给客户端，使得客户端调用多媒体界面播放数字人视频。

利用本实施例所示方案，基于原声音频的嘴型动画视频与变声音频合成得到数字人视频，能够使数字人的嘴型与视频中播放的客服语音准确匹配。

需要说明的是，上述实施例提及的S101，为本申请所示音频处理的方法的一种可选的实现方式。此外，上述实施例提及的S114，也为本申请所示音频处理的方法的一种可选的实现方式。为此，上述实施例提及的流程，可以概括为图2所示的方法。

如图2所示，为本申请实施例提供的另一种音频处理的方法的流程示意图，包括如下步骤：

S201：基于人工坐席的原声音频，获得嘴型动画视频。

S202：对所述原声音频进行变声处理，得到变声音频。

S203：基于所述嘴型动画视频和所述变声音频，合成数字人视频。

与本申请实施例提供的音频处理的方法相对应，本申请实施例还提供了一种音频处理的装置。

如图3所示，为本申请实施例提供的一种音频处理的装置的架构示意图，包括：

嘴型视频获得单元100，用于基于人工坐席的原声音频，获得嘴型动画视频。

其中，嘴型视频获得单元100具体用于：对人工坐席的原声音频进行基音检测，得到基音轨迹信息；基音轨迹信息包括各个基音，以及每个基音的时间戳和持续时间；时间戳表征基音在原声音频中的出现时间点；对于每个基音，获取与基音对应的嘴型图像；对n张嘴型图像进行动画合成，得到基音的嘴型动画；n代表嘴型图像的动画帧数；动画帧数为基音的持续时间与预设数值的乘积；按照基音的出现时间点由早到晚的顺序，对各个基音的嘴型动画进行排列组合，得到嘴型动画视频。

变声音频获得单元200，用于对原声音频进行变声处理，得到变声音频。

其中，变声音频获得单元200具体用于：将原声音频划分为m个子音频；m为大于1的正整数；每个子音频的播放时长均相同；对于每个子音频，判断子音频是否为无声音频；在子音频不为无声音频的情况下，将子音频标识为有效音频；对各个有效音频进行变声处理，得到各个有效变声音频；按照有效变声音频的播放时序由早到晚的顺序，将各个有效变声音频进行排列组合，得到变声音频。

此外，变声音频获得单元200还用于：在子音频为无声音频的情况下，将子音频标识为无效音频，并对无效音频进行删除。

变声音频获得单元200具体用于：预先获取与人工坐席进行沟通的用户的个人信息；对个人信息进行分析，得到用户的偏好声音；按照偏好声音，对原声音频进行变声处理，得到变声音频。

变声音频获得单元200具体用于：判断人工坐席的业务范围中是否包含变声沟通业务；在确定人工坐席的业务范围中包含变声沟通业务的情况下，对原声音频进行变声处理，得到变声音频；在确定人工坐席的业务范围中不包含变声沟通业务的情况下，禁止对原声音频进行变声处理。

数字人视频合成单元300，用于基于嘴型动画视频和变声音频，合成数字人视频。

其中，数字人视频合成单元300具体用于：将变声音频划分为m个子音频；m为大于1的正整数；每个子音频的播放时长均相同；按照子音频的播放时序由早到晚的顺序，将各个子音频进行排序，得到子音频序列；将嘴型动画视频划分为m个子视频；每个子视频的播放时长均相同；按照子视频的播放时序由早到晚的顺序，将各个子视频进行排序，得到子视频序列；将子音频序列中的每个子音频，与子视频序列中的每个子视频进行配对，得到组合序列；组合序列包括m个组合；每个组合均包括一个子音频和一个子视频，且组合的序号、子音频的序号和子视频的序号均相同；对于每个组合，将组合中的子音频和子视频进行合成处理，得到与组合对应的短视频；按照序号由前到后的顺序，将与每个组合对应的短视频进行排列组合，得到数字人视频。

此外，数字人视频合成单元300还用于：基于嘴型动画视频和原声音频，合成数字人视频。

视频发送单元400，用于将数字人视频发送给客户端，使得客户端调用多媒体界面播放数字人视频。

如图4所示，为本申请提供的一种应用环境示意图。本申请实施例提供的音频处理的方法可以应该用于如图4所示的交互系统400中，具体的，应用于服务器402中。交互系统400包括终端设备(可理解为客户端)401以及服务器402，服务器402与终端设备401通信连接。其中，服务器402可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备401可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备401上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)，其中，本实施例的对话机器人也是配置于终端设备401中的一个客户端应用程序。用户可以基于客户端应用程序在服务器402注册一个用户账号，并基于该用户账号与服务器402进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器402，使得服务器402可以接收该信息并进行处理及存储，服务器402还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备401。

在一些实施方式中，对待识别数据进行处理的装置也可以设置于终端设备401上，使得终端设备401无需依赖于服务器402建立通信即可实现与用户的交互，此时交互系统400可以只包括终端设备401。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的音频处理的方法。

本申请还提供了一种音频处理的设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的音频处理的方法，包括如下步骤：

基于人工坐席的原声音频，获得嘴型动画视频；

对所述原声音频进行变声处理，得到变声音频；

基于所述嘴型动画视频和所述变声音频，合成数字人视频。

具体的，在上述实施例的基础上，所述基于人工坐席的原声音频进行基音检测，获得嘴型动画视频，包括：

对于每个所述基音，获取与所述基音对应的嘴型图像；

具体的，在上述实施例的基础上，所述基于所述嘴型动画视频和所述变声音频，合成数字人视频，包括：

具体的，在上述实施例的基础上，所述对所述原声音频进行变声处理，得到变声音频，包括：

对于每个所述子音频，判断所述子音频是否为无声音频；

具体的，在上述实施例的基础上，所述对于每个所述子音频，判断所述子音频是否为无声音频之后，还包括：

预先获取与所述人工坐席进行沟通的用户的个人信息；

对所述个人信息进行分析，得到所述用户的偏好声音；

判断所述人工坐席的业务范围中是否包含变声沟通业务；

具体的，在上述实施例的基础上，还包括：

基于所述嘴型动画视频和所述原声音频，合成数字人视频。

具体的，在上述实施例的基础上，还包括：

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频处理的方法，其特征在于，包括：

基于人工坐席的原声音频，获得嘴型动画视频；

对所述原声音频进行变声处理，得到变声音频；

基于所述嘴型动画视频和所述变声音频，合成数字人视频。

2.根据权利要求1所述的方法，其特征在于，所述基于人工坐席的原声音频进行基音检测，获得嘴型动画视频，包括：

对于每个所述基音，获取与所述基音对应的嘴型图像；

3.根据权利要求1所述的方法，其特征在于，所述基于所述嘴型动画视频和所述变声音频，合成数字人视频，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述原声音频进行变声处理，得到变声音频，包括：

对于每个所述子音频，判断所述子音频是否为无声音频；

5.根据权利要求4所述的方法，其特征在于，所述对于每个所述子音频，判断所述子音频是否为无声音频之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述原声音频进行变声处理，得到变声音频，包括：

预先获取与所述人工坐席进行沟通的用户的个人信息；

对所述个人信息进行分析，得到所述用户的偏好声音；

7.根据权利要求1所述的方法，其特征在于，所述对所述原声音频进行变声处理，得到变声音频，包括：

判断所述人工坐席的业务范围中是否包含变声沟通业务；

8.根据权利要求7所述的方法，其特征在于，还包括：

基于所述嘴型动画视频和所述原声音频，合成数字人视频。

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种音频处理的装置，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-9任一所述的音频处理的方法。

12.一种音频处理的设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-9任一所述的音频处理的方法。