CN111564158A

CN111564158A - 一种可配置的变声装置

Info

Publication number: CN111564158A
Application number: CN202010353970.5A
Authority: CN
Inventors: 秦垠峰; 闫冰
Original assignee: Shanghai Bauhinia Taoli Technology Co ltd
Current assignee: Shanghai Bauhinia Taoli Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-21

Abstract

本发明提供一种可配置的变声装置，本发明涉及一种用于变声的装置技术领域，此外，本发明还涉及用于上述变声装置的变声模型的生成方法，该可配置的变声装置包括手机、变声设备和云端服务器，手机和变声设备通过远程控制交互单元信号连接，手机和云端服务器通过交互系统信号连接，变声设备内设置有变声模块，云端服务器内设置有模型生成模块和用户信息模块，可以实现变声效果能够更加自然，并且更加易于定制音色。

Description

一种可配置的变声装置

技术领域

本发明涉及一种用于变声的装置技术领域，此外，本发明还涉及用于上述变声装置的变声模型的生成方法。

背景技术

近年来随着呼叫中心业务对服务质量要求的提高，以及直播业务的兴起，对坐席/主播的音色也有了一定的要求，磁性或者甜美的音色能够极大增加客户的好感，随着人工智能技术的发展，特别是深度神经网络在语音处理领域的应用取得了长足发展，使得变声效果能够更加自然，并且更加易于定制音色。

现有的变声装置主要通过数字信号处理芯片(DSP)来完成，该方式只能变换几种固定的音色，不易配置，也无法定制音色，并且只能针对简单的音频特征，如采样率、响度等进行调节，变声效果不自然。

发明内容

本发明的目的在于提供一种可配置的变声装置，旨在解决现有技术中的变声装置只能变换几种固定的音色，不易配置，也无法定制音色，变声效果不自然等问题。

为实现上述目的，本发明提供如下技术方案：

一种可配置的变声装置包括手机、变声设备和云端服务器，所述手机和变声设备通过远程控制交互单元信号连接，所述手机和云端服务器通过交互系统信号连接，所述变声设备内设置有变声模块，所述云端服务器内设置有模型生成模块和用户信息模块，可以实现变声效果能够更加自然，并且更加易于定制音色。

作为本发明一种优选的，所述远程控制交互单元包括两个分别设置在变声设备和手机内的远程控制交互模块，位于变声设备的所述远程控制交互模用于接收来自手机端的控制指令、执行启动、停止变声模块、调整变声模块的配置和传输文件数据工作，位于手机的所述远程控制交互模用于控制变声设备的启动、停止、调整变声设备的变声设置和向变声设备传送定制目标说话人特征嵌入向量。

作为本发明一种优选的，所述交互系统包括分别设置在手机和云端服务器内的云端交互模块和手机交互模块，所述云端交互模块用于管理用户信息、上传录音和下载生成好的目标说话人特征嵌入向量，所述手机交互模块用于与手机端通信、注册、查看、修改用户信息、接收录音文件和传输目标说话人特征嵌入向量。

作为本发明一种优选的，所述模型生成模块和用户信息模块均与手机交互模块电性连接，所述模型生成模块用于通过指定的一组目标说话人的录音文件生成该组录音文件的目标说话人特征嵌入向量，所述用户信息模块用于保存用户的个人信息、上传的录音以及定制音色模型列表。

作为本发明一种优选的，所述变声设备还包括A/D和D/A转换器、数字信号处理芯片、中央处理器模块、内存和储存，所述A/D和D/A转换器、数字信号处理芯片、内存和储存与中央处理器模块之间均通过信号连接，所述A/D和D/A转换器用于将外界输入的模拟信号转为数字信号，以及将数字信号转为模拟信号后输出，所述中央处理器模块与内存、存储模块配合，承载整体的设备驱动以及变声算法的运行。

一种变声装置的工作方法，包括以下步骤：

S1:用户通过手机端应用软件，上传目标说话人风格的语音录音文件，以及原说话人的录音文件，原说话人录音和目标说话人录音所说的内容相同，时长在二十五分钟到三十五分钟；

S2:云端服务器生成转换至目标说话人的变声模型，手机端应用软件控制通过无线连接至装置，并下载目标说话人的变声模型到变声设备中；

S3:手机端应用软件选择使用其中一个目标说话人的模型或者通过变声设备的自身按钮，控制变声设备的变声功能启动；

S4:设置变声设备的输入输出连接；

S5:变声设备接收用户所说的语音，通过变声设备选择的变声模型，进行变声处理；

S6:变声设备将变声后的信号通过输出连接传送出去。

变声模型生成方法，包括以下步骤：

a:原说话人语音通过基于深度神经网络的变声模型，得到变声后的声音；

b:然后分别将变声后的声音与目标说话人的输入语音提取短时能量、过零率和梅尔倒谱系数的音频特征，按照30ms时间窗口以及10ms的滑动窗口一次提取；

c:将两个声音每个时间窗口得到的音频特征分别依次输入同一个预训练好的说话人特征编码器中,分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；

d:将原说话人特征嵌入向量和目标说话人特征嵌入向量这两个特征嵌入向量分别输入预训练好的解码器中，得到原说话人还原语音特征和目标说话人还原语音特征；

e:通过对比原说话人还原语音特征和目标说话人还原语音特征中两个特征的不同，产生损失，并通过反向传播到变声模型中，从而改变变声模型的参数；

f:迭代a-e步骤，直到e步骤得到的损失小于预设值，或者迭代次数超过预设次数；

g:最后取出训练完成的变声模型，训练完成的变声模型是将原说话人音色变换到目标说话人音色的变声模型。

与现有技术相比，本发明的有益效果是：

1、本方案中，该变声装置可以定制任意目标说话人的音色，可以随时替换启用，相对于传统变声装置只有固定几种音色，在变声的可配置性上有了较大的改进

2、本方案中，传统变声技术是通过简单改变采样率、响度等音频特征，通过线性变换来实现变声，效果不自然，容易让人听出是变声，本技术通过神经网络模型的非线性变化，能够将声音更加完美的拟合至目标说话人的音色上，能够得到更加自然的变声效果

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的功能框图；

图2为本发明中变声设备的功能框图；

图3为本发明中的工作过程图；

图4为本发明中的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明提供以下技术方案：一种可配置的变声装置包括手机、变声设备和云端服务器，手机和变声设备通过远程控制交互单元信号连接，手机和云端服务器通过交互系统信号连接，变声设备内设置有变声模块，云端服务器内设置有模型生成模块和用户信息模块。

在本发明的具体实施例中，整个变声装置的设置时一种方便接入、能提供自然的变声效果的变声装置，装置可通过手机端进行变音音色的配置，以及通过云端定制工具来定制指定说话人风格的音色，不仅便携，而且变声设置灵活，实用性较强。

具体的请结合图1所示，远程控制交互单元包括两个分别设置在变声设备和手机内的远程控制交互模块，位于变声设备的远程控制交互模用于接收来自手机端的控制指令、执行启动、停止变声模块、调整变声模块的配置和传输文件数据工作，位于手机的远程控制交互模用于控制变声设备的启动、停止、调整变声设备的变声设置和向变声设备传送定制目标说话人特征嵌入向量。

本实施例中：两个远程控制交互模块分贝设置在变声设备和手机内用于连接和控制变声设备和手机。

具体的请结合图1所示，交互系统包括分别设置在手机和云端服务器内的云端交互模块和手机交互模块，云端交互模块用于管理用户信息、上传录音和下载生成好的目标说话人特征嵌入向量，手机交互模块用于与手机端通信、注册、查看、修改用户信息、接收录音文件和传输目标说话人特征嵌入向量。

本实施例中：云端交互模块和手机交互模块的设置用于连接手机和云端服务器，同时云端服务器生成转换至目标说话人的变声模型，手机端应用软件控制通过无线连接至变声设备。

具体的请结合图1所示，模型生成模块和用户信息模块均与手机交互模块电性连接，模型生成模块用于通过指定的一组目标说话人的录音文件生成该组录音文件的目标说话人特征嵌入向量，用户信息模块用于保存用户的个人信息、上传的录音以及定制音色模型列表。

本实施例中：模型生成模块和用户信息模块的设置可以让装置通过云端服务器定制工具来定制指定说话人风格的音色，不仅便携，而且变声设置灵活。

具体的请结合图2所示，变声设备还包括A/D和D/A转换器、数字信号处理芯片、中央处理器模块、内存和储存，A/D和D/A转换器、数字信号处理芯片、内存和储存与中央处理器模块之间均通过信号连接，A/D和D/A转换器用于将外界输入的模拟信号转为数字信号，以及将数字信号转为模拟信号后输出，中央处理器模块与内存、存储模块配合，承载整体的设备驱动以及变声算法的运行。

本实施例中：整个装置的硬件模块有：1个3.5mm同轴音频输入接口，用于与麦克风连接，1个3.5mm同轴音频输出接口，用于与音频输出设备连接；1个usb接口，用于连接usb接口的音频输入输出设备；中央处理器模块(64位arm v8架构cpu，1GHz以上主频)与内存、存储模块配合，承载整体的设备驱动以及变声算法的运行；数字信号处理芯片为QualcommKalimba DSP；A/D和D/A转换器，用于将3.5mm同轴接口及RJ11接口的模拟信号转为数字信号，以及将数字信号转为模拟信号后从这两种接口输出。

本发明提供以下技术方案：一种变声装置的工作方法，结合图4所示包括以下步骤：

S1:用户通过手机端应用软件，上传目标说话人风格的语音录音文件，以及原说话人的录音文件，原说话人录音和目标说话人录音所说的内容相同，时长在二十五分钟到三十五分钟，优选的，时长在三十分钟左右；

S4:设置变声设备的输入输出连接；

S6:变声设备将变声后的信号通过输出连接传送出去。

本发明提供以下技术方案：变声模型生成方法，结合图3所示包括以下步骤：

本发明的工作原理及使用流程：用户通过手机端应用软件，上传目标说话人风格的语音录音文件，以及原说话人的录音文件，原说话人录音和目标说话人录音所说的内容相同，时长在半小时左右，云端生成转换至目标说话人的变声模型，手机端应用软件控制通过无线连接至装置，并下载该模型到变声装置中，手机端应用软件选择使用哪个目标说话人的模型，并控制变声装置的变声功能启动，也可以通过变声装置自身的按钮启动，设置变声装置的输入输出连接，输入输出可以分别用3.5mm同轴音频接口，也可以用RJ11接口，同时还支持usb接口单输出，变声装置通过麦克风接收用户所说的语音，通过装置选择的变声模型，进行变声处理，变声装置将变声后的信号通过输出连接传送出去。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种可配置的变声装置，其特征在于：包括手机、变声设备和云端服务器，所述手机和变声设备通过远程控制交互单元信号连接，所述手机和云端服务器通过交互系统信号连接，所述变声设备内设置有变声模块，所述云端服务器内设置有模型生成模块和用户信息模块。

2.根据权利要求1所述的可配置的变声装置，其特征在于：所述远程控制交互单元包括两个分别设置在变声设备和手机内的远程控制交互模块，位于变声设备内的所述远程控制交互模用于接收来自手机端的控制指令、执行启动、停止变声模块、调整变声模块的配置和传输文件数据工作，位于手机的所述远程控制交互模用于控制变声设备的启动、停止、调整变声设备的变声设置和向变声设备传送定制目标说话人特征嵌入向量。

3.根据权利要求2所述的可配置的变声装置，其特征在于：所述交互系统包括分别设置在手机和云端服务器内的云端交互模块和手机交互模块，所述云端交互模块用于管理用户信息、上传录音和下载生成好的目标说话人特征嵌入向量，所述手机交互模块用于与手机端通信、注册、查看、修改用户信息、接收录音文件和传输目标说话人特征嵌入向量。

4.根据权利要求3所述的可配置的变声装置，其特征在于：所述模型生成模块和用户信息模块均与手机交互模块电性连接，所述模型生成模块用于通过指定的一组目标说话人的录音文件生成该组录音文件的目标说话人特征嵌入向量，所述用户信息模块用于保存用户的个人信息、上传的录音以及定制音色模型列表。

5.根据权利要求4所述的可配置的变声装置，其特征在于：所述变声设备还包括A/D和D/A转换器、数字信号处理芯片、中央处理器模块、内存和储存，所述A/D和D/A转换器、数字信号处理芯片、内存和储存与中央处理器模块之间均通过信号连接，所述A/D和D/A转换器用于将外界输入的模拟信号转为数字信号，以及将数字信号转为模拟信号后输出，所述中央处理器模块与内存、存储模块配合，承载整体的设备驱动以及变声算法的运行。

6.一种变声装置的工作方法，其特征在于，包括以下步骤：

S4:设置变声设备的输入输出连接；

S6:变声设备将变声后的信号通过输出连接传送出去。

7.一种变声模型生成方法，其特征在于，包括以下步骤：

a：原说话人语音通过基于深度神经网络的变声模型，得到变声后的声音；