CN112185341A

CN112185341A - 基于语音合成的配音方法、装置、设备和存储介质

Info

Publication number: CN112185341A
Application number: CN202010947057.8A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-01-05

Abstract

本发明公开了一种基于语音合成的配音方法，包括：获取待配音文本，并对所述待配音文本进行预处理；识别所述待配音文本中单个句子的控制参数；其中，所述控制参数包括句子类型、句子情绪和句子关键度中的至少一种；将所述待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音；将所述若干条单句语音拼接，输出拼接后的配音信号。本发明还公开了一种基于语音合成的配音装置、一种基于语音合成的配音设备和一种计算机可读存储介质。采用本发明实施例，能为文字配音指定合适的发音人和韵律，提高用户体验。

Description

基于语音合成的配音方法、装置、设备和存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于语音合成的配音方法、装置、设备和存储介质。

背景技术

随着社会的发展越来越快，人们可自由支配的时间也越来越短，需要在碎片时间中学习和获取信息，用耳朵来听成为一种解决方案，因此需要给文字配音。现有技术中通常采用人工配音的方式为文本配音，采用人工配音方式进行配音的成本较高，且当需要为大量文本配音时，例如为书本配音，实现难度更加大。另外，采用人工配音方式不能高效率为新的文本配音，时效性较差。

为改善人工配音引起的问题，现有技术中还常采用语音合成技术配音的方式为文本配音，语音合成配音过程中，语音合成模型自动把文本转为语音，从而达到配音效果。但是现有用语音合成配音的方法配音效果较差，语音自然度、韵律、重音都不能达到人工配音效果，用户长期听容易厌倦。通常整篇文档都是一个发音人的一种腔调的语音，用户听的过程中容易走神而错过关键信息。

发明内容

本发明实施例的目的是提供一种基于语音合成的配音方法、装置、设备和存储介质，能为文字配音指定合适的发音人和韵律，提高用户体验。

为实现上述目的，本发明实施例提供了一种基于语音合成的配音方法，包括：

获取待配音文本，并对所述待配音文本进行预处理；

识别所述待配音文本中单个句子的控制参数；其中，所述控制参数包括句子类型、句子情绪和句子关键度；

将所述待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音；

将所述若干条单句语音拼接，输出拼接后的配音信号。

作为上述方案的改进，所述对所述待配音文本进行预处理，包括：

对所述待配音文本进行正则化处理；

对所述待配音文本进行分句。

作为上述方案的改进，所述语音合成模型的训练方法包括：

收集若干个发音人的文本语音对照语料；

构建多发音人的语音合成模型；

利用所述文本语音对照语料训练所述语音合成模型。

作为上述方案的改进，所述将所述若干条单句语音拼接，包括：

获取所述单个句子的标点符号和句子类型；

根据所述标点符号和所述句子类型按照预设的映射表计算当前单个句子需要添加静音的静音时长；

根据所述静音时长将所述静音添加进所述单句语音的末尾处；

将所有添加完所述静音的单句语音拼接。

作为上述方案的改进，所述输出拼接后的配音信号后，还包括：

获取背景音乐；

调整所述背景音乐和所述配音信号的音量；

将所述背景音乐添加进所述配音信号中。

为实现上述目的，本发明实施例还提供了一种基于语音合成的配音装置，包括：

预处理模块，用于获取待配音文本，并对所述待配音文本进行预处理；

控制参数识别模块，用于识别所述待配音文本中单个句子的控制参数；其中，所述控制参数包括句子类型、句子情绪和句子关键度；

语音合成模块，用于将所述待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音；

拼接模块，用于将所述若干条单句语音拼接，输出拼接后的配音信号。

作为上述方案的改进，所述预处理模块用于：

对所述待配音文本进行正则化处理；

对所述待配音文本进行分句。

作为上述方案的改进，所述基于语音合成的配音装置还包括；

背景音添加模块，用于获取背景音乐，调整所述背景音乐和所述配音信号的音量，并将所述背景音乐添加进所述配音信号中。

为实现上述目的，本发明实施例还提供一种基于语音合成的配音设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的基于语音合成的配音方法。

为实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的基于语音合成的配音方法。

相比于现有技术，本发明实施例所述的基于语音合成的配音方法、装置、设备和存储介质，通过识别待配音文本中单个句子的控制参数，并将待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音，最后将若干条单句语音拼接，输出拼接后的配音信号。由于在能够识别出单个句子句子类型、句子情绪和句子关键度，从而能够控制当前单个句子需要配音的情绪和语调，能为文字配音指定合适的发音人和韵律，从而提高用户体验。

附图说明

图1是本发明实施例提供的一种基于语音合成的配音方法的流程图；

图2是本发明实施例提供的一种基于语音合成的配音装置的结构框图；

图3是本发明实施例提供的一种基于语音合成的配音设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种基于语音合成的配音方法的流程图，所述基于语音合成的配音方法包括：

S1、获取待配音文本，并对所述待配音文本进行预处理；

S2、识别所述待配音文本中单个句子的控制参数；

S3、将所述待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音；

S4、将所述若干条单句语音拼接，输出拼接后的配音信号。

具体地，在步骤S1中，所述对所述待配音文本进行预处理，包括步骤S11～S12：

S11、对所述待配音文本进行正则化处理；

S12、对所述待配音文本进行分句。

示例性的，中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。例如文本：“今天的日期是2020-08-21，现在的时间是11:20AM”，正则化后的文本是：“今天的日期是二零二零年八月二十一日，现在的时间是上午十一点二十分”。用pyltp工具进行分句，例如文本：“今天天气怎样？今天天晴。”分句之后分为两句，分别是：“今天天气怎样？”、“今天天晴。”

具体地，在步骤S2中，所述控制参数包括句子类型、句子情绪和句子关键度。根据所述句子类型、所述句子情绪和所述句子关键度，指定发音人和韵律类别，从而得到不同情绪的句子。

可选地，当所述控制参数为句子类型时，可以通过识别句子关键词和/或标点符号确认句子类型，此时，所述识别所述待配音文本中单个句子的控制参数，包括步骤S21～S212：

S21、获取所述所述待配音文本中单个句子的关键词和/或标点符号；

S22、根据所述关键词和/或标点符号识别所述单个句子的句子类型。

示例性的，例如文本：“今天天气怎样？”，关键词为“怎样”，标点符号为“？”，因此识别出的句子类型是问句。值得说明是，当句子中出现有表达疑问关键词时，一般都可认定为是问句，若是再结合标点符号进行判断，那么当出现有问号时，则认定是问句的可信度更高。

可选地，当所述控制参数为句子情绪时，可以结合文本的上下文和标点符号进行分析，此时，所述识别所述待配音文本中单个句子的控制参数，包括步骤S23～S25：

S23、获取当前单个句子的上下文信息和标点符号；

S24、获取所述上下文信息的情绪关键词；

S25、根据所述情绪关键词和标点符号确定所述当前单个句子的句子情绪。

示例性的，如当前单个句子带有感叹号，则可表明当前句子的情绪应当是激动的，如情绪关键词为“生气”，则可表明当前句子情绪应当是带有怒意的。可以理解的是所述上下文信息为当前单个句子的上一个句子和下一个句子。

可选地，当所述控制参数为句子关键度时，可以根据预设的句式关键度优先级进行分析，此时，所述识别所述待配音文本中单个句子的控制参数，包括步骤S26～S27：

S26、获取当前单个句子的句式；

S27、按照预设的句式关键度优先级确定当前单个句子的句子关键度。

示例性的，所述待配音文本一般为含有旁白和对话的配音，则所述句式关键度优先级可以为对话的优先级高于旁白。因此，若句子关键度最高，故指定较发音较动听的发音人来进行配音。

具体地，在步骤S3中，所述语音合成模型的训练方法包括步骤S31～S33：

S31、收集若干个发音人的文本语音对照语料；

S32、构建多发音人的语音合成模型；

S33、利用所述文本语音对照语料训练所述语音合成模型。

示例性的，通过声优录制文本的语音，构造该声优发音人的文本语音对照语料。也可通过爬虫技术，爬取纯净语音，配上对应的文字，得到文本语音对照语料。通过录制或爬虫的方式，收集多个发音人的语音，从而得到多个发音人的文本语音对照语料。用AI人工智能的语音合成模型，例如用RTVC方法，可以得到多发音人的模型。把收集的文本语音对照语料输入给多发音人语音合成模型，不断自动调整模型参数，使得模型学习到语料中语音和文本的对应关系，模型收敛即可得到能够合成不同发音人语音的模型。

进一步地，在训练得到语音合成模型后，还需要设定若干个语音合成的方法、设定合成不同的发音人的声音以及设定合成不同情绪和不同句子类型的声音。例如设定发音人有：知性女声小依、萝莉女声小尔、活泼女声小珊，设定的发音情绪类别：平静、激动、低沉，句子类型发音：陈述句，反问句，感叹句。将所述单个句子和对应的控制参数输入到所述语音合成模型时，所述语音合成模型根据所述控制参数输出对应情绪和发音人的单句语音。

更进一步地，在获得所述若干条单句语音后，合成的语音可能结尾静音过多，或者音量不统一，为提高配音质量，得到连续顺畅的语音，需要去除所有单句语音的结尾静音，且全部单句语音统一音量。示例性的，把单句语音转为数据列表的形式后，静音的语音片段的数值绝对值会比较小，通过预先设定静音值阈值，从结尾往前扫描，如果数值小于所述静音值阈值则去除，最终即可去除结尾静音。

具体地，在步骤S4中，所述将所述若干条单句语音拼接，包括步骤S41～S44：

S41、获取所述单个句子的标点符号和句子类型；

S42、根据所述标点符号和所述句子类型按照预设的映射表计算当前单个句子需要添加静音的静音时长；

S43、根据所述静音时长将所述静音添加进所述单句语音的末尾处；

S44、将所有添加完所述静音的单句语音拼接。

示例性的，根据标点符号和句子类型计算语音后面添加静音的时长，预设标点符号和句子类型和静音时长的映射表，根据映射表计算出实际文本对应的静音时长。例如句子“今天天气难道天晴？”，文本类型是问句，标点符号是句号，故查映射表得到的静音时长可以是0.5秒。生成计算得到时长的静音，把该静音添加到单句语音的后面，然后再拼接下一个句子对应的语音。以此方法，即可把全部单句语音拼接成完整的整句语音，语音的停顿也比较合理。

值得说明是，所述映射表中记载了句子标点符号、句子类型对应静音时长的对应关系，通过查表计算即可得到给定句子的静音时长。例如句子“今天天气难道天晴？”，文本类型是问句，查映射表得到对应静音0.3秒；标点符号是问号，查映射表得到对应静音0.2秒；故该句的静音时长是0.5秒。

可选地，在输出拼接后的配音信号后，还可以对所述配音信号添加背景音乐，使得使得配音效果更佳优质，用户长期听也能保持注意力，而接收全面准确的信息。此时，所述方法还包括步骤S5～S7：

S5、获取背景音乐；

S6、按照预设比例调整所述背景音乐和所述配音信号的音量；

S7、将所述背景音乐添加进所述配音信号中。

示例性的，可能背景音乐的音量和合成语音的音量不匹配，背景音乐音量太大则影响到语音主体内容的接受，太小则配音显得苍白。把背景音乐的音量调节到不影响主体内容，而又能提高用户感受的程度。例如合成语音的音量为100％，背景音乐的音量为37％。把调节好音量的背景音乐和合成语音合并到同一个音频，从而得到给文本配音的有背景音乐的配音文件。

相比于现有技术，本发明实施例所述的基于语音合成的配音方法，通过识别待配音文本中单个句子的控制参数，并将待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音，最后将若干条单句语音拼接，输出拼接后的配音信号。由于在能够识别出单个句子句子类型、句子情绪和句子关键度，从而能够控制当前单个句子需要配音的情绪和语调，能为文字配音指定合适的发音人和韵律，从而提高用户体验。

参见图2，图2是本发明实施例提供的一种基于语音合成的配音装置10的结构框图，所述基于语音合成的配音装置10包括：

预处理模块11，用于获取待配音文本，并对所述待配音文本进行预处理；

控制参数识别模块12，用于识别所述待配音文本中单个句子的控制参数；其中，所述控制参数包括句子类型、句子情绪和句子关键度；

语音合成模块13，用于将所述待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音；

拼接模块14，用于将所述若干条单句语音拼接，输出拼接后的配音信号；

背景音添加模块15，用于获取背景音乐，调整所述背景音乐和所述配音信号的音量，并将所述背景音乐添加进所述配音信号中。

具体地，所述预处理模块11具体用于：对所述待配音文本进行正则化处理；对所述待配音文本进行分句。

具体地，所述控制参数包括句子类型、句子情绪和句子关键度。根据所述句子类型、所述句子情绪和所述句子关键度，指定发音人和韵律类别，从而得到不同情绪的句子。

可选地，当所述控制参数为句子类型时，可以通过识别句子关键词和/或标点符号确认句子类型，此时，所述控制参数识别模块12用于：获取所述所述待配音文本中单个句子的关键词和/或标点符号；根据所述关键词和/或标点符号识别所述单个句子的句子类型。

可选地，当所述控制参数为句子情绪时，可以结合文本的上下文和标点符号进行分析，此时，所述控制参数识别模块12用于：获取当前单个句子的上下文信息和标点符号；获取所述上下文信息的情绪关键词；根据所述情绪关键词和标点符号确定所述当前单个句子的句子情绪。

可选地，当所述控制参数为句子关键度时，可以根据预设的句式关键度优先级进行分析，此时，所述控制参数识别模块12用于：获取当前单个句子的句式；按照预设的句式关键度优先级确定当前单个句子的句子关键度。

具体地，所述语音合成模型的训练方法包括：收集若干个发音人的文本语音对照语料；构建多发音人的语音合成模型；利用所述文本语音对照语料训练所述语音合成模型。

更进一步地，在获得所述若干条单句语音后，合成的语音可能结尾静音过多，或者音量不统一，为提高配音质量，得到连续顺畅的语音，需要所述语音合成模块13去除所有单句语音的结尾静音，且全部单句语音统一音量。示例性的，所述语音合成模块13把单句语音转为数据列表的形式后，静音的语音片段的数值绝对值会比较小，通过预先设定静音值阈值，从结尾往前扫描，如果数值小于所述静音值阈值则去除，最终即可去除结尾静音。

具体地，所述拼接模块14用于：获取所述单个句子的标点符号和句子类型；根据所述标点符号和所述句子类型按照预设的映射表计算当前单个句子需要添加静音的静音时长；根据所述静音时长将所述静音添加进所述单句语音的末尾处；将所有添加完所述静音的单句语音拼接。

可选地，在输出拼接后的配音信号后，还可以对所述配音信号添加背景音乐，使得使得配音效果更佳优质，用户长期听也能保持注意力，而接收全面准确的信息。可能背景音乐的音量和合成语音的音量不匹配，背景音乐音量太大则影响到语音主体内容的接受，太小则配音显得苍白。把背景音乐的音量调节到不影响主体内容，而又能提高用户感受的程度。例如合成语音的音量为100％，背景音乐的音量为37％。把调节好音量的背景音乐和合成语音合并到同一个音频，从而得到给文本配音的有背景音乐的配音文件。

相比于现有技术，本发明实施例所述的基于语音合成的配音装置10，通过识别待配音文本中单个句子的控制参数，并将待配音文本中的单个句子和对应的控制参数输入到预先训练好的语音合成模型中，以合成对应的若干条单句语音，最后将若干条单句语音拼接，输出拼接后的配音信号。由于在能够识别出单个句子句子类型、句子情绪和句子关键度，从而能够控制当前单个句子需要配音的情绪和语调，能为文字配音指定合适的发音人和韵律，从而提高用户体验。

参见图3，图3是本发明实施例提供的一种基于语音合成的配音设备20的结构框图。所述基于语音合成的配音设备20包括处理器21、存储器22以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如行驶控制程序。所述处理器21执行所述计算机程序时实现上述实施例所述基于语音合成的配音方法中的步骤，例如图1所示的步骤S1～S4。或者，所述处理器执行所述计算机程序时实现上述基于语音合成的配音装置10实施例中各模块的功能，例如预处理模块11。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于语音合成的配音设备20中的执行过程。例如，所述计算机程序可以被分割成预处理模块11、控制参数识别模块12、语音合成模块13、拼接模块14和背景音添加模块15。具体的各个模块的工作过程可参考上述实施例所述的基于语音合成的配音装置10的工作过程，在此不再赘述。

所述基于语音合成的配音设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于语音合成的配音设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是图像增强设备的示例，并不构成对基于语音合成的配音设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于语音合成的配音设备20还可以包括输入输出设备、网络接入设备、总线等。

所称处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于语音合成的配音设备20的控制中心，利用各种接口和线路连接整个基于语音合成的配音设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于语音合成的配音设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于语音合成的配音设备20集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于语音合成的配音方法，其特征在于，包括：

获取待配音文本，并对所述待配音文本进行预处理；

将所述若干条单句语音拼接，输出拼接后的配音信号。

2.如权利要求1所述的基于语音合成的配音方法，其特征在于，所述对所述待配音文本进行预处理，包括：

对所述待配音文本进行正则化处理；

对所述待配音文本进行分句。

3.如权利要求1所述的基于语音合成的配音方法，其特征在于，所述语音合成模型的训练方法包括：

收集若干个发音人的文本语音对照语料；

构建多发音人的语音合成模型；

利用所述文本语音对照语料训练所述语音合成模型。

4.如权利要求1所述的基于语音合成的配音方法，其特征在于，所述将所述若干条单句语音拼接，包括：

获取所述单个句子的标点符号和句子类型；

将所有添加完所述静音的单句语音拼接。

5.如权利要求1所述的基于语音合成的配音方法，其特征在于，所述输出拼接后的配音信号后，还包括：

获取背景音乐；

调整所述背景音乐和所述配音信号的音量；

将所述背景音乐添加进所述配音信号中。

6.一种基于语音合成的配音装置，其特征在于，包括：

7.如权利要求6所述的基于语音合成的配音装置，其特征在于，所述预处理模块用于：

对所述待配音文本进行正则化处理；

对所述待配音文本进行分句。

8.如权利要求6所述的基于语音合成的配音装置，其特征在于，所述基于语音合成的配音装置还包括；

9.一种基于语音合成的配音设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的基于语音合成的配音方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的基于语音合成的配音方法。