CN109712604A

CN109712604A - 一种情感语音合成控制方法和装置

Info

Publication number: CN109712604A
Application number: CN201811604136.8A
Authority: CN
Inventors: 张胜; 鲁斌; 孔东泉
Original assignee: Guangzhou Poly Mdt Infotech Ltd
Current assignee: Guangzhou Poly Mdt Infotech Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-03

Abstract

本发明公开了一种情感语音合成控制方法和装置，其中，所述方法包括获取需要进行语音合成的文本信息；按照预设方法对文本信息进行语义分析，并生成用于表征与文本信息相适应的配音效果的人物分析结果；根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。本发明公开的方案能够根据文本信息进行语音合成，从而使合成后的语音具备情感。

Description

一种情感语音合成控制方法和装置

技术领域

本发明属于语音合成技术领域，具体涉及一种情感语音合成控制方法和装置。

背景技术

随着书籍无纸化的不断发展，在电子书的基础上又出现了网络听书的方式，网络听书因为其方便、节省时间并且声优的声音会随书籍情节的改变进行语调、情感的改变，更有代入感的优点，迅速受到大家的欢迎。但是因为目前市场上已出版书籍数量巨大，而聘请声优为整本书进行配音成本较高，因此导致能够进行网络听书的书籍类型和数量较少，不能够满足大多数使用者的需要。

而随着语音合成引擎的迅速发展，在一些电子书上已经开始使用汉语语音合成技术，以降低配音成本。但是现有的语音合成引擎得到的语音结果都比较僵硬、不自然，另外也无法根据书籍内情节的改变进行语气语调的调整，导致用户的代入感不强，并且使用体验较差。

因此，如何能够根据文本信息进行语音合成，从而使合成后的语音具备情感成为亟待解决的技术问题。

发明内容

本发明要解决的技术问题在于如何能够根据文本信息进行语音合成，从而使合成后的语音具备情感。

为此，根据第一方面，本发明实施例公开了情感语音合成控制方法，包括：

获取需要进行语音合成的文本信息；按照预设方法对文本信息进行语义分析，并生成用于表征与文本信息相适应的配音效果的人物分析结果；根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。

可选地，人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。

可选地，在获取需要进行语音合成的文本信息和根据分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音之间，还包括：按照预设方法对文本信息进行语义分析，并生成场景分析结果，场景分析结果为表示文本信息所处背景的分析结果。

可选地，根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音包括：解析人物分析结果以获取与人物分析结果相对应的声音参数；根据声音参数生成控制信号，以将声音参数发送给语音合成引擎进行情感语音的合成。

根据第二方面，本发明实施例提供了情感语音合成控制装置，包括：

文本信息模块，用于获取需要进行语音合成的文本信息；人物分析模块，用于按照预设方法对文本信息进行语义分析，并生成用于表征与文本信息相适应的配音效果的人物分析结果；控制信号模块，用于根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。

可选地，还包括：场景分析模块，用于按照预设方法对文本信息进行语义分析，并生成场景分析结果，场景分析结果为表示文本信息所处背景的分析结果。

可选地，控制信号模块包括：声音参数单元，用于解析人物分析结果以获取与人物分析结果相对应的声音参数；参数发送单元，用于根据声音参数生成控制信号，以将声音参数发送给语音合成引擎进行情感语音的合成。

根据第三方面，本发明提供了一种计算机装置，包括处理器，处理器用于执行存储器中存储的计算机程序实现上述第一方面任意一项的情感语音合成控制方法。

根据第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，处理器用于执行存储介质中存储的计算机程序实现上述第一方面任意一项的情感语音合成控制方法。

本发明的有益效果在于：

本发明实施例公开的一种情感语音合成控制方法和装置，首先获取到需要进行语音合成的文本信息，然后按照预设方案对文本信息进行语义分析，并且生成人物分析结果，根据人物分析结果生成控制信号控制语音合成引擎合成与控制信号相对应的情感语音。相对于现有技术中仅仅是将文本生硬的转化为音频的方案，本发明实施例公开的方案通过对需要转换的文本进行语义分析，从而获得当前文本所表征的人物分析结果，人物分析结果是指当前文本所适合的配音效果，然后根据该人物分析结果生成控制语音合成引擎的控制信号，能够使合成后的音频富有感情，具有丰富的情感体验，使用户在听到音频时产生更深的代入感。

作为可选地实施例，还可以对文本信息进行语义分析，以生成场景分析结果，利用人物分析结果和用来表征当前文本所处背景的场景分析结果控制语音合成引擎同时合成具有背景音的音频，能够提高逼真度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例情感语音合成控制方法的流程图；

图2为本发明实施例情感语音合成控制装置的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，为本实施例公开的一种情感语音合成控制方法的流程图，该情感语音合成控制方法包括：

步骤S101，获取需要进行语音合成的文本信息。在本实施例中，文本信息可以是通过人工手动输入获取的，也可以是通过电子直接导入获取的，还可以是通过图像元素提取等方式来获取的。

步骤S102，按照预设方法对文本信息进行语义分析，并生成用于表征与文本信息相适应的配音效果的人物分析结果。在可选的实施例中，还可以包括以下步骤：按照预设方法对文本信息进行语义分析，并生成场景分析结果，场景分析结果为表示文本信息所处背景的分析结果。需要说明的是，在本实施例中，并不限制按照预设方法对文本信息进行语义分析后生成人物分析结果和场景分析结果的先后顺序。本实施例中，人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。场景分析结果例如可以是当前场景为战场、酒吧、山巅等场景。通过人物分析结果生成与当前的文本信息相对应的人物配音效果，根据场景分析结果生成与当前的文本信息相对应的背景配音效果，加入背景的配音，提高用户在收听音频时的逼真感。

步骤S103，根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。在本实施例中，步骤S103具体的包括：解析人物分析结果以获取与人物分析结果相对应的声音参数；根据声音参数生成控制信号，以将声音参数发送给语音合成引擎进行情感语音的合成。对人物分析结果进行解析并获取到与人物分析结果相对应的声音参数，然后生成控制信号使语音合成引擎能够根据声音参数进行情感语音的合成。

本实施例首先获取到需要进行语音合成的文本信息，然后按照预设方案对文本信息进行语义分析，并且生成人物分析结果，根据人物分析结果生成控制信号控制语音合成引擎合成与控制信号相对应的情感语音。相对于现有技术中仅仅是将文本生硬的转化为音频的方案，本发明实施例公开的方案通过对需要转换的文本进行语义分析，从而获得当前文本所表征的人物分析结果，人物分析结果是指当前文本所适合的配音效果，然后根据该人物分析结果生成控制语音合成引擎的控制信号，能够使合成后的音频富有感情，具有丰富的情感体验，使用户在听到音频时产生更深的代入感。

本实施例还公开了一种情感语音合成控制装置，请参考图2，为该情感语音合成控制装置结构示意图，该情感语音合成控制装置包括：

文本信息模块201，用于获取需要进行语音合成的文本信息；人物分析模块202，用于按照预设方法对文本信息进行语义分析，并生成用于表征与文本信息相适应的配音效果的人物分析结果；控制信号模块203，用于根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。

在具体实施过程中，人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。

作为可选地实施例，还包括：场景分析模块，用于按照预设方法对文本信息进行语义分析，并生成场景分析结果，场景分析结果为表示文本信息所处背景的分析结果。

作为可选地实施例，控制信号模块203包括：声音参数单元，用于解析人物分析结果以获取与人物分析结果相对应的声音参数；参数发送单元，用于根据声音参数生成控制信号，以将声音参数发送给语音合成引擎进行情感语音的合成。

此外，本发明实施例中还提供一种计算机装置，处理器通过执行所述计算机指令，从而实现以下方法：

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机处理器用于执行存储介质中存储的计算机程序实现以下方法：

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进。这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种情感语音合成控制方法，其特征在于，包括：

获取需要进行语音合成的文本信息；

按照预设方法对所述文本信息进行语义分析，并生成用于表征与所述文本信息相适应的配音效果的人物分析结果；

根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音。

2.如权利要求1所述的情感语音合成控制方法，其特征在于，所述人物分析结果包括与所述文本信息相适应的音色、音调、音量和语速中的一种或任意组合。

3.如权利要求2所述的情感语音合成控制方法，其特征在于，在所述获取需要进行语音合成的文本信息和所述根据所述分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音之间，还包括：

按照预设方法对所述文本信息进行语义分析，并生成场景分析结果，所述场景分析结果为表示所述文本信息所处背景的分析结果。

4.如权利要求1-3任一项所述的情感语音合成控制方法，其特征在于，所述根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音包括：

解析所述人物分析结果以获取与所述人物分析结果相对应的声音参数；

根据所述声音参数生成控制信号，以将所述声音参数发送给语音合成引擎进行情感语音的合成。

5.一种情感语音合成控制装置，其特征在于，包括：

文本信息模块，用于获取需要进行语音合成的文本信息；

人物分析模块，用于按照预设方法对所述文本信息进行语义分析，并生成用于表征与所述文本信息相适应的配音效果的人物分析结果；

控制信号模块，用于根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音。

6.如权利要求5所述的情感语音合成控制装置，其特征在于，所述人物分析结果包括与所述文本信息相适应的音色、音调、音量和语速中的一种或任意组合。

7.如权利要求6所述的情感语音合成控制装置，其特征在于，还包括：

场景分析模块，用于按照预设方法对所述文本信息进行语义分析，并生成场景分析结果，所述场景分析结果为表示所述文本信息所处背景的分析结果。

8.如权利要求5-7任一项所述的情感语音合成控制装置，其特征在于，所述控制信号模块包括：

声音参数单元，用于解析所述人物分析结果以获取与所述人物分析结果相对应的声音参数；

参数发送单元，用于根据所述声音参数生成控制信号，以将所述声音参数发送给语音合成引擎进行情感语音的合成。

9.一种计算机装置，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序实现如权利要求1-4任意一项的所述的情感语音合成控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，处理器用于执行存储介质中存储的计算机程序实现如权利要求1-4任意一项所述的情感语音合成控制方法。