CN109712604A - 一种情感语音合成控制方法和装置 - Google Patents

一种情感语音合成控制方法和装置 Download PDF

Info

Publication number
CN109712604A
CN109712604A CN201811604136.8A CN201811604136A CN109712604A CN 109712604 A CN109712604 A CN 109712604A CN 201811604136 A CN201811604136 A CN 201811604136A CN 109712604 A CN109712604 A CN 109712604A
Authority
CN
China
Prior art keywords
speech synthesis
text information
personage
result
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811604136.8A
Other languages
English (en)
Inventor
张胜
鲁斌
孔东泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Poly Mdt Infotech Ltd
Original Assignee
Guangzhou Poly Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Poly Mdt Infotech Ltd filed Critical Guangzhou Poly Mdt Infotech Ltd
Priority to CN201811604136.8A priority Critical patent/CN109712604A/zh
Publication of CN109712604A publication Critical patent/CN109712604A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种情感语音合成控制方法和装置,其中,所述方法包括获取需要进行语音合成的文本信息;按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。本发明公开的方案能够根据文本信息进行语音合成,从而使合成后的语音具备情感。

Description

一种情感语音合成控制方法和装置
技术领域
本发明属于语音合成技术领域,具体涉及一种情感语音合成控制方法和装置。
背景技术
随着书籍无纸化的不断发展,在电子书的基础上又出现了网络听书的方式,网络听书因为其方便、节省时间并且声优的声音会随书籍情节的改变进行语调、情感的改变,更有代入感的优点,迅速受到大家的欢迎。但是因为目前市场上已出版书籍数量巨大,而聘请声优为整本书进行配音成本较高,因此导致能够进行网络听书的书籍类型和数量较少,不能够满足大多数使用者的需要。
而随着语音合成引擎的迅速发展,在一些电子书上已经开始使用汉语语音合成技术,以降低配音成本。但是现有的语音合成引擎得到的语音结果都比较僵硬、不自然,另外也无法根据书籍内情节的改变进行语气语调的调整,导致用户的代入感不强,并且使用体验较差。
因此,如何能够根据文本信息进行语音合成,从而使合成后的语音具备情感成为亟待解决的技术问题。
发明内容
本发明要解决的技术问题在于如何能够根据文本信息进行语音合成,从而使合成后的语音具备情感。
为此,根据第一方面,本发明实施例公开了情感语音合成控制方法,包括:
获取需要进行语音合成的文本信息;按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。
可选地,人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。
可选地,在获取需要进行语音合成的文本信息和根据分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音之间,还包括:按照预设方法对文本信息进行语义分析,并生成场景分析结果,场景分析结果为表示文本信息所处背景的分析结果。
可选地,根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音包括:解析人物分析结果以获取与人物分析结果相对应的声音参数;根据声音参数生成控制信号,以将声音参数发送给语音合成引擎进行情感语音的合成。
根据第二方面,本发明实施例提供了情感语音合成控制装置,包括:
文本信息模块,用于获取需要进行语音合成的文本信息;人物分析模块,用于按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;控制信号模块,用于根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。
可选地,人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。
可选地,还包括:场景分析模块,用于按照预设方法对文本信息进行语义分析,并生成场景分析结果,场景分析结果为表示文本信息所处背景的分析结果。
可选地,控制信号模块包括:声音参数单元,用于解析人物分析结果以获取与人物分析结果相对应的声音参数;参数发送单元,用于根据声音参数生成控制信号,以将声音参数发送给语音合成引擎进行情感语音的合成。
根据第三方面,本发明提供了一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现上述第一方面任意一项的情感语音合成控制方法。
根据第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,处理器用于执行存储介质中存储的计算机程序实现上述第一方面任意一项的情感语音合成控制方法。
本发明的有益效果在于:
本发明实施例公开的一种情感语音合成控制方法和装置,首先获取到需要进行语音合成的文本信息,然后按照预设方案对文本信息进行语义分析,并且生成人物分析结果,根据人物分析结果生成控制信号控制语音合成引擎合成与控制信号相对应的情感语音。相对于现有技术中仅仅是将文本生硬的转化为音频的方案,本发明实施例公开的方案通过对需要转换的文本进行语义分析,从而获得当前文本所表征的人物分析结果,人物分析结果是指当前文本所适合的配音效果,然后根据该人物分析结果生成控制语音合成引擎的控制信号,能够使合成后的音频富有感情,具有丰富的情感体验,使用户在听到音频时产生更深的代入感。
作为可选地实施例,还可以对文本信息进行语义分析,以生成场景分析结果,利用人物分析结果和用来表征当前文本所处背景的场景分析结果控制语音合成引擎同时合成具有背景音的音频,能够提高逼真度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例情感语音合成控制方法的流程图;
图2为本发明实施例情感语音合成控制装置的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,为本实施例公开的一种情感语音合成控制方法的流程图,该情感语音合成控制方法包括:
步骤S101,获取需要进行语音合成的文本信息。在本实施例中,文本信息可以是通过人工手动输入获取的,也可以是通过电子直接导入获取的,还可以是通过图像元素提取等方式来获取的。
步骤S102,按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果。在可选的实施例中,还可以包括以下步骤:按照预设方法对文本信息进行语义分析,并生成场景分析结果,场景分析结果为表示文本信息所处背景的分析结果。需要说明的是,在本实施例中,并不限制按照预设方法对文本信息进行语义分析后生成人物分析结果和场景分析结果的先后顺序。本实施例中,人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。场景分析结果例如可以是当前场景为战场、酒吧、山巅等场景。通过人物分析结果生成与当前的文本信息相对应的人物配音效果,根据场景分析结果生成与当前的文本信息相对应的背景配音效果,加入背景的配音,提高用户在收听音频时的逼真感。
步骤S103,根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。在本实施例中,步骤S103具体的包括:解析人物分析结果以获取与人物分析结果相对应的声音参数;根据声音参数生成控制信号,以将声音参数发送给语音合成引擎进行情感语音的合成。对人物分析结果进行解析并获取到与人物分析结果相对应的声音参数,然后生成控制信号使语音合成引擎能够根据声音参数进行情感语音的合成。
本实施例首先获取到需要进行语音合成的文本信息,然后按照预设方案对文本信息进行语义分析,并且生成人物分析结果,根据人物分析结果生成控制信号控制语音合成引擎合成与控制信号相对应的情感语音。相对于现有技术中仅仅是将文本生硬的转化为音频的方案,本发明实施例公开的方案通过对需要转换的文本进行语义分析,从而获得当前文本所表征的人物分析结果,人物分析结果是指当前文本所适合的配音效果,然后根据该人物分析结果生成控制语音合成引擎的控制信号,能够使合成后的音频富有感情,具有丰富的情感体验,使用户在听到音频时产生更深的代入感。
本实施例还公开了一种情感语音合成控制装置,请参考图2,为该情感语音合成控制装置结构示意图,该情感语音合成控制装置包括:
文本信息模块201,用于获取需要进行语音合成的文本信息;人物分析模块202,用于按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;控制信号模块203,用于根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。
在具体实施过程中,人物分析结果包括与文本信息相适应的音色、音调、音量和语速中的一种或任意组合。
作为可选地实施例,还包括:场景分析模块,用于按照预设方法对文本信息进行语义分析,并生成场景分析结果,场景分析结果为表示文本信息所处背景的分析结果。
作为可选地实施例,控制信号模块203包括:声音参数单元,用于解析人物分析结果以获取与人物分析结果相对应的声音参数;参数发送单元,用于根据声音参数生成控制信号,以将声音参数发送给语音合成引擎进行情感语音的合成。
此外,本发明实施例中还提供一种计算机装置,处理器通过执行所述计算机指令,从而实现以下方法:
获取需要进行语音合成的文本信息;按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机处理器用于执行存储介质中存储的计算机程序实现以下方法:
获取需要进行语音合成的文本信息;按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进。这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种情感语音合成控制方法,其特征在于,包括:
获取需要进行语音合成的文本信息;
按照预设方法对所述文本信息进行语义分析,并生成用于表征与所述文本信息相适应的配音效果的人物分析结果;
根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音。
2.如权利要求1所述的情感语音合成控制方法,其特征在于,所述人物分析结果包括与所述文本信息相适应的音色、音调、音量和语速中的一种或任意组合。
3.如权利要求2所述的情感语音合成控制方法,其特征在于,在所述获取需要进行语音合成的文本信息和所述根据所述分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音之间,还包括:
按照预设方法对所述文本信息进行语义分析,并生成场景分析结果,所述场景分析结果为表示所述文本信息所处背景的分析结果。
4.如权利要求1-3任一项所述的情感语音合成控制方法,其特征在于,所述根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音包括:
解析所述人物分析结果以获取与所述人物分析结果相对应的声音参数;
根据所述声音参数生成控制信号,以将所述声音参数发送给语音合成引擎进行情感语音的合成。
5.一种情感语音合成控制装置,其特征在于,包括:
文本信息模块,用于获取需要进行语音合成的文本信息;
人物分析模块,用于按照预设方法对所述文本信息进行语义分析,并生成用于表征与所述文本信息相适应的配音效果的人物分析结果;
控制信号模块,用于根据所述人物分析结果生成控制信号以控制语音合成引擎合成与所述控制信号相对应的情感语音。
6.如权利要求5所述的情感语音合成控制装置,其特征在于,所述人物分析结果包括与所述文本信息相适应的音色、音调、音量和语速中的一种或任意组合。
7.如权利要求6所述的情感语音合成控制装置,其特征在于,还包括:
场景分析模块,用于按照预设方法对所述文本信息进行语义分析,并生成场景分析结果,所述场景分析结果为表示所述文本信息所处背景的分析结果。
8.如权利要求5-7任一项所述的情感语音合成控制装置,其特征在于,所述控制信号模块包括:
声音参数单元,用于解析所述人物分析结果以获取与所述人物分析结果相对应的声音参数;
参数发送单元,用于根据所述声音参数生成控制信号,以将所述声音参数发送给语音合成引擎进行情感语音的合成。
9.一种计算机装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序实现如权利要求1-4任意一项的所述的情感语音合成控制方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,处理器用于执行存储介质中存储的计算机程序实现如权利要求1-4任意一项所述的情感语音合成控制方法。
CN201811604136.8A 2018-12-26 2018-12-26 一种情感语音合成控制方法和装置 Pending CN109712604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604136.8A CN109712604A (zh) 2018-12-26 2018-12-26 一种情感语音合成控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604136.8A CN109712604A (zh) 2018-12-26 2018-12-26 一种情感语音合成控制方法和装置

Publications (1)

Publication Number Publication Date
CN109712604A true CN109712604A (zh) 2019-05-03

Family

ID=66258490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604136.8A Pending CN109712604A (zh) 2018-12-26 2018-12-26 一种情感语音合成控制方法和装置

Country Status (1)

Country Link
CN (1) CN109712604A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161737A (zh) * 2019-12-23 2020-05-15 北京欧珀通信有限公司 数据处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム
US20080312931A1 (en) * 2003-11-28 2008-12-18 Tatsuya Mizutani Speech synthesis method, speech synthesis system, and speech synthesis program
CN102385858A (zh) * 2010-08-31 2012-03-21 国际商业机器公司 情感语音合成方法和系统
CN105280179A (zh) * 2015-11-02 2016-01-27 小天才科技有限公司 一种文字转语音的处理方法及系统
CN108242238A (zh) * 2018-01-11 2018-07-03 广东小天才科技有限公司 一种音频文件生成方法及装置、终端设备
CN108962219A (zh) * 2018-06-29 2018-12-07 百度在线网络技术(北京)有限公司 用于处理文本的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312931A1 (en) * 2003-11-28 2008-12-18 Tatsuya Mizutani Speech synthesis method, speech synthesis system, and speech synthesis program
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム
CN102385858A (zh) * 2010-08-31 2012-03-21 国际商业机器公司 情感语音合成方法和系统
CN105280179A (zh) * 2015-11-02 2016-01-27 小天才科技有限公司 一种文字转语音的处理方法及系统
CN108242238A (zh) * 2018-01-11 2018-07-03 广东小天才科技有限公司 一种音频文件生成方法及装置、终端设备
CN108962219A (zh) * 2018-06-29 2018-12-07 百度在线网络技术(北京)有限公司 用于处理文本的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161737A (zh) * 2019-12-23 2020-05-15 北京欧珀通信有限公司 数据处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10334384B2 (en) Scheduling playback of audio in a virtual acoustic space
CN111741233B (zh) 视频配乐方法、装置、存储介质以及电子设备
US8010366B1 (en) Personal hearing suite
CN109951743A (zh) 弹幕信息处理方法、系统及计算机设备
CN111489760A (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
JP2023503959A (ja) リスニングシーンを構築する方法及び関連装置
CN109257547A (zh) 中文在线音视频的字幕生成方法
JP2017021125A (ja) 音声対話装置
JP2011085641A (ja) 語学学習支援システム及び語学学習支援方法
EP2380170B1 (en) Method and system for adapting communications
CN112420015B (zh) 一种音频合成方法、装置、设备及计算机可读存储介质
CN112151055B (zh) 音频处理方法及装置
EP2030195B1 (en) Speech differentiation
CN109712604A (zh) 一种情感语音合成控制方法和装置
EP3627495B1 (en) Information processing device and information processing method
EP2261900A1 (en) Method and apparatus for modifying the playback rate of audio-video signals
David et al. Note on Pitch‐Synchronous Processing of Speech
JP2016122157A (ja) 音声処理装置
CN100508025C (zh) 合成语音的方法和设备及分析语音的方法和设备
US20040054524A1 (en) Speech transformation system and apparatus
Hillier et al. A modified spectrogram with possible application as a visual hearing aid for the deaf
JP2006139162A (ja) 語学学習装置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
CN111276118A (zh) 一种实现音频电子书的方法及系统
US11380345B2 (en) Real-time voice timbre style transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503

RJ01 Rejection of invention patent application after publication