CN112289298A - 合成语音的处理方法、装置、存储介质以及电子设备 - Google Patents

合成语音的处理方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN112289298A
CN112289298A CN202011069185.3A CN202011069185A CN112289298A CN 112289298 A CN112289298 A CN 112289298A CN 202011069185 A CN202011069185 A CN 202011069185A CN 112289298 A CN112289298 A CN 112289298A
Authority
CN
China
Prior art keywords
speech
data
preliminary
voice
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011069185.3A
Other languages
English (en)
Inventor
梁光
杨惠
吴雨璇
舒景辰
周鼎皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202011069185.3A priority Critical patent/CN112289298A/zh
Publication of CN112289298A publication Critical patent/CN112289298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种合成语音的处理方法、装置、存储介质以及电子设备。所述方法包括:获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,其中,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。本申请通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。

Description

合成语音的处理方法、装置、存储介质以及电子设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种合成语音的处理方法、装置、存储介质以及电子设备。
背景技术
随着人工智能技术的发展,语音合成技术越来越受到人们的重视,合成语音被应用在各种场合中,比如:公共交通上的语音播报,在线教学课程中代替老师点名、读题目等,天气播报、新闻播报等与语音合成的相关场合中。但是发明人发现:通过语音合成模型得到的合成语音比较生硬,“机器人声音”痕迹明显,那么如何解决合成语音所具有的不真实性是一个亟需解决的问题。
发明内容
本申请实施例提供了一种合成语音的处理方法、装置、计算机存储介质以及电子设备,旨在提升通过语音合成模型得到的合成语音的真实性的技术问题。所述技术方案如下:
第一方面,本申请实施例提供了一种合成语音的处理方法,所述方法包括:
获取文本数据;
基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据;
基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据;其中,所述语音信号参数包括音量、语速、基频以及背景噪声中的一种或多种。
可选地,所述基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据,包括:
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的音量;
基于音量对所述多个初步合成语音数据进行归一化处理;
将音量归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,所述基于音量对所述多个初步合成语音数据进行归一化处理,包括:
计算所述真人语音数据的平均音量;
基于所述平均音量将所述初步合成语音数据的音量调节为平均音量。
可选地,所述基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据,包括
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的语速;
基于语速对所述多个初步合成语音数据进行归一化处理;
将语速归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,所述基于语速对所述多个初步合成语音数据进行归一化处理,包括:
计算所述真人语音数据的平均语速;
基于所述平均语速将所述初步合成语音数据的语速调节为平均语速。
可选地,所述基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据,包括
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的频率;
基于频率对所述多个初步合成语音数据进行平滑处理;
将平滑处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,所述基于频率对所述多个初步合成语音数据进行平滑处理,包括:
计算所述真人语音数据的平均基频;
基于所述平均基频将所述初步合成语音数据的基频调节为平均基频;或
确定窗长和窗中的插入点;
基于所述插入点对所述初步合成语音中的基频和倍频进行平滑处理。
可选地,所述基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据,包括
当所述初步合成语音的数量为多个时,计算各个真人语音数据的信噪比;
基于所述各个真人语音数据的信噪比在所述各个真人语音数据对应的初步合成语音数据中添加背景噪声;
将添加背景噪声之后的初步合成语音数据进行拼接得到所述目标合成语音。
第二方面,本申请实施例提供了一种合成语音的处理装置,所述装置包括:
文本获取模块,用于获取文本数据;
语音合成模块,用于基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据;
语音处理模块,用于基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据;其中,所述语音信号参数包括音量、语速、基频以及背景噪声中的一种或多种。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请合成语音的处理方法的系统架构示意图;
图2是本申请实施例提供的一种合成语音的处理方法的流程示意图;
图3是本申请实施例提供的另一种合成语音的处理方法的流程示意图;
图4是本申请实施例提供的又一种合成语音的处理方法的流程示意图;
图5是本申请实施例提供的又一种合成语音的处理方法的流程示意图;
图6是本申请实施例提供的又一种合成语音的处理方法的流程示意图;
图7是本申请实施例提供的一种合成语音的处理装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参见图1,其示出了可以应用本申请实施例的合成语音的处理方法或合成语音的处理方法的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
本申请中的终端设备101、102、103可以为提供各种服务的终端设备。例如用户通过终端设备103(也可以是终端设备101或102)获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、基频以及背景噪声中的一种或多种。
在此需要说明的是,本申请实施例所提供的合成语音的处理方法可以由终端设备101、102、103中的一个或多个,和/或,服务器105执行,相应地,本申请实施例所提供的合成语音的处理装置一般设置于对应终端设备中,和/或,服务器105中,但本申请不限于此。
在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为电子设备进行介绍说明。
请参见图2,为本申请实施例提供的一种合成语音的处理方法的流程示意图。如图2所示,本申请实施例的所述方法可以包括以下步骤:
S201,获取文本数据。
其中,文本数据是用于输入到语音合成模型中进行语音合成处理的若干个文字。文本数据是由海量的文字组成的,可以是多种场景下的单人说话的文字内容。比如,可以是在线教育中教师在课堂点名、读题目这种单人说话场景;可以是公共交通上播报员播报提示音这种单人说话场景;还可以是其他单人说话的应用场景。
S202,基于语音合成模型对文本数据进行语音合成处理得到初步合成语音数据。
其中,语音合成模型是一种可以将文字进行语音合成处理,得到真人的模拟语音的模型。初步合成语音数据是模拟真人语音的模拟语音的语音数据。
一般的,语音合成模型在对文本数据进行语音合成处理的过程中还需要用到文本数据对应的真人语音数据。语音合成模型在对文本数据进行语音合成处理时,可以经过以下处理步骤:提取真人语音数据中的音色,得到一个特征向量P;对文本数据进行编码处理,包括音素嵌入、位置编码、FFT模块,得到特征向量G;将特征向量P和特征向量G进行拼接或乘法运算,得到特征向量U;对文字数据进行时长提取处理,得到音素的时长信息,基于音素的时长信息,对特征向量U进行运算,得到特征向量V;进行位置编码处理,把文本数据的文本序列信息加入到特征向量V中,得到特征向量S;经过FFT模块,由特征向量S得到特征向量T;经过Linear Layer线性层的处理,得到特征向量T对应的梅尔频谱,将该梅尔频谱与真人语音对应的梅尔频谱进行比较,将真人语音对应的梅尔频谱作为比较的标签,计算损失值,根据损失值不断迭代训练编码器和解码器。
S203,基于真人语音数据的语音信号参数对初步合成语音数据进行调整得到目标合成语音数据。
其中,语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。
可以理解的是,每个初步语音合成数据对应一个文本数据和一个真人语音数据,在初步合成语音数据的数量为多个时,也对应着多个文本数据和多个真人语音数据,每个初步语音合成语音数据对应着各自的文本数据和各自的真人语音数据。可以获取单个文本数据和该文本数据对应的真人语音数据,将该文本数据输入至预先训练的语音合成模型得到初步合成语音数据,在初步合成语音数据的数量多个时,分别将多个文本数据输入至预先训练的语音合成模型得到各个文本数据对应的初步合成语音数据。
在一种可行的实施方式中,在初步合成语音数据的数量为多个时,可以基于真人语音数据的音量对初步合成语音数据进行调整处得到目标合成语音数据。具体的,可以对各个初步合成语音数据中的音量进行归一化处理,进一步的,将调整后的各个初步合成语音数据进行拼接得到目标合成语音数据。
在一种可行的实施方式中,在初步合成语音数据的数量为多个时,可以基于真人语音数据的语速对初步合成语音数据进行调整处理得到目标合成语音数据。具体的,可以对各个初步合成语音数据中的语速进行归一化处理,进一步的,将调整后的各个初步合成语音数据进行拼接得到目标合成语音数据。
在一种可行的实施方式中,在初步合成语音数据的数量为多个时,可以基于真人语音数据的基频对初步合成语音数据进行调整处理得到目标合成语音数据。对于基频的调整,可以有两种处理方式,一是对各个初步合成语音数据中的基频进行归一化处理;二是对上述初步合成语音数据中的基频、倍频作平滑处理。
在一种可行的实施方式中,在初步合成语音数据的数量为多个时,可以基于真人语音数据中的背景噪声对初步合成语音数据进行调整处理得到目标合成语音数据。具体的,可以计算出每段初步合成语音数据所对应的真实语音数据中的信噪比,进一步的,根据信噪比在每段初步合成语音数据中添加背景噪声,对添加完背景噪声的初步合成语音数据进行拼接处理得到目标合成语音数据。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
请参见图3,为本申请实施例提供的一种合成语音的处理方法的流程示意图。如图3所示,本申请实施例的所述方法可以包括以下步骤:
S301,获取文本数据。
其中,文本数据为单人说话的文字内容,可以是多种应用场景下的单人说话的文字内容。
一般的,文本数据可以是预先存储在本地文件库中的,可以从本地文件库中获取文本数据;也可以是存储在互联网流媒体服务器中的文本数据,通过联网在线获取文本数据。
举例来说:文本数据可以是在线教育中,教师在课堂点名的文字内容,可以是“王二、李三、刘四等。”也可以是教师读题目的文字内容,可以是“以下选项中正确的选项是”等题目。文本数据也可以是地铁中的播报员的播音内容,可以是“欢迎您乘坐地铁轨道1号线,本次列车终点站:民主路”等语音提示。
S302,基于语音合成模型对文本数据进行语音合成处理得到初步合成语音数据。
一般的,语音合成模型在对文本数据进行语音合成处理的过程中还需要用到文本数据对应的真人语音数据。可以理解的,语音合成模型在对文本数据进行语音合成处理时,可以经过以下处理步骤:首先,可以提取真人语音数据中的音色,得到特征向量P;然后,对文本数据进行编码处理,包括音素嵌入、位置编码、FFT模块,得到特征向量G;接下来,将特征向量P和特征向量G进行拼接或乘法运算,得到特征向量U;然后,对文字数据进行时长提取处理,可以利用预先训练好的模型,提取音素序列中每个音素的时长信息,但是,在本申请中对此做了改进:可以使用统计模型(经典解码器),实现了强制对齐,通过对每个单词进行发音时长的统计,对每个发音序列的时长进行概率估计,选择概率最大的序列作为输出结果,由此实现了音素到音素的对齐,进一步的,基于得到的时长信息,对特征向量U进行运算,得到特征向量V;然后,进行解码阶段中的位置编码处理,基于向量计算,把文本数据的文本序列信息加入到特征向量V中,得到特征向量S,以体现时间序列;然后,将特征向量S经过FFT模块的计算,得到特征向量T;最后,经过Linear Layer线性层的处理,得到特征向量T对应的梅尔频谱,将该梅尔频谱与真人语音对应的梅尔频谱进行比较,将真人语音对应的梅尔频谱作为比较的标签,计算损失值,根据损失值不断迭代训练编码器和解码器。
S303,当初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的音量。
可以理解的是,每个初步语音合成数据对应一个文本数据和一个真人语音数据,在初步合成语音数据的数量为多个时,也对应着多个文本数据和多个真人语音数据,每个初步语音合成语音数据对应着各自的文本数据和各自的真人语音数据。可以获取单个文本数据和该文本数据对应的真人语音数据,将该文本数据输入至预先训练的语音合成模型得到初步合成语音数据,在初步合成语音数据的数量多个时,分别将多个文本数据输入至预先训练的语音合成模型得到各个文本数据对应的初步合成语音数据。
一般的,在初步合成语音数据的数量为多个时,可以计算每段初步合成语音数据的音量。
S304,计算真人语音数据的平均音量,基于平均音量将初步合成语音数据的音量调节为平均音量。
其中,平均音量为各段真人语音数据中的音量均值。
一般的,每段初步合成语音数据都有对应的真人语音数据,可以计算每段真人语音数据的音量,进一步的,计算每段真人语音数据的音量均值。进一步的,可以根据每段真人语音数据的平均音量将对应的初步合成语音数据中的音量调节为平均音量。
S305,将音量归一化处理之后的初步合成语音数据进行拼接得到目标合成语音数据。
一般的,在初步合成语音数据中的音量都调节为平均音量之后,可以将初步合成语音数据进行拼接处理,可以基于文本数据的文字内容或者文本数据对应的时间信息将多段初步合成语音数据进行拼接处理得到目标合成语音数据。
举例来说:应用场景为在线教育中的课堂点名时,文字数据分别为:“张三”、“李四”、“王五”,因为课堂中的学生是固定的,在这些名字对应的初步合成语音数据都调整为真人语音数据的平均音量之后,可以将这些名字对应的合成语音进行拼接,得到目标合成语音数据,即可以使合成语音在时间上或内容上是连续的。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
请参见图4,为本申请实施例提供的一种合成语音的处理方法的流程示意图。如图4所示,本申请实施例的所述方法可以包括以下步骤:
S401,获取文本数据。
S402,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据。
具体的,S401~S402可参见图3中的S301~S302,在此不再赘述。
S403,当初步合成语音数据的数量为多个个时,分别计算多个初步合成语音数据的语速。
可以理解的是,每个初步语音合成数据对应一个文本数据和一个真人语音数据,在初步合成语音数据的数量为多个时,也对应着多个文本数据和多个真人语音数据,每个初步语音合成语音数据对应着各自的文本数据和各自的真人语音数据。可以获取单个文本数据和该文本数据对应的真人语音数据,将该文本数据输入至预先训练的语音合成模型得到初步合成语音数据,在初步合成语音数据的数量多个时,分别将多个文本数据输入至预先训练的语音合成模型得到各个文本数据对应的初步合成语音数据。
一般的,在初步合成语音数据的数量为多个时,可以计算每段初步合成语音数据的语速,计算语速的方法为:可以将每段初步合成语音数据输入预设的语速模型,从而得到每段语音数据对应的语速结果,语速结果中包括单位时间内的音节数量,预设的语速模型是根据训练语音数据以及训练语音数据对应的语速结果进行训练得到的。
S404,计算真人语音数据的平均语速,基于平均语速将初步合成语音数据的语速调节为平均语速。
其中,平均语速为多段真人语音数据中的语速均值。
一般的,每段初步合成语音数据都有对应的真人语音数据,可以计算每段真人语音数据的语速,进一步的,计算每段真人语音数据的平均语速,可以将每段真人语音数据输入预设的语速模型,从而得到每段真人语音数据对应的语速结果。进一步的,可以得到真人语音数据的平均语速,可以根据每段真人语音数据的平均语速将对应的初步合成语音数据中的语速调节为平均语速。
S405,将语速归一化处理之后的初步合成语音数据进行拼接得到目标合成语音数据。
一般的,在初步合成语音数据中的语速都调节为平均语速之后,可以将初步合成语音数据进行拼接处理,可以基于文本数据的文字内容或者文本数据对应的时间信息将多段初步合成语音数据进行拼接处理得到目标合成语音数据,即可以使合成语音在时间上或内容上是连续的。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
请参见图5,为本申请实施例提供的一种合成语音的处理方法的流程示意图。如图5所示,本申请实施例的所述方法可以包括以下步骤:
S501,获取文本数据。
S502,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据。
具体的,S501~S502可参见图3中的S301~S302,在此不再赘述。
S503,当初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的频率。
可以理解的是,每个初步语音合成数据对应一个文本数据和一个真人语音数据,在初步合成语音数据的数量为多个时,也对应着多个文本数据和多个真人语音数据,每个初步语音合成语音数据对应着各自的文本数据和各自的真人语音数据。可以获取单个文本数据和该文本数据对应的真人语音数据,将该文本数据输入至预先训练的语音合成模型得到初步合成语音数据,在初步合成语音数据的数量多个时,分别将多个文本数据输入至预先训练的语音合成模型得到各个文本数据对应的初步合成语音数据。
一般的,在初步合成语音数据的数量为多个时,通过每段初步合成语音数据的频谱图确定每段初步合成语音数据中的基频和倍频。
S504,基于频率对多个初步合成语音数据进行平滑处理。
可以理解的是,平滑对于语音数据而言,是使语音信号看起来不是断断续续的,在这里,可以是让频谱图看起来更平滑。基于频率对初步合成语音数据进行平滑处理可以包括两种平滑处理的方式,一是通过计算各段真人语音数据中的平均基频,将各个初步合成语音数据中的基频调节为平均基频;二是确定窗长和窗中的插入点,基于插入点对初步合成语音中的基频和倍频进行插值平滑处理。
S505,将平滑处理之后的初步合成语音数据进行拼接得到目标合成语音数据。
基于S504处理之后的语音数据,已经在频率上处于平滑的状态了,那么还可以使语音信号在时间上不是断断续续的,此时可以对上述平滑处理之后的语音数据进行拼接处理,得到目标合成语音数据,即得到在时间上连续的合成语音。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
请参见图6,为本申请实施例提供的一种合成语音的处理方法的流程示意图。如图6所示,本申请实施例的所述方法可以包括以下步骤:
S601,获取文本数据。
S602,基于语音合成模型对文本数据进行语音合成处理得到初步合成语音数据。
具体的,S601~S602可参见图3中的S301~S302,在此不再赘述。
S603,当初步合成语音数据的数量为多个时,计算各个真人语音数据的信噪比。
可以理解的是,每个初步语音合成数据对应一个文本数据和一个真人语音数据,在初步合成语音数据的数量为多个时,也对应着多个文本数据和多个真人语音数据,每个初步语音合成语音数据对应着各自的文本数据和各自的真人语音数据。可以获取单个文本数据和该文本数据对应的真人语音数据,将该文本数据输入至预先训练的语音合成模型得到初步合成语音数据,在初步合成语音数据的数量多个时,分别将多个文本数据输入至预先训练的语音合成模型得到各个文本数据对应的初步合成语音数据。
S604,基于各个真人语音数据的信噪比在各个真人语音数据对应的初步合成语音数据中添加背景噪声。
S605,将添加背景噪声之后的初步合成语音数据进行拼接得到目标合成语音数据。
可以理解的,信噪比是指真人语音数据中的信号能量和噪声能量的比值,即信号的平均功率和噪声的平均功率之比。在初步合成语音数据的数量为至少两个时,计算各个初步合成语音数据各自对应的真人语音数据中的真实信噪比,进一步的,可以根据各个真人语音数据中的真实信噪比,分别在对应的初步合成语音数据中添加对应比例的背景噪声。对于添加了背景噪声的初步合成语音数据,为了这些初步合成语音数据在时间上或文本内容上是一个连续的状态,可以将上述初步合成语音数据进行拼接处理,得到最终的合成语音。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
请参见图7,为本申请实施例提供的一种合成语音的处理装置的结构示意图。该合成语音的处理装置700可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置700包括:
文本获取模块710,用于获取文本数据;
语音合成模块720,用于基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据;
语音处理模块730,用于基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据;其中,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。
可选地,语音处理模块730包括:
音量计算单元,用于在所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的音量;
音量归一化单元,用于基于音量对所述多个初步合成语音数据进行归一化处理;
第一语音拼接单元,用于将音量归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,音量归一化单元包括:
第一音量单元,用于计算所述真人语音数据的平均音量;
第二音量单元,用于基于所述平均音量将所述初步合成语音数据的音量调节为平均音量。
可选地,语音处理模块730包括:
语速计算单元,用于在所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的语速;
语速归一化单元,用于基于语速对所述多个初步合成语音数据进行归一化处理;
第二语音拼接单元,用于将语速归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,语速归一化单元包括:
第一语速单元,用于计算所述真人语音数据的平均语速;
第二语速单元,用于基于所述平均语速将所述初步合成语音数据的语速调节为平均语速。
可选地,语音处理模块730包括:
频率计算单元,用于当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的频率;
频率平滑单元,用于基于频率对所述多个初步合成语音数据进行平滑处理;
第三语音拼接单元,用于将平滑处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
可选地,频率平滑单元包括:
第一频率单元,用于计算所述真人语音数据的平均基频;
第二频率单元,用于基于所述平均基频将所述初步合成语音数据的基频调节为平均基频;或
第三频率单元,用于确定窗长和窗中的插入点;
第四频率单元,用于基于所述插入点对所述初步合成语音中的基频和倍频进行平滑处理。
可选地,语音处理模块730包括:
信噪比计算单元,用于在所述初步合成语音的数量为多个时,计算各个真人语音数据的信噪比;
噪声添加单元,用于基于所述各个真人语音数据的信噪比在所述各个真人语音数据对应的初步合成语音数据中添加背景噪声;
第四语音拼接单元,用于将添加背景噪声之后的初步合成语音数据进行拼接得到所述目标合成语音。
本申请实施例的方案在执行时,获取文本数据,基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据,基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,所述语音信号参数包括音量、语速、频率以及背景噪声中的一种或多种。通过上述语音信号参数对初步合成语音数据进行调整,提高了合成语音的真实感。
参见图8,其示出了本申请实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施上述实施例中合成语音的处理方法。具体来讲:
存储器820可用于存储软件程序以及模块,处理器890通过运行存储在存储器820的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器820还可以包括存储器控制器,以提供处理器190和输入单元130对存储器820的访问。
输入单元830可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元830可包括触敏表面831(例如:触摸屏、触摸板或触摸框)。触敏表面831,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面831上或在触敏表面831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器890,并能接收处理器890发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元840可包括显示面板841,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板841。进一步的,触敏表面831可覆盖显示面板841,当触敏表面831检测到在其上或附近的触摸操作后,传送给处理器890以确定触摸事件的类型,随后处理器890根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中,触敏表面831与显示面板841是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面831与显示面板841集成而实现输入和输出功能。
处理器890是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器890可包括一个或多个处理核心;其中,处理器890可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器890中。
具体在本实施例中,终端设备的显示单元是触摸屏显示器,终端设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现合成语音的处理方法的步骤。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图2~图6所示实施例的具体说明,在此不进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种合成语音的处理方法,其特征在于,所述方法包括:
获取文本数据;
基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据;
基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据;其中,所述语音信号参数包括音量、语速、基频以及背景噪声中的一种或多种。
2.根据权利要求1所述的方法,其特征在于,所述基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,包括:
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的音量;
基于音量对所述多个初步合成语音数据进行归一化处理;
将音量归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
3.根据权利要求2所述的方法,其特征在于,所述基于音量对所述多个初步合成语音数据进行归一化处理,包括:
计算所述真人语音数据的平均音量;
基于所述平均音量将所述初步合成语音数据的音量调节为平均音量。
4.根据权利要求1所述的方法,其特征在于,所述基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,包括
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的语速;
基于语速对所述多个初步合成语音数据进行归一化处理;
将语速归一化处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
5.根据权利要求4所述的方法,其特征在于,所述基于语速对所述多个初步合成语音数据进行归一化处理,包括:
计算所述真人语音数据的平均语速;
基于所述平均语速将所述初步合成语音数据的语速调节为平均语速。
6.根据权利要求1所述的方法,其特征在于,所述基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,包括
当所述初步合成语音数据的数量为多个时,分别计算多个初步合成语音数据的频率;
基于频率对所述多个初步合成语音数据进行平滑处理;
将平滑处理之后的初步合成语音数据进行拼接得到所述目标合成语音数据。
7.根据权利要求6所述的方法,其特征在于,所述基于频率对所述多个初步合成语音数据进行平滑处理,包括:
计算所述真人语音数据的平均基频;
基于所述平均基频将所述初步合成语音数据的基频调节为平均基频;或
确定窗长和窗中的插入点;
基于所述插入点对所述初步合成语音中的基频和倍频进行平滑处理。
8.根据权利要求1所述的方法,其特征在于,所述基于真人语音数据的语音信号参数对所述初步合成语音数据进行调整得到目标合成语音数据,包括
当所述初步合成语音的数量为多个时,计算各个真人语音数据的信噪比;
基于所述各个真人语音数据的信噪比在所述各个真人语音数据对应的初步合成语音数据中添加背景噪声;
将添加背景噪声之后的初步合成语音数据进行拼接得到所述目标合成语音。
9.一种合成语音的处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本数据;
语音合成模块,用于基于语音合成模型对所述文本数据进行语音合成处理得到初步合成语音数据;
语音处理模块,用于基于真人语音数据的语音信号参数对所述初步合成语音进行调整得到目标合成语音数据;其中,所述语音信号参数包括音量、语速、基频以及背景噪声中的一种或多种。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~8任意一项的方法步骤。
11.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~8任意一项的方法步骤。
CN202011069185.3A 2020-09-30 2020-09-30 合成语音的处理方法、装置、存储介质以及电子设备 Pending CN112289298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011069185.3A CN112289298A (zh) 2020-09-30 2020-09-30 合成语音的处理方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011069185.3A CN112289298A (zh) 2020-09-30 2020-09-30 合成语音的处理方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN112289298A true CN112289298A (zh) 2021-01-29

Family

ID=74422342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011069185.3A Pending CN112289298A (zh) 2020-09-30 2020-09-30 合成语音的处理方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN112289298A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273808A (zh) * 2021-04-14 2022-11-01 上海博泰悦臻网络技术服务有限公司 声音处理方法、存储介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584980A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合成系统中将提示音与文本语音合成输出的方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN109087671A (zh) * 2018-09-20 2018-12-25 重庆先特服务外包产业有限公司 政府综合热线服务平台
CN109949791A (zh) * 2019-03-22 2019-06-28 平安科技(深圳)有限公司 基于hmm的情感语音合成方法、装置及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价系统
CN110517662A (zh) * 2019-07-12 2019-11-29 云知声智能科技股份有限公司 一种智能语音播报的方法及系统
CN111369971A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584980A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合成系统中将提示音与文本语音合成输出的方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN109087671A (zh) * 2018-09-20 2018-12-25 重庆先特服务外包产业有限公司 政府综合热线服务平台
CN109949791A (zh) * 2019-03-22 2019-06-28 平安科技(深圳)有限公司 基于hmm的情感语音合成方法、装置及存储介质
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价系统
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110517662A (zh) * 2019-07-12 2019-11-29 云知声智能科技股份有限公司 一种智能语音播报的方法及系统
CN111369971A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱晓农: "语音学", 31 March 2010, 商务印书馆国际有限公司 , pages: 286 - 287 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273808A (zh) * 2021-04-14 2022-11-01 上海博泰悦臻网络技术服务有限公司 声音处理方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108022586B (zh) 用于控制页面的方法和装置
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN109087669B (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN112289299B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112099628A (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
CN111862942B (zh) 普通话和四川话的混合语音识别模型的训练方法及系统
CN111653265B (zh) 语音合成方法、装置、存储介质和电子设备
US11511200B2 (en) Game playing method and system based on a multimedia file
CN108877782A (zh) 语音识别方法和装置
CN104485115A (zh) 发音评价设备、方法和系统
CN100585663C (zh) 语言学习系统
CN111142667A (zh) 一种基于文本标记生成语音的系统和方法
KR20190109651A (ko) 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN112289298A (zh) 合成语音的处理方法、装置、存储介质以及电子设备
CN115240696B (zh) 一种语音识别方法及可读存储介质
CN112825245B (zh) 实时修音方法、装置及电子设备
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
KR102088047B1 (ko) 언어 학습 장치
CN113658581A (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN113779372A (zh) 一种用户群画像的建立方法和装置
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
CN112185338B (zh) 音频处理方法、装置、可读存储介质和电子设备
CN116721662B (zh) 音频处理方法、装置、存储介质及电子设备
CN114051105B (zh) 多媒体数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination