CN116913244A - 一种语音合成方法、设备及介质 - Google Patents

一种语音合成方法、设备及介质 Download PDF

Info

Publication number
CN116913244A
CN116913244A CN202310192642.5A CN202310192642A CN116913244A CN 116913244 A CN116913244 A CN 116913244A CN 202310192642 A CN202310192642 A CN 202310192642A CN 116913244 A CN116913244 A CN 116913244A
Authority
CN
China
Prior art keywords
information
phoneme
mel
frequency spectrum
autoregressive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310192642.5A
Other languages
English (en)
Inventor
杨会宝
刘莹
钟荣秀
张世磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310192642.5A priority Critical patent/CN116913244A/zh
Publication of CN116913244A publication Critical patent/CN116913244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种语音合成方法、设备及介质,涉及人工智能领域,其中,所述语音合成方法包括:获取待合成的音素信息;利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;根据所述第一梅尔频谱信息,合成目标语音。在语音合成过程中,具体采用非自回归声学模型对音素信息进行处理,获取对应的梅尔谱,能够充分利用处理器的并行能力,进而可以加快合成速度,且减少错误累积和错误传递,即在提高语音合成速度的同时提高语音合成的鲁棒性。

Description

一种语音合成方法、设备及介质
技术领域
本发明涉及人工智能领域,尤其涉及一种语音合成方法、设备及介质。
背景技术
随着科技的不断发展,人们对智能语音交互设备或场景的需求越来越大,语音合成(Text To Speech,TTS)技术合成是此类设备或场景的关键技术之一。以智能外呼为例,其可以根据不同的场景为相关人群制定外呼方案,采用语音合成技术合成拟人音频,并主动打电话给目标人群,进行批量电话信息采集,并通过语音识别技术对电话信息进行处理,并自动汇总结果,能够有效减少外呼的人工成本,其中,语音合成技术就是智能外呼领域中的重要一环。
语音合成技术具体是将指定的文本转换为标准的流畅的人类自然语音的任务,是实现人机交互的重要环节。采用语音合成技术合成的语音的发音准确性、流畅度、自然度以及合成速度(例如,首包返回时间和实时率)等方面是检验语音合成技术的重要指标。
传统的语音合成技术包括拼接法和统计参数法。这些传统方法是基于声学特征的分析以及合成来实现的,具有鲁棒性好、准确性高的特点,但是合成的自然度以及音质普遍较差。
近年来,随着深度学习的发展,采用神经网络的方法也越来越多,比如Tacotron系列合成方法,用音素作为输入,采用自回归的方式逐帧得到梅尔(mel)谱,并通过声码器将mel谱逐帧转换成音频波形。采用此种方法可以生成比传统方法更为自然、更为流畅的语音。
然而,基于Tacotron系列的语音合成系统,虽然可以生成比传统方法更为自然、音质更好的音频,但是,其在生成当前帧时需要上一帧的mel谱作为输入,这也就限制了合成速度,无法做并行处理,不能充分利用当前处理器的并行计算性能,导致合成效率低。
发明内容
本发明实施例提供一种语音合成方法、设备及介质,以解决现有语音合成效率低的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供一种语音合成方法,所述方法包括:
获取待合成的音素信息;
利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
根据所述第一梅尔频谱信息,合成目标语音。
可选的,所述利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息,包括:
确定所述音素信息的特征信息;
将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
可选的,所述利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量,包括:
根据所述第一特征向量获取所述音素信息的第一时长向量;
根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量。
可选的,所述方法还包括:
利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
第二方面,本发明实施例提供一种语音合成设备,包括:
第一获取模块,用于获取待合成的音素信息;
第二获取模块,用于利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
合成模块,用于根据所述第一梅尔频谱信息,合成目标语音。
可选的,所述第二获取模块,包括:
第一确定模块,用于确定所述音素信息的特征信息;
第一特征向量获取模块,用于将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
第二特征向量获取模块,用于利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
第二确定模块,用于将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
可选的,所述第二特征向量获取模块,包括:
时长模块,用于根据所述第一特征向量获取所述音素信息的第一时长向量;
方差模块,用于根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
上采样模块,用于利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量
可选的,所述语音合成设备,还包括:
参数调整模块,用于利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
第三方面,本发明实施例提供一种电子设备,包括处理器,
所述处理器,用于获取待合成的音素信息;
利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
根据所述第一梅尔频谱信息,合成目标语音。
可选的,所述利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息,包括:
确定所述音素信息的特征信息;
将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
可选的,所述利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量,包括:
根据所述第一特征向量获取所述音素信息的第一时长向量;
根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量。
可选的,所述处理器,还用于:
利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
第四方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上述第一方面所述的语音合成方法的步骤。
第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的语音合成方法的步骤。
本发明实施例中,获取待合成的音素信息;利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;根据所述第一梅尔频谱信息,合成目标语音。在语音合成过程中,具体采用非自回归声学模型对音素信息进行处理,获取对应的梅尔谱,能够充分利用处理器的并行能力,进而可以加快合成速度,且减少错误累积和错误传递,即在提高语音合成速度的同时提高语音合成的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音合成方法的流程图;
图2是本发明实施例提供的另一种语音合成方法的流程图;
图3是本发明实施例提供的一种语音合成系统示意图;
图4是本发明实施例提供的一种编码器或解码器的示意图;
图5是本发明实施例提供的一种语音合成设备示意图;
图6是本发明实施例提供的一种电子设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解,以下对本发明实施例涉及的一些内容进行说明:
传统的语音合成技术包括拼接法和统计参数法。拼接法是指事先录制好的大量音频片段,在合成时根据文本内容选取相应的基本语音单元连接成流畅的语音。统计参数法是指根据统计模型来建立文本特征到声学特征的映射关系,再将这些声学特征转换成音频波形。这些传统方法是基于声学特征的分析以及合成来实现的,具有鲁棒性好、准确性高的特点,但是合成的自然度以及音质普遍较差。
近年来,随着深度学习的发展,采用神经网络的方法也越来越多,比如谷歌的提出的Tacotron系列,用音素作为输入,基于Encoder-Attention-Decoder结构,采用自回归的方式逐帧(音素映射到时间维度(时长),即帧)得到mel谱,并通过声码器将mel谱逐帧转换成音频波形。由于,人类对频率的感知并不是线性的,并且对低频信号的感知要比高频信号敏感,通过对线性频谱做非线性变换得到mel谱,采用mel谱可以做到人们对于转换后频率差别的信号的感知能力几乎相同。采用mel谱的方法可以生成比传统方法更为自然、更为流畅的语音。
然而,基于tacotron系列的语音合成系统,虽然可以生成比传统方法更为自然、音质更好的音频,由于其采用的是自回归结构,在生成当前帧时需要上一帧的mel谱作为输入,这也就限制了合成速度,无法做并行处理,不能充分利用当前处理器的并行计算性能,导致合成效率低;此外,采用attention(注意力机制)连接Encoder与Decoder模块,attention的对齐矩阵是通过训练得到的,是一种软对齐,并不能显式的保证每个音素都会有对应的mel谱,会出现漏字、重复字、大段含糊等现象,同时容易导致序列生成的错误传播,对语音合成效果体验产生较大的影响。此外,tacotron对全局建模能力较差,合成质量和韵律表达能力较差。在智能外呼业务中,若采用上述合成系统,会出现错字、漏字等问题,严重影响外呼效果,甚至会造成理解错误,产生意想不到的后果;并且合成速度慢,严重影响外呼效率,增加部署成本。
本发明实施例中,提出了一种语音合成方法,以解决现有语音合成效率低的问题。本发明实施例属于智能语音领域中的语音合成方向,主要目的是给定文本合成逼真人类的声音,并满足实时率、首包延迟等实现需求,在人机交互中扮演着重要的角色。
参见图1,图1是本发明实施例提供的一种语音合成方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101、获取待合成的音素信息。
本发明实施例中,语音合成系统通常包括语音合成前端模块和后端模块,其中,前端模块用于获取待合成信息(通常是以文本为原始待合成信息)的音素信息,上述步骤101可以理解为对应前端模块相关操作;后端模块则用于基于音素信息进行语音合成。以下步骤102-103则可以理解为对应后端模块相关操作。语言合成后端模块又可以分为声学模型和声码器两个模块,声学模型的主要任务是将音素序列转换成mel谱,而声码器的主要任务是将mel谱转换成音频波形;以下步骤102对应声学模型,步骤103对应声码器。本发明实施例,可以理解为主要是对声学模型部分的改进。
通常,音素信息获取是对输入的文本做一定的处理后得到音素序列,主要的处理操作有语言鉴别、子句切分、文本正则分类与规则替换、分词、词性标注、文本转音素、韵律预测等等。
举例而言,输入文本为“今天天气很好,适合外出旅游”,输出音素序列可以是[j,in1,t,ian1,t,ian1,q,i4,#2,h,en3,h,ao3,#3,sh,i4,h,e2,#1,w,ai4,ch,u1,#2,l,v3,y,ou2,#4],其中#1/#2/#3/#4分别为不同级别的停顿信息。
输入文本为“It may be more or it may be less”,输出音素序列可以是[IH1T/M EY13/B IY1/M AO1 R/AO1 R/IH1 T/M EY1/B IY1/L EH1 S]。
本发明实施例中,步骤101获取音素信息的方法可以采用现有的音素信息获取/提取方法,本发明对此并不做具体限定。
步骤102、利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息。
现有的语音合成技术(例如,tacotron系列的语音合成)通常采用的是自回归结构,在生成当前帧时需要上一帧的mel谱作为输入,这也就限制了合成速度,无法做并行处理,不能充分利用当前处理器的并行计算性能,导致合成效率低。
针对现有技术的上述缺陷,本发明实施例,采用提出了一种非自回归语音合成方法,即采用了非自回归声学模型作为基本框架,利用非自回归声学模型处理所述音素信息。由于采用的是非自回归结构,可以充分利用处理器的并行能力,进而可以加快合成速度;由于采用的是非自回归结构,能够减少错误累积和错误传递,即采用了非自回归的声学模型结构,可以有效的消除不稳定性问题,并且可以提升并行合成速度,降低首包延迟,减少计算资源消耗;在提高语音合成速度的同时提高语音合成的鲁棒性。
可以理解的是,具体的非自回归声学模型类型可参考现有的非自回归模型。非自回归模型预先利用音素信息及该音素信息对应的真实mel谱进行训练得到非自回归声学模模型。
步骤103、根据所述第一梅尔频谱信息,合成目标语音。
本发明实施例中,步骤103根据mel谱(第一梅尔频谱信息)合成对应的语音(目标语音),可以采用现有的合成方法,本发明对此并不做具体限定。
本发明实施例中,能够提高语音合成中的鲁棒性,并采取了一些改进方法提升了语音合成的流畅度、自然度、真实度等,提供更稳定、更鲁棒的、速度更快的语音合成系统,使得合成的语音更加逼真,在智能交互领域具有广泛的应用,比如智能外呼领域,可以有效提升电话接通率,提高接听人员的交互意愿,减轻工作人员负担,提升工作效率。
本实施例中的语音合成方法,获取待合成的音素信息;利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;根据所述第一梅尔频谱信息,合成目标语音。在语音合成过程中,具体采用非自回归声学模型对音素信息进行处理,获取对应的mel谱,能够充分利用处理器的并行能力,进而可以加快合成速度,且减少错误累积和错误传递,即在提高语音合成速度的同时提高语音合成的鲁棒性。
参见图2,图2是本发明实施例提供的另一种语音合成方法的流程图,相对于图1所示实施例,本发明图2所示实施例提供,具体提高了一种可选的非自回归声学模型处理方式,可以理解的是,本发明并不局限于图2所示实施例的方式,只要是利用非自回归声学模型框架生成音素信息对应的mel谱,都能够提高提高语音合成速度的同时提高语音合成的鲁棒性。
如图2所示,所述方法包括以下步骤:
步骤201、获取待合成的音素信息。
上述步骤201的实施方式可以参见图1所示的实施例中的相关说明,为避免重复说明,本实施例不再赘述。
步骤202、确定所述音素信息的特征信息。
如图3所示,语音合成的前端模块获取的音素信息(音素序列)进入后端模块后,首先会进行特征的提取,以获取模型的输入信息。通常音素序列的特征提取方法,会将音素序列作为输入,对其进行编号得到ID,并对音素的ID特征进行特征扩容,例如增加顺序、位置特征等。示例性的,可以将音素的ID特征经过PhoneEmbedding和PositionEncoding层后得到每个音素的序列特征。
步骤203、将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量。
本发明实施例中,每个音素的序列特征然后经过编码器(Encoder)得到每个音素的隐层向量。
步骤204、利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量。
在声学模型中,待合成的音素信息对应的时长信息由编码器模块和时长模型预测得到,编码器模块和时长模型预先通过音素信息与时长信息训练得到。上述待合成的音素信息会得到对应的目标梅尔频谱。
本发明实施例中,使用时长模型输出的时长信息对编码器的隐层向量进行扩增,与目标mel频谱对齐。
通过采用了显式的时长模型,对每个音素会有相应的预测时长,也就是有对应的mel谱,上述显式的时长模型的对齐方式可以理解为硬对齐,从而使得每个音素都会对应一个明确的时长值,从而解决了tacotron模型存在的漏字、重复等鲁棒性问题。
通过引入了时长模型,来对每个音素的时长进行建模,并且可以很方便的调节合成语音的速度、音调等信息。
可选的,所述利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量,包括:
根据所述第一特征向量获取所述音素信息的第一时长向量;
根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量。
示例性的,上述对齐过程包括时长预测、方差预测、上采样三个分模块:
时长预测分模块,主要由若干个Conv(卷积神经网络CNN)、Relu(激活函数)和LayerNorm(层归一化)堆叠而成,接收encoder的隐变量输出,得到每个音素的时间长度(mel谱帧数)。
方差预测分模块,将encoder的隐变量和时长预测分模块的输出做拼接后,经过若干个Conv、Relu和LayerNorm后,得到每个音素的时间方差。
上采样分模块,其作用是根据时长模型预测得到的时长信息,将Encoder输出隐层状态的长度扩展到与Mel频谱长度上。具体计算方式可以参考如下公式:
给定:
一个待上采样的编码器输出向量:H=(h1,h2,...,hN);
时长预测分模块给出的整型时长向量:d=(d1,d2,...,dN);
时长方差向量σ=(σ12,...,σN);其中N表示N个音素。
输出:
上采样之后的向量,也就是decoder的输入隐状态向量U=(u1,u2,...,uT),其中,T表示时间;
计算方法:
算出di对应的ci,也即是隐状态hi对应的ci
根据ci和σi 2采样,这个wti就相当于归一化之后的对齐矩阵,t表示mel谱的时间序列,公式中的N()表示高斯分布函数。然后利用这个对齐矩阵加权求和:
在时长d所确定的,第i个输入字符(token)对应的中心放置一个具有标准方差σi的高斯分布,并且对于每一帧,根据该帧的高斯分布采样值对编码器输出进行加权求和。
高斯上采样模块的核心在于上采样过程的实现,通过求取输入音素与mel谱之间的概率矩阵,并根据此概率值对encoder的隐状态进行加权求和得到相应decoder的隐变量值,从而可以有效改善合成效果。在对encoder进行上采样之后,对每个输出都拼接一个正弦位置编码,以便记录每一个上采样编码器输出的相对位置。例如,如果时长向量为[3,2,4],则位置编码的索引将是[1,2,3,1,2,1,2,3,4]。
本发明实施例中,上述时长模型采用了高斯上采样,相当于在两个音素的交接处做平滑处理,可以有效的缓解相邻两个音素交接的地方出现的不连续性,提升模型的自然度和流畅度。
步骤205、将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息,其中,所述编码器和解码器中的至少一个采用非自回归模型。
本发明实施例中,上述第二特征向量经过解码器(Decoder)得到第一mel谱。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN(Convolutional Neural Network)的组合模型。
本发明实施例中,包括Transformer模型和卷积神经网络CNN的组合模型可以理解为增强型Transformer模型,可以更好地对语音序列中的局部特征和全局特征统一建模,并尽量精简参数规模。
对于语音合成任务来说,全局和局部任务在语音序列的建模中都起到关键作用。全局特征的作用比较好理解,因为语音序列和文本序列一样,其语义及其韵律信息也会受到上下文的影响,比方说,在中文的语音合成里,可能会出现相同的音素对应多个不同的字,这时候就需要包含上下文信息的全局特征来进行预测时长和韵律信息。局部特征的作用则体现为,一个发音单元是由多个相邻的音素构成的,用CNN可以捕获如发音单元边界等局部特征信息。在语音合成任务中,局部信息与文本的发音具有强相关性,会影响模型发音的稳定度;而全局信息与语音的韵律强相关,影响合成语音的自然度。
传统的Transformer模型结构,由于它采用了self-attention机制,Transformer可以很好的对全局信息进行建模,但是对局部的建模能力比较弱。本发明实施例,在声学模型中,具体将Transformer模型和卷积神经网络CNN进行结合,融合卷积神经网络CNN比较适合对局部信息进行建模的特性,得到增强型Transformer模型,在对全局信息建模的同时兼顾局部信息。
示例性的,如图4所示,基于增强型Transformer的Encoder/Decoder模块依次包括:第一前向模块(Feed-Forward Module 1)、多头自注意模块(MultiHead Self-Attention Module)、卷积模块(Convolution Module)和第二前向模块(Feed-ForwardModule 2)。其中,MultiHead Self-Attention Module可以理解为Transformer结构,Feed-Forward Module 1、Convolution Module以及Feed-Forward Module 2则可以理解为CNN模型对应的模块。增强型Transformer模块的输出会最终进行层归一化(LayerNorm)。可选的,增强型Transformer还进行了其它一些改进,如预归一化(Pre-Norm)、相对位置编码等。图4中的“xN”表示N组相同模块,或者循环N次。
其中,在MultiHead Self-Attention Module中采用了相对正弦位置编码方案,由于每个head的建模维度都是不一样的,MultiHead Self-Attention Module可以从不同的角度去建模,即其允许自注意力模块在不同的的输入维度上进行建模,并且所得到的编码器对序列长度的方差更鲁棒,同时使用了具有dropout的残差单元,从而有助于训练和正则化更深的模型。对应采用了相对正弦位置编码的方案,Convolution Module可以使用一个具有门控机制的卷积模块(point-wise卷积和线性门单元Gated Linear Unit),后面接单个1-D深度卷积层和dropout,以适应不同的序列长度,以增加模型的泛化能力。
Encoder或Decoder模块,两个模块的结构是一致的,在处理流程中的位置不同,或者说处理对象不同。
可选的,如图3所示,所述编码器和解码器均采用非自回归模型,即该非自回归声学模型的编码器(Encoder)和解码器(Decoder)采用了增强型Transformer,可以有效的对全局和局部信息进行建模,提升模型的自然度、流畅度、表达能力。
步骤206、根据所述第一梅尔频谱信息,合成目标语音。
本发明实施例中,上述第一mel谱用于合成目标语音。
上述步骤206的实施方式可以参见图1所示的实施例中的相关说明,为避免重复说明,本实施例不再赘述。
可选的,所述方法还包括:
利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
本发明实施例中,将非自回归声学模型的输出mel谱(可以理解为非自回归声学模型预测的mel谱)与真实语音的mel谱输入对抗神经网络,并利用对抗神经网络的输出对非自回归声学模型的参数进行调整。在训练过程中,增加了对抗神经网络,将预测谱与真实谱同时输入到对抗神经网络中,通过提取不同时间空间维度的特征,来最小化他们之间的距离,通过网络参数自更新的方式,改善声学模型的性能,可以有效的提升生成的mel谱的真实度,提升合成的准确性和提升音质。可以理解为,参考真实语音的mel谱,对非自回归声学模型进行参数调优,提高mel谱预测的准确性。
本发明实施例中,声学模型作为生成器G,而对抗神经网络作为判别器D。在训练过程中,生成器G的目标就是尽量生成真实的mel谱去欺骗判别器D。而判别器D的目标就是尽量把生成器G生成的mel谱和真实的mel谱分别开来。这样,两者就构成了一个动态的“博弈过程”。在最理想的状态下,生成器G可以生成足以“以假乱真”的mel谱。对于判别器D来说,它难以判定生成器G生成的mel谱究竟是不是真实的。采用对抗神经网络,可以让声学模型更好的学习mel谱,以减少与真实mel谱之间的差距。可选的,对抗神经网络采用了Conv2d+Relu为基础的结构,可以从时间的维度更好的学习mel谱各个维度之间的关系,从而减少误差。对于高采样率的语音信号,采用对抗神经网络,可以有效的改善频谱中存在的过度平滑的问题,高频表现更为丰富,听起来感觉更好。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
可选的,对于判别器设计上,采用多频带和/或多周期组合的一种方式。多频带的设计方法为将整个频带分成N个频带,对每个频带分别增加判别器,同时频带与频带之间有一定的重叠,这样可以保证频带的衔接处的平滑过渡。举个例子,对于8k的语音信号,它的带宽是[0,4k],假如将其分成3个频带,则这3个频带的频率范围分别为[0,2k],[1k,3k],[2k,4k],频带之间保留1k的重叠。多周期的设计方法为由于mel谱是一种时间序列,可以在时间维度上,按照降采样周期数对mel谱进行抽取使之成为一个新序列,对这个新序列分别增加判别器,并通过网络更新来优化模型。举个例子,假如mel谱的时间序列为[0,1,…,15],周期个数设定为4,则可以将其抽取成4个时间序列,分别为[0,4,8,12]、[1,5,9,13]、[2,6,10,14]、[3,7,11,15]。通过上述多频带与多周期判别相结合的一种方式,从时间和空间不同维度去缩小预测谱与真实谱之间的差距。
本发明实施例中,所采用的对抗神经网络,采用多频带和/或多周期组合的方式,可以有效的提升声学模型输出的mel谱的真实度,使生成的音频信号更加逼真,提升合成的准确性、自然度、音质。
可以理解的是,上述非自回归声学模型的参数调整方案同样适用于图1所示的实施例。
在可选的实施方式中,可以通过采用基于增强型Transformer的Encoder和Decoder、高斯上采样、对抗神经网络,可以让声学模型得到的mel谱更加逼真,从而减小了声码器的压力,提升了自然度、流畅度、表达能力,减少了错误的发生。相比于现有技术的语音合成技术方案,能够更进一步更提升语音合成模型的稳定性、实时率、表达能力,从而使得合成出来的声音更加逼真,与真人说话更加接近。
本发明实施例,可以有效的解决错字、漏字等问题,并可以提升并发性能,节约成本,提升工作效率。
参见图5,图5是本发明实施例提供的一种语音合成设备的结构示意图,如图5所示,语音合成设备500包括:
第一获取模块501,用于获取待合成的音素信息;
第二获取模块502,用于利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
合成模块503,用于根据所述第一梅尔频谱信息,合成目标语音。
可选的,所述第二获取模块502,包括:
第一确定模块,用于确定所述音素信息的特征信息;
第一特征向量获取模块,用于将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
第二特征向量获取模块,用于利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
第二确定模块,用于将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
可选的,所述第二特征向量获取模块,包括:
时长模块,用于根据所述第一特征向量获取所述音素信息的第一时长向量;
方差模块,用于根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
上采样模块,用于利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量
可选的,所述语音合成设备,还包括:
参数调整模块,用于利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
需要说明的是,本发明实施例提供的语音合成设备是能够执行上述语音合成方法的装置,则上述语音合成方法实施例中的所有实现方式均适用于该电子设备,且均能达到相同或相似的有益效果。
具体的,参见图6所示,本发明实施例还提供了一种电子设备,包括总线601、收发机602、天线603、总线接口604、处理器605和存储器606。
进一步地,所述处理器605,用于获取待合成的音素信息;
利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
根据所述第一梅尔频谱信息,合成目标语音。
可以理解的是,上述获取待合成的音素信息步骤也可以由收发机602执行。
可选的,所述利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息,包括:
确定所述音素信息的特征信息;
将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
可选的,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
可选的,所述利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量,包括:
根据所述第一特征向量获取所述音素信息的第一时长向量;
根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量。
可选的,所述处理器605,还用于:
利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
可选的,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
在图6中,总线架构(用总线601来代表),总线601可以包括任意数量的互联的总线和桥,总线601将包括由处理器605代表的一个或多个处理器和存储器606代表的存储器的各种电路链接在一起。总线601还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口604在总线601和收发机602之间提供接口。收发机602可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器605处理的数据通过天线603在无线介质上进行传输,进一步,天线603还接收数据并将数据传送给处理器605。
处理器605负责管理总线601和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器606可以被用于存储处理器605在执行操作时所使用的数据。
可选的,处理器605可以是CPU、ASIC、FPGA或CPLD。
需要说明的是,本发明实施例提供的电子设备是能够执行上述语音合成方法的装置,则上述语音合成方法实施例中的所有实现方式均适用于该电子设备,且均能达到相同或相似的有益效果。
本发明实施例还提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成的音素信息;
利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
根据所述第一梅尔频谱信息,合成目标语音。
2.根据权利要求1所述的方法,其特征在于,所述利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息,包括:
确定所述音素信息的特征信息;
将所述音素信息的特征信息输入编码器,得到所述音素信息的第一特征向量;
利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量;
将所述第二特征向量输入解码器,确定所述音素信息对应的第一梅尔频谱信息;
所述编码器和解码器中的至少一个采用非自回归模型。
3.根据权利要求2所述的方法,其特征在于,所述非自回归模型包括Transformer模型和卷积神经网络CNN的组合模型。
4.根据权利要求2所述的方法,其特征在于,所述利用时长模型对所述音素信息的第一特征向量进行扩展,得到与目标梅尔频谱对齐的第二特征向量,包括:
根据所述第一特征向量获取所述音素信息的第一时长向量;
根据所述第一特征向量和第一时长向量,确定每个音素的时间方差;
利用所述第一特征向量、第一时长向量和每个音素的时间方差,通过高斯上采样方式计算得到与目标梅尔频谱对齐的第二特征向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
利用对抗神经网络的输出对非自回归声学模型的参数进行调整;
其中,所述对抗神经网络的输入包括所述非自回归声学模型输出的所述第一梅尔频谱信息以及真实语音的第二梅尔频谱信息。
6.根据权利要求5中任一项所述的方法,其特征在于,所述对抗神经网络的输入包括如下至少一项:
频域分组后的所述第一梅尔频谱信息和频域分组后的第二梅尔频谱信息;
时域分组后的所述第一梅尔频谱信息和时域分组后的第二梅尔频谱信息。
7.一种语音合成设备,其特征在于,包括:
第一获取模块,用于获取待合成的音素信息;
第二获取模块,用于利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
合成模块,用于根据所述第一梅尔频谱信息,合成目标语音。
8.一种电子设备,其特征在于,包括处理器,
所述处理器,用于获取待合成的音素信息;
利用非自回归声学模型处理所述音素信息,获取所述音素信息对应的第一梅尔频谱信息;
根据所述第一梅尔频谱信息,合成目标语音。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法的步骤。
CN202310192642.5A 2023-02-24 2023-02-24 一种语音合成方法、设备及介质 Pending CN116913244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310192642.5A CN116913244A (zh) 2023-02-24 2023-02-24 一种语音合成方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310192642.5A CN116913244A (zh) 2023-02-24 2023-02-24 一种语音合成方法、设备及介质

Publications (1)

Publication Number Publication Date
CN116913244A true CN116913244A (zh) 2023-10-20

Family

ID=88365521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310192642.5A Pending CN116913244A (zh) 2023-02-24 2023-02-24 一种语音合成方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116913244A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809621A (zh) * 2024-02-29 2024-04-02 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809621A (zh) * 2024-02-29 2024-04-02 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Li et al. Neural speech synthesis with transformer network
CN109036371B (zh) 用于语音合成的音频数据生成方法及系统
US20220172708A1 (en) Speech separation model training method and apparatus, storage medium and computer device
CN109192213B (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN1169115C (zh) 语音合成系统及方法
CN112489635A (zh) 一种基于增强注意力机制的多模态情感识别方法
WO2020215551A1 (zh) 合成中文语音的方法、装置、设备及存储介质
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
CN111179905A (zh) 一种快速配音生成方法及装置
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN116913244A (zh) 一种语音合成方法、设备及介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN115206284B (zh) 一种模型训练方法、装置、服务器和介质
CN112242134A (zh) 语音合成方法及装置
CN114169291B (zh) 基于卷积神经和生成对抗网络的文本转语音方法及装置
Chen et al. Speaker-independent emotional voice conversion via disentangled representations
Reddy et al. Inverse filter based excitation model for HMM‐based speech synthesis system
Wan et al. Deep neural network based Chinese dialect classification
JP2022133447A (ja) 音声処理方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination