CN116072131A - 一种语音合成方法、装置、电子设备及存储介质 - Google Patents

一种语音合成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116072131A
CN116072131A CN202211614246.9A CN202211614246A CN116072131A CN 116072131 A CN116072131 A CN 116072131A CN 202211614246 A CN202211614246 A CN 202211614246A CN 116072131 A CN116072131 A CN 116072131A
Authority
CN
China
Prior art keywords
preset
text
frequency spectrum
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211614246.9A
Other languages
English (en)
Inventor
涂清华
吴松城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Black Mirror Technology Co ltd
Original Assignee
Xiamen Black Mirror Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Black Mirror Technology Co ltd filed Critical Xiamen Black Mirror Technology Co ltd
Priority to CN202211614246.9A priority Critical patent/CN116072131A/zh
Publication of CN116072131A publication Critical patent/CN116072131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取与待处理文本对应的前端文本特征;基于预设声学模型对前端文本特征进行编码,得到编码特征;基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧;将各频谱帧依次输入预设声码器,生成与待处理文本对应的音频;预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息,实现流式输出各频谱帧,从而提高了语音合成时的响应速度。

Description

一种语音合成方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种语音合成方法、装置、电子设备及存储介质。
背景技术
在语音合成系统中,一般包含前端文本特征提取、声学模型、声码器三大部分。由于文字的数据量较小,因此前端文本特征提取的处理时间较短。而声学模型和声码器由于计算量较大,处理时间则较长。在用户输入文本之后,如果等到完成整句文本的音频合成再返回音频数据,往往使得响应时间特别长。尤其在语音交互等需要低延迟响应的场景,大大降低了用户体验。
因此,如何提高语音合成时的响应速度,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例提供一种语音合成方法、装置、电子设备及存储介质,用以提高语音合成时的响应速度。
第一方面,提供一种语音合成方法,所述方法包括:获取与待处理文本对应的前端文本特征;基于预设声学模型对所述前端文本特征进行编码,得到编码特征;基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
第二方面,提供一种语音合成装置,所述装置包括:获取模块,用于获取与待处理文本对应的前端文本特征;编码模块,用于基于预设声学模型对所述前端文本特征进行编码,得到编码特征;解码模块,用于基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;生成模块,用于将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的语音合成方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音合成方法。
通过应用以上技术方案,获取与待处理文本对应的前端文本特征;基于预设声学模型对前端文本特征进行编码,得到编码特征;基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧;将各频谱帧依次输入预设声码器,生成与待处理文本对应的音频;其中,预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。在进行解码运算时,在每次输入中加入上一时刻的隐藏层参数信息,实现流式输出各频谱帧,从而提高了语音合成时的响应速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种语音合成方法的流程示意图;
图2示出了本发明另一实施例提出的一种语音合成方法的流程示意图;
图3示出了本发明实施例中预设声学模型的运行原理示意图;
图4示出了本发明实施例中预设声码器的生成器中卷积神经网络的运行原理示意图;
图5示出了本发明实施例提出的一种语音合成装置的结构示意图;
图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请实施例提供一种语音合成方法,如图1所示,该方法包括以下步骤:
步骤S101,获取与待处理文本对应的前端文本特征。
本实施例中,待处理文本是需要进行语音合成的文本,待处理文本可以是用户直接输入的文本,也可以是人机交互过程中计算机自动生成的文本,还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR(Optical CharacterRecognition,光学字符识别)得到的文本,本实施例对此不作具体限定。本实施例的语音合成过程主要分为前端文本特征提取、声学模型和声码器三部分,实现端到端语音合成的功能。前端文本特征是对待处理文本进行特征提取后生成的,前端文本特征提取可包括文本分析、韵律预测、文本音素转换等处理步骤。
在本申请一些实施例中,所述获取与待处理文本对应的前端文本特征,包括:
基于预设分词模型确定所述待处理文本的分词信息;
基于预设位置识别模型确定所述待处理文本中各文字的位置信息;
基于预设多音字模型和非多音字音调表确定各所述文字的音调信息;
根据所述分词信息、所述位置信息和所述音调信息确定所述待处理文本的韵律信息,并基于所述韵律信息确定所述前端文本特征。
本实施例中,分词是文本分析的基本模块,合理的分词能够有效对多音字、停顿等进行识别。分词信息可包括多个分词标签,各分词标签可将待处理文本划分为多个分词,分词标签表征了每个文字在分词中的位置以及是否为单字词。分词标签可包括分词的起始位置、分词的结束位置、分词的其他位置、单字词。预先建立预设分词模型,基于该预设分词模型对待处理文本进行分词处理,得到分词信息。在预设分词模型的训练阶段,通过收集语音合成领域语料进行标注,分词标签包括:B、E、M、S。B表示分词的起始位置,E表示分词的结束位置,M表示分词的其他位置,S表示单字词。在预设分词模型预测阶段,对每个字预测对应的分词标签,就可以获得分词结果。另外,所述预设分词模型采用语义化的分词策略,例如:大家早上好!现有技术中通常的分词分成:大家,早上,好。本实施例中,考虑了发音和语义一致性问题,将分词分为:大家,早上好,对应分词标签为:BE/BME,从而可获取更加合理的分词结果。
位置信息表征了每个文字在句子里的位置,可包括句首、句尾、句中标点符号前、句中标点符号后、句子的其他位置。预先建立预设位置识别模型,将待处理文本输入预设位置识别模型,根据预设位置识别模型的输出结果确定位置信息,从而可更加准确的进行位置识别。
每个文字均带有音调,例如,若待处理文本为中文,原始音调可包括1声、2声、3声、4声、5声(轻声)。对于语音合成来说,一个字的发音正确与否也非常重要。汉字可分为多音字和非多音字,预先建立预设多音字模型和非多音字音调表,若当前文字为多音字,基于预设多音字模型预测出当前文字的音调信息;若当前文字为非多音字,基于当前文字查询非多音字音调表后确定当前文字的音调信息,从而可准确的确定待处理文本中各文字的音调信息。在一些实施例中,预设多音字模型为基于所有汉字多音字建立的单一模型,100多个汉字多音字,涉及到300多个发音,从而可以共享浅层特征,避免重复计算。
韵律是指人阅读或说话过程中的停顿、重音、节奏等主观性语言学的范畴。在确定出分词信息、位置信息和音调信息后,可根据分词信息、位置信息和音调信息确定出待处理文本的韵律信息,将该韵律信息作为前端文本特征。具体的,预先建立一个预设韵律映射规则表,该预设韵律映射规则表中包括将音调信息映射为韵律值的韵律映射规则,根据位置信息、分词信息和音调信息查询预设韵律映射规则表后,根据查询出的各韵律值确定韵律信息。
在本申请一些实施例中,所述预设分词模型、所述预设位置识别模型和所述预设多音字模型的模型结构均由Bert(Bidirectional EncoderRepresentations fromTransformer,基于Transformer的双向编码器表示)模型、2层BLSTM(Bidirectional LongShort Term Memory Network,双向长短时记忆网络)模型、1层全连接层和softmax层依次连接形成。
本实施例中,通过大量数据预训练的Bert模型来提取隐藏向量,再对隐藏向量输入到BLSTM网络,最后通过一层全连接层和softmax进行分类。从而可更加准确的分别确定出各分词信息、位置信息和音调信息。本领域技术人员可根据实际需要采用其他不同的模型结构,这并不影响本申请的保护范围。
可选的,预设分词模型中,第一层BLSTM模型的节点数为512,第二层BLSTM模型的节点数为256,全连接层的节点数为4。预设位置识别模型中,第一层BLSTM模型的节点数为512,第二层BLSTM模型的节点数为256,全连接层的节点数为3。预设多音字模型中,第一层BLSTM模型的节点数为512,第二层BLSTM模型的节点数为256,全连接层的节点数为315。
在本申请一些实施例中,在获取与待处理文本对应的前端文本特征之前,所述方法还包括:
获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到所述待处理文本。
本实施例中,对初始文本进行预处理后得到待处理文本。预处理包括缺失值补全、异常值过滤和重复值过滤,缺失值补全可以为多重插补,异常值过滤可采用异常值检测算法z-score识别出异常值并删除,重复值过滤为对重复值进行去重处理,通过对初始文本进行预处理,得到更加准确的待处理文本,进而可提高语音合成的准确性。
步骤S102,基于预设声学模型对所述前端文本特征进行编码,得到编码特征。
本实施例中,在语音合成时,输入序列(文本)与输出序列(音频)长度常常不是一致的,不能直接将输入序列的每个字符与目标发音一一对应,因此需要利用预设声学模型将前端文本特征依次进行编码和解码运算。基于预设声学模型对前端文本特征进行编码,将前端文本特征转换成一个隐层表征,该隐层表征即编码特征。在本申请具体的应用场景中,预设声学模型中设置有编码器,通过编码器对前端文本特征进行编码后得到编码特征。
在本申请一些实施例中,所述预设声学模型采用包括字符嵌入层、三卷积层和双向长短期记忆网络层的结构进行编码,所述基于预设声学模型对所述前端文本特征进行编码,得到编码特征,包括:
基于所述字符嵌入层将所述前端文本特征转换为预设维度的字符向量,得到编码字符向量;
基于所述三卷积层对所述编码字符向量进行归一化处理,得到卷积向量;
调用预置的激活函数激活所述卷积向量,得到激活向量;
基于所述双向长短期记忆网络层对所述激活向量进行预测,得到所述编码特征。
本实施例中,预设声学模型采用包括字符嵌入层、三卷积层和双向长短期记忆网络层的结构进行编码,先基于字符嵌入层将前端文本特征转换为预设维度的字符向量,得到编码字符向量,然后基于三卷积层对编码字符向量进行归一化处理,得到卷积向量,再调用预置的激活函数激活卷积向量,得到激活向量,最后基于双向长短期记忆网络层对激活向量进行预测,得到编码特征,从而保证了编码特征的准确性。
可选的,预设维度可以为512维,三卷积层包括三层卷积层,每层卷积层包含512个5x1的卷积核,即每个卷积核横跨5个字符,激活函数为relu函数,双向长短期记忆网络层包括512个单元,每个方向包括256个单元。
步骤S103,基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧。
本实施例中,对编码特征进行解码运算才能得到相应的频谱特征,基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧,各频谱帧可作为频谱特征,各频谱帧的类型可以为梅尔频谱。其中,预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络对编码特征进行解码运算时,在各时刻包括一路输入和一路输出,在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。由于加入了上一时刻的隐藏层参数信息,由此可使各时刻的频谱帧与自身前一时刻的频谱帧之间有效衔接,实现流式输出各频谱帧,形成连贯的频谱特征。由于各频谱帧之间具有良好的衔接性,将各频谱帧依次输入预设声码器后,可得到流式输出的音频,从而可极大提高语音合成的响应速度。
举例来说,对30个汉字进行语音合成时,现有技术中,需要等到完成整句音频合成之后,再返回音频数据,合成后音频的长度大概为6s,处理时间按照实时率(每合成一秒钟音频需要的时间)0.1s来算,需要0.6s的延迟。相比之下,本申请实施例中,可流式输出各频谱帧,不用等到完成整句音频合成再返回音频数据,响应时间可从0.6s降低到0.1s以内。
在本申请具体的应用场景中,预设声学模型采用解码器进行解码运算,该解码器采用该预设自回归循环神经网络。如图3所示为本发明实施例中预设声学模型的运行原理示意图。将前端文本特征输入预设声学模型的编码器,得到编码特征,将该编码特征输入解码器进行解码运算,解码器采用预设自回归循环神经网络,解码器在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,解码器在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。以图3为例,t0、t1、t2分别为各时刻,解码器下方的各箭头表示各时刻的输入,解码器上方的各箭头表示各时刻的输出,解码器在t0时刻的输出包括t0时刻的频谱帧和t0时刻的隐藏层参数信息,解码器在t1时刻的输入包括t0时刻的频谱帧和t0时刻的隐藏层参数信息,之后以此类推。由此可使各时刻的频谱帧与自身前一时刻的频谱帧之间有效衔接,实现流式输出各频谱帧,形成连贯的频谱特征。
在本申请一些实施例中,所述预设声学模型中设置有预设注意力模型,所述预设自回归循环神经网络包括预处理网络层、长短期记忆网络层、后处理网络层,所述基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧,包括:
基于所述预处理网络层和所述长短期记忆网络层对所述编码特征按注意力向量进行基于预设维度的线性投影,得到多个中间频谱帧;
基于所述后处理网络层对各所述中间频谱帧进行残差预测和归一化处理,得到各所述频谱帧;
其中,所述注意力向量是由所述预设注意力模型确定的。
本实施例中,预设声学模型中设置有预设注意力模型,预设注意力模型用于基于注意力机制确定注意力向量,预设自回归循环神经网络包括预处理网络层、长短期记忆网络层、后处理网络层,先基于预处理网络层和长短期记忆网络层对编码特征按注意力向量进行基于预设维度的线性投影,得到多个中间频谱帧,然后基于后处理网络层对各中间频谱帧进行残差预测和归一化处理,得到各频谱帧。
可选的,预处理网络层为双层全连接层,每层全连接层由256个隐藏激活函数relu单元组成,后处理网络层为五层卷积层,每层由512个5x1的卷积核组成,除了最后一层卷积层,其它每层卷积层的归一化的过程都采用激活函数tanh激活。
可选的,所述隐藏层参数信息包括所述注意力向量和所述长短期记忆网络层的隐藏层参数。
在本申请一些实施例中,所述预设声学模型为基于tacotron的模型,预设声学模型是基于多个发音人进行训练的,通过多个发音人数据共享,提升了预设声学模型的鲁棒性。在预处理网络层中加入说话人信息,可提高预设声学模型对说话人的建模能力。预设注意力模型采用gmmv2,可提升模型的稳定性。
步骤S104,将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频。
本实施例中,将各频谱帧依次输入预设声码器,预设声码器对各频谱帧进行频谱分析,生成与待处理文本对应的音频。
在本申请一些实施例中,预设声码器基于Style GAN,且加入了pitch的正弦激励信号,大大提升了预设声码器的建模能力。
通过应用以上技术方案,获取与待处理文本对应的前端文本特征;基于预设声学模型对前端文本特征进行编码,得到编码特征;基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧;将各频谱帧依次输入预设声码器,生成与待处理文本对应的音频;其中,预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。在进行解码运算时,在每次输入中加入上一时刻的隐藏层参数信息,实现流式输出各频谱帧,从而提高了语音合成时的响应速度。
本申请实施例还提出了一种语音合成方法,如图2所示,该方法包括以下步骤:
步骤S201,获取与待处理文本对应的前端文本特征。
本实施例中,待处理文本是需要进行语音合成的文本,待处理文本可以是用户直接输入的文本,也可以是人机交互过程中计算机自动生成的文本,还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR得到的文本,本实施例对此不作具体限定。本实施例的语音合成过程主要分为前端文本特征提取、声学模型和声码器三部分,实现端到端语音合成的功能。前端文本特征是对待处理文本进行特征提取后生成的,前端文本特征提取可包括文本分析、韵律预测、文本音素转换等处理步骤。
步骤S202,基于预设声学模型对所述前端文本特征进行编码,得到编码特征。
本实施例中,在语音合成时,输入序列(文本)与输出序列(音频)长度常常不是一致的,不能直接将输入序列的每个字符与目标发音一一对应,因此需要利用预设声学模型将前端文本特征依次进行编码和解码运算。基于预设声学模型对前端文本特征进行编码,将前端文本特征转换成一个隐层表征,该隐层表征即编码特征。在本申请具体的应用场景中,预设声学模型中设置有编码器,通过编码器对前端文本特征进行编码后得到编码特征。
步骤S203,基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧。
本实施例中,对编码特征进行解码运算才能得到相应的频谱特征,基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧,各频谱帧可作为频谱特征。其中,预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络对编码特征进行解码运算时,在各时刻包括一路输入和一路输出,在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息,由于加入了上一时刻的隐藏层参数信息,由此可使各时刻的频谱帧与自身前一时刻的频谱帧之间有效衔接,实现流式输出各频谱帧,形成连贯的频谱特征。由于各频谱帧之间具有良好的衔接性,将各频谱帧依次输入预设声码器后,可得到流式输出的音频,从而可极大提高语音合成的响应速度。
步骤S204,若到达所述预设声码器的所述频谱帧的数量达到预设数量,将各所述频谱帧作为当前输入数据输入所述卷积神经网络的输入层,根据所述卷积神经网络的输出层确定当前音频帧,并缓存目标数据。
本实施例中,预设声码器采用生成对抗网络,生成对抗网络中的生成器包括卷积神经网络。卷积神经网络包括输入层、隐藏层以及输出层,隐藏层又包括卷积层、池化层和全连接层。由预设声学模型输出的频谱帧依次到达预设声码器,在到达的频谱帧的数量达到预设数量时,可以将到达的频谱帧作为当前输入数据输入卷积神经网络的输入层,然后经卷积神经网络的隐藏层,由输出层输出与当前输入数据对应的音频帧,并缓存目标数据,该目标数据包括当前输入数据中除第一个频谱帧以外的各剩余频谱帧,举例来说,若当前输入数据包括频谱帧1、频谱帧2、频谱帧3和频谱帧4四个频谱帧,则目标数据为频谱帧2、频谱帧3和频谱帧4这三个频谱帧。
步骤S205,将下一个新的频谱帧输入所述输入层,并调用所述目标数据到所述卷积神经网络,根据所述输出层确定下一个音频帧。
本实施例中,在将下一个新的频谱帧输入卷积神经网络的输入层后,调用缓存的目标数据,使下一个新的频谱帧与目标数据组成新的当前输入数据,卷积神经网络的输出层可输出下一个音频帧,之后继续获取下一个新的频谱帧,以此类推,可依次确定出多个音频帧。
由于将历史时刻的输入层数据与当前时刻的频谱帧一起输入卷积神经网络的输入层,保证了卷积神经网络的输出层输出的音频帧的准确性。
在本申请具体的应用场景中,如图4所示为预设声码器的生成器中卷积神经网络的运行原理示意图,图中卷积神经网络包括3层卷积核为2的卷积层,若在当前时刻从卷积神经网络的输入层输入1、2、3、4号节点的数据,经隐藏层中5-9号节点后,从输出层输出10号节点的数据,此时缓存2、3、4号节点的数据。在将下一个新的频谱帧输入卷积神经网络的输入层中的11号节点后,调用之前缓存的2、3、4号节点的数据,将2、3、4、11号节点的数据作为新的当前输入数据,最终由输出层输出14号节点的数据。
步骤S206,根据依次确定的各所述音频帧生成所述音频。
本实施例中,将依次确定的各音频帧依次流式输出,生成与待处理文本对应的音频,由于各音频帧考虑了历史时刻的音频帧数据,使各音频帧之间具有良好的衔接性,不需要在得到整句话的音频帧后才输出音频数据,实现了各音频帧的流式输出,提高了响应速度。
在本申请一些实施例中,所述目标数据还包括所述卷积神经网络中与所述剩余频谱帧相关的隐藏层参数。
本实施例中,通过将剩余频谱帧相关的隐藏层参数进行缓存,可以避免重复计算相应的隐藏层参数,可进一步降低延迟。
再次以图4中的卷积神经网络为例,从输出层输出10号节点的数据后,除了缓存2、3、4号节点的数据,还缓存与2、3、4号节点的数据对应的隐藏层参数,即缓存6、7、9号节点的数据,从而在下一个新的频谱帧输入卷积神经网络的输入层中的11号节点后,可避免重复对6、7、9号节点的数据进行重复计算,可进一步降低延迟。
通过应用以上技术方案,获取与待处理文本对应的前端文本特征;基于预设声学模型对前端文本特征进行编码,得到编码特征;基于预设声学模型对编码特征进行解码运算,得到依次生成的多个频谱帧;将各频谱帧依次输入预设声码器,生成与待处理文本对应的音频若到达预设声码器的频谱帧的数量达到预设数量,将各频谱帧作为当前输入数据输入卷积神经网络的输入层,根据卷积神经网络的输出层确定当前音频帧,并缓存目标数据;将下一个新的频谱帧输入输入层,并调用目标数据到卷积神经网络,根据输出层确定下一个音频帧;根据依次确定的各音频帧生成音频。
其中,预设声学模型采用预设自回归循环神经网络进行解码运算,预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息,目标数据包括当前输入数据中除第一个频谱帧以外的各剩余频谱帧。在进行解码运算时,在每次输入中加入上一时刻的隐藏层参数信息,实现流式输出各频谱帧,并在利用预设声码器生成各音频帧时考虑历史时刻的音频帧数据,实现各音频帧的流式输出,提高了语音合成的响应速度。
本申请实施例还提出了语音合成装置,如图5所示,所述装置包括:
获取模块501,用于获取与待处理文本对应的前端文本特征;
编码模块502,用于基于预设声学模型对所述前端文本特征进行编码,得到编码特征;
解码模块503,用于基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;
生成模块504,用于将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;
其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
在进行解码运算时,在每次输入中加入上一时刻的隐藏层参数信息,实现流式输出各频谱帧,从而提高了语音合成时的响应速度。
在具体的应用场景中,所述预设声码器采用生成对抗网络,所述生成对抗网络中的生成器包括卷积神经网络,生成模块504,具体用于:
若到达所述预设声码器的所述频谱帧的数量达到预设数量,将各所述频谱帧作为当前输入数据输入所述卷积神经网络的输入层,根据所述卷积神经网络的输出层确定当前音频帧,并缓存目标数据;
将下一个新的频谱帧输入所述输入层,并调用所述目标数据到所述卷积神经网络,根据所述输出层确定下一个音频帧;
根据依次确定的各所述音频帧生成所述音频;
其中,所述目标数据包括所述当前输入数据中除第一个频谱帧以外的各剩余频谱帧。
在具体的应用场景中,所述目标数据还包括所述卷积神经网络中与所述剩余频谱帧相关的隐藏层参数。
在具体的应用场景中,所述预设声学模型中设置有预设注意力模型,所述预设自回归循环神经网络包括预处理网络层、长短期记忆网络层、后处理网络层,解码模块503,具体用于:
基于所述预处理网络层和所述长短期记忆网络层对所述编码特征按注意力向量进行基于预设维度的线性投影,得到多个中间频谱帧;
基于所述后处理网络层对各所述中间频谱帧进行残差预测和归一化处理,得到各所述频谱帧;
其中,所述注意力向量是由所述预设注意力模型确定的。
在具体的应用场景中,所述预设声学模型采用包括字符嵌入层、三卷积层和双向长短期记忆网络层的结构进行编码,编码模块502,具体用于:
基于所述字符嵌入层将所述前端文本特征转换为预设维度的字符向量,得到编码字符向量;
基于所述三卷积层对所述编码字符向量进行归一化处理,得到卷积向量;
调用预置的激活函数激活所述卷积向量,得到激活向量;
基于所述双向长短期记忆网络层对所述激活向量进行预测,得到所述编码特征。
在具体的应用场景中,获取模块501,具体用于:
基于预设分词模型确定所述待处理文本的分词信息;
基于预设位置识别模型确定所述待处理文本中各文字的位置信息;
基于预设多音字模型和非多音字音调表确定各所述文字的音调信息;
根据所述分词信息、所述位置信息和所述音调信息确定所述待处理文本的韵律信息,并基于所述韵律信息确定所述前端文本特征。
在具体的应用场景中,所述装置还包括预处理模块,用于:
获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到所述待处理文本。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存储处理器的可执行指令;
处理器601,被配置为经由执行所述可执行指令来执行:
获取与待处理文本对应的前端文本特征;
基于预设声学模型对所述前端文本特征进行编码,得到编码特征;
基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;
将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;
其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音合成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的语音合成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取与待处理文本对应的前端文本特征;
基于预设声学模型对所述前端文本特征进行编码,得到编码特征;
基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;
将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;
其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
2.如权利要求1所述的方法,其特征在于,所述预设声码器采用生成对抗网络,所述生成对抗网络中的生成器包括卷积神经网络,所述将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频,包括:
若到达所述预设声码器的所述频谱帧的数量达到预设数量,将各所述频谱帧作为当前输入数据输入所述卷积神经网络的输入层,根据所述卷积神经网络的输出层确定当前音频帧,并缓存目标数据;
将下一个新的频谱帧输入所述输入层,并调用所述目标数据到所述卷积神经网络,根据所述输出层确定下一个音频帧;
根据依次确定的各所述音频帧生成所述音频;
其中,所述目标数据包括所述当前输入数据中除第一个频谱帧以外的各剩余频谱帧。
3.如权利要求2所述的方法,其特征在于,所述目标数据还包括所述卷积神经网络中与所述剩余频谱帧相关的隐藏层参数。
4.如权利要求1所述的方法,其特征在于,所述预设声学模型中设置有预设注意力模型,所述预设自回归循环神经网络包括预处理网络层、长短期记忆网络层、后处理网络层,所述基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧,包括:
基于所述预处理网络层和所述长短期记忆网络层对所述编码特征按注意力向量进行基于预设维度的线性投影,得到多个中间频谱帧;
基于所述后处理网络层对各所述中间频谱帧进行残差预测和归一化处理,得到各所述频谱帧;
其中,所述注意力向量是由所述预设注意力模型确定的。
5.如权利要求1所述的方法,其特征在于,所述预设声学模型采用包括字符嵌入层、三卷积层和双向长短期记忆网络层的结构进行编码,所述基于预设声学模型对所述前端文本特征进行编码,得到编码特征,包括:
基于所述字符嵌入层将所述前端文本特征转换为预设维度的字符向量,得到编码字符向量;
基于所述三卷积层对所述编码字符向量进行归一化处理,得到卷积向量;
调用预置的激活函数激活所述卷积向量,得到激活向量;
基于所述双向长短期记忆网络层对所述激活向量进行预测,得到所述编码特征。
6.如权利要求1所述的方法,其特征在于,所述获取与待处理文本对应的前端文本特征,包括:
基于预设分词模型确定所述待处理文本的分词信息;
基于预设位置识别模型确定所述待处理文本中各文字的位置信息;
基于预设多音字模型和非多音字音调表确定各所述文字的音调信息;
根据所述分词信息、所述位置信息和所述音调信息确定所述待处理文本的韵律信息,并基于所述韵律信息确定所述前端文本特征。
7.如权利要求1所述的方法,其特征在于,在获取与待处理文本对应的前端文本特征之前,所述方法还包括:
获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到所述待处理文本。
8.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取与待处理文本对应的前端文本特征;
编码模块,用于基于预设声学模型对所述前端文本特征进行编码,得到编码特征;
解码模块,用于基于所述预设声学模型对所述编码特征进行解码运算,得到依次生成的多个频谱帧;
生成模块,用于将各所述频谱帧依次输入预设声码器,生成与所述待处理文本对应的音频;
其中,所述预设声学模型采用预设自回归循环神经网络进行解码运算,所述预设自回归循环神经网络在各时刻的输出包括当前时刻的频谱帧和当前时刻的隐藏层参数信息,所述预设自回归循环神经网络在各时刻的输入包括上一时刻的频谱帧和上一时刻的隐藏层参数信息。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的语音合成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的语音合成方法。
CN202211614246.9A 2022-12-15 2022-12-15 一种语音合成方法、装置、电子设备及存储介质 Pending CN116072131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211614246.9A CN116072131A (zh) 2022-12-15 2022-12-15 一种语音合成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211614246.9A CN116072131A (zh) 2022-12-15 2022-12-15 一种语音合成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116072131A true CN116072131A (zh) 2023-05-05

Family

ID=86181230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211614246.9A Pending CN116072131A (zh) 2022-12-15 2022-12-15 一种语音合成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116072131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434763A (zh) * 2023-06-12 2023-07-14 清华大学 基于音频量化的自回归音频生成方法及装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434763A (zh) * 2023-06-12 2023-07-14 清华大学 基于音频量化的自回归音频生成方法及装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110377716B (zh) 对话的交互方法、装置及计算机可读存储介质
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
JP7504188B2 (ja) エンドツーエンド音声合成システムにおける表現度の制御
US11080591B2 (en) Processing sequences using convolutional neural networks
US11205444B2 (en) Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN110135441B (zh) 一种图像的文本描述方法及装置
CN114038447A (zh) 语音合成模型的训练方法、语音合成方法、装置及介质
CN111081230A (zh) 语音识别方法和设备
CN111930900B (zh) 标准发音生成方法及相关装置
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
CN112802444A (zh) 语音合成方法、装置、设备及存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN116072131A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN116825084A (zh) 跨语种的语音合成方法、装置、电子设备和存储介质
CN115171176A (zh) 对象情绪的分析方法、装置和电子设备
CN113053353B (zh) 一种语音合成模型的训练方法及装置
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN117316140A (zh) 语音合成方法、装置、设备、存储介质及程序产品
US20040006469A1 (en) Apparatus and method for updating lexicon
US11393454B1 (en) Goal-oriented dialog generation using dialog template, API, and entity data
CN112528679B (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN116884388A (zh) 一种基于发音人向量的语音合成方法和装置
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination