CN111613204A - 一种快速响应的神经语音合成系统及其方法 - Google Patents
一种快速响应的神经语音合成系统及其方法 Download PDFInfo
- Publication number
- CN111613204A CN111613204A CN202010357186.1A CN202010357186A CN111613204A CN 111613204 A CN111613204 A CN 111613204A CN 202010357186 A CN202010357186 A CN 202010357186A CN 111613204 A CN111613204 A CN 111613204A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- precision
- output
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 68
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 68
- 230000004044 response Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001537 neural effect Effects 0.000 title claims abstract description 23
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 24
- 239000000126 substance Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000001308 synthesis method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种快速响应的神经语音合成系统及其方法,包括:声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种快速响应的神经语音合成系统及其方法。
背景技术
目前,现在技术中基于LSTM的语音合成系统,通常采用流式处理的方式来成块的返回语音,即按照语音从前到后的顺序,每次仅返回固定长度的语音。一般把系统从接收文本到第一次返回语音块所用的时间叫做首帧返回时间,这个时间表示用户在输入文本后,在获取到语音前需要等待的时间,也就是合成系统的响应速度。但是,由于第一个语音块计算方式与随后的语音块是相同的,所以在计算量上是一致的,这就导致在计算性能较差的设备上首帧返回时间会很长,降低用户体验,成为系统工程指标的瓶颈。
发明内容
本发明提供一种快速响应的神经语音合成系统,用以解决在计算性能较差的设备上,由于首帧返回时间会很长,降低了用户体验的情况。
一种快速响应的神经语音合成系统,其特征在于,包括:
声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
作为本发明的一种实施例:所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
作为本发明的一种实施例:所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
作为本发明的一种实施例:所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
构建LOSS计算公式如下:
LOSS=αLOSS1+βLOSSi;
其中,所述α和β表示叠加权重。
作为本发明的一种实施例:所述快速响应的神经语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对所述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧后所述语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
作为本发明的一种实施例:所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
所述噪音处理模块处理噪音包括以下步骤:
步骤1:获取噪音能量;
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
作为本发明的一种实施例:所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
将语音的输入文本输入所述输入层,并根据流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块,并将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出;
通过预设标准语音参数,将所述标准语音参数和所述第一输出层和第二输出层的输出结果通过损失函数计算,并确定声学误差。
作为本发明的一种实施例:所述预设声学模型中包括N个隐藏层,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的有益效果:在合成效果方面,第一输出层的输出结果的精度没有第二输出层的输出结果要高,但是由于一般首个语音块长度很短,音质稍差并不会影响用户体验。
在合成响应速度方面,由于采用的第一输出层的输出结果会极大的减少了首个语音块的推理计算量,使得系统的首帧返回时间大幅度减少。
本发明构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明在训练阶段还构建了新的损失函数,在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快,可以有效的减少首帧返回时间。
这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种快速响应的神经语音合成系统系统结构图;
图2为本发明实施例中一种快速响应的神经语音合成系统的声学模型结构图;
图3为本发明实施例中一种快速响应的神经语音合成系统的噪音处理模块获取噪音特征的步骤图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
语音合成在搜索、导航、人机对话以及个人助手方面得到了广泛的应用,但是在应用时,因为首帧语音返回时间的决定了合成系统响应速度,因此通过减少首次返回语音时的运算量,来降低首帧语音返回时间,解决合成系统响应过慢问题是本发明发展的方向。
在本发明中,如附图1所示,本发明实施例中一种快速响应的神经语音合成系统结构图包括:
如附图2所示,本发明的声学模型结构图,声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
本发明的原理在于:本发明的主要技术是神经语音合成系统构建中对声学模型的改变。因此,在声学模型中,降低首帧语音返回时间是本发明的主要技术创新的方向。
本发明第一步是构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明第二步是新模型训练,在训练阶段构建新的损失函数,确定声学误差,有益效果在于:在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
本发明的第三步是合成语音块,在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快。
有益效果在于:可以有效的减少首帧返回时间。这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的原理在于:在语音合成的过程中,合成的语音块的数量需要根据输出文本的数据量确定。
因此,隐藏层为一个大于1的正整数,在进行语音合成时,会输出多个语音块,并且第一层隐含层的输出用于合成所述的低精度语音块,第N层的输出用于合成所述的高精度语音块
作为本发明的一种实施例:所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
本发明的原理在于:本发明的语音进行合成时,需要根据输出文本获取语音的特征,时间特征可以决定语音的输出时间和输入文本的时间顺序。
在通过流式排序时,根据时间特征将所述语音的输入文本按照固定的长度以时间先后的顺序进行排序,根据排序后的顺序进行编号标记,通过编号标记的方式,使得合成的时候更加简单。
在精度划分时,确定语音块的精度最后通过第一输出层和第二输出层分别输出不同精度的语音块。
本发明的有益效果在于:本发明的合成模块会首先获输入语音文的输入文本的,并通过文本特征表示进行表示。因此,文本特征能够包括了文本的时间信息和声学特征。
接着使用文本特征生成合成语音的时间信息;最后使用带时间信息的文本特征生成声学特征;有益效果在于:如果确定了时间信息和声学特征,能够方便对语音文本的流式处理。
流式处理指的的是带时间信息的文本特征,会按照时间信息进行时间顺序分块,分块的生成对应的声学特征。有益效果在于:在流式处理中第一个时间块的文本特征使用低精度的合成方式,后续的所有块都使用高精度的方式,因此提高了后续语音的精度。
作为本发明的一种实施例:所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
本发明的原理在于:损失函数是用于确定模型预测的语音参数和真实语音参数之间的误差,主要用于指导模型训练过程向着误差变小的方向进行,其主要是依赖于反响传播算法。
有益效果在于:本专利提出的新的损失函数的意义在于:同时考虑第一输出层和第二输出层与真实语音参数之间的误差,使得第一输出层结果更贴近真实语音参数,在合成时预测的第一个语音块的精度就不会特别低。
作为本发明的一种实施例:所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
构建LOSS计算公式如下:
LOSS=αLOSS1+βLOSSi;
其中,所述α和β表示叠加权重。
本发明的原理在于:本发明通过误差确定单元构建的损失函数来确定合成的语音块与标准语音参数之间的误差,LOSS计算公式的值确定了误差,LOSS计算公式中包含语音的叠加权重α和β。
本发明的有益效果在于:本发明通过LOSS计算公式确定了语音合成系统合成语音的误差,并且基于误差,使得第一输出层结果更贴近真实语音参数,这样在合成时预测的第一个语音块就不会太差。
作为本发明的一种实施例:所述快速响应的语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对所述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧后所述语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
本发明的原理在于:本发明的语音合成系统还具有通过基于时间序列获取输入文本的功能,使得输入文本可以按照固定的长度划分时,具有获取固定的时间标记。并通过滤波单元,在具有预设滤波器的情况下,通过预加重处理去除语音的信号噪音;通过分帧使得更加容易测定首帧返回时间;通过端点检测,计算分帧后语音每帧的短时平均能量,通过预设所述语音每帧的短时平均能量的标准能量参数,并根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述语音是浊音或清音来进行分类为输入文本。
本发明的有益效果在于:在语音合成语音块输出之前,可以通过时间序列获取输入文本,从而使得输入文本更加容易通过时间标记和划分。通过滤波的欲加重处理,对输入语音的分帧以及端点检测,使得本发明的合成系统更加容易在语音合成语音块之前,处理为无杂音,容易划分和合成的输入语音。
作为本发明的一种实施例:所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
如附图3所示噪音处理模块获取噪音特征的步骤图,噪音处理模块处理噪音包括以下步骤:
步骤1:获取噪音能量;
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
本发明的原理在于:本发明在输入的语音在输入层之前会经过预处理去除噪音,但是在进行合成,合成为语音块时,需要更加精确的去噪处理,通过对噪音能量和说话速率以建立精度矩阵的方式来获取噪音特征,从而在合成过程中,去除噪音。
本发明的有益效果在于:本发明通过在合成语音块的过程中,以精度矩阵权重、噪音能量和说话速率构建新的噪音特征矩阵,来判断合成过程中,每帧语音的噪音。
作为本发明的一种实施例:所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
本发明的原理和有益效果在于:本发明在神经语音合成系统将语音中的噪音通过特征筛选单元,计算出噪音特征时对语音和合成过程中的语言噪音进行标记,然后通过噪音过滤,删除语音中的语言噪音。
一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
本发明第一步是构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明第二步是新模型训练,在训练阶段构建新的损失函数,确定声学误差,有益效果在于:在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
本发明的第三步是合成语音块,在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快。
有益效果在于:可以有效的减少首帧返回时间。这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的原理在于:在语音合成的过程中,合成的语音块的数量需要根据输出文本的数据量确定。
因此,隐藏层为一个大于1的正整数,在进行语音合成时,会输出多个语音块,并且第一层隐含层的输出用于合成所述的低精度语音块,第N层的输出用于合成所述的高精度语音块。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种快速响应的神经语音合成系统,其特征在于,包括:
声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
2.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
3.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
4.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
6.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述快速响应的神经语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
7.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
所述噪音处理模块处理噪音包括以下噪音特征获取步骤:
步骤1:获取噪音能量;
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
8.根据权利要求7所述的一种快速响应的神经语音合成系统,其特征在于,所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
9.一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
10.根据权利要求9所述的一种快速响应的神经语音合成方法,其特征在于,所述预设声学模型中包括N个隐藏层,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357186.1A CN111613204B (zh) | 2020-04-29 | 2020-04-29 | 一种快速响应的神经语音合成系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357186.1A CN111613204B (zh) | 2020-04-29 | 2020-04-29 | 一种快速响应的神经语音合成系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613204A true CN111613204A (zh) | 2020-09-01 |
CN111613204B CN111613204B (zh) | 2023-04-18 |
Family
ID=72204611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010357186.1A Active CN111613204B (zh) | 2020-04-29 | 2020-04-29 | 一种快速响应的神经语音合成系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613204B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951200A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01243169A (ja) * | 1988-03-24 | 1989-09-27 | Fujitsu Ltd | パターン学習・生成方式 |
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
WO2019212375A1 (ru) * | 2018-05-03 | 2019-11-07 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
US20190377972A1 (en) * | 2018-06-08 | 2019-12-12 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for training, classification model, mobile terminal, and readable storage medium |
CN110870019A (zh) * | 2017-10-16 | 2020-03-06 | 因美纳有限公司 | 用于训练深层卷积神经网络集合的半监督学习 |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
-
2020
- 2020-04-29 CN CN202010357186.1A patent/CN111613204B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01243169A (ja) * | 1988-03-24 | 1989-09-27 | Fujitsu Ltd | パターン学習・生成方式 |
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
CN110870019A (zh) * | 2017-10-16 | 2020-03-06 | 因美纳有限公司 | 用于训练深层卷积神经网络集合的半监督学习 |
WO2019212375A1 (ru) * | 2018-05-03 | 2019-11-07 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи |
US20190377972A1 (en) * | 2018-06-08 | 2019-12-12 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for training, classification model, mobile terminal, and readable storage medium |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
Non-Patent Citations (2)
Title |
---|
RUNNAN LI ET AL: "MULTI-TASK LEARNING OF STRUCTURED OUTPUT LAYER BIDIRECTIONAL LSTMS FOR SPEECH SYNTHESIS" * |
谭天: "基于结构化深度学习的语音识别自适应技术研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951200A (zh) * | 2021-01-28 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN112951200B (zh) * | 2021-01-28 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111613204B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648658B (zh) | 一种语音识别模型的生成方法、装置及电子设备 | |
JP6902010B2 (ja) | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
US8977551B2 (en) | Parametric speech synthesis method and system | |
WO2018192424A1 (zh) | 统计参数模型建立方法、语音合成方法、服务器和存储介质 | |
JP6815899B2 (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
GB2557714A (en) | Determining phonetic relationships | |
JPH0159600B2 (zh) | ||
CN111508469A (zh) | 一种文语转换方法及装置 | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
CN112151003A (zh) | 并行语音合成方法、装置、设备以及计算机可读存储介质 | |
CN113506562A (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN112634866A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
CN112233651A (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN110648655B (zh) | 一种语音识别方法、装置、系统及存储介质 | |
CN111613204B (zh) | 一种快速响应的神经语音合成系统及其方法 | |
CN111883104B (zh) | 语音切割方法、语音转换网络模型的训练方法及相关设备 | |
CN112687257B (zh) | 句子相似度判断方法、装置、电子设备和可读存储介质 | |
CN114333762A (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
He et al. | DOP-tacotron: A fast chinese TTS system with local-based attention | |
CN113963718A (zh) | 一种基于深度学习的语音会话分割方法 | |
JPH0887294A (ja) | 音声認識装置 | |
CN113436607A (zh) | 一种快速语音克隆方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |