CN111613204A - 一种快速响应的神经语音合成系统及其方法 - Google Patents

一种快速响应的神经语音合成系统及其方法 Download PDF

Info

Publication number
CN111613204A
CN111613204A CN202010357186.1A CN202010357186A CN111613204A CN 111613204 A CN111613204 A CN 111613204A CN 202010357186 A CN202010357186 A CN 202010357186A CN 111613204 A CN111613204 A CN 111613204A
Authority
CN
China
Prior art keywords
voice
speech
precision
output
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010357186.1A
Other languages
English (en)
Other versions
CN111613204B (zh
Inventor
石强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010357186.1A priority Critical patent/CN111613204B/zh
Publication of CN111613204A publication Critical patent/CN111613204A/zh
Application granted granted Critical
Publication of CN111613204B publication Critical patent/CN111613204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种快速响应的神经语音合成系统及其方法,包括:声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。

Description

一种快速响应的神经语音合成系统及其方法
技术领域
本发明涉及语音处理技术领域,特别涉及一种快速响应的神经语音合成系统及其方法。
背景技术
目前,现在技术中基于LSTM的语音合成系统,通常采用流式处理的方式来成块的返回语音,即按照语音从前到后的顺序,每次仅返回固定长度的语音。一般把系统从接收文本到第一次返回语音块所用的时间叫做首帧返回时间,这个时间表示用户在输入文本后,在获取到语音前需要等待的时间,也就是合成系统的响应速度。但是,由于第一个语音块计算方式与随后的语音块是相同的,所以在计算量上是一致的,这就导致在计算性能较差的设备上首帧返回时间会很长,降低用户体验,成为系统工程指标的瓶颈。
发明内容
本发明提供一种快速响应的神经语音合成系统,用以解决在计算性能较差的设备上,由于首帧返回时间会很长,降低了用户体验的情况。
一种快速响应的神经语音合成系统,其特征在于,包括:
声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
作为本发明的一种实施例:所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
作为本发明的一种实施例:所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
作为本发明的一种实施例:所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
设所述第一输出层的输出结果为y1、所述第二输出层的输出结果为y2和所述标准语音参数
Figure BDA0002473889530000031
构建LOSS计算公式如下:
Figure BDA0002473889530000032
Figure BDA0002473889530000033
LOSS=αLOSS1+βLOSSi
其中,所述α和β表示叠加权重。
作为本发明的一种实施例:所述快速响应的神经语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对所述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧后所述语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
作为本发明的一种实施例:所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
所述噪音处理模块处理噪音包括以下步骤:
步骤1:获取噪音能量;
Figure BDA0002473889530000041
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
Figure BDA0002473889530000042
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
Figure BDA0002473889530000043
其中,所述Et表示第t帧所述语音的语言噪音特征;所述Lt表示第t帧所述语音的精度矩阵。
作为本发明的一种实施例:所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
将语音的输入文本输入所述输入层,并根据流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块,并将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出;
通过预设标准语音参数,将所述标准语音参数和所述第一输出层和第二输出层的输出结果通过损失函数计算,并确定声学误差。
作为本发明的一种实施例:所述预设声学模型中包括N个隐藏层,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的有益效果:在合成效果方面,第一输出层的输出结果的精度没有第二输出层的输出结果要高,但是由于一般首个语音块长度很短,音质稍差并不会影响用户体验。
在合成响应速度方面,由于采用的第一输出层的输出结果会极大的减少了首个语音块的推理计算量,使得系统的首帧返回时间大幅度减少。
本发明构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明在训练阶段还构建了新的损失函数,在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快,可以有效的减少首帧返回时间。
这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种快速响应的神经语音合成系统系统结构图;
图2为本发明实施例中一种快速响应的神经语音合成系统的声学模型结构图;
图3为本发明实施例中一种快速响应的神经语音合成系统的噪音处理模块获取噪音特征的步骤图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
语音合成在搜索、导航、人机对话以及个人助手方面得到了广泛的应用,但是在应用时,因为首帧语音返回时间的决定了合成系统响应速度,因此通过减少首次返回语音时的运算量,来降低首帧语音返回时间,解决合成系统响应过慢问题是本发明发展的方向。
在本发明中,如附图1所示,本发明实施例中一种快速响应的神经语音合成系统结构图包括:
如附图2所示,本发明的声学模型结构图,声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
本发明的原理在于:本发明的主要技术是神经语音合成系统构建中对声学模型的改变。因此,在声学模型中,降低首帧语音返回时间是本发明的主要技术创新的方向。
本发明第一步是构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明第二步是新模型训练,在训练阶段构建新的损失函数,确定声学误差,有益效果在于:在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
本发明的第三步是合成语音块,在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快。
有益效果在于:可以有效的减少首帧返回时间。这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的原理在于:在语音合成的过程中,合成的语音块的数量需要根据输出文本的数据量确定。
因此,隐藏层为一个大于1的正整数,在进行语音合成时,会输出多个语音块,并且第一层隐含层的输出用于合成所述的低精度语音块,第N层的输出用于合成所述的高精度语音块
作为本发明的一种实施例:所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
本发明的原理在于:本发明的语音进行合成时,需要根据输出文本获取语音的特征,时间特征可以决定语音的输出时间和输入文本的时间顺序。
在通过流式排序时,根据时间特征将所述语音的输入文本按照固定的长度以时间先后的顺序进行排序,根据排序后的顺序进行编号标记,通过编号标记的方式,使得合成的时候更加简单。
在精度划分时,确定语音块的精度最后通过第一输出层和第二输出层分别输出不同精度的语音块。
本发明的有益效果在于:本发明的合成模块会首先获输入语音文的输入文本的,并通过文本特征表示进行表示。因此,文本特征能够包括了文本的时间信息和声学特征。
接着使用文本特征生成合成语音的时间信息;最后使用带时间信息的文本特征生成声学特征;有益效果在于:如果确定了时间信息和声学特征,能够方便对语音文本的流式处理。
流式处理指的的是带时间信息的文本特征,会按照时间信息进行时间顺序分块,分块的生成对应的声学特征。有益效果在于:在流式处理中第一个时间块的文本特征使用低精度的合成方式,后续的所有块都使用高精度的方式,因此提高了后续语音的精度。
作为本发明的一种实施例:所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
本发明的原理在于:损失函数是用于确定模型预测的语音参数和真实语音参数之间的误差,主要用于指导模型训练过程向着误差变小的方向进行,其主要是依赖于反响传播算法。
有益效果在于:本专利提出的新的损失函数的意义在于:同时考虑第一输出层和第二输出层与真实语音参数之间的误差,使得第一输出层结果更贴近真实语音参数,在合成时预测的第一个语音块的精度就不会特别低。
作为本发明的一种实施例:所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
设所述第一输出层的输出结果为y1、所述第二输出层的输出结果为y2和所述标准语音参数
Figure BDA0002473889530000111
构建LOSS计算公式如下:
Figure BDA0002473889530000112
Figure BDA0002473889530000113
LOSS=αLOSS1+βLOSSi
其中,所述α和β表示叠加权重。
本发明的原理在于:本发明通过误差确定单元构建的损失函数来确定合成的语音块与标准语音参数之间的误差,LOSS计算公式的值确定了误差,LOSS计算公式中包含语音的叠加权重α和β。
本发明的有益效果在于:本发明通过LOSS计算公式确定了语音合成系统合成语音的误差,并且基于误差,使得第一输出层结果更贴近真实语音参数,这样在合成时预测的第一个语音块就不会太差。
作为本发明的一种实施例:所述快速响应的语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对所述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧后所述语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
本发明的原理在于:本发明的语音合成系统还具有通过基于时间序列获取输入文本的功能,使得输入文本可以按照固定的长度划分时,具有获取固定的时间标记。并通过滤波单元,在具有预设滤波器的情况下,通过预加重处理去除语音的信号噪音;通过分帧使得更加容易测定首帧返回时间;通过端点检测,计算分帧后语音每帧的短时平均能量,通过预设所述语音每帧的短时平均能量的标准能量参数,并根据所述标准能量参数与所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述语音是浊音或清音来进行分类为输入文本。
本发明的有益效果在于:在语音合成语音块输出之前,可以通过时间序列获取输入文本,从而使得输入文本更加容易通过时间标记和划分。通过滤波的欲加重处理,对输入语音的分帧以及端点检测,使得本发明的合成系统更加容易在语音合成语音块之前,处理为无杂音,容易划分和合成的输入语音。
作为本发明的一种实施例:所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
如附图3所示噪音处理模块获取噪音特征的步骤图,噪音处理模块处理噪音包括以下步骤:
步骤1:获取噪音能量;
Figure BDA0002473889530000121
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
Figure BDA0002473889530000131
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
Figure BDA0002473889530000132
其中,所述Et表示第t帧所述神经语音的语言噪音特征;所述Lt表示第t帧所述语音的精度矩阵权重。
本发明的原理在于:本发明在输入的语音在输入层之前会经过预处理去除噪音,但是在进行合成,合成为语音块时,需要更加精确的去噪处理,通过对噪音能量和说话速率以建立精度矩阵的方式来获取噪音特征,从而在合成过程中,去除噪音。
本发明的有益效果在于:本发明通过在合成语音块的过程中,以精度矩阵权重、噪音能量和说话速率构建新的噪音特征矩阵,来判断合成过程中,每帧语音的噪音。
作为本发明的一种实施例:所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
本发明的原理和有益效果在于:本发明在神经语音合成系统将语音中的噪音通过特征筛选单元,计算出噪音特征时对语音和合成过程中的语言噪音进行标记,然后通过噪音过滤,删除语音中的语言噪音。
一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
本发明第一步是构建了新的声学模型,以扩展输出层的方式,在传统的声学模型中增加了第一输出层。
本发明第二步是新模型训练,在训练阶段构建新的损失函数,确定声学误差,有益效果在于:在本发明中,由于同时考虑第一输出层和第二输出层与真实语音参数之间的误差,可以使得第一输出层结果更贴近真实语音参数。
本发明的第三步是合成语音块,在计算第一个语音块时,直接使用第一输出层的结果,即首帧的语音块从第一输出层输出。
由于第一输出层获得输出的速度比第二输出层快,所以新的声学模型较传统的声学模型获取第一个语音块要快。
有益效果在于:可以有效的减少首帧返回时间。这样在合成时预测的第一个语音块就不会特别差,使得本发明在语音合成时减少了用户的等待时间,提高了用户体验。
作为本发明的一种实施例:所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
本发明的原理在于:在语音合成的过程中,合成的语音块的数量需要根据输出文本的数据量确定。
因此,隐藏层为一个大于1的正整数,在进行语音合成时,会输出多个语音块,并且第一层隐含层的输出用于合成所述的低精度语音块,第N层的输出用于合成所述的高精度语音块。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种快速响应的神经语音合成系统,其特征在于,包括:
声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
2.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
3.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
4.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述声学训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
5.根据权利要求4所述的一种快速响应的神经语音合成系统,其特征在于,所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
设所述第一输出层的输出结果为y1、所述第二输出层的输出结果为y2和所述标准语音参数
Figure FDA0002473889520000021
构建LOSS计算公式确定误差,如下:
Figure FDA0002473889520000022
Figure FDA0002473889520000023
LOSS=αLOSS1+βLOSSi
其中,所述α和β表示叠加权重。
6.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述快速响应的神经语音合成系统还包括:
预处理模块:用于对所述语音进行处理,获取基于时间序列的输入文本;其中,
所述预处理模块包括:
滤波单元:用于预设滤波器,对述语音通过预加重处理去除信号噪音;
分帧单元:用于将所述预加重处理后的所述语音按照时间段进行分帧;
端点检测单元:用于计算所述分帧语音每帧的短时平均能量,预设所述语音每帧的短时平均能量的标准能量参数,根据所述标准能量参数所述语音每帧的短时平均能量的对比,判断每帧所述语音是浊音或清音,并根据所述浊音和清音把每帧语音存储再不同区域。
7.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
所述噪音处理模块处理噪音包括以下噪音特征获取步骤:
步骤1:获取噪音能量;
Figure FDA0002473889520000031
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取所述语音语速参数;
Figure FDA0002473889520000032
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
Figure FDA0002473889520000041
其中,所述Et表示第t帧所述语音的语言噪音特征;所述Lt表示第t帧所述语音的精度矩阵权重。
8.根据权利要求7所述的一种快速响应的神经语音合成系统,其特征在于,所述噪音处理模块还包括:
噪音特征筛选单元:用于根据所述语言噪音特征对所述语音中的语言噪音进行标记;
噪音过滤单元:用于在所述语音在流式合成时,根据所述标记,删除所述语音中的语言噪音。
9.一种快速响应的神经语音合成方法,其特征在于,包括:
预设声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出。
10.根据权利要求9所述的一种快速响应的神经语音合成方法,其特征在于,所述预设声学模型中包括N个隐藏层,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
CN202010357186.1A 2020-04-29 2020-04-29 一种快速响应的神经语音合成系统及其方法 Active CN111613204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010357186.1A CN111613204B (zh) 2020-04-29 2020-04-29 一种快速响应的神经语音合成系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010357186.1A CN111613204B (zh) 2020-04-29 2020-04-29 一种快速响应的神经语音合成系统及其方法

Publications (2)

Publication Number Publication Date
CN111613204A true CN111613204A (zh) 2020-09-01
CN111613204B CN111613204B (zh) 2023-04-18

Family

ID=72204611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010357186.1A Active CN111613204B (zh) 2020-04-29 2020-04-29 一种快速响应的神经语音合成系统及其方法

Country Status (1)

Country Link
CN (1) CN111613204B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01243169A (ja) * 1988-03-24 1989-09-27 Fujitsu Ltd パターン学習・生成方式
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
WO2019212375A1 (ru) * 2018-05-03 2019-11-07 Общество с ограниченной ответственностью "Центр речевых технологий" Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
CN110491382A (zh) * 2019-03-11 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110870019A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 用于训练深层卷积神经网络集合的半监督学习
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01243169A (ja) * 1988-03-24 1989-09-27 Fujitsu Ltd パターン学習・生成方式
CN103345656A (zh) * 2013-07-17 2013-10-09 中国科学院自动化研究所 一种基于多任务深度神经网络的数据识别方法及装置
CN110870019A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 用于训练深层卷积神经网络集合的半监督学习
WO2019212375A1 (ru) * 2018-05-03 2019-11-07 Общество с ограниченной ответственностью "Центр речевых технологий" Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110491382A (zh) * 2019-03-11 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUNNAN LI ET AL: "MULTI-TASK LEARNING OF STRUCTURED OUTPUT LAYER BIDIRECTIONAL LSTMS FOR SPEECH SYNTHESIS" *
谭天: "基于结构化深度学习的语音识别自适应技术研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951200A (zh) * 2021-01-28 2021-06-11 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN112951200B (zh) * 2021-01-28 2024-03-12 北京达佳互联信息技术有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111613204B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110648658B (zh) 一种语音识别模型的生成方法、装置及电子设备
JP6902010B2 (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
US8977551B2 (en) Parametric speech synthesis method and system
WO2018192424A1 (zh) 统计参数模型建立方法、语音合成方法、服务器和存储介质
JP6815899B2 (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
GB2557714A (en) Determining phonetic relationships
JPH0159600B2 (zh)
CN111508469A (zh) 一种文语转换方法及装置
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN112151003A (zh) 并行语音合成方法、装置、设备以及计算机可读存储介质
CN113506562A (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN112233651A (zh) 方言类型的确定方法、装置、设备及存储介质
CN110648655B (zh) 一种语音识别方法、装置、系统及存储介质
CN111613204B (zh) 一种快速响应的神经语音合成系统及其方法
CN111883104B (zh) 语音切割方法、语音转换网络模型的训练方法及相关设备
CN112687257B (zh) 句子相似度判断方法、装置、电子设备和可读存储介质
CN114333762A (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
He et al. DOP-tacotron: A fast chinese TTS system with local-based attention
CN113963718A (zh) 一种基于深度学习的语音会话分割方法
JPH0887294A (ja) 音声認識装置
CN113436607A (zh) 一种快速语音克隆方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant