CN113345406A - 神经网络声码器语音合成的方法、装置、设备以及介质 - Google Patents

神经网络声码器语音合成的方法、装置、设备以及介质 Download PDF

Info

Publication number
CN113345406A
CN113345406A CN202110545405.3A CN202110545405A CN113345406A CN 113345406 A CN113345406 A CN 113345406A CN 202110545405 A CN202110545405 A CN 202110545405A CN 113345406 A CN113345406 A CN 113345406A
Authority
CN
China
Prior art keywords
channel
audio
frequency
network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110545405.3A
Other languages
English (en)
Other versions
CN113345406B (zh
Inventor
王飞
张李
王欢良
唐浩元
王佳珺
代大明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qdreamer Network Technology Co ltd
Original Assignee
Suzhou Qdreamer Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qdreamer Network Technology Co ltd filed Critical Suzhou Qdreamer Network Technology Co ltd
Priority to CN202110545405.3A priority Critical patent/CN113345406B/zh
Publication of CN113345406A publication Critical patent/CN113345406A/zh
Application granted granted Critical
Publication of CN113345406B publication Critical patent/CN113345406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了神经网络声码器语音合成的方法、装置、设备以及介质,其将音频低频由线性预测滤波器建模生成,将高频细节部分用自回归残差网络补全,同时将自回归残差网络进行补充完善,然后将低频细节和高频细节叠加,最后输出语音,合成的稳定性高,其中的多通道以及一步多点技术增加推理运算效率,另外对RNN结构的块稀疏化、减小自回归的运算量的同时提升矩阵运算计算效率,从而实现了让语音合成提供最佳质量的同时保证高效实,具有参数量低、合成速度快和合成音质高特点,符合实际的使用需求。

Description

神经网络声码器语音合成的方法、装置、设备以及介质
技术领域
本发明涉及语音信号处理领域,尤其涉及一种神经网络声码器语音合成的方法、装置、设备以及介质。
背景技术
语音合成,也就是人类声音的人工产品,被广泛应用于从助手到游戏、娱乐等各种领域,目前,语音合成已经成为语音助手不可或缺的一部分;语音合成的一般流程为:先将文本转为声学特征,随后将声学特征转为音频,声码器作为语音合成的重要组成部分,负责的就是将声学特征转换为音频。
目前声码器有两条技术路线:源-滤波器声码器以及神经网络声码器,源-滤波器声码器能够提供高度可理解的、流畅的语音,但整体质量略低。
近期,深度学习对语音领域冲击巨大,神经网络声码器极大的超越了传统的源-滤波器声码器,以WaveGLow以及MelGan为代表的生成型神经网络声码器具有合成速度高的特点,但其生成过程不可控的特性造成了其合成音不稳定,而以WaveRNN、LPCNet为代表的自回归型神经网络声码器极有潜力,能够提供高质量且稳定的合成音,然而高保真音频的采样率都在16KHz以上,自回归使得声码器合成的计算量高、速度不理想、时间延迟高。
发明内容
本发明目的是为了克服现有技术的不足而提供一种为能让语音合成提供最佳质量的同时保证高效实,具有参数量低、合成速度快和合成音质高特点的神经网络声码器语音合成的方法、装置、设备以及介质。
为达到上述目的,本发明一实施例提供了神经网络声码器语音合成的方法,包括如下步骤:
输入音频各帧的声学特征;
将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充;
将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
进一步的,对线性频谱进行多通道抗混叠滤波时采用伪正交镜像滤波器组作为带通滤波器,过滤出由低频到高频的带通频率信息;其中,伪正交镜像滤波器组的脉冲响应为:
Figure 100002_DEST_PATH_IMAGE002
其中,N为冲击响应的抽头数量,M为滤波器组的数量。
进一步的,所述自回归残差网络采用RNN结构,并对所述对RNN的权重矩阵进行块稀疏化,其步骤如下:
S101 对RNN的权重矩阵进行分块;
S102 计算各个分块的1范数;
S103 对各个分块的范数排序,并将范数较小的分块置零;
S104 经过反复多次迭代,直到稀程度达到要求。
进一步的,所述投影网络采用全连接层将残差输出投影网络至多项分布,对该概率分布进行采样获取残差信号,其分布的项数为
Figure 100002_DEST_PATH_IMAGE004
;其中N为音频的量化比特数,投影网络的输出节点数变为
Figure 100002_DEST_PATH_IMAGE006
,M表示一步生成M点。
进一步的,对各个通道的残差信号进行抗镜像滤波时,抗镜像滤波器组的脉冲响应为:
Figure 100002_DEST_PATH_IMAGE008
其中,N为冲击响应的抽头数量,M为滤波器组的通道数,原型滤波器
Figure 100002_DEST_PATH_IMAGE010
的脉冲响应为:
Figure 100002_DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE014
为截至频率比率。
进一步的,对线性频谱进行多通道抗混叠滤波后的输出为:
Figure 100002_DEST_PATH_IMAGE016
其中,
Figure 100002_DEST_PATH_IMAGE018
为线性预测滤波器的输入序列,K为线性预测滤波器的阶数,
Figure 100002_DEST_PATH_IMAGE020
为线性预测滤波器系数。
进一步的,对自回归残差网络件进行完善补充的方法如下:
每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出输入自回归残差网络中;
自回归网络结合帧级特征扩增复制后的上下文信息、线性预测滤波器的输出以及各个通道的残差信号输出作为参考输入,逐点完善残差输出,使得残差能够对合成语音的细节进行补全。
本发明一实施例提供了一种神经网络声码器语音合成的装置,包括:
输入模块,用于输入音频各帧的声学特征;
音频的低频获取模块,用于将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
音频的高频获取模块,用于将声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
完善补充模块,用于将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中进行完善补充;
输出模块,用于将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频直接叠加,最终得到输出语音。
本发明一实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述神经网络声码器语音合成的方法的步骤。
本发明一实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述神经网络声码器语音合成的方法的步骤。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
1. 本发明实施例采用自回归结构,避免了生成式声码器中的抖动和发音不稳定的问题。
2. 本发明实施例利用线性预测滤波器建模生成音频低频、利用自回归残差网络非线性拟合能力对合成音频的高频进行补全,因此神经网络所需承载的信息大大减少,从而为神经网络的小型化创造了前提。
3. 本发明实施例通过对RNN结构的块稀疏化,能够显著提升神经网络的计算效率。
4. 本发明实施例中使用多通道以及一步多点技术,加速声码器的合成速度。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明实施例中神经网络声码器语音合成的方法流程示意图;
附图2为本发明实施例中将声学特征转化为合成音频的低频的流程示意图;
附图3为本发明实施例中对RNN的权重矩阵进行块稀疏化的流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明一实施例提供了神经网络声码器语音合成的方法、装置、设备以及介质,其主要的发明原理基于以下思路设计:将合成音中的低频(粗节)以线性预测滤波器建模生成,将高频细节部分用自回归残差网络补全,然后低频和高频细节叠加输出语音,合成的稳定性高,其中的多通道以及一步多点技术增加推理运算效率,另外块稀疏化、减小自回归的运算量的同时提升矩阵运算计算效率,从而实现了让语音合成提供最佳质量的同时保证高效实,具有参数量低、合成速度快和合成音质高特点。
请参阅附图1,其详细公开了本发明一实施例所述的神经网络声码器语音合成的方法,该过程包括如下步骤:
首先输入音频各帧的声学特征, 该输入表征了语音信号的声学信息,这个特征可以是倒谱族系数(MFCC,BFCC)或者带通滤波器的通道能量(Mel频谱)。
接着,请参阅附图1,为了将声学特征转化为合成音频的低频,采用如下步骤:
S01:将输入的声学特征对应逆向恢复出线性频谱。
S02:将上述线性频谱进行多通道抗混叠滤波后输出频谱,具体实施时采用伪正交镜像滤波器组作为带通滤波器,过滤出由低频到高频的带通频率信息;其中伪正交镜像滤波器组的脉冲响应为:
Figure DEST_PATH_IMAGE002A
其中,N为冲击响应的抽头数量,M为滤波器组的数量。
S03:对输出的频谱进行频域降采样并获取降采样之后的频谱,降采样操作需要考虑到频域的周期、对称性;随后,利用各个通道的频谱获取各个通道对应的自相关函数。
S04:随后,各个通道对应的自相关函数通过Levison-Durbin算法生成各个通道的线性预测滤波器系数,该系数表示了不同通道对应频带的口腔共振峰结构信息,利用该信息通过线性预测滤波器我们能够获取合成音频的低频。
线性预测滤波器的输出可表示为:
Figure DEST_PATH_IMAGE016A
其中,
Figure DEST_PATH_IMAGE018A
为线性预测滤波器的输入序列,K为线性预测滤波器的阶数,
Figure DEST_PATH_IMAGE020A
为线性预测滤波器系数。
然后,利用自回归残差网络拟合音频的高频细节,首先使用上下文抽取网络获取声学特征的上下文信息,这个网络可以是卷积网络(CNN)、循环网络(RNN)、抑或是DFSMN网络,通过上下文抽取网络,可将声学特征与上下文建立联系以获取平滑的抽象表示。
由于上下文信息的抽象是帧级别的,所以将上下文信息的帧级特征扩增复制为音频点级别;比如每一帧特征对应200个数据点,那么就对声学特征的上下文信息的输出逐帧复制200份。
帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,接着残差输出通过投影网络后采样生成各个通道的残差信号;其中,投影网络采用全连接层将残差输出投影至多项分布,其分布的项数为
Figure DEST_PATH_IMAGE004A
,其中N为音频的量化比特数,该分布反映了残差音频的概率分布,对该概率分布进行采样就能获取残差信号。
由于残差信号的建模是多通道的,因此对应的投影网络就有与通道数相同的全连接层,与此同时,为能够一步输出多点,投影网络的输出节点数变为
Figure DEST_PATH_IMAGE006A
,M表示一步生成M点。
随后,对各个通道的残差信号进行多通道抗镜像滤波后得到合成音频的高频;其中,抗镜像滤波器组的脉冲响应为:
Figure DEST_PATH_IMAGE008A
其中,N为冲击响应的抽头数量,M为滤波器组的通道数,原型滤波器
Figure DEST_PATH_IMAGE010A
的脉冲响应为:
Figure DEST_PATH_IMAGE012A
其中,
Figure DEST_PATH_IMAGE014A
为截至频率比率。
进一步的,根据帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号对自回归残差网络件进行补充完善,本实施例中的自回归残差网络采用RNN结构,所述RNN结构为LSTM或GRU,由于语音信号具有短时平稳的特性,为了进一步提升该声码器的推理效率,所以对RNN结构使用一步多点技术,具体来说就是残差RNN每步迭代就会生成多个音频点,所以每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出作为参考输入自回归残差网络中,逐点完善残差输出,使得残差网络能够对合成语音的细节进行补全。
其中,为了减小RNN的计算量的同时保证模型精度,本神经网络声码器语音合成的方法在模型训练的过程中对RNN的权重矩阵进行块稀疏化,请参阅附图3,其步骤如下:
S101:对RNN的权重矩阵进行分块,将维度为权重矩阵的每一行的每一列均分为若干份,每一份称之为一个数据块,在训练过程中以块为最小单位将权重矩阵置零,这样在保证模型精度的前提下,尽可能减小模型计算量。
S102:计算各个分块的1范数。
S103:对各个分块的范数排序,并将范数较小的分块置零,在模型训练过程中,每隔若干次迭代,对权重中所有数据块计算1范数并排序,范数较小的数据块对RNN的输出影响可以忽略,因此对其置零。
S104:经过多次迭代,模型达到了预期的稀程度,权重矩阵中大多数据块被置零,在模型推理过程中,被置零的数据块不参与矩阵运算,因此能够大大减小推理过程的浮点运算,神经网络声码器的推理效率能够得到极大的提升。
最后,将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道音频输出进行升采样,升采样倍率为通道数量M,随后将各个通道音频直接叠加,并最终得到输出语音。
本发明一实施例还提供了一种神经网络声码器语音合成的装置,包括:
输入模块,用于输入音频各帧的声学特征。
音频的低频获取模块,将声学特征转换为线性频谱,对线性频谱进行多通道抗混叠滤波,将抗混叠滤波后的线性频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过Levison-Durbin算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频。
音频的高频获取模块;用于将声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频。
训练模块,用于将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中进行完善补充。
输出模块,用于将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道输出进行升采样,随后将各个通道直接叠加,最终得到输出语音。
本发明还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下步骤:
输入音频各帧的声学特征。
将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频。
声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频。
将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充。
将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
由于上述电子设备解决问题的原理与神经网络声码器语音合成的方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
输入音频各帧的声学特征;将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充;将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (10)

1.神经网络声码器语音合成的方法,其特征在于,包括如下步骤:
输入音频各帧的声学特征;
将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中对残差信号进行完善补充;
将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频叠加,最终得到输出语音。
2.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对线性频谱进行多通道抗混叠滤波时采用伪正交镜像滤波器组作为带通滤波器,过滤出由低频到高频的带通频率信息;其中,伪正交镜像滤波器组的脉冲响应为:
Figure DEST_PATH_IMAGE002
其中,N为冲击响应的抽头数量,M为滤波器组的数量。
3.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:所述自回归残差网络采用RNN结构,并对所述对RNN的权重矩阵进行块稀疏化,其步骤如下:
S101 对RNN的权重矩阵进行分块;
S102 计算各个分块的1范数;
S103 对各个分块的范数排序,并将范数较小的分块置零;
S104 经过反复多次迭代,直到稀程度达到要求。
4.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:所述投影网络采用全连接层将残差输出投影网络至多项分布,对该概率分布进行采样获取残差信号,其分布的项数为
Figure DEST_PATH_IMAGE004
;其中N为音频的量化比特数,投影网络的输出节点数变为
Figure DEST_PATH_IMAGE006
,M表示一步生成M点。
5.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对各个通道的残差信号进行抗镜像滤波时,抗镜像滤波器组的脉冲响应为:
Figure DEST_PATH_IMAGE008
其中,N为冲击响应的抽头数量,M为滤波器组的通道数,原型滤波器
Figure DEST_PATH_IMAGE010
的脉冲响应为:
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE014
为截至频率比率。
6.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于:对线性频谱进行多通道抗混叠滤波后的输出为:
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
为线性预测滤波器的输入序列,K为线性预测滤波器的阶数,
Figure DEST_PATH_IMAGE020
为线性预测滤波器系数。
7.如权利要求1所述的神经网络声码器语音合成的方法,其特征在于,对自回归残差网络件进行完善补充的方法如下:
每隔若干点各个通道的残差信号输出以及线性预测滤波器的输出输入自回归残差网络中;
自回归网络结合帧级特征扩增复制后的上下文信息、线性预测滤波器的输出以及各个通道的残差信号输出作为参考输入,逐点完善残差输出,使得残差能够对合成语音的细节进行补全。
8.一种神经网络声码器语音合成的装置,其特征在于,包括:
输入模块,用于输入音频各帧的声学特征;
音频的低频获取模块,用于将声学特征转换为线性频谱,线性频谱通过多通道抗混叠滤波后输出频谱,输出的频谱进行频域降采样并获取降采样之后各通道的自相关函数;随后,各通道的自相关函数通过迭代算法生成各个通道的线性预测滤波器系数,再通过线性预测滤波器获取合成音频的低频;
音频的高频获取模块,用于将声学特征通过上下文抽取网络获取声学特征的上下文信息,并将上下文信息的帧级特征扩增复制;帧级特征扩增复制后的上下文信息通过自回归残差网络补全残差输出,残差输出通过投影网络后采样生成各个通道的残差信号,随后,对各个通道的残差信号进行抗镜像滤波后得到合成音频的高频;
完善补充模块,用于将帧级特征扩增复制后的上下文信息、各个通道的线性预测系数以及各个通道的残差信号作为参考输入自回归残差网络中进行完善补充;
输出模块,用于将合成音频的低频和合成音频的高频相加,获得各个通道的音频,再将各个通道的音频进行升采样,随后将各个通道的音频直接叠加,最终得到输出语音。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述声学特征转化为音频的方法。
CN202110545405.3A 2021-05-19 2021-05-19 神经网络声码器语音合成的方法、装置、设备以及介质 Active CN113345406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110545405.3A CN113345406B (zh) 2021-05-19 2021-05-19 神经网络声码器语音合成的方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110545405.3A CN113345406B (zh) 2021-05-19 2021-05-19 神经网络声码器语音合成的方法、装置、设备以及介质

Publications (2)

Publication Number Publication Date
CN113345406A true CN113345406A (zh) 2021-09-03
CN113345406B CN113345406B (zh) 2024-01-09

Family

ID=77469427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110545405.3A Active CN113345406B (zh) 2021-05-19 2021-05-19 神经网络声码器语音合成的方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN113345406B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JP2001166800A (ja) * 1999-12-09 2001-06-22 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法及び音声復号化方法
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN107221334A (zh) * 2016-11-01 2017-09-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
WO2018159403A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法
CN111402855A (zh) * 2020-03-06 2020-07-10 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111583903A (zh) * 2020-04-28 2020-08-25 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备
CN111883102A (zh) * 2020-07-14 2020-11-03 中国科学技术大学 一种双层自回归解码的序列到序列语音合成方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JP2001166800A (ja) * 1999-12-09 2001-06-22 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法及び音声復号化方法
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN107221334A (zh) * 2016-11-01 2017-09-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
WO2018159403A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法
CN111402855A (zh) * 2020-03-06 2020-07-10 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN111583903A (zh) * 2020-04-28 2020-08-25 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备
CN111883102A (zh) * 2020-07-14 2020-11-03 中国科学技术大学 一种双层自回归解码的序列到序列语音合成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘磊;董智勇;: "一种低码率移动通信音频带宽扩展方法研究", 河南工程学院学报(自然科学版), no. 02 *

Also Published As

Publication number Publication date
CN113345406B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN111837178B (zh) 语音处理系统和处理语音信号的方法
CN111785261B (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
US20220301543A1 (en) Unsupervised Parallel Tacotron Non-Autoregressive and Controllable Text-To-Speech
Wang et al. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis
CN113314140A (zh) 一种端到端时域多尺度卷积神经网络的音源分离算法
JPS62160495A (ja) 音声合成装置
JPS63113600A (ja) 音声信号の符号化及び復号化のための方法及び装置
CN110189766B (zh) 一种基于神经网络的语音风格转移方法
US20220157329A1 (en) Method of converting voice feature of voice
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
Haws et al. Cyclegan bandwidth extension acoustic modeling for automatic speech recognition
Ho et al. Non-parallel voice conversion based on hierarchical latent embedding vector quantized variational autoencoder
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
AU2018100318A4 (en) A method of generating raw music audio based on dilated causal convolution network
CN113066475B (zh) 一种基于生成式对抗网络的语音合成方法
Kumar et al. Towards building text-to-speech systems for the next billion users
Zhong et al. Extending audio masked autoencoders toward audio restoration
CN113345406A (zh) 神经网络声码器语音合成的方法、装置、设备以及介质
Nustede et al. Towards speech enhancement using a variational U-Net architecture
Kim et al. Audio Super-Resolution With Robust Speech Representation Learning of Masked Autoencoder
CN115910032A (zh) 音素对齐模型训练方法、计算机设备及计算机存储介质
Deng et al. One-shot voice conversion algorithm based on representations separation
CN115862590A (zh) 一种基于特征金字塔的文本驱动语音合成方法
US11776528B2 (en) Method for changing speed and pitch of speech and speech synthesis system
Pornpanomchai et al. A dictionary-based approach for Thai text to speech (TTTS)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant