CN106653056A - 基于lstm循环神经网络的基频提取模型及训练方法 - Google Patents
基于lstm循环神经网络的基频提取模型及训练方法 Download PDFInfo
- Publication number
- CN106653056A CN106653056A CN201611030326.4A CN201611030326A CN106653056A CN 106653056 A CN106653056 A CN 106653056A CN 201611030326 A CN201611030326 A CN 201611030326A CN 106653056 A CN106653056 A CN 106653056A
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- power spectrum
- short
- term
- log power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 title claims abstract description 27
- 230000006403 short-term memory Effects 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 238000000926 separation method Methods 0.000 abstract description 5
- 230000002457 bidirectional effect Effects 0.000 abstract 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。所述训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。所述基频提取模型通过本发明的方法训练得到。本发明大大提高了基频提取的精度和鲁棒性,特别是很好地解决了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及基于LSTM(长短时记忆)循环神经网络的基频提取模型及训练方法。
背景技术
基频是语音信号的基本参数之一,在语音信号处理中具体着重要的作用,可应用于语音识别、语音压缩编码、语音分离以及语音合成等领域。
虽然,在这个领域已经有很多的研究工作,其中自相关法和倒谱法是两种比较成熟的方法。近年来,许多新方法也运用到了基频提取中,但这些方法大都是从纯信号处理的角度对语音信号的基频进行提取,且其提取精度仍然没有得到很好的解决。主要体现在以下几点:1、现有的基频提取方法从纯信号处理的角度对语音信号的基频进行提取,这个提取过程是逐帧进行的,因而对基频前后帧之间的关联性考虑不足,进而导致最终提取的基频存在较为严重的半倍频现象。2、基频提取算法的鲁棒性又是一个较为棘手的问题,现有的基频提取方法要么在纯净语音中精度较佳,要么在带噪语音中表现较佳,而不能同时兼顾在纯净和带噪语音中的性能要求。因此,为了提高基频提取的精度和鲁棒性,有必要加强对基频建模及其鲁棒性的研究,进一步提高基频提取的精度和鲁棒性。
发明内容
本发明的目的是针对现有技术存在的上述问题,提出一种基 于长短时记忆循环神经网络的基频提取方法、模型及其训练方法,以提高基频提取的精度和鲁棒性。
本发明的基于长短时记忆循环神经网络的基频提取模型的训练方法包括下述步骤:从语音波形信号中抽取声学特征;采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。
进一步地,所述声学特征抽取包括下述步骤:将所述语音波形信号分割成多个语音帧;计算每个语音帧的短时对数功率谱;利用长时平均对数功率谱对所述短时对数功率谱进行归一化处理;通过梳状滤波器对归一化后的所述短时对数功率谱进行谐波结构增强,以得到具有鲁棒性的声学特征。
进一步地,归一化的短时对数功率谱Xt'(q)为: 其中,Xt(q)表示短时对数功率谱,L(q)表示长时平均对数功率谱,为经过21点平滑处理的长时平均对数功率谱。
进一步地,所述梳状滤波器为:
其中,q=logf,f为语音波形信号的频带,系数β通过∫h(q)dq=0确定,系数γ=1.8。
进一步地,对所述梳状滤波器h(q)处理后的特征进行扩帧处理,得到更具有鲁棒性的声学特征向量:
进一步地,用于所述基频提取模型的训练的语音信号的清浊和基频值序列通过至少两种基频提取方法取平均值并人工标注得到。
进一步地,对所述语音信号的轻音帧进行线性插值处理。
本发明的基于长短时记忆循环神经网络的基频提取模型为通过本发明的上述方法训练得到的基于双向长短时记忆循环神经网络的基频提取模型。
本发明的基于长短时记忆循环神经网络的基频提取方法,包括下述步骤:从语音信号中抽取声学特征;基于所述声学特征,通过本发明的基频提取模型提取所述语音信号的基频。
进一步地,在所述基频提取方法中,通过下述步骤抽取所述声学特征:将所述语音信号分割成多个语音帧;计算每个语音帧的短时对数功率谱;对所述短时对数功率谱进行归一化处理;通过梳状滤波器对归一化后的所述短时对数功率谱进行谐波结构增强,以得到具有鲁棒性的声学特征。
本发明中,在基频提取的建模方法上,抛弃了传统的纯信号处理的方法,采用了基于统计学习的方法。具体地采用基于多任务学习的双向长短时记忆循环神经网络来对基频提取进行建模,建立起从抽取的声学特征参数到基频序列和清浊序列之间的映射关系,从而将基频提取和清浊判断统一在同一框架当中。基于多任务学习的双向长短时记忆循环神经网络的基频提取模型能够很好的考虑上下文信息,实现了基频提取的高精度和高鲁棒性。
本发明能够在语音分离、语音合成等领域起到很好的作用。
附图说明
图1是本发明实施例的一种基于双向长短时记忆循环神经网络的基频提取方法的方法流程图;
图2是本发明实施例的从语音波形信号中抽取具有鲁棒性的声学特征的方法流程图;
图3是本发明实施例的训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型的方法流程图;
图4是本发明实施例的利用该训练好的基频提取模型对任意语音的基频进行自动提取的方法流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
图1是本发明实施例的一种基于双向长短时记忆循环神经网络的基频提取方法的方法流程图。如图1所示,该方法采用基于多任务学习的双向长短时记忆循环神经网络对语音基频进行建模和提取,包括基频提取模型的训练和基频提取两个阶段。
所述基频提取模型的训练方法包括下述步骤:
步骤101:从用作训练样本的语音波形信号中抽取声学特征;
步骤102:采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。
图2示例性地示出了本发明实施例的从语音波形信号中抽取具有鲁棒性的声学特征的方法流程图。如图2所示,声学特征的抽取包括下述步骤:将原始的语音信号以一定的帧移、帧长分割成若干语音帧,例如,帧移为5ms、帧长为25ms;求得每个语音帧的短时对数功率谱;利用长时平均对数功率谱归一化所述短时对数功率谱;通过梳状滤波器对归一化后的短时对数功率谱进行谐波结构增强,以得到更加具有鲁棒性的声学特征。
具体地,用Xt(f)表示第t帧语音信号在第f频带上的短时功率谱,那么其对应的短时对数功率谱可以表示为Xt(q),这里q=logf。然后用长时平均对数功率谱对该短时对数功率谱进行归一化处理,得到归一化的短时对数功率谱Xt'(q):这里,L(q)表示长时平均对数功率谱,表示经过21点平滑处理的长时平均对数功率谱。由于Xt'(q)考虑了长时特性的影响,能够对语音信号中的噪声信号起到很好的 抑制作用,因而具有一定的鲁棒性。最后,归一化后的短时对数功率谱Xt'(q)再通过一个梳状滤波器h(q)进行处理,以对其谐波结构进行增强。梳状滤波器h(q)如下:
其中,系数β通过∫h(q)dq=0确定,而系数γ=1.8。经过梳状滤波器h(q)处理后的特征可以表示为进一步地,还可以对梳状滤波器h(q)处理后的特征进行扩帧处理,得到更具有鲁棒性的声学特征向量:
本发明实施例中,采用长时平均对数功率谱对原始语音信号中提取得到的短时对数功率谱进行归一化,并用梳状滤波器对归一化后的功率谱进行谐波结构增强,进而得到具有鲁棒性的声学特征。这样的声学特征一方面能够很好地保留原始语音信号中的谐波结构信息,又能够对噪声具有一定的鲁棒性。此外,在具有鲁棒性的声学特征提取中,仅需要一些本领域技术人员熟知的简单的数字信号处理的计算,而不需要传统基于纯信号处理的方法那样复杂的数字信号处理知识,大大降低了系统实现的复杂度和人工参与程度。
图3示例性地示出了本发明实施例的训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型的方法流程图。在图3所示的实施例中,首先进行训练数据准备,包括两部分:一是输入数据准备,另外一个是输出数据准备。输入数据是从训练数据的语音波形信号中抽取的声学特征得到,而其对应的输出数据,即语音信号的清浊和基频值序列通过例如RAPT、YIN、SWIPE、SHR等多种基频提取方法取平均值并人工标注得到的。从而得到训练数据的清浊判断序列和基频序列。此外,还可对语音信号中轻音帧进行线性插值处理,使得到的训练 数据更加适合于基于多任务学习的双向长短时记忆循环神经网络的学习。在基频提取模型建模方面,可将基频提取分为两个任务,任务一是对基频序列值进行预测,任务二是对清浊序列进行预测,并利用基于多任务学习的双向长短时记忆循环神经网络将两个任务统一在同一框架中。在训练过程中,任务一和二的权重也可通过优化得到。
本发明中,在基频提取的建模方法上,抛弃了传统的纯信号处理的方法,采用了基于统计学习的方法。具体地采用基于多任务学习的双向长短时记忆循环神经网络来对基频提取进行建模,建立起从抽取的声学特征参数到基频序列和清浊序列之间的映射关系,从而将基频提取和清浊判断统一在同一框架当中。基于多任务学习的双向长短时记忆循环神经网络的基频提取模型能够很好的考虑上下文信息,实现了基频提取的高精度和高鲁棒性。利用本发明,能够大大提高基频提取的精度和鲁棒性,特别是很好地解决了基频提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
图4示例性地示出了本发明实施例利用训练好的本发明的基频提取模型对任意语音信号的基频进行自动提取的方法流程图。如图4所示,对于任意输入语音信号,首先从输入的语音波形信号中抽取声学特征,得到声学特征向量。在此,优选地通过图2所示的方法步骤得到具有鲁棒性的声学特征。将原始的语音信号以一定的帧移、帧长分割成若干语音帧,例如,帧移为5ms、帧长为25ms;求得每个语音帧的短时对数功率谱;归一化所述短时对数功率谱;通过一个梳状滤波器对归一化后的短时对数功率谱进行谐波结构增强,以得到具有鲁棒性的声学特征。在此,也可如上所述地,利用长时平均对数功率谱对已经得到的短时对数功率谱进行归一化处理,得到最终的具有鲁棒性的声学特征向量。
具体地,用Xt(f)表示第t帧语音信号在第f频带上的短时功率谱,那么其对应的短时对数功率谱可以表示为Xt(q),这里q=logf。然 后用长时平均对数功率谱对该短时对数功率谱进行归一化处理,得到归一化的短时对数功率谱X′t(q):这里,L(q)表示长时平均对数功率谱,表示经过21点平滑处理的长时平均对数功率谱。由于X′t(q)考虑了长时特性的影响,能够对语音信号中的噪声信号起到很好的抑制作用,因而具有一定的鲁棒性。最后,归一化后的短时对数功率谱X′t(q)再通过一个梳状滤波器h(q)进行处理,以对其谐波结构进行增强。梳状滤波器h(q)如下:
其中,系数β通过∫h(q)dq=0确定,而系数γ=1.8。经过梳状滤波器h(q)处理后的特征可以表示为进一步地,还可以对梳状滤波器h(q)处理后的特征进行扩帧处理,得到更具有鲁棒性的声学特征向量:
然后,将该具有鲁棒性的声学特征向量作为已训练好的基于多任务学习的双向长短时记忆神经网络基频提取模型的输入,得到对应的语音信号的基频序列和清浊判断序列。然后通过清浊判断序列将基频序列中对应的清音帧置零,以得到最终提取的基频。因而该方法能够对任意输入的语音信号进行基频的自动提取。
基于以上步骤,能够输出任意输入语音信号所对应的基频值,该基频值能够在语音分离、语音合成等领域起到很好的作用。
通过上述实施例可以看出,本发明主要通过特征层面和模型层面对音素时长建模和预测进行了改善。在特征层面,利用长时平均对数功率谱和梳状滤波器对原始的短时对数功率谱进行处理。在模型层面,采用基于多任务学习的双向长短时记忆循环神经网络对基频提取进行序列建模。从而大大提高了基频提取的精度和鲁棒性,特别是很好地解决 了基提取中的半倍频现象,能够在语音分离、语音合成等领域起到很好的作用。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于LSTM循环神经网络的基频提取模型的训练方法,其特征在于,所述方法包括下述步骤:
从语音波形信号中抽取声学特征;
采用多任务学习的双向长短时记忆循环神经网络,通过所述声学特征,训练生成基于多任务学习的双向长短时记忆循环神经网络的基频提取模型。
2.根据权利要求1所述的方法,其特征在于,所述声学特征抽取包括下述步骤:
将所述语音波形信号分割成多个语音帧;
计算每个语音帧的短时对数功率谱;
利用长时平均对数功率谱对所述短时对数功率谱进行归一化处理;
通过梳状滤波器对归一化后的所述短时对数功率谱进行谐波结构增强,以得到具有鲁棒性的声学特征。
3.根据权利要求2所述的方法,其特征在于,归一化的短时对数功率谱Xt'(q)为:其中,Xt(q)表示短时对数功率谱,L(q)表示长时平均对数功率谱,为经过21点平滑处理的长时平均对数功率谱。
4.根据权利要求2所述的方法,其特征在于,所述梳状滤波器为:
其中,q=logf,f为语音波形信号的频带,系数β通过∫h(q)dq=0确定,系数γ=1.8。
5.根据权利要求4所述的方法,其特征在于,
对所述梳状滤波器h(q)处理后的特征进行扩帧处理,得到更具有鲁棒性的声学特征向量:
6.根据权利要求1所述的方法,其特征在于,用于所述基频提取模型的训练的语音信号的清浊和基频值序列通过至少两种基频提取方法取平均值并人工标注得到。
7.根据权利要求6所述的方法,其特征在于,对所述语音信号的轻音帧进行线性插值处理。
8.一种基于LSTM循环神经网络的基频提取模型,其特征在于,所述基频提取模型通过权利要求1-7中任一项所述的方法训练得到。
9.一种基于LSTM循环神经网络的基频提取方法,其特征在于,所述基频提取方法包括下述步骤:
从语音信号中抽取声学特征;
基于所述声学特征,通过根据权利要求8所述的基频提取模型提取所述语音信号的基频。
10.根据权利要求9所述的基频提取方法,其特征在于,通过下述步骤抽取所述声学特征:
将所述语音信号分割成多个语音帧;
计算每个语音帧的短时对数功率谱;
对所述短时对数功率谱进行归一化处理;
通过梳状滤波器对归一化后的所述短时对数功率谱进行谐波结构增强,以得到具有鲁棒性的声学特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611030326.4A CN106653056B (zh) | 2016-11-16 | 2016-11-16 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611030326.4A CN106653056B (zh) | 2016-11-16 | 2016-11-16 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106653056A true CN106653056A (zh) | 2017-05-10 |
CN106653056B CN106653056B (zh) | 2020-04-24 |
Family
ID=58808501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611030326.4A Active CN106653056B (zh) | 2016-11-16 | 2016-11-16 | 基于lstm循环神经网络的基频提取模型及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106653056B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107633842A (zh) * | 2017-06-12 | 2018-01-26 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107993636A (zh) * | 2017-11-01 | 2018-05-04 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108877823A (zh) * | 2018-07-27 | 2018-11-23 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN108922516A (zh) * | 2018-06-29 | 2018-11-30 | 北京语言大学 | 检测调域值的方法和装置 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN109841220A (zh) * | 2017-11-24 | 2019-06-04 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110210317A (zh) * | 2019-05-07 | 2019-09-06 | 平安科技(深圳)有限公司 | 检测基频的方法、装置及计算机可读存储介质 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN114822577A (zh) * | 2022-06-23 | 2022-07-29 | 全时云商务服务股份有限公司 | 语音信号基频估计方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1224531A2 (de) * | 1999-10-28 | 2002-07-24 | Siemens Aktiengesellschaft | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别系统的端点检测方法及系统 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105654940A (zh) * | 2016-01-26 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN105989843A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种实现缺失特征重建的方法和装置 |
-
2016
- 2016-11-16 CN CN201611030326.4A patent/CN106653056B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1224531A2 (de) * | 1999-10-28 | 2002-07-24 | Siemens Aktiengesellschaft | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN105989843A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种实现缺失特征重建的方法和装置 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别系统的端点检测方法及系统 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105469065A (zh) * | 2015-12-07 | 2016-04-06 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN105654940A (zh) * | 2016-01-26 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633842A (zh) * | 2017-06-12 | 2018-01-26 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
US10978042B2 (en) | 2017-09-28 | 2021-04-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating speech synthesis model |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107993636A (zh) * | 2017-11-01 | 2018-05-04 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN107993636B (zh) * | 2017-11-01 | 2021-12-31 | 天津大学 | 基于递归神经网络的乐谱建模与生成方法 |
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110444214B (zh) * | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN109841220A (zh) * | 2017-11-24 | 2019-06-04 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN109841220B (zh) * | 2017-11-24 | 2022-09-13 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108922516A (zh) * | 2018-06-29 | 2018-11-30 | 北京语言大学 | 检测调域值的方法和装置 |
CN108922516B (zh) * | 2018-06-29 | 2020-11-06 | 北京语言大学 | 检测调域值的方法和装置 |
CN108877823A (zh) * | 2018-07-27 | 2018-11-23 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN108877823B (zh) * | 2018-07-27 | 2020-12-18 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109346103B (zh) * | 2018-10-30 | 2023-03-28 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN110210317A (zh) * | 2019-05-07 | 2019-09-06 | 平安科技(深圳)有限公司 | 检测基频的方法、装置及计算机可读存储介质 |
CN110210317B (zh) * | 2019-05-07 | 2024-04-09 | 平安科技(深圳)有限公司 | 检测基频的方法、装置及计算机可读存储介质 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN112037798B (zh) * | 2020-09-18 | 2022-03-01 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN114822577A (zh) * | 2022-06-23 | 2022-07-29 | 全时云商务服务股份有限公司 | 语音信号基频估计方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106653056B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN102496363B (zh) | 一种用于汉语语音合成的音调修正方法 | |
CN102664003B (zh) | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN108231062A (zh) | 一种语音翻译方法及装置 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN110047501A (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN113506562A (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
KR100827097B1 (ko) | 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치 | |
CN106875944A (zh) | 一种语音控制家庭智能终端的系统 | |
CN102231275B (zh) | 一种基于加权混合激励的嵌入式语音合成方法 | |
CN106887226A (zh) | 一种基于人工智能识别的语音识别算法 | |
CN103886859A (zh) | 基于一对多码书映射的语音转换方法 | |
CN111667834A (zh) | 一种助听设备及助听方法 | |
CN103854655B (zh) | 一种低码率语音编码器以及解码器 | |
CN115862590A (zh) | 一种基于特征金字塔的文本驱动语音合成方法 | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |