CN105469807B - 一种多基频提取方法及装置 - Google Patents
一种多基频提取方法及装置 Download PDFInfo
- Publication number
- CN105469807B CN105469807B CN201511023725.3A CN201511023725A CN105469807B CN 105469807 B CN105469807 B CN 105469807B CN 201511023725 A CN201511023725 A CN 201511023725A CN 105469807 B CN105469807 B CN 105469807B
- Authority
- CN
- China
- Prior art keywords
- frequency
- fundamental frequency
- function
- time
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 60
- 230000006978 adaptation Effects 0.000 claims abstract description 29
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 27
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 24
- 230000007704 transition Effects 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Abstract
本发明公开了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法及装置。方法包括:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧;在听觉谱的各时频单元上计算自相关函数;在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;在各瞬时频率的基础上计算频率匹配函数;用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
Description
技术领域
本发明涉及数字信号处理经验模式分解、语音信号滤波器组分析、语音信号基音频率提取、隐马尔可夫模型似然概率及转移概率的构建。
背景技术
基音频率(pitch)的提取及其轨迹的追踪对诸多语音及音频信号处理技术都有重要意义,比如音频检索及分类、汉语语调识别以及单通道语音分离技术等。现在已经存在一些性能很好的用于检测纯净或有少量噪声的语音中的单一基频的基频提取算法。但单一基频的假设使得这类算法无法在语音中同时存在多个基频的情况下使用,比如两个说话人同时说话的情况或者说话人背景中有音乐存在的情况,而在致力于解决鸡尾酒会问题的计算听觉场景分析(CASA)技术中,多基频提取和追踪常常更是有效地进行语音分割和组织的重要基础。
隐马尔科夫模型很早就被用于追踪基音轨迹的连续性。HMM模型在80年代就曾被利用来判决混合语音中每帧的基频个数;2003年,真实基音周期与自相关函数的峰值之间的距离被用于基频状态的似然函数建模并出现了一个基于隐马尔可夫模型的多基音提取算法。2013年,自相关函数峰值的高度信息被直接用于构建基频分布的势函数,多基频提取算法的性能得以进一步提升。上述算法的共同特点是多基频追踪过程中使用的中层表达特征都基于听觉谱图(cochleagram),具体来讲,基频状态的似然概率函数都是从自相关谱图(correlogram)上提取的,并且他们使用的主要是峰值附近的局部特征。
听觉谱图的主要特点是低频分辨率较高,高频分辨率较低,听觉滤波器组的高频通道通常同时响应语音中的多次谐波,因此高频通道的响应通常会受到幅度调制效应(AM)的影响。在单基频提取的情形下,高频通道中的幅度调制效应产生的幅度包络以及包络的峰值都提供了原基音频率的信息。但是,在多基频提取的情形下,一个时频单元中却可能同时存在着能量相近但分属于不同基音频率的高次谐波,这样就会造成其幅度调制率不属于任何一个基音频率的谐波的情况,这将使得相应自相关函数的峰值高度和峰值位置发生错误的偏移,从而对多基音频率的提取产生消极的影响。
发明内容
有鉴于此,为了克服基频提取过程中经常发生的倍周期错误问题以及上述提及的其他问题,本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法。
根据本发明一方面,提供了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法,其特征在于,包括下列步骤:
步骤1:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语音信号的二维时频表达即听觉谱;
步骤2:在听觉谱的各时频单元上计算自相关函数;
步骤3:对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
步骤4:在各瞬时频率的基础上计算频率匹配函数;
步骤5:用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
步骤6:将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
根据本发明另一方面,提供了一种基于经验模式分解和隐马尔可夫模型的多基频提取装置,其特征在于,包括:
预处理模块,其用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语音信号的二维时频表达即听觉谱;
自相关函数计算模块,其在听觉谱的各时频单元上计算自相关函数;
瞬时频率计算模块,其对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
频率匹配函数计算模块,其在各瞬时频率的基础上计算频率匹配函数;
似然概率和转移概率计算模块,其用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
轨迹提取模块,其将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
本发明提出的上述方案为了抑制多基频提取过程中gammatone滤波器组的高频通道中发生的不利幅度调制效应,在计算隐马尔可夫模型中的基音状态似然概率的过程中用频率匹配函数代替了自相关函数。另一方面,与自相关函数的峰值位置和峰值高度相比,时频单元的平均瞬时频率更不易受到噪声以及幅度调制效应的影响,本发明在平均瞬时频率基础上提取的频率匹配函数在多基音频率的提取过程中表现得更加可靠,最终使得多基频提取算法的得到提升。
此外,倍周期错误是基频提取过程中经常遇到的一种错误,针对这个问题,本发明提出的上述方法通过一种增强过程来降低频率匹配函数在倍周期位置处的峰值高度,使得倍周期候选点的似然概率降低,从而降低倍周期错误发生的概率。
总之,本发明通过对不利幅度调制效应和倍周期错误概率的抑制,结合在语料库上统计得到的基音状态转移概率,采用隐马尔可夫模型解码的方式得到了双基音频率的轨迹。
附图说明
本发明进一步的特色和优点将参考说明性的附图在下面描述。
图1是本发明提出的基于经验模式分解和隐马尔科夫模型的多基频提取方法的流程图;
图2是现有技术中一个计算各时频单元的自相关函数的流程图;
图3是本发明中一个计算各时频单元的频率匹配函数的流程图;
图4是一个利用频率匹配函数构建基频状态似然概率的流程图;
图5是一个对基频状态似然函数进行增强的流程图;
图6是一个利用隐马尔可夫模型进行多基频提取的流程图。
具体实施方式
应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。
本发明通过对语音二维听觉谱图中时频单元的自相关函数进行经验模式分解,得到主导瞬时频率,并在其基础上计算频率匹配函数。与自相关函数相比,频率匹配函数可以克服多基频提取时高频gammatone滤波器组通道中不利的幅度调制效应,因此在频率匹配函数基础上构建的基频状态似然函数更加稳定和可靠。利用构建的基频状态似然函数和基频语料库中统计得到的基频状态转移函数,可以通过Viterbi解码的方式,通过隐马尔可夫模型进行多基频轨迹提取。
如图1所述,本发明提出了一种基于经验模式分解和隐马尔可夫模型的多基频提取方法,该方法的具体步骤如下:
步骤1:用听觉滤波器组对语音信号进行滤波,并对滤波后的语音信号进行分帧得到语音信号的二维时频表达即听觉谱;
步骤2:在听觉谱的各时频单元上计算自相关函数;
步骤3:对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的第一本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
步骤4:在瞬时频率的基础上计算频率匹配函数;
步骤5:用频率匹配函数构建各帧基频状态的似然概率,并使用语料库统计各帧基频状态和基频数值之间的转移概率;
步骤6:将似然概率进行增强以进行降低倍周期错误,然后将增强后的似然概率与转移概率结合,并使用隐马尔可夫模型对当前语音的多基频轨迹进行提取。
其中,步骤1中所述用听觉滤波器组对语音信号进行滤波,并得到语音信号的二维时频表达即听觉谱,是通过听觉滤波器组对一维的语音信号进行滤波并加窗分帧得到二维时频表达,所述二维时频表达的其中一维表示语音信号的时间维度(对应语音帧号),另一维表示频率维度(对应通道序号)。
所述听觉滤波器组是一种模仿耳蜗听觉感知机理的模型,该滤波器的时域冲击响应为如式(1)所示,其中滤波器中心频率分布在0Hz到3000Hz之间。
其中,t表示时间,滤波器阶数l=4,f为滤波器中心频率,b为等效矩形带宽。
如图2所示,语音信号经过上述滤波器组滤波,滤波器组中各个滤波器的输出均为与原始语音信号长度相同的时域信号。对各滤波通道的输出进行加窗处理,典型的窗长实施为20ms,由此便可以得到原始语音信号的二维时频表达即听觉谱图即cochleagram,可以用C(c,m)来表示,其中c表示滤波器通道序号,m表示语音帧序号。
步骤2中所述在听觉谱的各时频单元上计算自相关函数,计算公式如式(2)所示。
其中,h(c,·)是第c个通道内相应gammatone滤波器的输出,m是语音帧序号,n表示离散时间点,τ是延迟时间点,T表示每帧语音信号对应的采样点数,W表示离散点个数。
由于不同通道的相应滤波器是不同的,因此各通道滤波器的输出信号所产生的延迟是不同的。通过自相关函数的计算,可以起到各通道相位对齐的作用。
步骤3中所述对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的第一本质模态函数的基础上计算各时频单元主导声源的瞬时频率,具体包括如下步骤:
利用希尔伯特-黄变换将原始自相关函数分解为一系列本质模态函数,并根据听觉掩蔽效应,选取第一个分解出的本质模态函数的频率作为该时频单元中主导声源的瞬时频率。
如图3所示,步骤4中所述在瞬时频率的基础上计算频率匹配函数,该函数作为基频提取过程中的中层表达,可以描述当前时频单元的平均瞬时频率与各个候选基音频率匹配的程度,其计算公式如式(3)所示。
其中,表示位于第m帧的第c个通道的时频单元的平均瞬时频率,τ表示候选的基音周期(也就是所述考虑范围内的延迟时间点),int(·)为取整函数,返回最近的整数值。
如图4所示,步骤5中所述用频率匹配函数构建各帧基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率,具体包括如下步骤:
首先,在频率匹配函数的基础上构建各基频状态的似然概率,即观测概率,时频单元u(c,m)中存在单个基音周期τ1的似然概率如式(4)所示。时频单元u(c,m)中同时存在两个个基音周期τ1和τ2的似然概率如式(5)所示。
其中,x表示观测到的语音信号,ω1、ω2分别为单基音频率状态和双基音频率状态;L(c,m)为各时频单元的归一化响度;Φc为二维时频表达中的通道序号集合;
在上述公式中,L(c,m)是各时频单元的归一化响度,其计算公式如下:
其中,E(c,m)表示时频单元u(c,m)的能量,N是滤波器组的通道个数。
其次,每帧的基音频率的状态可能存在于三种空间之中,即零基频、单基频和双基频空间:
Ω=Ω0∪Ω1∪Ω2
三个基频状态之间的转移概率是通过带有基频标注的数据库统计得到的:
其中,Ωi基频状态空间,pij表示从基频状态空间Ωi到基频状态空间Ωj的转移概率。
步骤6中所述将似然概率进行增强以进行降低倍周期错误,然后将增强后的似然概率与转移概率结合,并使用隐马尔可夫模型对当前语音的多基频轨迹进行提取,如图5所示,步骤包括:
首先,对单基频似然概率函数进行增强,公式为式(7)所示:
其中,m的范围是2~7,表示只针对2~7倍的谐波引起的倍周期错误进行增强,α为预定系数,采用0.6~0.8之间的数值。
该式表示的意义是对一个单基频状态的似然概率进行增强,本发明在公式(4)中的候选基音周期τ1的1/m位置处的函数值中找到最大的那个值,对该数值乘上一个系数并把乘积结果作为频率匹配调整值,所述系数可以采用0.6~0.8之间的数值,然后在原候选基音周期点处的频率匹配函数值上减去调整值得到增强后的频率匹配函数值。
其次,对双基频似然概率函数进行增强,为此,先把双基频似然概率写为两个函数的加和形式如式(8)所示:
g(x|{τ1,τ2})=p(x|{τ1})+pr(τ1,τ2) (8)
其中,
上述公式中,τ1和τ2为两个候选的基音周期点,g(x|{τ1,τ2})表示在这两个候选基音周期点上观测到语音信号x的似然概率。
然后,对两个函数分别按公式(7)的方法进行增强,并得到式(10)的结果:
gen(x|{τ1,τ2})=pen(x|{τ1})+pr_en(τ1,τ2) (10)
其中,pen(x|{τ1})表示对p(x|{τ1})增强后的结果,pr_en(τ1,τ2)表示对pr(τ1,τ2)增强后的结果。
如图6所示,将本步骤中得到的增强后的似然概率与步骤5中得到的三种基频状态转移概率进行联合,就可以通过隐马尔可夫模型的Viterbi解码过程来得到多基频轨迹了。需要注意的是,基频状态空间一共有三种状态,但是本步骤只对其中两个状态的似然概率进行了计算,这是因为基频的零状态(也就是没有基频的状态)似然概率是个预先设定的常数,无需进行计算和增强。
根据本说明书,本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此,本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解,本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。
Claims (8)
1.一种基于经验模式分解和隐马尔可夫模型的多基频提取方法,其特征在于,包括下列步骤:
步骤1:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语音信号的二维时频表达即听觉谱;
步骤2:在听觉谱的各时频单元上计算自相关函数;
步骤3:对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
步骤4:在各瞬时频率的基础上计算频率匹配函数;
步骤5:用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
步骤6:将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
2.如权利要求1所述的方法,其特征在于,步骤1中利用听觉滤波器组对语音信号进行滤波,所述听觉滤波器组中的各滤波器的输出均为与所述语音信号长度相同的时域信号,对所述各滤波器的输出加窗分帧处理,得到所述语音信号的二维时频表达。
3.如权利要求1所述的方法,其特征在于,步骤2中所述在听觉谱的各时频单元的自相关函数按如下公式进行计算:
其中,h(c,·)是第c个滤波器通道内所述听觉滤波器组中相应滤波器的输出,m是语音帧序号,n表示离散时间点,τ是延迟时间点,T表示每帧语音信号对应的采样点数,W表示离散点个数。
4.如权利要求1所述的方法,其特征在于,步骤3中所述在各时频单元的自相关函数上进行经验模式分解,步骤包括:
利用希尔伯特-黄变换将所述自相关函数分解为一系列本质模态函数,并根据听觉掩蔽效应,将第一个分解出的本质模态函数的频率作为该时频单元中主导声源的瞬时频率。
5.如权利要求1所述的方法,其特征在于,步骤4中所述频率匹配函数用于描述当前时频单元的平均瞬时频率与各个候选基音频率匹配的程度,其计算公式如下:
其中,表示位于第m帧第c个通道的时频单元的平均瞬时频率,τ表示候选的基音周期,int(·)为取整函数,返回最近的整数值。
6.如权利要求1所述的方法,其特征在于,步骤5具体包括:
首先,在频率匹配函数的基础上构建各基频状态的似然概率,第m帧的第c个通道的时频单元u(c,m)中存在单个基音周期τ1的似然概率如下:
时频单元u(c,m)中同时存在两个基音周期τ1和τ2的似然概率如下:
其中,x表示语音信号,ω1、ω2分别为单基音频率状态和双基音频率状态;L(c,m)为各时频单元的归一化响度;Φc为二维时频表达中的通道序号集合,F(c,m,τ1)为所述频率匹配函数;
在上述公式中,L(c,m)是各时频单元的归一化响度,其计算公式如下:
其中,E(c,m)表示时频单元u(c,m)的能量,N是滤波器组的通道个数;
其次,每帧的基音频率的状态可能存在于三种空间之中,即零基频、单基频和双基频空间:
Ω=Ω0∪Ω1∪Ω2
三个基频状态之间的转移概率是通过带有基频标注的数据库统计得到的:
其中,Ωi基频状态空间,pij表示从基频状态空间Ωi到基频状态空间Ωj的转移概率。
7.如权利要求1所述的方法,其特征在于,步骤6中对各基频状态的似然概率进行增强,具体步骤如下:
首先,对单基频似然概率函数进行增强,公式为:
其中,m的范围是2~7,表示只针对2~7倍的谐波引起的倍周期错误进行增强,α为预定系数,p(x|{τ1})表示基音周期为τ1时观测到当前语音信号x的单基频似然概率;pen(x|{τ1})为增强后的单基频似然概率;
其次,对双基频状态的似然概率函数进行增强,为此,先把双基频状态的似然概率写为两个函数p(x|{τ1})和pr(τ1,τ2)的加和形式:
g(x|{τ1,τ2})=p(x|{τ1})+pr(τ1,τ2) (8)
其中,p(x|{τ1})为单基频状态的似然概率,F(c,m,τi)为频率匹配函数,L(c,m)是各时频单元的归一化响度,c为通道号;
然后,对两个函数p(x|{τ1})和pr(τ1,τ2)分别按公式(7)的方法进行增强,并得到双基频状态的似然概率:
gen(x|{τ1,τ2})=pen(x|{τ1})+pr_en(τ1,τ2) (10)
其中,gen(x|{τ1,τ2})为增强后的双基频状态的似然概率,pen(x|{τ1})和pr_en(τ1,τ2)分别为对p(x|{τ1})和pr(τ1,τ2)增强后的值。
8.一种基于经验模式分解和隐马尔可夫模型的多基频提取装置,其特征在于,包括:
预处理模块,其用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语音信号的二维时频表达即听觉谱;
自相关函数计算模块,其在听觉谱的各时频单元上计算自相关函数;
瞬时频率计算模块,其对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
频率匹配函数计算模块,其在各瞬时频率的基础上计算频率匹配函数;
似然概率和转移概率计算模块,其用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
轨迹提取模块,其将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511023725.3A CN105469807B (zh) | 2015-12-30 | 2015-12-30 | 一种多基频提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511023725.3A CN105469807B (zh) | 2015-12-30 | 2015-12-30 | 一种多基频提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105469807A CN105469807A (zh) | 2016-04-06 |
CN105469807B true CN105469807B (zh) | 2019-04-02 |
Family
ID=55607432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511023725.3A Expired - Fee Related CN105469807B (zh) | 2015-12-30 | 2015-12-30 | 一种多基频提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105469807B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316653B (zh) * | 2016-04-27 | 2020-06-26 | 南京理工大学 | 一种基于改进的经验小波变换的基频检测方法 |
CN106205638B (zh) * | 2016-06-16 | 2019-11-08 | 清华大学 | 一种面向音频事件检测的双层基音特征提取方法 |
CN106448630B (zh) * | 2016-09-09 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
CN111048110A (zh) * | 2018-10-15 | 2020-04-21 | 杭州网易云音乐科技有限公司 | 乐器识别方法、介质、装置和计算设备 |
CN109036376A (zh) * | 2018-10-17 | 2018-12-18 | 南京理工大学 | 一种闽南语语音合成方法 |
CN109839272B (zh) * | 2019-03-25 | 2021-01-08 | 湖南工业大学 | 基于故障冲击提取与自相关总体平均的轴承故障诊断方法 |
CN111312258A (zh) * | 2019-12-16 | 2020-06-19 | 随手(北京)信息技术有限公司 | 用户的身份认证方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282267A (ja) * | 2000-03-29 | 2001-10-12 | Mega Chips Corp | 音声処理システム及び音声処理方法 |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
CN101567188A (zh) * | 2009-04-30 | 2009-10-28 | 上海大学 | 长短帧联合的混合音频信号多基音估计方法 |
CN104036785A (zh) * | 2013-03-07 | 2014-09-10 | 索尼公司 | 语音信号的处理方法和装置、以及语音信号的分析系统 |
-
2015
- 2015-12-30 CN CN201511023725.3A patent/CN105469807B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
JP2001282267A (ja) * | 2000-03-29 | 2001-10-12 | Mega Chips Corp | 音声処理システム及び音声処理方法 |
CN101567188A (zh) * | 2009-04-30 | 2009-10-28 | 上海大学 | 长短帧联合的混合音频信号多基音估计方法 |
CN104036785A (zh) * | 2013-03-07 | 2014-09-10 | 索尼公司 | 语音信号的处理方法和装置、以及语音信号的分析系统 |
Non-Patent Citations (3)
Title |
---|
Co-channel speaker identification using usable speech extraction based on multi-pitch tracking;Yang Shao,DeLiang Wang;《IEEE International Conference on Acoustics Speech and Signal Processing》;20031231;全文 * |
基于多基音跟踪的单声道混合语音分离;李鹏,关勇,刘文举,徐波;《计算机应用研究》;20080630;全文 * |
多基音检测算法研究;李仕涛;《中国优秀硕士学位论文全文数据库》;20141130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105469807A (zh) | 2016-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469807B (zh) | 一种多基频提取方法及装置 | |
Wang et al. | Channel pattern noise based playback attack detection algorithm for speaker recognition | |
Parris et al. | Language independent gender identification | |
Cooke et al. | Intelligibility-enhancing speech modifications: the hurricane challenge. | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN102054480B (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Hummersone | A psychoacoustic engineering approach to machine sound source separation in reverberant environments | |
Payton et al. | Comparison of a short-time speech-based intelligibility metric to the speech transmission index and intelligibility data | |
CN109935233A (zh) | 一种基于振幅和相位信息的录音攻击检测方法 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN105845126A (zh) | 一种英语有声影像资料自动加注英语字幕的方法 | |
Yu et al. | Improved monaural speech segregation based on computational auditory scene analysis | |
CN111091847A (zh) | 基于并改进的深度聚类语音分离方法 | |
CN104064197A (zh) | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 | |
CN114038469A (zh) | 一种基于多类谱图特征注意力融合网络的说话人识别方法 | |
Tu et al. | Auditory-based data augmentation for end-to-end automatic speech recognition | |
Do | Subband temporal envelope features and data augmentation for end-to-end recognition of distant conversational speech | |
Chenchen et al. | Main melody extraction using the auditory scene analysis for the humming music retrieval | |
Wang et al. | A voice activity detector based on noise spectrum adaptation and discrimination information for automatic speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190402 Termination date: 20211230 |