CN101383148B - 一种获取基音周期的方法和装置 - Google Patents

一种获取基音周期的方法和装置 Download PDF

Info

Publication number
CN101383148B
CN101383148B CN2007101460375A CN200710146037A CN101383148B CN 101383148 B CN101383148 B CN 101383148B CN 2007101460375 A CN2007101460375 A CN 2007101460375A CN 200710146037 A CN200710146037 A CN 200710146037A CN 101383148 B CN101383148 B CN 101383148B
Authority
CN
China
Prior art keywords
phase
pitch period
phase place
initial position
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101460375A
Other languages
English (en)
Other versions
CN101383148A (zh
Inventor
詹五洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN2007101460375A priority Critical patent/CN101383148B/zh
Publication of CN101383148A publication Critical patent/CN101383148A/zh
Application granted granted Critical
Publication of CN101383148B publication Critical patent/CN101383148B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种获取基音周期的方法,包括以下步骤:获取初始位置语音信号和其他一个或多个位置语音信号的相位;根据所述相位,获取所述初始位置语音信号的相位与所述其他位置语音信号的相位的相似程度;根据所述相位的相似程度获取基音周期。本发明还提供一种获取基音周期的装置。通过使用本发明,基于语音信号频域相位相似性进行基音检测,获取到的基音周期具有较高的准确性,且实现简单。

Description

一种获取基音周期的方法和装置
技术领域
本发明涉及信号处理领域,尤其涉及一种获取基音周期的方法和装置。
背景技术
基音是指发浊音时声带震动所引起的周期性,基音周期为声带振动频率的倒数。基音周期在语音信号处理中一直是一个很重要的参数,基音周期的检测无论在语音信号的合成、编码还是识别方面,都起着非常重要的作用。
尽管目前已经对语音信号的基音周期检测方面作了大量的研究工作,但是语音信号固有的特点使得语音信号的基音检测仍是语音信号处理中最困难的问题之一。
现有技术中基音检测的一种常用方法是基于自相关的检测技术,以下结合图1描述利用自相关检测基音周期的方法。假定基音的周期为T,则首先设定滑动窗的窗长为W,W的选择一定不能小于T。在通话中,基音周期的长度一般为4~10ms,因此滑动窗的窗长一般选择10~12ms即可。
这里定义自相关函数为:
R ( k ) Σ m = 0 W - 1 x ( m ) x ( m + k )
其中,k表示滑动窗向左滑动的距离。如果该信号是个浊音,则它会具有周期T,也就是我们要求的基音周期T。那么有:
x(m)=x(m+T)
则有:
R ( k + T ) Σ m = 0 W - 1 x ( m ) x ( m + k + T ) Σ m = 0 W - 1 x ( m ) x ( m + k ) = R ( k )
因此如果x(m)是一个周期信号的话,那么自相关函数R(k)具有和x(m)一样的周期特性。如果这段信号是个浊音信号(具有周期性)的话,那么R(k)的值就比较大,会具有峰值并具有周期性;而清音(不具有周期性)的R(k)值就表现出杂乱无章,没有什么规律。根据自相关系数的这个特性,就可以得出基音周期。
使用自相关方法检测基音周期的缺陷在于:其准确性不是很高,尤其在外界存在干扰时容易发生误判。
发明内容
本发明的实施例提供一种获取基音周期的方法和装置,以实现对语音信号基音周期的准确获取。
为达到上述目的,本发明的实施例提供一种获取基音周期的方法,包括以下步骤:
获取初始位置语音信号和其他一个或多个位置语音信号的相位;
根据所述相位,获取所述初始位置语音信号的相位与所述其他位置语音信号的相位的相似程度;
根据所述相位的相似程度获取基音周期。
本发明的实施例还提供一种获取基音周期的装置,包括:
相位获取模块,用于获取语音信号中初始位置和其他位置的相位,并将所述相位通知给相位相似程度获取模块;
相位相似程度获取模块,用于根据所述相位获取模块通知的相位,获取所述初始位置相位与其他位置相位的相似程度,并将所述相似程度通知基音周期获取模块;
基音周期获取模块,用于根据所述相位相似程度获取模块的通知获取基音周期。
与现有技术相比,本发明的实施例具有以下优点:
基于语音信号的相位相似性进行基音检测,获取到的基音周期具有较高的准确性,且实现简单。
附图说明
图1是现有技术中通过自相关检测基音周期的方法的示意图;
图2是本发明的实施例一中获取基音周期的方法的流程图;
图3是本发明的实施例二中获取基音周期的方法的流程图;
图4是本发明的实施例二中获取语音信号相位的流程图;
图5是本发明的实施例二中获取相位相似程度的流程图;
图6是本发明的实施例二中根据相位相似程度获取基音周期的流程图;
图7是本发明的实施例二中另一根据相位相似程度获取基音周期的流程图;
图8是本发明实施例中的各个位置相位差绝对值的和的波形图;
图9是本发明实施例中的一种获取基音周期的装置图;
图10是本发明实施例中的一种基音周期获取模块的装置图;
图11是本发明实施例中的另一种基音周期获取模块的装置图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本发明实施例一中,一种获取基音周期的方法的流程如图2所示,包括以下步骤:
步骤s201、对于一个语音信号,获取初始位置语音信号的相位。
步骤s202、获取其他位置语音信号的相位。
步骤s203、获取其他位置语音信号的相位与初始位置语音信号的相位的相似度。
步骤s204、根据相位的相似程度获取基音周期。
本发明实施例二中,结合一个具体的语音信号,一种获取基音周期的方法流程如图3所示,包括以下步骤:
步骤s301、对于一个语音信号,获取初始位置P(0)处语音信号的相位。
本实施例中以P(0)表示初始位置。
步骤s302、获取其他位置P(1),P(2)…P(N)处语音信号的相位。
本实施例中以P(1),P(2)…P(N)表示其他位置,其中位置P(0),P(1),P(2)…P(N)之间可以是连续的,也可以中间间隔若干个样点,为了减小计算量,P(0)和P(1)之间的距离最好等于一个预设的最小基音周期,P(0)和P(N)之间的距离最好等于一个预设的最大基音周期。其中,该预设的最大、最小基音周期可以根据人声音频率的范围来决定,一般人声音的频率为50-500赫兹,因此预设的最小基音周期可以为2ms,最大基音周期可以为20ms。假设采样频率为10kHz,即每1ms采10个样点,将初始位置P(0)与P(1)之间的距离设置为20个样点,即最小基音周期2ms;将初始位置P(0)与P(N)之间的距离设置为200个样点,即最大基音周期20ms。假定P(0)的位置为第1000个样点,则P(1),P(2)…P(N)的位置可取为第1020,…,1200个样点。
步骤s303、获取初始位置P(0)处语音信号的相位与位置P(1),P(2)…P(N)处语音信号的相位的相似程度S(1),S(2)…S(N)。
步骤s304、根据相位的相似程度获取基音周期。
图3中的步骤s301和s302可以按照图4所示的方法获取相位,包括以下步骤:
步骤s401、在需要获取相位的位置选择一段语音信号进行加窗,窗的类型可以是矩形窗、汉明窗、三角窗等,优选为矩形窗。
步骤402、对加窗的语音信号进行傅立叶变换,变换之后的频域参数包括幅度信息和相位信息。
步骤401和402可以用下面公式表示:
X ( n , k ) = Σ m = - ∞ ∞ x ( m ) · w ( m - n ) · e - j 2 π L km - - - ( 1 )
式(1)中x(m)是语音时域信号,w(m)是在区间[0,L-1]之外为零的分析窗,n是需要获取相位的时域位置,X(n,k)是傅立叶变换之后的频域信号,k是离散的频率点,取值范围为0,1…L-1,和角频率对应的关系为: ω = 2 π L k , L为窗的长度。
X(n,k)是复数值,可以用幅度和相位的形式表示:
X ( n , k ) = A n , k e j θ n , k - - - ( 2 )
式(2)中An,k是第k个频率点的幅度值,θn,k是第k个频率点的相位。因此在时域位置n处获取的和各个频率点对应的相位包括:θn,1,θn,2…θn,L-1
对于图3中的步骤s303,可以用图5所示的方法获取相位相似程度,包括以下步骤:
步骤s501、对于每个位置P(1),P(2)…P(N),获取各位置下各个频率点的相位和初始位置P(0)各对应频率点的相位的差值。
步骤s502、对于每个位置,获取该位置各个频率点和初始位置各个频率点的上述相位差值的绝对值的和。
步骤s503、取每个位置相位差值的绝对值的和的倒数,作为该位置的相位与初始位置的相位的相似程度S(1),S(2)…S(N)。
上述步骤s501~s503可以用下面公式来表示:
S ( i ) = 1 Σ k = KL KH | θ P ( i ) , k - θ P ( 0 ) , k | - - - ( 3 )
根据前面所述,可以知道在某个时域位置获取的相位共有L个,且和各个频率点对应,由于高频部分相位变化较大,且容易受到噪声影响,因此在获取相似性时,通常只取部分频率范围内的相位差,一个优选方案是取50-500Hz范围的相位差。在公式(3)中,KL是用于获取相位差的最低频率点,KH是最高频率点,例如,根据经验,如果语音信号的采样频率为32kHz,窗长取为512,则根据经验值,KL可取为1,KH可取为7。
对于图3中的步骤s304,可以用图6所示的方法获取基音周期,步骤如下:
步骤s601、令最大的相位相似程度S′等于S(1),相应的位置P′等于P(1)。
步骤s602、令k等于2。
步骤s603、判断S(k)是否大于S′,如果是,则执行步骤s604,否则跳转到步骤s605。
步骤s604、令S′等于S(k),P′等于P(k)。
步骤s605、对k进行累加,即k=k+1。
步骤s606、判断k是否大于N,如果是则执行步骤s607,否则跳转到步骤s603。
步骤s607、获取P′与P(0)的差的绝对值,即得到基音周期。
对于图3中的步骤s304,也可以用图7所示的另外一种实现方式获取基音周期,步骤如下:
步骤s701、设置相位相似度门限SL。
步骤s702、今k等于1。
步骤s703、判断S(k)是否大于SL,如果是则执行步骤s704,否则执行步骤s705。
步骤s704、获取P(k)与P(0)的差的绝对值,即是所求基音周期。获取完周期之后,则退出获取基音周期的流程,即结束步骤s304。
步骤s705、对k进行累加,即k=k+1。
步骤s706、判断k是否大于N,如果是则退出获取基音周期的流程,即结束步骤s304;如果否则跳转到步骤s703。
在图8中,上部是语音波形图,采样率为32khz,中间是采样本发明方案获取的每个位置相位差值的绝对值的和,窗长取的是512,用于获取相位差的频率点的范围为1至7;图的下部是相应的相位相似程度,用图6或图7的方法可以方便的检测出基音周期为276个样点。
通过使用上述实施例提供的获取基音周期的方法,基于语音信号频域相位相似性进行基音检测,获取到的基音周期具有较高的准确性,且实现简单。
本发明实施例的一种获取基音周期的装置如图9所示,该装置包括相位获取模块10、相位相似程度获取模块20和基音周期获取模块30。其中相位相似程度获取模块20分别与相位获取模块10以及基音周期获取模块30连接。
具体的,相位获取模块10用于获取一语音信号各位置的相位,然后通知给相位相似程度获取模块20。其进一步包括加窗子模块11和变换子模块12,其中加窗子模块11用于在需要获取相位的位置选择一段语音信号进行加窗,窗的类型可以是矩形窗、汉明窗、三角窗等,优选为矩形窗。变换子模块12用于对加窗子模块11加窗的语音信号进行傅立叶变换,变换之后的参数包括幅度信息和相位信息。
相位相似程度获取模块20用于获取初始位置相位与其他位置相位的相似程度,然后把获取结果通知给基音周期获取模块30。
基音周期获取模块30根据相位相似程度获取模块20的通知获取基音周期。
具体的,基音周期获取模块30可以进一步包括判断子模块31和处理子模块32,如图10所示,其中判断子模块31用于获取最大的相位相似程度,获取的具体过程为依次比较各个位置的相位相似程度,直到得出最大值;进一步获取最大值所对应的位置并通知处理子模块32。处理子模块32通过获取所述最大值的位置与初始位置的差的绝对值来获取基音周期。
具体的,基音周期获取模块30也可以进一步包括门限设置子模块33、比较子模块34和获取子模块35,如图11所示,其中门限设置子模块33用于设置一个相位相似度门限,该门限设置的标准参考上述预设的最大最小基音周期。比较子模块34用于比较各个位置的相位相似度与门限设置子模块33设置的门限的大小,获取最大的相位相似程度并通知给获取子模块35,获取子模块35通过获取比较子模块34发送最大值的位置与初始位置的差的绝对值来获取基音周期。
通过使用上述实施例提供的获取基音周期的装置,基于语音信号频域相位相似性进行基音检测,获取到的基音周期具有较高的准确性,且实现简单。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该获取机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本发明各个实施例所述的方法。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种获取基音周期的方法,其特征在于,包括以下步骤:
获取初始位置语音信号和其他一个或多个位置语音信号的相位;
根据所述相位,获取所述初始位置语音信号的相位与所述其他位置语音信号的相位的相似程度;
根据所述相位的相似程度获取基音周期;
所述获取初始位置语音信号的相位与其他位置语音信号的相位的相似程度的步骤具体包括:
对于其他位置,获取所述初始位置语音信号的相位与所述其他位置语音信号的相位差值;
对于其他位置,获取所述相位差值的绝对值的和;
对于其他位置,根据所述绝对值的和获取所述初始位置语音信号的相位与所述其他位置语音信号的相位的相似程度。
2.如权利要求1所述获取基音周期的方法,其特征在于,所述获取初始位置语音信号和其他一个或多个位置语音信号的相位之前还包括:
确定所述初始位置和所述其他位置。
3.如权利要求2所述获取基音周期的方法,其特征在于,所述其他位置的确定方法为:
确定与所述初始位置的距离等于一个预设的最小基音周期的位置为第一个位置,与所述初始位置的距离等于一个预设的最大基音周期的位置为最后一个位置,其余位置分布在所述第一个位置和最后一个位置之间。
4.如权利要求1所述获取基音周期的方法,其特征在于,所述获取初始位置语音信号和其他位置语音信号的相位的步骤具体为:
对需要获取相位位置的语音信号进行加窗;
对所述加窗的语音信号进行傅立叶变换;
根据所述傅立叶变换的结果获取所述位置的语音信号的相位。
5.如权利要求1所述获取基音周期的方法,其特征在于,所述根据相位的相似程度获取基音周期的步骤具体包括:
获取所述初始位置语音信号的相位与各其他位置语音信号的相位的相似 程度中的最大相位相似程度;
获取所述最大相位相似程度的对应位置;
获取所述对应位置与所述初始位置差的绝对值为基音周期。
6.如权利要求1所述获取基音周期的方法,其特征在于,所述根据相位的相似程度获取基音周期的步骤具体包括:
设定相位相似度门限值;
将所述初始位置语音信号的相位与其他位置语音信号的相位的相似程度与所述相位相似度门限值依次进行比较;
获取第一次大于所述相位相似度门限值的相似程度所对应的位置;
获取所述位置与所述初始位置差的绝对值为基音周期。
7.一种获取基音周期的装置,其特征在于,包括:
相位获取模块,用于获取语音信号中初始位置和其他位置的相位,并将所述相位通知给相位相似程度获取模块;
相位相似程度获取模块,用于根据所述相位获取模块通知的相位,获取所述初始位置相位与其他位置相位的相似程度,并将所述相似程度通知基音周期获取模块;
基音周期获取模块,用于根据所述相位相似程度获取模块的通知获取基音周期;
所述获取初始位置相位与其他位置相位的相似程度的具体实现方式包括:
对于其他位置,获取所述初始位置语音信号的相位与所述其他位置语音信号的相位差值;
对于其他位置,获取所述相位差值的绝对值的和;
对于其他位置,根据所述绝对值的和获取所述初始位置语音信号的相位与所述其他位置语音信号的相位的相似程度。
8.如权利要求7所述获取基因周期的装置,其特征在于,所述相位获取模块进一步包括:
加窗子模块,用于对需要获取相位位置的语音信号进行加窗; 
变换子模块,用于对所述加窗子模块加窗后的语音信号进行傅立叶变换,所述变换之后的参数包括相位信息。
9.如权利要求7所述获取基因周期的装置,其特征在于,所述基音周期获取模块进一步包括:
判断子模块,用于获取最大的相位相似程度,进一步获取所述最大相位相似程度对应的位置;
处理子模块,用于根据所述判断子模块获取的所述最大相位相似程度的位置与初始位置的差的绝对值,获取基音周期。
10.如权利要求7所述获取基因周期的装置,其特征在于,所述基音周期获取模块进一步包括:
门限设置子模块,用于设置相位相似度门限;
比较子模块,用于比较各其他位置的相位相似度与所述门限设置子模块设置的门限的大小,获取第一个大于所述相位相似度门限的相位相似程度,以及所述相位相似程度所对应的位置;
获取子模块,用于根据所述比较子模块获取的所述最大相位相似程度的位置与初始位置的差的绝对值来获取基音周期。 
CN2007101460375A 2007-09-07 2007-09-07 一种获取基音周期的方法和装置 Expired - Fee Related CN101383148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101460375A CN101383148B (zh) 2007-09-07 2007-09-07 一种获取基音周期的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101460375A CN101383148B (zh) 2007-09-07 2007-09-07 一种获取基音周期的方法和装置

Publications (2)

Publication Number Publication Date
CN101383148A CN101383148A (zh) 2009-03-11
CN101383148B true CN101383148B (zh) 2012-04-18

Family

ID=40462950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101460375A Expired - Fee Related CN101383148B (zh) 2007-09-07 2007-09-07 一种获取基音周期的方法和装置

Country Status (1)

Country Link
CN (1) CN101383148B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728990B (zh) * 2019-09-24 2022-04-05 维沃移动通信有限公司 基音检测方法、装置、终端设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019530A1 (fr) * 2001-08-31 2003-03-06 Kenwood Corporation Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019530A1 (fr) * 2001-08-31 2003-03-06 Kenwood Corporation Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
毛德行.一种基音提取方法.《第三届全国人机语音通讯学术会议论文集》.1994,92-95.
苏文忠
苏文忠;毛德行.一种基音提取方法.《第三届全国人机语音通讯学术会议论文集》.1994,92-95. *

Also Published As

Publication number Publication date
CN101383148A (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
US8352274B2 (en) Sound determination device, sound detection device, and sound determination method for determining frequency signals of a to-be-extracted sound included in a mixed sound
US20050091045A1 (en) Pitch detection method and apparatus
CN103886871B (zh) 语音端点的检测方法和装置
US20080304672A1 (en) Target sound analysis apparatus, target sound analysis method and target sound analysis program
CN101010722A (zh) 音频信号中话音活动的检测
CN1815550A (zh) 可识别环境中的语音与非语音的方法及系统
CN102629470B (zh) 辅音区间检测装置及辅音区间检测方法
KR20030070178A (ko) 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
CN102592589B (zh) 一种动态归一化数字特征的语音评分方法与装置
GB2555278A (en) Sound source position detection device, sound source position detection method, sound source position detection program, and storage medium
US9817100B2 (en) Sound source localization using phase spectrum
US20040225493A1 (en) Pitch determination method and apparatus on spectral analysis
Vuan et al. Improving the detection of low‐magnitude seismicity preceding the Mw 6.3 L’Aquila earthquake: Development of a scalable code based on the cross correlation of template earthquakes
CN103794222A (zh) 语音基音频率检测方法和装置
CN104919525A (zh) 用于评估退化语音信号的可理解性的方法和装置
CN106033669A (zh) 语音识别方法及装置
US9600445B2 (en) Precision measurement of waveforms
ATE362271T1 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN101383148B (zh) 一种获取基音周期的方法和装置
WO2011059432A1 (en) Precision measurement of waveforms
CN101853240A (zh) 一种信号周期的估计方法和装置
US7043424B2 (en) Pitch mark determination using a fundamental frequency based adaptable filter
CN105513612A (zh) 语言词汇的音频处理方法及装置
CN105791602A (zh) 音质测试方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171103

Address after: Metro Songshan Lake high tech Industrial Development Zone, Guangdong Province, Dongguan City Road 523808 No. 2 South Factory (1) project B2 -5 production workshop

Patentee after: Huawei terminal (Dongguan) Co.,Ltd.

Address before: 518129 Longgang District, Guangdong, Bantian HUAWEI base B District, building 2, building No.

Patentee before: HUAWEI DEVICE Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: HUAWEI DEVICE Co.,Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: Huawei terminal (Dongguan) Co.,Ltd.

CP01 Change in the name or title of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120418

CF01 Termination of patent right due to non-payment of annual fee