CN109119097B - 基音检测方法、装置、存储介质及移动终端 - Google Patents
基音检测方法、装置、存储介质及移动终端 Download PDFInfo
- Publication number
- CN109119097B CN109119097B CN201811273595.2A CN201811273595A CN109119097B CN 109119097 B CN109119097 B CN 109119097B CN 201811273595 A CN201811273595 A CN 201811273595A CN 109119097 B CN109119097 B CN 109119097B
- Authority
- CN
- China
- Prior art keywords
- voice call
- call signal
- pitch period
- signal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000005314 correlation function Methods 0.000 claims abstract description 136
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000010606 normalization Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000003111 delayed effect Effects 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000005316 response function Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000002609 medium Substances 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请实施例公开了基音检测方法、装置、存储介质及移动终端。该方法包括:获取移动终端的语音通话信号;对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;计算所述目标语音通话信号的归一化相关函数;根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。通过本申请实施例提供的技术方案,能够准确估计基音周期,有效提高对含噪语音通话信号的基音检测的准确性。
Description
技术领域
本申请实施例涉及基音检测技术领域,尤其涉及基音检测方法、装置、存储介质及移动终端。
背景技术
随着移动终端的快速发展,通过移动终端进行高清语音通话变得越来越重要。然而,在语音信号处理过程中,基音检测是各种语音与音频在实际应用中的关键技术之一。基音检测即准确地进行基音周期的估计,以尽可能画出和声带振动频率相吻合的基音周期变化轨迹曲线。因此,准确地进行基音检测变得至关重要。
发明内容
本申请实施例提供基音方法、装置、存储介质及移动终端,可以准确地进行基音检测。
第一方面,本申请实施例提供了一种基音检测方法,包括:
获取移动终端的语音通话信号;
对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
计算所述目标语音通话信号的归一化相关函数;
根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
第二方面,本申请实施例提供了一种基音检测装置,包括:
语音信号获取模块,用于获取移动终端的语音通话信号;
语音预处理模块,用于对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
相关函数计算模块,用于计算所述目标语音通话信号的归一化相关函数;
基音周期确定模块,用于根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例第一方面所述的基音检测方法。
第四方面,本申请实施例提供了一种移动终端,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面所述的基音检测方法。
本申请实施例中提供的基音检测方案,获取移动终端的语音通话信号;对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;计算所述目标语音通话信号的归一化相关函数;根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。通过采用上述技术方案,能够准确估计基音周期,有效提高对含噪语音通话信号的基音检测的准确性。
附图说明
图1为本申请实施例提供的一种基音检测方法的流程示意图;
图2为本申请实施例提供的另一种基音检测方法的流程示意图;
图3为本申请实施例提供的一种基音检测装置的结构示意图;
图4为本申请实施例提供的一种移动终端的结构示意图;
图5为本申请实施例提供的另一种移动终端的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
现有的技术,移动终端通话语音的基音检测通常是在时域上对输入的语音信号进行分析和计算,然后利用相关函数确定基音周期。然而,由于语音信号在基音周期的整数倍上的相关值都会很大,很难进行准确区分检测,同时该方法还容易受到噪声因素的严重影响,尤其对于含噪语音信号的基音检测效果不好。基于此,现提供如下基音检测方案。
图1为本申请实施例提供的基音检测方法的流程示意图,该方法可以由基音检测装置执行,其中该装置可由软件和/或硬件实现,一般可集成在移动终端中。如图1所示,该方法包括:
步骤101、获取移动终端的语音通话信号。
示例性的,本申请实施例中的移动终端可包括手机、平板电脑以及语音手表等具备语音通话功能的终端设备。
在本申请实施例中,获取移动终端的语音通话信号,其中移动终端的语音通话信号可以包括两移动终端进行电话通话的过程中,移动终端接收到的对方移动终端传输过来的通话语音,还可以包括至少两个移动终端进行视频通话(如通过微信进行视频通话)的过程中,移动终端接收到的其他移动终端传输过来的通话语音,还可以包括至少两个移动终端进行语音通话(如通过微信进行微信语音)的过程中,移动终端接收到的其他移动终端传输过来到的语音信息。需要说明的是,本申请实施例对移动终端的语音通话信号的具体形式不作限定。
步骤102、对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号。
示例性的,可以通过带通滤波器对语音通话信号进行带通滤波的预处理操作,例如可以通过椭圆带通滤波器、巴特沃斯带通滤波器等带通滤波器对语音通话信号进行带通滤波的预处理操作,需要说明的是,本申请实施例对进行带通滤波预处理操作时采用的带通滤波器的种类不做限定。
在本申请实施例中,对语音通话信号进行带通滤波预处理操作,可以有效滤除语音通话信号中的高次谐波分量,即预处理后生成的目标语音通话信号中不包含高次谐波分量。由于在对语音通话信号进行基音检测的过程中,语音通话信号中的高次谐波分量对基音检测,也即基音周期的估计不起作用,因此该步骤的预处理操作可以有效降低基音检测的复杂度。
步骤103、计算所述目标语音通话信号的归一化相关函数。
在本申请实施例中,基音检测是一种基于自相关的检测技术,因此,可基于目标语音通话信号的归一化相关函数进行基音检测。
可选的,计算所述目标语音通话信号的归一化相关函数,包括:将所述目标语音通话信号延迟预设基音周期,得到延迟语音通话信号;根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数。
可选的,根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数,包括:
根据如下公式计算所述目标语音通话信号的归一化相关函数:
其中, x(n)=s(n)+w(n),其中,x(n)表示进行带通滤波预处理操作后的目标语音通话信号,其中,目标语音通话信号为含噪语音信号,s(n)表示x(n)中的干净语音信号,w(n)表示x(n)中的噪声信号,x(n+τ)表示延迟语音通话信号,τ表示目标语音通话信号延迟的预设基音周期,N表示目标语音通话信号x(n)中每帧语音信号长度内包含的采样点个数。
示例性的,x(n)表示经过步骤103预处理后的目标语音通话信号,目标语音通通话信号为包含噪声的含噪语音信号。x(n)=s(n)+w(n),说明含噪语音信号(也即目标语音信号)x(n)可以分解为干净语音信号s(n)与噪声信号w(n)的和。x(n+τ)表示将目标语音通话信号延迟预设基音周期τ后,得到的延迟语音通话信号,其中,预设基音周期τ也可以理解为将目标语音通话信号延迟的采样点的个数。Rss(τ)可以理解为干净语音信号s(n)的自相关函数,Rww(τ)可以理解为噪声信号w(n)的自相关函数。根据可以看出,当τ≠0时,目标语音通话信号的归一化相关函数Rxx(τ)与噪声信号w(n)无关,也即在根据目标语音通话信号的归一化相关函数进行基音检测的过程中,可以不用关注目标语音通话信号中的噪声信号,也即目标语音通话信号中的噪声信号对基音检测的结果无影响。
步骤104、根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
在本申请实施例中,根据归一化相关函数确定第一预设数量个目标基音周期候选值。示例性的,可确定预设基音周期范围内所述归一化相关函数的最大值,将最大值对应的语音信号位置确定为目标基音周期候选值,其中,归一化相关函数取最大值时对应的语音信号位置可以有一处或多处。又示例性的,可确定预设基音周期范围内所述归一化相关函数中预设数量个较大值,将较大值对应的语音信号位置均确定为目标基音周期候选值。需要说明的是,本申请实施例对根据归一化相关函数确定第一预设数量个目标基音周期候选值的具体方式不做限定。
可选的,根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,包括:确定所述归一化相关函数的第二预设数量个最大值,并将取所述第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值;将所述第一基音周期候选值的前后的语音信号位置中使所述归一化相关函数取极大值的语音信号位置,确定为第二基音周期候选值;将所述第一基音周期候选值和所述第二基音周期候选值确定为目标基音周期候选值。
示例性的,确定归一化相关函数的第二预设数量个最大值,如确定第二数量的取值为3,则将三个最大值对应的予以信号位置确定为第一基音周期候选值。例如,可将这三个第一基音周期候选值分别记为τT1、τT2、τT3。然后将第一基音周期候选值的前后的语音信号位置中使归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值。例如,可以取第一基音周期候选值的前后的语音信号位置中使归一化相关函数取极大值的1个或2个语音信号位置确定为第一基音周期候选值。例如,第三预设数量取值为1,则可将第一基音周期候选值τT1的前后的语音信号位置中使归一化相关函数取极大值的语音信号位置分别表示为τT1-1和τT1+1,则可将τT1-1和τT1+1作为第二基音周期候选值。又例如,第三预设数量取值为2,则可将第一基音周期候选值τT1的前后的语音信号位置中使归一化相关函数取极大值的语音信号位置分别表示为τT1-2、τT1-1、τT1+1和τT1+2,则可将τT1-2、τT1-1、τT1+1和τT1+2作为第二基音周期候选值。同样的,如果第三预设数量取值为2,则根据第一基音周期候选值τT2确定的第二基音周期候选值可分别表示为τT2-2、τT2-1、τT2+1和τT2+2,根据第一基音周期候选值τT3确定的第二基音周期候选值可分别表示为τT3-2、τT3-1、τT3+1和τT3+2。最后,可将第一基音周期候选值和第二基音周期候选值确定为目标基音周期候选值。例如,如上面所述,可最终确定的目标基音周期候选值分别为τT1-2、τT1-1、τT1、τT1+1、τT1+2、τT2-2、τT2-1、τT2、τT2+1、τT2+2、τT3-2、τT3-1、τT3、τT3+1和τT3+2。可以理解的是,上述第一基音周期候选值与第二基音周期候选值中可能会存在重复值,则最终确定的目标基音周期候选值中可仅仅保留一个重复值。当上述第一基音周期候选值和第二基音周期候选值中不存在重复值时,第一预设数量=第二预设数量*(2*第三预设数量+1)。
可选的,根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期,包括:针对每个目标基音周期候选值,以所述目标基音周期候选值为中心,从所述归一化相关函数中截取预设宽度的子相关函数;针对每个子相关函数,对所述子相关函数进行傅里叶变化,得到频域上与所述子相关函数对应的子相关信号;计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为所述语音通话信号的基音周期。
示例性的,针对第一预设数量个目标基音周期候选值中的每个目标基音周期候选值,以当前基音周期候选值为中心,从归一化相关函数中截取预设宽度的子相关函数。例如,对于目标基音周期候选值τT1,则以τT1为中心,从归一化相关函数中截取预设宽度为K的子相关函数,该子相关函数可表示为可以理解的是,得到的第一预设数量个子相关函数可用Rm表示,其中m表示各个目标基音周期候选值。例如,m=τT1-2,τT1-1,τT1,τT1+1,τT1+2,τT2-2,τT2-1,τT2,τT2+1,τT2+2,τT3-2,τT3-1,τT3,τT3+1,τT3+2。然后,分别对每个子相关函数进行傅里叶变换,得到频域上与子相关函数对应的子相关信号。示例性的,该操作步骤可表示为Xm(k)=FFT(Rm),其中,Xm(k)表示与子相关函数Rm对应的子相关信号。最后,计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为所述语音通话信号的基音周期。例如,上述第一预设数量个最小值偏移量中,最小偏移量对应的子相关函数的目标基音周期候选值为τT1,则将τT1确定为语音通话信号的基音周期。
可选的,计算每个子相关信号的偏移量,包括:根据如下公式计算每个子相关信号的偏移量:
其中,Xm(k)=FFT(Rm),Rm表示子相关函数,Xm(k)表示频域上与所述子相关函数Rm对应的子相关信号,表示子频带内,子相关信号的幅度谱取最大值时对应的位置,kmax表示整个频带内,子相关信号的幅度谱取最大值时对应的位置,ρ表示最接近m/2的整数,m表示目标基音周期候选值,M表示傅里叶变化的点数。其中,子相关信号的幅度谱为abs(Xm(k))。可选的M=512。
本申请实施例中提供的基音检测方法,获取移动终端的语音通话信号;对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;计算所述目标语音通话信号的归一化相关函数;根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。通过采用上述技术方案,有效提高对含噪语音通话信号的基音检测的准确性。
图2为本申请实施例提供的基音检测方法的流程示意图,如图2所示,该方法包括:
步骤201、获取移动终端的语音通话信号。
步骤202、基于椭圆带通滤波器对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号。
在本申请实施例中,基于椭圆带通滤波器对语音通话信号进行带通滤波的预处理操作,使得得到的目标语音通话信号中不存在高次谐波分量。
可选的,所述椭圆带通滤波器为6阶椭圆带通滤波器,所述椭圆带通滤波器的带宽的取值范围为60-500Hz,所述椭圆带通滤波器的阻带衰减为40dB;所述椭圆带通滤波器的响应函数的表达式如下:
其中,H(z)表示椭圆带通滤波器的响应函数。这样设置的好处在于,可以高效、快速地滤除语音通话信号中的高次谐波分量。
步骤203、将所述目标语音通话信号延迟预设基音周期,得到延迟语音通话信号。
示例性的,通过步骤202得到的目标语音通话信号可表示为x(n),预设延期基音周期为τ,其中,也可以理解为将目标语音通话信号延迟的采样点的个数,则将目标语音通话信号延迟预设基音周期后,得到的延迟语音通话信号可表示为x(n+τ)。
步骤204、根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数。
示例性的,根据如下公式计算所述目标语音通话信号的归一化相关函数:
其中, x(n)=s(n)+w(n),其中,x(n)表示进行带通滤波预处理操作后的目标语音通话信号,其中,目标语音通话信号为含噪语音信号,s(n)表示x(n)中的干净语音信号,w(n)表示x(n)中的噪声信号,x(n+τ)表示延迟语音通话信号,τ表示目标语音通话信号延迟的预设基音周期,N表示目标语音通话信号x(n)中每帧语音信号长度内包含的采样点个数。
步骤205、确定所述归一化相关函数的第二预设数量个最大值,并将取所述第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值。
示例性的,取三个归一化相关函数取最大值时对应的语音信号位置为第一基音周期候选值,例如,可表示为τT1、τT2、τT3。
步骤206、将所述第一基音周期候选值的前后的语音信号位置中使所述归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值。
示例性的,将所述第一基音周期候选值τT1、τT2、τT3的前后的语音信号位置中使归一化相关函数Rxx(τ)取极大值的两个语音信号位置,确定为第二基音周期候选值。例如,将第一基音周期候选值τT1的前后的语音信号位置中使归一化相关函数取极大值的语音信号位置分别表示为τT1-2、τT1-1、τT1+1和τT1+2,则τT1-2、τT1-1、τT1+1和τT1+2可表示为第二基音周期候选值。同样的,通过该步骤确定的第二基音周期候选值包括τT1-2、τT1-1、τT1+1、τT1+2、τT2-2、τT2-1、τT2+1、τT2+2、τT3-2、τT3-1、τT3+1和τT3+2。
步骤207、将所述第一基音周期候选值和所述第二基音周期候选值确定为目标基音周期候选值。
通过上述步骤可知,目标基音周期候选值包括τT1-2、τT1-1、τT1、τT1+1、τT1+2、τT2-2、τT2-1、τT2、τT2+1、τT2+2、τT3-2、τT3-1、τT3、τT3+1和τT3+2。
步骤208、针对每个目标基音周期候选值,以所述目标基音周期候选值为中心,从所述归一化相关函数中截取预设宽度的子相关函数。
示例性的,分别以目标基音周期候选值为中心,从归一化相关函数中截取预设宽度的子相关函数可表示为Rm。其中,m=τT1-2,τT1-1,τT1,τT1+1,τT1+2,τT2-2,τT2-1,τT2,τT2+1,τT2+2,τT3-2,τT3-1,τT3,τT3+1,τT3+2。
步骤209、针对每个子相关函数,对所述子相关函数进行傅里叶变化,得到频域上与所述子相关函数对应的子相关信号。
示例性的,Xm(k)=FFT(Rm),其中,Xm(k)表示频域上与所述子相关函数Rm对应的子相关信号。
步骤210、计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为所述语音通话信号的基音周期。
示例性的,计算每个子相关信号的偏移量,包括:根据如下公式计算每个子相关信号的偏移量:
其中,Xm(k)=FFT(Rm),Rm表示子相关函数,Xm(k)表示频域上与所述子相关函数Rm对应的子相关信号,表示子频带内,子相关信号的幅度谱取最大值时对应的位置,kmax表示整个频带内,子相关信号的幅度谱取最大值时对应的位置,ρ表示最接近m/2的整数,m表示目标基音周期候选值,M表示傅里叶变化的点数。
本申请实施例中提供的基音检测方法,获取移动终端的语音通话信号后,基于椭圆带通滤波器对语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号,将目标语音通话信号延迟预设基音周期,得到延迟语音通话信号,根据延迟语音通话信号与目标语音通话信号计算目标语音通话信号的归一化相关函数,然后确定归一化相关函数的第二预设数量个最大值,并将取第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值,将第一基音周期候选值的前后的语音信号位置中使归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值,将第一基音周期候选值和第二基音周期候选值确定为目标基音周期候选值,最后针对每个目标基音周期候选值,以目标基音周期候选值为中心,从归一化相关函数中截取预设宽度的子相关函数,针对每个子相关函数,对子相关函数进行傅里叶变化,得到频域上与子相关函数对应的子相关信号,计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为语音通话信号的基音周期。通过采用上述技术方案,能够准确估计基音周期,有效提高对含噪语音通话信号的基音检测的准确性。
图3为本申请实施例提供的一种基音检测装置的结构示意图,该装置可由软件和/或硬件实现,一般集成在移动终端中,可通过执行基音检测方法来对语音通话信号进行基音检测。如图3所示,该装置包括:
语音信号获取模块301,用于获取移动终端的语音通话信号;
语音预处理模块302,用于对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
相关函数计算模块303,用于计算所述目标语音通话信号的归一化相关函数;
基音周期确定模块304,用于根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
本申请实施例中提供的基音检测装置,获取移动终端的语音通话信号;对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;计算所述目标语音通话信号的归一化相关函数;根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。通过采用上述技术方案,能够准确估计基音周期,有效提高对含噪语音通话信号的基音检测的准确性。
可选的,所述相关函数计算模块,用于:
将所述目标语音通话信号延迟预设基音周期,得到延迟语音通话信号;
根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数。
可选的,根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数,包括:
根据如下公式计算所述目标语音通话信号的归一化相关函数:
其中, x(n)=s(n)+w(n),其中,x(n)表示进行带通滤波预处理操作后的目标语音通话信号,其中,目标语音通话信号为含噪语音信号,s(n)表示x(n)中的干净语音信号,w(n)表示x(n)中的噪声信号,x(n+τ)表示延迟语音通话信号,τ表示目标语音通话信号延迟的预设基音周期,N表示目标语音通话信号x(n)中每帧语音信号长度内包含的采样点个数。
可选的,所述基音周期确定模块,用于:
确定所述归一化相关函数的第二预设数量个最大值,并将取所述第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值;
将所述第一基音周期候选值的前后的语音信号位置中使所述归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值;
将所述第一基音周期候选值和所述第二基音周期候选值确定为目标基音周期候选值。
可选的,所述基音周期确定模块,用于:
针对每个目标基音周期候选值,以所述目标基音周期候选值为中心,从所述归一化相关函数中截取预设宽度的子相关函数;
针对每个子相关函数,对所述子相关函数进行傅里叶变化,得到频域上与所述子相关函数对应的子相关信号;
计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为所述语音通话信号的基音周期。
可选的,计算每个子相关信号的偏移量,包括:
根据如下公式计算每个子相关信号的偏移量:
其中,Xm(k)=FFT(Rm),Rm表示子相关函数,Xm(k)表示频域上与所述子相关函数Rm对应的子相关信号,表示子频带内,子相关信号的幅度谱取最大值时对应的位置,kmax表示整个频带内,子相关信号的幅度谱取最大值时对应的位置,ρ表示最接近m/2的整数,m表示目标基音周期候选值,M表示傅里叶变化的点数。
可选的,所述语音预处理模块,用于:
基于椭圆带通滤波器对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号。
可选的,所述椭圆带通滤波器为6阶椭圆带通滤波器,所述椭圆带通滤波器的带宽的取值范围为60-500Hz,所述椭圆带通滤波器的阻带衰减为40dB;
所述椭圆带通滤波器的响应函数的表达式如下:
其中,H(z)表示椭圆带通滤波器的响应函数。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行基音检测方法,该方法包括:
获取移动终端的语音通话信号;
对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
计算所述目标语音通话信号的归一化相关函数;
根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的基音检测操作,还可以执行本申请任意实施例所提供的基音检测方法中的相关操作。
本申请实施例提供了一种移动终端,该移动终端中可集成本申请实施例提供的基音检测装置。图4为本申请实施例提供的一种移动终端的结构示意图。移动终端400可以包括:存储器401,处理器402及存储在存储器上并可在处理器运行的计算机程序,所述处理器402执行所述计算机程序时实现如本申请实施例所述的基音检测方法。
本申请实施例提供的移动终端,获取移动终端的语音通话信号,对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号,计算所述目标语音通话信号的归一化相关函数,然后根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期,能够准确估计基音周期,有效提高对含噪语音通话信号的基音检测的准确性。
图5为本申请实施例提供的另一种移动终端的结构示意图,该移动终端可以包括:壳体(图中未示出)、存储器501、中央处理器(central processing unit,CPU)502(又称处理器,以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部;所述CPU502和所述存储器501设置在所述电路板上;所述电源电路,用于为所述移动终端的各个电路或器件供电;所述存储器501,用于存储可执行程序代码;所述CPU502通过读取所述存储器501中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以实现以下步骤:
获取移动终端的语音通话信号;
对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
计算所述目标语音通话信号的归一化相关函数;
根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期。
所述移动终端还包括:外设接口503、RF(Radio Frequency,射频)电路505、音频电路506、扬声器511、电源管理芯片508、输入/输出(I/O)子系统509、其他输入/控制设备510、触摸屏512、其他输入/控制设备510以及外部端口504,这些部件通过一个或多个通信总线或信号线507来通信。
应该理解的是,图示移动终端500仅仅是移动终端的一个范例,并且移动终端500可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于基音检测的移动终端进行详细的描述,该移动终端以手机为例。
存储器501,所述存储器501可以被CPU502、外设接口503等访问,所述存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口503,所述外设接口503可以将设备的输入和输出外设连接到CPU502和存储器501。
I/O子系统509,所述I/O子系统509可以将设备上的输入输出外设,例如触摸屏512和其他输入/控制设备510,连接到外设接口503。I/O子系统509可以包括显示控制器5091和用于控制其他输入/控制设备510的一个或多个输入控制器5092。其中,一个或多个输入控制器5092从其他输入/控制设备510接收电信号或者向其他输入/控制设备510发送电信号,其他输入/控制设备510可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器5092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
触摸屏512,所述触摸屏512是用户移动终端与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。
I/O子系统509中的显示控制器5091从触摸屏512接收电信号或者向触摸屏512发送电信号。触摸屏512检测触摸屏上的接触,显示控制器5091将检测到的接触转换为与显示在触摸屏512上的用户界面对象的交互,即实现人机交互,显示在触摸屏512上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路505,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路505接收并发送RF信号,RF信号也称为电磁信号,RF电路505将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路505可以包括用于执行这些功能的已知电路,其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder,编译码器)芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。
音频电路506,主要用于从外设接口503接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器511。
扬声器511,用于将手机通过RF电路505从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片508,用于为CPU502、I/O子系统及外设接口所连接的硬件进行供电及电源管理。
上述实施例中提供的基音检测装置、存储介质及移动终端可执行本申请任意实施例所提供的基音检测方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基音检测方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种基音检测方法,其特征在于,包括:
获取移动终端的语音通话信号;
对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
计算所述目标语音通话信号的归一化相关函数;
根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期;
根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,包括:
确定所述归一化相关函数的第二预设数量个最大值,并将取所述第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值;
将所述第一基音周期候选值的前后的语音信号位置中使所述归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值;
将所述第一基音周期候选值和所述第二基音周期候选值确定为目标基音周期候选值。
2.根据权利要求1所述的方法,其特征在于,计算所述目标语音通话信号的归一化相关函数,包括:
将所述目标语音通话信号延迟预设基音周期,得到延迟语音通话信号;
根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数。
3.根据权利要求2所述的方法,其特征在于,根据所述延迟语音通话信号与所述目标语音通话信号计算所述目标语音通话信号的归一化相关函数,包括:
根据如下公式计算所述目标语音通话信号的归一化相关函数:
4.根据权利要求1所述的方法,其特征在于,根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期,包括:
针对每个目标基音周期候选值,以所述目标基音周期候选值为中心,从所述归一化相关函数中截取预设宽度的子相关函数;
针对每个子相关函数,对所述子相关函数进行傅里叶变化,得到频域上与所述子相关函数对应的子相关信号;
计算每个子相关信号的偏移量,并将最小偏移量对应的子相关函数的目标基音周期候选值确定为所述语音通话信号的基音周期。
6.根据权利要求1所述的方法,其特征在于,对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号,包括:
基于椭圆带通滤波器对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号。
8.一种基音检测装置,其特征在于,包括:
语音信号获取模块,用于获取移动终端的语音通话信号;
语音预处理模块,用于对所述语音通话信号进行带通滤波的预处理操作,得到预处理后的目标语音通话信号;
相关函数计算模块,用于计算所述目标语音通话信号的归一化相关函数;
基音周期确定模块,用于根据所述归一化相关函数确定第一预设数量个目标基音周期候选值,并根据所述归一化相关函数从所述第一预设数量个目标基音周期候选值中确定所述语音通话信号的基音周期;
所述基音周期确定模块,具体用于确定所述归一化相关函数的第二预设数量个最大值,并将取所述第二预设数量个最大值时对应的语音信号位置确定为第一基音周期候选值;
将所述第一基音周期候选值的前后的语音信号位置中使所述归一化相关函数取极大值的第三预设数量个语音信号位置,确定为第二基音周期候选值;
将所述第一基音周期候选值和所述第二基音周期候选值确定为目标基音周期候选值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基音检测方法。
10.一种移动终端,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的基音检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273595.2A CN109119097B (zh) | 2018-10-30 | 2018-10-30 | 基音检测方法、装置、存储介质及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273595.2A CN109119097B (zh) | 2018-10-30 | 2018-10-30 | 基音检测方法、装置、存储介质及移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109119097A CN109119097A (zh) | 2019-01-01 |
CN109119097B true CN109119097B (zh) | 2021-06-08 |
Family
ID=64854442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273595.2A Active CN109119097B (zh) | 2018-10-30 | 2018-10-30 | 基音检测方法、装置、存储介质及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109119097B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111664863B (zh) * | 2019-03-07 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种播报信息的处理方法、装置及存储介质 |
CN110390953B (zh) * | 2019-07-25 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 啸叫语音信号的检测方法、装置、终端及存储介质 |
CN110728990B (zh) * | 2019-09-24 | 2022-04-05 | 维沃移动通信有限公司 | 基音检测方法、装置、终端设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4653098A (en) * | 1982-02-15 | 1987-03-24 | Hitachi, Ltd. | Method and apparatus for extracting speech pitch |
US20030149560A1 (en) * | 2002-02-06 | 2003-08-07 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
US20030177002A1 (en) * | 2002-02-06 | 2003-09-18 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction |
CN1971707A (zh) * | 2006-12-13 | 2007-05-30 | 北京中星微电子有限公司 | 一种进行基音周期估计和清浊判决的方法及装置 |
CN101030375A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种基于动态规划的基音周期提取方法 |
CN101183526A (zh) * | 2006-11-14 | 2008-05-21 | 中兴通讯股份有限公司 | 一种检测语音信号基音周期的方法 |
CN102016530A (zh) * | 2009-02-13 | 2011-04-13 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3840876B2 (ja) * | 2000-05-16 | 2006-11-01 | 岩崎通信機株式会社 | 周期的信号検出装置 |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
US8010350B2 (en) * | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
CN100541609C (zh) * | 2006-09-18 | 2009-09-16 | 华为技术有限公司 | 一种实现开环基音搜索的方法和装置 |
US8185384B2 (en) * | 2009-04-21 | 2012-05-22 | Cambridge Silicon Radio Limited | Signal pitch period estimation |
CN102231274B (zh) * | 2011-05-09 | 2013-04-17 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
CN103474074B (zh) * | 2013-09-09 | 2016-05-11 | 深圳广晟信源技术有限公司 | 语音基音周期估计方法和装置 |
-
2018
- 2018-10-30 CN CN201811273595.2A patent/CN109119097B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4653098A (en) * | 1982-02-15 | 1987-03-24 | Hitachi, Ltd. | Method and apparatus for extracting speech pitch |
US20030149560A1 (en) * | 2002-02-06 | 2003-08-07 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using interpolation techniques |
US20030177002A1 (en) * | 2002-02-06 | 2003-09-18 | Broadcom Corporation | Pitch extraction methods and systems for speech coding using sub-multiple time lag extraction |
CN101183526A (zh) * | 2006-11-14 | 2008-05-21 | 中兴通讯股份有限公司 | 一种检测语音信号基音周期的方法 |
CN1971707A (zh) * | 2006-12-13 | 2007-05-30 | 北京中星微电子有限公司 | 一种进行基音周期估计和清浊判决的方法及装置 |
CN101030375A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种基于动态规划的基音周期提取方法 |
CN102016530A (zh) * | 2009-02-13 | 2011-04-13 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109119097A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020088154A1 (zh) | 语音降噪方法、存储介质和移动终端 | |
CN109119097B (zh) | 基音检测方法、装置、存储介质及移动终端 | |
CN109379678B (zh) | 非线性补偿方法、装置、存储介质及终端设备 | |
CN107833579B (zh) | 噪声消除方法、装置及计算机可读存储介质 | |
US9344579B2 (en) | Variable step size echo cancellation with accounting for instantaneous interference | |
WO2020088153A1 (zh) | 语音处理方法、装置、存储介质和电子设备 | |
CN111951819A (zh) | 回声消除方法、装置及存储介质 | |
US11315582B2 (en) | Method for recovering audio signals, terminal and storage medium | |
CN106470284B (zh) | 消除声学回声的方法、装置、系统、服务器及通话装置 | |
WO2015184893A1 (zh) | 移动终端通话语音降噪方法及装置 | |
CN108449502B (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN106911956B (zh) | 一种音频数据播放方法、装置及移动终端 | |
CN113421578B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN108449497B (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN109089190B (zh) | 阻抗曲线确定方法、装置、存储介质及终端设备 | |
CN109074814A (zh) | 一种噪声检测方法及终端设备 | |
CN107508983B (zh) | 音量调节方法、装置、存储介质及终端设备 | |
CN103268766A (zh) | 双麦克风语音增强方法及装置 | |
WO2019033436A1 (zh) | 音量调节方法、装置、存储介质及移动终端 | |
CN112863545B (zh) | 性能测试方法、装置、电子设备及计算机可读存储介质 | |
CN112289336A (zh) | 音频信号处理方法和装置 | |
CN108885519B (zh) | 确定电容屏触摸位置的方法及装置 | |
CN109495418B (zh) | Ofdm信号同步方法、装置和计算机可读存储介质 | |
CN108632713B (zh) | 音量控制方法、装置、存储介质及终端设备 | |
CN108260115A (zh) | 蓝牙设备位置信息处理方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |