CN110728990B - 基音检测方法、装置、终端设备和介质 - Google Patents
基音检测方法、装置、终端设备和介质 Download PDFInfo
- Publication number
- CN110728990B CN110728990B CN201910906963.0A CN201910906963A CN110728990B CN 110728990 B CN110728990 B CN 110728990B CN 201910906963 A CN201910906963 A CN 201910906963A CN 110728990 B CN110728990 B CN 110728990B
- Authority
- CN
- China
- Prior art keywords
- frequency
- domain signal
- target
- determining
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种基音检测方法、装置、终端设备和介质。该方法包括:获取时域上的待检测语音信号;确定待检测语音信号对应的目标频域信号;基于目标频域信号确定M个基音周期侯选值;基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。根据本发明实施例,能够提高基音检测的准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基音检测方法、装置、终端设备和介质。
背景技术
目前,语音识别以及语音唤醒得到了越来越广泛的应用。然而,在噪声或者强噪声环境下,语音识别率和语音唤醒率会显著下降。语音基音周期是语音信号的一个重要特征,所以获取准确的语音基音周期对语音识别或语音唤醒是有帮助的。
目前,如果背景噪声信号较大,语音的谐波结构(尤其是低频的谐波结构)被噪声覆盖,此时难以获得较为准确的基音周期,基音周期容易被错误的估计为二次谐波、高次谐波、1/2谐波或者干扰噪声的某个频率等。因此,在低信噪比情况下基音周期估计不准,即降低了基音检测的准确率。
发明内容
本发明实施例提供一种基音检测方法、装置、终端设备和介质,以解决基音检测的准确率较低的问题。
为了解决上述技术问题,本发明是这样实现的:一种基音检测方法,包括:
获取时域上的待检测语音信号;
确定待检测语音信号对应的目标频域信号;
基于目标频域信号确定M个基音周期侯选值;
基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。
第一方面,本发明实施例提供一种基音检测装置,该装置包括:
语音信号获取模块,用于获取时域上的待检测语音信号;
目标频域信号确定模块,用于确定待检测语音信号对应的目标频域信号;
基音周期候选值确定模块,用于基于目标频域信号确定M个基音周期侯选值;
基音周期确定模块,用于基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。
第二方面,本发明实施例提供一种终端设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如本发明实施例提供的基音检测方法。
第三方面,本发明实施例提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的基音检测方法。
在本发明实施例中,采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用分别以M个基音周期侯选值为周期的M个余弦信号,从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明一实施例提供的基音检测方法的流程示意图;
图2为本发明一实施例提供的第三频域信号的频谱图;
图3为本发明一实施例提供的预设权值与频点的关系曲线图;
图4为本发明一实施例提供的一个目标频域信号的频谱图;
图5为本发明一实施例提供的基音检测装置的结构示意图;
图6为本发明一实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出本发明实施例提供的基音检测方法的流程示意图。如图1所示,本发明实施例提供的基音检测方法包括:
S110,获取时域上的待检测语音信号。
在本发明的一些实施例中,时域上的待检测语音信号可以从语音采集设备处获取。
作为一个示例,在手机实时通话的应用场景中,手机上的麦克风用于采集语音信号。麦克风采集到的语音信号会送到数字处理芯片中。例如麦克风可以一次送进来10ms(毫秒)长度的语音信号。由于语音信号是短时平稳(如30ms以内近似认为是平稳的)但长时间不平稳的信号。因此可以对相对短时且平稳的语音信号做基音检测。
作为一个示例,数字处理芯片可以对读入的语音信号进行分帧处理。例如,可以取30ms左右的语音信号为一帧,作为待检测语音信号。例如,数字处理芯片一次读进来10ms长度的语音信号,通过对历史的语音信号进行缓存,凑齐30ms左右的待检测语音信号进行一次基音检测。
S120,确定待检测语音信号对应的目标频域信号。
在本发明的实施例中,通过对时域上的待检测语音信号做快速傅里叶变换,可以将时域上的语音信号转换到频域,以得到目标频域信号。
S130,基于目标频域信号确定M个基音周期侯选值。
S140,基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期。M个余弦信号是利用M个基音周期侯选值生成的。
其中,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。
在本发明的实施例中,采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用以基音周期侯选值为周期的余弦信号从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。
在本发明的一些实施例中,步骤S120包括:
S1201,将待检测语音信号转换到频域,得到初始频域信号。
作为一个示例,一般傅里叶变换考虑到快速运算会做2的整数次幂的点数,如傅里叶变换的点数为256点、512点或1024点等。假设语音信号的采样频率为16kHz(赫兹),一帧待检测语音信号的帧长为512,则对512点的语音数据作512点的傅里叶变换,得到待检测语音信号对应的初始频域信号。其中得到的初始频域信号为256点频域信号,频域分辨率为31.25Hz。
S1202,对初始频域信号进行平滑滤波,得到第一频域信号。
在本发明的实施例中,初始频域信号包括语音的声道信息和激励信息,由于基音周期估计只和激励信息有关,为了降低基音检测的复杂度,因此可以对初始频域信号进行预处理,即可以先去除初始频域信号的声道信息。
在本发明的一些实施例中,可以采用平滑滤波的方式对初始频域信号进行低通滤波,得到平滑之后的第一频域信号。其中第一频域信号包含了语音信号中的声道信息。作为一个示例,可以采用理想低通滤波器、巴特沃思低通滤波器或高斯低通滤波器等低通滤波器对初始频域信号进行平滑滤波。
S1203,将初始频域信号减去第一频域信号得到第二频域信号。
在一些实施例中,利用初始频域信号减去第一频域信号(即去除了语音信号中的声道信息),得到只包含激励信息的第二频域信号。
S1204,基于第二频域信号确定目标频域信号。
在本发明的一些实施例中,可以将第二频域信号作为目标频域信号。
在本发明的另一些实施例中,为了提高目标频域信号的频域分辨率,步骤S1204包括以下步骤:
S1204-1,对第二频域信号进行插值处理,得到第三频域信号。
在本发明的实施例中,为了提高第二频域信号的分辨率,得到分辨率较高的目标频域信号,可以对第二频域信号进行插值处理。
在上述示例中,语音信号的采样频率是16kHz,并进行了512点的傅里叶变换,第二频域信号的频域分辨率为31.25Hz,分辨率较低。例如,可以对第二频域信号中每两个相邻的频点之间插入一个频点,则分辨率fp为15.625Hz。若对第二频域信号中每两个相邻的频点之间插入一个两个频点,则分辨率fp为10.417Hz。对于在每两个相邻的频点之间插入的频点个数,本发明实施例不做限制。
在对第二频域信号的插值处理中,可以采用线性插值、三次样条插值、牛顿插值、多项式插值等不同的差值算法,对于插值算法本发明实施例不做具体限定。
S1204-2,基于第三频域信号确定目标频域信号。
在本发明的一些实施例中,可以将第三频域信号作为目标频域信号。
在本发明的另一些实施例中,由于基音周期主要由低频信号决定,因此为了强调低频部分,在步骤S1204-2中,可以将第三频域信号中预先选定的N个频点中每个频点对应的幅度值分别乘以对应的预设权值,得到目标频域信号,N为大于等于1的整数。
其中,对于第三频域信号中的预先选定的N个频点中任意的两个频点,若两个频点中的一个频点对应的频率值大于两个频点中另一个频点对应的频率值,则两个频点中的一个频点对应的预设权值小于两个频点中另一个频点对应的预设权值。
在上述示例中,若对第二频域信号进行了插值处理,则第三频域信号中频点个数为512。由于语音的基音周期一般在50Hz~500Hz之间,因此可以取2000Hz以下的信号做基音周期估计,则可以取N=128。
参见图2,图2示出了第三频域信号中预先选定的N个频点所构成的频谱曲线。其中,图2中横坐标为频点,纵坐标为幅度。每两个相邻频点之间的频率差值为15.625Hz。
对于浊音来说,低频相对于高频有更准确的谐波信息。所以通过对N个频点中的每个频点分别乘以对应的预设权值,对第三频域信号中的高频做了一个抑制,相当于强调了低频部分。
图3示出频点与预设权重的关系曲线。其中,图3中的横坐标为频点,纵坐标为预设权重。若w(i)为第i个频点对应的预设权值,则w(i)随着i的增大而减小。其中,i=1,2,……,N。
假设图2中的频域信号的矢量形式为X,其中X的长度为N。假设图3中权重的矢量形式为W=[w(1),w(2),……,w(N)]T。参见图4,则得到加权之后的目标频域信号Xw=X*W。图4中的目标频域信号强调了语音信号中的低频部分。
在本发明的实施例中,通过对第三频域信号中的低频部分进行强调,可以进一步提高对基音周期检测的准确性。
在本发明的实施例中,S130包括:
S1301,将目标频域信号中的每个预设频点作为目标频点,对于每个目标频点,基于目标频域信号得到由目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值。
作为一个示例,可以将图4中的每个频点均作为预设频点,也可以将图4中的一部分频点作为预设频点。
假设图4中的128个频点中的每个频点均为预设频点,则将128个频点中的每个频点均作为目标频点。
对于每个目标频点,该目标频点的频率值所确定的周期为该频率值的倒数。对于每个目标频点,该目标频点所确定的周期对应的波峰幅度值和波谷幅度值可以通过以下步骤进行得到:获取目标频域信号中与目标频点的频率值所确定的周期相对应的至少一个准波峰频点和至少一个准波谷频点;基于目标频域信号确定每个准波峰频点的波峰幅度值以及每个准波谷频点的波谷幅度值;按照每个准波峰频点的波峰幅度值确定目标频点的频率值所确定的周期对应的波峰幅度值;按照每个准波谷频点的波谷幅度值确定目标频点的频率值所确定的周期对应的波谷幅度值。
其中,与目标频点的频率值所确定的周期相对应的准波峰频点是指在以目标频点的频率值所确定的周期下,目标频域信号中应该对应波峰位置处的频点。
与目标频点的频率值所确定的周期相对应的准谷峰频点是指在以目标频点的频率值所确定的周期下,目标频域信号中应该对应波谷位置处的频点。
作为一个示例,假设第i个频点为目标频点,则第k*i个频点均为与目标频点的频率值所确定的周期相对应的准波峰频点,则第(k+1/2)*i个频点均为与目标频点的频率值所确定的周期相对应的准波谷频点。其中,k为大于等于1的整数,且k*i小于等于N,(k+1/2)*i也小于等于N。
例如,假设第6个频点为目标频点,则与第6个频点的频率值所确定的周期相对应的至少一个准波峰频点包括图4中的第6个频点、第12个频点、第18个频点,……,第126个频点。则与第6个频点的频率值所确定的周期相对应的至少一个准波谷频点包括图4中的第9个频点、第15个频点,……,第123个频点。
在一些示例中,对于每个目标频点,与该目标频点的频率值所确定的周期相对应的准波峰频点的个数或准波谷频点的个数不做限制。
当获取目标频域信号中与目标频点的频率值所确定的周期相对应的至少一个准波峰频点和至少一个准波谷频点之后,基于目标频域信号可以获取确定每个准波峰频点分别在目标频域信号中对应的幅度值(即波峰幅度值)。基于目标频域信号,可以获取确定每个准波谷频点分别在目标频域信号中对应的幅度值(即波谷幅度值)。
作为一个示例,将每个准波峰频点的波峰幅度值求和取平均,并将得到的平均值作为目标频点的频率值所确定的周期对应的波峰幅度值。将每个准波谷频点的波谷幅度值求和取平均,并将得到的平均值作为目标频点的频率值所确定的周期对应的波谷幅度值。
值得一提的是,若第i个频点为基音周期对应的频点,则第k*i个频点对应着待检测语音信号的各次谐波峰值,则谐波处的峰值相加可以得到一个比较大的幅度值。同时,第(k+1/2)*i个频点处应该是一个波谷,将准波谷频点的波谷幅度值求和可以得到一个较小的幅度值。
S1302,基于所得到的波峰幅度值,确定频点与波峰幅度值之间的第一函数,并基于所得到的波谷幅度值,确定频点与波谷幅度值之间的第二函数。
在本发明的实施例中,基于所得到的所有波峰幅度值,并按照每个波峰幅度值与频点的对应关系,可以建立频点与波峰幅度值之间的第一函数,即得到以频点i为变量的第一函数gp(i)。
在本发明的实施例中,基于所得到的所有波谷幅度值,并按照每个波谷幅度值与频点的对应关系,可以建立频点与波谷幅度值之间的第二函数,即得到以频点i为变量的第二函数gv(i)。
S1303,将第一函数减去第二函数得到目标函数。
在一些实施例中,目标函数g(i)=gp(i)-gv(i),目标函数也是以频点i为变量的函数。对于目标函数中的每个频点,该频点对应的幅度值即为以该频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值之间的差值。
S1304,将获取的目标函数中的至少一个幅度极大值按照从大到小进行排序,并基于前M个幅度极大值分别对应的目标频点的频率值,计算M个基音周期候选值。
在本发明的实施例中,首先获取目标函数中的所有幅度极大值,并将所有的幅度极大值按照从大到小排序,以得到前M个幅度极大值。例如M可以取3或5。
在本发明的实施例中,对于前M个幅度极大值中的每个幅度极大值,将该幅度极大值对应的目标频点的频率值作为一个候选基音频率。其中,第i个频点的频率值等于fp*i。其中,fp为目标频域信号的频域分辨率。其中,候选基音频率的倒数即为候选基音周期。也就是说,可以得到M个候选基音周期。
在本发明实施例中,不仅对每个准波峰频点的波峰幅度值求和取平均,也对每个准波谷频点的波谷幅度值求和取平均,通过利用准周期信号的波峰信息和波谷信息,可以增强求取基音周期的抗噪声能力,进一步提高基音检测的准确性。
由于M个基音频率候选值中可能包括基音频率的二倍频、高倍频或1/2倍频等频率。因此为了提高基音检测的准确性,步骤S140包括:对于M个余弦信号中的每个余弦信号,计算余弦信号与目标函数的相关值,将与目标函数具有最大相关值的余弦信号的周期作为语音信号的基音周期。
在一些实施例中,对于生成的每个余弦信号的幅度不做限制,因为余弦信号的幅度并不会影响基音周期的确定。
在一些实施例中,可以利用互相关函数计算目标函数与每个余弦信号之间的相关值,以得出目标函数与每个余弦信号互相匹配的程度。
在本发明的实施例中,在低信噪比情况下进行基音检测具有较高的鲁棒性,性能良好。
本发明实施例提供的基音检测方法可以和语音增强结合在一起使用,复杂度不高,易于实现。并且还能满足实时性要求。
在本发明的实施例中,通过上述提供的基音检测方法可以对获取的每帧待检测语音检测信号进行基音检测。
图5示出本发明实施例提供的基音检测装置的结构示意图。如图5所示,本发明实施例提供的基音检测装置包括:
语音信号获取模块510,用于获取时域上的待检测语音信号。
目标频域信号确定模块520,用于确定待检测语音信号对应的目标频域信号。
基音周期候选值确定模块530,用于基于目标频域信号确定M个基音周期侯选值。
基音周期确定模块540,用于基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。
在本发明的实施例中,目标频域信号确定模块520包括:
初始频域信号确定单元,用于将待检测语音信号转换到频域,得到初始频域信号。
第一频域信号确定单元,用于对初始频域信号进行平滑滤波,得到第一频域信号。
第二频域信号确定单元,用于将初始频域信号减去第一频域信号得到第二频域信号。
第一目标信号确定单元,基于第二频域信号确定目标频域信号。
在本发明的实施例中,第一目标信号确定单元包括:
第三频域信号确定子单元,对第二频域信号进行插值处理,得到第三频域信号。
第一目标信号确定子单元,用于基于第三频域信号确定目标频域信号。
在本发明的实施例中,第一目标信号确定子单元用于:
将第三频域信号中预先选定的N个频点中每个频点对应的幅度值分别乘以对应的预设权值,得到目标频域信号,N为大于等于1的整数。
其中,对于预先选定的N个频点中任意的两个频点,若两个频点中的一个频点的频率值大于两个频点中另一个频点的频率值,则两个频点中的一个频点对应的预设权值小于两个频点中另一个频点对应的预设权值。
在本发明的实施例中,基音周期候选值确定模块530包括:
幅度值确定单元,用于将目标频域信号中的每个预设频点作为目标频点,对于每个目标频点,基于目标频域信号得到由目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值。
函数处理单元,用于基于所得到的波峰幅度值,确定频点与波峰幅度值之间的第一函数,并基于所得到的波谷幅度值,确定频点与波谷幅度值之间的第二函数。
目标函数确定单元,用于将第一函数减去第二函数得到目标函数。
基音侯选值计算单元,用于将获取的目标函数中的至少一个幅度极大值按照从大到小进行排序,并基于前M个幅度极大值分别对应的目标频点的频率值,计算M个基音周期候选值。
在本发明的实施例中,幅度值确定单元用于对于每个目标频点,执行以下步骤:
获取目标频域信号中与目标频点的频率值所确定的周期相对应的至少一个准波峰频点和至少一个准波谷频点;
基于目标频域信号,确定每个准波峰频点的波峰幅度值,以及每个准波谷频点的波谷幅度值;
按照每个准波峰频点的波峰幅度值,确定目标频点的频率值所确定的周期对应的波峰幅度值;
按照每个准波谷频点的波谷幅度值,确定目标频点的频率值所确定的周期对应的波谷幅度值。
在本发明的实施例中,基音周期确定模块540用于:
对于M个余弦信号中的每个余弦信号,计算余弦信号与目标函数的相关值;
将与目标函数具有最大相关值的余弦信号的周期作为语音信号的基音周期。
在本发明实施例中,采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用分别以M个基音周期侯选值为周期的M个余弦信号,从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。
本发明实施例提供的基音检测装置能够实现图1至图4的方法实施例中的各个过程,为避免重复,这里不再赘述。
图6为实现本发明各个实施例的一种终端设备的硬件结构示意图,
该终端设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解,图6中示出的终端设备结构并不构成对终端设备的限定,终端设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器610,用于获取时域上的待检测语音信号;确定待检测语音信号对应的目标频域信号;基于目标频域信号确定M个基音周期侯选值;基于M个余弦信号从M个基音周期候选值中确定所述待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。
本发明的实施例通过采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用分别以M个基音周期侯选值为周期的M个余弦信号,从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。。
应理解的是,本发明实施例中,射频单元601可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器610处理;另外,将上行的数据发送给基站。通常,射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元601还可以通过无线通信系统与网络和其他设备通信。
终端设备通过网络模块602为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元603还可以提供与终端设备600执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。
输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。
终端设备600还包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度,接近传感器可在终端设备600移动到耳边时,关闭显示面板6061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。
用户输入单元607可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器610,接收处理器610发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071,用户输入单元607还可以包括其他输入设备6072。具体地,其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板6071可覆盖在显示面板6061上,当触控面板6071检测到在其上或附近的触摸操作后,传送给处理器610以确定触摸事件的类型,随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中,触控面板6071与显示面板6061是作为两个独立的部件来实现终端设备的输入和输出功能,但是在某些实施例中,可以将触控面板6071与显示面板6061集成而实现终端设备的输入和输出功能,具体此处不做限定。
接口单元608为外部装置与终端设备600连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到终端设备600内的一个或多个元件或者可以用于在终端设备600和外部装置之间传输数据。
存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器610是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器609内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。处理器610可包括一个或多个处理单元;优选的,处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
终端设备600还可以包括给各个部件供电的电源611(比如电池),优选的,电源611可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,终端设备600包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种终端设备,还包括处理器610,存储器609,存储在存储器609上并可在处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述基音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现基音检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (9)
1.一种基音检测方法,其特征在于,所述方法包括:
获取时域上的待检测语音信号;
确定所述待检测语音信号对应的目标频域信号;
基于所述目标频域信号确定M个基音周期侯选值;
基于M个余弦信号从所述M个基音周期候选值中确定所述待检测语音信号的基音周期;所述M个余弦信号是利用所述M个基音周期侯选值生成的,所述M个余弦信号的周期分别为所述M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数;
其中,基于所述目标频域信号确定M个基音周期侯选值,包括:
将所述目标频域信号中的每个预设频点作为目标频点,对于每个目标频点,基于所述目标频域信号得到由所述目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值;
基于所得到的波峰幅度值,确定频点与波峰幅度值之间的第一函数,并基于所得到的波谷幅度值,确定频点与波谷幅度值之间的第二函数;
将所述第一函数减去所述第二函数得到目标函数;
将获取的所述目标函数中的至少一个幅度极大值按照从大到小进行排序,并基于前M个幅度极大值分别对应的目标频点的频率值,计算所述M个基音周期候选值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测语音信号对应的目标频域信号,包括:
将所述待检测语音信号转换到频域,得到初始频域信号;
对所述初始频域信号进行平滑滤波,得到第一频域信号;
将所述初始频域信号减去所述第一频域信号得到第二频域信号;
基于所述第二频域信号确定所述目标频域信号。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二频域信号确定所述目标频域信号,包括:
对所述第二频域信号进行插值处理,得到第三频域信号;
基于所述第三频域信号确定所述目标频域信号。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第三频域信号确定所述目标频域信号,包括:
将所述第三频域信号中预先选定的N个频点中每个频点对应的幅度值分别乘以对应的预设权值,得到所述目标频域信号,N为大于等于1的整数;
其中,对于所述预先选定的N个频点中任意的两个频点,若所述两个频点中的一个频点的频率值大于所述两个频点中另一个频点的频率值,则所述两个频点中的一个频点对应的预设权值小于所述两个频点中另一个频点对应的预设权值。
5.根据权利要求1所述的方法,其特征在于,所述对于每个目标频点,基于所述目标频域信号得到由所述目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值,包括:
对于所述每个目标频点,执行以下步骤:
获取所述目标频域信号中与所述目标频点的频率值所确定的周期相对应的至少一个准波峰频点和至少一个准波谷频点;
基于所述目标频域信号,确定每个准波峰频点的波峰幅度值,以及每个准波谷频点的波谷幅度值;
按照每个准波峰频点的波峰幅度值,确定所述目标频点的频率值所确定的周期对应的波峰幅度值;
按照每个准波谷频点的波谷幅度值,确定所述目标频点的频率值所确定的周期对应的波谷幅度值。
6.根据权利要求1所述的方法,其特征在于,所述基于M个余弦信号从所述M个基音周期候选值中确定所述待检测语音信号的基音周期,包括:
对于所述M个余弦信号中的每个余弦信号,计算所述余弦信号与所述目标函数的相关值;
将与所述目标函数具有最大相关值的余弦信号的周期作为所述语音信号的基音周期。
7.一种基音检测装置,其特征在于,所述装置包括:
语音信号获取模块,用于获取时域上的待检测语音信号;
目标频域信号确定模块,用于确定所述待检测语音信号对应的目标频域信号;
基音周期候选值确定模块,用于基于所述目标频域信号确定M个基音周期侯选值;
基音周期确定模块,用于基于M个余弦信号从所述M个基音周期候选值中确定所述待检测语音信号的基音周期;所述M个余弦信号是利用所述M个基音周期侯选值生成的,所述M个余弦信号的周期分别为所述M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数;
其中,所述基音周期候选值确定模块包括:
幅度值确定单元,用于将目标频域信号中的每个预设频点作为目标频点,对于每个目标频点,基于目标频域信号得到由目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值;
函数处理单元,用于基于所得到的波峰幅度值,确定频点与波峰幅度值之间的第一函数,并基于所得到的波谷幅度值,确定频点与波谷幅度值之间的第二函数;
目标函数确定单元,用于将第一函数减去第二函数得到目标函数;
基音侯选值计算单元,用于将获取的目标函数中的至少一个幅度极大值按照从大到小进行排序,并基于前M个幅度极大值分别对应的目标频点的频率值,计算M个基音周期候选值。
8.一种终端设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的基音检测方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的基音检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910906963.0A CN110728990B (zh) | 2019-09-24 | 2019-09-24 | 基音检测方法、装置、终端设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910906963.0A CN110728990B (zh) | 2019-09-24 | 2019-09-24 | 基音检测方法、装置、终端设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728990A CN110728990A (zh) | 2020-01-24 |
CN110728990B true CN110728990B (zh) | 2022-04-05 |
Family
ID=69219385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910906963.0A Active CN110728990B (zh) | 2019-09-24 | 2019-09-24 | 基音检测方法、装置、终端设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728990B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400569B (zh) * | 2018-04-24 | 2022-01-11 | 广州安凯微电子股份有限公司 | 蓝牙音频修复方法及终端设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101383148B (zh) * | 2007-09-07 | 2012-04-18 | 华为终端有限公司 | 一种获取基音周期的方法和装置 |
CN102842305B (zh) * | 2011-06-22 | 2014-06-25 | 华为技术有限公司 | 一种基音检测的方法和装置 |
CN104321814B (zh) * | 2012-05-23 | 2018-10-09 | 日本电信电话株式会社 | 频域基音周期分析方法和频域基音周期分析装置 |
CN109119097B (zh) * | 2018-10-30 | 2021-06-08 | Oppo广东移动通信有限公司 | 基音检测方法、装置、存储介质及移动终端 |
CN110162660A (zh) * | 2019-05-28 | 2019-08-23 | 维沃移动通信有限公司 | 音频处理方法、装置、移动终端及存储介质 |
-
2019
- 2019-09-24 CN CN201910906963.0A patent/CN110728990B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110728990A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108459797B (zh) | 一种折叠屏的控制方法及移动终端 | |
CN107742523B (zh) | 语音信号处理方法、装置以及移动终端 | |
CN109078319B (zh) | 一种游戏界面显示方法和终端 | |
CN111343540B (zh) | 一种钢琴音频的处理方法及电子设备 | |
CN111324235A (zh) | 一种屏幕刷新频率调整方法及电子设备 | |
CN111477243B (zh) | 音频信号处理方法及电子设备 | |
CN109951602B (zh) | 一种振动控制方法及移动终端 | |
CN110012143B (zh) | 一种受话器控制方法及终端 | |
CN111083297A (zh) | 一种回声消除方法及电子设备 | |
CN109616135B (zh) | 音频处理方法、装置及存储介质 | |
CN109215683B (zh) | 一种提示方法及终端 | |
CN109788402B (zh) | 一种音频信号处理方法及音频信号处理装置 | |
CN108196815B (zh) | 一种通话声音的调节方法和移动终端 | |
CN110225195B (zh) | 一种语音通话方法及终端 | |
CN108196776A (zh) | 一种终端分屏方法、终端及计算机可读存储介质 | |
CN108196775A (zh) | 截图控制方法、柔性屏终端以及计算机可读存储介质 | |
CN111524498A (zh) | 滤波方法、装置及电子设备 | |
CN107749306B (zh) | 一种振动优化的方法及移动终端 | |
CN110602424A (zh) | 视频处理方法及电子设备 | |
CN111182118B (zh) | 一种音量调节方法及电子设备 | |
CN108512615B (zh) | 一种信号强度显示方法及移动终端 | |
CN110769186A (zh) | 一种视频通话方法、第一电子设备及第二电子设备 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN110995921A (zh) | 通话处理方法、电子设备及计算机可读存储介质 | |
CN109451146B (zh) | 一种振动处理方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |