CN114822577A - 语音信号基频估计方法和装置 - Google Patents

语音信号基频估计方法和装置 Download PDF

Info

Publication number
CN114822577A
CN114822577A CN202210717242.7A CN202210717242A CN114822577A CN 114822577 A CN114822577 A CN 114822577A CN 202210717242 A CN202210717242 A CN 202210717242A CN 114822577 A CN114822577 A CN 114822577A
Authority
CN
China
Prior art keywords
spectrum
short
time
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210717242.7A
Other languages
English (en)
Other versions
CN114822577B (zh
Inventor
梁民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Net Cloud Service Co Ltd
Original Assignee
G Net Cloud Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Net Cloud Service Co Ltd filed Critical G Net Cloud Service Co Ltd
Priority to CN202210717242.7A priority Critical patent/CN114822577B/zh
Publication of CN114822577A publication Critical patent/CN114822577A/zh
Application granted granted Critical
Publication of CN114822577B publication Critical patent/CN114822577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种语音信号基频估计方法和装置。所述方法包括:对含噪语音信号进行降噪处理,得到语音短时频谱;根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱;根据所述声源激励短时幅度谱,提取基频参数。本发明通过对含噪语音信号进行降噪处理,实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制,增强基频估计的鲁棒性;基于声源激励短时幅度谱提取基频参数,提高基频估计的准确度和抗噪能力。

Description

语音信号基频估计方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种语音信号基频估计方法和装置。
背景技术
语音信号的基频(Fundamental frequency,通常记为F0)估计又名基音(Pitch)估计或检测,在诸如语音增强、语音声码器、语音合成和语音识别等领域获得广泛而深入的应用。针对语音信号的基频估计(或称基音检测),目前已涌现出大量的技术方法,这些众多的技术方法通常可划分为时域、频域和时-频混合域的三种处理技术。
然而,目前基于时域处理技术的语音信号基音检测方法主要是利用语音信号的时域周期性,具有代表性并获得广泛使用的这类基音检测器是基于时域的相关函数和/或差分函数,这些时域语音信号基音检测技术虽然对纯净语音信号和不相关白噪声环境下的含噪语音信号的基频或基音周期提取,取得了良好的预期结果;但在相干和非平稳噪声条件下,其性能却急剧下降。
基于频域处理技术的语音信号基音检测方法中,考虑到有声语音(Voicedspeech, 即浊音)的周期性反映为其幅度谱中的谐波结构这一特性,致使这些频域基音检测技术方法的性能受限于被处理语音信号须有较好的谐波结构,如果谐波结构不明显,例如钟形的非谐波频谱或正弦曲线的单部分频谱,该类方法将提供错误的结果,并且它们对环境噪声均缺乏较好的鲁棒性。
而基于时-频混合域处理技术的语音信号基音检测方法通常将输入信号分解为多个频率子带,并对每个子带信号应用时域处理技术,然而,目前基于时-频混合域语音信号基音检测技术在大部分低频谐波因传输信道特性而被衰减或者被强低频噪声干扰所掩盖时,其性能将急剧恶化。
因此,尽管目前已涌现出大量的基频估计技术方法,但这些技术方法对含噪语音信号,特别是低信噪比条件下的含噪语音信号,其估计性能有待提高。
发明内容
为了解决上述问题,本发明提供了一种语音信号基频估计方法和装置,能够在低信噪比条件下对平稳和非平稳以及相干和非相干环境噪声具有良好的鲁棒性,提高基频估计的准确度和抗噪能力。
本发明的第一方面涉及一种语音信号基频估计方法,包括:
对含噪语音信号进行降噪处理,得到语音短时频谱;
根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱;
根据所述声源激励短时幅度谱,提取基频参数。
可选地,所述对含噪语音信号进行降噪处理之前,还包括:
对所述含噪语音信号进行预加重处理。
可选地,所述对含噪语音信号进行降噪处理,包括:
根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;
利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
可选地,所述对含噪语音信号进行降噪处理之后,所述方法还包括:
对所述增强的语音信号的短时频谱进行时频域平滑处理;
相应地,将经过时频域平滑处理的所述增强的语音信号的短时频谱,作为所述语音短时频谱。
可选地,所述语音短时频谱的谱包络根据如下方式提取:
根据所述语音短时频谱,计算其频谱自相关函数;
获取所述频谱自相关函数的局部峰值频点集;
通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
可选地,所述根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱,包括:
根据所述语音短时频谱,提取语音短时幅度谱;
将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
可选地,所述根据所述声源激励短时幅度谱,提取基频参数,包括:
根据所述声源激励短时幅度谱,构造基音周期代价函数;
根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;
对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
可选地,所述语音信号基频估计方法还包括:
对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹。
本发明的第二方面涉及一种语音信号基频估计装置,包括:
含噪语音信号预处理模块,用于对含噪语音信号进行降噪处理,得到语音短时频谱;
声源激励短时幅度谱提取模块,用于根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱;
基频参数提取模块,用于根据所述声源激励短时幅度谱,提取基频参数。
可选地,所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之前,对所述含噪语音信号进行预加重处理。
可选地,所述含噪语音信号预处理模块具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
可选地,所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之后,对所述增强的语音信号的短时频谱进行时频域平滑处理;将经过时频域平滑处理的所述增强的语音信号的短时频谱,作为所述语音短时频谱。
可选地,所述声源激励短时幅度谱提取模块具体用于根据如下方式提取所述语音短时频谱的谱包络:根据所述语音短时频谱,计算其频谱自相关函数;获取所述频谱自相关函数的局部峰值频点集;通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
可选地,所述声源激励短时幅度谱提取模块具体用于根据所述语音短时频谱,提取语音短时幅度谱;将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
可选地,所述基频参数提取模块具体用于根据所述声源激励短时幅度谱,构造基音周期代价函数;根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
可选地,所述语音信号基频估计装置还包括:用于对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹的基频轨迹跟踪模块。
本发明的第三方面涉及一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的语音信号基频估计方法。
本发明的第四方面涉及一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如第一方面所述的语音信号基频估计方法。
本发明通过对含噪语音信号进行降噪处理,实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制,增强基频估计的鲁棒性;基于声源激励短时幅度谱提取基频参数,提高基频估计的准确度和抗噪能力。
附图说明
图1为根据本发明一实施例的语音信号基频估计方法的流程示意图;
图2为根据本发明一实施例的含噪语音信号预处理方法的流程示意图;
图3为根据本发明一实施例的谱包络提取方法的流程示意图;
图4为根据本发明一实施例的基于声源激励短时幅度谱估计基频的方法的流程示意图;
图5为根据本发明一实施例的语音信号基频估计装置的结构示意图;
图6为根据本发明又一实施例的语音信号基频估计装置的结构示意图;
图7为能够实施本发明实施例的示例性电子设备的方框示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
语音信号的产生模型指出,语音信号是由一声源激励信号经过声道传输滤波器和口-唇辐射处理后而产生的,其中声源激励信号在有声语音(即浊音)时为一(基音)周期脉冲串信号,而在无声语音(即清音)时为一随机白噪声信号。根据这一模型,如图1所示,本发明一实施例提供了一种语音信号基频估计方法,包括:S101、对含噪语音信号进行降噪处理,得到语音短时频谱;S102、根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱; S103、根据所述声源激励短时幅度谱,提取基频参数。
本发明的一些实施例中,针对含噪语音信号的降噪处理,可以根据所述含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;利用所述噪声抑制增益函数,对所述含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱,并作为所述语音短时频谱。具体地,可以根据含噪语音信号的谱信号,得到所述含噪语音信号的奇序列谱信号和偶序列谱信号;根据所述奇序列谱信号和偶序列谱信号,估计所述含噪语音信号的奇偶序列互功率谱;估计所述含噪语音信号中噪声信号的奇偶序列互功率谱幅度;根据所述含噪语音信号的奇偶序列互功率谱的幅度和所述噪声信号的奇偶序列互功率谱幅度,计算含噪语音信号中语音信号的奇偶序列互功率谱幅度;根据所述语音信号的奇偶序列互功率谱幅度、所述含噪语音信号的奇序列自功率谱,以及所述含噪语音信号的偶序列自功率谱,估计噪声抑制增益函数。这样,通过含噪语音信号的奇偶序列谱信号来设计一个降噪滤波器的噪声抑制增益函数,用之对含噪语音信号的谱信号进行滤波处理,可以自适应抑制运行环境的平稳与非平稳以及相干与非相干噪声。
考虑语音短时频谱的谱包络近似等价于声道传输滤波器幅度谱。本发明的一些实施例中,可以提取语音短时频谱的谱包络;之后,根据所述语音短时频谱,提取语音短时幅度谱,并将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
本发明实施例提供的语音信号基频估计方案中,通过对含噪语音信号进行降噪处理,实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制,增强基频估计的鲁棒性;通过降噪处理后得到的语音短时频谱来提取声源激励短时幅度谱,并根据声源激励短时幅度谱提取基频参数,可极大地降低声道传输特性(特别是共振峰频率)对基频估计的影响,估计准确度高且计算复杂度较低,便于在商用DSP(Digital Signal Processing,数字信号处理)芯片上实时实现。
本发明的一些实施例中,对含噪语音信号进行降噪处理之前,可以对所述含噪语音信号进行预加重处理。相应地,后续对预加重处理后的含噪语音信号进行降噪处理。这样,通过对含噪语音信号进行预加重处理,可以有效补偿语音信号生成时的口-唇辐射的能量衰减效应,从而提高基频估计的准确度。
本发明的一些实施例中,可以根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
本发明的一些实施例中,对含噪语音信号进行降噪处理之后,可以对语音信号的短时频谱进行时频域平滑处理。相应地,将经过时频域平滑处理的语音信号的短时频谱,作为语音短时频谱。这样,可以进一步降低语音短时频谱中残留环境噪声谱分量对后续基频估计的影响,提高基频估计的准确度。
本发明的一些实施例中,根据所述声源激励短时幅度谱,提取基频参数之后,对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹。实际应用中,可以应用递归就地增长型移动平均-中值混合滤波非线性后处理技术,对每帧估计的基频参数进行实时跟踪后处理,从而进一步获得更为可靠而精确的基频参数轨迹。
参考图2,其示出了根据本发明一实施例的含噪语音信号预处理方法的流程示意图。如图2所示,本发明一实施例提供了一种含噪语音信号预处理方法,包括:
S201、对所述含噪语音信号进行预加重处理。
可以理解的是,含噪语音信号x(n)在数学上可表示为:
Figure 625699DEST_PATH_IMAGE001
(1)
其中,
Figure 762151DEST_PATH_IMAGE002
为纯净的语音信号,
Figure 320171DEST_PATH_IMAGE003
为环境噪声信号,并假设它们之间统计不相关;n为时域样本索引,n=0,1,2,……。
对(1)式应用预加重处理,获得预加重处理后的含噪语音信号y(n):
Figure 442848DEST_PATH_IMAGE004
(2)
其中,
Figure 402714DEST_PATH_IMAGE005
Figure 195221DEST_PATH_IMAGE006
分别为预加重处理后的纯净语音信号和环境噪声信号,
Figure 240537DEST_PATH_IMAGE007
为预置的预加重系数;显然s(n)和v(n)统计不相关。
可以理解的是,对含噪语音信号x(n)进行预加重处理产生输出信号y(n),其目的是补偿语音信号生成时的口-唇辐射的能量衰减效应。
S202、对预加重处理后的含噪语音信号进行降噪处理,得到增强的语音信号的短时频谱。
本发明的一些实施例中,可以根据预加重处理后的含噪语音信号的谱信号,得到所述预加重处理后的含噪语音信号的奇序列谱信号和偶序列谱信号;根据所述奇序列谱信号和偶序列谱信号,估计所述预加重处理后的含噪语音信号的奇偶序列互功率谱;估计所述预加重处理后的含噪语音信号中噪声信号的奇偶序列互功率谱幅度;根据所述预加重处理后的含噪语音信号的奇偶序列互功率谱的幅度和所述噪声信号的奇偶序列互功率谱幅度,计算预加重处理后的含噪语音信号中语音信号的奇偶序列互功率谱幅度;根据所述语音信号的奇偶序列互功率谱幅度、所述预加重处理后的含噪语音信号的奇序列自功率谱,以及所述预加重处理后的含噪语音信号的偶序列自功率谱,估计噪声抑制增益函数。利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
具体地,本发明的一些实施例中,可以将预加重处理后的含噪语音信号y(n)进行分帧和加窗、并进行短时傅里叶变换处理,从而获得如下的短时频谱Y(k,t):
Figure 901325DEST_PATH_IMAGE008
(3)
其中,S(k,t)和V(k,t)分别为预加重处理后的纯净语音信号s(n)和预加重处理后的环境噪声信号v(n)的短时频谱,k为频点索引,k=0,1,2,……;t为信号帧索引,k=0,1,2,……;N(取偶数)为窗口函数的长度,窗口函数可选为Hamming(海明)窗或Hanning(汉宁)窗;设定窗口内的重叠样本占比为50%,那么信号帧长度L取为N/2。
继而,可以对短时频谱Y(k,t)进行降噪处理,从而获得增强的语音信号的短时频谱
Figure 715698DEST_PATH_IMAGE009
,即:
Figure 69319DEST_PATH_IMAGE010
(4)
其中,
Figure 726565DEST_PATH_IMAGE011
为根据预加重处理后的含噪语音信号的奇偶序列谱信号得到的噪声抑制增益函数。
本发明的一些实施例中,在采样率保持不变的条件下,可将预加重处理后的含噪语音信号的谱信号Y(k, t)直接分解成其奇序列和偶序列时域信号对应的两个短时频域的谱信号。具体地,可以根据如下公式(5)、公式(6),将预加重处理后的含噪语音信号的谱信号
Figure 925465DEST_PATH_IMAGE012
进行分解,得到所述预加重处理后的含噪语音信号的奇序列谱信号
Figure 859923DEST_PATH_IMAGE013
和偶序列谱信号
Figure 384445DEST_PATH_IMAGE015
Figure 14141DEST_PATH_IMAGE016
(5)
Figure 282311DEST_PATH_IMAGE017
(6)
其中,
Figure 71276DEST_PATH_IMAGE018
,k = 0, 1, 2, …, 2L-1为短时频谱的频点索引,t为时域信号帧索引,短时频域变换中使用的窗函数的窗长为2L, 信号帧长为L。这样,可以降低在时域分解并对其分解的时域子信号分别进行频域变换的方法复杂度。
本发明的一些实施例中,可以根据如下公式(7)估计所述预加重处理后的含噪语音信号的奇偶序列互功率谱
Figure 501120DEST_PATH_IMAGE019
Figure 132958DEST_PATH_IMAGE020
(7)
其中,
Figure 939240DEST_PATH_IMAGE013
为所述预加重处理后的含噪语音信号的奇序列谱信号,
Figure 582711DEST_PATH_IMAGE015
为所述预加重处理后的含噪语音信号的偶序列谱信号,
Figure 449036DEST_PATH_IMAGE021
为根据如下公式(8)计算得到的平滑参数:
Figure 53324DEST_PATH_IMAGE022
(8)
其中,
Figure 663297DEST_PATH_IMAGE023
为t-1帧时刻的噪声抑制增益函数。
本发明的一些实施例中,可将中值滤波器窗口划分为q个子窗口
Figure 426854DEST_PATH_IMAGE024
,每个子窗口
Figure 198501DEST_PATH_IMAGE024
的窗口长度为
Figure 804931DEST_PATH_IMAGE025
,且
Figure 687437DEST_PATH_IMAGE026
Figure 305500DEST_PATH_IMAGE027
为中值滤波器窗口长度;继而,根据如下公式(9)计算每个子窗口
Figure 248048DEST_PATH_IMAGE024
中的预加重处理后的含噪语音信号的奇偶序列互功率谱幅度的算数平均值
Figure 951562DEST_PATH_IMAGE028
Figure 778703DEST_PATH_IMAGE029
(9)
进而,根据如下公式(10),对预加重处理后的含噪语音信号中的噪声信号的奇偶序列互功率谱幅度进行估计:
Figure 251273DEST_PATH_IMAGE030
(10)
其中,Med{·}为中值滤波的运算符。实际应用中,可以划分为3个子窗口,采用3阶中值滤波器的方式来估计噪声信号的奇偶序列互功率谱幅度。
本发明的一些实施例中,可以应用决策引导技术预先进行先验信噪比估计,并由此构造一个维纳滤波器来从预加重处理后的含噪语音信号的奇偶序列互功率谱中提取语音信号的奇偶序列互功率谱。具体地,可以根据如下公式(11),先估计后验信噪比
Figure 630302DEST_PATH_IMAGE031
Figure 821112DEST_PATH_IMAGE033
(11)
继而,根据如下公式(12)、(13),估计先验信噪比
Figure 435633DEST_PATH_IMAGE034
Figure 28288DEST_PATH_IMAGE035
(12)
Figure 578218DEST_PATH_IMAGE037
(13)
这样,可以基于估计的先验信噪比,根据如下公式(14),进行维纳滤波器函数
Figure 990745DEST_PATH_IMAGE038
估计:
Figure 159689DEST_PATH_IMAGE039
(14)
继而,根据如下公式(15),计算语音信号的奇偶序列互功率谱幅度:
Figure 606851DEST_PATH_IMAGE040
(15)
其中,
Figure 62103DEST_PATH_IMAGE013
为所述预加重处理后的含噪语音信号的奇序列谱信号、
Figure 227505DEST_PATH_IMAGE015
为偶序列谱信号;
Figure 59195DEST_PATH_IMAGE041
为所述噪声信号的奇偶序列互功率谱幅度;
Figure 485497DEST_PATH_IMAGE042
根据如下公式
Figure 377230DEST_PATH_IMAGE022
计算得到;
Figure 764349DEST_PATH_IMAGE043
为t-1帧时刻的噪声抑制增益函数,
Figure 399729DEST_PATH_IMAGE044
为t-1帧时刻的维纳滤波器函数。通过本发明实施例提供的上述方式来估计先验信噪比,可以克服决策引导技术中存在的估计滞后一帧的缺陷。
本发明的一些实施例中,可以根据如下公式(16)、(17)来估计预加重处理后的含噪语音信号的奇序列信号的自功率谱以及预加重处理后的含噪语音信号的偶序列自功率谱:
Figure 696850DEST_PATH_IMAGE045
(16)
Figure 759484DEST_PATH_IMAGE046
(17)
其中,平滑参数
Figure 633899DEST_PATH_IMAGE047
根据公式
Figure 541812DEST_PATH_IMAGE022
计算得到。
由公式(15)、(16)和(17)可以获得如下的噪声抑制增益函数
Figure 818072DEST_PATH_IMAGE049
(18)
这样,后续可以利用噪声抑制增益函数
Figure 187960DEST_PATH_IMAGE050
,对所述预加重处理后的含噪语音信号的谱信号进行降噪滤波,自适应抑制运行环境的平稳与非平稳以及相干与非相干噪声,得到增强的语音信号的短时频谱。
S203、对所述增强的语音信号的短时频谱进行时频域平滑处理,得到所述语音短时频谱。
考虑到语音短时频谱
Figure 549671DEST_PATH_IMAGE009
虽然是S(k,t)的一个有效估计,但其仍含有一定程度的残留噪声谱分量,它对后续短时频谱包络、乃至相应的激励源短时频谱幅度的提取,仍有一定程度的影响。
为进一步降低这一残留噪声分量对后续处理的影响,本发明的一些实施例中,可根据如下公式(19)对
Figure 526855DEST_PATH_IMAGE009
作时-频平滑处理:
Figure 923201DEST_PATH_IMAGE051
(19)
其中,
Figure 203004DEST_PATH_IMAGE052
Figure 786432DEST_PATH_IMAGE053
为预置的(信号帧)平滑时常数,
Figure 301727DEST_PATH_IMAGE054
为系数归一化的频域平滑窗,其长度为2Q+1,即
Figure 552580DEST_PATH_IMAGE055
,其中,Q为预设的一个正整数,比如,Q=1时,平滑窗的长度为3;Q=2时,平滑窗的长度为5。
通过本发明实施例提供的含噪语音信号预处理方案,可使得基频参数的估计性能对工作环境中的平稳与非平稳以及相干与非相干噪声(特别是“鸡尾酒会效应”和散射噪声)具有良好的鲁棒性。
考虑对语音短时频谱
Figure 127917DEST_PATH_IMAGE056
,提取其谱包络
Figure 323275DEST_PATH_IMAGE057
,由于它近似等价于声道传输滤波器幅度谱,进而可提取相应的声源激励短时幅度谱
Figure 642261DEST_PATH_IMAGE058
本发明的一些实施例中,可以通过语音短时频谱的功率谱傅里叶逆变化而获取对应的时域短时信号自相关函数,应用Levinson-Durbin(莱文森—德宾)算法来求取时域短时信号的p个线性预测系数,由此建立一个具有p阶极点的全极点滤波器传递函数,用其频响幅度来作为相应的短时频谱的谱包络估计。
可选地,本发明的一些实施例中,可以通过对语音短时频谱的幅度对数进行低通滤波,用低通滤波后的平滑短时频谱幅度作为其谱包络估计,或者可以通过频谱幅度对数进行迭代平滑来获得的。
为提高谱包络提取的准确性以及便于在现有的商用DSP芯片上实时实现,优选地,本发明的一些实施例中,可以基于短时频谱自相关函数局部最大值频点所对应的短时幅度谱,作为其谱包络的局部峰值,对其它频点的谱包络值可由这些谱包络的局部峰值在对数尺度(即dB尺度)下进行线性插值来获取。
可以理解的是,根据语音产生模型,在补偿口-唇辐射能量衰减效应的预加重处理后, 纯净的语音信号s(n)可表达为:
Figure 747621DEST_PATH_IMAGE059
(20)
其中,运算符 * 为线性卷积,h(n)为声道传输滤波器的冲击响应,e(n)为声源激励信号,该声源激励信号在有声语音(即浊音)时为一(基音)周期脉冲串,而在无声语音(即清音)时为一随机白噪声。根据Oppenheim等人的研究成果可知,对信号s(n)进行分帧和加窗处理后获得的短时信号
Figure 493860DEST_PATH_IMAGE060
可表示为:
Figure 192825DEST_PATH_IMAGE061
Figure 49923DEST_PATH_IMAGE062
(21)
其中,
Figure 9789DEST_PATH_IMAGE063
为声源激励短时信号,w(n-t)为位于信号帧索引t处、长度为N的窗函数。
对(20)式两边进行短时傅里叶变化处理可得:
Figure 926929DEST_PATH_IMAGE064
(22)
其中,
Figure 972246DEST_PATH_IMAGE065
Figure 757668DEST_PATH_IMAGE066
Figure 837619DEST_PATH_IMAGE067
Figure 925661DEST_PATH_IMAGE068
为语音信号s(n)的短时频谱(简称语音短时频谱),
Figure 192694DEST_PATH_IMAGE069
为声源激励信号e(n)的短时频谱,
Figure 657174DEST_PATH_IMAGE070
为声道传递滤波器的频响,其频响幅度对应于
Figure 466998DEST_PATH_IMAGE068
的谱包络,它通常随频点k的变化较慢。
对有声语音(即浊音)的声源激励信号e(n)而言,考虑到,其短时频谱E(k,t)是k的周期为N/
Figure 991520DEST_PATH_IMAGE071
的函数。这里不失一般性,假设N/
Figure 745849DEST_PATH_IMAGE071
为正整数,以下均同,不做另外说明。并且在k = (N/
Figure 14020DEST_PATH_IMAGE071
)m点处取局部最大值,这里
Figure 927618DEST_PATH_IMAGE071
为基音周期对应的时域样本点个数,m = 0,1,2,…,
Figure 357462DEST_PATH_IMAGE071
;并且,鉴于H(k)通常随k变化较慢,可以将它在长度为N/
Figure 864667DEST_PATH_IMAGE071
的区间里近似为某一常数,那么由(22)式可知,对于任一给定帧t的有声语音(即浊音)短时语音信号
Figure 670949DEST_PATH_IMAGE072
,其短时频谱
Figure 48841DEST_PATH_IMAGE073
的频谱自相关函数
Figure 790532DEST_PATH_IMAGE074
也近似为m的周期函数,其周期为N/
Figure 519453DEST_PATH_IMAGE071
,并且在m =(N/
Figure 129426DEST_PATH_IMAGE071
)p处取局部最大值,其中,p=0,1,2,…
Figure 627404DEST_PATH_IMAGE071
。可以理解的是,在无声语音(即清音)的情况下,虽然语音短时频谱自相关函数
Figure 789264DEST_PATH_IMAGE074
在理论上并不存在明然的周期性,但在多次的仿真实验中可以观察到它具有一定程度上的周期性,尽管其短时幅度谱并没有显示任何谐波结构。上述的这一特性,为本发明基于频谱自相关函数的局部最大值频点所对应的短时频谱样本幅度来提取其谱包络,提供了依据。
参考图3,其示出了根据本发明一实施例的谱包络提取方法的流程示意图。如图3所示,本发明一实施例提供了一种谱包络提取方法,包括:S301、根据所述语音短时频谱,计算频谱自相关函数;S302、获取所述频谱自相关函数的局部峰值频点集;S303、通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
本发明的一些实施例中,对于任一纯净的语音短时频谱
Figure 5481DEST_PATH_IMAGE075
,其频谱自相关函数
Figure 887987DEST_PATH_IMAGE076
在数学上定义为:
Figure 506050DEST_PATH_IMAGE077
(23)
其中,运算符
Figure 714177DEST_PATH_IMAGE078
为复共轭算子,m = 0, 1, 2, …, N/2,N为短时频谱的窗函数长度,N取偶数。
考虑到,频谱自相关函数
Figure 293057DEST_PATH_IMAGE079
与其语音短时频谱S(k, t)具有相同的周期性和精细结构,本发明的一些实施例中,可以通过采峰(Peak-Picking)技术方便地获得
Figure 244833DEST_PATH_IMAGE079
的所有局部最大值所对应的频点集合
Figure 717402DEST_PATH_IMAGE080
,这里
Figure 96431DEST_PATH_IMAGE081
, M为频谱自相关函数局部最大值点总个数,
Figure 21662DEST_PATH_IMAGE079
在原点m=0处的最大值除外,并将待估计的谱包络在这些点处的幅值选择为短时幅度谱在相应点处的采样值;而在开区间
Figure 636183DEST_PATH_IMAGE082
中的任意频点m处的谱包络值,可用插值技术来获得。实际应用中,在对数(即dB)尺度下进行线性插值,可以获得满意的结果。
本发明的一些实施例中,语音短时频谱S(k, t)的谱包络
Figure 228838DEST_PATH_IMAGE083
可由下式确定:
Figure 513189DEST_PATH_IMAGE084
(24)
Figure 191295DEST_PATH_IMAGE085
(25)
Figure 360239DEST_PATH_IMAGE086
(26)
其中,
Figure 541822DEST_PATH_IMAGE087
为公式(23)中除原点m=0之外的局部峰值频点,
Figure 262653DEST_PATH_IMAGE088
,M为局部峰值频点总数,i=1,2,…,M。
相应地,本发明的一些实施例中,在提取所述语音短时频谱的谱包络之后,可以根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱。具体地,鉴于谱包络近似等价于传递滤波器的频响幅度,那么由公式(22)可提取声源激励短时幅度谱
Figure 162476DEST_PATH_IMAGE089
Figure 994166DEST_PATH_IMAGE090
(27)
其中,
Figure 686047DEST_PATH_IMAGE089
为声源激励短时幅度谱,
Figure 577780DEST_PATH_IMAGE091
为语音短时频谱的短时幅度谱,
Figure 699320DEST_PATH_IMAGE092
为语音短时频谱的谱包络。
可以理解的是,本发明的一些实施例中,在语音短时频谱为含噪语音信号经过预加重处理、降噪处理和时-频域平滑处理后而获得的语音短时频谱
Figure 334700DEST_PATH_IMAGE093
的情形下,在求解实际的语音短时频谱
Figure 756454DEST_PATH_IMAGE093
的谱包络
Figure 694455DEST_PATH_IMAGE094
和声源激励信号的短时频谱幅度
Figure 568870DEST_PATH_IMAGE095
时,必须用
Figure 742362DEST_PATH_IMAGE093
去替换(23)~(27)式中的S(k,t), 即:
Figure 18623DEST_PATH_IMAGE096
(28)
Figure 986579DEST_PATH_IMAGE097
(29)
Figure 472924DEST_PATH_IMAGE098
(30)
Figure 450107DEST_PATH_IMAGE099
(31)
其中,
Figure 580874DEST_PATH_IMAGE100
为公式(28)中除原点m=0之外的局部峰值频点,
Figure 985310DEST_PATH_IMAGE101
,M为局部峰值频点总数,i=1,2,…,M。
Figure 709684DEST_PATH_IMAGE102
为声源激励短时幅度谱,
Figure 490558DEST_PATH_IMAGE103
为语音短时频谱的短时幅度谱,
Figure 210252DEST_PATH_IMAGE104
为语音短时频谱的谱包络。
本发明实施例提供的谱包络提取方案,采用短时频谱自相关函数的局部峰值频点所对应的短时幅度谱,作为其谱包络的局部峰值,并在对数幅度谱尺度下,应用谱包络的局部峰值对位于其局部峰值频点间的其它频点谱包络值进行线性插值处理,由此获得一个能连接短时幅度谱所有真实局部峰值的平滑而较为准确的谱包络,并且该方案复杂度低,易于实时工程实现,从而克服了现有的线性预测法和实倒谱平滑法提取包络谱的误差大及其改进技术的计算复杂度高等缺陷。
参考图4,其示出了根据本发明一实施例的基于声源激励短时幅度谱估计基频的方法的流程示意图。
如图4所示,本发明一实施例提供了一种基于声源激励短时幅度谱估计基频的方法,包括:S401、根据所述声源激励短时幅度谱,构造基音周期代价函数;S402、根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;S403、对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
本发明的一些实施例中,为提高基频提取的准确度和抗噪能力,可以根据声源激励短时幅度谱,构造基音周期代价函数
Figure 785590DEST_PATH_IMAGE105
Figure 121894DEST_PATH_IMAGE106
Figure 565513DEST_PATH_IMAGE107
Figure 670873DEST_PATH_IMAGE108
(32)
其中,
Figure 417112DEST_PATH_IMAGE109
为一预置的正则化因子常数,τ为样本延时索引,
Figure 240711DEST_PATH_IMAGE110
Figure 973175DEST_PATH_IMAGE111
对应的声源激励短时频谱,
Figure 667462DEST_PATH_IMAGE112
Figure 850181DEST_PATH_IMAGE113
对应的声源激励短时信号。
考虑到,对于有声语音(即浊音)的声源激励短时信号而言,公式(32)对应曲线有显著的峰值,并在τ位于声源激励基音周期所对应的样本点索引及其整数倍处分别取最大值和局部最大值;对于无声语音(即清音)的声源激励短时信号而言,公式(32)对应曲线无显著的峰值。因此对公式(32)定义的代价函数,可应用一预置的门限参数
Figure 895498DEST_PATH_IMAGE114
,来识别此时的声源激励短时信号是有声语音(即浊音)还是无声语音(即清音)。
鉴于人类的基音频率范围通常分布在[20 Hz, 500 Hz]区间范围,本发明的一些实施例中,公式(32)对应得最大峰值点位置
Figure 556286DEST_PATH_IMAGE115
可以在
Figure 760871DEST_PATH_IMAGE116
区间内搜寻,即:
Figure 848913DEST_PATH_IMAGE117
(33)
其中,
Figure 115946DEST_PATH_IMAGE118
Figure 580426DEST_PATH_IMAGE119
分别为基音周期所对应的样本点索引下界和上界,
Figure 514884DEST_PATH_IMAGE120
表示不大于x的最大整数,
Figure 649193DEST_PATH_IMAGE121
表示不小于x的最小整数;
Figure 669102DEST_PATH_IMAGE122
为数字信号的采样频率,单位为赫兹(Hz)。
Figure 671693DEST_PATH_IMAGE123
时,该帧信号为无声语音(即清音),其基频
Figure 460657DEST_PATH_IMAGE124
置为0 Hz。当
Figure 890501DEST_PATH_IMAGE125
时,该帧信号为有声语音(即浊音),此时考虑到公式(32)中的参数τ已数字量化为整数变量,为求出其真实的位置参数值,可在其最大值点
Figure 522340DEST_PATH_IMAGE126
的附近应用抛物线函数插值技术,因此在帧t时时刻的有声语音(即浊音)基频参数
Figure 63043DEST_PATH_IMAGE124
(单位为Hz)可由下式给出:
Figure 972093DEST_PATH_IMAGE127
(34)
其中,
Figure 572838DEST_PATH_IMAGE128
(35)
Figure 442705DEST_PATH_IMAGE129
(36)
这里
Figure 787099DEST_PATH_IMAGE130
Figure 550656DEST_PATH_IMAGE131
的分数值部分;
Figure 587882DEST_PATH_IMAGE132
Figure 928733DEST_PATH_IMAGE131
的整数值部分,由(33)式确定;
Figure 76818DEST_PATH_IMAGE122
为数字信号的采样频率,单位为赫兹(Hz)。
本发明实施例提供的基于声源激励短时幅度谱估计基频方案,创造性地定义了一种与基音周期密切关联的代价函数来搜寻信号的基音周期,并应用基于三点的抛物线插值技术来获取精度较高的基音周期实际值,据此提取信号的基频参数,使得基频参数提取的精度更高。
鉴于语音信号在时间上的连续性,本发明的一些实施例中,可以对每帧估计的基频
Figure 694881DEST_PATH_IMAGE133
进行平滑后处理,以获得平滑的基频
Figure 903009DEST_PATH_IMAGE133
的轨迹
Figure 481889DEST_PATH_IMAGE134
,以便进一步降低因信号帧中过度段占比较高而致的估计误差,提高基频估计的准确度。
可选地,本发明的一些实施例中,可以采用标准的中值滤波技术或递归的中值滤波器技术进行平滑后处理。
可选地,本发明的一些实施例中,可以应用线性-中值混合滤波器技术作为平滑后处理技术。其中线性滤器子结构采用L0个输入样本的移动平均,而中值滤波器采用3阶的标准的中值滤波器,即:
Figure 168085DEST_PATH_IMAGE135
(37)
其中,Med{·}为中值滤波器算子,正整数
Figure 906234DEST_PATH_IMAGE136
为标准的移动平均滤波器的阶参数,
Figure 19683DEST_PATH_IMAGE137
为起始位置在t的窗长度为
Figure 210493DEST_PATH_IMAGE138
的矩形窗中第
Figure 90593DEST_PATH_IMAGE139
个输入样本,i =0,1,…,
Figure 152090DEST_PATH_IMAGE136
,yy(t)为t时刻的标准的中值滤波器的输出样本。
进一步地,考虑到,对降噪而言,其长平均子结构优于短平均子结构,因为平均器的输出方差与平均子结构长度
Figure 702020DEST_PATH_IMAGE136
成反比。然而,在阶梯边缘附近,具有长平均子结构的线性-中值混合滤波器性能将恶化。事实上,当公式(37)里中值滤波器算子的中心点接近边缘时,其右边平均子结构的输出与左边的yy(t-1)之间的差异在距边缘
Figure 380126DEST_PATH_IMAGE140
个样本的距离处开始增加,直到中心点进入边缘时达到最大值。 由此,使得线性-中值混合滤波器选择xx(t) 作为其输出的概率将增加,这便致使线性-中值混合滤波器的抗噪能力下降。
进一步地,考虑可以依次重复地使用若干个平均子结构,其边缘附近的噪声随着平均子结构窗口长度的缩短而衰减,而所需的根信号长度则用于确定平均子结构最长窗口。
本发明的一些实施例中,可以通过递归就地增长的移动平均-中值混合滤波器进行平滑后处理,即根据如下公式(38)输出基频参数轨迹:
Figure 549071DEST_PATH_IMAGE141
(38)
通过上述递归就地增长的移动平均-中值混合滤波器进行平滑后处理,完整保留了理想边缘,并在噪声边缘附近所产生的偏置误差,相对标准的中值滤波器和递归的中值滤波器而言,小到了可以忽略不计的程度,且能有效地衰减宽带噪声。
实际应用中,应用(38)式来进行信号帧的基频估计平滑后处理时,记第t帧的基频估计值为
Figure 261812DEST_PATH_IMAGE142
,记其经递归就地增长的移动平均-中值混合滤波器平滑处理后的输出的基频参数轨迹为
Figure DEST_PATH_IMAGE143
,置变量
Figure 107277DEST_PATH_IMAGE144
,计算
Figure DEST_PATH_IMAGE145
,其中,
Figure 538258DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE147
;继而,输出基频参数轨迹:
Figure 510893DEST_PATH_IMAGE148
较佳地,在考虑算法的工程实现和实时性,选择平均子结构长度参数
Figure DEST_PATH_IMAGE149
,可以获得满意的效果;相应地,此时后处理引入的时延为2帧,时延较小,满足实时处理跟踪的要求。
通过本发明实施例提供的一种对已估计的基频参数进行实时跟踪后处理技术,由此可进一步降低基频估计的意外误差,从而获得更为精确可靠的基频轨迹;而采用了递归就地增长的移动平均-中值混合滤波器技术,可完整保留了理想边缘,并能有效地衰减宽带噪声。
参考图5,其示出了根据本发明一实施例的语音信号基频估计装置的结构示意图;如图5所示,本发明一实施例提供了一种语音信号基频估计装置,包括:含噪语音信号预处理模块501、声源激励短时幅度谱提取模块502和基频参数提取模块503。
其中,含噪语音信号预处理模块501用于对含噪语音信号进行降噪处理,得到语音短时频谱。
声源激励短时幅度谱提取模块502用于根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱。
基频参数提取模块503用于根据所述声源激励短时幅度谱,提取基频参数。
本发明的一些实施例中,所述含噪语音信号预处理模块501还用于对含噪语音信号进行降噪处理之前,对所述含噪语音信号进行预加重处理。
本发明的一些实施例中,所述含噪语音信号预处理模块501具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
本发明的一些实施例中,所述含噪语音信号预处理模块501还用于对含噪语音信号进行降噪处理之后,对所述增强的语音信号的短时频谱进行时频域平滑处理;将经过时频域平滑处理的所述增强的语音信号的短时频谱,作为所述语音短时频谱。
本发明的一些实施例中,所述声源激励短时幅度谱提取模块502具体用于根据如下方式提取所述语音短时频谱的谱包络:根据所述语音短时频谱,计算其频谱自相关函数;获取所述频谱自相关函数的局部峰值频点集;通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
本发明的一些实施例中,所述声源激励短时幅度谱提取模块502具体用于根据所述语音短时频谱,提取语音短时幅度谱;将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
本发明的一些实施例中,所述基频参数提取模块503具体用于根据所述声源激励短时幅度谱,构造基音周期代价函数;根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
参考图6,其示出了根据本发明又一实施例的语音信号基频估计装置的结构示意图;如图6所示,本发明又一实施例提供了一种语音信号基频估计装置,包括:含噪语音信号预处理模块601、声源激励短时幅度谱提取模块602、基频参数提取模块603和基频轨迹跟踪模块604。
可以理解的是,图6所示实施例提供的语音信号基频估计装置中的含噪语音信号预处理模块601、声源激励短时幅度谱提取模块602和基频参数提取模块603的具体实现,可分别参见图5所示实施例提供的语音信号基频估计装置中的含噪语音信号预处理模块501、声源激励短时幅度谱提取模块502和基频参数提取模块503,此处不再赘述。
本发明的一些实施例中,基频轨迹跟踪模块604用于对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹。
可以理解的是,本发明的上述实施例提供的语音信号基频估计装置的各模块,用于对应地实现上述语音信号基频估计方法中的各步骤,具体内容在此不再赘述。
本发明的一些实施例中,还提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如上所述的语音信号基频估计方法。进一步地,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的语音信号基频估计方法。图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可以存储电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,CPU 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种语音信号基频估计方法,其特征在于,包括:
对含噪语音信号进行降噪处理,得到语音短时频谱;
根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱;
根据所述声源激励短时幅度谱,提取基频参数。
2.根据权利要求1所述的方法,其特征在于,所述对含噪语音信号进行降噪处理之前,还包括:
对所述含噪语音信号进行预加重处理。
3.根据权利要求2所述的方法,其特征在于,所述对含噪语音信号进行降噪处理,包括:
根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;
利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
4.根据权利要求3所述的方法,其特征在于,所述对含噪语音信号进行降噪处理之后,所述方法还包括:
对所述增强的语音信号的短时频谱进行时频域平滑处理;
相应地,将经过时频域平滑处理的所述增强的语音信号的短时频谱,作为所述语音短时频谱。
5.根据权利要求4所述的方法,其特征在于,所述语音短时频谱的谱包络根据如下方式提取:
根据所述语音短时频谱,计算其频谱自相关函数;
获取所述频谱自相关函数的局部峰值频点集;
通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱,包括:
根据所述语音短时频谱,提取语音短时幅度谱;
将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
7.根据权利要求6所述的方法,其特征在于,所述根据所述声源激励短时幅度谱,提取基频参数,包括:
根据所述声源激励短时幅度谱,构造基音周期代价函数;
根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;
对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
8.根据权利要求1~7任一所述的方法,其特征在于,还包括:
对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹。
9.一种语音信号基频估计装置,其特征在于,包括:
含噪语音信号预处理模块,用于对含噪语音信号进行降噪处理,得到语音短时频谱;
声源激励短时幅度谱提取模块,用于根据所述语音短时频谱及其谱包络,提取声源激励短时幅度谱;
基频参数提取模块,用于根据所述声源激励短时幅度谱,提取基频参数。
10.根据权利要求9所述的装置,其特征在于,所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之前,对所述含噪语音信号进行预加重处理。
11.根据权利要求10所述的装置,其特征在于,所述含噪语音信号预处理模块具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号,得到噪声抑制增益函数;利用所述噪声抑制增益函数,对预加重处理后的含噪语音信号的谱信号进行降噪滤波,得到增强的语音信号的短时频谱。
12.根据权利要求11所述的装置,其特征在于,所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之后,对所述增强的语音信号的短时频谱进行时频域平滑处理;将经过时频域平滑处理的所述增强的语音信号的短时频谱,作为所述语音短时频谱。
13.根据权利要求12所述的装置,其特征在于,所述声源激励短时幅度谱提取模块具体用于根据如下方式提取所述语音短时频谱的谱包络:根据所述语音短时频谱,计算其频谱自相关函数;获取所述频谱自相关函数的局部峰值频点集;通过在对数幅度谱尺度下进行线性插值,确定所述语音短时频谱的谱包络。
14.根据权利要求13所述的装置,其特征在于,所述声源激励短时幅度谱提取模块具体用于根据所述语音短时频谱,提取语音短时幅度谱;将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值,作为所述声源激励短时幅度谱。
15.根据权利要求14所述的装置,其特征在于,所述基频参数提取模块具体用于根据所述声源激励短时幅度谱,构造基音周期代价函数;根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数,进行有声/无声语音的识别;对于有声语音,通过抛物线插值技术,根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。
16.根据权利要求9~15任一所述的装置,其特征在于,还包括:用于对每帧提取的基频参数进行平滑后处理,获得基频参数轨迹的基频轨迹跟踪模块。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
18.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。
CN202210717242.7A 2022-06-23 2022-06-23 语音信号基频估计方法和装置 Active CN114822577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210717242.7A CN114822577B (zh) 2022-06-23 2022-06-23 语音信号基频估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210717242.7A CN114822577B (zh) 2022-06-23 2022-06-23 语音信号基频估计方法和装置

Publications (2)

Publication Number Publication Date
CN114822577A true CN114822577A (zh) 2022-07-29
CN114822577B CN114822577B (zh) 2022-10-28

Family

ID=82521866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210717242.7A Active CN114822577B (zh) 2022-06-23 2022-06-23 语音信号基频估计方法和装置

Country Status (1)

Country Link
CN (1) CN114822577B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
CN101173870A (zh) * 2007-09-27 2008-05-07 上海交通大学 复杂噪声基底下短时特征声信号时频域辨识与检测方法
US20100286981A1 (en) * 2009-05-06 2010-11-11 Nuance Communications, Inc. Method for Estimating a Fundamental Frequency of a Speech Signal
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN114203154A (zh) * 2021-12-09 2022-03-18 北京百度网讯科技有限公司 语音风格迁移模型的训练、语音风格迁移方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
CN101173870A (zh) * 2007-09-27 2008-05-07 上海交通大学 复杂噪声基底下短时特征声信号时频域辨识与检测方法
US20100286981A1 (en) * 2009-05-06 2010-11-11 Nuance Communications, Inc. Method for Estimating a Fundamental Frequency of a Speech Signal
CN106653056A (zh) * 2016-11-16 2017-05-10 中国科学院自动化研究所 基于lstm循环神经网络的基频提取模型及训练方法
CN114203154A (zh) * 2021-12-09 2022-03-18 北京百度网讯科技有限公司 语音风格迁移模型的训练、语音风格迁移方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A.DE CHEVEIGNE,H.KAWAHARA: "A Fundamental Frequency Estimator for speech and Music", 《JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
M.R.SCHROEDER: "Period Histogram and Product Spectrum:New methods for fundamental frequency measurements", 《JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
付中华等: "基于多相滤波器组的语音基频检测方法", 《西北工业大学学报》 *
徐金甫等: "基于线性预测的综合基音检测法", 《计算机工程与设计》 *
李晋等: "基于线性预测和最大似然的基音检测算法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN114822577B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
EP3696814A1 (en) Speech enhancement method and apparatus, device and storage medium
US7313518B2 (en) Noise reduction method and device using two pass filtering
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
US5742927A (en) Noise reduction apparatus using spectral subtraction or scaling and signal attenuation between formant regions
CN101976566B (zh) 语音增强方法及应用该方法的装置
Soon et al. Speech enhancement using 2-D Fourier transform
CN109979476B (zh) 一种语音去混响的方法及装置
US20100067710A1 (en) Noise spectrum tracking in noisy acoustical signals
US9208799B2 (en) Method and device for estimating a pattern in a signal
CN110875049B (zh) 语音信号的处理方法及装置
CN110349598A (zh) 一种低信噪比环境下的端点检测方法
US7890319B2 (en) Signal processing apparatus and method thereof
Borgström et al. The linear prediction inverse modulation transfer function (LP-IMTF) filter for spectral enhancement, with applications to speaker recognition
CN108962275B (zh) 一种音乐噪声抑制方法及装置
Lei et al. Speech enhancement for nonstationary noises by wavelet packet transform and adaptive noise estimation
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
CN114822577B (zh) 语音信号基频估计方法和装置
Funaki Speech enhancement based on iterative wiener filter using complex speech analysis
Chokkarapu et al. Implementation of spectral subtraction noise suppressor using DSP processor
CN113870884B (zh) 单麦克风噪声抑制方法和装置
Selvi et al. Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
CN114333880B (zh) 一种信号处理方法、装置、设备及存储介质
Senthamizh Selvi Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes
Shafi et al. Transform Based Speech Enhancement Using DCT Based MMSE Filter, & Its Comparison With DFT Filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant