CN103915099B - 语音基音周期检测方法和装置 - Google Patents

语音基音周期检测方法和装置 Download PDF

Info

Publication number
CN103915099B
CN103915099B CN201210592093.2A CN201210592093A CN103915099B CN 103915099 B CN103915099 B CN 103915099B CN 201210592093 A CN201210592093 A CN 201210592093A CN 103915099 B CN103915099 B CN 103915099B
Authority
CN
China
Prior art keywords
voice
fundamental tone
fundamental
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210592093.2A
Other languages
English (en)
Other versions
CN103915099A (zh
Inventor
宋辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210592093.2A priority Critical patent/CN103915099B/zh
Publication of CN103915099A publication Critical patent/CN103915099A/zh
Application granted granted Critical
Publication of CN103915099B publication Critical patent/CN103915099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种语音基音周期检测方法和装置,其中所述方法包括以下步骤:对语音输入信号进行预处理;获得每帧语音信号对应的先验信噪比;根据每帧语音信号的先验信噪比获得权重值;提取多帧语音信号中的多个基音候选项;根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息;根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及根据至少一个第二基音路径检测语音基音周期。根据本发明实施例的方法可以有效增加抗噪的效果。

Description

语音基音周期检测方法和装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种语音基音周期检测方法和装置。
背景技术
语音基音周期是语音信号的一个重要特征,语音基音周期经常应用于语音识别、语音合成、说话人识别等。目前,对语音基音周期的估计技术通常包括两个基本步骤,一是利用语音信号的相关性,逐帧估计出语音基音周期的可能的基音候选项,二是利用语音基音周期在短时间内不可能发生突变的特性,在相邻帧内对各个基音候选项进行局部平滑,得到最终的语音基音周期的估计结果。其中,采用不同的相关性算法和不同的平滑算法,可以构成很多不同的语音基音周期估计方法。
目前存在的问题是,这种语音基音周期检测技术相对于纯净语音信号的效果理想,但在噪音环境下性能下降特别明显。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的第一个目的在于提出一种语音基音周期检测方法,该方法可以有效增加抗噪的效果。
本发明的第二个目的在于提出一种语音基音周期检测装置。
为达到所述目的,本发明第一方面的实施例公开了一种语音基音周期检测方法,包括以下步骤:接收语音输入信号并对所述语音输入信号进行预处理,其中,所述语音输入信号包括多帧语音信号;对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;提取所述多帧语音信号中的多个基音候选项;根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息;根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及根据所述至少一个第二基音路径检测所述语音基音周期。
为达到所述目的,本发明第二方面的实施例公开了一种语音基音周期检测装置,包括:预处理模块,用于接收语音输入信号并对所述语音输入信号进行预处理,其中,所述语音输入信号包括多帧语音信号;第一获取模块,用于对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;第二获取模块,用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;提取模块,用于提取所述多帧语音信号中的多个基音候选项;第一动态规划模块,用于根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息;第二动态规划模块,用于根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及检测模块,用于根据所述至少一个第二基音路径检测所述语音基音周期。
根据本发明实施例的语音基音周期检测装置,一方面在估计先验信噪比时,逐帧对输入的语音信号进行先验信噪比追踪,并对每帧语音信号赋予不同的权重,可以使得先验信噪比较高的语音信号在后续的动态规划中发挥更主要的作用,增加抗噪的效果,另一方面利用二次规划,可以对噪声造成的偏差进行补偿,进一步增加抗噪的效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的语音基音周期检测方法的流程图;
图2为根据本发明另一个实施例的语音基音周期检测方法的流程图;
图3为根据本发明一个具体实施例的语音基音周期检测方法的流程图;
图4为根据本发明另一个具体实施例的语音基音周期检测方法的流程图;
图5为根据本发明再一个具体实施例的语音基音周期检测方法的流程图;
图6为根据本发明一个实施例的语音基音周期检测装置的结构框图;以及
图7为根据本发明另一个实施例的语音基音周期检测装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外,以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例,也可以包括另外的特征形成在第一和第二特征之间的实施例,这样第一和第二特征可能不是直接接触。
在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考附图描述根据本发明实施例的语音基音周期检测方法和装置。
现有的语音基音周期检测方法,一方面,环境中的噪声破坏了语音信号的短时周期性和相关性,从而影响到基音候选项的检测精度;另一方面,现有的局部平滑方法中,每一帧的基音候选项在整个平滑过程中贡献的作用是相同的,导致了错误的基音候选项在参与平滑的过程中极有可能影响到一些原本正确的基音候选项的估计,从而影响语音基音周期的估计结果。
为此,一种语音基音周期检测方法,包括以下步骤:接收语音输入信号并对语音输入信号进行预处理,其中,语音输入信号包括多帧语音信号;对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;提取多帧语音信号中的多个基音候选项;根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息;根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及根据至少一个第二基音路径检测语音基音周期。
图1为根据本发明一个实施例的语音基音周期检测方法的流程图。
如图1所示,语音基音周期检测方法包括下述步骤。
步骤S101,接收语音输入信号并对语音输入信号进行预处理,其中,语音输入信号包括多帧语音信号。
步骤S102,对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
在本发明的一个实施例中,通过以下公式获得每帧语音信号对应的先验信噪比:
SNR a p r i o r i ( f , i ) = α | X ( f , i - 1 ) | 2 | N ( f ) | 2 + ( 1 - α ) SNR p o s t
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,X(f,i-1)表示语音信号的频谱,N(f)表示噪声信号的频谱,i表示帧索引,α表示加权因子,SNRpost表示前一帧的先验信噪比。具体地,根据上式估计每帧语音信号对应的先验信噪比,先验信噪比由两部分加权获取,前一项是当前帧的估计信息,后一项是历史信噪比的估计信息,这种同时利用了历史信噪比的估计信息和当前帧的估计信息估计当前帧的先验信噪比的方法,鲁棒性较好。
步骤S103,根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
在本发明的一个实施例中,通过以下公式获得每帧语音信号对应的权重值:
ω i = 1 , SNR a p r i o r i ( f , i ) > Thr s n r ω i = SNR a p r i o r i ( f , i ) Thr s n r , SNR a p r i o r i ( f , i ) ≤ Thr s n r
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,i表示帧索引,Thrsnr表示预定阈值。具体地,语音信号对应的先验信噪比越高,则赋予的权值越大,在后续的规划中的作用越大,反之亦然,先验信噪比超过预定阈值Thrsnr,则赋予统一的阈值1,说明语音信号的先验信噪比足够高,基音候选项的估计是足够可信的,将局部动态规划中发挥更大的作用;如果信噪比低于预定阈值Thrsnr,则权重降低,相当于赋予一定的惩罚因子,这些帧的先验信噪比比较低,基音候选项估计时有可能不准确。其中,预定阈值Thrsnr的选取可以视实际应用情况而定,通常可以选择10dB~20dB。
步骤S104,提取多帧语音信号中的多个基音候选项。
步骤S105,根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。
其中,预设周期可以根据实际情况设置,例如200帧(2秒)等。第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
步骤S106,根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
具体地,第二次动态规划的对象是每个第一基音路径,旨在对多个最优的第一基音路径进行微调,修改由于局部噪声存在(例如,其他人的说话声等)所引起的偏差。
步骤S107,根据至少一个第二基音路径检测语音基音周期。
根据本发明实施例的语音基音周期检测方法,一方面在估计先验信噪比时,逐帧对输入的语音信号进行先验信噪比追踪,并对每帧语音信号赋予不同的权重,可以使得先验信噪比较高的语音信号在后续的动态规划中发挥更主要的作用,增加抗噪的效果,另一方面利用二次规划,可以对噪声造成的偏差进行补偿,进一步增加抗噪的效果。
图2为根据本发明另一个实施例的语音基音周期检测方法的流程图。
如图2所示,语音基音周期检测方法包括下述步骤。
步骤S201,接收语音输入信号,其中语音输入信号包括多帧语音信号。
步骤S202,对语音输入信号进行分帧处理,并对语音输入信号进行噪声估计以获得当前噪声估计信息。
在本发明的一个实施例中,对语音输入信号进行预处理还包括:对语音输入信号进行预加重、加窗及FFT处理。具体地,首先,对语音输入信号进行预加重处理是通过一个有限冲激响应高通滤波器作用于输入信号,使输入信号频谱变得平坦,且不易受到有限字长效应的影响;然后,对输入信号进行加窗处理,可以采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;之后,对输入信号进行FFT处理,将时域信号变换成信号的功率谱。
步骤S203,对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
其中,详细的先验信噪比的估计可以参考图1所示的实施例。
步骤S204,根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
其中,详细的权重值的获取可以参考图1所示的实施例。
步骤S205,提取多帧语音信号中的多个基音候选项。
步骤S206,根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。
其中,预设周期可以根据实际情况设置,例如200帧(2秒)等。第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
步骤S207,根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
具体地,第二次动态规划的对象是每个第一基音路径,旨在对多个最优的第一基音路径进行微调,修改由于局部噪声存在(例如,其他人的说话声等)所引起的偏差。
步骤S208,根据至少一个第二基音路径检测语音基音周期。
根据本发明实施例的语音基音周期检测方法,对语音输入信号进行预处理,可以使得后续的先验信噪比估计和多个基音候选项提取更加准确、快捷。
图3为根据本发明一个具体实施例的语音基音周期检测方法的流程图。
如图3所示,语音基音周期检测方法包括下述步骤。
步骤S301,接收语音输入信号,其中语音输入信号包括多帧语音信号。
步骤S302,对语音输入信号进行分帧处理,并对语音输入信号进行噪声估计以获得当前噪声估计信息。
在本发明的一个实施例中,对语音输入信号进行预处理还包括:对语音输入信号进行预加重、加窗及FFT处理。具体地,首先,对语音输入信号进行预加重处理是通过一个有限冲激响应高通滤波器作用于输入信号,使输入信号频谱变得平坦,且不易受到有限字长效应的影响;然后,对输入信号进行加窗处理,可以采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;之后,对输入信号进行FFT处理,将时域信号变换成信号的功率谱。
步骤S303,对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
其中,详细的先验信噪比的估计可以参考图1所示的实施例。
步骤S304,根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
其中,详细的权重值的获取可以参考图1所示的实施例。
步骤S305,根据相关性检测方法提取多帧语音信号中的多个基音候选项。
具体地,由于语音信号的短时周期性和平稳性,语音信号的相关函数在基音周期的位置上会出现峰值,通过检测相关函数的峰值的位置,可以判断信号的基音周期。更具体地,相关函数可由功率谱的傅里叶逆变换得到,衡量了语音信号的自相关程度。
步骤S306,根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。
其中,预设周期可以根据实际情况设置,例如200帧(2秒)等。第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
步骤S307,根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
具体地,第二次动态规划的对象是每个第一基音路径,旨在对多个最优的第一基音路径进行微调,修改由于局部噪声存在(例如,其他人的说话声等)所引起的偏差。
步骤S308,根据至少一个第二基音路径检测语音基音周期。
根据本发明实施例的语音基音周期检测方法,利用语音信号的短时周期性和平稳性提取多帧语音信号中的多个基音候选项。
图4为根据本发明另一个具体实施例的语音基音周期检测方法的流程图。
如图4所示,语音基音周期检测方法包括下述步骤。
步骤S401,接收语音输入信号,其中语音输入信号包括多帧语音信号。
步骤S402,对语音输入信号进行分帧处理,并对语音输入信号进行噪声估计以获得当前噪声估计信息。
在本发明的一个实施例中,对语音输入信号进行预处理还包括:对语音输入信号进行预加重、加窗及FFT处理。具体地,首先,对语音输入信号进行预加重处理是通过一个有限冲激响应高通滤波器作用于输入信号,使输入信号频谱变得平坦,且不易受到有限字长效应的影响;然后,对输入信号进行加窗处理,可以采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;之后,对输入信号进行FFT处理,将时域信号变换成信号的功率谱。
步骤S403,对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
其中,详细的先验信噪比的估计可以参考图1所示的实施例。
步骤S404,根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
其中,详细的权重值的获取可以参考图1所示的实施例。
步骤S405,根据相关性检测方法提取多帧语音信号中的多个基音候选项。
具体地,由于语音信号的短时周期性和平稳性,语音信号的相关函数在基音周期的位置上会出现峰值,通过检测相关函数的峰值的位置,可以判断信号的基音周期。更具体地,相关函数可由功率谱的傅里叶逆变换得到,衡量了语音信号的自相关程度。
步骤S406,根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。
其中,预设周期可以根据实际情况设置,例如200帧(2秒)等。第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
在本发明的一个实施例中,获得多个基音候选项中每个基音候选项对应的权重值,权重值包括第一权重值和第二权重值,其中,第一权重值与基音候选项对应的先验信噪比相关,第二权重值与相关函数的峰值强度相关。具体地,第一权重值和第二权重值用于构造第一次动态规划的代价函数,代价函数的选择是影响动态规划结果的关键,代价函数costi,j根据下式获取,
costi,j=1/ωici,j
其中,ωi表示第一权重值,ci,j表示第二权重值。
步骤S407,对语音输入信号进行分段以生成多个语音段,其中,每个语音段包括多个第一基音路径。
步骤S408,根据代价信息对每个语音段中的多个第一基音路径进行排序。
步骤S409,选取每个语音段中前N个第一基音路径,N为正整数。
步骤S410,对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
步骤S411,根据至少一个第二基音路径检测语音基音周期。
根据本发明实施例的语音基音周期检测方法,对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径,可以进一步增加抗噪效果。
图5为根据本发明再一个具体实施例的语音基音周期检测方法的流程图。
如图5所示,语音基音周期检测方法包括下述步骤。
步骤S501,接收语音输入信号,其中语音输入信号包括多帧语音信号。
步骤S502,对语音输入信号进行分帧处理,并对语音输入信号进行噪声估计以获得当前噪声估计信息。
在本发明的一个实施例中,对语音输入信号进行预处理还包括:对语音输入信号进行预加重、加窗及FFT处理。具体地,首先,对语音输入信号进行预加重处理是通过一个有限冲激响应高通滤波器作用于输入信号,使输入信号频谱变得平坦,且不易受到有限字长效应的影响;然后,对输入信号进行加窗处理,可以采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;之后,对输入信号进行FFT处理,将时域信号变换成信号的功率谱。
步骤S503,对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
其中,详细的先验信噪比的估计可以参考图1所示的实施例。
步骤S504,根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
其中,详细的权重值的获取可以参考图1所示的实施例。
步骤S505,根据相关性检测方法提取多帧语音信号中的多个基音候选项。
具体地,由于语音信号的短时周期性和平稳性,语音信号的相关函数在基音周期的位置上会出现峰值,通过检测相关函数的峰值的位置,可以判断信号的基音周期。更具体地,相关函数可由功率谱的傅里叶逆变换得到,衡量了语音信号的自相关程度。
步骤S506,根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。
其中,预设周期可以根据实际情况设置,例如200帧(2秒)等。第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
在本发明的一个实施例中,获得多个基音候选项中每个基音候选项对应的权重值,权重值包括第一权重值和第二权重值,其中,第一权重值与基音候选项对应的先验信噪比相关,第二权重值与相关函数的峰值强度相关。具体地,第一权重值和第二权重值用于构造第一次动态规划的代价函数,代价函数的选择是影响动态规划结果的关键,代价函数costi,j根据下式获取,
costi,j=1/ωici,j
其中,ωi表示第一权重值,ci,j表示第二权重值。
步骤S507,对语音输入信号进行分段以生成多个语音段,其中,每个语音段包括多个第一基音路径。
步骤S508,根据代价信息对每个语音段中的多个第一基音路径进行排序。
步骤S509,选取每个语音段中前N个第一基音路径,N为正整数。
步骤S510,对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
步骤S511,根据至少一个第二基音路径检测语音基音周期。
步骤S512,对至少一个第二基音路径进行平滑处理。
根据本发明实施例的语音基音周期检测方法,对至少一个第二基音路径进行平滑处理,进一步增加抗噪效果。
为了实现上述实施例,本发明还提出一种语音基音周期检测装置。
一种语音基音周期检测装置,包括:预处理模块,用于接收语音输入信号并对语音输入信号进行预处理,其中,语音输入信号包括多帧语音信号;第一获取模块,用于对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;第二获取模块,用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;提取模块,用于提取多帧语音信号中的多个基音候选项;第一动态规划模块,用于根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息;第二动态规划模块,用于根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及检测模块,用于根据至少一个第二基音路径检测语音基音周期。
图6为根据本发明一个实施例的语音基音周期检测装置的结构框图。
如图6所示,语音基音周期检测装置包括:预处理模块10、第一获取模块20、第二获取模块30、提取模块40、第一动态规划模块50、第二动态规划模块60和检测模块70。
具体地,预处理模块10用于接收语音输入信号并对语音输入信号进行预处理,其中,语音输入信号包括多帧语音信号。
第一获取模块20用于对语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比。
第二获取模块30用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值。
提取模块40用于提取多帧语音信号中的多个基音候选项。
第一动态规划模块50用于根据多个基音候选项和先验信噪比按照预设周期对多帧语音信号进行第一次动态规划以获得多个第一基音路径及第一基音路径对应的代价信息。其中,预设周期可以根据实际情况设置,例如200帧(2秒)等,第一次动态规划可以是现有的动态规划方法,旨在寻选择一条最优的第一基音路径,在最优的第一基音路径上的代价函数最小,其中该代价函数即为对应的代价信息。
第二动态规划模块60用于根据第一基音路径对应的代价信息对多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。其中,第二次动态规划的对象是每个第一基音路径,旨在对多个最优的第一基音路径进行微调,修改由于局部噪声存在(例如,其他人的说话声等)所引起的偏差。
检测模块70用于根据至少一个第二基音路径检测语音基音周期。
根据本发明实施例的语音基音周期检测装置,一方面在估计先验信噪比时,逐帧对输入的语音信号进行先验信噪比追踪,并对每帧语音信号赋予不同的权重,可以使得先验信噪比较高的语音信号在后续的动态规划中发挥更主要的作用,增加抗噪的效果,另一方面利用二次规划,可以对噪声造成的偏差进行补偿,进一步增加抗噪的效果。
在本发明的一个实施例中,第一获取模块20通过以下公式获得每帧语音信号对应的先验信噪比:
SNR a p r i o r i ( f , i ) = α | X ( f , i - 1 ) | 2 | N ( f ) | 2 + ( 1 - α ) SNR p o s t
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,X(f,i-1)表示语音信号的频谱,N(f)表示噪声信号的频谱,i表示帧索引,α表示加权因子,SNRpost表示前一帧的先验信噪比。具体地,根据上式估计每帧语音信号对应的先验信噪比,先验信噪比由两部分加权获取,前一项是当前帧的估计信息,后一项是历史信噪比的估计信息,这种同时利用了历史信噪比的估计信息和当前帧的估计信息估计当前帧的先验信噪比的方法,鲁棒性较好。
在本发明的一个实施例中,第二获取模块30通过以下公式获得每帧语音信号对应的权重值:
ω i = 1 , SNR a p r i o r i ( f , i ) > Thr s n r ω i = SNR a p r i o r i ( f , i ) Thr s n r , SNR a p r i o r i ( f , i ) ≤ Thr s n r
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,i表示帧索引,Thrsnr表示预定阈值。具体地,语音信号对应的先验信噪比越高,则赋予的权值越大,在后续的规划中的作用越大,反之亦然,先验信噪比超过预定阈值Thrsnr,则赋予统一的阈值1,说明语音信号的先验信噪比足够高,基音候选项的估计是足够可信的,将局部动态规划中发挥更大的作用;如果信噪比低于预定阈值Thrsnr,则权重降低,相当于赋予一定的惩罚因子,这些帧的先验信噪比比较低,基音候选项估计时有可能不准确。其中,预定阈值Thrsnr的选取可以视实际应用情况而定,通常可以选择10dB~20dB。
在本发明的一个实施例中,预处理模块包括:分帧单元,用于对语音输入信号进行分帧处理,并对语音输入信号进行噪声估计以获得当前噪声估计信息。
在本发明的一个实施例中,预处理模块还包括:预加重单元,用于对所述语音输入信号进行预加重、加窗及FFT处理。具体地,首先,对语音输入信号进行预加重处理是通过一个有限冲激响应高通滤波器作用于输入信号,使输入信号频谱变得平坦,且不易受到有限字长效应的影响;然后,对输入信号进行加窗处理,可以采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;之后,对输入信号进行FFT处理,将时域信号变换成信号的功率谱。
在本发明的一个实施例中,提取模块40还用于根据相关性检测方法提取多帧语音信号中的多个基音候选项。具体地,由于语音信号的短时周期性和平稳性,语音信号的相关函数在基音周期的位置上会出现峰值,提取模块40通过检测相关函数的峰值的位置,可以判断信号的基音周期。相关函数可由功率谱的傅里叶逆变换得到,衡量了语音信号的自相关程度。
在本发明的一个实施例中,第一动态规划模块还用于:获得多个基音候选项中每个基音候选项对应的权重值,权重值包括第一权重值和第二权重值,其中,第一权重值与基音候选项对应的先验信噪比相关,第二权重值与相关函数的峰值强度相关。具体地,第一权重值和第二权重值用于构造第一次动态规划的代价函数,代价函数的选择是影响动态规划结果的关键,代价函数costi,j根据下式获取,
costi,j=1/ωici,j
其中,ωi表示第一权重值,ci,j表示第二权重值。
在本发明的一个实施例中,第二动态规划模块包括:分段单元,用于对语音输入信号进行分段以生成多个语音段,其中,每个语音段包括多个第一基音路径;排序单元,用于根据代价信息对每个语音段中的多个第一基音路径进行排序;选择单元,用于选取每个语音段中前N个第一基音路径,N为正整数;以及动态规划单元,用于对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。由此可以进一步增加抗噪效果。
图7为根据本发明另一个实施例的语音基音周期检测装置的结构框图。
如图7所示,在图6所示实施例的基础上,语音基音周期检测装置包括:平滑模块80。
具体地,平滑模块80用于对至少一个第二基音路径进行平滑处理。由此进一步增加抗噪效果。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (18)

1.一种语音基音周期检测方法,其特征在于,包括以下步骤:
接收语音输入信号并对所述语音输入信号进行预处理,其中,所述语音输入信号包括多帧语音信号;
对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;
根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;
提取所述多帧语音信号中的多个基音候选项;
根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息;
根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及
根据所述至少一个第二基音路径检测所述语音基音周期。
2.如权利要求1所述的语音基音周期检测方法,其特征在于,对所述语音输入信号进行预处理进一步包括:
对所述语音输入信号进行分帧处理,并对所述语音输入信号进行噪声估计以获得当前噪声估计信息。
3.如权利要求2所述的语音基音周期检测方法,其特征在于,对所述语音输入信号进行预处理还包括:
对所述语音输入信号进行预加重、加窗及FFT处理。
4.如权利要求1-3任一项所述的语音基音周期检测方法,其特征在于,通过以下公式获得每帧语音信号对应的先验信噪比:
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,X(f,i-1)表示语音信号的频谱,N(f)表示噪声信号的频谱,i表示帧索引,α表示加权因子,SNRpost表示前一帧的先验信噪比。
5.如权利要求4所述的语音基音周期检测方法,其特征在于,通过以下公式获得每帧语音信号对应的权重值:
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,i表示帧索引,Thrsnr表示预定阈值。
6.如权利要求1所述的语音基音周期检测方法,其特征在于,根据相关性检测方法提取所述多帧语音信号中的多个基音候选项。
7.如权利要求5所述的语音基音周期检测方法,其特征在于,所述根据多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息进一步包括:
获得所述多个基音候选项中每个基音候选项对应的权重值,所述权重值包括第一权重值和第二权重值,其中,所述第一权重值与所述基音候选项对应的先验信噪比相关,所述第二权重值与相关函数的峰值强度相关。
8.如权利要求7所述的语音基音周期检测方法,其特征在于,所述根据第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径进一步包括:
对所述语音输入信号进行分段以生成多个语音段,其中,每个语音段包括多个第一基音路径;
根据代价信息对所述每个语音段中的多个第一基音路径进行排序;
选取所述每个语音段中前N个第一基音路径,N为正整数;以及
对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
9.如权利要求1所述的语音基音周期检测方法,其特征在于,还包括:
对所述至少一个第二基音路径进行平滑处理。
10.一种语音基音周期检测装置,其特征在于,包括:
预处理模块,用于接收语音输入信号并对所述语音输入信号进行预处理,其中,所述语音输入信号包括多帧语音信号;
第一获取模块,用于对所述语音输入信号中的每帧语音信号进行先验信噪比估计以获得每帧语音信号对应的先验信噪比;
第二获取模块,用于根据每帧语音信号对应的先验信噪比获得每帧语音信号对应的权重值;
提取模块,用于提取所述多帧语音信号中的多个基音候选项;
第一动态规划模块,用于根据所述多个基音候选项和先验信噪比按照预设周期对所述多帧语音信号进行第一次动态规划以获得多个第一基音路径及所述第一基音路径对应的代价信息;
第二动态规划模块,用于根据所述第一基音路径对应的代价信息对所述多个第一基音路径进行第二次动态规划以生成至少一个第二基音路径;以及
检测模块,用于根据所述至少一个第二基音路径检测所述语音基音周期。
11.如权利要求10所述的语音基音周期检测装置,其特征在于,所述预处理模块包括:
分帧单元,用于对所述语音输入信号进行分帧处理,并对所述语音输入信号进行噪声估计以获得当前噪声估计信息。
12.如权利要求11所述的语音基音周期检测装置,其特征在于,所述 预处理模块还包括:
预加重单元,用于对所述语音输入信号进行预加重、加窗及FFT处理。
13.如权利要求10-12任一项所述的语音基音周期检测装置,其特征在于,所述第一获取模块通过以下公式获得每帧语音信号对应的先验信噪比:
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,X(f,i-1)表示语音信号的频谱,N(f)表示噪声信号的频谱,i表示帧索引,α表示加权因子,SNRpost表示前一帧的先验信噪比。
14.如权利要求13所述的语音基音周期检测装置,其特征在于,所述第二获取模块通过以下公式获得每帧语音信号对应的权重值:
其中,SNRapriori(f,i)表示当前帧语音信号的先验信噪比,i表示帧索引,Thrsnr表示预定阈值。
15.如权利要求10所述的语音基音周期检测装置,其特征在于,所述提取模块还用于根据相关性检测方法提取所述多帧语音信号中的多个基音候选项。
16.如权利要求14所述的语音基音周期检测装置,其特征在于,所述第一动态规划模块还用于:
获得所述多个基音候选项中每个基音候选项对应的权重值,所述权重值包括第一权重值和第二权重值,其中,所述第一权重值与所述基音候选项对应的先验信噪比相关,所述第二权重值与相关函数的峰值强度相关。
17.如权利要求16所述的语音基音周期检测装置,其特征在于,所述第二动态规划模块包括:
分段单元,用于对所述语音输入信号进行分段以生成多个语音段,其中,每个语音段包括多个第一基音路径;
排序单元,用于根据代价信息对所述每个语音段中的多个第一基音路径进行排序;
选择单元,用于选取所述每个语音段中前N个第一基音路径,N为正整数;以及
动态规划单元,用于对多个语音段中每个语音段中选择的前N个第一基音路径进行第二次动态规划以生成至少一个第二基音路径。
18.如权利要求10所述的语音基音周期检测装置,其特征在于,还包括:
平滑模块,用于对所述至少一个第二基音路径进行平滑处理。
CN201210592093.2A 2012-12-29 2012-12-29 语音基音周期检测方法和装置 Active CN103915099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210592093.2A CN103915099B (zh) 2012-12-29 2012-12-29 语音基音周期检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210592093.2A CN103915099B (zh) 2012-12-29 2012-12-29 语音基音周期检测方法和装置

Publications (2)

Publication Number Publication Date
CN103915099A CN103915099A (zh) 2014-07-09
CN103915099B true CN103915099B (zh) 2016-12-28

Family

ID=51040726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210592093.2A Active CN103915099B (zh) 2012-12-29 2012-12-29 语音基音周期检测方法和装置

Country Status (1)

Country Link
CN (1) CN103915099B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN107025911B (zh) * 2016-01-29 2019-03-12 重庆工商职业学院 基于粒子群优化的基音频率检测方法
CN107045875B (zh) * 2016-02-03 2019-12-06 重庆工商职业学院 基于遗传算法的基音频率检测方法
CN108053832B (zh) * 2017-12-11 2021-02-26 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN108831509B (zh) * 2018-06-13 2020-12-04 西安蜂语信息科技有限公司 基音周期的确定方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1770264A (zh) * 2000-12-28 2006-05-10 日本电气株式会社 噪声估算方法和设备
CN101030375A (zh) * 2007-04-13 2007-09-05 清华大学 一种基于动态规划的基音周期提取方法
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101685638A (zh) * 2008-09-25 2010-03-31 华为技术有限公司 一种语音信号增强方法及装置
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
CN102842305A (zh) * 2011-06-22 2012-12-26 华为技术有限公司 一种基音检测的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
CN1770264A (zh) * 2000-12-28 2006-05-10 日本电气株式会社 噪声估算方法和设备
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN101030375A (zh) * 2007-04-13 2007-09-05 清华大学 一种基于动态规划的基音周期提取方法
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN101685638A (zh) * 2008-09-25 2010-03-31 华为技术有限公司 一种语音信号增强方法及装置
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN102842305A (zh) * 2011-06-22 2012-12-26 华为技术有限公司 一种基音检测的方法和装置

Also Published As

Publication number Publication date
CN103915099A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
US9870768B2 (en) Subject estimation system for estimating subject of dialog
CN103915099B (zh) 语音基音周期检测方法和装置
US8775179B2 (en) Speech-based speaker recognition systems and methods
CN105976812A (zh) 一种语音识别方法及其设备
US20190172442A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN105529028A (zh) 语音解析方法和装置
CN107564513A (zh) 语音识别方法及装置
Sadhu An integrated multivariate empirical mode decomposition method towards modal identification of structures
CN102915728B (zh) 声音分段设备和方法以及说话者识别系统
Mundodu Krishna et al. Single channel speech separation based on empirical mode decomposition and Hilbert transform
Nørholm et al. Instantaneous fundamental frequency estimation with optimal segmentation for nonstationary voiced speech
Yang et al. Playback speech detection based on magnitude–phase spectrum
CN105895089A (zh) 一种语音识别方法及装置
CN104364845A (zh) 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
US20150142450A1 (en) Sound Processing using a Product-of-Filters Model
Villalba et al. Analysis of speech quality measures for the task of estimating the reliability of speaker verification decisions
US20160366529A1 (en) Estimating parameter values for a lumped parameter model of a loudspeaker
Krishnan et al. A Savitzky-Golay filtering perspective of dynamic feature computation
Faraji et al. MMSE and maximum a posteriori estimators for speech enhancement in additive noise assuming at‐location‐scale clean speech prior
Vaghmare et al. Unsupervised noise removal technique based on constrained NMF
Kim et al. Efficient harmonic peak detection of vowel sounds for enhanced voice activity detection
CN114299918A (zh) 声学模型训练与语音合成方法、装置和系统及存储介质
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation
Mohammadi et al. Efficient implementation of GMM based speaker verification using sorted Gaussian mixture model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant