CN113129921B

CN113129921B - 用于检测语音信号中的基音的频率的方法和装置

Info

Publication number: CN113129921B
Application number: CN202110415800.XA
Authority: CN
Inventors: 任娟; 刘清珺; 陈婷
Original assignee: BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS
Current assignee: BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-04
Anticipated expiration: 2041-04-16
Also published as: CN113129921A

Abstract

本公开的实施例公开了一种用于检测语音信号中的基音的频率的方法，包括：对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图；确定所述频谱图中的与所述基音的频率有关的候选局部峰；以及对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。

Description

用于检测语音信号中的基音的频率的方法和装置

技术领域

本公开涉及信号处理领域，更具体地，涉及用于检测语音信号中的基音的频率的方法和装置。

背景技术

基音周期作为语音信号处理中描述激励源的重要参数之一，在语音合成、语音压缩编码、语音识别和说话人识别等领域都有着广泛且重要的用途。准确可靠地进行基音检测对语音信号的处理显得尤为重要。但是要精确地对基音进行估计是比较困难的，特别是在噪声环境中，基音的准确检测是一项挑战较大的工作。因而，需要在噪音环境中对语音和音乐(以下简称为“语音”)中的基音进行精准快速的检测。

公开内容

根据本公开的实施例的一个方面，提供了一种用于检测语音信号中的基音的频率的方法，包括：

对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图；

确定所述频谱图中的与所述基音的频率有关的候选局部峰；以及

对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。

在一个实施例中，确定所述频谱图中的与所述基音的频率有关的候选局部峰包括：

找出所述频谱图中的局部峰；

滤除所述局部峰中的幅值小于第一阈值的局部峰；以及

将剩余局部峰确定为与所述基音的频率有关的候选局部峰。

在一个实施例中，在对与所述基音的频率有关的候选局部峰进行过滤之前，所述方法还包括：

根据所述候选局部峰在所述频谱图中的位置确定所述候选局部峰的粗略频率；以及

利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率。

在一个实施例中，利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率包括：

利用所述Jacobsen算法对所述候选局部峰的粗略频率的位置序号进行修正以确定所述候选局部峰的第一修正值：

其中，X(k₀)、X(k₀-1)和X(k₀+1)分别是所述候选局部峰在所述频谱图中的粗略频率的位置序号k₀以及相邻位置序号k₀-1和k₀+1处的频谱值，

以k₀+δ₁作为所述傅里叶系数插值迭代算法的迭代初值k′₀来确定所述候选局部峰的第二修正值：

其中，

P＝±0.5，并且N是所述语音信号的信号长度；以及

根据所述第一修正值、所述第二修正值和所述粗略频率确定所述精确频率的位置k为：

k＝k₀+δ₁+δ₂。

在一个实施例中，对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率包括：

利用所述离散傅里叶变换的采样率和所述语音信号的信号长度计算所述基音的频率位置范围；

利用所述频率位置范围对所述候选局部峰进行过滤以确定所述频率位置范围内的候选局部峰作为候选基音；

针对所述候选基音中的每一个，依次执行以下操作：

确定该候选基音的倍频峰以及所述倍频峰的数量c；以及

当所述候选基音满足基音过滤条件时，将所述候选基音的精确频率确定为所述语音信号的基音的频率，其中所述基音过滤条件是所述倍频峰的数量c＞a*N₁且所述候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是所述第一倍频峰的整数倍，其中a是预定值，并且N₁是所述频谱图中的局部峰的数量。

在一个实施例中，a等于0.6。

在一个实施例中，对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率还包括：

当所述候选基音中不存在满足所述基音过滤条件的候选基音时，用所述候选基音中的第一候选基音的频率的位置序号除以n＝2作为新的候选基音的频率的位置序号，并且针对所述新的候选基音，执行以下检测操作：

确定该新的候选基音的倍频峰以及所述倍频峰的数量c；

当所述新的候选基音满足所述基音过滤条件时，将所述新的候选基音的精确频率确定为所述语音信号的基音的频率；以及

当所述新的候选基音不满足所述基音过滤条件时，将n+1作为新的n，用所述候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号，并且针对所述新的候选基音，重复所述检测操作，直到找到所述语音信号的基音的频率为止。

确定所述语音信号的基音的倍频峰的频率的位置序号；

按照下式确定所述语音信号的基音的最终频率的位置序号D：

其中，d₀是所述语音信号的基音的频率的位置序号，d_i是所述基音的第i个倍频峰的频率的位置序号，M_i是对d_i/d₀四舍五入后的值，其中i是大于或等于1且小于或等于L的整数，并且L是所述倍频峰的数量；以及

根据所述最终频率的位置序号来确定所述语音信号的基音的频率。

根据本公开的实施例的另一个方面，提供了一种用于检测语音信号中的基音的频率的装置，包括：

变换模块，被配置为对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图；

确定模块，被配置为确定所述频谱图中的与所述基音的频率有关的候选局部峰；以及

过滤模块，被配置为对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。

在一个实施例中，所述确定模块被进一步配置为：

找出所述频谱图中的局部峰；

滤除所述局部峰中的幅值小于第一阈值的局部峰；以及

将剩余局部峰确定为与所述基音的频率有关的候选局部峰。

在一个实施例中，所述装置还包括：修正模块，被配置为在对与所述基音的频率有关的候选局部峰进行过滤之前，执行以下操作：

在一个实施例中，所述修正模块还被配置为：

其中，

P＝±0.5，并且N是所述语音信号的信号长度；以及

k＝k₀+δ₁+δ₂。

在一个实施例中，所述过滤模块还被配置为：

针对所述候选基音中的每一个，依次执行以下操作：

确定该候选基音的倍频峰以及所述倍频峰的数量c；以及

在一个实施例中，a等于0.6。

在一个实施例中，所述过滤模块还被配置为：

确定该新的候选基音的倍频峰以及所述倍频峰的数量c；

在一个实施例中，所述过滤模块还被配置为：

确定所述语音信号的基音的倍频峰的频率的位置序号；

按照下式确定所述语音信号的基音的最终频率的位置序号D：

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本公开的实施例的用于检测语音信号中的基音的频率的方法的流程图；

图2示出了根据本公开的实施例的语音的频谱图；

图3示出了根据本公开的另一实施例的语音的频谱图；

图4示出了根据本公开的实施例的用于检测语音信号中的基音的频率的装置的框图；以及

图5示出了根据本公开的实施例的用于检测语音信号中的基音的频率的系统的示意图。

附图没有对实施例的所有电路或结构进行显示。贯穿所有附图相同的附图标记表示相同或相似的部件或特征。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示出了根据本公开的实施例的用于检测语音信号中的基音的频率的方法100的流程图。在步骤S110中，可以对语音信号执行离散傅里叶变换(DFT)以获得语音信号的频谱图。语音信号可以是由基音和泛音(其频率是基音的倍频)组成。由于基音和泛音的能量比较大，因此在频谱图中存在与基音和泛音中的每一个相对应的局部峰。可以通过下式来判断一个局部峰是否是基音的倍频峰(即，与泛音相对应的局部峰)：

其中，f_k是要判断的局部峰的频率，f₁是基音的频率，k为对f_k/f₁进行四舍五入后得到的值，δ可以是预定的值，例如，δ＝0.8。

在步骤S120中，可以确定频谱图中的与基音的频率有关的候选局部峰。步骤S120可以包括：找出频谱图中的局部峰，滤除局部峰中的幅值小于第一阈值的局部峰，并且将剩余局部峰确定为与基音的频率有关的候选局部峰。第一阈值可以根据语音信号的最大功率来确定。例如，第一阈值T满足下式：

其中，

N为语音信号的信号长度，X(i)为归一化后的语音信号的幅度。

为了更准确地确定语音信号中的基音的频率，在步骤S130之前，方法100还可以包括：根据候选局部峰在频谱图中的位置确定候选局部峰的粗略频率，并且利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率。

利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率可以包括：根据下式利用Jacobsen算法对候选局部峰的粗略频率的位置序号进行修正以确定候选局部峰的第一修正值：

其中，X(k₀)、X(k₀-1)和X(k₀+1)分别是候选局部峰在频谱图中的粗略频率的位置序号k₀以及相邻位置序号k₀-1和k₀+1处的频谱值，

根据下式以k₀+δ₁作为傅里叶系数插值迭代算法的迭代初值k′₀来确定候选局部峰的第二修正值：

其中，

P＝±0.5，并且N是语音信号的信号长度；以及

基于下式根据第一修正值、第二修正值和粗略频率确定精确频率的位置k为：

k＝k₀+δ₁+δ₂。

在根据步骤S120得到的候选局部峰中，仍然存在一些不属于基音的局部峰，因而还需要对这些候选局部峰进行过滤。在步骤S130中，可以对与基音的频率有关的候选局部峰进行过滤以确定语音信号中的基音的频率。

步骤S130可以包括：利用离散傅里叶变换的采样率和语音信号的信号长度计算基音的频率位置范围；利用频率位置范围对候选局部峰进行过滤以确定频率位置范围内的候选局部峰作为候选基音；针对候选基音中的每一个，依次执行以下操作：

确定该候选基音的倍频峰以及倍频峰的数量c；以及当候选基音满足基音过滤条件时，将候选基音的精确频率确定为语音信号的基音的频率，其中基音过滤条件是倍频峰的数量c＞a*N₁且候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是第一倍频峰的整数倍，其中a是预定值，并且N₁是频谱图中的局部峰的数量。a可以等于0.6。

在基音过滤条件中设置了候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是第一倍频峰的整数倍这样的条件，因为在候选局部峰中可能存在频率正好位于基音的频率的1/2、1/3等整数分之一处的局部峰，这些局部峰满足倍频峰的数量c＞a*N₁，但仍不是基音。例如，图2中的第一局部峰的频率位于第二局部峰(即，基音)的频率的1/2处。在该第一局部峰的倍频峰中，除了第一倍频峰之外的倍频峰的频率(例如，基音的频率的2、3、4倍等)必定都是第一倍频峰的频率(例如，基音的频率)的整数倍，而对于基音的频率而言，其第一倍频峰的频率(例如，基音的频率的2倍)与除了第一倍频峰之外的倍频峰的频率(例如，基音的频率的3、4、5倍等)之间不存在这种关系。因而，可以据此判断局部峰是否应当被过滤。

步骤S130还可以包括：当候选基音中不存在满足基音过滤条件的候选基音(如图3所示)时，用候选基音中的第一候选基音的频率的位置序号除以n＝2作为新的候选基音的频率的位置序号，并且针对新的候选基音，执行以下检测操作：

确定该新的候选基音的倍频峰以及倍频峰的数量c；

当新的候选基音满足基音过滤条件时，将新的候选基音的精确频率确定为语音信号的基音的频率；以及

当新的候选基音不满足基音过滤条件时，将n+1作为新的n，用候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号，并且针对新的候选基音，重复检测操作，直到找到语音信号的基音的频率为止；否则，认为该语音信号中不存在基音。

利用上述方法找到的基音的频率可能还存在较小的误差，因为用Jacobsen算法和傅里叶系数插值迭代算法对频率进行修正可能存在误差，因此还可以利用倍频信息对基音的频率进行进一步修正。

为此，步骤S130还可以包括：确定语音信号的基音的倍频峰的频率的位置序号；按照下式确定语音信号的基音的最终频率的位置序号D：

其中，d₀是语音信号的基音的频率的位置序号，d_i是基音的第i个倍频峰的频率的位置序号，M_i是对d_i/d₀四舍五入后的值，其中i是大于或等于1且小于或等于L的整数，并且L是倍频峰的数量；以及

根据最终频率的位置序号来确定语音信号的基音的频率。

由于倍频峰的频率除以其相对于基音的频率的倍数也等于基音的频率，因此将根据所有倍频峰的频率计算出的基音的频率与基音的频率进行加权平均，并且将加权平均后的结果作为最终确定的基音的频率，能够提高所确定的基音的频率的准确度。

图4示出了根据本公开的实施例的用于检测语音信号中的基音的频率的装置400的框图。装置400可以包括：变换模块410、确定模块420和过滤模块430。变换模块410可以被配置为对语音信号执行离散傅里叶变换以获得语音信号的频谱图。确定模块420可以被配置为确定频谱图中的与基音的频率有关的候选局部峰。过滤模块430可以被配置为对与基音的频率有关的候选局部峰进行过滤以确定语音信号中的基音的频率。

确定模块420被进一步配置为：找出频谱图中的局部峰，滤除局部峰中的幅值小于第一阈值的局部峰，并且将剩余局部峰确定为与基音的频率有关的候选局部峰。

装置400还可以包括修正模块440。修正模块440可以被配置为在对与基音的频率有关的候选局部峰进行过滤之前，执行以下操作：根据候选局部峰在频谱图中的位置确定候选局部峰的粗略频率，并且利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率。

修正模块440还可以被配置为：利用Jacobsen算法对候选局部峰的粗略频率的位置序号进行修正以确定候选局部峰的第一修正值：

以k₀+δ₁作为傅里叶系数插值迭代算法的迭代初值k′₀来确定候选局部峰的第二修正值：

其中，

P＝±0.5，并且N是语音信号的信号长度；以及

根据第一修正值、第二修正值和粗略频率确定精确频率的位置k为：

k＝k₀+δ₁+δ₂。

过滤模块430还可以被配置为：利用离散傅里叶变换的采样率和语音信号的信号长度计算基音的频率位置范围；利用频率位置范围对候选局部峰进行过滤以确定频率位置范围内的候选局部峰作为候选基音；针对候选基音中的每一个，依次执行以下操作：

过滤模块430还可以被配置为：当候选基音中不存在满足基音过滤条件的候选基音时，用候选基音中的第一候选基音的频率的位置序号除以n＝2作为新的候选基音的频率的位置序号，并且针对新的候选基音，执行以下检测操作：

确定该新的候选基音的倍频峰以及倍频峰的数量c；

当新的候选基音不满足基音过滤条件时，将n+1作为新的n，用候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号，并且针对新的候选基音，重复检测操作，直到找到语音信号的基音的频率为止。

过滤模块430还可以被配置为：确定语音信号的基音的倍频峰的频率的位置序号；按照下式确定语音信号的基音的最终频率的位置序号D：

根据最终频率的位置序号来确定语音信号的基音的频率。

图5示出了根据本公开的实施例的用于检测语音信号中的基音的频率的系统500的示意图。系统500可以包括处理器510，例如，数字信号处理器(DSP)。处理器510可以是用于执行本文所描述的过程的不同动作的单个装置或多个装置。系统500还可以包括输入/输出(I/O)装置530，用于从其他实体接收信号或者向其他实体发送信号。

此外，系统500可以包括存储器520，该存储器520可以具有以下形式：非易失性或易失性存储器，例如，电可擦除可编程只读存储器(EEPROM)、闪存等。存储器520可以存储计算机可读指令，当处理器510执行该计算机可读指令时，该计算机可读指令可以使处理器执行本文所述的动作。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统(例如，一个或多个处理器)使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了用于检测语音信号中的基音的频率的方法、装置和系统的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中，本公开的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而，本领域技术人员应认识到，这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中，实现为在一台或多台计算机上运行的一个或多个计算机程序(例如，实现为在一台或多台计算机系统上运行的一个或多个程序)，实现为在一个或多个处理器上运行的一个或多个程序(例如，实现为在一个或多个微处理器上运行的一个或多个程序)，实现为固件，或者实质上实现为上述方式的任意组合，并且本领域技术人员根据本公开，将具备设计电路和/或写入软件和/或固件代码的能力。此外，本领域技术人员将认识到，本公开所述主题的机制能够作为多种形式的程序产品进行分发，并且无论实际用来执行分发的信号承载介质的具体类型如何，本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(例如，光纤光缆、波导、有线通信链路、无线通信链路等)。