CN113129921A - 用于检测语音信号中的基音的频率的方法和装置 - Google Patents

用于检测语音信号中的基音的频率的方法和装置 Download PDF

Info

Publication number
CN113129921A
CN113129921A CN202110415800.XA CN202110415800A CN113129921A CN 113129921 A CN113129921 A CN 113129921A CN 202110415800 A CN202110415800 A CN 202110415800A CN 113129921 A CN113129921 A CN 113129921A
Authority
CN
China
Prior art keywords
frequency
candidate
pitch
peaks
fundamental tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110415800.XA
Other languages
English (en)
Other versions
CN113129921B (zh
Inventor
任娟
刘清珺
陈婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS
Original Assignee
BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS filed Critical BEIJING CENTER FOR PHYSICAL AND CHEMICAL ANALYSIS
Priority to CN202110415800.XA priority Critical patent/CN113129921B/zh
Publication of CN113129921A publication Critical patent/CN113129921A/zh
Application granted granted Critical
Publication of CN113129921B publication Critical patent/CN113129921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本公开的实施例公开了一种用于检测语音信号中的基音的频率的方法,包括:对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图;确定所述频谱图中的与所述基音的频率有关的候选局部峰;以及对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。

Description

用于检测语音信号中的基音的频率的方法和装置
技术领域
本公开涉及信号处理领域,更具体地,涉及用于检测语音信号中的基音的频率的方法和装置。
背景技术
基音周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人识别等领域都有着广泛且重要的用途。准确可靠地进行基音检测对语音信号的处理显得尤为重要。但是要精确地对基音进行估计是比较困难的,特别是在噪声环境中,基音的准确检测是一项挑战较大的工作。因而,需要在噪音环境中对语音和音乐(以下简称为“语音”)中的基音进行精准快速的检测。
公开内容
根据本公开的实施例的一个方面,提供了一种用于检测语音信号中的基音的频率的方法,包括:
对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图;
确定所述频谱图中的与所述基音的频率有关的候选局部峰;以及
对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。
在一个实施例中,确定所述频谱图中的与所述基音的频率有关的候选局部峰包括:
找出所述频谱图中的局部峰;
滤除所述局部峰中的幅值小于第一阈值的局部峰;以及
将剩余局部峰确定为与所述基音的频率有关的候选局部峰。
在一个实施例中,在对与所述基音的频率有关的候选局部峰进行过滤之前,所述方法还包括:
根据所述候选局部峰在所述频谱图中的位置确定所述候选局部峰的粗略频率;以及
利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率。
在一个实施例中,利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率包括:
利用所述Jacobsen算法对所述候选局部峰的粗略频率的位置序号进行修正以确定所述候选局部峰的第一修正值:
Figure BDA0003024540530000021
其中,X(k0)、X(k0-1)和X(k0+1)分别是所述候选局部峰在所述频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
以k01作为所述傅里叶系数插值迭代算法的迭代初值k′0来确定所述候选局部峰的第二修正值:
Figure BDA0003024540530000022
其中,
Figure BDA0003024540530000023
P=±0.5,并且N是所述语音信号的信号长度;以及
根据所述第一修正值、所述第二修正值和所述粗略频率确定所述精确频率的位置k为:
k=k012
在一个实施例中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率包括:
利用所述离散傅里叶变换的采样率和所述语音信号的信号长度计算所述基音的频率位置范围;
利用所述频率位置范围对所述候选局部峰进行过滤以确定所述频率位置范围内的候选局部峰作为候选基音;
针对所述候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及所述倍频峰的数量c;以及
当所述候选基音满足基音过滤条件时,将所述候选基音的精确频率确定为所述语音信号的基音的频率,其中所述基音过滤条件是所述倍频峰的数量c>a*N1且所述候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是所述第一倍频峰的整数倍,其中a是预定值,并且N1是所述频谱图中的局部峰的数量。
在一个实施例中,a等于0.6。
在一个实施例中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率还包括:
当所述候选基音中不存在满足所述基音过滤条件的候选基音时,用所述候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及所述倍频峰的数量c;
当所述新的候选基音满足所述基音过滤条件时,将所述新的候选基音的精确频率确定为所述语音信号的基音的频率;以及
当所述新的候选基音不满足所述基音过滤条件时,将n+1作为新的n,用所述候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,重复所述检测操作,直到找到所述语音信号的基音的频率为止。
在一个实施例中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率还包括:
确定所述语音信号的基音的倍频峰的频率的位置序号;
按照下式确定所述语音信号的基音的最终频率的位置序号D:
Figure BDA0003024540530000041
其中,d0是所述语音信号的基音的频率的位置序号,di是所述基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是所述倍频峰的数量;以及
根据所述最终频率的位置序号来确定所述语音信号的基音的频率。
根据本公开的实施例的另一个方面,提供了一种用于检测语音信号中的基音的频率的装置,包括:
变换模块,被配置为对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图;
确定模块,被配置为确定所述频谱图中的与所述基音的频率有关的候选局部峰;以及
过滤模块,被配置为对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。
在一个实施例中,所述确定模块被进一步配置为:
找出所述频谱图中的局部峰;
滤除所述局部峰中的幅值小于第一阈值的局部峰;以及
将剩余局部峰确定为与所述基音的频率有关的候选局部峰。
在一个实施例中,所述装置还包括:修正模块,被配置为在对与所述基音的频率有关的候选局部峰进行过滤之前,执行以下操作:
根据所述候选局部峰在所述频谱图中的位置确定所述候选局部峰的粗略频率;以及
利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率。
在一个实施例中,所述修正模块还被配置为:
利用所述Jacobsen算法对所述候选局部峰的粗略频率的位置序号进行修正以确定所述候选局部峰的第一修正值:
Figure BDA0003024540530000051
其中,X(k0)、X(k0-1)和X(k0+1)分别是所述候选局部峰在所述频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
以k01作为所述傅里叶系数插值迭代算法的迭代初值k′0来确定所述候选局部峰的第二修正值:
Figure BDA0003024540530000052
其中,
Figure BDA0003024540530000053
P=±0.5,并且N是所述语音信号的信号长度;以及
根据所述第一修正值、所述第二修正值和所述粗略频率确定所述精确频率的位置k为:
k=k012
在一个实施例中,所述过滤模块还被配置为:
利用所述离散傅里叶变换的采样率和所述语音信号的信号长度计算所述基音的频率位置范围;
利用所述频率位置范围对所述候选局部峰进行过滤以确定所述频率位置范围内的候选局部峰作为候选基音;
针对所述候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及所述倍频峰的数量c;以及
当所述候选基音满足基音过滤条件时,将所述候选基音的精确频率确定为所述语音信号的基音的频率,其中所述基音过滤条件是所述倍频峰的数量c>a*N1且所述候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是所述第一倍频峰的整数倍,其中a是预定值,并且N1是所述频谱图中的局部峰的数量。
在一个实施例中,a等于0.6。
在一个实施例中,所述过滤模块还被配置为:
当所述候选基音中不存在满足所述基音过滤条件的候选基音时,用所述候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及所述倍频峰的数量c;
当所述新的候选基音满足所述基音过滤条件时,将所述新的候选基音的精确频率确定为所述语音信号的基音的频率;以及
当所述新的候选基音不满足所述基音过滤条件时,将n+1作为新的n,用所述候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,重复所述检测操作,直到找到所述语音信号的基音的频率为止。
在一个实施例中,所述过滤模块还被配置为:
确定所述语音信号的基音的倍频峰的频率的位置序号;
按照下式确定所述语音信号的基音的最终频率的位置序号D:
Figure BDA0003024540530000061
其中,d0是所述语音信号的基音的频率的位置序号,di是所述基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是所述倍频峰的数量;以及
根据所述最终频率的位置序号来确定所述语音信号的基音的频率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本公开的实施例的用于检测语音信号中的基音的频率的方法的流程图;
图2示出了根据本公开的实施例的语音的频谱图;
图3示出了根据本公开的另一实施例的语音的频谱图;
图4示出了根据本公开的实施例的用于检测语音信号中的基音的频率的装置的框图;以及
图5示出了根据本公开的实施例的用于检测语音信号中的基音的频率的系统的示意图。
附图没有对实施例的所有电路或结构进行显示。贯穿所有附图相同的附图标记表示相同或相似的部件或特征。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
图1示出了根据本公开的实施例的用于检测语音信号中的基音的频率的方法100的流程图。在步骤S110中,可以对语音信号执行离散傅里叶变换(DFT)以获得语音信号的频谱图。语音信号可以是由基音和泛音(其频率是基音的倍频)组成。由于基音和泛音的能量比较大,因此在频谱图中存在与基音和泛音中的每一个相对应的局部峰。可以通过下式来判断一个局部峰是否是基音的倍频峰(即,与泛音相对应的局部峰):
Figure BDA0003024540530000081
其中,fk是要判断的局部峰的频率,f1是基音的频率,k为对fk/f1进行四舍五入后得到的值,δ可以是预定的值,例如,δ=0.8。
在步骤S120中,可以确定频谱图中的与基音的频率有关的候选局部峰。步骤S120可以包括:找出频谱图中的局部峰,滤除局部峰中的幅值小于第一阈值的局部峰,并且将剩余局部峰确定为与基音的频率有关的候选局部峰。第一阈值可以根据语音信号的最大功率来确定。例如,第一阈值T满足下式:
Figure BDA0003024540530000082
其中,
Figure BDA0003024540530000083
N为语音信号的信号长度,X(i)为归一化后的语音信号的幅度。
为了更准确地确定语音信号中的基音的频率,在步骤S130之前,方法100还可以包括:根据候选局部峰在频谱图中的位置确定候选局部峰的粗略频率,并且利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率。
利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率可以包括:根据下式利用Jacobsen算法对候选局部峰的粗略频率的位置序号进行修正以确定候选局部峰的第一修正值:
Figure BDA0003024540530000084
其中,X(k0)、X(k0-1)和X(k0+1)分别是候选局部峰在频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
根据下式以k01作为傅里叶系数插值迭代算法的迭代初值k′0来确定候选局部峰的第二修正值:
Figure BDA0003024540530000091
其中,
Figure BDA0003024540530000092
P=±0.5,并且N是语音信号的信号长度;以及
基于下式根据第一修正值、第二修正值和粗略频率确定精确频率的位置k为:
k=k012
在根据步骤S120得到的候选局部峰中,仍然存在一些不属于基音的局部峰,因而还需要对这些候选局部峰进行过滤。在步骤S130中,可以对与基音的频率有关的候选局部峰进行过滤以确定语音信号中的基音的频率。
步骤S130可以包括:利用离散傅里叶变换的采样率和语音信号的信号长度计算基音的频率位置范围;利用频率位置范围对候选局部峰进行过滤以确定频率位置范围内的候选局部峰作为候选基音;针对候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及倍频峰的数量c;以及当候选基音满足基音过滤条件时,将候选基音的精确频率确定为语音信号的基音的频率,其中基音过滤条件是倍频峰的数量c>a*N1且候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是第一倍频峰的整数倍,其中a是预定值,并且N1是频谱图中的局部峰的数量。a可以等于0.6。
在基音过滤条件中设置了候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是第一倍频峰的整数倍这样的条件,因为在候选局部峰中可能存在频率正好位于基音的频率的1/2、1/3等整数分之一处的局部峰,这些局部峰满足倍频峰的数量c>a*N1,但仍不是基音。例如,图2中的第一局部峰的频率位于第二局部峰(即,基音)的频率的1/2处。在该第一局部峰的倍频峰中,除了第一倍频峰之外的倍频峰的频率(例如,基音的频率的2、3、4倍等)必定都是第一倍频峰的频率(例如,基音的频率)的整数倍,而对于基音的频率而言,其第一倍频峰的频率(例如,基音的频率的2倍)与除了第一倍频峰之外的倍频峰的频率(例如,基音的频率的3、4、5倍等)之间不存在这种关系。因而,可以据此判断局部峰是否应当被过滤。
步骤S130还可以包括:当候选基音中不存在满足基音过滤条件的候选基音(如图3所示)时,用候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及倍频峰的数量c;
当新的候选基音满足基音过滤条件时,将新的候选基音的精确频率确定为语音信号的基音的频率;以及
当新的候选基音不满足基音过滤条件时,将n+1作为新的n,用候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对新的候选基音,重复检测操作,直到找到语音信号的基音的频率为止;否则,认为该语音信号中不存在基音。
利用上述方法找到的基音的频率可能还存在较小的误差,因为用Jacobsen算法和傅里叶系数插值迭代算法对频率进行修正可能存在误差,因此还可以利用倍频信息对基音的频率进行进一步修正。
为此,步骤S130还可以包括:确定语音信号的基音的倍频峰的频率的位置序号;按照下式确定语音信号的基音的最终频率的位置序号D:
Figure BDA0003024540530000111
其中,d0是语音信号的基音的频率的位置序号,di是基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是倍频峰的数量;以及
根据最终频率的位置序号来确定语音信号的基音的频率。
由于倍频峰的频率除以其相对于基音的频率的倍数也等于基音的频率,因此将根据所有倍频峰的频率计算出的基音的频率与基音的频率进行加权平均,并且将加权平均后的结果作为最终确定的基音的频率,能够提高所确定的基音的频率的准确度。
图4示出了根据本公开的实施例的用于检测语音信号中的基音的频率的装置400的框图。装置400可以包括:变换模块410、确定模块420和过滤模块430。变换模块410可以被配置为对语音信号执行离散傅里叶变换以获得语音信号的频谱图。确定模块420可以被配置为确定频谱图中的与基音的频率有关的候选局部峰。过滤模块430可以被配置为对与基音的频率有关的候选局部峰进行过滤以确定语音信号中的基音的频率。
确定模块420被进一步配置为:找出频谱图中的局部峰,滤除局部峰中的幅值小于第一阈值的局部峰,并且将剩余局部峰确定为与基音的频率有关的候选局部峰。
装置400还可以包括修正模块440。修正模块440可以被配置为在对与基音的频率有关的候选局部峰进行过滤之前,执行以下操作:根据候选局部峰在频谱图中的位置确定候选局部峰的粗略频率,并且利用Jacobsen算法和傅里叶系数插值迭代算法对候选局部峰的粗略频率进行修正以确定候选局部峰的精确频率。
修正模块440还可以被配置为:利用Jacobsen算法对候选局部峰的粗略频率的位置序号进行修正以确定候选局部峰的第一修正值:
Figure BDA0003024540530000112
其中,X(k0)、X(k0-1)和X(k0+1)分别是候选局部峰在频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
以k01作为傅里叶系数插值迭代算法的迭代初值k′0来确定候选局部峰的第二修正值:
Figure BDA0003024540530000121
其中,
Figure BDA0003024540530000122
P=±0.5,并且N是语音信号的信号长度;以及
根据第一修正值、第二修正值和粗略频率确定精确频率的位置k为:
k=k012
过滤模块430还可以被配置为:利用离散傅里叶变换的采样率和语音信号的信号长度计算基音的频率位置范围;利用频率位置范围对候选局部峰进行过滤以确定频率位置范围内的候选局部峰作为候选基音;针对候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及倍频峰的数量c;以及当候选基音满足基音过滤条件时,将候选基音的精确频率确定为语音信号的基音的频率,其中基音过滤条件是倍频峰的数量c>a*N1且候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是第一倍频峰的整数倍,其中a是预定值,并且N1是频谱图中的局部峰的数量。a可以等于0.6。
过滤模块430还可以被配置为:当候选基音中不存在满足基音过滤条件的候选基音时,用候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及倍频峰的数量c;
当新的候选基音满足基音过滤条件时,将新的候选基音的精确频率确定为语音信号的基音的频率;以及
当新的候选基音不满足基音过滤条件时,将n+1作为新的n,用候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对新的候选基音,重复检测操作,直到找到语音信号的基音的频率为止。
过滤模块430还可以被配置为:确定语音信号的基音的倍频峰的频率的位置序号;按照下式确定语音信号的基音的最终频率的位置序号D:
Figure BDA0003024540530000131
其中,d0是语音信号的基音的频率的位置序号,di是基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是倍频峰的数量;以及
根据最终频率的位置序号来确定语音信号的基音的频率。
图5示出了根据本公开的实施例的用于检测语音信号中的基音的频率的系统500的示意图。系统500可以包括处理器510,例如,数字信号处理器(DSP)。处理器510可以是用于执行本文所描述的过程的不同动作的单个装置或多个装置。系统500还可以包括输入/输出(I/O)装置530,用于从其他实体接收信号或者向其他实体发送信号。
此外,系统500可以包括存储器520,该存储器520可以具有以下形式:非易失性或易失性存储器,例如,电可擦除可编程只读存储器(EEPROM)、闪存等。存储器520可以存储计算机可读指令,当处理器510执行该计算机可读指令时,该计算机可读指令可以使处理器执行本文所述的动作。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统(例如,一个或多个处理器)使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
以上的详细描述通过使用示意图、流程图和/或示例,已经阐述了用于检测语音信号中的基音的频率的方法、装置和系统的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下,本领域技术人员应理解,这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中,本公开的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而,本领域技术人员应认识到,这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中,实现为在一台或多台计算机上运行的一个或多个计算机程序(例如,实现为在一台或多台计算机系统上运行的一个或多个程序),实现为在一个或多个处理器上运行的一个或多个程序(例如,实现为在一个或多个微处理器上运行的一个或多个程序),实现为固件,或者实质上实现为上述方式的任意组合,并且本领域技术人员根据本公开,将具备设计电路和/或写入软件和/或固件代码的能力。此外,本领域技术人员将认识到,本公开所述主题的机制能够作为多种形式的程序产品进行分发,并且无论实际用来执行分发的信号承载介质的具体类型如何,本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于:可记录型介质,如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等;以及传输型介质,如数字和/或模拟通信介质(例如,光纤光缆、波导、有线通信链路、无线通信链路等)。

Claims (16)

1.一种用于检测语音信号中的基音的频率的方法,包括:
对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图;
确定所述频谱图中的与所述基音的频率有关的候选局部峰;以及
对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。
2.根据权利要求1所述的方法,其中,确定所述频谱图中的与所述基音的频率有关的候选局部峰包括:
找出所述频谱图中的局部峰;
滤除所述局部峰中的幅值小于第一阈值的局部峰;以及
将剩余局部峰确定为与所述基音的频率有关的候选局部峰。
3.根据权利要求1所述的方法,其中,在对与所述基音的频率有关的候选局部峰进行过滤之前,所述方法还包括:
根据所述候选局部峰在所述频谱图中的位置确定所述候选局部峰的粗略频率;以及
利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率。
4.根据权利要求3所述的方法,其中,利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率包括:
利用所述Jacobsen算法对所述候选局部峰的粗略频率的位置序号进行修正以确定所述候选局部峰的第一修正值:
Figure FDA0003024540520000011
其中,X(k0)、X(k0-1)和X(k0+1)分别是所述候选局部峰在所述频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
以k01作为所述傅里叶系数插值迭代算法的迭代初值k′0来确定所述候选局部峰的第二修正值:
Figure FDA0003024540520000021
其中,
Figure FDA0003024540520000022
P=±0.5,并且N是所述语音信号的信号长度;以及
根据所述第一修正值、所述第二修正值和所述粗略频率确定所述精确频率的位置k为:
k=k012
5.根据权利要求3所述的方法,其中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率包括:
利用所述离散傅里叶变换的采样率和所述语音信号的信号长度计算所述基音的频率位置范围;
利用所述频率位置范围对所述候选局部峰进行过滤以确定所述频率位置范围内的候选局部峰作为候选基音;
针对所述候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及所述倍频峰的数量c;以及
当所述候选基音满足基音过滤条件时,将所述候选基音的精确频率确定为所述语音信号的基音的频率,其中所述基音过滤条件是所述倍频峰的数量c>a*N1且所述候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是所述第一倍频峰的整数倍,其中a是预定值,并且N1是所述频谱图中的局部峰的数量。
6.根据权利要求5所述的方法,其中,a等于0.6。
7.根据权利要求5所述的方法,其中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率还包括:
当所述候选基音中不存在满足所述基音过滤条件的候选基音时,用所述候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及所述倍频峰的数量c;
当所述新的候选基音满足所述基音过滤条件时,将所述新的候选基音的精确频率确定为所述语音信号的基音的频率;以及
当所述新的候选基音不满足所述基音过滤条件时,将n+1作为新的n,用所述候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,重复所述检测操作,直到找到所述语音信号的基音的频率为止。
8.根据权利要求5或7所述的方法,其中,对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率还包括:
确定所述语音信号的基音的倍频峰的频率的位置序号;
按照下式确定所述语音信号的基音的最终频率的位置序号D:
Figure FDA0003024540520000031
其中,d0是所述语音信号的基音的频率的位置序号,di是所述基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是所述倍频峰的数量;以及
根据所述最终频率的位置序号来确定所述语音信号的基音的频率。
9.一种用于检测语音信号中的基音的频率的装置,包括:
变换模块,被配置为对所述语音信号执行离散傅里叶变换以获得所述语音信号的频谱图;
确定模块,被配置为确定所述频谱图中的与所述基音的频率有关的候选局部峰;以及
过滤模块,被配置为对与所述基音的频率有关的候选局部峰进行过滤以确定所述语音信号中的所述基音的频率。
10.根据权利要求9所述的装置,其中,所述确定模块被进一步配置为:
找出所述频谱图中的局部峰;
滤除所述局部峰中的幅值小于第一阈值的局部峰;以及
将剩余局部峰确定为与所述基音的频率有关的候选局部峰。
11.根据权利要求9所述的装置,还包括:修正模块,被配置为在对与所述基音的频率有关的候选局部峰进行过滤之前,执行以下操作:
根据所述候选局部峰在所述频谱图中的位置确定所述候选局部峰的粗略频率;以及
利用Jacobsen算法和傅里叶系数插值迭代算法对所述候选局部峰的粗略频率进行修正以确定所述候选局部峰的精确频率。
12.根据权利要求11所述的装置,其中,所述修正模块还被配置为:
利用所述Jacobsen算法对所述候选局部峰的粗略频率的位置序号进行修正以确定所述候选局部峰的第一修正值:
Figure FDA0003024540520000041
其中,X(k0)、X(k0-1)和X(k0+1)分别是所述候选局部峰在所述频谱图中的粗略频率的位置序号k0以及相邻位置序号k0-1和k0+1处的频谱值,
以k01作为所述傅里叶系数插值迭代算法的迭代初值k′0来确定所述候选局部峰的第二修正值:
Figure FDA0003024540520000051
其中,
Figure FDA0003024540520000052
P=±0.5,并且N是所述语音信号的信号长度;以及
根据所述第一修正值、所述第二修正值和所述粗略频率确定所述精确频率的位置k为:
k=k012
13.根据权利要求11所述的装置,其中,所述过滤模块还被配置为:
利用所述离散傅里叶变换的采样率和所述语音信号的信号长度计算所述基音的频率位置范围;
利用所述频率位置范围对所述候选局部峰进行过滤以确定所述频率位置范围内的候选局部峰作为候选基音;
针对所述候选基音中的每一个,依次执行以下操作:
确定该候选基音的倍频峰以及所述倍频峰的数量c;以及
当所述候选基音满足基音过滤条件时,将所述候选基音的精确频率确定为所述语音信号的基音的频率,其中所述基音过滤条件是所述倍频峰的数量c>a*N1且所述候选基音的倍频峰中除了第一倍频峰之外的倍频峰的频率不是所述第一倍频峰的整数倍,其中a是预定值,并且N1是所述频谱图中的局部峰的数量。
14.根据权利要求13所述的装置,其中,a等于0.6。
15.根据权利要求13所述的装置,其中,所述过滤模块还被配置为:
当所述候选基音中不存在满足所述基音过滤条件的候选基音时,用所述候选基音中的第一候选基音的频率的位置序号除以n=2作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,执行以下检测操作:
确定该新的候选基音的倍频峰以及所述倍频峰的数量c;
当所述新的候选基音满足所述基音过滤条件时,将所述新的候选基音的精确频率确定为所述语音信号的基音的频率;以及
当所述新的候选基音不满足所述基音过滤条件时,将n+1作为新的n,用所述候选基音中的第一候选基音的频率的位置序号除以n作为新的候选基音的频率的位置序号,并且针对所述新的候选基音,重复所述检测操作,直到找到所述语音信号的基音的频率为止。
16.根据权利要求13或15所述的装置,其中,所述过滤模块还被配置为:
确定所述语音信号的基音的倍频峰的频率的位置序号;
按照下式确定所述语音信号的基音的最终频率的位置序号D:
Figure FDA0003024540520000061
其中,d0是所述语音信号的基音的频率的位置序号,di是所述基音的第i个倍频峰的频率的位置序号,Mi是对di/d0四舍五入后的值,其中i是大于或等于1且小于或等于L的整数,并且L是所述倍频峰的数量;以及
根据所述最终频率的位置序号来确定所述语音信号的基音的频率。
CN202110415800.XA 2021-04-16 2021-04-16 用于检测语音信号中的基音的频率的方法和装置 Active CN113129921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110415800.XA CN113129921B (zh) 2021-04-16 2021-04-16 用于检测语音信号中的基音的频率的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110415800.XA CN113129921B (zh) 2021-04-16 2021-04-16 用于检测语音信号中的基音的频率的方法和装置

Publications (2)

Publication Number Publication Date
CN113129921A true CN113129921A (zh) 2021-07-16
CN113129921B CN113129921B (zh) 2022-10-04

Family

ID=76777348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110415800.XA Active CN113129921B (zh) 2021-04-16 2021-04-16 用于检测语音信号中的基音的频率的方法和装置

Country Status (1)

Country Link
CN (1) CN113129921B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990080416A (ko) * 1998-04-16 1999-11-05 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
CN101814291A (zh) * 2009-02-20 2010-08-25 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103941089A (zh) * 2014-04-15 2014-07-23 南京邮电大学 基于dft的正弦信号频率估计方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219635B1 (en) * 1997-11-25 2001-04-17 Douglas L. Coulter Instantaneous detection of human speech pitch pulses
KR19990080416A (ko) * 1998-04-16 1999-11-05 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
CN101814291A (zh) * 2009-02-20 2010-08-25 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN103941089A (zh) * 2014-04-15 2014-07-23 南京邮电大学 基于dft的正弦信号频率估计方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
E.ABOUTANIOS AND B.MULGREW: "Iterative frequencyestimation by interpolation on Fourier coefficients", 《IEEE TRANSACTIONSON SIGNAL PROCESSING》 *
E.JACOBSEN AND P.KOOTSOOKOS: "Fast,accurate frequency estimators[DSPtipstricks]", 《IEEE SIGNAL PROCESS.MAG.》 *
唐鹏飞等: "基于FFT的快速高精度正弦信号频率估计算法", 《现代雷达》 *
李康等: "一种基于匹配滤波插值的频偏估计方法", 《光通信研究》 *
柏果等: "利用DFT和迭代校正的正弦信号频率估计算法", 《信号处理》 *

Also Published As

Publication number Publication date
CN113129921B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
Magron et al. Model-based STFT phase recovery for audio source separation
US9451304B2 (en) Sound feature priority alignment
US7809554B2 (en) Apparatus, method and medium for detecting voiced sound and unvoiced sound
US11942102B2 (en) Pyramid vector quantizer shape search
CN102117618B (zh) 一种消除音乐噪声的方法、装置及系统
US10262680B2 (en) Variable sound decomposition masks
US20150112670A1 (en) Denoising Noisy Speech Signals using Probabilistic Model
Carabias-Orti et al. Constrained non-negative sparse coding using learnt instrument templates for realtime music transcription
Christensen et al. Joint fundamental frequency and order estimation using optimal filtering
US11749295B2 (en) Pitch emphasis apparatus, method and program for the same
Kovačević et al. Robust digital processing of speech signals
CN113129921B (zh) 用于检测语音信号中的基音的频率的方法和装置
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
CN106910494B (zh) 一种音频识别方法和装置
US20140140519A1 (en) Sound processing device, sound processing method, and program
Srinivas et al. A simplified realization of zero frequency filter for hardware implementation
CN114512111A (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
US11270719B2 (en) Pitch enhancement apparatus, pitch enhancement method, and program
US20210090586A1 (en) Pitch emphasis apparatus, method and program for the same
Kumm et al. Design of Optimal Multiplierless FIR Filters
CN110097888B (zh) 人声增强方法、装置及设备
US20210233549A1 (en) Pitch emphasis apparatus, method, program, and recording medium for the same
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation
Seneff Modifications to formant tracking algorithm of April 1974
JP4963955B2 (ja) 信号処理方法、信号処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant