CN1909060B - 提取浊音/清音分类信息的方法和设备 - Google Patents

提取浊音/清音分类信息的方法和设备 Download PDF

Info

Publication number
CN1909060B
CN1909060B CN2006101083327A CN200610108332A CN1909060B CN 1909060 B CN1909060 B CN 1909060B CN 2006101083327 A CN2006101083327 A CN 2006101083327A CN 200610108332 A CN200610108332 A CN 200610108332A CN 1909060 B CN1909060 B CN 1909060B
Authority
CN
China
Prior art keywords
harmonic
signal
voiced
voice signal
hrr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101083327A
Other languages
English (en)
Other versions
CN1909060A (zh
Inventor
金炫秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1909060A publication Critical patent/CN1909060A/zh
Application granted granted Critical
Publication of CN1909060B publication Critical patent/CN1909060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种从语音信号中提取精确的浊音/清音分类信息的设备和方法。该设备通过分析谐波分量对非谐波分量(或残余)的比率来提取浊音/清音分类信息。该设备使用作为基于谐波分量分析获得的特征提取方案的谐波对残余比率(HRR)、谐波对噪声比率(HNR)和子频带谐波对噪声比率(SB-HNR),从而精确地对浊音/清音进行分类。因此,在所有语音信号处理系统中,该设备和方法可用于语音编码、识别、合成、增强等。

Description

提取浊音/清音分类信息的方法和设备
技术领域
本发明涉及一种用于提取浊音/清音分类信息的方法和设备,更具体地说,涉及一种使用语音信号的谐波分量提取浊音/清音分类信息从而将语音信号精确地分类为浊音/清音的方法和设备。
背景技术
通常,根据其时域和频域统计特性,语音信号被分类为周期(或谐波)分量和非周期(或随机)分量(即浊音和由除了语音之外的声音或噪声产生的声音,下文中称为“清音”),从而语音信号被称为“准周期”信号。在此情况下,根据是否存在音调(pitch)信息来将周期分量和非周期分量确定为浊音(voiced sound)和清音(unvoiced sound),浊音具有周期特性,而清音具有非周期特性。
如上所述,在所有语音信号处理系统中,浊音/清音分类信息是用于编码、识别、合成、增强等的最基本和关键的信息。因此,已经提出将语音信号分类为浊音/清音的各种方法。例如,一种方法是语音学编码,其中,将语音信号分类为六种类型,包括开端(onset)、全频带稳定状态浊音、全频带瞬态浊音、低通瞬态浊音以及低通稳定状态的浊音和清音。
具体地说,用于浊音/清音分类的特征包括低频带话音能量、过零计数、第一反射系数、预强调(pre-emphasize)的能量比率、第二反射系数、随意音调预测增益以及非随意音调预测增益,组合这些特征并将其用于线性鉴别器中。然而,由于还没有一种仅使用一个特征的浊音/清音分类方法,因此浊音/清音分类的性能很大程度上受到如何组合所述多个特征的影响。
同时,在浊音期间,由于较高的功率是由发声系统(即产生语音信号的系统)输出的,因此浊音占据了语音能量的较大部分,从而语音信号中的浊音部分的失真对编码的话音的整个声音质量产生较大影响。
在这样的浊音的话音中,由于在声门激励和声道之间的交互导致难于进行频谱估计,因此在多数语音信号处理系统中需要关于浊音的程度的测量信息。这种测量信息同样用于语音识别和语音编码。具体地说,由于测量信息是确定语音合成中的声音质量的重要参数,因此使用错误信息或错误估计值导致语音识别和合成中的性能恶化。
然而,由于估计的现象本身按照其特性而包括一定程度的随机性,因此在预定的周期中执行这样的估计,浊音测量的输出包括随机分量。因此,可对浊音测量的估计适当地使用统计性能测量方案,并可将使用大量帧估计的混合的平均用作主索引(指示符)。
如上所述,虽然在现有技术中使用多种特征来提取浊音/清音分类信息,但不能够通过单个特征对浊音/清音声音分类。因此,通过使用特征的组合对浊音/清音声音分类,所述特征中的任意一个特征自身不能提供可靠的信息。然而,传统方法存在所述特征之间的相关性问题以及由于噪声导致的性能恶化问题,因此需要一种能够解决这些问题的新方法。此外,传统技术没有正确地表示浊音和清音之间的实质性差别的谐波分量的存在和谐波分量的程度。因此,需要开发一种能够通过分析谐波分量对浊音/清音声音精确分类的新的方法。
发明内容
因此,实现本发明来满足上述要求,本发明提供一种用于通过使用语音信号的谐波分量分析从而更精确地对浊音/清音声音分类的提取浊音/清音分类信息的方法和设备。
为此,本发明提供一种使用语音信号的谐波分量提取浊音/清音分类信息的方法,该方法包括:将输入的语音信号转换为频域的语音信号;从转换的语音信号中计算谐波信号和除了谐波信号之外的残余信号;使用谐波信号和残余信号的计算结果来计算谐波对残余比率(HRR);以及通过比较用HRR和阈值对浊音/清音进行分类。
此外,本发明提供一种使用语音信号的谐波分量提取浊音/清音分类信息的方法,该方法包括:将输入的语音信号转换为频域的语音信号;从转换的语音信号中分离谐波部分和噪声部分;计算谐波部分对噪声部分的能量比率;以及使用计算结果对浊音/清音进行分类。
此外,本发明提供一种使用语音信号的谐波分量提取浊音/清音分类信息的设备,该设备包括:语音信号输入单元,接收语音信号;频域转换单元,将接收的时域语音信号转换为频域语音信号;谐波残余信号计算单元,从转换的语音信号中计算谐波信号和除了谐波信号之外的残余信号;以及谐波对残余比率计算单元(HRR),通过使用谐波残余信号计算单元的计算结果来计算谐波信号对残余信号的能量比率。
此外,本发明提供一种使用语音信号的谐波分量提取浊音/清音分类信息的设备,该设备包括:语音信号输入单元,接收语音信号;频域转换单元,将接收的时域语音信号转换为频域语音信号;谐波/噪声分离单元,从转换的语音信号中分离谐波部分和噪声部分;以及谐波对噪声能量比率计算单元,计算谐波部分对噪声部分的能量比率。
附图说明
通过下面结合附图的详细描述,本发明的上述和其他目的、特点和优点将会变得更加清楚,其中:
图1是示出根据本发明第一实施例的浊音/清音分类信息提取设备的结构的框图;
图2是示出根据本发明第一实施例的提取浊音/清音分类信息的过程的流程图;
图3是示出根据本发明第二实施例的浊音/清音分类信息提取设备的结构的框图;
图4是示出根据本发明第二实施例的提取浊音/清音分类信息的过程的流程图;
图5是示出根据本发明第二实施例的频域语音信号的示图;
图6是示出根据本发明第二实施例的在分解之前的原始语音信号的波形的示图;
图7A是示出根据本发明第二实施例的分解的谐波信号的示图;以及
图7B是示出根据本发明第二实施例的分解的噪声信号的示图。
具体实施方式
下文中,将参照附图描述本发明优选实施例。在以下本发明实施例的描述中,当合并到此的公知功能和配置可能使本发明的主旨模糊时,将省略对其的描述。
本发明实现能够改善从语音信号中提取浊音/清音分类信息的精度的功能。为此,根据本发明,通过使用谐波对非谐波(或残余)分量比率的分析来提取浊音/清音分类信息。详细地说,可通过作为基于谐波分量分析获得的特征提取方法的谐波对残余比率(HRR)、谐波对噪声分量比率(HNR)和子频带谐波对噪声分量比率(SB-HNR)精确地对浊音/清音声音分类。由于通过这些方案获得浊音/清音分类信息,因此当在所有语音信号处理系统中执行语音编码、识别、合成和增强时,可使用获得的浊音/清音分类信息。
本发明测量语音或音频信号的谐波分量的强度,从而数字化地表示浊音/清音分类信息提取的必要属性。
在描述本发明之前,将描述影响语音估计器的性能的因素。
详细地说,这些因素包括对语音合成的灵敏度、对音调(pitch)性能的非灵敏度(insensitivity)(例如音调为高还是低,音调是否平滑地改变、在音调间隔是否有随机性等)、对谱包络的非灵敏度、主观性能等。实际上,由于听觉系统对对语音强度的小的改变很不敏感,因此可能导致语音测量中的微小误差,但性能测量中的最重要的指标是通过聆听的主观性能。
本发明提供一种能够仅使用单个特征不是多个不可靠的特征的组合找出浊音/清音分类信息(即特征)以分类浊音/清音声音,同时满足上述指标的分类信息提取方法。
将描述在其中实现上述功能的浊音/清音分类信息提取设备的组件及其操作。为此,将参照图1所示的框图描述根据本发明第一实施例的浊音/清音分类信息提取设备。下文中,根据在本发明第一实施例中公开的结构,将整个语音信号表示为话音的谐波正弦模型,从语音信号中获得谐波系数,使用获得的谐波系数计算谐波信号和残余信号,从而获得谐波信号和残余信号之间的能量比率。在此情况下,将谐波信号和残余信号之间的能量比率定义为谐波对残余比率(HRR),并可通过使用HRR对浊音/清音声音分类。
参照图1,根据本发明第一实施例的浊音/清音分类信息提取设备包括语音信号输入单元110、频域转换单元120、谐波系数计算单元130、音调检测单元140、谐波残余信号计算单元150、HRR计算单元160和浊音/清音分类单元170。
首先,语音信号输入单元110可包括麦克风(MIC),并接收包括语音和声音信号的语音信号。频域转换单元120将输入信号从时域转换到频域。
频域转换单元120使用快速傅里叶变换(FFT)等,从而将时域语音信号转换为频域语音信号。
其后,当频域转换单元120输出信号(即整个语音信号)时,可将整个语音信号表示为话音(speech)的谐波正弦模型。这样能够仅以少量的计算进行高效和准确的谐波性测量。详细地说,通过使用将语音信号表示为基本频率的谐波和小的残余的和的语音信号的谐波模型,可如式1所示表示语音信号。也就是说,由于可将语音信号表示为余弦和正弦的组合,因此可如式1所示表示语音信号。
S n = a 0 + Σ k = 1 L ( a k cos n ω 0 k + b k sin n ω 0 k ) + r n ( n = 0,1 , . . . N - 1 ) = h n + r n . . . ( 1 )
在式1中,“(αkcosnω0k+bk+sinnω0k)”与谐波部分对应,“rn”与除了谐波部分之外的残余部分对应。这里,“Sn”表示转换的语音信号,“rn”表示残余信号,“hn”表示谐波分量,“N”表示帧长度、“L”表示存在的谐波的数量,“ω0”表示音调,“k”表示频率槽(frequency bin)标号,“a”和“b”表示根据帧而具有不同值的常数。在此情况下,为了使残余信号最小,执行使式1中的“rn”的值最小的过程。谐波系数计算单元130从音调检测单元140接收音调值,从而将与“ω0”对应的音调值代入到式1中。当接收如上所述的音调时,谐波系数计算单元130可根据下述方式获得使残余能量最小的“a”和“b”的值。
首先,当关于残余部分“rn”重新排列式1时,“rn=Sn-hn”,并且 h n = a 0 + Σ k = 1 L ( a k cos n ω 0 k + b k sin n ω 0 k ) . 同时,可将残余能量表示为式2。
E = Σ n = 0 N - 1 r n 2 . . . ( 2 )
这里,为了使残余能量最小,关于每一个“k”计算“E/ak=0”和“
Figure 061A83327_6
E/bk=0”。
以与最小平方方法相同的方式获得谐波系数“a”和“b”,因为仅需少量计算,所以所述最小平方方法确保残余能量最小同时效率高。
谐波残余信号计算单元150通过上述过程获得谐波系数“a”和“b”以使残余能量最小。其后,谐波残余信号计算单元150通过使用获得的谐波系数计算谐波信号和残余信号。详细地说,谐波残余信号计算单元150将计算的谐波系数和音调带入式 h n = a 0 + Σ k = 1 L ( a k cos n ω 0 k + b k sin n ω 0 k ) , 从而获得谐波信号。由于在获得谐波信号之后通过从转换的整个语音信号“Sn”中减去谐波信号“hn”来计算残余信号“rn”,因此能够计算谐波信号和残余信号。相似地,可通过从语音信号的能量中减去谐波能量的简单方式来计算残余能量。这里,残余信号是类噪声,并且在浊音的帧的情况下非常小。
当将按上述方式获得的谐波信号和残余信号提供给HRR计算单元160时,HRR计算单元160获得HRR,所述HRR表示谐波对残余能量的比率。可如式3定义HRR。
HRR = 10 log 10 ( Σ h n 2 / Σ r n 2 ) dB . . . ( 3 )
当采用Parseval定律时,可将式3在频域中表示为式4。
HRR = 10 log 10 ( Σ k | H ( ω k ) | 2 / Σ k | R ( ω k ) | 2 ) dB . . . ( 4 )
在式4中,“ω”表示频率槽,H表示谐波分量hn,R表示残余信号rn
使用这样的测量以提取分类信息(即特征),所述分类信息表示每一帧中的信号的浊音分量的程度。通过这样的过程得到HRR的操作获得用于对浊音/清音声音分类的分类信息。
在此情况下,采用统计分析方案以对浊音/清音声音分类。例如,当采用柱状图分析时,使用95%的阈值。在此情况下,当HRR大于作为阈值的2.65dB时,可将对应的信号确定作为浊音。反之,当HRR小于-2.65dB时,可将对应的信号确定作为清音。因此,浊音/清音计算单元170通过比较获得的HRR和阈值来执行浊音/清音分类操作。
下文中,将参照图2描述根据本发明第一实施例的提取浊音/清音分类信息的过程。
在步骤200,浊音/清音分类信息提取设备通过麦克风等接收语音信号。在步骤210,浊音/清音分类信息提取设备通过使用FFT等将接收的语音信号从时域转换到频域。其后,在步骤220,浊音/清音分类信息提取设备将语音信号表示为话音的谐波正弦模型,并计算对应的谐波系数。在步骤230,浊音/清音分类信息提取设备使用计算的谐波系数计算谐波信号和残余信号。在步骤240,浊音/清音分类信息提取设备通过使用步骤230的计算结果来计算谐波对残余比率(HRR)。在步骤250,浊音/清音分类信息提取设备通过使用HRR对浊音/清音声音分类。换句话说,基于谐波和非谐波(即残余)分量比率的分析来提取浊音/清音分类信息,并使用提取的浊音/清音分类信息对浊音/清音声音分类。
根据上述本发明第一实施例,通过分析谐波区域来获得谐波和噪声之间的能量比率,所述谐波区域通常存在于比噪声区域高的电平处,从而提取使用语音和音频信号的所有系统中所需的浊音/清音分类信息。
下文中,将描述根据本发明第二实施例的提取浊音/清音分类信息的设备和方法。
图3是示出根据本发明第二实施例的提取浊音/清音分类信息的设备的结构的框图。
根据本发明第二实施例的浊音/清音分类信息提取设备包括语音信号输入单元310、频域转换单元320、谐波/噪声分离单元330、谐波对噪声能量比率计算单元340和浊音/清音分类单元350。
首先,语音信号输入单元310可包括麦克风(MIC),并接收包括语音和声音信号的语音信号。频域转换单元320优选地使用快速傅里叶变换(FFT)等将输入信号从时域转换到频域,从而将时域语音信号转换为频域语音信号。
谐波/噪声分离单元330从语音信号中将频域分离为谐波部分和噪声部分。在此情况下,谐波/噪声分离单元330使用音调信息从而执行分离操作。
将参照图5更详细地描述从语音信号中分离谐波部分和噪声部分的操作。图5是示出根据本发明第二实施例的频域语音信号的示图。如图5所示,当语音信号经受谐波加噪声分解时(HND),可将频域语音信号分离为噪声(随机)部分“B”和谐波(确知)部分“A”。由于HND是广泛公知的方案,因此将省略对其的详细描述。
在整个HND中,将如图6所示的原始语音信号波形分离为分别如图7A和7B所示的谐波信号和噪声信号。根据本发明第二实施例,图6是示出在分解之前的原始语音信号的波形的示图。图7A是示出分解的谐波信号的示图,图7B是示出分解的噪声信号的示图。
当输出如图7A和图7B所示的分解的信号时,谐波对噪声能量比率计算单元150计算谐波对噪声能量比率。基于整个谐波和噪声部分,可将整个谐波部分对整个噪声部分的比率定义为谐波对噪声比率(HNR)。以不同的方式根据每一预定的频带来划分谐波的整个部分和噪声部分,并可将每一频带的谐波部分对噪声部分的能量比率定义为子频带谐波对噪声比率(SB-HNR)。当谐波对噪声能量比率计算单元340已经计算HNR和SB-HNR时,浊音/清音分类单元350接收计算的HNR和SB-HNR,并执行浊音/清音分类操作。
可如式5来定义谐波部分对噪声部分的信号能量比率HNR。将以此方式获得的HNR提供给浊音/清音分类单元350。其后,浊音/清音分类单元350通过比较接收的HNR和阈值来执行浊音/清音分类操作。
HNR = 10 log 10 ( Σ k | H ( ω k ) | 2 / Σ k | N ( ω k ) | 2 ) . . . ( 5 )
参照图7A和7B,如式5所定义的HNR与通过将图7A所示的波形的较低区域除以图7B所示的波形的较低区域而获得的值对应。也就是说,图7A和7B所示的波形的较低区域表示能量。
现将参照图4的流程图描述根据本发明第二实施例的提取浊音/清音分类信息的方法。在步骤400,浊音/清音分类信息提取设备通过麦克风等接收语音信号。在步骤410,浊音/清音分类信息提取设备通过使用FFT等将接收的时域语音信号转换为频域语音信号。在步骤420,浊音/清音分类信息提取设备从频域语音信号分离谐波部分和噪声部分。浊音/清音分类信息提取设备在步骤430计算谐波部分对噪声部分能量比率,并进入步骤440,在步骤440,浊音/清音分类信息提取设备使用步骤430的计算结果对浊音/清音声音分类。
同时,可重新定义本发明的特征提取方法,从而将通过比较HNR和阈值或比较HRR和阈值而获得的值包括在范围[0,1]中(“0”表示清音,“1”表示浊音),从而是相干的。详细地说,以dB为单位表示HNR和HRR。然而,为了使用表示浊音程度的测量,例如,在HNR的情况下,可将式5重新定义为式6。
HNR = 10 log 10 P H P N ( dB ) . . . ( 6 )
在式6中,“P”表示功率,其中“PN”用于HNR,而“PR”用于HRR,其可根据测量而改变。浊音的范围是无穷,而清音的范围是负无穷。此外,在式6中,如果 P H P N = 10 HNR / 10 , 在表示浊音程度的[0,1]之间测量,则式6可表示为式7。
δ = P H P H + P N = 10 HNR / 10 10 HNR / 10 + 1 . . . ( 7 )
同时,基本上,由于将残余看作过程中的噪声,与根据本发明第二实施例的浊音/清音分类信息对应的HNR可具有与HRR相同的概念。然而,在考虑到对根据本发明第一实施例的HRR使用正弦表示残余的同时,在对根据本发明第二实施例的HNR执行谐波加噪声分解操作之后计算噪声。
混合的浊音显示出这样的趋势:在较低频带为周期性,在较高频带为类噪声。在此情况下,在使用分量计算HNR之前,可对已经通过分解操作获得的谐波和噪声分量进行低通滤波。
同时,为了防止出现在频带之间存在很大的能量差的问题,提出根据本发明第三实施例的提取浊音/清音分类信息的方法。在本发明的第三实施例中,将子频带的谐波分量和噪声分量之间的能量比率定义为子频带谐波对噪声比率(SB-HNR)。具体地说,第三方法消除了当高的能量频带主导HNR从而生成具有很高HNR值的清音的区段时可能出现的问题,并可较好地控制每一频带。
根据第三实施例,为了计算整个比率,在对HNR相加之前计算每一谐波部分的HNR,从而与其它部分相比能够更高效地归一化每一谐波部分。详细地说,参照图7A和7B,从图7A中由标记“c”指示的频带和图7B中由标记“d”指示的频带中获得HNR。在将图7A和图7B所示的频带划分为多个频带之后,每一频带具有预定的大小,按照该方式,对每一频带计算HNR,从而获得SB-HNR。可如式8来定义SB-HNR。
SB - HNR = 10 Σ n - 1 N log 10 ( Σ ω k = Ω k - Ω k + | H ( ω k ) | 2 / Σ ω k = Ω k - Ω k + | N ( ω k ) | 2 ) . . . ( 8 )
在式8中,“Ωk +”表示第n谐波频带的上频率边界,“Ωk -”表示第n谐波频带的下频率边界,“N”表示子频带数量。在图7A和7B的情况下,如下定义SB-HNR:
SB-HNR=∑每谐波频带图7A的区域/每谐波频带图7B的区域。
定义一个子频带位于谐波峰值的中心并从谐波峰值向两个方向扩展半个音调。与HNR相比,SB-HNR更高效地均衡谐波区域,从而每一谐波区域具有相似的加权值。此外,将SB-HNR看作用于时间轴的部分的SNR的频率轴的模拟。由于计算用于每一子频带的HNR,因此子频带谐波对残余比率可提供用于浊音/清音分类的更准确的基础。这里,选择性地应用带通噪声抑止滤波器(例如具有200kHz的上截止频率和3400kHz的下截止频率的九阶Butterworth滤波器)。这样的滤波提供合适的高频频谱滚降(roll-off),并同时具有当存在噪声时弱化带外噪声的效果。
如上所述,本发明的各种提取方法简单且实用,还对测量浊音的程度非常精确和高效。可将根据本发明的提取浊音的程度的谐波分类和分析方法容易地应用于各种语音和音频特征提取方法,当与现有方法关联时还能够更准确地执行浊音/清音分类操作。
可将例如SB-HNR的这样的基于谐波的技术应用于诸如对用于每一子频带的浊音/清音声音分类所需的多频带激励声码器的各种领域。此外,由于本发明基于主要谐波区域的分析,因此本发明应该具有很强的实用性。此外,由于考虑到听觉感知现象,本发明关注在浊音/清音分类中实际上重要的频域,因此,本发明应该具有较优的性能。
此外,实际上,可将本发明应用于编码、识别、增强、合成等。具体地说,由于本发明需要少量计算,并使用准确检测的谐波部分来检测浊音的分量,因此本发明可更高效地应用于各种应用(其需要移动性或快速处理,或具有计算能力和存储容量的限制,例如移动终端、通信设备、PDA、MP3等),并还可以是用于所有语音和/或音频信号处理系统的信源技术。
虽然已参照其特定优选实施例示出和描述了本发明,但本领域技术人员应理解,在不脱离由所附权利要求定义的本发明的精神和范围的情况下,可对其在形式和细节上进行各种改变。因此,本发明的范围并非由上述实施例来限定,而是由权利要求及其等同物来限定。

Claims (11)

1.一种使用语音信号的谐波分量提取浊音/清音分类信息的方法,该方法包括以下步骤:
将输入的语音信号转换为频域的语音信号;
计算有关的谐波系数,并提供计算谐波系数所需的音调;
从转换的语音信号中计算谐波信号和除了谐波信号之外的残余信号;
使用谐波信号和残余信号的计算结果来计算谐波对残余比率HRR;以及
通过比较HRR和阈值对浊音/清音进行分类,
其中,计算有关的谐波系数,从而最小化使用谐波模型表示的语音信号中的残余信号的能量,所述谐波模型被表示为基本频率的谐波和小的残余的和;
使用计算的谐波系数来获得谐波信号,并当已经获得谐波信号时,通过从转换的语音信号中减去谐波信号来计算残余信号。
2.如权利要求1所述的方法,其中,将转换的语音信号表示为:
S n = a 0 + Σ k = 1 L ( a k cos n ω 0 k + b k sin n ω 0 k ) + r n (n=0,1,...N-1)
= h n + r n
其中,“Sn”表示转换的语音信号,“rn”表示残余信号,“hn”表示谐波信号,“N”表示帧长度,“L”表示现有谐波的数量,“ω0”表示音调,k是频率槽标号,“a”和“b”是根据帧而具有不同常数值的有关的谐波系数。
3.如权利要求1所述的方法,其中,以与最小平方方案相同的方式来计算谐波系数。
4.如权利要求1所述的方法,其中,将残余能量表示为:
E = Σ n = 0 N - 1 r n 2 .
5.如权利要求4所述的方法,其中,在计算有关的谐波系数的步骤中,对残余能量关于式中的每一个“k”计算
Figure FSB00000602581800015
6.如权利要求1所述的方法,其中,计算HRR的步骤包括:
使用计算的谐波信号和残余信号获得谐波能量;
通过从语音信号的整个能量中减去谐波能量来计算残余能量;以及
计算计算出的谐波能量对计算出的残余能量的比率。
7.如权利要求1所述的方法,其中,将HRR表示为:
HRR = 10 log 10 ( Σ h n 2 / Σ r n 2 ) dB .
8.如权利要求1所述的方法,其中,当使用Parseval定律时,将HRR在频域中表示为
HRR = 10 log 10 ( Σ k | H ( ω k ) | 2 / Σ k | R ( ω k ) | 2 ) dB
其中,H表示谐波分量hn,R表示残余信号rn,“ω”表示频率槽。
9.如权利要求1所述的方法,其中,在通过比较HRR和阈值对浊音/清音进行分类的步骤中,当语音信号的HRR大于阈值时,将语音信号确定和分类为浊音。
10.一种使用语音信号的谐波分量提取浊音/清音分类信息的设备,该设备包括:
语音信号输入单元,接收语音信号;
频域转换单元,将接收的时域语音信号转换为频域语音信号;
谐波系数计算单元,计算有关的谐波系数;
音调检测单元,提供计算谐波系数所需的音调;
谐波残余信号计算单元,从转换的语音信号中计算谐波信号和除了谐波信号之外的残余信号,其中,使用计算的谐波系数来获得谐波信号,并当已经获得谐波信号时,通过从转换的语音信号中减去谐波信号来计算残余信号;以及
谐波对残余比率HRR计算单元,通过使用谐波残余信号计算单元的计算结果计算谐波信号对残余信号的能量比率,
其中,所述谐波系数计算单元计算有关的谐波系数,从而最小化使用谐波模型表示的语音信号中的残余信号的能量,所述谐波模型被表示为基本频率的谐波和小的残余的和。
11.如权利要求10所述的设备,其中,将HRR表示为
HRR = 10 log 10 ( Σ h n 2 / Σ r n 2 ) dB
其中,“hn”表示谐波信号,“rn”表示残余信号。
CN2006101083327A 2005-08-01 2006-08-01 提取浊音/清音分类信息的方法和设备 Expired - Fee Related CN1909060B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2005-0070410 2005-08-01
KR1020050070410A KR100744352B1 (ko) 2005-08-01 2005-08-01 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR1020050070410 2005-08-01

Publications (2)

Publication Number Publication Date
CN1909060A CN1909060A (zh) 2007-02-07
CN1909060B true CN1909060B (zh) 2012-01-25

Family

ID=36932557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101083327A Expired - Fee Related CN1909060B (zh) 2005-08-01 2006-08-01 提取浊音/清音分类信息的方法和设备

Country Status (5)

Country Link
US (1) US7778825B2 (zh)
EP (1) EP1750251A3 (zh)
JP (1) JP2007041593A (zh)
KR (1) KR100744352B1 (zh)
CN (1) CN1909060B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735343B1 (ko) 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
KR101009854B1 (ko) * 2007-03-22 2011-01-19 고려대학교 산학협력단 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
CN101452698B (zh) * 2007-11-29 2011-06-22 中国科学院声学研究所 一种自动嗓音谐噪比分析方法
KR101547344B1 (ko) 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
US9026440B1 (en) * 2009-07-02 2015-05-05 Alon Konchitsky Method for identifying speech and music components of a sound signal
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
KR101650374B1 (ko) * 2010-04-27 2016-08-24 삼성전자주식회사 잡음을 제거하고 목적 신호의 품질을 향상시키기 위한 신호 처리 장치 및 방법
US20120004911A1 (en) * 2010-06-30 2012-01-05 Rovi Technologies Corporation Method and Apparatus for Identifying Video Program Material or Content via Nonlinear Transformations
US8527268B2 (en) 2010-06-30 2013-09-03 Rovi Technologies Corporation Method and apparatus for improving speech recognition and identifying video program material or content
US8761545B2 (en) 2010-11-19 2014-06-24 Rovi Technologies Corporation Method and apparatus for identifying video program material or content via differential signals
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013142726A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
KR102174270B1 (ko) * 2012-10-12 2020-11-04 삼성전자주식회사 음성 변환 장치 및 이의 음성 변환 방법
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN105510032B (zh) * 2015-12-11 2017-12-26 西安交通大学 基于谐噪比指导的解卷积方法
CN105699082B (zh) * 2016-01-25 2018-01-05 西安交通大学 一种稀疏化的最大谐噪比解卷积方法
US9922636B2 (en) * 2016-06-20 2018-03-20 Bose Corporation Mitigation of unstable conditions in an active noise control system
WO2019035835A1 (en) * 2017-08-17 2019-02-21 Nuance Communications, Inc. DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT
KR102132734B1 (ko) * 2018-04-16 2020-07-13 주식회사 이엠텍 음성 지문을 이용한 음성 증폭 장치
CN112885380B (zh) * 2021-01-26 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质
CN114360587A (zh) * 2021-12-27 2022-04-15 北京百度网讯科技有限公司 识别音频的方法、装置、设备、介质及产品

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2968976B2 (ja) * 1990-04-04 1999-11-02 邦夫 佐藤 音声認識装置
JP2841797B2 (ja) * 1990-09-07 1998-12-24 三菱電機株式会社 音声分析・合成装置
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
JPH09237100A (ja) 1996-02-29 1997-09-09 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
JP3687181B2 (ja) * 1996-04-15 2005-08-24 ソニー株式会社 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH1020886A (ja) * 1996-07-01 1998-01-23 Takayoshi Hirata 波形データに存在する調和波形成分の検出方式
JPH1020888A (ja) 1996-07-02 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP4040126B2 (ja) 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JPH10222194A (ja) 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3325248B2 (ja) 1999-12-17 2002-09-17 株式会社ワイ・アール・ピー高機能移動体通信研究所 音声符号化パラメータの取得方法および装置
JP2001017746A (ja) 2000-01-01 2001-01-23 Namco Ltd ゲーム装置及び情報記憶媒体
JP2002162982A (ja) 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AHN R ET AL.HARMONIC-PLUS-NOISE DECOMPOSITION AND ITS APPLICATION IN VOICED/UNVOlCED CLASSIFICATION.《IEEE》.1997,587-590. *

Also Published As

Publication number Publication date
EP1750251A3 (en) 2010-09-15
KR100744352B1 (ko) 2007-07-30
US7778825B2 (en) 2010-08-17
KR20070015811A (ko) 2007-02-06
US20070027681A1 (en) 2007-02-01
EP1750251A2 (en) 2007-02-07
JP2007041593A (ja) 2007-02-15
CN1909060A (zh) 2007-02-07

Similar Documents

Publication Publication Date Title
CN1909060B (zh) 提取浊音/清音分类信息的方法和设备
McAulay et al. Pitch estimation and voicing detection based on a sinusoidal speech model
EP2494544B1 (en) Complexity scalable perceptual tempo estimation
EP2786377B1 (en) Chroma extraction from an audio codec
US7333930B2 (en) Tonal analysis for perceptual audio coding using a compressed spectral representation
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN103854646A (zh) 一种实现数字音频自动分类的方法
EP1744303A2 (en) Method and apparatus for extracting pitch information from audio signal using morphology
CN101599271A (zh) 一种数字音乐情感的识别方法
US7835905B2 (en) Apparatus and method for detecting degree of voicing of speech signal
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
US20060200346A1 (en) Speech quality measurement based on classification estimation
Gómez-García et al. On the design of automatic voice condition analysis systems. Part III: Review of acoustic modelling strategies
CN103165127A (zh) 声音分段设备和方法以及声音检测系统
US6233551B1 (en) Method and apparatus for determining multiband voicing levels using frequency shifting method in vocoder
CN106997765A (zh) 人声音色的定量表征方法
CN102419977B (zh) 瞬态音频信号的判别方法
CN104517614A (zh) 基于各子带特征参数值的清浊音判决装置及其判决方法
US7013266B1 (en) Method for determining speech quality by comparison of signal properties
Nilsson et al. On the mutual information between frequency bands in speech
Doets et al. Distortion estimation in compressed music using only audio fingerprints
Mahdi et al. New single-ended objective measure for non-intrusive speech quality evaluation
WO2022046155A1 (en) Maintaining invariance of sensory dissonance and sound localization cues in audio codecs
Nosan et al. Speech recognition approach using descend-delta-mean and MFCC algorithm
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120125

Termination date: 20190801