CN102089803B

CN102089803B - 用以将信号的不同段分类的方法与鉴别器

Info

Publication number: CN102089803B
Application number: CN2009801271953A
Authority: CN
Inventors: 纪尧姆·福克斯; 斯特凡·拜尔; 弗雷德里克·纳格尔; 于尔根·赫勒; 尼古拉斯·里特尔博谢; 斯特凡·瓦希尼克; 横谷义一; 延斯·希斯费尔德; 热雷米·勒康特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-06-16
Publication date: 2013-02-27
Anticipated expiration: 2029-06-16
Also published as: MY153562A; PL2301011T3; KR20130036358A; AU2009267507A1; JP2011527445A; BRPI0910793A2; EP2301011B1; BRPI0910793B8; ZA201100088B; PT2301011T; CA2730196C; JP5325292B2; TWI441166B; RU2507609C2; MX2011000364A; KR101281661B1; CA2730196A1; EP2301011A1; US20110202337A1; AU2009267507B2

Abstract

为了将包括至少第一类型及第二类型段例如音频段及语音段的信号的不同段分类，该信号系基于提取自该信号的至少一个短期特征做短期分类及递送短期分类结果。该信号也基于提取自该信号的至少一个短期特征及至少一个长期特征做长期分类及递送长期分类结果。该短期分类结果及长期分类结果组合而提供输出信号，指示该信号的段是属于第一类型还是属于第二类型。

Description

用以将信号的不同段分类的方法与鉴别器

技术领域

本发明涉及一种用于对包括至少第一类型及第二类型的段在内的信号的不同段进行分类的办法。本发明的实施例涉及音频编码领域，特别涉及当编码音频信号时对语音/音乐的鉴别。

背景技术

本领域已知诸如MP3或AAC的频域编码方案。这些频域编码器基于时域/频域变换、随后的量化阶段以及编码阶段，在量化阶段中，使用来自于心理声学模块的信息控制量化误差；在编码阶段中，使用码表对已量化的频谱系数及相对应的边带信息进行熵编码。

另一方面，如3GPP TS 26.290所述，具有极为适合用于语音处理的编码器，例如AMR-WB+。这样的语音编码方案执行时域信号的线性预测滤波。这样的LP滤波从对所输入的时域信号的线性预测分析而获得。然后，对所得到的LP滤波系数进行编码且传输作为边带信息。该方法被称为线性预测编码(LPC)。在滤波器的输出，使用ACELP编码器的合成分析阶段，或者备选地，使用变换编码器对也被称为激励信号的预测残余信号或预测误差信号进行编码，该变换编码器使用有重迭的傅立叶变换。使用闭环或开环算法来进行ACELP编码与变换编码的激励编码(也被称为TCX编码)之间的判决。

频域音频编码方案(例如，组合了AAC编码方案及频谱带宽复制技术的高效率AAC编码方案)也可被组合到在术语“MPEG环绕”之下为人所知的的联合立体声或多通道编码工具。频域编码方案的优点在于针对音乐信号，其在低比特率处显示出高质量。但问题在于语音信号在低比特率处的质量。

另一方面，语音编码器诸如AMR-WB+也具有高频加强级及立体声功能。语音编码方案即使在低比特率处也对语音信号显示高质量，但对于低比特率处的音乐信号则显示质量不佳。

有鉴于前述可利用的编码方案，其中的一些比较适合编码语音，而其它方案比较适合用于编码音乐。要被编码的音频信号的自动分段及分类在多种多媒体应用中是重要的工具，可用来针对音频信号中出现的每一种不同类别选择适当的方法。应用的总体性能极大地取决于该音频信号分类的可靠性。事实上，错误分类可能产生不适当的选择以及对随后过程的不适当微调。

图6显示取决于对音频信号的鉴别，用于对语音及音乐进行适当编码的公知编码器设计。该编码器设计包括语音编码分支100，语音编码分支100包括适当的语音编码器102，例如AMR-WB+语音编码器，如“Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec”，3GPPTS 26.290 V6.3.0，2005-06，技术规范所述。此外，编码器设计包括音乐编码分支104，音乐编码分支104包括音乐编码器106，例如，在运动图像及伴随音频的通用编码中描述的AAC音乐编码器：高级音频编码。国际标准13818-7，ISO/IEC JTC1/SC29/WG11运动图像专家组1997年。

编码器102及106的输出被连接至复用器108的输入。编码器102及106的输入能够选择性地连接至携带输入音频信号的输入线110。通过开关控制器114控制并由图6示意性地示出的开关112，将输入音频信号选择性地施加到语音编码器102或音乐编码器106。此外，编码器设计包括语音/音乐鉴别器116，在其输入处也接收输入音频信号，以及输出控制信号到开关控制器114。开关控制器114还在线118上输出模式指示器信号，该模式指示器信号被输入到复用器108的第二输入，使得模式指示器信号可连同已编码信号一起发送。模式指示器信号可只有一个比特，将与该模式指示器比特相关联的数据块指示为语音编码或为音乐编码，因此例如在解码器处无需再做鉴别。反之，基于连同已编码数据递送至该解码器侧的模式指示器比特，可基于模式指示器产生适当的切换信号，用于将所接收的已编码的数据路由至适当的语音解码器或音乐解码器。

图6是用来对施加至线110的语音信号及音乐信号进行数字编码的传统编码器设计。通常语音编码器用于语音较佳，而音频编码器用于音乐较佳。通过使用根据输入信号的本质由一个编码器切换至另一个编码器的多编码器系统，可设计出统一的编码方案。此处一项重要问题是设计出可驱动该切换组件的极为适当的输入信号分类器。该分类器为图6所示的语音/音乐鉴别器116。通常音频信号的可靠分类引入高延迟；而另一方面，延迟是实时应用的一项重要因素。

通常期望语音/音乐鉴别器所引入的总算法延迟够低，以允许将被切换的编码器用于实时应用。

图7示意了如图6所示编码器设计中所经历的延迟。假设要以16kHz的抽样率基于1024个抽样的帧对施加于输入线110的信号进行编码，使得语音/音乐鉴别可针对每个帧提供判决，亦即针对每64毫秒提供判决。例如以WO 2008/071353A2所述的方式来影响两个编码器间的过渡，语音/音乐鉴别器不会显著增加被切换解码器的算法延迟，不考虑语音/音乐鉴别器所需延迟，该算法延迟共有1600个抽样。此外，期望对决定进行AAC块切换的同一个帧提供语音/音乐判决。该情况显示于图7，图7示意了具有2048个抽样长度的AAC长块120(亦即，长块120包括两个1024个抽样的帧)，一个1024个抽样的帧的AAC短块122，及一个1024个抽样帧的AMR-WB+超帧124。

在图7中，在分别具有有1024个抽样的帧126及128上进行AAC块切换判决及语音/音乐判决，该两项判决覆盖了相同时间段。在此特定位置进行该两项判决，以使得编码能够在由一个模式适当地变成另一个模式的时间过渡窗使用。结果，通过两项判决引入了至少512+64个抽样的延迟。必须将该延迟与通过50％重迭所产生的1024个抽样的延迟相加，形成AAC MDCT，获得至少1600个抽样的延迟。在常规的AAC中，只存在块切换，并且延迟恰为1600个抽样。当在帧126内检测到过渡时，需要将该延迟用于由长块至短块时的切换。这样的变换长度的切换为避免前回波假信号所需。图7中已解码的帧130表示在任何情况下(长块或短块)可在解码器侧重建的第一个完整帧。

在使用AAC作为音乐编码器的已切换的编码器中，来自于判决阶段的切换判决应避免将过多额外的延迟增加到原先的AAC延迟。额外的延迟来自于先行(lookahead)帧132，该帧为判决阶段的信号分析所需。以例如16kHz的抽样率，AAC延迟为100毫秒，而常规的语音/音乐鉴别器使用约500毫秒的先行，这将导致具有600毫秒延迟的已切换的编码结构。从而总延迟将变成原先AAC延迟的6倍。

上述常规办法是不利的，因为针对音频信道的可靠分类来说，引入了高的非期望的延迟，因而需要有新颖办法可用于鉴别包括不同类型段的信号，其中，通过该鉴别器所引入的额外算法延迟够低，以使得已切换的编码器也可用于实时应用。

J.Wang等人的“Real-time speech/music classification with ahierarchical oblique decision tree”(ICASSP 2008，IEEE声学国际会议，语音及信号处理2008年，2008年3月31日至2008年4月4日)描述了一种用于使用相同数目的帧所获得的短期特征及长期特征进行语音/音乐分类的办法。这样的短期特征及长期特征被用来分类信号，但只使用出短期特征有限的性质，例如并未使用出分类反应性，但该反应性针对大部分音频编码应用扮演着重要角色。

发明内容

本发明的目的在于提供一种对不同类型的信号段做鉴别同时维持通过该鉴别所引入的任何延迟极低的改良式办法。

本目的可通过根据权利要求1所述的方法以及根据权利要求14所述的鉴别器达成。

本发明的一个实施例提供一种用于分类信号的不同段的方法，该信号包括至少第一类型及第二类型的段，该方法包括：

基于从所述信号提取的至少一个短期特征，对所述信号进行短期分类，并递送短期分类结果；

基于从所述信号提取的至少一个短期特征和至少一个长期特征，对所述信号进行长期分类，并递送长期分类结果；以及

将所述短期分类结果和所述长期分类结果进行组合，以提供对所述信号的段属于第一类型或第二类型进行指示的输出信号。

本发明的另一个实施例提供一种鉴别器，包括：

短期分类器，被配置为：接收信号，并基于从所述信号提取的至少一个短期特征提供所述信号的短期分类结果，所述信号包括至少第一类型及第二类型的段；

长期分类器，被配置为：接收信号，并基于从所述信号提取的至少一个短期特征和至少一个长期特征提供所述信号的长期分类结果；及；

判决电路，被配置为：将所述短期分类结果(152)及长期分类结果进行组合，以提供对所述信号的段属于第一类型还是第二类型进行指示的输出信号。

本发明的实施例提供基于该短期分析结果与该长期分析结果比较的该输出信号。

本发明的实施例与将音频信号的不同的非重迭的短时间段分类为语音或非语音或其它类别的方法有关。该办法基于特征的提取及对两个不同分析窗口长度的统计学分析。第一个窗口为长窗口，主要看过去。第一个窗口用来获得针对该信号的分类的可靠但延迟的判决线索。第二窗口的长度短，主要考虑当前时间所处理的段或被称为当前段。第二窗口用来获得即时判决线索。优选使用迟滞判决对该两个判决线索进行最佳组合，该迟滞判决获得来自于该延迟线索的记忆信息以及来自于该瞬时线索的瞬时信息。

本发明的实施例使用短期特征用于短期分类器及长期分类器二者，让两种分类器使用同一种特征的不同统计学。短期分类器将只提取瞬时信息，原因在于其只能存取一个特征集合。例如可使用该等特征的平均值。另一方面，长期分类器由于考虑数个帧故可存取若干特征集合。结果长期分类器经由使用比短期分类器更多个帧的统计学，因而可使用该信号的更多特性。举例言之，长期分类器可使用随着时间的经过该特征的变化或该特征的演化。如此，长期分类器比短期分类器可使用更多个特征，但引入了延迟或拖延。但长期特征尽管引入延迟或拖延，将造成长期分类更鲁棒更可靠。于若干实施例中，短期分类器及长期分类器考虑相同短期特征，可一次运算且由两个分类器使用。如此，于这样的实施例中，长期分类器可直接由短期分类器接收短期特征。

通过此该新颖办法允许获得强劲但引入低度延迟的一种分类。除了公知办法外，本发明的实施例限制由语音/音乐判决所引入的延迟，同时保有可靠的判决。于本发明的一个实施例中，将先行限于128个抽样，其导致的总延迟只有108毫秒。

附图说明

下面将参考附图说明本发明的实施例，附图中：

图1是根据本发明的实施例，一种语音/音乐鉴别器的方框图；

图2示意了由图1的鉴别器的长期分类器及短期分类器所使用的分析窗口；

图3示意了在图1的鉴别器中使用的迟滞判决(hysteresis decision)；

图4是包括根据本发明的实施例，包括鉴别器的示例性编码方案的方框图；

图5是与该图4的编码方案相对应的解码方案的方框图；

图6示出了用于依据音频信号的鉴别而分开编码语音及音乐的一种公知编码器设计；及

图7示意了于图6所示编码器设计中经历的延迟。

具体实施方式

图1是根据本发明的实施例的一种语音/音乐鉴别器116的方框图。语音/音乐鉴别器116包括在其输入处接收输入信号的短期分类器150，该输入信号例如包括语音段及音乐段的音频信号。短期分类器150在输出线152上输出短期分类结果，即时判决线索。鉴别器116还包括长期分类器154，其接收输入信号并且在输出线156上输出长期分类结果，延迟判决线索。此外，提供迟滞判决电路158，以下面将要更详细地描述的方式，迟滞判决电路158将来自于短期分类器150及长期分类器154的输出信号进行合并，以产生语音/音乐判决信号，该语音/音乐判决信号可在线160上输出，并且可被用来以上面关于图6描述的方式控制对输入信号的段的其它处理，即，可以使用语音/音乐判决信号160来对已被分类到语音编码器或音频编码器的输入信号段进行路由。

从而，依照本发明的实施例，关于经由输入线110施加到各个分类器的输入信号，对两个不同分类器150及154进行并行使用。这两个分类器被称为长期分类器154及短期分类器150，其中，通过分析在分析窗口上运算的各项特征的统计学，可区别这两个分类器。这两个分类器递送被称为即时判决线索(IDC)及延迟判决线索(DDC)的输出信号152及156。基于目的在于捕捉与输入信号的本质有关的瞬时信息的短期特征，短期分类器150产生IDC。该短期特征涉及可快速且随时改变的信号的短期属性。结果，预期短期特征是反应性的并且不会将长期延迟引入整个鉴别过程。例如，由于语音被视为5毫秒至20毫秒持续时间的准稳态(quasi-stationary)，以16kHz取样的信号，可每16毫秒的帧对短期特征进行运算。长期分类器154基于由于长期观察信号所产生的特征(长期特征)来产生DDC，因而允许实现更可靠的分类。

图2示意了由图1所示的长期分类器154及短期分类器150所使用的分析窗口。假设在抽样率16kHz处，帧为1024个抽样，长期分类器窗口162的长度为4*1024+128个抽样，亦即长期分类器窗口162跨四个音频信号帧，并且长期分类器154需要额外的128个抽样用于进行其分析。这样的额外延迟也被称为“先行”，在图2中以参考符号164进行指示。图2还示出了1024+128个抽样的短期分类器窗口166，即，跨一个音频信号帧并且需要额外延迟来分析当前段。以128来指示该当前段，作为需要进行语音/音乐判决的段。

图2指示的长期分类器窗口够长，以可获得语音的4-Hz能量调制特性。4-Hz能量调制是传统上在鲁棒语音/音乐鉴别器中使用的语音的相关及鉴别特性，例如，由Scheirer E.及Slaney M在“Construction andEvaluation of a Robust Multifeature Speech/Music Discriminator”(ICASSP′97，Munich，1997)中所使用的。4-Hz能量调制是仅可以通过长时间段地观察信号而提取的特征提取。通过语音/音乐鉴别器所引入的额外延迟等于128个抽样的先行164，分类器150及154中的每一个需要该额外延迟来进行各自的分析，例如感知线性预测分析，如H.Hermansky在“Perceptive linear prediction(plp)analysis of speech”(Journal of the Acoustical Society of America，vol.87，no.4，pp.1738-1752，1990)中以及H.Hermansky等人在“Perceptually based linearpredictive analysis of speech”(ICASSP 5.509-512，1985)中所描述的。因此，当将前述实施例的鉴别器用于如图6所示的编码器设计中时，切换的编码器102及106的总延迟将为1600+128个抽样，等于108毫秒，该延迟足够低以用于实时应用。

现在参考图3，图3描述了用于获得语音/音乐判决信号160的鉴别器116的分类器150及154的输出信号152与156的组合。根据本发明的实施例，通过使用迟滞判决来组合延迟判决线索DDC及即时判决线索IDC。迟滞判决广泛用于后处理判决以对其进行稳定。图3示意二态(two-state)迟滞判决为DDC及IDC的函数，以确定语音/音乐判决信号是否应该将输入信号的当前所处理的段指示为语音段或音乐段。在图3中可见特性迟滞周期，分类器150及154对IDC及DDC进行规度化(normalized)，以使其数值为-1至1，其中，-1表示似然度完全是类音乐(music-like)的，及1表示似然度完全是类语音(speech-like)的。

判决基于函数F(IDC，DDC)的值，示例下面将描述其示例。在图3中，F1(DDC，IDC)指示了F(IDC，DDC)从音乐态至语音态应跨过的阈值。F2(DDC，IDC)指示了F(IDC，DDC)从语音态至音乐态应跨过的阈值。然后，可基于如下伪码对具有索引n的当前段或当前帧的最终判决D(n)进行计算：

％Hysteresis Decision Pseudo Code

If(D(n-1)＝＝music)

If(F(IDC，DDC)＜F1(DDC，IDC))

D(n)＝＝music

Else

D(n)＝＝speech

Else

If(F(IDC，DDC)＞F2(DDC，IDC))

D(n)＝＝speech

Else

D(n)＝＝music

％End Hysteresis Decision Pseudo Code

根据本发明的实施例，函数F(IDC，DDC)及前述阈值设置如下：

F(IDC，DDC)＝IDC

F1(IDC，DDC)＝0.4-0.4*DDC

F2(IDC，DDC)＝-0.4-0.4*DDC

备选地，可做下列定义：

F(IDC，DDC)＝(2*IDC+DDC)/3

F1(IDC，DDC)＝-0.75*DDC

F2(IDC，DDC)＝-0.75*DDC

当使用后一种定义时，迟滞周期变成零，只基于唯一的自适应阈值做判决。

本发明并非限于前文所述的迟滞判决。后文将描述用于对分析结果进行组合以获得输出信号的其它实施例。

通过以使用DDC和IDC特性的方式来获得阈值，可使用简单的阈值判决来替代迟滞判决。由于DDC来自于对该信号的长期观察，故DDC被视为更可靠的鉴别线索。然而，部分基于对信号的过去观察来运算DDC。常规的分类器只将DDC值与阈值0比较，当DDC大于0时将段分类为类语音，否则即分类为类音乐，这样的分类器将有延迟的判决。在本发明的一个实施例中，发明人经由使用IDC来自适应阈值判决，使得该判决更具有反应性。出于此目的，阈值可基于下述伪码自适应：

％Pseudo code of adaptive thresholding

If(DDC＞-0.5*IDC)

D(n)＝＝speech.

Else

D(n)＝＝music

％End of adaptive thresholding

在另一个实施例中，可以使用DDC来使得IDC更可靠。IDC已知具有反应性，但不如DDC可靠。此外，观察过去段与当前段间的DDC的演化，可给出另一指示，指示图2的帧166如何影响在段162上计算的DDC。符号DDC(n)被用于DDC的当前值，而DDC(n-1)用于过去值。使用数值DDC(n)及DDC(n-1)，通过使用判决树可以使得IDC更可靠，描述如下：

％Pseudo code of decision tree

If(IDC＞0 && DDC(n)＞0)

D(n)＝speech

Else if(IDC＜0 && DDC(n)＜0)

D(n)＝music

Else if(IDC＞0 && DDC(n)-DDC(n-1)＞0)

D(n)＝speech

Else if(IDC＜0 && DDC(n)-DDC(n-1)＜0)

D(n)＝music

Else if(DDC＞0)

D(n)＝speech

Else

D(n)＝music

％End of decision tree

在上述判决树中，如果两个线索显示出相同的似然度，则直接进行判决。如果两个线索给出相矛盾的指示，则考虑DDC的演化。若差值DDC(n)-DDC(n-1)为正，则假设当前段为类语音。否则可假设当前段为类音乐。若此新指示的方向与IDC相同，则进行最终判决。若两项尝试都不能给出明确的判决，则通过只考虑延迟的线索DDC进行判决，因为不能证实IDC的可靠度。

下面将更详细地描述根据本发明的实施例的各个分类器150及154。

首先转向长期分类器154，注意到对于从每个256个抽样的子帧提取特征集合是相同的。第一特征是感知线性预测声谱系数(PLPCC)，由H.Hermansky在“Perceptive linear prediction(plp)analysis of speech”(Journal of the Acoustical Society of America，vol.87，no.4，pp.1738-1752，1990)中以及H.Hermansky中在“Perceptually based linearpredictive analysis of speech”(ICASSP 5.509-512，1985)进行了描述。通过使用人类听觉感官估算，PLPCC可有效用于扬声器分类。此项特征可用于鉴别语音及音乐，并确实允许通过关注随着时间的特征变化，来区别语音的特性共振峰及语音的音节4-Hz调制。

然而为了更加鲁棒，将PLPCC与可捕捉音高信息的另一项特征组合，音高信息是语音的另一项重要特性，在编码上具有关键重要性。事实上，语音编码依靠于假设输入信号为伪单周期信号。语音编码方案可有效用于这样的信号。另一方面，语音的音高特性对音乐编码器的编码效率有很大伤害。语音的天然颤音产生平滑的音高延迟波动，造成音乐编码器的频率表示不能极大地紧压能量，而这是获得高编码效率所需要的。

可确定下列音高特征：

声门脉冲能量比：

本特征是对声门脉冲与LPC残余信号之间的能量比进行计算。通过使用检峰(pick-peaking)算法从LPC残余信号中提取声门脉冲。通常，有声段的LPC残余显示出来自于声门振动的大的类脉冲结构。在有声段期间，该项特征为高。

长期增益预测：

这是在长期预测期间通常在语音编码器中运算的增益(请参见“Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec”(3GPP TS 26.290 V6.3.0，2005-06，Technical Specification))。本特征测量该信号的周期性，并且基于音高延迟估算。

音高延迟波动：

本特征确定当与最近的子帧比较时，当前音高延迟估算的差。对于有声语音，本特征应该低但不是零，并且是平滑演化的。

一旦长期分类器已经提取了所要求的特征集合，对这些所提取的特征使用统计分类器。首先通过在语音训练集合和音乐训练集合上提取特征来训练该分类器。在这两个训练集合上，将所提取的特征规度化为平均值为0且方差为1。对各个训练集合，已提取的且已规度化的特征被聚集在长期分类器窗口内，并使用五个高斯模型(5Gaussian)来通过高斯混合模型(GMM)进行模型化。在训练序列结束时，获得及保存规度化参数集合和两个GMM参数集合。

对每个要分类的帧，首先对特征进行提取并使用规度化参数来规度化。分别使用语音类别的GMM及音乐类别的GMM，对所提取的且已规度化的特征运算针对语音的最大似然度(lld_speech)及针对音乐的最大似然度(lld_music)。延迟判决线索DDC随后计算如下：

DDC＝(lld_speech-lld_music)/(abs(lld_music)+abs(lld_speech))

DDC以-1至1为边界，并且当语音的最大似然度高于音乐的最大似然度(lld_speech＞lld_music)时，DDC为正。

短期分类器用作短期特征PLPCC。除了在长期分类器中之外，仅在窗口128分析该特征。使用五个高斯模型以通过高斯混合模型(GMM)在该短时间内进行对该特征的统计。训练两个模型，一个用于音乐，另一个用于语音。值得注意的是，这两个模型与针对长期分类器所获得的模型不同。对各个要分类的帧，首先提取PLPCC，使用语音类别的GMM及音乐类别的GMM分别运算语音的最大似然度(lld_speech)及音乐的最大似然度(lld_music)。然后如下计算即时判决线索IDC：

IDC＝(lld_speech-lld_music)/(abs(lld_music)+abs(lld_speech))

IDC以-1至1为界。

从而，基于特征“感知线性预测声谱系数(PLPCC)”，短期分类器150产生该信号的短期分类结果；以及基于相同特征“感知线性预测声谱数(PLPCC)”和前述的额外特征(例如，音高特征)，长期分类器154产生该信号的长期分类结果。此外，长期分类器由于接入较长的观察窗口，因此可使用共享特征(亦即，PLPCC)的不同特性。从而，当将短期结果与长期结果进行组合时，对于分类，充分考虑到了短期特征，即，对短期特征的性质进行了充分使用。

以下将更详细地描述各个分类器150及154的又一个示例。

根据本示例，通过短期分类器分析的短期特征主要与前述感知线性预测声谱数(PLPCC)相对应。PLPCC广泛用于语音及扬声器辨识及MFCC(参见上文)。保留PLPCC，因为PLPCC享有线性预测(LP)的大部分功能，LP被用于大部分近代语音编码器且已经于已切换的音频编码器中实现。和LP一样，PLPCC可提取语音的共振峰结构，然而考虑到感官，PLPCC与扬声器更为独立，并从而与语言信息更具有相关性。对16kHz取样的输入信号使用16个阶数(order)。

除了PLPCC外，将调声强度作为短期特征。调声强度本身并未被考虑为实际上用于鉴别，而是在特征维度方面关于PLPCC有利。调声强度允许在特征维度中至少带入与语音的有声发音及无声发音分别相对应的两个簇集。基于使用不同参数做考绩计算，该参数包括零交叉计数器(zc)、频谱倾斜(tilt)、音高稳定性(ps)、及音高的规度化相关性(nc)。四项参数皆被规度化为0至1，0与典型的无声信号相对应，1与典型的有声信号相对应。于本实施例中，由VMR-WB语音编码器所使用的语音分类标准激发调声强度，该标准述于Milan Jelinek及RedwanSalami的“Wideband speech coding advances in vmr-wb standard”，(IEEETrans.on Audio，Speech and Language Processing，vol.15，no.4，pp.1167-1179，May 2007)。基于以自相关为基础所演化的音高追踪器。针对帧索引k，调声强度u(k)具有下述形式：

v (k) = \frac{1}{5} (2 * nc (k) + 2 * ps (k) + tilt (k) + zc (k))

短期特征的鉴别能力通过高斯混合模型(GMMS)作为分类器来评估。应用了两个GMM，一个GMM用于语音类别，另一个GMM用于音乐类别。改变混合物数目来评估对性能的影响。表1显示针对不同数目混合物的精确度。对四个连续帧的每个段运算判决。总延迟等于64毫秒，其对已切换的音频编码为适合。可观察到性能随着混合物数目而增加。1-GMMs与5-GMMs间的间隙特别重要，可通过下述事实描述，语音的共振峰表现太复杂而无法只通过一个高斯来定义。

表1：短期特征分类准确度，以％表示

	1-GMMs	5-GMMs	10-GMMs	20-GMMs
					语音	95.33	96.52	97.02	97.60
音乐	92.17	91.97	91.61	91.77
					平均	93.75	94.25	94.31	94.68

现在描述长期分类器154，发现许多研究工作者例如M.J.Carey等人，「语音及音乐鉴别的特征比较”，声学、语音及信号处理，第12期149至152页，1999年三月，考虑统计特征的变因比特征本身更具有鉴别力。至于粗略的一般规则，考虑音乐更稳定具有更低变因。相反地，语音更容易通过其显著4-Hz能量调制来区别，原因在于语音信号周期性介于有声段与无声段间改变。此外连续不同的音素让语音特征较不恒定。于本实施例中，考虑两个长期特征，一个特征基于变因运算，而另一个特征基于语音的音高轮廓的先验知识。长期特征自适应于低延迟SMD(语音/音乐鉴别)。

PLPCC的移动的变因包括：在覆盖数个窗口的重迭分析窗口针对每一个PLPCC集合来运算变因，以强调最末的窗口。为了限制所引入的潜在延迟，分析窗口为非对称性，只考虑当前窗口及过去的历史。于第一步骤中，如下所述在最末的N个帧上运算PLPCC的移动的平均ma_m(k)：

{ma}_{m} (k) = Σ_{i = 0}^{N - 1} {PLPC}_{m} (k - i) \cdot w (i)

此处PLPm(k)是在来自于第k个帧的总共m个系数的第m个声谱系数。随后将移动的方差mv_m(k)定义为：

{mv}_{m} (k) = Σ_{i = 0}^{N - 1} {({PLPC}_{m} (k - i) - {ma}_{m} (k))}^{2} \cdot w (i)

此处w为长度N的窗口，于本实施例中具有定义如下的斜坡斜率：

w(i)＝(N-i)/N·(N+1)/2

最终在声谱维度上对该移动的方差求平均：

mv (k) = \frac{1}{M} Σ_{m = 0}^{M} {mv}_{m} (k)

语音的音高具有显著性质，部分性质只在长期分析窗口上观察得。事实上，语音的音高在有声段平滑波动，但很少恒定。相反地，音乐于整个音符期间表现出较常见的恒定音高，而在过渡期间突然改变。经由观察长期段的音高轮廓，长期特征覆盖了此项特性。音高轮廓参数pc(k)定义为：

此处p(k)为在16Hz取样的LP残余信号上以帧索引k运算得到的音高延迟。由音高轮廓参数，计算语音指针sm(k)，使得语音预期在有声段期间显示出平滑起伏的音高延迟，而于无声段期间显示朝向高频的强力的频谱倾斜：

此处nc(k)、tilt(k)及v(k)定义如前(参考短期分类器)。然后语音指针通过如前述定义的窗口w加权并且在最末N个帧上进行积分：

ams (k) = Σ_{i = 0}^{N} m (k - 1) w (i)

音高轮廓也是该信号是否适合用于语音编码或音频编码的重要指针。确实语音编码器主要作用于时域，假设该信号为斜坡且在约5毫秒的短期段为准稳态。通过此方式，可将语音的自然音高波动有效地模型化。相反地，同样的波动对于使用长期分析窗口的线性变换的一般音频编码器的效率有害。在数个已变换的系数上展开信号的主要能量。

如针对短期特征一样，也使用统计分类器评估长期特征，从而通过此获得长期分类结果(DDC)。两项特征使用N＝25个帧运算，例如，考虑该信号的400毫秒过去历史。在简化的一维空间中使用3-GMM之前，先应用线性判别式分析(LDA)。表2显示当对四个连续帧段分类时，针对训练集合及测试集合测量得到的性能。

表2：长期特征分类精确度，以％表示

	训练集合	测试集合
			语音	97.99	97.84
音乐	95.93	95.44
			平均	96.96	96.64

根据本发明的实施例的组合型分类系统适当地组合短期特征及长期特征，使得两种特征对最终判决做出其特定贡献。针对此项目的，可使用如前文描述的迟滞最终判决阶段，此处通过DDC或长期鉴别线索(LTDC)驱动记忆效应；而瞬时输入来自于IDC或短期鉴别线索(STDC)。两个线索为长期分类器及短期分类器的输出信号，如图1所示。基于IDC做判决，但通过DDC稳定化，DDC动态地控制触发状态改变的阈值。

长期分类器154使用先前以LDA然后以3-GMM定义的长期特征及短期特征。DDC等于在最末4X K帧上运算得到的语音类别及音乐类别的长期分类器似然度的对数比。考虑的帧数目可随着参数K改变，以便对最终判决加上更多或更少的记忆效应。相反地，短期分类器只使用有5-GMM的短期特征，显示于性能与复杂度间的良好折衷。IDC等于只在最末4个帧上运算得到的语音类别及音乐类别的短期分类器似然度的对数比。

为了评估本发明办法，特别对已切换的音频编码，评估三种不同性能。第一性能测量值为常规语音对音乐(SvM)性能。在音乐项目及语音项目的大集合上进行评估。第二性能测量对每3秒钟语音段与音乐段交替的大型独特项做测量。从而该鉴别准确度被称为音乐的后/的前语音(SabM)性能，主要反映出系统的反应性。最后，经由在语音/音乐项目的大集合上进行分类来评估判决的稳定性。从一个项目到另一个项目，在不同的位准上进行语音与音乐间的混合。然后通过运算在帧总数上发生的类别切换数目比，获得语音/音乐(SoM)性能。

长期分类器及短期分类器用作为评估常规单一分类器办法的参考。短期分类器显示良好反应性，同时具有低稳定性及较低的总鉴别能力。另一方面，长期分类器，特别将帧数目提高4X K，经由折衷判决的反应性而可实现较高稳定性及鉴别能力。比较前述常规办法，根据本发明的组合型分类器系统的性能有若干优点。其中一项优点为可保留良好纯粹语音对音乐鉴别性能，同时保留系统的反应性。另一项优点为反应性与稳定性间做出良好折衷。

后文参考图4及图5，示例显示编码及解码方案的示例，其包括根据本发明的实施例工作的鉴别器或判决级。

根据图4所示编码方案示例，单声信号、立体声信号或多通道信号输入公共预处理阶段200。

公共预处理阶段200具有联合立体声功能、环绕功能及/或带宽扩展功能。在阶段200的输出，有输入到一个或多个开关202的单声通道、立体声通道或多通道。当级200有两个或多个输出，例如当级200输出立体声信号或多通道信号时，可对级200的各个输出提供开关202。举例言之，立体声信号的第一通道可为语音通道，立体声信号的第二通道可为音乐通道。于这样的情况下，同一个时间瞬间在两个通道之间，判决级204中的判决可不同。

开关202通过判决级204控制。判决级包括根据本发明的实施例的鉴别器，及接收输入级200的信号，或由级200输出的信号作为输出信号。另外，判决级204也可接收包括在该单声信号、立体声信号或多通道信号中的边带信息，或该边带信息至少与这样的信号关联，此处存在着例如在初始产生单声信号、立体声信号或多通道信号时产生的信息。

在一个实施例中，判决级并未控制预处理级200，级204与级200间的箭头不存在。于又一个实施例中，级200的处理通过判决级204控制至某个程度，以便基于该判决选择于级200的一项或多项参数。但如此不影响级200中的一般算法，使得级200中的主要功能处于作用状态，而与级204中的判决无关。

判决级204致动开关202以便将公共预处理级的输出信号馈至图4上分支处所示意的频率编码部206或图4下分支处所示意的LPC域编码部208。

于一个实施例中，开关202在两个编码分支206、208间切换。于其它实施例中，可有其它的编码分支，诸如第三编码分支，或甚至第四编码分支或甚至更多编码分支。于有三个编码分支的一个实施例中，第三编码分支可类似于第二编码分支，但包括与第二分支208的激励编码器210不同的激励编码器。于这样的实施例中，第二分支包括LPC级212及基于码本的激励编码器210(例如ACELP)；及第三分支包括LPC级以及关于LPC级输出信号的频谱表示工作的激励编码器。

频域编码分支包括频谱变换块214，可被配置为将该公共预处理级输出信号变换成频谱域。频谱变换块可包括MDCT算法、QMF、FFT算法、子波分析或滤波器组(例如，具有特定数目的滤波器组通道的临界取样的滤波器组)，在此，本滤波器组的子频带信号可为实数值信号或复数值信号。频谱变换块214的输出使用频谱音频编码器216编码，频谱音频编码器216可包括如由AAC编码方案已知的处理块。

下编码分支208包括源模型分析器诸如LPC 212，其输出两种信号。一种信号为LPC信息信号，用于控制LPC合成滤波器的滤波特性。该LPC信息被传输至解码器。另一个LPC级212输出信号为激励信号或LPC域信号，其被输入至激励编码器210。激励编码器210可来自于任何源滤波器模型编码器诸如CELP编码器、ACELP编码器或任何其它处理LPC域信号的编码器。

另一种激励编码器的实施例是激励信号的变换编码。在这样的实施例中，没有使用ACELP码本机制来编码激励信号，反而激励信号被变换成频谱表示，对频谱表示数值(例如滤波器组情况下的子频带信号或诸如FFT的变换的情况下的频率系数)编码来获得数据压缩。这样的激励编码器的实施例为由AMR-WB+已知的TCX编码模式。

在判决级204中的判决可以是信号自适应性的，以使得判决级204进行音乐/语音鉴别，并使得判决级204控制开关202，使得音乐信号输入上分支206，而语音信号输入下分支208。于一个实施例中，判决级204将其判决信息馈入输出比特流，因此解码器可使用本判决信息来进行正确解码运算。

这样的解码器示例描述于图5。于传输后，将通过频谱音频编码器216输出的信号输入至频谱音频解码器218。将频谱音频解码器218的输出输入至时域变换器220。将图4的激励编码器210的输出信号输入至输出LPC域信号的激励解码器222。将该LPC域信号输入至LPC合成级224，LPC合成级224接收由相对应的LPC分析级212所产生的LPC信息作为额外的输入信号。将时域变换器220的输出信号及/或LPC合成级224的输出信号输入至开关226。开关226经由开关控制信号来控制，该开关控制信号例如由判决级204所产生，或由外部提供，例如由原始单声信号、立体声信号或多通道信号的形成器来提供。

开关226的输出信号为完全单声信号，随后将其输入至公共后处理级228，公共后处理级228执行联合立体声处理或带宽扩展处理等。另外，开关的输出信号也可为立体声信号或多通道信号。当预处理包括将通道减至二通道时，其为立体声信号。当通道减至三通道或根本没有通道减少而只进行频谱带复制时，其甚至可为多通道信号。

取决于该公共后处理级的特定功能，输出单声信号、立体声信号或多通道信号，当该公共后处理级228执行带宽扩展操作时，具有比输入块228的信号更大的带宽。

于一个实施例中，开关226在两个解码分支218、220与222、224之间切换。于又一实施例中，可有额外的解码分支，诸如第三解码分支或甚至第四解码分支或甚至更多解码分支。于有三个解码分支的实施例中，第三解码分支可类似第二解码分支，但包括与于第二分支222、224的激励解码器222不同的激励解码器。于这样的实施例中，第二分支包括LPC级224及基于码本的激励解码器(例如，以ACELP的形式)；而第三分支包括LPC级以及在LPC级224输出信号的频谱表示上进行操作的激励解码器。

于另一个实施例中，该公共预处理级包括环绕/立体声块，其产生联合立体声参数及单声输出信号作为输出信号，该单声输出信号通过将具有两个或多个通道的输入信号降混(downmix)而产生。通常，在该块输出处的信号可以是有更多通道的信号，但因降混操作，在该块输出处的通道数目将小于输入该块的通道数目。在本实施例中，频率编码分支包括频谱变换级及随后连接的量化/编码级。该量化/编码级可包括由诸如AAC编码器的近代频域编码器所知的任一项功能。此外，可经由心理声学模型来控制该量化/编码级的量化操作，该心理声学模型产生心理声学信息(例如，对该频率的心理声学遮蔽阈值)，此处本信息被输入到该级中。优选使用MDCT操作进行频谱变换，更优选地，使用时间翘曲的MDCT操作，此处强度或通常为可控制在零至高翘曲强度之间的翘曲强度。在零翘曲强度中，MDCT操作为技艺界已知的直通式MDCT操作。LPC域编码器包括ACELP核，计算音高增益、音高滞后及/或码本信息诸如码本索引及码增益。

虽然若干图式示例描述了装置的方框图，但须注意此等图式同时也示例描述了一种方法，其中各个方框的功能对应于方法的步骤。

前文描述的本发明实施例基于包括不同段或不同帧的音频输入信号来进行描述，该不同段或帧与语音信息或音乐信息有关。本发明并非限于此等实施例，反之，也可以将包括至少第一型段及第二型段在内的信号的不同段分类的办法应用于包括三个或更多个不同段类型的音频信号，各段类型期望通过不同的编码方案编码。这样的段类型的示例为：

-稳态/非稳态段可用于使用不同滤波器组、窗口或编码自适应性。例如，应使用细致时间分辨率滤波器组来编码瞬变；而应该通过细致频率分辨率滤波器组来编码纯粹的正弦曲线。

-有声/无声：有声段可通过语音编码器诸如CELP良好处理；但用于无声段则浪费太多比特。参数编码将较为有效。

-静默/作用状态：可使用比作用状态段更少的比特来编码静默。

-谐波/非谐波：优选使用在频域中使用线性预测的谐波段编码。

此外，本发明并非限于音频技术领域，反而所述分类信号的办法也可应用至其它种信号，例如视讯信号或数据信号，其中个别信号包括不同类型的段而要求不同的处理，例如：

本发明可自适应于全部需要时间信号分段的实时应用。举例言的，来自于监控视讯摄影机的面部检测可基于分类器，该分类器确定帧的各个像素(此处帧对应于时间n)所拍相片(是否属于一个人的脸部)。该分类(亦即脸部分段)针对对该视讯串流的各个单帧而进行。但使用本发明，当前帧的分段可考虑过去连续的帧，利用连续图像有强力相关性的优点而获得更佳分段准确度。则可应用两个分类器。一个只考虑当前帧，另一个分类器考虑包括当前帧及过去帧的帧集合。最后的分类器对帧集合积分，确定脸部位置的概率区域。该分类器的确定只对当前帧进行确定，随后与该概率区域做比较。然后让判决生效或进行修改。

本发明的实施例使用开关在二分支之间切换，使得只有一个分支接收欲处理信号，而另一个分支并未接收信号。但于另一个实施例中，开关将配置于处理级或处理分支例如音频编码器或语音编码器之后，因此二分支可并行处理同一个信号。由其中一个分支输出的信号被选用来输出，例如被写入输出比特流。

虽然本发明的实施例基于数字信号做描述，段通过以特定抽样率获得的预定抽样数目来确定，本发明并不限于这样的信号，反而本发明也可应用于模拟信号，其中段由模拟信号的特定频率范围或时间周期决定。此外，结合包括鉴别器的编码器对本发明的实施例进行描述。基本上，注意到根据本发明的实施例用于分类信号的方法也可应用于接收已编码信号的解码器，可对不同编码方案分类，以允许将已编码信号提供至适当解码器。

依据本发明方法的若干实施要求，本发明方法可于硬件或于软件实施。实施可使用数字储存媒体进行，特别为有可电子读取控制信号储存于其上的盘片、DVD或CD，其与可规划计算机系统协力合作因而可执行本发明方法。因此本发明为一种有程序代码储存于机器可读取载体上的一种计算机程序产品，该程序代码于计算机程序产品于计算机上跑时可运算来执行本发明方法。换言之，本发明方法为一种具有程序代码的计算机程序，用于当该计算机程序于计算机上跑时该程序代码可执行至少一种本发明的方法。

前述实施例仅供举例描述本发明的原理。须了解此处所述配置及细节的修改及变化为熟谙技艺人士显然易知。因此意图仅受随附的申请专利范围的范围所限而非受通过此处实施例的描述及解释呈现的特定细节所限。

于前述实施例中，所描述的信号包括多个帧，其中评估当前帧以用于切换判决。注意到评估用于切换判决的该信号的当前段可为一个帧，但本发明并非限于这样的实施例。反而该信号的段也可包括多数亦即两个或更多个帧。

此外，于前述实施例中，短期分类器及长期分类器使用相同短期特征。这样的办法可由于不同理由而使用，例如只需运算短期特征一次，通过两个分类器以不同方式使用短期特征，将减少系统的复杂度，原因在于该短期特征将通过短期分类器或长期分类器中的一者进行计算而提供予另一个分类器。又，短期分类器结果与长期分类器结果之间的比较将更具有相关性，原因在于两个分类器共享公共特征，经由比较长期分类结果与短期分类结果，更容易推定于长期分类结果中当前帧的贡献。

但本发明并未限于这样的办法，长期分类器并未限于使用与短期分类器相同的短期特征，亦即短期分类器与长期分类器二者可计算彼此不同的其个别的短期特征。

虽然前述实施例述及使用PLPCC作为短期特征，但须注意也可考虑其它特征，例如PLPCC的变化例。

Claims

1.一种用于对音频信号的不同段进行分类的方法，所述音频信号包括语音段和音乐段，该方法包括：

基于从所述音频信号提取的至少一个短期特征，对所述音频信号进行短期分类(150)，以确定所述音频信号的当前段是语音段还是音乐段，并递送指示所述音频信号的当前段是语音段或音乐段的短期分类结果(152)；

基于从所述音频信号提取的至少一个短期特征和至少一个长期特征，对所述音频信号进行长期分类(154)，以确定所述音频信号的当前段是语音段还是音乐段，并递送指示所述音频信号的当前段是语音段或音乐段的长期分类结果(156)；以及

将所述短期分类结果(152)和所述长期分类结果(156)进行组合(158)，以提供对所述音频信号的当前段是是语音段还是音乐段加以指示的输出信号(160)，

其中，将所述短期分类结果(152)与所述长期分类结果(156)进行组合(158)包括：基于组合结果的迟滞判决，所述组合结果包括各自都通过预定的加权因子加权的短期分类结果(152)和长期分类结果(156)。

2.根据权利要求1所述的方法，其中

通过分析要被分类的音频信号的当前段获得所述至少一个短期特征；以及

通过分析所述音频信号的所述当前段及所述音频信号的一个或多个先前段获得所述至少一个长期特征。

3.根据权利要求1所述的方法，其中

通过分析第一长度的分析窗口(168)和第一分析方法获得所述至少一个短期特征；及

通过分析第二长度的分析窗口(162)和第二分析方法获得所述至少一个长期特征，所述第一长度比所述第二长度短，以及所述第一分析方法与所述第二分析方法不同。

4.根据权利要求3所述的方法，其中，所述第一长度横跨所述音频信号的当前段，所述第二长度横跨所述音频信号的所述当前段及所述音频信号的一个或多个先前段，以及所述第一长度与所述第二长度包括覆盖分析周期的额外周期(164)。

5.根据权利要求1所述的方法，其中，所述音频信号是数字信号，以及所述音频信号的段包括以特定抽样率获得的预定数目抽样。

6.根据权利要求1所述的方法，其中

所述至少一个短期特征包括PLPCC参数；以及

所述至少一个长期特征包括音高特性信息。

7.根据权利要求1所述的方法，其中，用于短期分类的短期特征与用于长期分类的短期特征相同或不同。

8.一种用于对包括语音段和音乐段的音频信号进行处理的方法，所述方法包括：

根据权利要求1所述的方法对所述音频信号的当前段进行分类(116)；

取决于所述分类步骤(116)提供的输出信号(160)，依照第一编码过程或第二编码过程处理(102、206；106、208)所述当前段；及

输出已处理的段。

9.根据权利要求8所述的方法，其中

当所述输出信号(160)指示所述段为语音段时，通过语音编码器(102)处理所述段；及

当所述输出信号(160)指示所述段为音乐段时，通过音乐编码器(106)处理所述段。

10.根据权利要求9所述的方法，还包括：

将所述已处理段与来自于所述输出信号(160)的指示所述段类型的信息进行组合(108)。

11.一种鉴别器，包括：

短期分类器(150)，被配置为：接收音频信号，确定所述音频信号的当前段是语音段还是音乐段，并基于从所述音频信号提取的至少一个短期特征提供所述音频信号的短期分类结果(152)，所述短期分类结果(152)指示所述音频信号的当前段是语音段或音乐段，所述音频信号包括语音段和音乐段；

长期分类器(154)，被配置为：接收信号，确定所述音频信号的当前段是语音段还是音乐段，并基于从所述音频信号提取的至少一个短期特征和至少一个长期特征提供所述音频信号的长期分类结果(156)，所述长期分类结果(156)指示所述音频信号的当前段是语音段或音乐段；及

判决电路(158)，被配置为：将所述短期分类结果(152)及长期分类结果(156)进行组合，以提供对所述音频信号的当前段是语音段还是音乐段加以指示的输出信号(160)，

其中，所述判决电路(158)被配置为基于组合结果执行迟滞判决，所述组合结果包括各自都通过预定的加权因子加权的短期分类结果(152)和长期分类结果(156)。

12.一种音频信号处理设备，包括：

输入(110)，被配置为：接收要被处理的音频信号，其中，所述音频信号包括语音段和音乐段；

第一处理级(102；206)，被配置为处理语音段；

第二处理级(104；208)，被配置为处理音乐段；

根据权利要求14所述的鉴别器(116；204)，耦接至所述输入；以及

切换装置(112；202)，耦接在所述输入与所述第一处理级和所述第二处理级之间，被配置为：取决于来自于所述鉴别器(116)的输出信号(160)，将来自于所述输入(110)的音频信号施加至所述第一处理级及第二处理级中的一个。

13.一种音频编码器，包括：

根据权利要求12所述的音频信号处理设备，

其中，所述第一处理级包括语音编码器(102)，所述第二处理级包括音乐编码器(106)。