CN102483916B

CN102483916B - 声音特征量提取装置和声音特征量提取方法

Info

Publication number: CN102483916B
Application number: CN201080038121.5A
Authority: CN
Inventors: 市川治; 福田隆; 西村雅史
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-08-28
Filing date: 2010-07-12
Publication date: 2014-08-06
Anticipated expiration: 2030-07-12
Also published as: TW201123169A; GB201202741D0; KR20120046298A; US8930185B2; JP5723923B2; GB2485926A; US20120330657A1; US8468016B2; JP5315414B2; WO2011024572A1; KR101332143B1; JPWO2011024572A1; JP2013178575A; DE112010003461B4; CN102483916A; GB2485926B; US20120185243A1; DE112010003461T5

Abstract

提供从声音信号中提取由于噪音、回音而更强的特征量的技术。一种声音特征量提取装置，包括：差分算出单元，输入帧化的声音信号的频谱，对于各帧，算出前后的帧间的频谱的差分(线性区域的差分)，作为差量频谱；和正规化处理单元，对于各帧，通过将差量频谱除以平均频谱的函数而正规化，将正规化处理单元的输出设为差量特征量。

Description

声音特征量提取装置和声音特征量提取方法

技术领域

本发明涉及用于从声音信号中提取特征量的技术，特别是涉及用于提取可抗回音、噪音的差量及次差量特征量的技术。

背景技术

声音辨识设备的抗回音能力及抗噪音能力在持续改善，然而，在很差的条件下的辨识准确率尚未有效的提升。以抗噪音能力来说，在例如汽车中开着窗户高速驾驶等SN极低的条件下及音乐或喧闹声等不稳定的噪音环境下的辨识率极低是众所周知的。此外，以抗回音能力来说，在例如水泥回廊及电梯间等声音反射及回音很多的地方，即使只有很小的噪音也会使辨识率极低。

解决这些问题的方法很多，其可分为以下四类：(1)前端处理方法，通过观测信号的前处理，移除回音、噪音(例如可参考专利文献1及2)；(2)多样化训练方法，其中的声学模型在学习时使用包含回音、噪音的声音(例如参考专利文献3)；(3)用以转换特征量或声学模型的适应性方法，其使观测声音与该声学模型匹配(例如参考专利文献4)；以及(4)特征量提取方法，其中使用抗回音、噪音的特征量(例如非专利文献1)。

前述的各方法都可以与另一方法结合。例如可有这样的组合方法，其中：结合了方法(2)、(3)及(4)，且使用LDA进行特征量提取、以多样化训练建立声学模型，然后用MLLR做适应性变化。因此，重要的是不能仅改进其中一个方法，而需改进所有上述的方法(1)-(4)。

引用文献：

专利文献：

[专利文献1]特开2009-58708号公报

[专利文献2]特开2004-347956号公报

[专利文献3]特开2007-72481号公报

[专利文献4]特开2007-279444号公报

非专利文献：

[非专利文献1]Takashi Fukuda,Osamu Ichikawa,MasafumiNishimura,"Short-and Long-term Dynamic Features for Robust SpeechRecognition",Proc of10^th International Conference on Spoken LanguageProcessing(ICSLP2008/Interspeech2008),pp.2262-2265,September2008,Brisbane,Australia.

发明内容

然而，考虑到(4)的特征提取，尚未发现极度抗噪音、回音的特征量。特别是具有优秀抗回音能力的特征量很少见。因此，现在很多类型的声音辨识中是用梅尔频率倒频谱系数(Mel-Frequency Ceptrum Coefficient，MFCC)、MFCC的差量(第一阶变化量)及MFCC的次差量(第二阶变化量)的组合，或上述值的线性变换。

在本申请人的非专利文献1中的技术，通过使用超过平均音素持续时间的宽窗口宽度中的MFCC的差量作为特征量，可以提高声音辨识的准确度。但若在噪音及回音严重的条件下，其表现仍需改进。

为了解决上述问题，本发明目的为提供一种用于从声音信号提取更抗噪音、回音的特征量的技术，以提高声音辨识的准确度。

发明人为了发现抗噪音、回音的特征量已进行诸多研究，且发现非显而易见之处，即现今使用的许多包括MFCC差量的差量特征量可视为在对数域中的差分，而对数域的差分会给回音及噪音环境中的声音辨识带来不好的结果。因此，发明人进行更深入的研究，结果得到使用在线性域中的差分的新想法，并在正规化中使用整体声音的频谱的平均而解决了使用在线性域的差分所导致的新问题。这些问题包括因动态范围宽而使线性域的差分不适合用以建立模形，以及不能修正转移特性的问题。

为解决上述问题，本发明的第一形态是提供一种声音特征量提取装置，包括：第一差分算出单元，输入帧化的声音信号的各频率bin的频谱，对于各帧，对上述各频率bin算出前后的帧间的上述频谱的差分，作为差量频谱；和第一正规化处理单元，对于上述各帧，通过将上述各频率bin的上述差量频谱除以该频率bin的总发音即全部帧的频谱的平均即平均频谱的函数而正规化，将上述第一正规化处理单元的输出设为差量特征量。

这里，上述平均频谱的上述函数可以是上述平均频谱本身。

优选的是，上述声音特征量提取装置还包括：第一梅尔滤波器组处理单元，对于上述各帧，算出上述各频率bin的正规化的上述差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的正规化的梅尔差量频谱，将上述第一梅尔滤波器组处理单元的输出设为差量特征量。

优选的是，上述声音特征量提取装置还包括：第一离散余弦变换单元，对上述各滤波器组的正规化的梅尔差量频谱进行离散余弦变换，将上述第一离散余弦变换单元的输出设为差量特征量。

优选的是，上述第一正规化处理单元通过上述除法外还进行对数压缩而进行上述正规化。

优选的是，当需改善对广频域噪音的抗噪性时，上述第一梅尔滤波器组处理单元取代上述梅尔滤波器组的权重，而使用在有声区间中的谐波构造部分具有权重且在无谐波构造的无声区间中接近平坦的滤波器与上述梅尔滤波器组的权重的积。

优选的是，上述声音特征量提取装置还包括：算出MFCC(Mel-Frequency Cepstrum Coefficient)的MFCC算出单元，将上述MFCC设为静态特征量。

第一梅尔滤波器组处理单元的处理可在第一正规化处理单元的处理之前。该场合，第一正规化处理单元对该帧，通过将该滤波器组的梅尔差量频谱除以该滤波器组的总发声即全部帧的梅尔频谱的平均即平均梅尔频谱的函数而正规化。另外，该声音特征量提取装置可以将该第一正规化处理单元的输出设为差量特征量。

优选的是，上述平均梅尔频谱的上述函数是上述平均梅尔频谱本身。另外，也可以对任意的帧t及任意的滤波器组j，上述平均梅尔频谱的上述函数将帧t的滤波器组j的梅尔频谱的值和滤波器组j的上述平均梅尔频谱的值中的较大值或接近较大值的值输出。

优选的是，前述第一正规化处理单元的输出设为差量特征量的声音特征量提取装置，还包括：第二差分算出单元，输入上述差量频谱，对于各帧，对上述各频率bin算出前后的帧间的上述差量频谱的差分，作为次差量频谱；第二梅尔滤波器组处理单元，对于上述各帧，算出各频率bin的上述次差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔次差量频谱；和第二正规化处理单元，对于上述各帧，通过将上述各滤波器组的上述梅尔次差量频谱除以上述平均梅尔频谱的函数而正规化，将上述第二正规化处理单元的输出设为次差量特征量。

优选的是，前述声音特征量提取装置还包括：第一离散余弦变换单元，对正规化的上述各滤波器组的上述梅尔差量频谱进行离散余弦变换，将上述第一离散余弦变换单元的输出设为差量特征量。

优选的是，前述第一离散余弦变换部的输出设为差量特征量的声音特征量提取装置，还包括：第二差分算出单元，输入上述差量频谱，对于各帧，算出前后的帧间的上述各频率bin的上述差量频谱的差分，作为次差量频谱；第二梅尔滤波器组处理单元，对于上述各帧，算出各频率bin的上述次差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔次差量频谱；第二正规化处理单元，对于上述各帧，通过将上述各滤波器组的上述梅尔次差量频谱除以该滤波器组的上述平均梅尔频谱的函数而正规化；以及第二离散余弦变换单元，对正规化的上述各滤波器组的梅尔次差量频谱进行离散余弦变换，将上述第二离散余弦变换单元的输出设为次差量特征量。

为解决上述问题，本发明的第二形态提供一种声音特征量提取装置，包括：梅尔滤波器组处理单元，输入帧化的声音信号的各帧的频谱与总发音即全部帧的频谱的平均即平均频谱相加的值，对于上述各帧，将上述值与梅尔滤波器组的权重相乘并合计；对数算出单元，对于上述各帧，求出上述梅尔滤波器组处理单元的输出的对数；离散余弦变换单元，对于上述各帧，将上述对数算出单元的输出进行离散余弦变换；以及第一差分算出单元，对于上述各帧，算出前后的帧间的上述离散余弦变换单元的输出的差分，将上述第一差分算出单元的输出设为差量特征量。

为解决上述问题，本发明的第三形态提供一种声音特征量提取装置，包括：梅尔滤波器组处理单元，输入帧化的声音信号的各帧的频谱，对于上述各帧，通过将上述频谱与梅尔滤波器组的权重相乘并合计，算出梅尔频谱；平均算出单元，输入各帧的上述梅尔频谱，算出总发音即全部帧的上述梅尔频谱的平均即平均梅尔频谱；对数算出单元，对于上述各帧，求出上述梅尔频谱加上上述平均梅尔频谱的值的对数；离散余弦变换单元，对于上述各帧，将上述对数算出单元的输出进行离散余弦变换；第一差分算出单元，对于上述各帧，算出前后的帧间的上述离散余弦变换单元的输出的差分，将上述第一差分算出单元的输出设为差量特征量。

在本发明的第二及第三形态中，上述声音特征量提取装置还包括：第二差分算出单元，对于上述各帧，算出前后的帧间的上述第一差分算出单元的输出的差分，将上述第二差分算出单元的输出设为次差量特征量。

虽然本发明描述为声音特征量提取装置，但本发明也可视为声音特征量提取方法，其使用包括处理器及存储区的计算机进行计算以提取上述的声音特征量，或视为声音特征量提取程序，其在包括处理器及存储区的计算机中执行并提取上述的声音特征量。本发明可与用以移除回音、噪音的技术并用，例如与前述的前端处理技术并用。

根据本发明，其未使用以往的对数域的差分，而是使用线性域的差分作为声音的差量特征量及次差量特征量。因此可提取较先前技术更能抗回音及噪音的特征量。而其结果可改善声音辨识的正确率。本发明其它的有益效果可由实施方式中了解。

附图说明

图1(a)为对数轴的图，其表示在回音室中录制的声音功率的衰减。图1(b)为线性轴的图，其表示与图1(a)相同的声音功率的衰减。

图2表示在回音环境中录制的范例声音频谱。

图3表示适于实施本发明实施例的声音特征量提取装置的计算机300的范例硬件构成。

图4表示一般声音辨识装置400的范例构成。

图5表示静态特征量计算部的范例功能构成。

图6(a)表示本发明第一实施例的声音特征量提取装置的差量特征量计算部。图6(b)表示本发明第一实施例的声音特征量提取装置的次差量特征量计算部的功能构成。

图7(a)表示本发明第二实施例的声音特征量提取装置的差量特征量计算部的功能构成。图7(b)表示本发明第二实施例的声音特征量提取装置的次差量特征量计算部的功能构成。

图8(a)表示本发明第三实施例的声音特征量提取装置的差量特征量计算部的功能构成。图8(b)表示本发明第三实施例的声音特征量提取装置的次差量特征量计算部的功能构成。

图9(a)表示本发明第三实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。图9(b)表示本发明第三实施例的声音特征量提取装置的次差量特征量计算部中提取声音次差量特征量的过程的流程图。

图10(a)表示梅尔滤波器组权重(Mel-FB Weight)的范例。图10(b)表示局部峰值权重(Local Peak Weight)的范例。图10(c)表示LPW-Mel-FB权重的范例。

图11为表示产生局部峰值权重的流程的范例流程图。

图12(a)表示本发明第四实施例的声音特征量提取装置的差量特征量计算部的功能构成。图12(b)表示本发明第五实施例的声音特征量提取装置的差量特征量计算部的功能构成。

图13(a)表示本发明第四实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。图13(b)表示本发明第五实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。

图14表示本发明第四或第五实施例的声音特征量提取装置的次差量特征量计算部的功能构成。

图15表示本发明第四或第五实施例的声音特征量提取装置的次差量特征量计算部中提取声音次差量特征量的过程的流程图。

图16为表示本发明在回音环境中的第一评价实验的范例结果的表。

图17为表示本发明在回音环境中的第二评价实验的范例结果的表。

图18为表示本发明在噪音环境中的评价实验的范例结果的表。

具体实施方式

以下，基于图详细描述实施本发明的最佳形态。然而，以下实施例并不用以限制权利要求范围的发明。此外，对本发明的解决问题的手段来说，并非在实施例中所述的所有特征量的组合都为必要。在所有实施例的说明中，相同的构成符号指相同的构成。

在描述本发明的构成及操作前，先参照图1及图2说明使用具有对数域的差分的差量特征量会给回音及噪音环境中的声音辨识带来不好的结果。接着，针对上述各个环境，说明一种线性域的差分，在差分上执行了发明人所提出的使用频谱的平均的正规化，该差分与以往技术相比，可进一步抗噪音、回音。

(回音环境)

图1表示在回音室中录制的声音功率的衰减，相同的观测数据以对数轴表示于图1(a)中，而以线性轴表示于图1(b)中。横轴表示区间编号并对应时间经过。图1显示声音的播放在第9个区间附近结束，而接下来的区间为回音区间。已知回音的功率为指数衰减，以对数轴表示的图1(a)中，形成长且稳定斜率的坡10。另一方面，以线性轴表示的图1(b)中，形成短且陡的坡20。

至今，前后帧间的MFCC差分常被用来作为差量特征量。由于MFCC为各梅尔刻度滤波器组(Mel-FB)的对数频谱的离散余弦变换的结果，该差量特征量可视为对数域的差分。即使在不用MFCC为特征量的声音辨识装置中，因往往使用对数频谱或对数频谱的线性变换作为特征量，所以差量特征量也可视为对数域的差分。

以往以此方式使用对数域的差分作为差量特征量的方法对应于使用图1(a)中是坡10的梯度作为差量特征量，即使在声音结束后，一定的特征量会继续输出一段较长的时间。另一方面，使用线性域的差分作为差量特征量则对应于使用图1(b)中的坡20的梯度作为差量特征量，这样，差量特征量可视为在回音区间快速衰减。

差量特征量快速衰减的重要性在音素为连续的情况下更为明显。图2表示在回音环境中录制的范例声音频谱。与图1同样，横轴表示区间编号，而纵轴代表频率。此外，声音频谱的强度可以颜色浓淡表示，而愈浅表示强度愈高。如图2，当音素1及2为连续时，虽然区域A属于音素2，但区域A仍受到前面的音素1的影响。由于区域A的部分的频谱强度够低，因此当假设仅有非差量即静态特征量时，前面的音素的影响不会太强。然而，当也考虑到使用对数频谱的差量特征量等动态特征量时，区域A的部分对应于前面的音素1的回音即长坡的底部，因此区域A受到前面的音素1的影响会比表面上看起来还要大。因此，在有回音的环境下，快速衰减的线性域的差量特征量较佳。

然而，线性域的差分不能直接作为差量特征量使用。因为线性域的差量具有较宽的动态范围而因此不适于建立模型。另外，为了压缩动态范围，也可以考虑在计算线性域的差量后取对数。然而，由于差量的值可为正或负，因此无法简单的取对数。此外，在声音辨识中，在许多情况下，倒频谱平均正规化(Cepstrum Mean Normalization，CMN)也同时被使用以修正传输特性，但是，此修正无法直接以线性域的差量进行。

因此，发明人使用总发声的频谱的平均将线性域的频谱的差量正规化以解决上述问题。假设观测声音的第t帧的线性域的频谱的差量为Δs_t，且总发声即全部帧的频谱的平均(此后简称为平均频谱)为s，则发明人所提出的最简单的差量特征量可用以下公式表示。发明人所提出的其它不同类型的差量特征量于后详述。

[公式1]

{Δ \hat{s}}_{t} = \frac{Δ s_{t}}{\overset{&OverBar;}{s}}

此处为了方便进行比较，而将以往的观测声音的第t帧的对数域的频谱的差量用下列公式逼近。

[公式2]

\begin{matrix} Δ (\log s_{t}) \approx \frac{&PartialD;}{&PartialD; S} \log (s_{t}) \cdot Δ s_{t} \\ = \frac{Δ s_{t}}{s_{t}} \end{matrix}

比较公式1及公式2，发明人提出的差量特征量可视为将以往的差量特征量的分母的频谱s_t以总发声的平均频谱置换的结果。因此，当发明人提出的差量特征量的第t帧具有比总发声较小的功率时，赋予比以往的差量特征量小的差量特征量。另外，因前述两公式彼此相似，公式1可视为实质上落入与公式2相同的动态范围中。而且，公式1中的差量特征量除以s，因此也包括转移特性的修正效果。

(噪音环境)

发明人提出的差量特征量在噪音环境下也有效，此于后以公式1为例详述。假设在声学模型学习时没有噪音，且学习时分别使用公式1及2的差量特征量。在执行声音辨识时加入噪音N的情形中，公式1的差量特征量可用以下公式表示。

[公式3]

Δ {\hat{s}}_{t Noisy} = \frac{Δ s_{t}}{\overset{&OverBar;}{s} + N}

同样，公式2的差量特征量可用以下公式表示。

[公式4]

Δ {(\log s_{t})}_{Noisy} = \frac{Δ s_{t}}{s_{t} + N}

此处为了验证加入噪音N所造成的变化程度，计算公式1及3之间的比及公式2及4之间的比，并分别表示于公式5及6中。

[公式5]

\frac{Δ {\hat{s}}_{t Noisy}}{Δ {\hat{s}}_{t}} = 1 + \frac{N}{\overset{&OverBar;}{s}}

[公式6]

\frac{Δ {(\log s_{t})}_{Noisy}}{Δ (\log s_{t})} \approx 1 + \frac{N}{s_{t}}

比较公式5及公式6可发现，在区域SNR较低的帧即s_t远小于噪音N或平均频谱的区间，因加入噪音N所造成的差量特征量的变异度在公式6中比较大。意即在一般认为容易发生误辨识的低SNR区间中发生的距离模型的偏差，在使用以往的对数域的差量时远大于使用发明人所提出的差量特征量。据此，发明人所提出的差量特征量在噪音环境下也有效。

图3表示用于实施本发明的计算机300的范例硬件构成。图3中，在麦克风305周围产生的声音经由该麦克风305以模拟信号输入至A/D变换器310，在其中，该模拟信号被变换为可由CPU325处理的数字信号。

麦克风305所收到的声音例如有在行车导航系统的情况下，不仅驾驶者及乘客说话的声音，还有冷气出风的声音、汽车音响输出的声音、引擎声、以及汽车喇叭声。若车子的窗户是开着的，则麦克风305收到的声音更会包括从对面车的噪音以及路人的说话声。

多个计算机程序的程序代码及各种不同类型的数据可记录在外部存储装置315、ROM320中，多个计算机程序包括声音特征量提取程序模块，其与操作系统协作而提供指令给CPU325，以使其实施本发明。存储在外部存储装置315、ROM320的多个计算机程序都由CPU325读取并加载至RAM330中执行。外部存储装置315经由控制器例如SCSI控制器(未图示)连接到总线345。

计算机程序在进行压缩、分割后可被记录在多个媒体中。下文将对CPU325使用声音特征量提取程序针对由A/D变换器310转来的数字信号要执行的操作的细节进行描述。

计算机300还包括显示装置335，用以呈现可视化数据给使用者。显示装置335经由图形控制器(未图示)连接至总线345。计算机300可由通信接口340连接至网络而可与其它计算机通信。

上述构成仅为范例，且所有构成都非本发明的必要构成。同样，用以实施本发明的计算机300可包括如键盘及鼠标等输入装置及如扬声器的其它构成。

图4表示一般声音辨识装置400的构成。被变换为数字信号的声音信号被输入至离散傅立叶转变换部405，且离散傅立叶部405将输入的声音信号以汉尼窗或汉明窗等的适当方式帧化，接着执行离散傅立叶变换以输出该声音信号的频谱。离散傅立叶变换部405的输出的频谱被输入至噪音消除部410，通过频谱删减法等将噪音从频谱移除。但噪音消除部410为可选项。

声音信号的频谱(在有噪音消除部410的状况下，噪音已移除的声音信号)被输入至特征量提取部415，且该特征量提取部415提取并输出静态特征量及动态特征量。如上所述，以往，常使用MFCC及其差量(一阶变化量)及次差量(二阶变化量)的组合或它们的线性变换，并分别作为静态特征量及动态特征量被提取。

在学习时，开关420转至学习部430侧的位置。接着，用特征量提取部415自作为学习数据的声音信号提取的特征量与对应于作为学习数据的声音信号的输入文本被输入至学习部430，且学习部430基于这些数据建立声学模型425。学习过程并非本发明目的，因此不做进一步的说明。

此外，在辨识时，开关420转到声音辨识部440侧的位置。接着，用特征量提取部415自作为辨识数据的声音信号提取的特征量与来自声学模型425及语言模型435的数据被输入至声音辨识部440，且声音辨识部440基于这些数据辨识声音信号以输出辨识结果的文本。辨识过程并非本发明目的，因此不做进一步的说明。

这样，声音辨识装置400在学习时根据声音信号及输入文本建立声学模型425，并在辨识时基于输入信号、声学模型及语言模型输出辨识结果的文本。本发明改进了图4中以往的特征量提取部415，具体地说，改进了计算动态特征量的差量特征量及次差量特征量的方法。

如同多数的以往特征量提取部415，本发明改进的特征量提取部415输出多维特征量，其中组合了静态特征量及动态特征量，但是，当然，根据需要，本发明所改进的特征量提取部415可构成为不包括静态特征量或不包括次差量特征量的简单结构。下文说明中都假设本发明的特征量提取部415为包括静态特征量计算部、差量特征量计算部以及次差量特征量计算部的声音特征量提取装置。

图5表示静态特征量计算部的范例功能构成。本实施例中使用MFCC特征量作为静态特征量。另外，静态特征量计算部在下文中第一至第五实施例中的所有特征量提取装置中都是相同的。在图5中，对各频率bin，将帧化声音信号的频谱s_t自已参照图4说明的离散傅立叶变换部405或噪音消除部410输入至梅尔滤波器组处理部500，对各帧，按照其功能，使用梅尔滤波器组的权重，将各频率bin的频谱s_t变换为各滤波器组的频谱(此后称为梅尔频谱S_t)，并输出梅尔频谱S_t。

假设t为帧编号，i为频率bin编号，j为滤波器组编号，而Mel_FB_Weight为梅尔滤波器组的权重，则梅尔滤波器组处理部500进行的变换可以下列公式表示。

[公式7]

S_{t} (j) = \underset{i}{Σ} s_{t} (i) \cdot Mel_FB_Weight (j, i)

对数计算部505被输入梅尔频谱S_t后，对各帧，按照其功能，通过下式计算各滤波器组的梅尔频谱S_t的对数，并输出对数梅尔频谱S_t'。

[公式8]

S′_t(j)＝log(S_t(j))

离散余弦变换部510被输入对数梅尔频谱S_t'后，对各帧，按照其功能，对对数梅尔频谱S_t'执行离散余弦变换，以计算并输出MFCC，也就是梅尔倒频谱C_t。另外，假设离散余弦变换矩阵为D(h,j)，则离散余弦变换部510依下列公式对该对数梅尔频谱S_t'执行离散余弦变换。

[公式9]

C_{t} (h) = \underset{j}{Σ} D (h, j) S_{t}^{'} (j)

D (h, j) = \sqrt{\frac{2}{n}} K_{h} \cos (\frac{(h - 1) (j - \frac{1}{2})}{n} π)

\{\begin{matrix} K_{h} = \frac{1}{\sqrt{2}}, & h = 0 \\ K_{h} = 1, & h &NotEqual; 0 \end{matrix}

这样，静态特征量计算部以频谱s_t作为输入，且最后输出梅尔倒频谱C_t作为静态特征量。

(第一实施例)图6(a)表示本发明第一实施例的声音特征量提取装置的差量特征量计算部的功能构成。对各频率bin，将帧化声音信号的频谱s_t自参照图4说明的离散傅立叶变换部405或噪音消除部410输入至第一差分计算部600，接着，对各帧，按照其功能，对各频率bin计算前后帧间的频谱s_t的差分(此后称为差量频谱Δs_t)，并将该差分作为各频率bin的差量频谱Δs_t输出。由第一差分计算部600进行的差分处理依下列公式执行。

[公式10]

Δ s_{t} = \frac{Σ_{θ = 1}^{Θ} θ (s_{t + θ} - s_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

在公式10中省略了频率bin编号i。

第一正规化处理部605被输入各频率bin的差量频谱Δs_t后，对各帧，按照其功能，通过将各频率bin的差量频谱Δs_t除以该频率bin的总发声即全部帧的频谱的平均即平均频谱的函数F而正规化。本实施例中，假设平均频谱的函数F为平均频谱本身，即各频率bin的平均频谱该场合，第一正规化处理部605的输出可以下列公式表示。

[公式11]

Δ {\hat{s}}_{t} = \frac{Δ s_{t}}{\overset{&OverBar;}{s}}

在公式11中，省略频率bin编号i。在第一实施例的声音特征量提取装置的差量特征量计算部中，第一正规化处理部605的输出设为差量特征量。

图6(b)表示本发明第一实施例的声音特征量提取装置的次差量特征量计算部的功能构成。本发明第一实施例的声音特征量提取装置的次差量特征量计算部包括第二差分计算部610以及第二正规化处理部615。除了输出和输入不同，这些构成都具有和第一实施例的声音特征量提取装置的差量特征量计算部中相应的构成相同的功能。

也就是说，第二差分计算部610从图6(a)中的第一差分计算部600输入差量频谱Δs_t后，对各帧，对各频率bin计算前后帧间的差量频谱Δs_t的差分，作为次差量频谱ΔΔs_t。次差量频谱ΔΔs_t为第二差分计算部610的输出，其可以下列公式表示。

[公式12]

ΔΔ s_{t} = \frac{Σ_{θ = 1}^{Θ} θ ({Δs}_{t + θ} - {Δs}_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

在公式12中省略频率bin编号i。

另外，第二正规化处理部615输入次差量频谱ΔΔs_t后，对各帧，通过将各频率bin的次差量频谱ΔΔs_t除以平均频谱的函数而正规化。在此实施例中，假设平均频谱的函数F为平均频谱本身，也就是各频率bin的平均频谱该场合，第二正规化处理部615的输出可以下列公式表示。

[公式13]

ΔΔ {\hat{s}}_{t} = \frac{ΔΔ s_{t}}{\overset{&OverBar;}{s}}

在公式13中省略频率bin编号i。在第一实施例的声音特征量提取装置的次差量特征量计算部将第二正规化处理部615的输出设为次差量特征量。

(第二实施例)图7(a)表示本发明第二实施例的声音特征量提取装置的差量特征量计算部的功能构成。第二实施例的声音特征量提取装置的差量特征量计算部为第一实施例的声音特征量提取装置的差量特征量计算部加上第一梅尔滤波器组处理部705。新加入的第一梅尔滤波器组处理部705按照其处理的顺序，配置于第一差分计算部700之后，而可在第一正规化处理部710之前或之后的位置。

这里，由于第一差分计算部700与第一实施例的声音特征量提取装置的第一差分计算部600完全相同，因此省略其描述以避免重复。第一梅尔滤波器组处理部705具有和已参照图5说明的梅尔滤波器组处理部500相同的功能，除了输出和输入不同以外。

也即，举第一梅尔滤波器组处理部705的处理在第一正规化处理部710的处理之前的情况为例，第一梅尔滤波器组处理部705从第一差分计算部700输入差量频谱Δs_t后，对各帧，将各频率bin的差量频谱Δs_t乘以梅尔滤波器组的权重(如公式7右侧所示)，并将各乘积相加的总和作为各滤波器组的梅尔差量频谱ΔS_t。

第一正规化处理部710也具有和第一实施例的声音特征量提取装置的第一正规化处理部605相同的功能，除了输出和输入不同。因此省略其描述以避免重复。另外，需注意当第一梅尔滤波器组处理部705的处理在第一正规化处理部710的处理之前时，第一正规化处理部710在正规化中所使用的总发声即全部帧的平均频谱并不是各频率bin的频谱的平均即平均频谱而是各滤波器组的梅尔频谱的平均即平均梅尔频谱

即，假设平均频谱的函数F为平均频谱本身，该场合，第一正规化处理部710从第一梅尔滤波器组处理部705输入各滤波器组的梅尔差量频谱ΔS_t后，对各帧，通过将各滤波器组的梅尔差量频谱ΔS_t除以该滤波器组的全部帧的平均梅尔频谱而正规化。第一正规化处理部710的输出可以下列公式表示。

[公式14]

Δ {\hat{S}}_{t} = \frac{Δ S_{t}}{\overset{&OverBar;}{S}}

在公式14中省略滤波器组编号j。

另外，在公式14右侧的分母为各滤波器组的平均梅尔频谱在第二实施例的声音特征量提取装置的差量特征量计算部将第一梅尔滤波器处理部705与第一正规化处理部710中最后执行的处理的输出设为差量特征量。

图7(b)表示本发明第二实施例的声音特征量提取装置的次差量特征量计算部的功能构成。本发明第二实施例的声音特征量提取装置的次差量特征量计算部包括第二差分计算部715、第二梅尔滤波器组处理部720以及第二正规化处理部725。第二梅尔滤波器组处理部720的处理可在第二正规化处理部725的处理之前或之后。因第二差分计算部715和第一实施例的声音特征量提取装置的第二差分计算部610完全相同，其描述在此省略以避免重复。第二梅尔滤波器组处理部720具有和已参照图5说明的梅尔滤波器组处理部500相同的功能，除了输出和输入不同以外。

也即，举第二梅尔滤波器组处理部720的处理在第二正规化处理部725的处理之前的情况为例，第二梅尔滤波器组处理部720从第二差分计算部715输入次差量频谱ΔΔs_t后，对各帧，将各频率bin的次差量频谱ΔΔs_t乘以梅尔滤波器组的权重(如公式7右侧所示)，并将各乘积的总和作为各滤波器组的梅尔次差量频谱ΔΔS_t。

第二正规化处理部725也具有和第一实施例的声音特征量提取装置的第二正规化处理部615相同的功能，除了输出和输入不同。因此省略其描述以避免重复。另外，需注意当第二梅尔滤波器组处理部720的处理在第二正规化处理部725的处理之前时，第二正规化处理部725在正规化中所使用的总发声即全部帧的平均频谱并不是各频率bin的频谱的平均即平均频谱而是各滤波器组的梅尔频谱的平均即平均梅尔频谱

即，假设平均频谱的函数F为平均频谱，该场合，第二正规化处理部725由第二梅尔滤波器组处理部720输入各滤波器组的梅尔次差量频谱ΔΔS_t后，对各帧，通过将各滤波器组的梅尔次差量频谱ΔΔS_t除以该滤波器组的平均梅尔频谱而正规化。第二正规化处理部725的输出可以下列公式表示。

[公式15]

ΔΔ {\hat{S}}_{t} = \frac{ΔΔ S_{t}}{\overset{&OverBar;}{S}}

在公式15中省略滤波器组编号j。另外，在公式15右侧的分母为各滤波器组的平均梅尔频谱在第二实施例的声音特征量提取装置的次差量特征量计算部将第二梅尔滤波器组处理部720与第二正规化处理部725中最后执行的处理的输出设为次差量特征量。

(第三实施例)图8(a)表示本发明第三实施例的声音特征量提取装置的差量特征量计算部的功能构成。第三实施例的声音特征量提取装置的差量特征量计算部为第二实施例的声音特征量提取装置的差量特征量计算部加上第一离散余弦变换部815。因此省略第一差分计算部800、第一梅尔滤波器组处理部805以及第一正规化处理部810的描述以避免重复。另外，新加入的第一离散余弦变换部815配置于使该第一离散余弦变换部815的处理在最后执行的位置。

第一离散余弦变换部815具有与离散余弦变换部510(已参照图5描述)相同的功能，除了输出和输入不同以外。也就是说，第一离散余弦变换部815输入正规化的各滤波器组的梅尔差量频谱ΔS_t后，执行正规化的梅尔差量频谱ΔS_t的离散余弦变换，第一离散余弦变换部815的输出可以下列公式表示。

[公式16]

Δ C_{t} = DCT (Δ {\hat{S}}_{t})

在公式16中，符号DCT代表公式9中离散余弦变换矩阵D(h,j)进行的变换。在第三实施例的声音特征量提取装置的差量特征量计算部将第一离散余弦变换部815的输出设为差量特征量。

图8(b)表示本发明第三实施例的声音特征量提取装置的次差量特征量计算部的功能构成。本发明第三实施例的声音特征量提取装置的次差量特征量计算部为第二实施例的声音特征量提取装置的次差量特征量计算部加上第二离散余弦变换部835。因此省略第二差分计算部820、第二梅尔滤波器组处理部825以及第二正规化处理部830的描述以避免重复。另外，新加入的第二离散余弦变换部835配置于使该第二离散余弦变换部835的处理在最后执行的位置。

第二离散余弦变换部835具有和已参照图5说明的离散余弦变换部510相同的功能，除了输出和输入不同以外。也就是说，第二离散余弦变换部835输入正规化的各滤波器组的梅尔次差量频谱ΔΔS_t后，执行正规化的梅尔次差量频谱ΔΔS_t的离散余弦变换，第二离散余弦变换部835的输出可以下列公式表示。

[公式17]

ΔΔ C_{t} = DCT (ΔΔ {\hat{S}}_{t})

在公式17中，符号DCT代表公式9中的离散余弦变换矩阵D(h,j)进行的变换。在第三实施例的声音特征量提取装置的次差量特征量计算部将第二离散余弦变换部835的输出设为次差量特征量。

在第三实施例的声音特征量提取装置的差量特征量计算部及次差量特征量计算部中，第一正规化处理部810及第二正规化处理部830进行的正规化的方法可依以下方式改变。也就是说，第一正规化处理部810及第二正规化处理部830可执行使用平均频谱及平均梅尔频谱的除法再另外加上对数压缩来执行正规化。该场合，例如当第一正规化处理部810的处理在第一梅尔滤波器组处理部805的处理之后执行时，第一正规化处理部810进行的正规化可依下列公式执行。

[公式18]

也就是说，当梅尔差量频谱ΔS_t大于等于0时，第一正规化处理部810以如下方式将各滤波器组的梅尔差量频谱ΔS_t正规化：将该梅尔差量频谱ΔSt除以该滤波器组的平均梅尔频谱对所得商加1，然后计算所得的和的对数。相反，当梅尔差量频谱ΔS_t小于0时，第一正规化处理部810以如下方式将各滤波器组的梅尔差量频谱ΔS_t正规化：将该梅尔差量频谱ΔS_t除以该滤波器组的平均梅尔频谱将所得商乘以负1、对所得乘积加1，然后将所得的和取对数后再乘以负1。同样，当第二正规化处理部830的处理在第二梅尔滤波器组处理部825的处理之后执行时，第二正规化处理部830可以公式19执行正规化。

[公式19]

在第三实施例的声音特征量提取装置的差量特征量计算部及次差量特征量计算部中，平均梅尔频谱的函数F可以不是平均梅尔频谱本身，而是后述的平均梅尔频谱及梅尔频谱S的函数F。也就是说，对任意的帧t以及任意的滤波器组j，平均梅尔频谱的函数F输出帧t的滤波器组j的梅尔频谱S的值及滤波器组j的全部帧的平均梅尔频谱的值中的较大值或接近该较大值的值。公式20和21表示此函数F的一例。

[公式20]

F (\overset{&OverBar;}{S}, S_{t}) = \max (\overset{&OverBar;}{S}, S_{t})

[公式21]

F (\overset{&OverBar;}{S}, S_{t}) = (\overset{&OverBar;}{S} + S_{t})

在公式20及21中省略滤波器组编号j。

接着，第一正规化处理部810输入各滤波器组的梅尔差量频谱ΔS_t后，对各帧，通过将各滤波器组的梅尔差量频谱ΔS_t除以由滤波器组的公式20或21表示的函数F而正规化。对于第二正规化处理部830也一样。由性能的角度来看，在使用平均梅尔频谱及梅尔频谱S的函数F的正规化中，使用平均梅尔频谱来进行除法较佳。

图9(a)表示本发明第三实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。该流程由步骤900开始。对各频率bin，第一差分计算部800输入帧化声音信号的频谱后，对各帧，对各频率bin计算前后帧间的频谱的差分，作为差量频谱Δs_t，并存储在如图3的RAM330的存储区中。

第一梅尔滤波器组处理部805从存储区读取差量频谱Δs_t，并对各帧将各频率bin的差量频谱乘以梅尔滤波器组的权重，并将所得的各乘积相加，然后将所得总和存入存储区，作为各滤波器组的梅尔差量频谱ΔS_t(步骤905)。第一正规化处理部810从存储区读取梅尔差量频谱ΔS_t，并通过将各帧将各滤波器组的梅尔差量频谱ΔS_t除以滤波器组的平均梅尔频谱的函数而正规化，并将结果存入存储区(步骤910)。

由虚线920包围的第一梅尔滤波器组处理部805的处理及第一正规化处理部810的处理的次序可调换。当第一梅尔滤波器组处理部805的处理在第一正规化处理部810的处理之后时，第一正规化处理部810在正规化时所使用的函数F为各频率bin的平均频谱的函数F。另外如前述，函数F可为平均频谱平均梅尔频谱本身、或如公式20及21中所示。另外，执行正规化时可以执行使用平均频谱及平均梅尔频谱的除法再另外执行对数压缩。

接着，第一离散余弦变换部815从存储区读取正规化的各滤波器组的梅尔差量频谱，并执行离散余弦变换，将结果作为差量特征量输出(步骤915)。然后处理完成。另外，第一或第二实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的处理对应于省略图9(a)中步骤905及915中的处理或步骤915中的处理的情况。

图9(b)表示本发明第三实施例的声音特征量提取装置的次差量特征量计算部中提取声音次差量特征量的过程的流程图。该流程由步骤920开始。第二差分计算部820从第一差分计算部800输入差量频谱Δs_t后，对各帧，对各频率bin计算在前后帧间的差量频谱Δs_t的差分，作为次差量频谱ΔΔs_t，并存储在如图3的RAM330的存储区中。

第二梅尔滤波器组处理部825从存储区读取次差量频谱ΔΔs_t，并对各帧将各频率bin的次差量频谱ΔΔs_t乘以梅尔滤波器组的权重，并将各乘积相加，然后将总和存入存储区，作为各滤波器组的梅尔次差量频谱ΔΔS_t(步骤925)。第二正规化处理部830从存储区读取梅尔次差量频谱ΔΔS_t，并通过将各帧将各滤波器组的梅尔次差量频谱ΔΔS_t除以滤波器组的平均梅尔频谱的函数F而正规化，并将结果存入存储区(步骤930)。

由虚线940包围的第二梅尔滤波器组处理部825的处理及第二正规化处理部830的处理的次序可调换。当第二梅尔滤波器组处理部825的处理在第二正规化处理部830的处理之后时，第二正规化处理部830在正规化时所使用的函数F为各频率bin的平均频谱的函数F。另外如前述，函数F可为平均频谱平均梅尔频谱或如公式20及21中所示。另外，执行正规化时可以执行使用平均频谱及平均梅尔频谱的除法再另外执行对数压缩。

接着，第二离散余弦变换部835从存储区读取正规化的各滤波器组的梅尔次差量频谱，并执行离散余弦变换，将结果作为次差量特征量输出(步骤935)。然后处理完成。另外，第一或第二实施例的声音特征量提取装置的次差量特征量计算部中提取声音次差量特征量的处理对应于省略图9(b)中步骤925及935中的处理或步骤935中的处理的情况。

但是，在第二及第三实施例中，并不使用第一梅尔滤波器组处理部705及805及第二梅尔滤波器组处理部720及825所使用的梅尔滤波器组的权重，而可使用滤波器(此后称为局部峰值权重)及梅尔滤波器组的权重的乘积。该滤波器在有声区间中的谐波结构部分具有权重，且在没有谐波结构的无声区间中接近平坦。以此方式产生的新权重接下来会参照图10及图11描述。

图10(a)表示梅尔滤波器组的权重的范例。如上所述，第一梅尔滤波器组处理部705及805与第二梅尔滤波器组处理部720及825，通过分别将在频率方向均等设定的各频率bin的频谱乘以梅尔滤波器组的权重并将各乘积相加，变换为滤波器组这样的更大的频谱。

滤波器组均等配置于梅尔频率刻度，其与人类听觉的特性相符且被建构成三角权重1000，如图10(a)所示。梅尔滤波器组的权重Mel_FB_Weight(j,i)定义为对各频率bin的滤波器组的贡献，如公式7右侧所示。

但是，人类的发音在元音中有谐波结构。也就是，能量并不是均匀分布在所有频率bin中，在具有高基频的发声、如女人或小孩的发声中，声音的能量是分布在不连续的频率bin中。因此，当权重被均匀分配到恰好没有声音能量的频率bin时(如前述的梅尔滤波器组的情况)，噪音也可能会因此被收入。因此，使用新的权重较好。在此新的权重中，对应于谐波结构的峰值部分分配到较高的权重，谷值部分则分配到较低的权重，而当没有发现峰值时则逐渐逼近梅尔滤波器组权重。

因此，首先，对各帧，根据输入频谱计算对应于频谱的谐波结构的峰值与谷值的信息，以作为局部峰值权重(local peak weights,LPW)，如图10(b)所示。计算LPW的方法后述。接着，新权重由计算Mel-FB的权重及LPW的乘积而得，并将新权重除以各滤波器组的和以进行正规化，正规化后得到的结果设为LPW-Mel-FB，如下列公式所示。

[公式22]

\begin{matrix} LPW_Mel_FB_Weight (j, i) \\ = \frac{LPW (i) \cdot Mel_FB_Weight (j, i)}{\underset{k}{Σ} LPW (k) \cdot Mel_FB_Weight (j, k)} \end{matrix}

图10(c)表示以此方式得到的LPW-Mel-FB权重。在第二及第三实施例中，第一梅尔滤波器组处理部705及805与第二梅尔滤波器组处理部720及825可执行变换，其使用LPW-Mel-FB权重而非Mel-FB权重，如下列公式所示。

[公式23]

Δ S_{t} (j) = \underset{i}{Σ} Δ s_{t} (i) \cdot LPW_Mel_FB_Weight (j, i)

[公式24]

ΔΔ S_{t} (j) = \underset{i}{Σ} ΔΔ s_{t} (i) \cdot LPW_Mel_FB_Weight (j, i)

LPW-Mel-FB权重用以改善对广频域的抗噪音能力，例如，当噪音为音乐或其它人的发声时，或当没有噪音而仅有回音时，则不需使用LPW-Mel-FB权重。

参照图11，接下来描述建立LPW的方法。基本上，用以建立LPW的方法与由发明人公开发明的专利文献1中建立用以加强收录的声音的加强型滤波器的方法相同。处理由步骤1100开始，首先，由下列公式用观测声音的第t帧的频谱获得s_t的对数功率频谱Y_t。

[公式25]

Y_t(i)＝log(|s_t(i)|²)

接着，依下列公式执行对数功率频谱Y_t的离散余弦变换，得到倒频谱R_t(步骤1105)。

[公式26]

R_t(h)＝DCT(Y_t(i))

在公式26中，符号DCT代表公式9中离散余弦变换矩阵D(h,j)进行的变换。接着，由于倒频谱R_t的系数代表提取的对数频谱的轮廓特征量，因此依据以下公式，只留下在对应于人类发声的谐波结构的区域中的项，其它项都被消去(步骤1110)。

[公式27]

在公式27中，ε为0或非常小的常数。此外，lower_cep_num及upper_cep_num对应于可能为谐波结构的范围。在以下的评价实验中，假设人类发声的基频落于100Hz至400Hz之间，则lower_cep_num设为40，而upper_cep_num设为160。这些值为取样频率为16kHz、FFT宽为512点的范例设定。

然后，对经处理的倒频谱R_t执行反离散余弦变换而变换回对数频谱域，如下列公式所示(步骤1115)。

[公式28]

W_{t} (i) = {DCT}^{- 1} ({\hat{R}}_{t} (h))

在公式28中，符号DCT^-1表示公式9中离散余弦变换矩阵D(h,j)的反矩阵进行的变换。

在最后的步骤1120中，首先，将反离散余弦变换的结果通过公式29从对数频谱域变换回功率频谱域，接着，按公式30执行正规化以使平均值为1，最后得到LPW。然后处理完成。

[公式29]

w_t(i)＝exp(W_t(i))

[公式30]

{LPW}_{t} (i) = w_{t} (i) \cdot \frac{Num_bin}{\underset{k}{Σ} w_{t} (k)}

在公式30中，Num_bin为频率bin总数。

(第四实施例)图12(a)表示本发明第四实施例的声音特征量提取装置的差量特征量计算部的功能构成。第四实施例的声音特征量提取装置的差量特征量计算部为图5描述的静态特征量计算部的构成加上第一差分计算部1215。第一差分计算部1215配置于使其处理在其它构成的处理之后的位置，如图12(a)所示。

梅尔滤波器组处理部1200、对数计算部1205以及离散余弦变换部1210表示于图12(a)中，各具有与图5中的静态特征量计算部的对应构成相同的功能，除了其输入和输出不同。此外，表示于图12(a)中的差分计算部1215具有和第一实施例的声音特征量提取装置中的第一差分计算部600相同的功能，除了输入和输出不同。因此，对各别构成的功能描述在此省略以避免重复。

但是，如上所述，输入至图12(a)表示的梅尔滤波器组处理部1200的值与输入至图5表示的梅尔滤波器组处理部500的值不同，其为对各频率bin中帧化声音信号的频谱s_t与该频率bin的平均频谱的和。通过将该值作为差量特征量计算部的输入，作为差量特征量最后得到的值即第一差分计算部1215的输出，实质上等价于使用公式21所表示的函数F执行正规化的第三实施例的声音特征量提取装置中的差量特征量计算部的差量特征量输出。但是，第四实施例的声音特征量提取装置中的差量特征量计算部可通过稍微改变现存的静态特征量提取部以调整构成，因此较第三实施例的声音特征量提取装置中的差量特征量计算部为佳。

最后得到第一差分计算部1215的输出以作为差量特征量，其可以下列公式表示。

[公式31]

Δ {C 1}_{t} = \frac{Σ_{θ = 1}^{Θ} θ ({C 1}_{t + θ} - {C 1}_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

其中

C1_t＝DCT(S1′_t)，

S1′_t＝logS1_t，

{S 1}_{t} = \underset{t}{Σ} (s {(i)}_{t} + \overset{&OverBar;}{s (i)}) \cdot Mel_FB_Weight (j, i)

在公式13中省略滤波器组编号j。

(第五实施例)图12(b)表示本发明第五实施例的声音特征量提取装置的差量特征量计算部的功能构成。基本上，第五实施例的声音特征量提取装置的差量特征量计算部与第四实施例的声音特征量提取装置的差量特征量计算部具有相同构成，除了加入平均频谱的定时在梅尔滤波器组处理部的处理之后而非之前。然而，由于平均频谱需要在前述定时加入，因此在第五实施例的声音特征量提取装置的差量特征量计算部中，在第四实施例的声音特征量提取装置的差量特征量计算部中新加入平均计算部1225。

在图12(b)中，平均计算部1225从梅尔滤波器组处理部1220输入梅尔频谱S_t后，对各滤波器组，计算全部帧范围内的梅尔频谱S_t的平均即平均梅尔频谱并输出至对数计算部1230。对数计算部1230输入来自梅尔滤波器组处理部1220的梅尔频谱S_t及来自平均计算部1225的平均梅尔频谱后，计算梅尔频谱S_t与平均梅尔频谱的和的对数，并输出至离散余弦变换部1235。

在图12(b)中所示的其它构成(也就是梅尔滤波器组处理部1220、离散余弦变换部1235以及第一差分计算部1240)都具有和第四实施例的声音特征量提取装置的差量特征量计算部的对应构成相同的功能，除了输入和输出不同。因此省略对其他构成的描述。

在第五实施例的差量特征量计算部中，作为差量特征量最后得到的值，也就是第一差分计算部1240的输出，实质上等价于使用公式21所表示的函数F执行正规化的第三实施例的声音特征量提取装置中的差量特征量计算部的差量特征量输出。但是，第五实施例的声音特征量提取装置中的差量特征量计算部可通过稍微的改变现存的静态特征量提取部以调整构成，因此较第三实施例的声音特征量提取装置中的差量特征量计算部为佳。

作为差量特征量最后得到第一差分计算部1240的输出，可以下列公式表示。

[公式32]

Δ {C 2}_{t} = \frac{Σ_{θ = 1}^{Θ} θ ({C 2}_{t + θ} - {C 2}_{t - θ})}{2 θ_{θ = 1}^{Θ} θ^{2}}

其中

C2_t＝DCT(S2′_t)，

{S 2}_{t}^{'} = \log (S_{t} + \overset{&OverBar;}{S}),

S_{t} = \underset{i}{Σ} s {(i)}_{t} \cdot Mel_FB_Weight (j, i)

在公式32中省略滤波器组编号j。

图13(a)表示本发明第四实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。处理由步骤1300开始，梅尔滤波器组处理部1200输入各频率bin中帧化声音信号的各帧的频谱s_t与总发声即全部帧的平均频谱的和后，对各帧，将上述各频率bin的上述值乘以梅尔滤波器组的权重，将所得乘积相加，并将输出S1_t存储于如图3的RAM330的存储区中。

接下来，对数计算部1205从存储区读取S1_t，对各帧计算各滤波器组的S1_t的对数，并将其输出S1_t'存储在存储区中(步骤1305)。离散余弦变换部1210从存储区读取S1_t'，对各帧执行各滤波器组的S1_t'的离散余弦变换，并将其输出C1_t存储在存储区中(步骤1310)。

最后，第一差分计算部1215从存储区读入C1_t，并对各帧计算各滤波器组的C1_t在前后帧间的差分ΔC1_t以作为差量特征量(步骤1315)。然后处理完成。

图13(b)表示本发明第五实施例的声音特征量提取装置的差量特征量计算部中提取声音差量特征量的过程的流程图。该流程由步骤1320开始，梅尔滤波器组处理部1200输入帧化声音信号的各帧的各频率bin的频谱后，对各帧，将上述各频率bin的频谱乘以梅尔滤波器组的权重，将所得乘积相加以计算各滤波器组的梅尔频谱S，并存于如图3的RAM330的存储区中。

接下来，平均计算部1225从存储区读取各帧中各滤波器组的梅尔频谱S，对各滤波器组计算总发声即全部帧的平均梅尔频谱并将其存于存储区中(步骤1325)。然后，对数计算部1230从存储区读取在各帧中各滤波器组的梅尔频谱S以及各滤波器组平均梅尔频谱计算各滤波器组的梅尔频谱S与各滤波器组的平均梅尔频谱的和S2_t的对数，并将其输出S2_t'存储于存储区(步骤1330)。

然后，离散余弦变换部1235从存储区读取S2_t'，对各帧执行各滤波器组的S2_t'的离散余弦变换，并将其输出C2_t存储至存储区(步骤1335)。最后，第一差分计算部1240从存储区读取C2_t，并对各帧计算各滤波器组的C2_t在前后帧间的差分ΔC2_t以作为差量特征量(步骤1340)。然后流程完成。

图14表示本发明第四或第五实施例的声音特征量提取装置的次差量特征量计算部的功能构成。第四或第五实施例的声音特征量提取装置包括一第二差分计算部1400。第二差分计算部1400具有和第四或第五实施例的声音特征量提取装置的第一差分计算部1215或第一差分计算部1240相同的功能，除了输入和输出不同。

也就是说，来自第一差分计算部1215或第一差分计算部1240的输出，也就是以公式31或公式32所表示的差量梅尔倒频谱ΔC1_t或ΔC2_t被输入至第二差分计算部1400，然后，对各帧，第二差分计算部1400计算各滤波器组的次差量梅尔倒频谱ΔΔC1_t或ΔΔC2_t(其为差量梅尔倒频谱ΔC1_t或ΔC2_t在前后帧间的差分)以作为次差量特征量。第二差分计算部1400的输出可以下列公式表示。

[公式33]

ΔΔ C_{t} = \frac{Σ_{θ = 1}^{Θ} θ ({ΔC}_{t + θ} - {ΔC}_{t - θ})}{2 Σ_{θ = 1}^{Θ} θ^{2}}

其中ΔC_t＝ΔC1_tor

ΔC_t＝ΔC2_t

在公式33中省略滤波器组编号j。

图15表示本发明第四或第五实施例的声音特征量提取装置的次差量特征量计算部中提取声音次差量特征量的过程的流程图。该流程由步骤1500开始，第二差分计算部1300输入来自第一差分计算部1215或第一差分计算部1240的输出，也就是以公式31或公式32所表示的差量梅尔倒频谱ΔC1_t或ΔC2_t，然后，对各帧，计算各滤波器组的次差量梅尔倒频谱ΔΔC1_t或ΔΔC2_t(其为差量梅尔倒频谱ΔC1_t或ΔC2_t在前后帧间的差分)以作为一次差量特征量。然后该流程完成。

接下来，参照图16至图18描述使用本发明提出的特征量的声音辨识的评价实验。在参照图16及图17所描述的评价实验中，使用数据库“用于噪音声音辨识的语料库及环境-4”(Corpus and Environments for NoisySpeech RECognition-4，CENSREC-4)对回音环境进行评价。

在CENSREC-4中，回音环境由干来源迭加上各种回音环境的脉冲回应来模拟。在CENSREC-4中，分别提供了在干净条件和多种条件两种条件下的评价。在干净条件下，声音辨识在执行时使用的声学模型在训练时使用没有回音的声音。相反，在多重条件下，声音辨识在执行时使用的声学模型在训练时使用有回音的声音。不论在哪一个条件下，当声音辨识在执行时(也就是测试进行时)都是使用有回音的声音数据。

CENSREC-4中的测试组分为A组及B组二类。声学模型在多重条件下训练，而使用与训练时相同的回音环境的测试组设为A组；声学模型在多重条件下训练，而使用与训练时不同的回音环境的测试组设为B组。另外，测试组A组及B组分别包括图16及图17中所示的4个不同的环境中的测试。

在CENSREC-4中定义为基线的特征量为39维度向量，其包括静态特征量的MFCC12维度、差量特征量的差量MFCC12维度、次差量特征量的次差量MFCC12维度以及声音功率的对数及差量及次差量3维度。也就是说，在CENSREC-4中，分别在干净条件及多重条件下以上述39维度向量的特征量建立声学模型。

发明人执行了以下两个评价实验。

评价实验1：比较以下两情况中字符串的辨识率：只有使用静态特征量MFCC12维度的情况；与使用包括静态特征量MFCC12维度及差量特征量12维度的情况。此时，对两种类型的差量特征量进行评价：差量MFCC12维度及由第三实施例的声音特征量提取装置的差量特征量计算部所计算的线性差量特征量12维度。

评价实验2：比较以下两情况中字符串的辨识率：在基线39维度中的差量特征量及次差量特征量分别被本发明的线性差量特征量及线性次差量特征量取代的情况(参照图17的表中“linear(线性)Δ”栏)，以及基线39维度被原样维持的情况(参照图17的表中“基线”栏)。分别由第三实施例的声音特征量提取装置的差量特征量计算部及次差量特征量计算部所计算的线性差量特征量以及线性次差量特征量被用来作为本发明的线性差量特征量及线性次差量特征量。

图16表示评价实验1的结果。由评价实验1的结果发现以下事实。一并使用差量特征量12维度可改善仅使用静态特征量MFCC12维度的声音辨识率。此外，用本发明的线性差量特征量取代至今常被使用的差量MFCC作为差量特征量可更进一步改善声音辨识率。例如，在干净环境(CleanCondition)下，测试组A组及B组的平均声音辨识率由35.3%大幅改善至使用差量MFCC的59.2%。即使在多重条件(Multi-Condition)下，测试组A组及B组的平均声音辨识率在使用差量MFCC时也由71.9%改善至81.5%。

图17表示评价实验2的结果。即使在评价实验2中，声音辨识率也因使用本发明的线性差量特征量及线性次差量特征量而进一步改善。例如，在干净环境下，测试组A组及B组的平均声音辨识率由以往基线的65.2%改善至73.1%。即使在多重条件下，测试组A组及B组的平均声音辨识率也由以往基线的75.2%改善至82.7%。

这样，本发明的线性差量特征量及线性次差量特征量大幅改善在回音环境中的声音辨识率，且评价实验1及2显示本发明的线性差量特征量及线性次差量特征量在回音环境中作为特征量的有效性。

在参照图18所述的评价实验中，使用数据库“用于噪音声音辨识的语料库及环境-3”(Corpus and Environments for Noisy SpeechRECognition-3，CENSREC-3)进行噪音环境的评价。

在CENDREC-3中，发声的声音在交通工具中的不同的噪音环境下收录，且声音辨识率可在不同的驾驶条件下，如停止、在城市中驾驶或高速驾驶及空调的风扇、窗户打开或音乐播放等条件下计算。在CENSREC-3中定义为基线的特征量和前述CENSREC-4中的39维度相同。发明人使用CENSREC-3执行以下的评价实验。

分别比较以下两种情况的字辨识率(正确率%)：基线39维度被维持的情况(参照图18的表中“基线”栏)；以及基线39维度中的MFCC、差量MFCC及次差量MFCC被使用LPW-Mel-FB权重而非Mel-FB权重所得的MFCC、差量MFCC及次差量MFCC所取代的情况(参照图18的表中“LPW-Mel”栏)。

此外，还与以下的情况比较字辨识率(正确率%)：基线39维度中的差量特征量及次差量特征量分别被本发明的线性差量特征量及线性次差量特征量取代的情况(参照图18的表中“linear(线性)Δ”栏)。另外，分别由第三实施例的声音特征量提取装置的差量特征量计算部及次差量特征量计算部所计算的线性差量特征量以及线性次差量特征量被用来作为本发明的线性差量特征量及线性次差量特征量。

此外，还与以下的情况比较字辨识率(正确率%)：使用分别由本发明第三实施例的声音特征量提取装置的差量特征量计算部及次差量特征量计算部(其使用LPW-Mel-FB权重取代Mel-FB权重)所计算的线性差量特征量及线性次差量特征量作为本发明的线性差量特征量及线性次差量特征量的情况(参照图18的表中“LPW-Mel+linearΔ”栏)

图18表示评价实验2的结果。比较“基线”与“linearΔ”，显示总字辨识率中(正确率%)“基线”为78.9%而“linearΔ”为83.3%，因此字辨识率因使用线性差量特征量及线性次差量特征量而改善。且在高速行驶中窗户打开且风扇最大时特别显著，即使在音乐噪音中也可改善，因此，本发明的线性差量特征量及线性次差量特征量适用于很广的范围。

此外，比较“基线”与“LPW-Mel”，除了在音乐噪音中，显示“LPW-Mel”的字辨识率(正确率%)高于“基线”，因此达到改善的效果。且在高速行驶中窗户打开且风扇最大时特别显著。而且，比较“基线”与“LPW-Mel+linearΔ”，显示在窗户打开且高速行驶时“基线”的字辨识率(正确率%)为22.2%而“LPW-Mel+linearΔ”为46.6%，而在风扇最大且高速行驶时“基线”的字辨识率(正确率%)为58.2%而“LPW-Mel+linearΔ”为74.9%。由此可发现结合本发明的线性差量特征量及线性次差量特征量与LPW-Mel-FB可得到显著进步。

虽然本发明以实施例描述如前，但本发明技术范围并不限于实施例中所述。对本领域技术人员来说，很明显可对该些实施例进行修改或改进。因此，经修改或改进的该些实施例自然应被本发明的技术范围所涵盖。

Claims

1.一种声音特征量提取装置，其特征在于，包括：

第一差分算出单元，输入帧化的声音信号的各频率bin的频谱，对于各帧，对上述各频率bin算出前后的帧间的上述频谱的差分，作为差量频谱；和

第一正规化处理单元，对于上述各帧，通过将上述各频率bin的上述差量频谱除以该频率bin的总发音即全部帧的频谱的平均即平均频谱的函数而正规化，

第一梅尔滤波器组处理单元，对于上述各帧，算出上述各频率bin的正规化的上述差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的正规化的梅尔差量频谱，

第一离散余弦变换单元，对上述各滤波器组的正规化的梅尔差量频谱进行离散余弦变换，

将上述第一离散余弦变换单元的输出设为差量特征量。

2.权利要求1所述的声音特征量提取装置，其特征在于，

上述平均频谱的上述函数是上述平均频谱本身。

3.一种声音特征量提取装置，其特征在于，包括：

第一差分算出单元，输入帧化的声音信号的各频率bin的频谱，对于各帧，对上述各频率bin算出前后的帧间的上述频谱的差分，作为差量频谱；

第一梅尔滤波器组处理单元，对于上述各帧，算出上述各频率bin的上述差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔差量频谱；以及

第一正规化处理单元，对于上述各帧，通过将上述各滤波器组的梅尔差量频谱除以该滤波器组的总发音即全部帧的梅尔频谱的平均即平均梅尔频谱的函数而正规化，

第一离散余弦变换单元，对正规化的上述各滤波器组的上述梅尔差量频谱进行离散余弦变换，

将上述第一离散余弦变换单元的输出设为差量特征量。

4.权利要求3所述的声音特征量提取装置，其特征在于，

上述平均梅尔频谱的上述函数是上述平均梅尔频谱本身。

5.权利要求3所述的声音特征量提取装置，其特征在于，

对任意的帧t及任意的滤波器组j，上述平均梅尔频谱的上述函数将帧t的滤波器组j的梅尔频谱的值和滤波器组j的上述平均梅尔频谱的值中的较大值输出。

6.权利要求1或3所述的声音特征量提取装置，其特征在于，

上述第一正规化处理单元通过上述除法外还进行对数压缩而进行上述正规化。

7.权利要求1或3所述的声音特征量提取装置，其特征在于，

上述第一梅尔滤波器组处理单元取代上述梅尔滤波器组的权重，而使用在有声区间中的谐波构造部分具有权重且在无谐波构造的无声区间中接近平坦的滤波器与上述梅尔滤波器组的权重的积。

8.权利要求1或3所述的声音特征量提取装置，其特征在于，还包括：

算出梅尔频率倒频谱系数(MFCC)的MFCC算出单元，将上述MFCC设为静态特征量。

9.权利要求3所述的声音特征量提取装置，其特征在于，还包括：

第二差分算出单元，输入上述差量频谱，对于各帧，对上述各频率bin算出前后的帧间的上述差量频谱的差分，作为次差量频谱；

第二梅尔滤波器组处理单元，对于上述各帧，算出各频率bin的上述次差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔次差量频谱；和

第二正规化处理单元，对于上述各帧，通过将上述各滤波器组的上述梅尔次差量频谱除以上述平均梅尔频谱的函数而正规化，

将上述第二正规化处理单元的输出设为次差量特征量。

10.权利要求3所述的声音特征量提取装置，其特征在于，还包括：

第二差分算出单元，输入上述差量频谱，对于各帧，算出前后的帧间的上述各频率bin的上述差量频谱的差分，作为次差量频谱；

第二梅尔滤波器组处理单元，对于上述各帧，算出各频率bin的上述次差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔次差量频谱；

第二正规化处理单元，对于上述各帧，通过将上述各滤波器组的上述梅尔次差量频谱除以该滤波器组的上述平均梅尔频谱的函数而正规化；以及

第二离散余弦变换单元，对正规化的上述各滤波器组的梅尔次差量频谱进行离散余弦变换，

将上述第二离散余弦变换单元的输出设为次差量特征量。

11.一种声音特征量提取装置，其特征在于，包括：

梅尔滤波器组处理单元，输入帧化的声音信号的各帧的频谱与总发音即全部帧的频谱的平均即平均频谱相加的值，对于上述各帧，将上述值与梅尔滤波器组的权重相乘并合计；

对数算出单元，对于上述各帧，求出上述梅尔滤波器组处理单元的输出的对数；

离散余弦变换单元，对于上述各帧，将上述对数算出单元的输出进行离散余弦变换；以及

第一差分算出单元，对于上述各帧，算出前后的帧间的上述离散余弦变换单元的输出的差分，

将上述第一差分算出单元的输出设为差量特征量。

12.一种声音特征量提取装置，其特征在于，包括：

梅尔滤波器组处理单元，输入帧化的声音信号的各帧的频谱，对于上述各帧，通过将上述频谱与梅尔滤波器组的权重相乘并合计，算出梅尔频谱；

平均算出单元，输入各帧的上述梅尔频谱，算出总发音即全部帧的上述梅尔频谱的平均即平均梅尔频谱；

对数算出单元，对于上述各帧，求出上述梅尔频谱加上上述平均梅尔频谱的值的对数；

离散余弦变换单元，对于上述各帧，将上述对数算出单元的输出进行离散余弦变换；

将上述第一差分算出单元的输出设为差量特征量。

13.权利要求11或12所述的声音特征量提取装置，其特征在于，还包括：

第二差分算出单元，对于上述各帧，算出前后的帧间的上述第一差分算出单元的输出的差分，

将上述第二差分算出单元的输出设为次差量特征量。

14.一种在具备处理器和存储区域的计算机中执行并提取声音特征量的声音特征量提取方法，该声音特征量提取方法包括：

输入帧化的声音信号的各频率bin的频谱，对于各帧，对上述各频率bin算出前后的帧间的上述频谱的差分作为差量频谱，在上述存储区域存储的步骤；

对于上述各帧，算出上述各频率bin的上述差量频谱与梅尔滤波器组的权重的积的总和，作为各滤波器组的梅尔差量频谱，在上述存储区域存储的步骤；

对于上述各帧，通过将上述各滤波器组的梅尔差量频谱除以该滤波器组的总发音即全部帧的梅尔频谱的平均即平均梅尔频谱的函数而正规化，在上述存储区域存储的步骤；以及

从上述存储区域读出正规化的上述各滤波器组的梅尔差量频谱，进行离散余弦变换的步骤，

将上述离散余弦变换后的值设为差量特征量。