CN1819017A

CN1819017A - 提取特征向量用于语音识别的方法

Info

Publication number: CN1819017A
Application number: CN200510137026.1A
Authority: CN
Inventors: 金灿佑
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-12-13
Filing date: 2005-12-13
Publication date: 2006-08-16
Also published as: EP1675102A3; KR20060066483A; EP1675102A2; JP2006171750A; US20060129392A1

Abstract

揭示了一种用于识别语音能够达到高识别率的方法。所述方法包括从输入信号中提取表示该输入信号的作为话音还是非话音声音特征的参数，从输入信号中提取对应于语音完整频谱形状的至少一个特征向量，以及在训练阶段和识别阶段使用提取出的参数以及提取出的至少一个特征向量来识别语音。

Description

提取特征向量用于语音识别的方法

技术领域

本发明涉及语音识别，尤其涉及提取特征向量以实现高语音识别率的方法。

背景技术

在语音识别邻域，主要使用的两种语音识别方法是隐马尔可夫模型(HMM)和动态时间偏斜(DTW)。

在基于HMM的语音识别方法中，HMM参数是在训练阶段获取的并且存储在语音数据库中，并且马尔可夫处理器使用最大似然(ML)方法搜索具有最高识别率的模型。提取语音识别所必须的特征向量，并且使用提取的特征向量执行训练和语音识别。

在所述训练阶段，通常使用最大期望值(EM)算法或Baum-Welch重估算法获取HMM参数。Viterbi算法通常用于语音识别阶段。

为了增加语音识别率，可执行Wiener滤波预处理。也可通过使用诸如语言模型的考虑语法的技术来增加语音识别速率。

因为可对于连续语音识别(CSR)使用基于HMM的语音识别方法适用于大量的词汇识别并提供卓越的识别率，所以近来基于HMM的语音识别方法得到愈加广泛的应用。

在基于DTW的语音识别方法中，比较通用模式和给定输入模式并且确定它们之间的类似性。例如，一个单词或单词序列的持续时间是基于说话人是谁、说话人的感情以及说话人说话所处环境而变化的。基于DTW的语音识别方法作为用于非线性优化这一持续时间之间偏差的方法在作为用于非线性优化这一持续时间之间偏差的方法的部分优化基础上执行总体优化。

DTW通常用于识别单独的词，并且通常联合小量词汇表使用。可通过添加对应于新词汇的新模式很方便地修改该词汇表。

HMM和DTW识别方法通过提取涉及语音的完整频谱形状执行语音识别。然而这些方法的一个限制是它们不考虑组成语音的话音与非话音声音的区别。

发明内容

由上所述，本发明通过其各个方面、实施例和/或特定特征或子组件的一个或多个，旨在实现如下特指优点的一个或多个。

本发明的一个目标是提供一种方法用于提取特征向量以完成高速率语音识别。为了完成这些和其他优点并与本发明的目的相一致，作为在此具体表达并广泛描述提取特征向量用于语音识别的方法包括从输入信号中提取一个表示所述输入信号的某一表征是话音还是非话音声音的参数，以及基于提取出的参数识别语音。本方法还包括基于提取出的参数提取特征向量。

优选地，使用如下方程计算该参数：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

其中，

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} {| x [n] - x [n - m] |}^{k}}^{\frac{1}{k}},

η表示提取出的参数，而N_f表示确定某声音是话音还是非话音的帧的长度。优选地，k的值为1，2和3其中之一。

提取出的参数大于或等于当输入信号包括话音声音时的阈值，并且小于当输入信号包括非话音声音时的阈值。对语音的识别可以包括利用基于隐马尔可夫模型的识别方法、基于动态时间偏斜的识别方法以及基于神经网络的识别方法中的一种。也可使用其他语音识别方法和模型。

根据一个实施例，本方法可包括基于提取出的参数生成指明输入信号是包括话音声音还是非话音声音的一个比特，并且基于该生成的比特识别所述语音。本方法还包括将差分系数和加速系数的至少一个添加给提取参数。

根据另一个实施例，本方法还包括从所述输入信号中提取对应于话音的完整频谱形状的至少一个特征向量，并且基于提取出的特征向量以及提取出的参数的至少一个来识别语音。能在可用的节距(pitch)范围内计算该参数。

也提供包括了用来识别语音的程序的计算机可读介质。该程序包括指令，用于从输入信号中提取一个表示输入信号的某一表征是话音还是非话音声音的参数，并且基于该提取出的参数识别语音。该程序还包括基于提取出的参数提取特征向量的指令。

优选地，使用如下方程计算该参数：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

其中，

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} | x [n] - x [n - m] |^{k}}^{\frac{1}{k}},

提取出的参数大于或等于当输入信号包括话音声音时的阈值，并且小于当输入信号包括非话音声音时的阈值。用于识别语音的指令可以包括利用基于隐马尔可夫模型的识别方法、基于动态时间偏斜的识别方法以及基于神经网络的识别方法中的一种的指令。也可使用其他语音识别模型和方法。

根据一个实施例，该程序也可包括基于提取出的参数生成指明输入信号是包括话音声音还是非话音声音的一个比特，并且基于该生成的比特识别所述语音。该程序还可包括将差分系数和加速系数中的至少一个添加给提取出参数的指令。

本发明上述的和其他的目标、特征、方面和优点从随后结合了附图的详细描述中，本发明上述的和其他的目标、特征、方面和优点将变得显而易见。

附图说明

随后将通过本发明实施例的非限制性实例并参考附图，本发明将进行进一步地详细描述，所述附图中相同的编号表示类似的部件。

在附图中：

图1是示出了根据本发明提取特征向量用于语音识别的方法的流程图；以及

图2A-2D示出了话音和非话音声音的典型波形。

具体实施方式

现将对本发明的较佳实施例做出详细参考，并将结合附图示出本发明的实例。

本发明的一种方法包括基于对某声音是话音的还是非话音的判定生成一个参数，并且在训练阶段和识别阶段使用该参数，连同涉及语音完整频谱形状的特征向量。将使用存储在记录介质(诸如但不限于存储器)内的计算机程序实现本方法。

人类语音包括话音声音和非话音声音。当说话期间声带振动就会产生话音声音，而当声带不振动所产生的话音就是非话音声音。

所有的元音以及爆破音[b]、[d]和[g]都是话音声音。而爆破音[k]、[p]和[t]以及摩擦音[f]、[th]、[s]和[sh]是非话音声音。虽然爆破音[p]和[b](以及[d]和[t]、[g]和[k])的发音类似，但是基于该爆破音是话音的还是非话音的(例如‘pig’对‘big’)会形成完全不同的单词。因此，一个音素可被分类成话音声音或者非话音声音。

下文中，将参考附图描述本发明的较佳实施例。

本领域普通技术人员应该理解的是在对本发明的描述中，如果认为对相关已知功能或结构的详细解释会不必要地转移本发明的主旨，那么就省略这些解释。

图1是示出了根据本发明提取特征向量用于语音识别的方法的流程图。

参考图1，从话音信号中提取涉及第一输入话音信号整体频谱形状的特征向量(S110)。

涉及所述话音信号整体频谱形状的特征向量可以包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)以及知觉线性预测系数(PLPC)等等中的至少一种。

根据本发明的所述方法，也可从话音信号中涉及存在于话音信号中的话音和非话音声音的特征向量(S120)。例如可以通过提取涉及该声音是话音的还是非话音的参数、实验性地获取适当的增益值(G)并且加权所述提取出的参数来生成特征向量。

可使用多种方法确定某声音是话音的还是非话音的。相对简单的方法包括使用如下方程式：

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} | x [n] - x [n - m] |^{k}}^{\frac{1}{k}}

在这里，N_f表示确定某声音是话音还是非话音的帧长度。如果k＝1，那么上述方程式表示平均幅度差函数(AMDF)。如果k＝2，那么上述方程式就类似于自相关函数的平方。

所述k值可以是从1到3的任意常数。实验法已经示出当k＝2时出现最佳结果。然而，k＝1具有的优势在于不需要乘法。这样为了节距提取，最适k值应该是1或2。虽然k值可以是从1到3的任意常数，但是在如下描述的实施例中，k的值为2。当k＝2时会导致如下方程式所示的自相关函数，并将参考图2A-2D对其进行描述。所述方程式为：

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} | x [n] - x [n - m] |^{k}}^{\frac{1}{k}}

图2A-2D示出了话音和非话音声音的典型波形。图2A和2B示出了话音声音，图2C和2D示出了非话音声音，而图2B和2D示出了自相关函数。

如图2A和2B所示，话音声音的波形包括了重复模式。而图2C和2D中示出的非话音声音的波形则不包括重复模式。

如果在节距可能存在的范围内检查maxr_x[n]，那么r_x0]与maxr_x[n]在图2B中几乎相同，但是在图2D中大为不同。

r_x[0]与maxr_x[n]的比率(η)可由以下方程式表示：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

假设可用的节距范围是50到500Hz，那么在8kHz的采样频率下，n的值是从16到160。

如果

η = \frac{\max η_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

并且16≤n≤160，那么η值在如图2B中所示的话音信号中约为0.75，而在如图2D中所示的非话音信号中约为0.25。

因此，如果输入信号的η值较大，那么该输入信号就很可能是话音信号。如果输入信号的η值较小，那么该输入信号就很可能是非话音信号。所以通过对η值和阈值的比较，如果η值大于或等于该阈值就确定某输入信号是话音信号而如果η值小于该阈值就确定输入信号是非话音信号。

所述n的范围可根据采样速率变化。

此外，可以生成表示参数η的值是大于还是小于所述阈值的1比特指示符。然而优选地是参数η本身可用于提取特征向量，因为如果不正确地生成1比特指示符，则可能劣化识别符的性能。

在训练阶段和识别阶段内利用提取出的特征向量(S130)。提取出的向量可以通过基于HMM或基于DTW的方法添加参数用于增加识别率，并且可在使用神经网络的语音识别方法中使用。

此外为了改善性能，也可利用诸如差分系数或加速系数的特征向量。

如上所述，通过生成以输入信号是话音的还是非话音声音为特征的参数以及通过在训练阶段和识别阶段利用该参数用于语音识别，本发明的提取特征向量用于语音识别的方法达到了改善语音识别率的目的。

因为本发明在不背离其精神或本质特性的情况下能够以不同的形式被具体表达，所以应该理解上述实施例不限于任何前述细节；除非特别指出，否则上述实施例应被广泛解释为落于所附权利要求限定的精神和范围之内，因此所有的改变和修改都落于权利要求或旨在包含所述权利要求的等效物范围内。

在一个实施例中，诸如专用集成电路、可编程逻辑阵列或其他硬件设备的专用的硬件实现可被构建，用于实现在此描述的一种或多种方法。应用可以包括各种实施例的装置和系统，它们可广泛地包括各种电子或计算机系统。在此描述的一个或多个实施例可以使用带有可在各模块间通信的相关控件和数据信号的两个或更多指定的互连硬件模块或者设备，或是作为应用专用集成电路的部分来实现各种功能。因此，本发明包括软件、固件和硬件实现。

与本发明揭示的各个实施例相一致，可通过计算机可执行的软件程序实现在此描述的本方法。此外在一个示例的非限制性实施例中，实现可包括分布式处理、组件/目标分布式处理以及并行处理。另外还可以构建虚拟计算机系统处理用于实现在此描述的一种或多种方法和功能。

本发明的揭示还考虑到包括有指令或接收并处理响应于某传播信号的指令的计算机可读介质。术语“计算机可读介质”包括单介质或多介质，诸如集中式或分布式数据库和/或存储一个或多个指令集的相关高速缓存和服务器。术语“计算机可读介质”还包括能够存储、编码或执行可由处理器执行的指令集的任何介质，或者是使得计算机系统执行在此揭示的方法和操作的任何一个或多个的任何介质。

在特定的非限制性的典型实施例中，计算机可读介质包括诸如存储器卡或其他装有一个或多个非易失性只读存储器的封装的固态存储器，此外，计算机可读介质可以是随机存取存储器或者其他易失性的可重写的存储器。另外，计算机可读介质包括磁光或光学介质，诸如盘片、磁带或者能够捕获诸如在传输设备上通信的信号的载波信号的其他存储设备。电子邮件附件的数字文件或者其他自包含的信息归档文件或者归档文件组也可考虑作为等效于实际存储介质的分布式介质。因此，该揭示可考虑包括任何计算机可读介质或者可存储数据或指令的分布式介质以及任何其他的等效和后续媒介。

虽然本发明的说明描述的组件和功能可在参考了特定标准和协议的特定实施例中实现，但是本发明不限于这些标准和实施例。每一个标准、协议或语音都表示了最新的实例。本质上功能相同但更快或更有效的等效物周期性地代替这些标准。因此，具有相同或类似功能的代替标准和协议都被认为是等效的。

在此描述的实施例的说明旨在提供对各种实施例结构的大致理解。这些说明并非旨在用作对利用可在此描述的结构或方法的所述装置和相同的元素和特征的完全描述。许多其他实施例在本领域普通技术人员阅读过该揭示后将变得显而易见。可以利用并从该揭示中导出其他实施例，使得做出结构上和逻辑上的代替和改变都不背离本揭示的范围。此外，该说明仅仅是代表性的。因此，该揭示和图像应被认为是示意性的，而不是限制性的。

该揭示的一个或多个实施例在此可被单独地和/或统一地称为术语“发明”，仅出于方便使用该术语，而并非自愿限制对任何特定发明或发明概念的应用的范围限制。此外，虽然已经在此示出并描述了特定实施例，但应该认识到任何设计用于完成相同或类似目的的后续结构都可代替示出的特定实施例。该揭示旨在覆盖任何或全部的各个实施例的后续改编或者变化。上述实施例的组合以及未在此特定描述的其他实施例对于阅读了该说明的本领域普通技术人员来说都是显而易见的。

以上揭露的主题被认为是示意性而非限制性的，并且所附权利要求旨在覆盖所有落于本发明真实精神和范围内的修改、增强和其他实施例。这样为了法律允许的最大范围，本发明的范围是由随后的权利要求及其等效物的最广可允许解释所确定的，并且不被前述详细描述所限制。

虽然在此描述的本发明参考了若干典型实施例，但是可以理解的是已使用的词汇是描述性和说明性的词汇，而非限制性的词汇。因为本发明能够以不同形式被具体表达而不背离其精神和本质特征，所以应该理解除非特别指出，上述实施例不限于前述任何细节。而且上述实施例应该被解释为位于由所附权利要求限定的本发明的精神和范围内。因此，正如在此陈述并改进地，可在所附权利要求的范围内做出改变，而不背离本发明在其各个方面的范围和精神。

Claims

1.一种用于识别语音的方法，包括：

从输入信号中提取一参数，它表示作为话音或非话音声音的输入信号的表征；以及

基于所述提取出的参数识别语音。

2.如权利要求1所述的方法，其特征在于，还包括基于所述提取出的参数提取特征向量。

3.如权利要求1所述的方法，其特征在于，使用如下方程式计算该参数：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

其中，

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} {| x [n] - x [n - m] |}^{k}}^{\frac{1}{k}},

η表示提取出的参数，而N_f表示确定声音是话音还是非话音的帧的长度。

4.如权利要求3所述的方法，其特征在于，k值为1，2和3其中之一。

5.如权利要求1所述的方法，其特征在于，当输入信号包括话音声音时，所述提取出的参数大于或等于阈值。

6.如权利要求1所述的方法，其特征在于，当输入信号包括非话音声音时，所述提取出的参数小于阈值。

7.如权利要求1所述的方法，其特征在于，识别语音包括利用基于隐马尔可夫模型的识别方法。

8.如权利要求1所述的方法，其特征在于，识别语音包括利用基于动态时间偏斜的识别方法。

9.如权利要求1所述的方法，其特征在于，识别语音包括利用基于神经网络的识别方法。

10.如权利要求1所述的方法，其特征在于，还包括：

基于所述提取出的参数，生成指示所述输入信号包括话音声音还是非话音声音的比特；以及

基于已生成的比特识别所述语音。

11.如权利要求1所述的方法，其特征在于，还包括添加差分系数和加速系数的至少一个给所述提取出的参数。

12.一种用于识别语音的方法，包括：

从输入信号中提取对应于语音的全部频谱形状的至少一个特征向量；

从所述输入信号中一参数，它表示作为话音或非话音声音的输入信号的表征；以及

基于至少一个提取出的特征向量以及提取出的参数识别语音。

13.如权利要求12所述的方法，其特征在于，在可用间距范围内使用如下方程式计算参数：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

其中，自相关函数

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} {| x [n] - x [n - m] |}^{k}}^{\frac{1}{k}},

η表示提取出的参数，而N_f表示确定某声音是话音还是非话音的帧的长度。

14.如权利要求12所述的方法，其特征在于，当输入信号包括话音声音时，所述提取出的参数大于或等于阈值。

15.如权利要求12所述的方法，其特征在于，当输入信号包括非话音声音时，所述提取出的参数小于阈值。

16.如权利要求12所述的方法，其特征在于，识别语音包括利用隐马尔可夫模型识别方法、动态时间偏斜识别方法以及神经网络识别方法中的一种。

17.如权利要求12所述的方法，其特征在于，还包括：

基于所述提取出的参数，生成指示所述输入信号包括话音声音或非话音声音的比特；以及

基于已生成的比特识别所述语音。

18.如权利要求12所述的方法，其特征在于，还包括添加差分系数和加速系数的至少一个给所述提取出的参数。

19.一种包括用于识别语音的程序的计算机可读介质，所述程序包括指令用于：

基于所述提取出的参数识别语音。

20.如权利要求19所述的计算机可读介质，其特征在于，所述程序还包括基于所述提取出的参数提取特征向量的指令。

21.如权利要求19所述的计算机可读介质，其特征在于，使用如下方程式计算该参数：

η = \frac{\max r_{\underset{&OverBar;}{x}} [n]}{r_{\underset{&OverBar;}{x}} [0]}

其中，

r_{\underset{&OverBar;}{x}}^{(k)} [n] = \frac{1}{N_{f}} {Σ_{n = 0}^{N_{f} - 1} {| x [n] - x [n - m] |}^{k}}^{\frac{1}{k}},

22.如权利要求21所述的计算机可读介质，其特征在于，k值为1，2和3其中之一。

23.如权利要求19所述的计算机可读介质，其特征在于，当输入信号包括话音声音时，所述提取出的参数大于或等于阈值。

24.如权利要求19所述的计算机可读介质，其特征在于，当输入信号包括非话音声音时，所述提取出的参数小于阈值。

25.如权利要求19所述的计算机可读介质，其特征在于，用于识别语音的指令包括利用基于隐马尔可夫模型的识别方法的指令。

26.如权利要求19所述的计算机可读介质，其特征在于，用于识别语音的指令包括利用基于动态时间偏斜的识别方法的指令。

27.如权利要求19所述的计算机可读介质，其特征在于，用于识别语音的指令包括利用基于神经网络的识别方法的指令。

28.如权利要求19所述的计算机可读介质，其特征在于，所述程序还包括指令用于：

基于所述提取出的参数，生成指示所述输入信号包括话音信号或非话音声音的比特；以及

基于已生成的比特识别所述语音。

29.如权利要求19所述的计算机可读介质，其特征在于，所述程序还包括用于添加差分系数和加速系数的至少一个给所述提取出的参数的指令。