CN101076851B

CN101076851B - 口语识别系统以及用于训练和操作该系统的方法

Info

Publication number: CN101076851B
Application number: CN2005800391610A
Authority: CN
Inventors: 李海州; 马斌; G·M·怀特
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2004-09-17
Filing date: 2005-09-19
Publication date: 2011-12-28
Anticipated expiration: 2025-09-19
Also published as: TW200614149A; CN101076851A; US7917361B2; ATE505785T1; EP1800293B1; DE602005027480D1; TWI330824B; EP1800293A1; EP1800293A4; US20070299666A1; WO2006030305A1

Abstract

一种训练口语识别系统以将未知语言识别为多种已知候选语言中的一种的方法，其包括如下处理：生成包括多个声音标记的声音目录，从所述已知候选语言的子集提供所述集体的多个声音标记。所述方法进一步包括提供多个训练样本，每个训练样本由一种已知候选语言构成。进一步包括从各个训练数据库生成一个或多个训练向量的处理，其中，每个训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数。所述方法进一步包括将各个训练向量与相对应的训练样本的候选语言相关联。

Description

口语识别系统以及用于训练和操作该系统的方法

相关申请的交叉引用

此申请对在2004年9月17日提交的美国临时申请60/611,022主张优先权，并将其全部内容在此引用作为参考。

技术领域

本发明涉及语言识别系统以及用于训练和操作所述系统的方法。

背景技术

随着全球化、国际商务以及安全考虑的增长，对多语言语音应用，具体地，对自动语言识别(LID)的需求越来越强烈。自动语言识别的可能应用包括自动呼叫路由、音频挖掘以及语音自动维护系统(voice automatedattendant system)。

基于声学音位结构学的LID表示一种在本领域中使用的语言识别系统，如图1中对其进行阐述。所述系统通常包括四个可操作阶段，以处理语音片段并将其分类到多个可能的候选语言中的一个。初始地训练所述系统，借此对所述系统进行编程，以识别各候选语言的具体特征。在训练之后，进行语言识别操作，借此处理未知语言的语音样本，并将其与先前编程的特征进行比较，以确定存在或不存在所述特征，与所述样本具有最大数量的相关的候选语言被认为是所述样本的语言。

常规系统存在几个缺点，一个缺点是，需要针对具体语言的开发工作以加入新的候选语言。这种要求引起了声学和语言建模的高成本，并且需要语音数据抄录工作。于是，关于加入新语言，常规系统并不具有很好的可扩展性。

因此，需要改进的口语识别系统，其对于新的候选语言具有更好的可扩展性。

发明内容

本发明提供了一种仅利用候选语言的声音字母表的子集来识别口语的系统和方法。因为仅使用了所述候选的声音字母表的子集，语音训练和识别操作更快、存储效率更高。

在一个代表性实施例中，提出了一种训练口语识别系统以将未知语言识别为多个已知的候选语言中的一个的方法，所述方法包括如下处理：生成包括多个声音标记(sound token)的声音目录，其中从所述已知的候选语言的子集提供所述集体的(collective)多个声音标记。所述方法进一步包括提供多个训练样本，每个训练样本由一个已知的候选语言构成。进一步包括从各个训练样本生成一个或多个训练向量的处理，其中，每个训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数。所述方法进一步包括将各训练向量与相对应的训练样本的候选语言相关联。

参考如下附图和示例性实施例的详细描述，将更好地理解本发明的这些和其它特征。

附图说明

图1阐明了本领域中已知的口语识别系统；

图2阐明了根据本发明的口语识别系统；

图3阐明了一种根据本发明的用于训练口语识别系统的方法；

图4阐明了一种根据本发明的识别未知语言样本的语言的方法；

图5A阐明了根据本发明提供的口语识别系统的分类出错率(classification error rate)；

图5B阐明了与现有技术的声学音位结构学系统相比的本发明的口语识别系统的分类出错率；

图6阐明了作为用于本发明的口语识别系统的训练数据的函数的示例性分类出错率。

为简明起见，在后续附图中保留在前识别的特征的参考数字。

具体实施方式

语言识别系统

图2阐明了根据本发明的口语识别系统。所述系统200包括声音识别器210和声音分类器220。任选地，所述系统200可包括数据库230，用于存储训练样本232_1-n，以及数据库240，用于存储训练向量242_1-n。可选地，数据库230和240可以远离所述系统200。

所述声音识别器200包括被连接以接收训练样本230_1-n的输入，声音识别器200还可进行操作，以接收(经由相同的输入或另一个输入)未知语言样本250。读者将知道，可以以几种不同形式提供所述训练和/或未知语言样本，例如，作为实况或记录的声音，所述语音本身可为任何格式，如，模拟或数字形式。

各训练样本230_i包括一个或多个预先定义的语音话语(speechutterance)，其由将被系统识别的所述候选语言之一组成。所述定义各个训练样本230_i的一个或多个训练话语(training utterance)，被选择以提供在该特定候选语言中使用的大多数音素或其它音位结构标志。各训练样本可以采用任何持续时间的任何数量的训练话语，在示例性实施例中，使用100-3000个分开的训练话语，每个语音话语长5到15秒。进一步的例子，所述未知语音样本250具有与所述语音话语相似的持续时间，例如，持续时间在5-15秒之间。

声音识别器210可操作以，在语言训练模式下的系统操作期间从所接收的训练样本230_i生成训练向量240_i，并且，在识别模式下的操作期间从所述未知语言样本250生成未知语言向量260。如所示，分别向数据库240和声音分类器220提供生成的训练和未知语言向量240_i和260(以下对它们进行描述)。在本发明的可选实施例中，声音识别器210被配置成为各训练样本230_i中包括的各个语音话语或其组合来生成训练向量。在这样的情况中，所得到的对应于所述相同训练样本中的不同语音话语的训练向量，被集合地处理，以形成在语言识别处理中使用的统计模型，这将在以下进行进一步描述。

在操作的训练和识别模式中，声音识别器210生成作为音素212的函数的训练和未知语言向量240_i和260，该音素可以被提供给声音识别器210或者在声音识别器210中进行本地存储。在具体实施例中，从系统200可进行识别的n种候选语言的子集中获得音素212。由于这样的观察结果，即尽管在音位结构意义上有所不同，许多语言采用相同的音素，于是可以使用从所述n种候选语言的子集得到的一小组音素来识别大量语言。在本发明中，声音识别器210利用作为其字母表的更小的音素集来生成向量240_i和260，该向量对所提供的训练或未知语言样本的音位结构特征建模，所述音素集包括至少一些可为两种或多种候选语言重用的音素。注意到，尽管是针对音素来描述所述训练和未知语言向量的前述生成，可以理解的是，可以使用任何音位结构标志。另外，也可以使用声学稳态声音标记。进一步，可以使用诸如音节的语音子字作为声音标记。术语“声音标记”被用来描述这些参数的每一个。

系统200进一步包括声音分类器220，其被连接以在训练模式操作期间接收训练向量240_i，以及在语音识别模式操作期间接收未知语言向量260。所述声音分类器可进行操作以将未知语音样本250的语言识别为与未知语言向量260最相关(closest correlation)的训练向量相关联的语言。

系统训练的方法

图3阐明了一种根据本发明的用于训练口语识别系统200的方法。初始时，在302，利用从系统200可进行识别的候选语言的子集获取的声音标记来生成声音目录(例如，图2中的212)。在以下阐明的示例性实施例中，所述声音目录由来自三种语言的声音标记组成，而所述语音识别系统能够识别六种不同的候选语言。当然，也可以有其它设计，例如，系统可以利用来自所述候选语言中的单一一种的声音标记来识别多种候选语言。由上可见，声音目录212可以被形成为系统200的一部分，或者也可以远离系统200。

在304，提供在各候选语言中构成的训练样本230_i。可以在所述系统中本地地提供训练样本230_i，或者从外部源进行提供。

接下来在306，从各个训练样本230_i生成一个或多个训练向量240_i，该训练向量被生成为前述声音标记的函数。对于V个声音标记的系统，在此处理的一个实施例中，训练向量240_i由声音标记序列m₁ ⁿ，...，m_l ⁿ，...，m_L ⁿ中的声音标记的计数组成，其中n是候选语言指数，L是声音标记序列的长度。因此，各训练向量240_i具有D＝V维，各元素表示各个声音标记的计数。令v为所述声音目录中的第v个声音标记，且c_v ⁿ是所述声音标记序列m₁ ⁿ，...，m_l ⁿ，...，m_L ⁿ中的所述第v个声音标记的出现次数除以所有声音标记的总出现次数。

c_{v}^{n} = \frac{c (v)}{\underset{v}{Σ} c (v)}

在本发明的另一个实施例中，训练向量240_i由声音标记序列m₁ ⁿ，...，m_l ⁿ，...，m_L ⁿ中的声音标记对的计数组成。由于V个声音标记的声音目录导致N＝V×V个声音标记对，每个训练向量240_i具有N＝V×V维，每个元素表示各声音标记对{v_jv_k}的计数。

c_{v_{j} v_{k}}^{n} = \frac{c (v_{j} v_{k})}{\underset{v_{j} v_{k}}{Σ} c (v_{j} v_{k})}

本发明的另一个实施例包括诸如声音标记三元组、四元组的更大音位结构单元。本领域技术人员将了解本发明也可以具有其它实施例。

在具体实施例中，作为上述本发明一个实施例中的声音识别器处理的一部分进行处理306。进一步由上可见，所述训练样本230_i的每一个可包括几个语音话语，该话语的每一个(或两个或多个的组合)被用于作为基础以生成训练向量240_i，此训练向量的集合可被用来形成用于确定未知语言样本的语言类型的统计模型。在308，各训练向量240_i被与相应训练样本230的候选语言相关联。与语言n相关联的训练向量240_n的集合被用于表示第n种语言。进一步，基于所述训练向量240_n的集合为每种语言n构造统计模型λ_n。这样，通过统计模型表示训练向量的集合。在此处理的示例性实施例中，使用训练向量的集合的算术平均值来形成均值向量，所述均值向量形成统计模型λ_n的基础。

语言识别的方法

图4阐明了一种根据本发明的识别未知语言样本的语言的方法。所述处理主要建立在前述训练处理之上，在其中，利用从候选语言的子集获得的音位结构标志的字母表来训练系统200，从而识别n种候选语言。

在所示出的示例性实施例中，所述处理从402开始，在此步骤中，接收未知语言样本，由此生成未知语言向量，所述未知语言向量被定义为前述从候选语言子集获取的声音标记的函数。所述未知语言向量的示例性实施例包括如上所述的声音标记的向量或声音标记对、声音标记三元组和四元组的向量。

在404中，未知语言向量被与一个或多个训练向量240相关联，其中，将与所述未知语言向量最相关的训练向量的相关联的语言识别为所述未知语言样本的语言。在处理404的具体实施例中，未知语言向量X被提取，并被用于与各个训练向量统计模型λ_n相关联，以确定在未知语言向量和语言n之间的相关性：

\hat{n} = \underset{n}{\arg \max} P (X / λ_{n})

其中，将表现出最相关(呈现最高概率)的统计模型当作最优统计模型，并且将其对应语言判断为所述未知语言样本的语言。

在本发明的进一步实施例中，可以记录所述声音标记以及其不同阶(诸如对、三元组和四元组)的组合的计数的频率，并且将其安排在所述语言向量中。这种向量的实现允许全局评价以及在所述未知语言向量和训练向量之间的相关，或者从所述训练向量得到的统计模型，而不是在音素n元(phone n-gram)语言模型中使用的较短持续时间分析。本发明不仅像现有技术一样通过利用声音标记对、三元组和四元组作为语言向量的元素来并入局部声音标记同现的统计，而且并入长距离的分离的声音标记的统计，在该声音标记中，例如，通过10-20秒并利用数百个插入声音来分离声音。

示例性系统实施例以及性能

构造了语言识别系统200的示例性实施例，利用仅来自汉语普通话、英语和韩语这三种语言的音素来识别汉语普通话、汉语广东话、汉语上海方言、日语、韩语以及英语这六种候选语言。系统200在声音识别器之前实现预处理，包括为每个语音帧提取39维特征向量，该特征向量由12个Mel频率倒谱系数和归一化能量，以及一阶和二阶导数构成。在所述训练和识别模式中，为声学归一化提供基于句子的倒谱均值减。随后向声音识别器210提供所述39维向量。

训练样本230的训练语料库被用来训练所述语言识别模式中使用的后一种系统所需要的声音目录210。通常需要约10个小时的语音进行训练。所述具体实施例使用了利用8kHz采样率数字化的电话语音输入进行测试。其使用124个音素，此124个音素由分别来自训练语料库中的汉语普通话、英语和韩语的43、44和37个音素组成。与应用中的术语一致，将这些音素称为“声音标记”。如上所述，可以将基本“声音标记”的目录定义为音素集、声学稳态声音标记等。

通过从左至右三发射状态CDHMM对各个声音标记建模，每个状态具有32个高斯混合分量。除了从这些状态发出的124个声音标记之外，建立多个噪声模型，以吸收不同类型的噪声事件。使用一组基于广义“声音”定义的平坦模型作为参考基础，以获取声学置信度得分。自适应话音检测器被用于检测语音的起点和终点。声音分类器220被实现为支持向量机(SVM)，尽管在其它实现中，可以使用潜在语义分析(LSA)、人工神经网络，或者任何其它高维向量分类器。在语言识别操作期间，声音识别器210将未知语言的输入语音转换为声音序列。所述声音分类器首先从序列提取未知语言向量，然后对于所有感兴趣的训练向量测量所述未知语言向量，将训练向量相对于所述未知语言向量具有最高相似度得分的语言作为识别的结果语言。在所述声音分类器使用的时间窗的长度从5到10到15秒变化。训练例的数目从100到3000变化。

图5A阐明了作者为Ma Bin和Li Haizhou的“Spoken LanguageIdentification Using Bag of Sounds”(March 21，2005，InternationalConference on Chinese Computing 2005)中报告的口语识别系统的分类出错率，将此文章通过引用在此引入。对于每种语言，构造用于训练和测试声音分类器220的分离的数据库，并且在测试中不使用所述训练数据库。

对于在5、10和15秒的每个测试集，使用2000个训练向量建立SVM分类器220。测试语料库包括500个5、10和15秒的未知语言向量。图5A示出了更长的输入话语导致更好的分类准确度，如所期望的。在10秒钟测试中对于六种语言的平均准确度是，正确率98.1％，出错率1.9％。

图5B阐明了，与前述Ma Bin的文献中报告的现有技术的声学音位结构学系统(标示为AP)相比，本发明的口语识别系统(标示为BOS)的分类出错率。所述测试包括汉语普通话、英语和韩语这三种基准语言。构造三个单语言音素识别器以及它们各自的音素二元语言模型。在声学解码中使用电话环语法(phone loop grammar)，并且使用音素二元来得到最终的音素序列。通过三个并行的声学音位结构解码器提供未知语言样本，组合的声学和语言模型得分的获胜者得到全部。本发明提供了与现有技术的声学音位结构系统相比大大改进的准确率，这非常明显。

图6阐明了作为用于本发明的口语识别系统的训练样本的数目的函数的示例性分类出错率。对于5、10和15秒的每个训练样本，训练样本的数目从100到3000变化。所述数据指示需要较少的长持续时间的训练样本。例如，为得到约百分之二的可接受错误率，仅需要100个15秒持续时间的训练会话，而为实现相同的准确率，需要约2000个十秒的训练样本。

本领域技术人员可以很容易地理解，可以在硬件、软件、固件或这些实施方式的组合中适当地实现上述处理。另外，上述处理的部分或者全部可以被实现为在计算机可读介质(可移动硬盘、易失或非易失存储器、嵌入式处理器等)上驻留的计算机可读指令代码，所述指令代码可进行操作以对其它可编程设备的计算机进行编程，从而执行所期望的函数。

已经呈现了上述描述以用于阐明和描述。并非将本发明穷尽或限制为所公开的具体形式，很明显，根据所公开的资料可以得到许多修改和变型。选择上述实施例，以最好地解释本发明的原理及其实际应用，从而使得本领域技术人员能够以各种实施例以及利用适合于其所考虑的具体应用的各种修改来最好地利用本发明。由后附的权利要求来定义本发明的范围。

Claims

1.一种操作口语识别系统的方法，将未知语言识别为多种已知的候选语言中的一种，所述方法包括如下步骤：

生成包括多个声音标记的声音目录，从所述已知的候选语言的子集提供集体的多个声音标记；

提供多个训练样本，每个所述训练样本由一种所述已知的候选语言构成；

从各个所述训练样本生成一个或多个训练向量，其中，每个所述训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数；以及

将各个所述训练向量与相对应的所述训练样本的候选语言相关联；

从未知语言样本生成未知语言向量，所述未知语言向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数；以及将所述未知语言向量与多个所述训练向量相关；

其中，将与所述未知语言向量最相关的训练向量所相关联的语言识别为所述未知语言样本的语言；

其中，生成一个或多个训练向量包括生成对应于一种候选语言的多个训练向量，所述方法进一步包括：从与所述候选语言相关联的所述多个训练向量构造统计模型；

其中使用所述多个训练向量的算术平均值来形成均值训练向量，所述均值训练向量形成统计模型λ_n的基础，该统计模型被用于确定在所述均值训练向量和与未知语言样本相关联的未知语言向量之间的相关性。

2.根据权利要求1所述的方法，其中，所述声音目录包括V个所述声音标记，所述训练向量包括在声音标记序列中的声音标记的计数，其中n是候选语言指数，L是该声音标记序列的长度，其中，所述声音标记的计数包括

其中v被定义为所述声音目录中的第v个声音标记，且被定义为所述声音标记序列

中的所述第v个声音标记的出现次数除以所有声音标记的总出现次数：

c_{v}^{n} = \frac{c (v)}{\underset{v}{Σ} c (v)} .

3.根据权利要求1所述的方法，其中，所述声音目录包括V个声音标记，所述训练向量包括在声音标记序列

中的声音标记对的计数，其中n是候选语言指数，L是该声音标记序列的长度，其中，所述声音标记对的计数包括其中，被定义为在所述声音标记序列中的声音标记对的出现次数除以所有声音标记对{v_jv_k}的总出现次数：

c_{v_{j} v_{k}}^{n} = \frac{c (v_{j} v_{k})}{\underset{v_{j} v_{k}}{Σ} c (v_{j} v_{k})} .

4.一种口语识别系统，其可进行操作以将未知语言样本的语言识别为一种或多种已知候选语言，所述口语识别系统包括：

(i)用于生成包括多个声音标记的声音目录的装置，其中从所述已知候选语言的子集提供多个声音标记，

(ii)用于提供训练样本的装置，其中该训练样本由所述已知候选语言构成，

(iii)用于从各个所述训练样本生成一个或多个训练向量的装置，其中，每个所述训练向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数，

(iv)用于将各个所述训练向量与相对应的所述训练样本的候选语言相关联的装置，以及

(v)用于识别所述未知语言样本的语言的装置，包括：

用于从所述未知语言样本生成未知语言向量的装置，所述未知语言向量被定义为从所述已知候选语言的子集提供的所述多个声音标记的函数；以及

用于将所述未知语言向量与多个所述训练向量相关的装置，

其中，与所述未知语言向量最相关的训练向量所相关联的语言被识别为所述未知语言样本的语言；

其中，生成一个或多个训练向量包括生成对应于一种候选语言的多个训练向量，并从与所述候选语言相关联的所述多个训练向量构造统计模型；

5.根据权利要求4所述的系统，其中，通过统计模型λ_n表示对应于候选语言n的一个或多个训练向量，并且其中，所述相关包括将未知语言向量X与一个或多个训练向量统计模型λ相关，以确定在所述未知语言向量和语言n之间的相关性：

\hat{n} = \underset{n}{\arg \max} P (X / λ_{n})

由此，将表现出最高概率的统计模型视为最优统计模型，并且将其对应的语言判断为所述未知语言样本的语言。

6.一种口语识别系统，其可进行操作以将未知语言识别为一种或多种已知候选语言，所述系统包括：

声音识别器，其被连接以接收未知语言样本，所述声音识别器可进行操作以从所述未知语言样本生成未知语言向量，所述未知语言向量被定义为多个声音标记的函数，其中从所述候选语言的子集提供所述多个声音标记；以及

声音分类器，其被连接以接收所述未知语言向量，所述声音分类器可进行操作以将所述未知语言向量与一个或多个预定义的训练向量相关，所述训练向量的每一个与候选语言相关联，所述声音分类器可进行操作以将所述未知语言样本的语言识别为与所述未知语言向量最相关的训练向量的语言；

其中，生成一个或多个预定义训练向量包括生成对应于一种候选语言的多个训练向量，并从与所述候选语言相关联的所述多个训练向量构造统计模型；

7.根据权利要求6所述的口语识别系统，其中，所述声音识别器进一步可进行操作以接收多个训练样本，每个所述训练样本由候选语言中的一种构成，所述声音识别器进一步包括：

声音目录，其包括从所述候选语言的子集提供的所述多个声音标记；以及

用于从所述训练样本生成候选语言向量的装置，所述候选语言向量与所述候选语言中的一种相关联，并且所述候选语言向量被定义为从所述候选语言的子集提供的所述多个声音标记的函数。

8.根据权利要求7所述的系统，其中，所述声音目录包括V个声音标记，每个训练向量包括在声音标记序列

中的声音标记的计数，其中n是候选语言指数，L是该声音标记序列的长度，其中，所述声音标记的计数包括

其中v被定义为所述声音目录中的第v个声音标记，且

被定义为所述声音标记序列

c_{v}^{n} = \frac{c (v)}{\underset{v}{Σ} c (v)} .

9.根据权利要求7所述的系统，其中，所述声音目录包括V个声音标记，每个训练向量包括在声音标记序列

中的声音标记对的计数，其中n是候选语言指数，L是该声音标记序列的长度，其中，所述声音标记对的计数包括

其中，

被定义为在所述声音标记序列

中的声音标记对的出现次数除以所有声音标记对{v_jv_k}的总出现次数：

c_{v_{j} v_{k}}^{n} = \frac{c (v_{j} v_{k})}{\underset{v_{j} v_{k}}{Σ} c (v_{j} v_{k})} .