CN101609671B

CN101609671B - 一种连续语音识别结果评价的方法和装置

Info

Publication number: CN101609671B
Application number: CN2009100888661A
Authority: CN
Inventors: 刘刚; 陈伟; 郭军; 国玉晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-21
Filing date: 2009-07-21
Publication date: 2011-09-07
Anticipated expiration: 2029-07-21
Also published as: CN101609671A

Abstract

本发明实施例公开了一种基于字词混合的连续语音识别结果评价方法，包括：根据输入的语音识别结果序列和参考序列，生成字词混合的R-T匹配平面；根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合的多匹配路径，并采用多种路径得分函数；进行路径回溯，获取最佳匹配结果，统计语音识别性能相关信息。还公开了一种基于字词混合的连续语音识别结果评价装置，利用本发明实施例，能够有效降低识别结果评价中的虚假错误，有效提高基于词的连续语音识别结果评价精度。

Description

一种连续语音识别结果评价的方法和装置

技术领域

本发明涉及语音识别领域，特别是一种连续语音识别结果评价的方法和装置。

背景技术

连续语音识别的结果评价，通常采用动态规划的方法得到最佳匹配结果，隐马尔可夫工具包(Hidden Markov ToolKit，HTK)中的HResults工具是完成这一任务的典型代表。

在进行匹配时，匹配的单元可以是词，也可以是字、音素等，而且只能完成同一层次的匹配，即词词匹配或字字匹配等。在汉语连续语音识别中，通常采用字即音节作为匹配的基元，而基于音素的匹配通常是在只需要评价声学模型性能的时候使用。基于词的匹配由于会产生一些错误匹配，而很少使用。

在基于词的结果匹配中，产生错误匹配的原因主要有两个，一个是分词的标准不统一，汉语与西文不同，词之间没有明显的分界，需要进行分词，但是因为汉语构词比较灵活，造成分词结果的不同，从而产生一些错误匹配。另外一个是语音识别系统的原因，语音识别输出得到的词经常和参考词不一致，即使采用了相同的分词方法(算法、参数、参考词典等等均相同)，比如[中国][对][...]，识别为[中国队][...]，这些造成很多的虚假错误，使得识别结果的评价不可信。

由于语音识别中通常采用基于词的语言模型，网络搜索也是分为词内和词间搜索进行的，因此很多时候，还是需要得到基于词的语音识别结果分析。如做语音识别的可信度研究时，相对于音节来说，词的可信度特征更容易获得，因此很多可信度研究都是在基于词来进行的，但是由于基于词的语音识别结果评价不够准确，严重影响了可信度评价的性能。

发明人在实现本发明的过程中，发现现有技术中至少存在如下问题：

现有技术对基于词的连续语音识别结果评价不准确，产生很多虚假错误，特别是虚假的删除、替代、插入错误。

发明内容

有鉴于此，本发明一个或多个实施例的目的在于提供一种基于字词混合的连续语音识别结果评价方法和装置，以实现更为准确的基于词的连续语音识别结果评价，减少虚假错误的出现。

为解决上述问题，本发明实施例提供了一种基于字词混合的连续语音识别结果评价方法，包括：

根据输入的语音识别结果序列(T序列)和参考序列(R序列)，将R序列扩展为字词混合模式，以T为横轴，以R为纵轴，生成字词混合的R-T匹配平面；

根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合匹配的多匹配路径，每条路径采用适当的路径得分；保存每次匹配的最佳路径得分(最小得分)，并保存取得最佳得分时的路径信息；

匹配完成后，进行路径回溯，获取最佳匹配路径，得到最佳匹配结果和语音识别结果评价信息，并输出。

本发明还公开了一种基于字词混合的连续语音识别结果评价装置，包括：

输入单元，输入语音识别结果序列(T序列)和参考序列(R序列)，保存并作为后续处理单元的数据来源，其中，输入的序列均为词序列；

R-T平面定义单元，根据输入，将R序列扩展为字词混合模式，以T为横轴，以R为纵轴，生成字词混合的R-T匹配平面；

多路径匹配单元，根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合的多匹配路径，每条路径采用适当的路径得分；保存每次匹配的最佳路径得分，并保存取得最佳路径得分时的路径信息；

路径回溯单元，进行路径回溯，获取最佳匹配路径，保存最佳匹配结果，统计识别性能相关信息；

匹配结果输出单元，输出匹配结果和识别性能信息。

与现有技术相比，本发明实施例具有以下优点：本发明实施例通过定义基于字词混合的R-T匹配平面，设计基于字词混合的多匹配路径，使得本发明可以进行基于字词混合的连续语音识别结果评价，并通过设计适当的路径得分，保证不同匹配路径的优先级，提高匹配结果的正确性，有效降低连续语音识别结果评价中虚假错误的产生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示，是本发明实施例的装置框图；

图1-1所示，是本发明实施例的子装置-多路径匹配单元的框图

图2所示，是本发明实施例的R-T匹配平面示意图；

图3所示，是本发明实施例的多匹配路径示意图；

图4所示，是本发明实施例的路径得分示意图；

图5所示，是本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例的装置框图，包括：

输入单元101，输入语音识别结果序列(T序列)和参考序列(R序列)，保存并作为后续处理单元的数据来源，输入的序列均为词序列，词之间采用分隔符号(如空格、回车换行符、制表符等)隔开，以特殊字符(如“.”)作为结束标志；R-T平面构建单元102，根据输入，将R序列扩展为字词混合模式，以T为横轴，以R为纵轴，生成字词混合的R-T匹配平面；

多路径匹配单元103，根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合的多匹配路径，每条路径采用适当的路径得分；计算每次匹配的最佳路径得分(最小得分)，并保存取得最佳路径得分时的路径信息；多路径匹配单元的详细框图如图1-1所示，包括：

局部最佳路径得分计算模块1031，用于计算局部最佳路径得分，采用多种匹配路径，每条路径采用适当的路径得分；

最佳路径信息保存模块1032，用于保存局部最佳匹配路径信息；

匹配控制模块1033，用于控制基于DP算法的匹配过程的实现；

路径回溯单元104，进行路径回溯，获取最佳匹配路径，保存最佳匹配结果，统计识别性能相关信息；

配结果输出单元105，将最佳匹配结果和识别性能信息输出；输出形式可以直接打印输出到纸张上，也可以直接输出到显示装置上。

需要说明的是，上述功能模块的划分是相对的，主要用于帮助所属领域的技术人员从整体上理解本发明的原理，本发明实施例还可以以其他的功能模块及其组合来实现本发明的原理，达到相同的技术效果，这都没有超出本发明的保护范围。

下面，结合图2-图4，说明本发明实施例所提供的基于字词混合的连续语音识别结果评价方法：

如图2所示，是本发明实施例中R-T匹配平面构建示意图：

R-T平面的构建不仅要能够满足字词匹配的同时进行，而且还要能保证语音识别结果序列T中词的完整性，为此本发明采用下面的方法构建R-T匹配平面：以识别结果序列T为横轴，T中的每一个节点ti都是一个词，将参考序列R扩展为字词混合模式，以R作为纵轴。字词混合模式扩展的方法是，将R中的每个词扩展为字，每个字分别作为一个节点，同时为了保留词信息，将节点r_j扩展为字词混合模式，如公式1所示：

r_j＝{Syll_j，V_k，nwr_j，Location}(1)

其中Syll_j表示R序列中的第j个字(音节)，V_k表示Syll_j所在的词，nwr_j表示V_k的字(音节)长度，location表示Syll_j在V_k中的位置，具体定义如下：

表1 Location取值

含义	词的开始	词的中间	词的结尾	单字词
					赋值	1	2	3	4

图2给出一个R-T匹配平面的构造实例，其中识别结果序列T有M个词，参考序列R包含N个词、N’个字。

如图3所示，是本发明实施例中的多匹配路径示意图：

为了进行字词混合匹配，需要设置合理的匹配路径，本发明对现有技术的匹配路径进行了修改，设计了多匹配路径。如图3所示，图3中i表示T序列中的第i个节点t_i，j表示R序列中的第j个节点r_j，(i，j)表示R-T平面中的一个坐标点(t_i，r_j)的简写，nwt_i表示节点t_i的字长(即音节个数)，其中i＝0...M，j＝0...N’。图中共有a-f六条匹配路径，下面分别说明每条路径的含义。

路径a：路径方向为(i-1，j)→(i，j)，匹配结果为插入错误(I)；

路径b：路径方向为(i-1，j-1)→(i，j)，表示进行字词匹配，匹配结果为替代(S)或正确(C)，当nwt_i＝1时，同现有技术；

路径c：路径方向为(i-1，j-nwt_i)→(i，j)，表示以t_i为标准的匹配，即参考序列中的nwt_i个字组成的词(设为

与t_i进行匹配，匹配结果为S或C，当nwt_i＞1时存在，当nwt_i＝1时，与路径b相同；

路径d：路径方向为(i-1，j-nwr_j)→(i，j)，表示以r_j所在的词V_k为标准的匹配，即V_k与t_i进行匹配，匹配结果为替代(S)或正确(C)；路径d仅当r_j-＞Location＝3时存在，当r_j＞Location＝4(即nwr_j＝1)时，路径d与路径b相同，换句话说，路径d只当r_j位于词尾的时候才有效；

路径e：路径方向为(i，j-1)→(i，j)，匹配结果为字删除错误(D)，即删除一个字或一个单字词；

路径f：路径方向为(i，j-nwr_j)→(i，j)，匹配结果为词删除错误(D)，路径存在条件同路径d，即仅当r_j-＞Location＝3时存在，当r_j-＞Location＝4(即nwr_j＝1)时同路径c；

路径b、e主要完成字词匹配，其它路径主要完成词词匹配。

此外，为了防止非法匹配路径的出现，本发明还对匹配路径进行了限制，即不允许删除错误和插入错误相邻出现，即当前节点最佳匹配为删除路径(e或f)时，则其最佳路径的起点的最佳路径不能为插入路径(a)，反之亦然。

如图4所示，是本发明实施例中的基本路径匹配得分示意图：

路径得分函数直接影响各条路径的优先度，从而影响匹配的结果，本发明以词匹配优先为出发点，设计合理的路径得分函数。设C(x)表示路径x的得分函数，本着词匹配优先的原则，对于相同性质的路径，本发明令词词匹配和字词匹配的路径得分相等，即C(c)＝C(f)，C(b)＝C(d)＝C(e)，称为基本路径得分。同时对于路径b、d、e同时存在(即包括多个词词匹配路径)的情况下，词长相同的匹配情况应该优先，为此引入词长差异因子。

综上所述，最终的路径匹配得分函数分为两部分，基本路径得分和匹配词长差异得分。基本路径得分如图4所示，插入、删除路径得分为α₁，即C(a)＝C(e)＝C(f)＝α₁，对角线方向路径(路径b，c，d)得分为0(匹配)或α₂(不匹配)，其中α₁＜α₂＜2α₁，本发明实例中，具体取值为α₁＝8，α₂＝10，匹配词长差异得分仅限于对角线方向匹配路径，路径差异加权因子设为β，β取值应满足2α₁＞α₂+β，本发明实例中取β＝5，详细描述如公式2所示：

C(a)＝C(e)＝C(f)＝α₁

C(b)＝α₂+|nwt_i-1|×β

C(c)＝α₂ (2)

C(d)＝α₂+|nwt_i-nwr_j|×β

公式2中，对于路径b、c、d只给出了不匹配时的得分，当完全匹配时，路径b、c、d的路径得分均为0。当某些路径(路径c、d、f)不存在时，其对应的路径得分可以设置为某个比较大的得分δ，其取值应满足δ＞＞α₂(如δ＝100等)，也可以令该路径不参与匹配，本发明实例中采用后面的方法，即当某个路径不存在时，不参与匹配。

此外，为了防止某些非法匹配路径的存在，对连续出现的删除路径(e或f)或连续出现的插入路径(a)进行惩罚。以删除路径为例，对于连续出现的删除路径，从第二个删除路径开始每个路径得分增加惩罚因子θ，即新路径得分为原始路径得分+θ，θ其取值应满足θ＜α₁，本发明实例中取θ＝β＝5。

需要指出的是，基本路径得分、词长差异因子以及惩罚因子的具体取值可以有很多种方案，本发明实施例中只是给出了其中的一种实现，只要满足这些参数之间的相互约束，其它的数值也可以完成最佳匹配，例如所有取值乘以10等。

如图5所示，在上述实施例的基础上，本发明实施例提供了一种基于字词混合的连续语音识别结果评价方法，其工作流程包括：

501，输入待匹配的词序列，包括语音识别输出序列(假设包含M个词)和参考序列(假设包含N个词，N’个字)，保存并作为后续处理单元的数据来源；

502，构造R-T匹配平面，将参考序列R扩展为字词混合模式，以R为纵轴，以T为横轴，生成字词混合的R-T匹配平面，并进行相应的初始化工作(初始化按照现有技术方式进行即可)；

503，计算局部最佳匹配得分g(i，j)，其中i＝0...M，j＝0...N’。；

其中g(i，j)表示局部最佳匹配得分函数，即表示从(0，0)点匹配到(i，j)点的最小得分，采用如公式3所示的迭代公式进行计算。

g (i, j) = \min_{x} {g (x (i, j)) + C (x)}, x = a, b, c, d, e, f - - - (3)

公式3中x表示任一路径，x(i，j)表示以(i，j)为终点的路径x的起点，其具体取值可参考图3，例如当x＝a时，x(i，j)＝a(i，j)＝(i-1，j)，当x＝f时，x(i，j)＝f(i，j)＝(i，j-nwr_j)。

504，保存最佳匹配路径信息

其中，表示g(i，j)取最小值时所对应局部路径的起始坐标点，即表示局部最佳匹配路径是源于哪一个坐标点，其公式表达如公式4所示。

若路径a得分最小，则

依此类推。

505，匹配控制，503和504只完成某一坐标点(i，j)的匹配工作，完整序列的匹配采用迭代方式，通过匹配控制模块控制完成；

其中，匹配控制模块的工作过程包括两个循环，第一层循环为i从1到M，第二层循环为j从1到N’，在每次循环中完成503和504的工作，即对应某个特定的i，完成j从1到N’的匹配计算(即503，504)，再令i＝i+1，进行j的循环，直至i＞M完成匹配；

506，匹配路径回溯，获取最佳匹配路径；

其中，在回溯过程中，记录最佳匹配结果的详细信息(即保存当前最佳匹配的路径以及参与匹配的词信息)，统计正确(C)、替代(S)、插入(I)和删除(D)的出现次数，回溯完成后，计算识别性能信息；

507，匹配结果输出，将详细匹配结果和识别性能信息输出。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字词混合的连续语音识别结果评价方法，其特征在于，包括：

根据输入的语音识别结果序列T序列和参考序列R序列，将R序列扩展为字词混合模式，以T为横轴，以R为纵轴，生成字词混合的R-T匹配平面；

根据动态规划DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合匹配的多匹配路径，并采用多种路径得分函数；

进行路径回溯，获取最佳匹配结果，统计语音识别性能相关信息。

2.如权利要求1所述的方法，其特征在于，根据输入的语音识别结果序列和参考序列，生成字词混合的R-T匹配平面，包括：词序列扩展为字词混合序列，R-T匹配平面定义方式；

词序列扩展为字词混合序列的方法是：将序列R中的每个词扩展为字，同时为了保留词信息，将扩展后的字r_j扩展为字词混合模式，即r_j＝{Syll_j，V_k，nwr_j，Location}，其中，Syll_j表示R序列中的第j个字，V_k表示Syll_j所在的词，nwr_j表示V_k的字长度，Location表示Syll_j在V_k中的位置，具体定义如下表所示：

含义词的开始词的中间词的结尾单字词 Location赋值 1 2 3 4

R-T匹配平面定义方式为对纵轴参考序列R采用字词混合模式，对横轴语音识别结果序列T采用基于词的模式。

3.如权利要求2所述的方法，其特征在于，根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合匹配的多匹配路径，包括：

基于字词混合匹配的多匹配路径，包括六条局部匹配路径，分别为路径a、b、c、d、e、f；为方便描述，令i表示T序列中的第i个节点t_i，j表示R序列中的第j个节点r_j，(i，j)表示R-T平面中的一个坐标点(t_i，r_j)的简写，nwt_i表示节点t_i的字长，其中i＝0...M，M为T序列中的总词数，j＝0...N’，N’表示R序列中的总字数，则有：

路径a：路径方向为(i-1，j)→(i，j)，匹配结果为插入错误I；

路径b：路径方向为(i-1，j-1)→(i，j)，表示进行字词匹配，匹配结果为替代S或正确C；

路径c：路径方向为(i-1，j-nwt_i)→(i，j)，表示以t_i为标准的匹配，即参考序列中的nwt_i个字组成的词，设为

与t_i进行匹配，匹配结果为替代S或正确C，当nwt_i＞1时存在，当nwt_i＝1时，与路径b相同；

路径d：路径方向为(i-1，j-nwr_j)→(i，j)，表示以r_j所在的词V_k为标准的匹配，即V_k与t_i进行匹配，匹配结果为替代S或正确C；路径d仅当r_j-＞Location＝3时存在，当r_j-＞Location＝4，即nwr_j＝1时，路径d与路径b相同，即路径d只当r_j位于词尾的时候才有效；

路径e：路径方向为(i，j-1)→(i，j)，匹配结果为字删除错误D，即删除一个字或一个单字词；

路径f：路径方向为(i，j-nwr_j)→(i，j)，匹配结果为词删除错误D，路径存在条件同路径d，即仅当r_j-＞Location＝3时存在，当r_j-＞Location＝4，即nwr_j＝1时，同路径c；

路径b、e完成字词匹配，其它路径完成词词匹配；

此外，为了防止非法匹配路径的出现，对匹配路径进行了限制，即不允许删除错误和插入错误相邻出现，即如果当前节点最佳匹配为删除路径e或f，则其最佳路径的起点的最佳路径不能为插入路径a，反之亦然。

4.如权利要求3所述的方法，其特征在于，根据DP算法在R-T平面中进行匹配，采用多种路径得分函数，包括：

路径匹配得分函数分为两部分，基本路径得分和匹配词长差异得分，基本路径得分定义为：插入、删除路径得分为α₁，设C(x)表示路径x的得分函数，x＝a，b，c，d，e，f，即C(a)＝C(e)＝C(f)＝α₁，对角线方向路径b，c，d得分为0或α₂，其中α₁＜α₂＜2α₁；匹配词长差异得分仅限于对角线方向匹配路径，路径差异加权因子设为取β，β取值应满足2α₁＞α₂+β，详细描述如下所示：

C(α)＝C(e)＝C(f)＝α₁

C(b)＝α₂+|nwt_i-1|×β

C(c)＝α₂

C(d)＝α₂+|nwt_i-nwr_j|×β

上式中，对于路径b、c、d只给出了不匹配时的得分，当正确匹配时，路径b、c、d的路径得分均为0，当路径c、d、f不存在时，不参与匹配；

此外，为了防止某些非法匹配路径的存在，对连续出现的删除路径e或f或连续出现的插入路径a进行惩罚，对于连续出现的删除路径，从第二个删除路径开始每个路径得分增加惩罚因子θ，即新路径得分为原始路径得分+θ，θ取值应满足θ＜α₁。

5.一种基于字词混合的连续语音识别结果评价装置，其特征在于，包括：

输入单元，输入语音识别结果序列T序列和参考序列R序列，保存并作为后续处理单元的数据来源，输入的序列均为词序列；

R-T平面构建单元，根据输入，将R序列扩展为字词混合模式，以T为横轴，以R为纵轴，生成字词混合的R-T匹配平面；

多路径匹配单元，根据DP算法在R-T平面中进行匹配，局部匹配路径采用基于字词混合的多匹配路径，每条路径采用适当的路径得分；保存每词匹配的最佳得分即最小得分，并保存取得最佳得分时的路径信息；

匹配结果输出单元，将最佳匹配结果和识别性能信息输出。

6.如权利要求5所述的装置，其特征在于，所述R-T平面构建单元，包括：词序列扩展模块，R-T匹配平面定义模块；

词序列扩展模块，用于将词序列扩展为字词混合序列，将序列R中的每个词扩展为字，同时为了保留词信息，将扩展后的字r_j扩展为字词混合模式，即r_j＝{Syll_j，V_k，nwr_j，Location}，其中Syll_j表示R序列中的第j个字，V_k表示Syll_j所在的词，nwr_j表示V_k的字长度，Location表示Syll_j在V_k中的位置，具体定义如下表所示：

含义词的开始词的中间词的结尾单字词 Location赋值 1 2 3 4

R-T匹配平面定义模块，对纵轴参考序列R采用字词混合模式，对横轴语音识别结果序列T采用基于词的模式。

7.如权利要求5所述的装置，其特征在于，所述多路径匹配单元包括：

局部最佳路径得分计算模块，用于计算节点(i，j)的局部最佳路径得分g(i，j)，局部匹配路径采用多种匹配路径，匹配时采用多种路径得分函数，具体计算公式如下：

g (i, j) = \min_{x} {g (x (i, j)) + C (x)} x = a, b, c, d, e, f

其中，x表示路径a到路径f中的任一路径，x(i，j)表示以(i，j)为终点的路径x的起点，C(x)表示路径x的得分函数，x＝a，b，c，d，e，f；

最佳路径信息保存模块，用于保存节点(i，j)的局部最佳路径信息

具体计算公式如下：

匹配控制模块，用于控制基于动态规划DP算法的匹配过程实现。