CN103474069A

CN103474069A - 用于融合多个语音识别系统的识别结果的方法及系统

Info

Publication number: CN103474069A
Application number: CN201310413628XA
Authority: CN
Inventors: 王向东; 杨阳; 钱跃良
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2013-12-25
Anticipated expiration: 2033-09-12
Also published as: CN103474069B

Abstract

本发明提供一种用于融合多个语音识别系统的识别结果的方法及系统。所述方法包括：将多个语音识别系统的识别结果分别表示为相应的候选列表。所述方法还包括从得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表，其中通过对齐且合并操作得到的候选列表为已融合候选列表。本发明可提高语音识别准确率，且减少用户的修正操作。

Description

用于融合多个语音识别系统的识别结果的方法及系统

技术领域

本发明涉及语音识别技术领域，特别涉及一种用于融合多个语音识别系统的识别结果的方法及系统。

背景技术

语音识别技术是一种利用计算机和数字信号处理技术准确地识别出人类语音内容的技术。目前，面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而，由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制，大词汇量说话人无关的连续语音识别技术还无法满足真实应用的需求。因此，对识别结果中的识别错误进行修正是不可缺少的。为提高人工修正错误的效率，相关文献（如专利ZL201010269306.9）提出了对语音识别系统的中间识别结果进行处理以生成候选列表，将候选列表作为识别结果呈现给用户，并且采用相应的交互界面接收用户在候选列表中的选择操作。通过这种方式，用户只需通过选择操作就可以修正大量错误，相对于键盘输入方式来说大大提高了效率，减轻了工作量。

当前技术中，导致语音识别准确率较低的主要原因是语音识别系统内部采用的声学模型和语言模型与待识别的语音的特点不一致。由于声学模型、语言模型以及训练语料之间的差异，对于相同的语音，不同语音识别系统的识别结果也会有较大不同。在某一场景下，识别效果较好的语音识别系统（或者引擎）不一定在另一场景下取得相同的效果。通过融合多个系统的识别结果，可有效地提高场景适应性，提升识别的准确率和用户体验。然而，当前已有的系统融合方法其融合结果为语音对应的唯一的识别文本，无法采用基于候选列表的用户修正方法，仍然需要较多的时间和人力进行错误修正。

因此，需要一种能够融合多个语音识别系统的识别结果生成候选列表的方法及系统，以提高语音识别的准确率，且减少用户的修正操作。

发明内容

根据本发明的一个实施例，提供一种用于融合多个语音识别系统的识别结果的方法，包括：

步骤1）、将多个语音识别系统的识别结果分别表示为相应的候选列表；

步骤2）、从步骤1）得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。

在一个实施例中，所述候选列表是候选列的序列，所述候选列是一组候选字及其概率的集合。

在一个实施例中，所述语音识别系统的识别结果包括所识别语音对应的多个文本。

在一个实施例中，步骤1）包括：

步骤11）、将所述多个文本按字数划分为不同的组，其中字数相同的文本为一组；

步骤12）、对每个组新建一个候选列个数为该组每个文本的字数的候选列表，将该候选列表中每个候选列的候选字集合设为该组所有文本对应位置的字集合，且将每个候选字的概率设为该候选字在所述多个文本的对应位置出现的频率；

步骤13）、从步骤12）得到的所有组的候选列表集合中任选两个候选列表进行对齐且合并，用所得到的候选列表代替所述两个候选列表；然后重复这一过程直到该集合中只剩一个候选列表。

在一个实施例中，在步骤13）中，对齐两个候选列表包括：

步骤i）、设置二维数组d[n+1][m+1]，其中，n是候选列表L=（C₁,C₂,...,C_n）的候选列个数，m是另一候选列表L’=（C'₁,C'₂,...,C'_m）的候选列个数，d[i][j]表示两个子候选列表（C₁,C₂,...,C_i）与（C'₁,C'₂,...,C'_j）之间的编辑距离，i∈[1,n]，j∈[1,m]，d[i][0]=i,d[0][j]=j；

步骤ii)、对于i从1到n，j从1到m，根据下式依次计算d[i][j]：

d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}

其中，cost是候选列C_i与C'_j之间的替换代价，其取值为0或1；若选择为d[i][j]+cost且cost=0，则候选列C_i匹配成功；若选择为d[i][j]+cost且cost=1；则在C_i处存在替换错误；若选择为d[i-1][j]+1，则在C_i处存在删除错误；若选择为d[i][j-1]+1，则在C_i处存在插入错误；

步骤iii）、对于i从n到0，j从m到0，若候选项C_i匹配成功或存在替换错误，则将i和j的值都减1；若在C_i处存在插入错误，则在候选列表L的第i个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为1，将j的值减1；若在C_i处存在删除错误，则在候选列表L’的第j个候选列之后插入一个候选列，该候选列包含一个空字符的候选字，其概率设为1，将i的值减1。

在进一步的实施例中，根据以下步骤计算候选列C_i与C'_j之间的替换代价cost：

步骤a）、比较C_i与C'_j的第1个候选字w_i,1与w'_j,1，如果w_i,1与w'_j,1拼音相同则设cost=0，否则执行步骤b）；

步骤b）、依次计算C'_j的所有候选字

的拼音与w_i,1的拼音之间的相似度，如果其中最大的相似度大于预定阈值则设cost=0，否则设cost=1，其中m_j为C'_j中的候选字个数。

在一个实施例中，在步骤13）中，合并对齐后的两个候选列表包括：

新建一个候选列表L_merge，其候选列个数与对齐后的两个候选列表L和L’的候选列个数相同；

将L_merge中每个候选列的候选字集合设为对齐后的L和L’在该候选列的所有候选字的集合；以及

根据下式计算在该候选列的每个候选字w的概率：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

其中，p₁(w)和p₂(w)分别是w在对齐后的L和L’中该候选列的概率；λ₁和λ₂为合并系数。

在进一步的实施例中，根据下式计算合并系数λ₁和λ₂：

λ_{1} = \frac{n_{1}}{n_{1} + n_{2}}, λ_{1} = \frac{n_{2}}{n_{1} + n_{2}}

其中，如果L、L’是未合并的候选列表，则n₁、n₂分别是L、L’对应的组中的文本个数；如果L、L’是已合并的候选列表，则n₁、n₂分别是用于合并生成L、L’的候选列表对应的组中的文本个数之和。

在一个实施例中，所述语音识别系统的识别结果包括所识别语音对应的唯一文本。

在进一步的实施例中，步骤1）包括：

新建一个候选列个数为文本字数的候选列表；

将该候选列表中每个候选列的候选字设为该文本对应位置的字，且将其概率设为1。

在一个实施例中，所述语音识别系统的识别结果包括词网格。

在一个实施例中，在步骤2）中，合并对齐后的任选的两个候选列表包括：

新建一个候选列表L_merge，其候选列个数与对齐后的候选列表L₁和L₂的候选列个数相同；

将L_merge中每个候选列的候选字集合设为对齐后的L₁和L₂在该候选列的所有候选字的集合；以及

根据下式计算在该候选列的每个候选字w的概率：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

其中，p₁(w)和p₂(w)分别为w在对齐后的L₁和L₂中该候选列的概率；λ₁和λ₂为融合系数。

在一个实施例中，在步骤2）中，合并对齐后集合中任选的一个候选列表与已融合候选列表包括：

新建一个候选列表L_{new_merge}，其候选列个数与对齐后的未融合候选列表L_i和已融合候选列表L_merge的候选列个数相同，其中i∈[3,k]，k为所有候选列表的个数；

将L_{new_merge}中每个候选列的候选字集合设为对齐后的L_merge和L_i在该候选列的所有候选字的集合；以及

根据下式计算在该候选列的每个候选字w的概率：

p_{new_merge}(w)=p_merge(w)+λ_ip_i(w)

其中，p_merge(w)为w在对齐后的L_merge中该候选列的概率，p_i(w)为w在对齐后的L_i中该候选列的概率；λ_i为融合系数。

在进一步的实施例中，融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。

在一个实施例中，步骤2）之后还包括：

步骤3）、根据下式调整融合系数：

λ_i,new=λ_i,old+θ·PR_i

其中，λ_i,old为第i个语音识别系统的识别结果对应的更新前的融合系数，i∈[1,k]，θ为缩放因子，PR_i为第i个语音识别系统的识别结果的准确率。

在一个实施例中，步骤3）之后还包括：

对融合系数进行归一化处理。

在一个实施例中，所述识别结果的准确率为正确的字数与正确文本中字数的比值。

根据本发明的一个实施例，还提供一种用于融合多个语音识别系统的识别结果的系统，包括：

转换模块，用于将多个语音识别系统的识别结果分别表示为相应的候选列表；

融合模块，用于从所述转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并；从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表；其中通过对齐且合并操作得到的候选列表为已融合候选列表。

采用本发明可融合多个语音识别系统的识别结果，生成候选列表。在提高语音识别准确率的同时，减少了用户的修正操作。

附图说明

图1是根据本发明一个实施例的用于融合多个语音识别系统的识别结果的方法的流程图；

图2是候选列表的一个实施例的示意图；

图3是对语音进行识别得到的词网格的一个实施例的示意图；

图4a-4c是对多个语音识别系统的识别结果生成多个候选列表的一个实施例的示意图；

图5a和5b是分别对多个可能的文本的字数相同组生成候选列表的一个实施例的示意图；

图6是图5a和5b中的候选列表对齐结果的示意图；以及

图7是融合多个语音识别系统的识别结果得到的最终候选列表的一个实施例的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明提供的用于融合多个语音识别系统的识别结果的方法及系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在一个方面，本发明提供一种用于融合多个语音识别系统的识别结果的方法。在该方法中，融合的结果以候选列表的形式呈现，即融合后生成新的、优于单个系统结果的候选列表。简要而言，该方法包括：将所有待融合的语音识别系统的识别结果表示为候选列表的形式；以及，将所有已表示为候选列表形式的识别结果进行融合，得到融合后的候选列表。

现参考图1且具体描述用于融合多个语音识别系统的识别结果的方法：

步骤1、将所有待融合的语音识别系统的识别结果表示为候选列表的形式

目前，语音识别系统的识别结果（包括中间结果）主要是如下几种形式之一：

1）、所识别语音对应的唯一文本；

2）、所识别语音对应的多个可能的文本；

3）、语音识别系统对所识别语音进行识别后生成的词网格；

4）、所识别语音对应的候选列表。

在一个实施例中，可将候选列表表示为一个候选列的序列L=（C₁,C₂,...,C_n），其中n为候选列的个数，C_i（i=1,...,n）为第i个候选列。一个候选列C是一组候选字及其概率的集合，即C={(w₁,p₁),(w₂,p₂),...,(w_m,p_m)}，其中m为候选字的个数，w_j（j=1,2,...,m）为第j个候选字，p_j（j=1,2,...,m）为w_j对应的概率，w₁—w_m的和可为1。图2示出了候选列表的一个示例。

在一些实施例中，对于上述识别结果形式1）—3），要将其分别表示为候选列表的形式，可分别采用以下方式①—③：

①如果识别结果为所识别语音对应的唯一文本，则将该文本切分为字的序列。新建一个候选列表作为该识别结果对应的候选列表,将该候选列表的候选列个数设为切分出的字序列中字的个数；将候选列表中的每一个候选列设为只包含一个候选字，即切分出的字序列中对应位置的字，并将该候选字的概率设为1。

②如果识别结果为所识别语音对应的多个可能的文本，则对这些文本进行处理，生成对应的候选列表。在一个实施例中，其具体步骤可以包括：

步骤a），将所识别语音对应的多个可能的文本按照文本的字数划分成若干组，每一组由字数相同的文本构成。假设分为n组，得到集合S={set₁,set₂,...,set_n}，

（n_i为set_i中文本的个数），其中set_i（i=1,2,...,n）中的每一条文本sen_i,j(j=1,...,n_i)的字数都是相同的。

步骤b），对上述生成的每一个包含相同字数的文本的组，生成一个候选列表。即对S中的每一个集合set_i，生成一个候选列表L_i。这样对S可生成一个对应的候选列表的集合LS={L₁,L₂,...,L_n}。

生成L_i的方法可以为：将L_i中候选列的列数设为set_i中每个文本的字数；将L_i中第j个候选列中的候选字集合设为set_i中所有文本的第j个字的集合，将各候选字的概率设为该候选字在所有文本的第j列中出现的频率。

步骤c），将任意两个组对应的候选列表进行对齐与合并，生成一个新候选列表，并替换原来的两个候选列表。重复这一过程直到只剩一个候选列表，即为由所识别语音对应的多个可能的文本转换得到的候选列表。

也就是说，对LS中的任意两个候选列表L和L’进行对齐与合并，生成一个新候选列表L_merge；在LS中加入L_merge，删除L和L。’重复这一过程直到LS中只剩一个候选列表，即为由所识别语音对应的多个可能的文本转换得到的候选列表。

将L和L’进行对齐是指在两个候选列表的候选列之间建立一一对应，若两个候选列表的候选列数不同，则需根据对齐结果进行适当调整，使其列数相同。在一个实施例中，对齐的方法可采用基于改进的编辑距离对齐的方法。编辑距离又称Levenshtein距离，用于衡量两个字符串之间的差异性及对齐字符串。本发明中要对齐的对象是候选列表，因此，对编辑距离算法进行了改进。设L=（C₁,C₂,...,C_n），其中n为候选列的个数，C_i（i=1,...,n）为第i个候选列，

C_{i} = {(w_{i, 1}, p_{i, 1}), (w_{i, 2}, p_{i, 2}), . . ., (w_{i, n_{i}}, p_{{i, n}_{i}})},

其中n_i为C_i中候选字的个数；L’=（C'₁,C'₂,...,C'_m），其中m为候选列的个数，C'_j（j=1,...,m）为第j个候选列，

C_{j}^{'} = {(w_{j, 1}^{'}, p_{j, 1}^{'}), (w_{j, 2}^{'}, p_{j, 2}^{'}), . . ., (w_{j, m_{j}}^{'}, p_{j, m_{j}}^{'})},

其中m_j为C'_j中候选字的个数。基于改进的编辑距离对齐的方法如下：

i)，设置二维数组d[n+1][m+1]用于记录动态规划对齐（即改进的编辑距离对齐）的中间结果，其中d[i][j]（i=1,...,n;j=1,...,m）表示两个子候选列表（C₁,C₂,...,C_i）与（C'₁,C'₂,...,C'_j）之间的编辑距离。初始化d[i][0]=i,d[0][j]=j；

ii)，对于i=1,...,n，j=1,...,m，根据以下公式依次计算d[i][j]：

d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}

其中，min{}表示求最小值的操作，cost是C_i与C'_j之间的替换代价，其取值为0或1。记录求最小值操作的选择。以L为基准，若选择为d[i][j]+cost，且cost=0，则称候选列C_i匹配成功；若选择为d[i][j]+cost，且cost=1，则称在C_i处存在替换错误；若选择为d[i-1][j]+1，则称在C_i处存在删除错误；若选择为d[i][j-1]+1，则称在C_i处存在插入错误。

在进一步的实施例中，替换代价cost的计算方法如下：比较C_i与C'_j的第1个候选字，即w_i,1与w'_j,1，如果这两个字拼音（不带声调）相同，则令cost=0；否则，依次计算C'_j的所有候选字

的拼音与w_i,1的拼音之间的相似度，如果最大的相似度大于某个预先设定的阈值T，则令cost=0，否则令cost=1。

在进一步的实施例中，拼音之间的相似度计算可以采用当前已有的多种方法，例如：采用音节混淆矩阵。音节混淆矩阵是一个汉语音节（可认为是拼音）之间混淆概率的矩阵，矩阵中的值（即两个音节的混淆概率）由语料训练得到，即采用一批语音数据，经语音识别系统识别后，将语音对应的正确文本与相应识别结果中的字对齐，然后统计任一音节被识别为另一任意音节的频率，将其作为两个音节的混淆概率。

iii)，利用计算编辑距离的过程中保存的求最小值操作时的选择对候选列表L与L’进行对齐与候选列调整。方法如下：从i=n，j=m开始向后回溯，具体规则为：考察计算d[i][j]时求最小值操作时的选择，以L为基准，若候选列C_i匹配成功或存在替换错误，则将i和j的值都减1；若C_i处存在插入错误，则将j的值减1；若C_i处存在删除错误，则将i的值减1。如此重复，直到i与j的值均为0。对上述回溯过程中的每一对(i,j)，根据计算d[i][j]时求最小值操作时的选择，调整L与L’的候选列：以L为基准，若C_i处存在插入错误，则在L的第i个候选列之后插入一个候选列，该候选列只包含一个候选字，为空字符，其概率设为1；若C_i处存在删除错误，则在L’的第j个候选列之后插入一个候选列，该候选列只包含一个候选字，为空字符，其概率设为1。

经上述对齐过程后，L与L’中包含的候选列个数相等，并且相同位置的候选列一一对应。

在将L与L’对齐后，在一个实施例中，可以采用插值的方法将两个候选列表进行合并，生成一个新的候选列表L_merge。生成的方法为：设经对齐调整后L和L’的候选列数均为l，对于i=1,2,...,l，将L和L’中第i个候选列中的所有候选字均加入L_merge的第i个候选列，其中任一候选字w的概率为：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

其中，p₁(w)和p₂(w)分别为w在L和L’的第i个候选列中的概率，若w不在L的第i个候选列中，则p₁(w)=0，同理，若w不在L’的第i个候选列中，则p₂(w)=0；λ₁和λ₂为合并系数，计算方法为：

λ_{1} = \frac{n_{1}}{n_{1} + n_{2}}, λ_{1} = \frac{n_{2}}{n_{1} + n_{2}}

其中，n₁、n₂分别为L和L’对应的识别结果文本的个数。一个候选列表对应的识别结果文本的个数定义为：若候选列表由步骤b）生成，尚未经过合并，则其对应的识别结果文本的个数为步骤b）中生成该候选列表的识别结果文本组中所含文本的个数；若候选列表由两个候选列表在步骤c）中合并而成，则其对应的识别结果文本的个数为合并生成该候选列表的两个候选列表各自对应的识别结果文本的个数之和。

在另一个实施例中，还可以使用按出现次数投票的方法来合并两个候选列表。

应理解，如果识别结果为所识别语音对应的多个可能的文本，还可以用其他方式将其转换为候选列表的形式。例如，可将识别结果回溯为词网格，再将词网格转换为候选列表的形式（如下文所述）。

③如果识别结果为语音识别系统对所识别语音进行识别后生成的词网格，则将词网格转换为候选列表。转换的方法可采用当前已有方法，如采用专利ZL201010269306.9（名称为一种交互式语音识别系统和方法）中的“候选生成与错误修正模块”从词网格生成候选列表。

步骤2）、将所有已表示为候选列表形式的识别结果进行融合，得到融合后的候选列表。

在一个实施例中，假设所有识别结果对应的候选列表分别为L₁,L₂,...,L_k，融合的方法包括：

首先，采用基于改进的编辑距离对齐的方法将L₁与L₂对齐，并将其合并生成新的候选列表L_merge。在生成时，将L₁与L₂中对应候选列中的所有候选字加入L_merge的相应候选列，其中任一候选字w的概率为：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

其中，p₁(w)和p₂(w)分别为w在L₁与L₂中的概率（若w不在L₁或L₂中则相应概率为0），λ₁和λ₂为融合系数；

然后，依次将L_merge与L₃,...,L_k对齐合并，即每次合并的结果作为新的L_merge与后续候选列表进行合并。对齐时可采用基于改进的编辑距离对齐的方法，合并时，将原有L_merge与L_i（i=3,...,k）对应候选列中的所有候选字加入新列表L_{new_merge}的相应候选列，其中任一候选字w的概率为：

p_{new_merge}(w)=p_merge(w)+λ_ip_i(w)

其中，p_merge(w)为w在原有L_merge的概率，p_i(w)为w在L_i中的概率（若w不在L_merge或L_i中则相应概率为0），λ_i为融合系数。

最终得到的L_{new_merge}即为多个识别结果的融合结果，形式为一个候选列表。

上述过程中，基于改进的编辑距离对齐的方法与上文描述相同。λ₁、λ₂,...,λ_k为融合系数，其满足

在一个实施例中，在初始时，可根据在一个开发数据集上各识别结果的准确率情况人工来指定融合系数。

在进一步的实施例中，可在语音识别过程中利用用户修正信息动态调整各个识别引擎的识别结果在融合时的融合系数，使得识别准确率高的识别引擎对应的融合系数增大，识别准确率低的识别引擎对应的融合系数减小，从而提高融合后的识别结果的准确率。具体方法为：

在每识别完一句话，并将多个识别结果融合为一个候选列表显示在屏幕上后，可通过用户交互模块获取用户对识别结果的修正，从而得到这句话对应的正确文本。用户交互模块支持用户通过鼠标或触摸屏点击选择候选、通过鼠标或键盘删除错误的字、通过键盘或手写板输入正确的字。在获得这句话对应的正确文本后，可以和各个识别引擎的原始识别结果比较，计算出各个识别引擎识别结果的准确率，然后根据其准确率调整该引擎的识别结果对应的融合系数。设有k个语音识别引擎，其识别结果在融合时对应的融合系数分别为λ₁、λ₂,...,λ_k，其识别结果的准确率分别为PR₁,PR₂,...,PR_k，则根据下式调整融合系数：

λ_i,new=λ_i,old+θ·PR_i

其中λ_i,new为第i（i=1,...,k）个识别引擎的识别结果对应的更新后的融合系数，λ_i,old为第i个识别引擎的识别结果对应的更新前的融合系数，θ为缩放因子，可根据实验统计结果预先设定。

如果上述计算得到的λ_i,new不满足

则在一个实施例中，需要进行归一化处理得到最终更新后的融合系数：

λ_{i} = \frac{λ_{i, new}}{Σ_{i = 1}^{n} λ_{i, new}}

下面通过对一句语音的多个识别引擎的识别结果进行融合作为实例，详细介绍本发明提供的融合多个语音识别系统识别结果的方法的实施过程。应该明白该例子只是用于举例说明，而不是意图限制本发明的范围。

假设一句语音对应的文本内容为：“古老的东方”。采用3个语音识别引擎进行识别，识别结果分别为：

识别结果1，所识别语音对应的唯一文本：古老的洞房；

识别结果2，所识别语音对应的多个可能的文本。本实施例中可得到5个文本分别为：

顾了东方

故乐得洞房

顾乐的洞房

雇来的董方

故老的东方

识别结果3，语音识别系统对所识别语音进行识别后生成的词网格。该词网格是一个有向无环图（DAG），它包含语音识别过程中产生的词假设，并用相应的弧及相关的概率得分来表示，其中每条弧都可用一个五元组{S,F,W,A,L}来表示，其中S表示弧的起始时间，F表示弧的结束时间，W表示弧上对应的词假设，A表示弧的声学概率得分，L表示弧的语言概率得分，图3给出了对所述语音识别得到的词网格的示意图。

根据本发明提供的融合方法，对于上述3个识别结果，首先，分别将其转换为候选列表的形式。图4a、4b和4c分别给出了上述3个识别结果转换得到的候选列表。

其中，在将识别结果2（即所识别语音对应的多个可能的文本）进行转换得到候选列表时，其过程包括：

a），按照文本的字数，将5个文本分为两组，分别为Set₁={顾了东方}和Set₂={故乐得洞房，顾乐的洞房，雇来的董方，故老的东方}。

b），为Set₁和Set₂分别生成一个候选列表L₁和L₂，如图5a和5b所示。

c)，将任意两个组对应的候选列表进行对齐与合并，生成一个新候选列表，并替换原来的两个候选列表。重复这一过程直到只剩一个候选列表。

在本实施例中，只有两个组，对应两个候选列表，因此只需一次合并即可。

合并之前，先采用基于改进的编辑距离对齐的方法将上述两个候选列表L₁和L₂进行对齐，使其候选列数相同并一一对应。对齐过程中，在计算替换代价cost时，本实施例中选用的阈值T的值为0.6。对齐的结果如图6所示。以L₁为基准，L₂中存在插入错误，因此在L₁中增加了一个候选列，其中仅含一个候选字，为空字符，其概率为1。

L₁与L₂对齐后，需要进行合并，生成新的候选列表L_merge。生成时，将L₁与L₂中对应候选列中的所有候选字均加入L_merge的相应候选列，其中任一候选字w的概率为：p_merge(w)=λ₁p₁(w)+λ₂p₂(w)，其中，p₁(w)和p₂(w)分别为w在L₁与L₂的相应候选列中的概率；λ₁和λ₂为合并系数，计算方法为：L₁对应的组中含有一个文本，L₂对应的组中含有4个文本，共1+4＝5个文本，因此，λ₁=1/5=0.2，λ₂=4/5=0.8。

由于不再有其他候选列表，因此生成的L_merge即为所识别语音对应的多个可能的文本转换得到候选列表，如图4b所示。

当三个识别结果都转换为候选列表后，即可对三个候选列表进行融合。融合的方法如上文所述。融合时采用的三个引擎的融合系数λ₁、λ₂、λ₃为根据之前三个语音识别引擎在其他数据集上的实验结果人工指定，本实施例中取值为λ₁=0.4，λ₂=0.3，λ₃=0.3。融合后得到最终的候选列表，如图7所示。

可以看到，在三个语音识别引擎的识别结果中，都没有完全包含“古老的东方”这个正确文本（语音识别引擎1没有正确识别“东方”，引擎2中没有正确识别“古”，引擎3没有正确识别“方”），但是图7给出的融合后的候选列表则完全包含了“古老的东方”中的所有字。可见，本发明提出的系统融合方法提高了候选列的正确率。另外，在融合结果中，第一候选结果（各候选列中概率最大的字组成的识别结果）“古老的洞房”并不完全正确，但正确的字“东方”出现在正确结果中。可见，相对于当前已有的融合后只输出单一文本的系统，本发明采用候选列表作为融合的输入和输出，可以提高识别结果的准确率。

在一个实施例中，当用户基于显示的融合后的候选列表进行修正，得到该句语音对应的正确文本“古老的东方”后，可以计算各引擎的识别正确率，并根据正确率动态调整各引擎识别结果的融合系数，应用于后续的语音。

在计算正确率时，在本实施例中，只考虑第一候选识别结果的正确率，即每个引擎的识别结果对应的候选列表中各候选列中概率最大的字组合成的文本的正确率。对于所述实施例，参见图4a-4c，三个识别结果的第一候选识别结果分别为：

识别结果1：古老的洞房

识别结果2：顾乐的东方（本实施例中，对于候选列中概率相同的候选字随机取其一）

识别结果3：古老的东防

与正确文本“古老的东方”相比，识别结果1中“古老的”正确，识别结果2中“的东方”正确，识别结果3中“古老的东”正确。将识别正确率定义为正确的字数与正确文本中字数的比值，因此，各识别结果的正确率分别为：

PR₁=3/5=0.6，PR₂=3/5=0.6，PR₃＝4/5=0.8

根据以下公式调整各引擎的识别结果对应的融合系数：

λ_i,new=λ_i,old+θ·PR_i

其中，θ为人工预设的缩放因子，本实施例中设为0.2，因此：

λ_1,new=λ_1,old+θ·PR₁=0.4+0.2·0.6=0.52

λ_2,new=λ_2,old+θ·PR₂=0.3+0.2·0.6=0.42

λ_3,new=λ_3,old+θ·PR₃=0.3+0.2·0.8=0.46

对得到的新的融合系统进行归一化，得到：

λ₁＝0.52/(0.52+0.42+0.46)=0.371

λ₂＝0.42/(0.52+0.42+0.46)=0.300

λ₃＝0.46/(0.52+0.42+0.46)=0.329

可见，相对于原来的融合系数，识别结果1的权重有所降低，识别结果3的权重有所提高。

在另一个方面，本发明还提供一种用于融合多个语音识别系统的识别结果的系统，包括：

转换模块，用于将多个语音识别系统的识别结果分别表示为相应的候选列表。

融合模块，用于从转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并。还用于从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并，然后重复这一过程直到处理完该集合中所有候选列表，其中通过对齐且合并操作得到的候选列表为已融合候选列表。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种用于融合多个语音识别系统的识别结果的方法，包括：

2.根据权利要求1所述的方法，其中，所述候选列表是候选列的序列，所述候选列是一组候选字及其概率的集合。

3.根据权利要求2所述的方法，其中，所述语音识别系统的识别结果包括所识别语音对应的多个文本。

4.根据权利要求3所述的方法，其中，步骤1）包括：

5.根据权利要求4所述的方法，步骤13）中，对齐两个候选列表包括：

步骤ii)、对于i从1到n，j从1到m，根据下式依次计算d[i][j]：

d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}

6.根据权利要求5所述的方法，其中，根据以下步骤计算候选列C_i与C'_j之间的替换代价cost：

步骤b）、依次计算C'_j的所有候选字

7.根据权利要求4所述的方法，步骤13）中，合并对齐后的两个候选列表包括：

根据下式计算在该候选列的每个候选字w的概率：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

8.根据权利要求7所述的方法，其中，根据下式计算合并系数λ₁和λ₂：

λ_{1} = \frac{n_{1}}{n_{1} + n_{2}}, λ_{1} = \frac{n_{2}}{n_{1} + n_{2}}

9.根据权利要求2所述的方法，其中，所述语音识别系统的识别结果包括所识别语音对应的唯一文本。

10.根据权利要求9所述的方法，其中，步骤1）包括：

新建一个候选列个数为文本字数的候选列表；

11.根据权利要求1所述的方法，其中，所述语音识别系统的识别结果包括词网格。

12.根据权利要求1-11中任何一个所述的方法，步骤2）中，合并对齐后的任选的两个候选列表包括：

根据下式计算在该候选列的每个候选字w的概率：

p_merge(w)=λ₁p₁(w)+λ₂p₂(w)

13.根据权利要求12所述的方法，步骤2）中，合并对齐后的集合中任选的一个候选列表与已融合候选列表包括：

根据下式计算在该候选列的每个候选字w的概率：

p_{new_merge}(w)=p_merge(w)+λ_ip_i(w)

14.根据权利要求13所述的方法，其中，融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。

15.根据权利要求14所述的方法，其中，步骤2）之后还包括：

步骤3）、根据下式调整融合系数：

λ_i,new=λ_i,old+θ·PR_i

16.根据权利要求15所述的方法，其中，步骤3）之后还包括：

对融合系数进行归一化处理。

17.根据权利要求15所述的方法，其中，所述识别结果的准确率为正确的字数与正确文本中字数的比值。

18.一种用于融合多个语音识别系统的识别结果的系统，包括：