CN101651788B

CN101651788B - 一种在线语音文本对齐系统及方法

Info

Publication number: CN101651788B
Application number: CN2008102247910A
Authority: CN
Inventors: 颜永红; 高杰; 赵庆卫; 潘接林
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2012-11-21
Anticipated expiration: 2028-12-26
Also published as: CN101651788A

Abstract

本发明涉及一种在线语音文本对齐系统及方法，该系统包括：文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中，强制对齐模块包括：特征提取模块、搜索空间构建模块和对齐解码模块。其中，错误恢复模块包括：语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进，通过利用束搜索的搜索空间的信息，估计句尾搜索空间的活跃程度A(t，s_we)，估计在局部意义下的句子末尾时间

本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能；可以实时的产生在线输入语音流和对应的文本的对齐结果，并能够处理带错误的长文本。

Description

一种在线语音文本对齐系统及方法

技术领域

本发明涉及电视字幕显示领域，特别涉及一种在线语音文本对齐系统及方法。

背景技术

一个国家电视字幕节目的比例，反应了一个国家的人文水平，反应了社会对残疾人的关怀程度。目前，日本，美国英国等很多国家的电视节目都已经加配字幕。而国内有字幕加配的节目是少之又少。即使有少量字幕加配，仅仅限于录播的节目，而且字幕的加配是专业人员手工完成，花费了大量的时间和精力，对于直播的节目的字幕加配，是通过专业人员在节目直播时根据节目播出的速度，一条条的加配。

现有技术在线语音文本方法的系统的核心模块是基于隐含马尔可夫模型的对齐模块。它的主要作用是产生每个文本句子和在线输入的相应的实时的时间对应关系。而传统的对齐方法则是则获取所有语音的情况下同时，由于对齐的文本中可能有不完全正确的地方，在新闻字幕中主要表现为部分现场新闻的新闻采访(同期声)没有对应的文本。传统的对齐方法是无法在在线的情况下处理这些错误的。传统的语音文本对齐方法，为了处理文本流中错误段，一般是在获取所有的语音之后，离线完成的，因而无法兼顾对带错误的文本的处理和实时语音输入对齐结果的实时获取。

发明内容

为了克服现有技术的不足，本发明提供了一种对在线语音文本对齐系统及方法。本发明的对齐系统及方法采用分而治之的思想，通过长文本流分割成短句，将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题；同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。本发明所提出的系统及方法，可以实时的产生在线输入语音流和对应的文本的对齐结果，并能够处理带错误的长文本。

为了达到上述目的，本发明提供的一种在线语音文本对齐系统，包括：

一文本处理模块，用于将原始的文本流作预处理和句子分割，并将分割后的文本句子送入强制对齐模块和错误恢复模块。

一错误检测模块，用于检测并判断是否是错误对齐，即文本与语音不匹配的情况如果发生错误，则通知错误恢复模块进行错误恢复。

一错误恢复模块，用于根据在线输入语音信号和文本句子信息，进行错误纠正，即对在线输入语音信号进行识别，在文本中寻取识别结果的最优匹配点，并将文本位置反馈给强制对齐模块。及

一强制对齐模块，用于根据在线输入语音信号和文本句子信息，输出当前句子的语音与文本的对齐结果；如果收到错误恢复模块的文本位置反馈信息，则跳过出现错误的文本段，并从最优匹配点的句子开始，输出句子的语音与文本的对齐结果。

其中，所述强制对齐模块包括：特征提取模块、搜索空间构建模块和对齐解码模块。

所述特征提取模块，用于将在线输入语音信号进行特征提取，并按从前往后顺序的、逐帧的将语音特征送入对齐解码模块。

所述搜索空间构建模块，用于将文本流进行字到音的转换，根据声学模型，将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。

所述对齐解码模块，用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐；根据近似最优句子结束时间

输出句子的语音与文本的对齐结果。

其中，所述近似最优句子结束时间

通过以下方法得到：对于每一帧数据使用动态规划对齐，

Q(t，s)＝max_s′{p(x_t，s|s′)·Q_v(t-1，s′)}；

其中，Q(t，s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分；s_we是期望估计其最优结束时间

的当前句子的词尾状态节点；

在t时刻，当有路径到达s_we时(或称s_we为活跃状态时)，即

统计此时所有活跃的状态的上的路径假设数目δ(*)是指示函数，

δ (Q (t, s_{i}) > 0)) = \{\begin{matrix} 1 & ifQ (t, s_{i}) > 0 \\ 0 & otherwise \end{matrix},

将所有的路径假设按照其得分排序；统计s_we上所有的路径假设Q_k(t，s_we)k＝1…K；记路径假设Q_k(t，s_we)在所有N(t)个路径中排名Rank为R_k(t，s_we)；则s_we上的路径假设在N(t)个路径中排名中的样本期望

定义状态的活跃程度为

A(t，s_we)取最大值的时刻即是近似最优句尾时间

其中，所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐：

首先通过之前的句子估计话者的说话速率

估计出的句子末尾的位置t_end＝R_speech·N_character·(1+δ)，其中N_character是这个句子中含有的汉字的数目，δ是一个经验确定的松弛因子，用于容许的说话人速率的变化；如果当t＞t_end还没有检测到句子终点时则做出初步决策，即认为可能产生了错误。

其次使用声学置信度估计的方式做二次确认；即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率，在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率，再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度；最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误；如果发生错误，则向错误恢复模块发送错误恢复请求。

其中，所述错误恢复模块包括：语言模型估计模块、差值模块、语音识别模块及文本对齐和相似度计算模块。

所述语言模型估计模块，用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型P_ref(w₃|w₁，w₂)，并与语音识别模块中的背景语言模型P_LM(w₃|w₁，w₂)通过差值模块以线性插值的方式合并在一起，得到插值估计后的语言模型为：

{\hat{P}}_{LM} (w_{3} | w_{1}, w_{2}) = α \cdot P_{ref} (w_{3} | w_{1}, w_{2}) + (1 - α) \cdot P_{LM} (w_{3} | w_{1}, w_{2}) .

所述语音识别模块按从前往后，逐帧顺序的将送入的语音信号进行语音识别，并将语音识别的结果送入文本对齐和相似度计算模块。

所述文本对齐和相似度计算模块，用于将语音识别的结果在音节层次上和文本信息进行对齐，首先初步确定语音识别的结果在文本流中的位置范围，其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度；当相似度超过一定阈值时，则认为找到匹配的文本位置，并将该文本位置反馈给强制对齐模块。

本发明提供的一种在线语音文本对齐方法，包括以下步骤：

(1)根据实际应用要求的需要，文本处理模块对原始的文本流预处理和句子分割。

(2)将文本流送入错误恢复模块，和已有知识源一起构建错误恢复模块；在错误恢复模块中，文本流将用作自适应语言模型的估计，然后和背景语言模型进行插值构建新的语言模型。

(3)强制对齐模块使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间，转步骤(4)。

(4)强制对齐模块将在线输入语音信号的进行特征提取，并按从前往后逐帧顺序的，在搜索空间与相应的文本的对齐。

(5)同时错误检测模块判断当前句子是否为一个错误对齐，如果不是错误对齐，则转步骤(6)；如果是错误对齐，则转步骤(7)。本发明检测句子末尾的方法是传统的基于维特比对齐的方法的改进，并不是获取在全局意义上的句子末尾时间估计τ^*，而是通过利用束搜索的搜索空间的信息，估计句尾搜索空间的活跃程度A(t，s_we)，估计在局部意义下的句子末尾时间

(6)输出当前句子的对齐结果；如果所有的句子已经对齐完，过程结束；否则转回步骤(3)，处理下一个句子。

(7)启动错误恢复模块，通过在线输入语音信号进行识别，在文本中寻取最优匹配点，如果找到合适的匹配，返回步骤(3)。

其中，所述步骤(1)和步骤(2)是相互独立的，两者没有先后次序。

其中，所述步骤(4)包括以下子步骤：

(41)特征提取模块将在线输入语音信号进行特征提取，并按从前往后逐帧的、顺序的将语音特征送入对齐解码模块。

(42)搜索空间构建模块将文本流进行字到音的转换，根据声学模型，将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。

(43)对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐；根据近似最优句子结束时间

输出句子的语音与文本的对齐结果。

其中，所述近似最优句子结束时间通过以下方法得到：对于每一帧数据使用动态规划对齐，

Q(t，s)＝max_s′{p(x_t，s|s′)·Q_v(t-1，s′)}；

其中，Q(t，s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分；s_we是期望估计当前句子的最优结束时间

的词尾状态节点。

在t时刻，当有路径到达s_we(或称s_we为活跃状态)时，即

统计此时所有活跃的状态s_i的上的路径假设数目

δ(*)是指示函数，

δ (Q (t, s_{i}) > 0)) = \{\begin{matrix} 1 & ifQ (t, s_{i}) > 0 \\ 0 & otherwise \end{matrix},

将所有的路径假设按照其得分排序；统计s_we上所有的路径假设Q_k(t，s_we)k＝1…K记路径假设Q_k(t，s_we)在所有N(t)个路径中排名(Rank)为R_k(t，s_we)。那么s_we上的路径假设在N(t)个路径中排名中的样本期望

定义状态的活跃程度为A(t，s_we)取到最大值的时刻即是近似最优句尾时间

其中，所述步骤(5)包括以下子步骤：

(51)错误检测模块通过之前的句子估计话者的说话速率

(52)错误检测模块使用声学置信度估计的方式做二次确认；即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率，在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率，再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度；最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误；如果发生错误，则向错误恢复模块发送错误恢复请求。

其中，所述步骤(7)包括以下子步骤：

(71)语音识别模块按从前往后逐帧顺序的将送入的语音信号进行语音识别，并将语音识别的结果送入文本对齐和相似度计算模块。

(72)文本对齐和相似度计算模块根据输入的文本信息在音节层次上和文本信息进行对齐，首先初步确定语音识别的结果在文本流中的位置，其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度；当相似度超过一定阈值时，则认为找到匹配的文本位置，并将该文本位置反馈给强制对齐模块。

本发明的优点在于：

1、本发明提供的在线语音文本对齐系统及方法可以实时的产生在线输入语音流和对应的文本的对齐结果。

2、本发明提供的在线语音文本对齐系统及方法通过长文本流分割成短句，将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题；同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。

附图说明

图1本发明在线语音文本对齐系统整体框图；

图2是本发明强制对齐模块框图；

图3是本发明错误恢复模块框图；

图4是本发明在线语音和文本对齐方法流程图；

图5是本发明实施例搜索空间构建示例图；

图6是本发明实施例使用束搜索的搜索空间和实时的最佳句子结束时间的估计图。

具体实施方式

下面通过具体实施例，并结合附图详细说明本发明。

本实施例采用的在线语音文本对齐系统，如图1所示，包括：文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。

其中，强制对齐模块，如图2所示，包括：特征提取模块、搜索空间构建模块和对齐解码模块。

其中，错误恢复模块，如图3所示，包括：语言模型估计模块、语言模型插值模块模块、语音识别模块及文本对齐和相似度计算模块。

利用上述系统的在线语音文本对齐方法，步骤包括(如图4所示)：

(1)根据实际应用要求的需要，将原始的文本流进行预处理，包括特殊的符号的处理(数字，字母，标点等)和分割成句子。在目前的情况下，文本句子的分割的准则是按照文本中中文标点(句号，和逗号)的位置进行分割，比如电视字幕产生应用需要将原始的文本流分割成适合于显示在电视字幕上的句子(一般是4-13个字)。

(2)错误恢复模块的核心是一个语音识别器和一个文本对齐的模块。语音识别器的构建的一般过程，包括基于隐含马尔可夫模型的声学模型，语言模型，发音词典，解码搜索空间。由于需要对齐的文本，对于错误纠正时的语音识别过程来说是非常有效的知识源。因此，需要将对齐的文本也纳入到错误对齐模块中来。具体的说，利用这些文本使用一个最大似然估计的方法估计一个三元文法语言模型P_ref(w₃|w₁，w₂)。并和原有的语音识别系统中的背景语言模型P_LM(w₃|w₁，w₂)通过线性插值的方式合并在一起。得到插值估计后的语言模型为：

{\hat{P}}_{LM} (w_{3} | w_{1}, w_{2}) = α \cdot P_{ref} (w_{3} | w_{1}, w_{2}) + (1 - α) \cdot P_{LM} (w_{3} | w_{1}, w_{2}) .

(3)强制对齐模块将当前句子的文本内容进行字到音的转换，使用已经训练好的声学模型，将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。一个构建好的搜索空间的例子如图5所示。将在线输入语音信号的进行特征提取，并按从前往后逐帧的、顺序的将特征送入对齐解码模块中，和对应的隐含马尔可夫模型状态对齐。在传统的基于马尔可夫模型的语音对齐的过程中，是等待在将所有的文本和获取的所有语音进行对齐完成后，选取全局的最优路径，每个句子的对应的结束时间由最优路径决定。如图6所示的粗线所示的就是最优路径，而τ^*则是离线估计的最优决策时间。但是。在很多应用中(比如电视字幕加配)，所期望的则是一个实时的结果输出，即当语音进行到相应的文本句子末尾时，系统即能立即估计数句子的结束时间所以我们提出了一个方法，用于近似最优句子结束时间

该方法适用于使用束搜索(Beam Search)的语音识别器。在语音识别器中，为了提高识别器的效率，通常使用束搜索，同时剪枝掉不可能的搜索空间。如图所示，两条粗线所夹的中间区域就是束搜索时通过的位置。我们提出的近似方法基于以下基本假设，即在τ^*附近，句子末尾所处的搜索空间是最活跃的：

为此，定义下列变量：Q(t,s)为在时刻t落在状态s上的最佳的得分。s_we是我们期望估计其最优结束时间的词尾节点。

对于每一帧数据使用动态规划(维特比)对齐：

Q(t，s)＝max_s′{p(x_t，s|s′)·Q_v(t-1，s′)}。

在t时刻，当有路径到达s_we时，即

统计此时所有活跃的状态的上的路径假设数目

δ(*)是指示函数，

δ (Q (t, s_{i}) > 0)) = \{\begin{matrix} 1 & ifQ (t, s_{i}) > 0 \\ 0 & otherwise \end{matrix},

并将所有的路径假设得分排序。统计s_we上路径假设Q_k(t，s_we)k＝1…K，路径假设Q_k(t，s_we)在所有N(t)个路径中排名为R_k(t，s_we)，那么可以估计s_we上的路径假设在N(t)个路径中排名中期望定义状态的活跃程度为A(t，s_we)取到最大值的时刻即是近似最优句尾时间

我们估计的最优的句尾时间

是句尾空间最活跃的时刻，A(t，s_we)取到最大值的时刻。

(4)自动的错误检测采取两个串行的策略完成，说话人语音速率估计和声学置信度估计。首先通过估计说话人语音速率来完成的初步的检测。该方法认为如果文本和语音不匹配，那么处理中的语音的在搜索空间中的路径就被剪枝，因此在文本对应的正常的语音时间内，不匹配的语音不能对齐到相应的句子末尾。方法如下，通过之前的句子估计说话人的说话速率

即说话人平均每说一个汉字所需要的平均时间。因此估计出的句子的结束时间t_end＝R_speech·N_character·(1+δ)，其中N_character是这个句子中含有的汉字的数目，δ是一个经验确定的松弛因子，用来容许估计的说话人速率的变化。如果当t＞t_end还没有检测到句子终点时则做出初步决策，即认为可能产生了错误。其次使用声学置信度估计的方式做二次确认。即在进行对齐解码的同时在计算解码空间中状态序列对应当前语音特征帧的条件概率，在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率，再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度。最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误。

(5)及时输出对齐的结果，即当前句子文本和语音在时间上的对应关系，输出的形式为<开始时间，结束时间，句子编号>三元组。

(6)将在线输入语音信号的进行端点检测和语音句子分割。并按从前往后逐帧顺序的送入错误矫正模块进行语音识别。语音识别的结果在音节层次上和文本流进行对齐，对齐采用了两遍策略，第一遍是初步确定语音识别的结果在文本流中的位置，第二遍则是在初步确定的范围内精细计算当前语音识别结果和文本的相似度。当相似度超过一定阈值的时候，则认为找到了合适的匹配。

Claims

1.一种在线语音文本对齐系统，其特征在于，所述系统包括：

一文本处理模块，用于将原始的文本流作预处理和句子分割，并将分割后的文本句子送入强制对齐模块和错误恢复模块；

一错误检测模块，用于检测并判断是否是错误对齐和文本与语音不匹配的情况，如果发生错误，则通知错误恢复模块进行错误恢复；

一错误恢复模块，用于根据在线输入语音信号和文本句子信息，进行错误纠正，即对在线输入语音信号进行识别，在文本中寻取识别结果的最优文本匹配位置，并将此最优文本匹配位置反馈给强制对齐模块；及

一强制对齐模块，用于根据在线输入语音信号和文本句子信息，实时地输出当前句子的语音与文本的对齐结果；如果收到错误恢复模块的反馈信息，则跳过出现错误的文本段，并从错误恢复模块反馈的最优文本匹配位置处的句子开始，继续输出句子的语音与文本的对齐结果，

所述强制对齐模块包括：特征提取模块、搜索空间构建模块和对齐解码模块；

所述特征提取模块，用于将在线输入的语音信号进行特征提取，并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块；

所述搜索空间构建模块，用于将文本流进行字到音的转换，根据声学模型，将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间；

输出句子的语音与文本的对齐结果。

2.根据权利要求1所述的在线语音文本对齐系统，其特征在于，所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐：

首先通过之前处理过的句子估计说话人的语音速率,即说话人平均说一个汉字所需要的时间；具体的估计公式是

其中t是当前语音帧的时间，#of characters表示之前处理过的句子中含有的汉字的数目；由此估计出当前句子的结束时间t_end＝R_speech·N_character·(1+δ)，其中N_character是当前句子中含有的汉字的数目，δ是一个经验确定的松弛因子，用于容许说话人速率的变化；如果当t＞t_end还没有检测到句子终点时则做出初步决策，即认为可能产生了错误；

其次使用声学置信度估计的方式做二次确认；即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率，在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率，再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度；最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误；如果发生错误，则向错误恢复模块发送错误恢复请求,否则输出当前句的对齐结果。

3.根据权利要求1所述的在线语音文本对齐系统，其特征在于，所述错误恢复模块包括：语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块；

所述语言模型估计模块，用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型P_ref(w₃|w₁，w₂)，并与语音识别模块中的背景语言模型P_LM(w₃|w₁，w₂)通过语言模型插值模块以线性插值的方式合并在一起，得到插值估计后的语言模型为：

其中α为插值权重，取值在0到1之间，通过经验确定；

所述语音识别模块按从前往后的顺序逐帧地对送入的语音信号进行语音识别，并将语音识别的结果送入文本对齐和相似度计算模块；

所述文本对齐和相似度计算模块，用于将输入的文本在音节层次上和语音识别的结果进行对齐，首先初步确定语音识别的结果在输入文本流中的位置，其次在初步确定的位置上精细计算当前语音识别结果和文本的相似度；当相似度超过一定阈值时，则认为找到最优文本匹配位置，并将该最优文本匹配位置反馈给强制对齐模块。

4.一种在线语音文本对齐方法，该方法包括以下步骤：

（1）根据实际应用要求的需要，文本处理模块对原始的文本流预处理和句子分割；

（2）将文本流送入错误恢复模块，和已有知识源一起构建错误恢复模块；在错误恢复模块中，文本流将用作自适应语言模型的估计，然后和背景语言模型进行插值构建新的语言模型；

（3）强制对齐模块首先使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间；然后将在线输入的语音信号进行特征提取，并按从前往后逐帧顺序地在搜索空间与相应的文本对齐，具体包括如下步骤：

（31）强制对齐模块中的搜索空间构建模块将文本流进行字到音的转换，根据声学模型，将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间；

（32）强制对齐模块中的特征提取模块将在线输入的语音信号进行特征提取，并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块；

（33）强制对齐模块中的对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐；根据近似最优句子结束时间输出句子的语音与文本的对齐结果；

（4）同时错误检测模块判断当前句子是否为一个错误对齐，如果不是错误对齐，则转步骤（5）；如果是错误对齐，则转步骤（6）；

（5）实时地输出当前句子的对齐结果；如果所有的句子已经对齐完，过程结束；否则转回步骤（3），处理下一个句子；

（6）启动错误恢复模块，对于在线输入语音信号进行识别，对语音识别的结果在文本中寻取最优文本匹配位置，如果找到合适的匹配，返回步骤（3）。

5.根据权利要求4所述的在线语音文本对齐方法，其特征在于，所述步骤（4）包括以下子步骤：

（41）错误检测模块通过之前的句子估计说话人的语音速率：

估计出当前句子的结束时间t_end＝R_speech·N_character·(1+δ)，其中t是当前语音帧的时间，#of characters表示之前处理过的句子中含有的汉字的数目；N_character是当前句子中含有的汉字的数目，δ是一个经验确定的松弛因子，用于容许说话人语音速率的变化；如果当t＞t_end还没有检测到句子终点时则做出初步决策，即认为可能产生了错误；

（42）错误检测模块使用声学置信度估计的方式做二次确认；即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率，在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率，再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度；最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误；如果发生错误，则向错误恢复模块发送错误恢复请求；否则输出当前句子的对齐结果。

6.根据权利要求4所述的在线语音文本对齐方法，其特征在于，所述步骤（6）包括以下子步骤：

（61）语音识别模块按从前往后逐帧地顺序地将送入的语音信号进行语音识别，并将语音识别的结果送入文本对齐和相似度计算模块；

（62）文本对齐和相似度计算模块将语音识别的结果在音节层次上和输入的文本信息进行对齐，首先初步确定语音识别的结果在文本流中的位置，其次在初步确定的位置上精细计算当前语音识别结果和文本的相似度；当相似度超过一定阈值时，则认为找到最优文本匹配位置，并将该最优文本匹配位置反馈给强制对齐模块。