CN101651788B - 一种在线语音文本对齐系统及方法 - Google Patents

一种在线语音文本对齐系统及方法 Download PDF

Info

Publication number
CN101651788B
CN101651788B CN2008102247910A CN200810224791A CN101651788B CN 101651788 B CN101651788 B CN 101651788B CN 2008102247910 A CN2008102247910 A CN 2008102247910A CN 200810224791 A CN200810224791 A CN 200810224791A CN 101651788 B CN101651788 B CN 101651788B
Authority
CN
China
Prior art keywords
module
text
alignment
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102247910A
Other languages
English (en)
Other versions
CN101651788A (zh
Inventor
颜永红
高杰
赵庆卫
潘接林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN2008102247910A priority Critical patent/CN101651788B/zh
Publication of CN101651788A publication Critical patent/CN101651788A/zh
Application granted granted Critical
Publication of CN101651788B publication Critical patent/CN101651788B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,swe),估计在局部意义下的句子末尾时间
Figure DDA0000150505930000011
本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。

Description

一种在线语音文本对齐系统及方法
技术领域
本发明涉及电视字幕显示领域,特别涉及一种在线语音文本对齐系统及方法。
背景技术
一个国家电视字幕节目的比例,反应了一个国家的人文水平,反应了社会对残疾人的关怀程度。目前,日本,美国英国等很多国家的电视节目都已经加配字幕。而国内有字幕加配的节目是少之又少。即使有少量字幕加配,仅仅限于录播的节目,而且字幕的加配是专业人员手工完成,花费了大量的时间和精力,对于直播的节目的字幕加配,是通过专业人员在节目直播时根据节目播出的速度,一条条的加配。
现有技术在线语音文本方法的系统的核心模块是基于隐含马尔可夫模型的对齐模块。它的主要作用是产生每个文本句子和在线输入的相应的实时的时间对应关系。而传统的对齐方法则是则获取所有语音的情况下同时,由于对齐的文本中可能有不完全正确的地方,在新闻字幕中主要表现为部分现场新闻的新闻采访(同期声)没有对应的文本。传统的对齐方法是无法在在线的情况下处理这些错误的。传统的语音文本对齐方法,为了处理文本流中错误段,一般是在获取所有的语音之后,离线完成的,因而无法兼顾对带错误的文本的处理和实时语音输入对齐结果的实时获取。
发明内容
为了克服现有技术的不足,本发明提供了一种对在线语音文本对齐系统及方法。本发明的对齐系统及方法采用分而治之的思想,通过长文本流分割成短句,将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题;同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。本发明所提出的系统及方法,可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。
为了达到上述目的,本发明提供的一种在线语音文本对齐系统,包括:
一文本处理模块,用于将原始的文本流作预处理和句子分割,并将分割后的文本句子送入强制对齐模块和错误恢复模块。
一错误检测模块,用于检测并判断是否是错误对齐,即文本与语音不匹配的情况如果发生错误,则通知错误恢复模块进行错误恢复。
一错误恢复模块,用于根据在线输入语音信号和文本句子信息,进行错误纠正,即对在线输入语音信号进行识别,在文本中寻取识别结果的最优匹配点,并将文本位置反馈给强制对齐模块。及
一强制对齐模块,用于根据在线输入语音信号和文本句子信息,输出当前句子的语音与文本的对齐结果;如果收到错误恢复模块的文本位置反馈信息,则跳过出现错误的文本段,并从最优匹配点的句子开始,输出句子的语音与文本的对齐结果。
其中,所述强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。
所述特征提取模块,用于将在线输入语音信号进行特征提取,并按从前往后顺序的、逐帧的将语音特征送入对齐解码模块。
所述搜索空间构建模块,用于将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。
所述对齐解码模块,用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间
Figure GDA0000150505900000021
输出句子的语音与文本的对齐结果。
其中,所述近似最优句子结束时间
Figure GDA0000150505900000022
通过以下方法得到:对于每一帧数据使用动态规划对齐,
Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)};
其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计其最优结束时间
Figure GDA0000150505900000023
的当前句子的词尾状态节点;
在t时刻,当有路径到达swe时(或称swe为活跃状态时),即
Figure GDA0000150505900000024
统计此时所有活跃的状态的上的路径假设数目δ(*)是指示函数, δ ( Q ( t , s i ) > 0 ) ) = 1 ifQ ( t , s i ) > 0 0 otherwise , 将所有的路径假设按照其得分排序;统计swe上所有的路径假设Qk(t,swe)k=1…K;记路径假设Qk(t,swe)在所有N(t)个路径中排名Rank为Rk(t,swe);则swe上的路径假设在N(t)个路径中排名中的样本期望
Figure GDA0000150505900000027
定义状态的活跃程度为
Figure GDA0000150505900000028
A(t,swe)取最大值的时刻即是近似最优句尾时间
Figure GDA0000150505900000029
其中,所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐:
首先通过之前的句子估计话者的说话速率
Figure GDA0000150505900000031
估计出的句子末尾的位置tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许的说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。
其次使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求。
其中,所述错误恢复模块包括:语言模型估计模块、差值模块、语音识别模块及文本对齐和相似度计算模块。
所述语言模型估计模块,用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型Pref(w3|w1,w2),并与语音识别模块中的背景语言模型PLM(w3|w1,w2)通过差值模块以线性插值的方式合并在一起,得到插值估计后的语言模型为:
P ^ LM ( w 3 | w 1 , w 2 ) = α · P ref ( w 3 | w 1 , w 2 ) + ( 1 - α ) · P LM ( w 3 | w 1 , w 2 ) .
所述语音识别模块按从前往后,逐帧顺序的将送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块。
所述文本对齐和相似度计算模块,用于将语音识别的结果在音节层次上和文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置范围,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。
本发明提供的一种在线语音文本对齐方法,包括以下步骤:
(1)根据实际应用要求的需要,文本处理模块对原始的文本流预处理和句子分割。
(2)将文本流送入错误恢复模块,和已有知识源一起构建错误恢复模块;在错误恢复模块中,文本流将用作自适应语言模型的估计,然后和背景语言模型进行插值构建新的语言模型。
(3)强制对齐模块使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间,转步骤(4)。
(4)强制对齐模块将在线输入语音信号的进行特征提取,并按从前往后逐帧顺序的,在搜索空间与相应的文本的对齐。
(5)同时错误检测模块判断当前句子是否为一个错误对齐,如果不是错误对齐,则转步骤(6);如果是错误对齐,则转步骤(7)。本发明检测句子末尾的方法是传统的基于维特比对齐的方法的改进,并不是获取在全局意义上的句子末尾时间估计τ*,而是通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,swe),估计在局部意义下的句子末尾时间
Figure GDA0000150505900000041
(6)输出当前句子的对齐结果;如果所有的句子已经对齐完,过程结束;否则转回步骤(3),处理下一个句子。
(7)启动错误恢复模块,通过在线输入语音信号进行识别,在文本中寻取最优匹配点,如果找到合适的匹配,返回步骤(3)。
其中,所述步骤(1)和步骤(2)是相互独立的,两者没有先后次序。
其中,所述步骤(4)包括以下子步骤:
(41)特征提取模块将在线输入语音信号进行特征提取,并按从前往后逐帧的、顺序的将语音特征送入对齐解码模块。
(42)搜索空间构建模块将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。
(43)对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间
Figure GDA0000150505900000042
输出句子的语音与文本的对齐结果。
其中,所述近似最优句子结束时间通过以下方法得到:对于每一帧数据使用动态规划对齐,
Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)};
其中,Q(t,s)是在时刻t落在搜索空间中某个特定的隐含马尔可夫模型状态s上的最佳的得分;swe是期望估计当前句子的最优结束时间
Figure GDA0000150505900000044
的词尾状态节点。
在t时刻,当有路径到达swe(或称swe为活跃状态)时,即
Figure GDA0000150505900000045
统计此时所有活跃的状态si的上的路径假设数目
Figure GDA0000150505900000046
δ(*)是指示函数, δ ( Q ( t , s i ) > 0 ) ) = 1 ifQ ( t , s i ) > 0 0 otherwise , 将所有的路径假设按照其得分排序;统计swe上所有的路径假设Qk(t,swe)k=1…K记路径假设Qk(t,swe)在所有N(t)个路径中排名(Rank)为Rk(t,swe)。那么swe上的路径假设在N(t)个路径中排名中的样本期望
Figure GDA0000150505900000051
定义状态的活跃程度为A(t,swe)取到最大值的时刻即是近似最优句尾时间
Figure GDA0000150505900000053
其中,所述步骤(5)包括以下子步骤:
(51)错误检测模块通过之前的句子估计话者的说话速率
Figure GDA0000150505900000054
估计出的句子末尾的位置tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许的说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。
(52)错误检测模块使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求。
其中,所述步骤(7)包括以下子步骤:
(71)语音识别模块按从前往后逐帧顺序的将送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块。
(72)文本对齐和相似度计算模块根据输入的文本信息在音节层次上和文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置,其次在初步确定的范围内精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到匹配的文本位置,并将该文本位置反馈给强制对齐模块。
本发明的优点在于:
1、本发明提供的在线语音文本对齐系统及方法可以实时的产生在线输入语音流和对应的文本的对齐结果。
2、本发明提供的在线语音文本对齐系统及方法通过长文本流分割成短句,将长的语音流和文本流的对齐问题转化成短句文本和短语音流的对齐问题;同时具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能。
附图说明
图1本发明在线语音文本对齐系统整体框图;
图2是本发明强制对齐模块框图;
图3是本发明错误恢复模块框图;
图4是本发明在线语音和文本对齐方法流程图;
图5是本发明实施例搜索空间构建示例图;
图6是本发明实施例使用束搜索的搜索空间和实时的最佳句子结束时间的估计图。
具体实施方式
下面通过具体实施例,并结合附图详细说明本发明。
本实施例采用的在线语音文本对齐系统,如图1所示,包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。
其中,强制对齐模块,如图2所示,包括:特征提取模块、搜索空间构建模块和对齐解码模块。
其中,错误恢复模块,如图3所示,包括:语言模型估计模块、语言模型插值模块模块、语音识别模块及文本对齐和相似度计算模块。
利用上述系统的在线语音文本对齐方法,步骤包括(如图4所示):
(1)根据实际应用要求的需要,将原始的文本流进行预处理,包括特殊的符号的处理(数字,字母,标点等)和分割成句子。在目前的情况下,文本句子的分割的准则是按照文本中中文标点(句号,和逗号)的位置进行分割,比如电视字幕产生应用需要将原始的文本流分割成适合于显示在电视字幕上的句子(一般是4-13个字)。
(2)错误恢复模块的核心是一个语音识别器和一个文本对齐的模块。语音识别器的构建的一般过程,包括基于隐含马尔可夫模型的声学模型,语言模型,发音词典,解码搜索空间。由于需要对齐的文本,对于错误纠正时的语音识别过程来说是非常有效的知识源。因此,需要将对齐的文本也纳入到错误对齐模块中来。具体的说,利用这些文本使用一个最大似然估计的方法估计一个三元文法语言模型Pref(w3|w1,w2)。并和原有的语音识别系统中的背景语言模型PLM(w3|w1,w2)通过线性插值的方式合并在一起。得到插值估计后的语言模型为:
P ^ LM ( w 3 | w 1 , w 2 ) = α · P ref ( w 3 | w 1 , w 2 ) + ( 1 - α ) · P LM ( w 3 | w 1 , w 2 ) .
(3)强制对齐模块将当前句子的文本内容进行字到音的转换,使用已经训练好的声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间。一个构建好的搜索空间的例子如图5所示。将在线输入语音信号的进行特征提取,并按从前往后逐帧的、顺序的将特征送入对齐解码模块中,和对应的隐含马尔可夫模型状态对齐。在传统的基于马尔可夫模型的语音对齐的过程中,是等待在将所有的文本和获取的所有语音进行对齐完成后,选取全局的最优路径,每个句子的对应的结束时间由最优路径决定。如图6所示的粗线所示的就是最优路径,而τ*则是离线估计的最优决策时间。但是。在很多应用中(比如电视字幕加配),所期望的则是一个实时的结果输出,即当语音进行到相应的文本句子末尾时,系统即能立即估计数句子的结束时间所以我们提出了一个方法,用于近似最优句子结束时间
Figure GDA0000150505900000072
该方法适用于使用束搜索(Beam Search)的语音识别器。在语音识别器中,为了提高识别器的效率,通常使用束搜索,同时剪枝掉不可能的搜索空间。如图所示,两条粗线所夹的中间区域就是束搜索时通过的位置。我们提出的近似方法基于以下基本假设,即在τ*附近,句子末尾所处的搜索空间是最活跃的:
为此,定义下列变量:Q(t,s)为在时刻t落在状态s上的最佳的得分。swe是我们期望估计其最优结束时间的词尾节点。
对于每一帧数据使用动态规划(维特比)对齐:
Q(t,s)=maxs′{p(xt,s|s′)·Qv(t-1,s′)}。
在t时刻,当有路径到达swe时,即
Figure GDA0000150505900000073
统计此时所有活跃的状态的上的路径假设数目
Figure GDA0000150505900000074
δ(*)是指示函数, δ ( Q ( t , s i ) > 0 ) ) = 1 ifQ ( t , s i ) > 0 0 otherwise , 并将所有的路径假设得分排序。统计swe上路径假设Qk(t,swe)k=1…K,路径假设Qk(t,swe)在所有N(t)个路径中排名为Rk(t,swe),那么可以估计swe上的路径假设在N(t)个路径中排名中期望定义状态的活跃程度为A(t,swe)取到最大值的时刻即是近似最优句尾时间
Figure GDA0000150505900000078
我们估计的最优的句尾时间
Figure GDA0000150505900000079
是句尾空间最活跃的时刻,A(t,swe)取到最大值的时刻。
(4)自动的错误检测采取两个串行的策略完成,说话人语音速率估计和声学置信度估计。首先通过估计说话人语音速率来完成的初步的检测。该方法认为如果文本和语音不匹配,那么处理中的语音的在搜索空间中的路径就被剪枝,因此在文本对应的正常的语音时间内,不匹配的语音不能对齐到相应的句子末尾。方法如下,通过之前的句子估计说话人的说话速率
Figure GDA00001505059000000710
即说话人平均每说一个汉字所需要的平均时间。因此估计出的句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是这个句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用来容许估计的说话人速率的变化。如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误。其次使用声学置信度估计的方式做二次确认。即在进行对齐解码的同时在计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度。最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误。
(5)及时输出对齐的结果,即当前句子文本和语音在时间上的对应关系,输出的形式为<开始时间,结束时间,句子编号>三元组。
(6)将在线输入语音信号的进行端点检测和语音句子分割。并按从前往后逐帧顺序的送入错误矫正模块进行语音识别。语音识别的结果在音节层次上和文本流进行对齐,对齐采用了两遍策略,第一遍是初步确定语音识别的结果在文本流中的位置,第二遍则是在初步确定的范围内精细计算当前语音识别结果和文本的相似度。当相似度超过一定阈值的时候,则认为找到了合适的匹配。

Claims (6)

1.一种在线语音文本对齐系统,其特征在于,所述系统包括:
一文本处理模块,用于将原始的文本流作预处理和句子分割,并将分割后的文本句子送入强制对齐模块和错误恢复模块;
一错误检测模块,用于检测并判断是否是错误对齐和文本与语音不匹配的情况,如果发生错误,则通知错误恢复模块进行错误恢复;
一错误恢复模块,用于根据在线输入语音信号和文本句子信息,进行错误纠正,即对在线输入语音信号进行识别,在文本中寻取识别结果的最优文本匹配位置,并将此最优文本匹配位置反馈给强制对齐模块;及
一强制对齐模块,用于根据在线输入语音信号和文本句子信息,实时地输出当前句子的语音与文本的对齐结果;如果收到错误恢复模块的反馈信息,则跳过出现错误的文本段,并从错误恢复模块反馈的最优文本匹配位置处的句子开始,继续输出句子的语音与文本的对齐结果,
所述强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块;
所述特征提取模块,用于将在线输入的语音信号进行特征提取,并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块;
所述搜索空间构建模块,用于将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间;
所述对齐解码模块,用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间 
Figure FDA00001859074000011
输出句子的语音与文本的对齐结果。
2.根据权利要求1所述的在线语音文本对齐系统,其特征在于,所述错误检测模块利用语音速率估计和声学置信度估计两种策略判断是否是错误对齐:
首先通过之前处理过的句子估计说话人的语音速率,即说话人平均说一个汉字所需要的时间;具体的估计公式是 
Figure FDA00001859074000012
其中t是当前语音帧的时间,#of characters表示之前处理过的句子中含有的汉字的数目;由此估计出当前句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中Ncharacter是当前句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许说话人速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误;
其次使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计 算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求,否则输出当前句的对齐结果。
3.根据权利要求1所述的在线语音文本对齐系统,其特征在于,所述错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块;
所述语言模型估计模块,用于使用最大似然估计的方法将文本句子信息估计成一个三元文法语言模型Pref(w3|w1,w2),并与语音识别模块中的背景语言模型PLM(w3|w1,w2)通过语言模型插值模块以线性插值的方式合并在一起,得到插值估计后的语言模型为:
其中α为插值权重,取值在0到1之间,通过经验确定;
所述语音识别模块按从前往后的顺序逐帧地对送入的语音信号进行语音识别,并将语音识别的结果送入文本对齐和相似度计算模块;
所述文本对齐和相似度计算模块,用于将输入的文本在音节层次上和语音识别的结果进行对齐,首先初步确定语音识别的结果在输入文本流中的位置,其次在初步确定的位置上精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到最优文本匹配位置,并将该最优文本匹配位置反馈给强制对齐模块。
4.一种在线语音文本对齐方法,该方法包括以下步骤:
(1)根据实际应用要求的需要,文本处理模块对原始的文本流预处理和句子分割;
(2)将文本流送入错误恢复模块,和已有知识源一起构建错误恢复模块;在错误恢复模块中,文本流将用作自适应语言模型的估计,然后和背景语言模型进行插值构建新的语言模型;
(3)强制对齐模块首先使用已经训练好的声学模型和当前句子的文本内容构建对齐的搜索空间;然后将在线输入的语音信号进行特征提取,并按从前往后逐帧顺序地在搜索空间与相应的文本对齐,具体包括如下步骤:
(31)强制对齐模块中的搜索空间构建模块将文本流进行字到音的转换,根据 声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间;
(32)强制对齐模块中的特征提取模块将在线输入的语音信号进行特征提取,并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块;
(33)强制对齐模块中的对齐解码模块将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间 输出句子的语音与文本的对齐结果;
(4)同时错误检测模块判断当前句子是否为一个错误对齐,如果不是错误对齐,则转步骤(5);如果是错误对齐,则转步骤(6);
(5)实时地输出当前句子的对齐结果;如果所有的句子已经对齐完,过程结束;否则转回步骤(3),处理下一个句子;
(6)启动错误恢复模块,对于在线输入语音信号进行识别,对语音识别的结果在文本中寻取最优文本匹配位置,如果找到合适的匹配,返回步骤(3)。
5.根据权利要求4所述的在线语音文本对齐方法,其特征在于,所述步骤(4)包括以下子步骤:
(41)错误检测模块通过之前的句子估计说话人的语音速率:
估计出当前句子的结束时间tend=Rspeech·Ncharacter·(1+δ),其中t是当前语音帧的时间,#of characters表示之前处理过的句子中含有的汉字的数目;Ncharacter是当前句子中含有的汉字的数目,δ是一个经验确定的松弛因子,用于容许说话人语音速率的变化;如果当t>tend还没有检测到句子终点时则做出初步决策,即认为可能产生了错误;
(42)错误检测模块使用声学置信度估计的方式做二次确认;即在进行对齐解码的同时计算解码空间中状态序列对应当前语音特征帧的条件概率,在解码结束时通过条件概率计算解码空间中各个状态对应各个语音帧的后验概率,再通过计算各个状态的后验概率在整个状态序列上的算术平均得到整个句子的声学置信度;最后根据整个句子的声学置信度和预先设定的阈值来确认是否真的发生了错误;如果发生错误,则向错误恢复模块发送错误恢复请求;否则输出当前句子的对齐结果。
6.根据权利要求4所述的在线语音文本对齐方法,其特征在于,所述步骤(6)包括以下子步骤:
(61)语音识别模块按从前往后逐帧地顺序地将送入的语音信号进行语音识别, 并将语音识别的结果送入文本对齐和相似度计算模块;
(62)文本对齐和相似度计算模块将语音识别的结果在音节层次上和输入的文本信息进行对齐,首先初步确定语音识别的结果在文本流中的位置,其次在初步确定的位置上精细计算当前语音识别结果和文本的相似度;当相似度超过一定阈值时,则认为找到最优文本匹配位置,并将该最优文本匹配位置反馈给强制对齐模块。 
CN2008102247910A 2008-12-26 2008-12-26 一种在线语音文本对齐系统及方法 Expired - Fee Related CN101651788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102247910A CN101651788B (zh) 2008-12-26 2008-12-26 一种在线语音文本对齐系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102247910A CN101651788B (zh) 2008-12-26 2008-12-26 一种在线语音文本对齐系统及方法

Publications (2)

Publication Number Publication Date
CN101651788A CN101651788A (zh) 2010-02-17
CN101651788B true CN101651788B (zh) 2012-11-21

Family

ID=41673877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102247910A Expired - Fee Related CN101651788B (zh) 2008-12-26 2008-12-26 一种在线语音文本对齐系统及方法

Country Status (1)

Country Link
CN (1) CN101651788B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324241A (zh) * 2011-05-04 2012-01-18 鸿富锦精密工业(深圳)有限公司 具有语音控制功能的电子装置及语音控制方法
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103035244B (zh) * 2012-11-24 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种可实时反馈用户朗读进度的语音跟踪方法
CN103165130B (zh) * 2013-02-06 2015-07-29 程戈 语音文本匹配云系统
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法
CN106599173A (zh) * 2016-12-12 2017-04-26 广东欧珀移动通信有限公司 歌词匹配方法及终端
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
CN109145149B (zh) * 2018-08-16 2021-05-04 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
CN109119067B (zh) * 2018-11-19 2020-11-27 苏州思必驰信息科技有限公司 语音合成方法及装置
CN109545189A (zh) * 2018-12-14 2019-03-29 东华大学 一种基于机器学习的口语发音检错与纠正系统
CN111383658B (zh) * 2018-12-29 2023-06-09 广州市百果园信息技术有限公司 音频信号的对齐方法和装置
CN109767752B (zh) * 2019-02-27 2023-05-26 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
CN111798868B (zh) * 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
CN112257407B (zh) * 2020-10-20 2024-05-14 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112257411B (zh) * 2020-10-20 2024-05-14 云南电网有限责任公司迪庆供电局 配电网调度交接班的方法及装置
CN113284487B (zh) * 2021-07-22 2021-10-26 北京灵伴即时智能科技有限公司 基于语音识别结果的匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN1871638A (zh) * 2003-10-21 2006-11-29 皇家飞利浦电子股份有限公司 采用用户接口的智能语音识别

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
CN1871638A (zh) * 2003-10-21 2006-11-29 皇家飞利浦电子股份有限公司 采用用户接口的智能语音识别
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统

Also Published As

Publication number Publication date
CN101651788A (zh) 2010-02-17

Similar Documents

Publication Publication Date Title
CN101651788B (zh) 一种在线语音文本对齐系统及方法
CN108986791B (zh) 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN101923854B (zh) 一种交互式语音识别系统和方法
US20220383853A1 (en) Speech recognition error correction method, related devices, and readable storage medium
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
EP1787289B1 (en) A system and method for report level confidence
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
CN103035243B (zh) 长语音连续识别及识别结果实时反馈方法和系统
US10217457B2 (en) Learning from interactions for a spoken dialog system
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
CN110705254B (zh) 文本断句方法、装置、电子设备和存储介质
US20080319743A1 (en) ASR-Aided Transcription with Segmented Feedback Training
US11651139B2 (en) Text output method and system, storage medium, and electronic device
CN108389575B (zh) 音频数据识别方法及系统
US20100332225A1 (en) Transcript alignment
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
CN103177721A (zh) 语音识别方法和系统
Moraru et al. The ELISA consortium approaches in broadcast news speaker segmentation during the NIST 2003 rich transcription evaluation
EP1207517B1 (en) Method for recognizing speech
Levin et al. Automated closed captioning for Russian live broadcasting
Lecouteux et al. Imperfect transcript driven speech recognition
US11869491B2 (en) Abstract generation device, method, program, and recording medium
Lanchantin et al. The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge
Palmer et al. Improving information extraction by modeling errors in speech recognizer output

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121121