CN103035243A - 长语音连续识别及识别结果实时反馈方法和系统 - Google Patents
长语音连续识别及识别结果实时反馈方法和系统 Download PDFInfo
- Publication number
- CN103035243A CN103035243A CN2012105513796A CN201210551379A CN103035243A CN 103035243 A CN103035243 A CN 103035243A CN 2012105513796 A CN2012105513796 A CN 2012105513796A CN 201210551379 A CN201210551379 A CN 201210551379A CN 103035243 A CN103035243 A CN 103035243A
- Authority
- CN
- China
- Prior art keywords
- path
- sentence
- node
- recognition
- identification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 15
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000012467 final product Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种长语音连续识别及语音识别结果实时反馈的方法及系统。该方法包括:在识别网络中增加句尾结束点到识别起始点的扩展可能性;解码过程中,识别路径在扩展时既可以生成单一句子,也可以生成多个连续句子,通过声学和语言概率的整体寻优来分割大篇幅语音信号;定期对所有活跃节点的最优历史路径的共有部分进行检测;获得当前时刻已经固定下来的识别单词序列;将更新的局部识别结果实时反馈给用户;回收已经确定下来的识别部分对应的解码空间。利用本发明,不依赖于端点检测算法,即可实现长语音信号的连续、可持续识别,同时给用户更好的人机交互体验。
Description
技术领域
本发明涉及语音识别技术领域,特别地涉及一种长语音连续识别及语音识别结果的实时反馈方法及系统。
背景技术
随着移动互联网的发展,作为最自然高效的人机交互手段之一,语音识别及其相关技术越来越广泛的应用在生活中。语音识别不再仅仅是好看的花瓶.而是实实在在地进入了普通人的生活,给我们的社会带来便捷和快乐。
在实际应用中,对于面向大篇幅的语音信号输入进行实时语音识别的应用,传统的方法是采用在线端点检测的方法,对语音的起始点和结束点进行在线的检测,并通知在线解码器进行相应的操作:发现语音起始点后,启动在线语音识别,并对后续语音进行在线解码;发现语音结束点后,对已经处理完毕的解码状态记录进行回溯,获得最优历史路径及其对应的单词列表,即识别结果。该方法的问题在于:
一方面,在线端点检测的精度有限。端点检测算法通常采用短时能量和短时过零率分析的方法,或者采用基于模型的方法进行语音、非语音的分类。采用短时能量和短时过零率分析的方法,需要为语音非语音段的划分选择一个甚至多个门限,而该门限的选择很大程度上需要依赖于对实际语音的特点进行调整才能获得最优的效果。采用基于模型的方法进行语音、非语音的分类,则依赖于模型的语音训练样本与实际语音的一致性。因此,目前来说,较难获得一个通用且高效的端点检测算法。
另一方面,端点检测的标准仅仅是依赖于语音段和非语音段的判别,而实际上,完整的语音句子的分割更多的还依赖于语义的完整性。例如,在实际口语说话中,常常出现因为犹豫、语速慢或没有想清楚而出现句中停顿的现象,如果停顿时间稍长,语音的端点检测系统会因为误判为语音结束点而强行将一个完整的句子截成两段。再如,在表达一段比较长的意思时,很多人的说话习惯是一句说话之后,马上把下一句的连接词说完之后再做停顿,以告知其他人其意思尚未表达完。这种情况下,也会造成语音端点检测系统错误的对语音进行分割。总之,实际应用中,端点检测的目标与完整语义句子的分割目标并不是严格一致的。
从上面的分析可以看出,对于大篇幅的语音信号,采用将连续语音信号分割成独立的语音片断和非语音片断,然后对分割得到的语音片断进行识别的方法,有较多的局限性和依赖性。如上所述,分割结果不可避免的错误必然会带入后续的识别结果中,造成不必要的识别错误。
对于实际系统来说,用户对系统的响应速度有着越来越高的要求。采用在线语音识别技术,可以在语音输入的同时进行同步的实时解码,将所有可能的识别结果进行实时的同步扩展。一旦发现语音输入结束点,立即进行当前全局最优路径的回溯,从而获取识别结果。这种在线语音识别技术,节约了语音本身的输入时间,只需要较短的时间延迟,即可获取语音输入的识别结果。
但这种方式的一个局限性在于,需要到达一段语音的结束点,才确定该语音全局最优的识别结果。因为在这段语音的中间任一时刻,获得的当前时间最优路径仅仅是局部最优点,如果从局部最优点进行回溯,其结果并不一定与整段语音的识别结果相一致。因此,对于用户来说,至少需要等到一句话说完的一定时间之后,才能看到识别的结果。尤其在用户语速较密,端点检测方法较难判断语音结束点时,用户会等待较长的时间才能看到识别结果反馈,这是一种较差的用户体验。
发明内容
有鉴于此,为了更好的解决长语音信号连续识别问题,同时给用户更好的反馈体验,本发明提供了一种长语音连续识别及识别结果实时反馈方法及系统,在语音识别的过程中,减少对端点检测算法的依赖,更多的引入对语义完整性的判断,采用全局最优的方式寻找语音信号中句子的结束点,实现大篇幅语音连续识别;同时,实时检测当前时刻下已经确定的最优识别结果,无需等待句子结尾即可反馈给用户,从而提高响应速度。
为此,本发明提出了一种语音识别结果实时反馈方法,其包括:
步骤1,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;
步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果;
步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。本发明还提出了一种利用上述语音识别结果实时反馈方法所确定下来的语音识别结果的长语音信号连续识别方法,其包括:
构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;
接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每一帧进行解码;其中,解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;
根据上述语音识别结果实时反馈方法定期获取已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别结果;
在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;
清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。
本发明还提出了一种语音识别结果实时反馈装置,其包括:
历史共有部分检测单元,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;
识别结果实时反馈单元,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果,如果所述确定下来的语音识别结果有更新,则反馈更新后的语音识别结果。
本发明还提出了一种包括上述语音识别结果实时反馈装置的长语音信号连续识别系统,包括:
网络构建单元,用于构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;
解码单元,用于接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每一帧进行解码;
语音句子结束点辅助判断单元,用于在解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;
上述语音识别结果实时反馈装置;
独立句子判断单元,用于定期从所述语音识别结果实时反馈装置已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别结果;
独立句子处理单元,用于在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;
内存清理单元,用于清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。
本发明实施例长语音连续识别及识别结果实时反馈方法和系统,采用在识别网络中增加句尾结束点到识别起始点的扩展可能,使得在解码过程中,识别路径在扩展时既可以生成单一句子,也可以生成多个连续句子。所述方法通过声学和语言概率的整体寻优来分割大篇幅语音信号,从而避免了对端点检测算法的依赖。此外,采用定期对所有活跃节点的最优历史路径的共有部分进行检测,实时更新已经固定下来的识别结果,既实现更快的人机交互,又解决了长语音识别时计算资源的动态回收,达到识别的可持续性。
附图说明
图1是本发明的语音识别结果实时反馈方法的流程图;
图2是本发明实施例中确定活跃节点历史路径中的共有部分时采用的一种优化的回溯节点的方式;
图3是本发明实施例中通过记录回溯节点的方式确定活跃节点历史路径中的共有部分及识别结果更新的流程图;
图4是本发明实施例中采用的基于N-gram的语言模型示意图;
图5是本发明实施例中增加了句尾结束点到识别起始点的扩展跳转路径的示意图;
图6是本发明的长语音连续识别及识别结果实时反馈系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,是本发明实施例中语音识别结果实时反馈方法的流程图,包括以下步骤:
步骤101,在解码过程中,获取当前时刻所有活跃节点的历史路径中的共有部分。
所述共有部分是当前所有活跃节点的历史路径的相同部分,不论后面的识别如何继续,所述相同部分都不会受到影响。因此这部分历史路径中包含的识别结果信息是已经确定下来的,无需等到最后一帧语音信号帧到来,即可实时反馈。
步骤102,从所述历史路径中的共有部分的最后节点出发,通过解码状态回溯得到所述历史路径的共有部分中的最优路径及其对应的单词序列。
步骤103,记录所述单词序列,并与之前的记录进行对比,判断是否发生了变化;如果是,执行步骤104;否则,执行步骤105。
步骤104,通知客户端最新的识别结果发生了改变,达到实时反馈。
步骤105,不向客户端通知更新识别结果。
由此可见,本发明实施例语音识别结果实时反馈方法,采用定期对所有活跃节点的最优历史路径的共有部分进行检测,实时更新已经固定下来的识别结果,及时返回给用户,实现了更加快捷的响应和更人性化的用户体验。
获得当前时刻所有活跃节点的历史路径中的共有部分可以采用不同的方法,对此下面详细说明。
1.通过记录回溯路径上的单词序列直接获得活跃节点历史路径中共有的识别结果
从当前时刻所有活跃节点出发对其历史路径进行回溯,记录历史路径上的单词序列。所有活跃节点都处理完毕之后,可以获得所有回溯到的单词序列的交集。如果该单词序列的交集不为空,即为已经固定下来的部分地识别结果。
采用该方法,仅仅记录回溯路径上的单词序列信息,因此每一次回溯都需要回溯到初始节点才能确定不同活跃节点的回溯结果的单词序列交集。
2.通过记录回溯节点的方式确定活跃节点历史路径中的共有部分
从当前时刻所有活跃节点出发对其历史路径进行回溯,并记录回溯过程中所遍历的解码状态节点。所有活跃节点都处理完毕之后,可以获得所有回溯到的解码状态的交集。获得的所述解码状态的交集即为所有活跃节点的历史路径的共有部分。
在回溯过程中,仅仅需要回溯其历史最优路径。
获得所有活跃节点历史路径中的共有部分之后,确定该共有部分在拓扑顺序中位于末尾的节点。从所述共有部分的尾部节点进行回溯所得到的历史路径上的单词序列,即为已经固定下来的部分地识别结果。
为了提高后续的处理速度,可以将所述共有部分的尾部节点记录下来,并作为下一次的回溯截止点。下一次进行共有部分获取时,仅需回溯到该回溯截止点即可,从而避免重复工作。首次回溯的回溯截止点即为识别解码状态的初始节点。
更进一步的,实际上,不是每一个活跃节点都必须回溯到所述回溯截止点。
由于在回溯过程中,仅仅需要回溯其历史路径。即,从每一个活跃节点出发,对应一条线性的历史路径及其路径上的解码状态节点。最终的交集部分也是线性的,必然是前面已经回溯过活跃节点的线性历史路径的一部分。
因此,第二个被回溯的活跃节点,仅需回溯到首次与第一个活跃节点的回溯路径相重合的节点。可能的交集部分从第一个活跃节点的全部回溯路径,被缩减为所述重合节点之前的部分。
如图2所示,下一个被回溯的活跃节点(节点11)仅需回溯到首次与前面获得的可能的交集部分(201)相重合的部分(节点6),新的可能的交集部分更新为所述重合节点之前的部分(202)。
依次回溯每一个活跃节点,直到所有的活跃节点都处理完,最后所剩下的可能的交集部分即被确定为最终的交集部分。
具体来讲,如图3所示,是本发明实施例中通过记录回溯节点的方式确定活跃节点历史路径中的共有部分及识别结果更新的一种流程图。该流程具体包括以下步骤:
步骤301,获取当前时刻解码中所有活跃节点的集合。
步骤302,设置回溯路径节点交集为当前时刻最优历史路径上节点的集合;其中,获取所述最优历史路径时,仅回溯到当前时刻的回溯截止点,初始时刻回溯截止点为解码识别网络的初始起始点。
步骤303,从所述活跃节点集合中取出未进行过回溯的节点作为回溯节点,然后根据在其历史路径上回溯,直到首次遇到回溯路径节点交集中的节点,将该重合节点记录下来。
步骤304,更新回溯路径节点交集为所述回溯节点在回溯路径上所述重合节点之前的部分。
步骤305,判断活跃节点集合中是否仍有未回溯的节点。如果是,重新执行步骤303;否则,执行步骤306.
步骤306,从回溯路径节点交集的尾节点回溯到回溯截止点,获得从所述尾节点到所述回溯截止点的回溯路径上的单词序列。
步骤307,将所述回溯路径节点交集的尾节点,作为新的回溯截止点。
步骤308,判断所述单词序列是否不为空。如果不为空,执行步骤309。
步骤309,将所述单词序列作为当前时刻更新的部分识别结果通知给客户端。
采用该方法计算复杂度大大降低,尤其适合在线识别这种对实时性要求较高的应用。
在现有技术中,通常是利用声学模型、词典将语言模型扩展成基于模型层的搜索网络,同时进行相应的网络优化,从而构建出解码识别网络。所述解码识别网络既可以通过离线的方式构建,也可以由系统在线动态构建。还可以采用其他方式的解码识别网络,例如基于历史词树拷贝的动态解码识别网络等。
如上所述的各种识别网络均是依赖于语言模型构建的。一个好的语言模型可以有效地表征语法及语义等知识,通常采用语音识别领域常用的统计语言模型:
统计语言模型的任务是给出任意词序列在文本中出现的概率。为了预测词wk的出现概率,必须已知它前面所有词的出现概率。为了简化,一般引入马尔科夫假设,即假设当前的这个词的出现概率只依赖于其前面有限的N-1个词。这时的语言模型叫做N元模型(N-gram),即 显然,语言模型也可以采用其他的技术手段,例如简化了概率值的所有可能句子构成的有限语法状态网络等。对此,本发明不做限定。
在实际中,如上所述的词的序列代表了某一个由一连串按特定顺序排列的词组成的一个有意义的句子。在语言模型的实际训练中,总是假设以语料中独立的句子为基本单元进行参数估计。为了更好的表征句首和句尾的特殊性,在词串中增加句首和句尾的标识符(<s>和</s>);同时,在训练语言模型时,去除前一个独立句子中的词对下一个句子中词的出现概率的影响。这样做的原因,一方面是以描述单一独立句子的出现概率为假设前提,另一方面也为了避免训练参数的稀疏性。
通过上面方法获得的语言模型,可以表达句子级的一连串单词序列出现的概率。图4即是一种基于N-gram的模型示例。以此语言模型为基础生成的解码识别网络,潜在表达的是识别一个且仅仅一个独立句子时所有可能的搜索空间。
因此,从如上所述识别空间内在涵义角度出发,识别引擎在处理连续语音信号时,语音信号中多个连续的独立句子相互之间应该加以分割处理,才能获得好的识别结果。传统的端点检测方式,就是根据语音部分与非语音部分出现的长度、频率等信息,来判断独立句子之间的分割点,从而实现硬性的句子分割。
在本发明实施例中,采用的是一种软性的分割方法,通过整体的解码动态信息来判断独立句子的分割点。具体来说,如图5所示,就是通过在识别网络中增加句尾结束点到识别起始点的扩展路径,使得在解码过程中,可以识别出多个连续的独立句子。
如上所述,句尾结束点到识别起始点的扩展路径既可以通过离线方式,以某一固定的跳转概率固化在识别网络中;也可以采用动态的方式,在识别过程中,有区别性的以不同的概率进行相应处理。
例如,到达结束节点前已经经历的静音的长度也可以参与调整该扩展路径的概率:当静音足够长时,可以适当的增加该扩展路径的概率。再例如,还可通过分析语音中的语调判断句子终止的可能性,并将该可能性体现在跳转概率中,如将句子结束的概率以一定的权重与预设概率相加权获得所述跳转概率。对此,本发明实例不做限定。
采用本发明中的方法,解码中获得的识别状态网络始终是一体的:即,将要识别出来的句子是一个,还是多个独立的句子,都是在同一个解码空间中共同竞争的。要确定一个独立的句子是否胜出,可以利用前面所述的语音识别结果实时反馈方法中的技术,实时检测当前时刻已经固定下来的历史识别路径,一旦发现已经确定下来的历史路径中跨越了语音识别网络中的句尾结束点,则说明有一个独立的句子被确定下来。该句子对应的解码状态网络部分可以相对独立出来,用于生成该句子对应的识别图格(Lattice),用于进一步的处理(例如,计算N-best或用于新的模型二次识别等)等。
在此之后,该独立句子对应的解码状态网络在内存中占用空间被清理出来,以保证有足够的剩余空间维持识别的可持续性。
将要被清理的解码状态网络既包括各状态,也包括从这些状态出发的跳转弧的信息。在内存被清理的同时,剩下的解码状态网络也得到了重新规整,保证从剩下的解码状态网络中不会回溯到已被清理掉的解码状态网络中去。
采用如上所述的方法,在识别过程中,减少了对简单端点检测算法的依赖,更多的引入对语义完整性的判断,采用全局最优的方式寻找语音信号中句子的结束点,实现大篇幅语音连续识别。
相应的,本发明还提供一种长语音连续识别及识别结果实时反馈系统,如图6所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
网络构建单元601,用于构建支持从识别句尾结束点到识别起始点的扩展路径的解码识别网络。
解码单元602,用于对接收到的连续语音信号,根据所述解码识别网络对其中每帧语音信号帧进行解码,在解码中支持多个连续独立句子的解码路径生成。
语音句尾结束点辅助判断单元603,综合静音持续时间和语调分析的方法计算句尾结束点的跳转概率,并将所述句尾结束点的跳转概率提交给解码单元602,用于多独立句子的连续识别。
历史共有部分检测单元604,用于获取当前时刻所有活跃节点的历史路径中的共有部分,判断共有部分中历史路径对应的单词序列是否有更新。
识别结果实时反馈单元605,用于在所述历史共有部分检测单元604获取到更新的识别结果后,反馈给用户。
独立句子判断单元606,用于判断当前时刻是否有作为独立句子的识别结果被确定下来。即判断当前时刻固定下来的识别结果对应的识别路径是否跨越了语音识别网络中的句尾结束点,如果是则认为识别结果可以作为一个独立句子而确定下来。
独立句子处理单元607,用于在所述独立句子判断单元606确定有独立句子识别结果出现之后,对该独立句子进行相对独立的优化及输出反馈等处理。
内存清理单元608,在常规的无用路径回收清理的同时,清理已获取的独立句子对应的解码状态空间,保证连续语音识别资源的可持续利用。
在本发明实施例中,网络构建单元601具体可以通过在线方式构建所述解码识别网络,也可以通过离线方式构建所述识别网络。而识别网络中,句尾结束点到识别起始点的扩展路径既可以通过离线方式,以某一固定的跳转概率固化在识别网络中;也可以采用动态的方式,在识别过程中,有区别性的以不同的概率进行相应处理。网络构建单元601中的基本解码识别网络可以利用预设的声学模型和语言模型等构建,在此不再详细描述。
在本发明实施例中,解码单元602利用所述解码识别网络对用户输入的语音信号进行解码,计算每帧语音信号帧到达解码识别网络中每个活跃节点的累计历史路径概率,同时记录解码状态历史连接关系。不同于以往解码方式中,到达解码识别网络中句尾结束点时,路径即停止新的扩展;在本发明中,由于添加了句尾解码路径扩展没有所谓的内部停止点,除非用户的连续语音信号停止输入,理论上任何一条解码历史路径都将无限扩展下去。在实际应用中,在解码单元602处理完每一帧语音信号帧的解码之后,通常会对活跃节点的历史路径进行优化,删除部分可能性低的路径以提高后续搜索效率。
历史共有部分检测单元604采用如前所述的方法,获取当前时刻所有活跃节点的历史最优路径中的共有部分。一方面用来为用户提供实时的识别结果反馈,增加人机互动的友好性;另一方面,用于独立句子判断单元606中判断是否有独立的句子在识别中胜出,从而完成输入语音信号的句子级切割。
在如上所述独立句子处理单元607中,对独立句子对应的解码状态网络部分进行单独处理,通常生成该句子对应的识别图格(Lattice),可以引入更精细的声学模型或者通过模型自适应,进行二次识别,获得更准确的识别结果。也可以用于计算N-best,将多种识别结果可能性反馈给用户。
本发明实施例长语音连续识别及识别结果实时反馈系统,采用在识别网络中增加句尾结束点到识别起始点的扩展可能,同时引入语音句子结束点辅助判断方法,使得在解码过程中,综合考虑的声学、语言模型打分,以及语义级语音信号完整性的概率判断,采用整体寻优的方式寻找语音信号中句子的分割点,从而避免了对单一的端点检测算法的硬性依赖。同时,采用定期对所有活跃节点的最优历史路径的共有部分进行检测,实时更新已经固定下来的识别结果,既实现了更友好的人机交互体验,又最终完成了输入语音信号的句子级切割,保证长语音识别时计算资源的动态回收,达到识别的可持续性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别结果实时反馈方法,其特征在于,包括:
步骤1,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;
步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果;
步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述共有部分指当前所有活跃节点的历史路径的相同部分。
3.如权利要求1所述的方法,其特征在于,从当前时刻所有活跃节点出发对其历史路径进行回溯,记录历史路径上的单词序列;所有活跃节点都处理完毕之后,所获得的所有单词序列的交集,即为所述已经确定下来的语音识别结果。
4.如权利要求1所述的方法,其特征在于,通过记录回溯节点的方式确定活跃节点历史路径中的共有部分。
5.如权利要求4所述的方法,其特征在于,在通过记录回溯节点的方式确定活跃节点历史路径中的共有部分时,用于确定语音识别结果的具体方式为:
步骤a,获取当前时刻解码中所有活跃节点的集合;
步骤b,设置回溯路径节点交集为当前时刻最优历史路径上节点的集合;其中,获取所述最优历史路径时,仅回溯到当前时刻的回溯截止点,初始时刻回溯截止点为解码识别网络的初始起始点;
步骤c,从所述活跃节点集合中取出未进行过回溯的节点作为回溯节点,回溯其历史路径,直到首次遇到回溯路径节点交集中的节点,然后将该节点作为重合节点记录下来;
步骤d,更新回溯路径节点交集为所述回溯节点在其回溯路径上所述重合节点之前的所有节点;
步骤e,判断活跃节点集合中是否仍有未回溯的节点;如果是,重新执行步骤c;否则,执行步骤f;
步骤f,从回溯路径节点交集的尾节点回溯到回溯截止点,获得从所述尾节点到所述回溯截止点的路径上的单词序列,并将所述回溯路径节点交集的尾节点,作为新的回溯截止点;
步骤g,判断所述单词序列是否不为空;如果不为空,则将所述单词序列作为当前时刻已经确定下来的识别结果反馈给用户。
6.如权利要求1所述的方法,其特征在于,在语音识别过程中,判断已经确定下来的语音识别结果对应的识别路径是否跨越了解码识别网络中的句尾结束点,如果是,则认为有一个独立的句子被确定了,并将该确定的独立的句子对应的识别网络中的各状态及跳转弧删除,以重新规整所述解码识别网络。
7.一种利用如权利要求1所述的语音识别结果实时反馈方法所确定下来的语音识别结果的长语音信号连续识别方法,其特征在于,包括:
构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;
接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每一帧进行解码;其中,解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;
根据如权利要求1所述的语音识别结果实时反馈方法定期获取已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别结果;
在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;
清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。
8.如权利要求7所述的方法,其特征在于,所述根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率具体为:
采用语调分析,将句尾结束点的概率以一定的权重与预设概率相加权获得所述跳转概率;到达所述句子结束点前经历的静音的长度大于预定阈值时,增加所述跳转概率。
9.一种语音识别结果实时反馈装置,其特征在于,包括:
历史共有部分检测单元,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;
识别结果实时反馈单元,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果,如果所述确定下来的语音识别结果有更新,则反馈更新后的语音识别结果。
10.一种包括如权利要求9所述的语音识别结果实时反馈装置的长语音信号连续识别系统,包括:
网络构建单元,用于构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;
解码单元,用于接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每一帧进行解码;
语音句子结束点辅助判断单元,用于在解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;
如权利要求9所述语音识别结果实时反馈装置;
独立句子判断单元,用于定期从所述语音识别结果实时反馈装置已经确定下来的语音识别结果,判断当前时刻是否有作为独立句子的识别结果;
独立句子处理单元,用于在确定当前时刻有作为独立句子的识别结果时,对所述确定的独立句子进行优化和输出反馈;
内存清理单元,用于清理所述确定的独立句子在所述解码识别网络中对应的解码空间,以规整所述解码识别网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210551379.6A CN103035243B (zh) | 2012-12-18 | 2012-12-18 | 长语音连续识别及识别结果实时反馈方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210551379.6A CN103035243B (zh) | 2012-12-18 | 2012-12-18 | 长语音连续识别及识别结果实时反馈方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103035243A true CN103035243A (zh) | 2013-04-10 |
CN103035243B CN103035243B (zh) | 2014-12-24 |
Family
ID=48022074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210551379.6A Active CN103035243B (zh) | 2012-12-18 | 2012-12-18 | 长语音连续识别及识别结果实时反馈方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103035243B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399772A (zh) * | 2013-08-13 | 2013-11-20 | 广东欧珀移动通信有限公司 | 一种移动终端后台运行程序的清理方法和系统 |
CN105139849A (zh) * | 2015-07-22 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
CN105529030A (zh) * | 2015-12-29 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107146602A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107305575A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
CN107632980A (zh) * | 2017-08-03 | 2018-01-26 | 北京搜狗科技发展有限公司 | 语音翻译方法和装置、用于语音翻译的装置 |
CN107665706A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108292500A (zh) * | 2015-12-22 | 2018-07-17 | 英特尔公司 | 用于使用语法一致性的句尾检测的技术 |
CN108780644A (zh) * | 2016-03-16 | 2018-11-09 | 宝马股份公司 | 运输工具、用于在语音输入范围内调整允许的语音停顿长度的系统和方法 |
CN109754809A (zh) * | 2019-01-29 | 2019-05-14 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110942764A (zh) * | 2019-11-15 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN111326154A (zh) * | 2020-03-02 | 2020-06-23 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN111640423A (zh) * | 2020-05-29 | 2020-09-08 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
CN111797632A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN112466304A (zh) * | 2020-12-03 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN112908305A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提升语音识别准确性的方法和设备 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1120372A (zh) * | 1993-03-31 | 1996-04-10 | 英国电讯有限公司 | 语音处理 |
WO2004077404A1 (en) * | 2003-02-21 | 2004-09-10 | Voice Signal Technologies, Inc. | Method of producing alternate utterance hypotheses using auxilia ry information on close competitors |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN102436816A (zh) * | 2011-09-20 | 2012-05-02 | 安徽科大讯飞信息科技股份有限公司 | 一种语音数据解码方法和装置 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
-
2012
- 2012-12-18 CN CN201210551379.6A patent/CN103035243B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1120372A (zh) * | 1993-03-31 | 1996-04-10 | 英国电讯有限公司 | 语音处理 |
WO2004077404A1 (en) * | 2003-02-21 | 2004-09-10 | Voice Signal Technologies, Inc. | Method of producing alternate utterance hypotheses using auxilia ry information on close competitors |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102436816A (zh) * | 2011-09-20 | 2012-05-02 | 安徽科大讯飞信息科技股份有限公司 | 一种语音数据解码方法和装置 |
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
Non-Patent Citations (1)
Title |
---|
TAKAAKI HORI ET AL: "Efficient WFST-Based One-Pass Decoding With On-The-Fly Hypothesis Rescoring in Extremely Large Vocabulary Continuous Speech Recognition", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399772A (zh) * | 2013-08-13 | 2013-11-20 | 广东欧珀移动通信有限公司 | 一种移动终端后台运行程序的清理方法和系统 |
CN105139849A (zh) * | 2015-07-22 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105139849B (zh) * | 2015-07-22 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
CN108292500A (zh) * | 2015-12-22 | 2018-07-17 | 英特尔公司 | 用于使用语法一致性的句尾检测的技术 |
CN105529030A (zh) * | 2015-12-29 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN108780644A (zh) * | 2016-03-16 | 2018-11-09 | 宝马股份公司 | 运输工具、用于在语音输入范围内调整允许的语音停顿长度的系统和方法 |
CN107305575B (zh) * | 2016-04-25 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
CN107305575A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答系统的断句识别方法和装置 |
CN107665706A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107146602A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN110945514B (zh) * | 2017-07-31 | 2023-08-25 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN107632980A (zh) * | 2017-08-03 | 2018-01-26 | 北京搜狗科技发展有限公司 | 语音翻译方法和装置、用于语音翻译的装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
US11024332B2 (en) | 2017-11-06 | 2021-06-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Cloud-based speech processing method and apparatus |
CN110111779B (zh) * | 2018-01-29 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN109754809A (zh) * | 2019-01-29 | 2019-05-14 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111797632A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN111797632B (zh) * | 2019-04-04 | 2023-10-27 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN110942764B (zh) * | 2019-11-15 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN110942764A (zh) * | 2019-11-15 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN111326154A (zh) * | 2020-03-02 | 2020-06-23 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN111640423B (zh) * | 2020-05-29 | 2023-10-13 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
CN111640423A (zh) * | 2020-05-29 | 2020-09-08 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
CN112466304B (zh) * | 2020-12-03 | 2023-09-08 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN112466304A (zh) * | 2020-12-03 | 2021-03-09 | 北京百度网讯科技有限公司 | 离线语音交互方法、装置、系统、设备和存储介质 |
CN112908305A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提升语音识别准确性的方法和设备 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103035243B (zh) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103035243B (zh) | 长语音连续识别及识别结果实时反馈方法和系统 | |
US11996097B2 (en) | Multilingual wakeword detection | |
CN102592595B (zh) | 语音识别方法及系统 | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
CN103065630B (zh) | 用户个性化信息语音识别方法及系统 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
US9153231B1 (en) | Adaptive neural network speech recognition models | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
CN102376305B (zh) | 语音识别方法及系统 | |
CN108877778A (zh) | 语音端点检测方法及设备 | |
US11043214B1 (en) | Speech recognition using dialog history | |
CN102436816A (zh) | 一种语音数据解码方法和装置 | |
US20220358908A1 (en) | Language model adaptation | |
CN108735201A (zh) | 连续语音识别方法、装置、设备和存储介质 | |
US20220238101A1 (en) | Two-pass end to end speech recognition | |
KR20230073297A (ko) | 트랜스포머-트랜스듀서: 스트리밍 및 비스트리밍 음성 인식을 통합하는 하나의 모델 | |
CN112509560B (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN112825248A (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
EP4091163B1 (en) | Adaptive frame batching to reduce speech recognition latency | |
CN114708856A (zh) | 一种语音处理方法及其相关设备 | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN112908301A (zh) | 一种语音识别方法、装置、存储介质及设备 | |
CN111816172A (zh) | 一种语音应答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170719 Address after: 100080 B, century trade building, No. 66, Zhongguancun East Road, Beijing, Haidian District, 704 Patentee after: Beijing wisdom and Technology Co. Ltd. Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No. Patentee before: Institute of Automation, Chinese Academy of Sciences |
|
TR01 | Transfer of patent right |