CN101042866A - 语音识别设备及方法,以及记录有计算机程序的记录介质 - Google Patents
语音识别设备及方法,以及记录有计算机程序的记录介质 Download PDFInfo
- Publication number
- CN101042866A CN101042866A CNA2006101077186A CN200610107718A CN101042866A CN 101042866 A CN101042866 A CN 101042866A CN A2006101077186 A CNA2006101077186 A CN A2006101077186A CN 200610107718 A CN200610107718 A CN 200610107718A CN 101042866 A CN101042866 A CN 101042866A
- Authority
- CN
- China
- Prior art keywords
- word
- identification
- reference time
- sounding
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004590 computer program Methods 0.000 title claims description 26
- 230000005055 memory storage Effects 0.000 claims description 35
- 239000000284 extract Substances 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 239000003607 modifier Substances 0.000 claims description 3
- 230000000979 retarding effect Effects 0.000 claims 3
- 230000001934 delay Effects 0.000 claims 2
- 230000004044 response Effects 0.000 abstract description 17
- 230000008569 process Effects 0.000 description 44
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 14
- 230000003111 delayed effect Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 10
- 230000001427 coherent effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000004270 Colocasia esculenta var. antiquorum Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
提供了语音识别设备、语音识别方法以及记录有计算机程序的记录介质,其中,即使在独立地或另选地采用语音识别语法时,也改进了语音识别响应。接收话音数据。然后,保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到基准时间为止。存储指示单词序列的末尾单词是否是最终单词的信息。基于语言模型,提取识别候选单词序列。当判定提取的单词序列的末尾单词为最终单词时,以比基准时间短的时间输出语音识别结果,而在判定末尾单词不是最终单词时,在基准时间已经过去的时间处输出语音识别结果。
Description
技术领域
本发明涉及用于接收话音输入、接着对话音进行识别、然后输出识别结果的语音识别设备、语音识别方法以及记录有计算机程序的记录介质。
背景技术
随着语音识别技术的发展,已经开发了各种语音识别系统,如话音入口(voice portal)和汽车导航系统。这种现有技术的语音识别系统采用用于连贯单词识别、离散单词识别等的语音识别引擎,由此输出语音识别结果,或者另选地执行利用该语音识别结果的应用。
例如,在采用了用于连贯单词识别的语音识别引擎的现有技术语音识别设备中,其控制装置计算每个时刻接收到的话音的功率,然后把计算出的话音功率与预定阈值进行比较。然后,在所述功率已持续超过阈值达预定时间的时间点上,每个时刻都执行声学分析,以提取接收话音的特性参数,从而基于声学分析结果和诸如语法及N元语法的语言模型,计算每一识别候选单词序列的匹配得分。然后,基于匹配得分,获取用作识别结果的一个或多个单词序列。
在使用语音识别引擎时,准确的发声检测是重要的。特别是,在连贯单词识别中,为了不把“单词间暂停”和“完成发声之后的无声”相互混淆,把“基准时间”设定为预定的时间长度。然后,把检测到的无声区间与设定的基准时间相比较,以便在无声区间超过基准时间时,判定为发声完成。
例如,日本专利特开No.2005-017932公开了一种具有如下功能的语音识别设备:获取包含用户讲出和输入的连续单词的话音数据,然后当在对获取的话音数据的识别中检测到大于或等于具有预定时间长度的发声完成暂停时间的无声区间时,检测到用户输入的发声的完成,其中,发声完成暂停时间是依照对用户输入的发声的结束点的检测精确度来确定的。在日本专利特开No.2005-017932中公开的技术,允许依照对用户发声的结束点的检测精确度来以高精确度判定“发声完成的划分”。
日本专利特开平No.08-115093公开了一种基于如下特征判定发声完成的发声完成检测方法:从输入话音与单词标准模式的匹配结果中获得的句段(sentence segment)和句法分析结果的匹配得分;和被判定为与无声标准模式一致的输入话音的持续时间长度。例如,在句法规则接受的句段的匹配得分是所有句段的匹配得分之中的最大值,而被判定为与无声标准模式一致的输入话音的持续时间长度大于或等于预先定义的预定时间时,判定为发声完成的时间点。
发明内容
考虑到这种情况而作出本发明。本发明的一个目的是提供语音识别设备、语音识别方法、以及记录有计算机程序的记录介质,其中,即使在独立地采用语音识别语法时,或者另选地,即使在同时采用了离散单词识别语法时,在早期就对发声完成的时间点进行了鉴别,从而改进了语音识别响应。
为了实现上述目的,依据第一项发明的语音识别设备是这样的语音识别设备,其用于接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别设备包括:语言模型存储装置,用于存储关于语言模型的信息;存储装置,用于存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;最终单词判定装置,用于从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及识别结果输出装置,用于在最终单词判定装置判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当最终单词判定装置判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
这里,最终单词指示在语法可接受的所有单词序列中总是位于末端(单词序列末端)的单词。进一步,在判定是否是最终单词时,同音异义单词可以当作相同的单词。此外,可以区分具有相同读音和拼法而在语法上位于不同位置的单词。
依据第二项发明的语音识别设备是依据第一项发明的语音识别设备,包括:更新判定装置,用于判定是否对由所述识别候选提取装置提取的识别候选单词序列进行了更新;识别候选输出装置,用于在更新判定装置判定对所述识别候选单词序列进行了更新时输出所述识别候选单词序列;无声区间持续时间判定装置,用于判定无声区间的持续时间是否达到所述基准时间;以及输出装置,用于在无声区间持续时间判定装置判定所述持续时间已达到所述基准时间时,在达到所述基准时间的时间点输出识别候选单词序列。
依据第三项发明的语音识别设备是这样的语音识别设备,其用于接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别设备包括:语言模型存储装置,用于存储关于语言模型的信息;识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;概率存储装置,用于存储每个所述词组成为最终单词的概率;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;基准时间改变装置,用于基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及识别结果输出装置,用于在所述基准时间内不出现新的话音数据时输出语音识别结果。
依据第四项发明的语音识别设备是这样的语音识别设备,其用于接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别设备包括:语言模型存储装置,用于存储关于语言模型的信息;识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;基准时间存储装置,用于针对每个所述词组存储所述基准时间;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及识别结果输出装置,用于在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时输出语音识别结果。
依据第五项发明的语音识别方法是这样的语音识别方法,其接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别方法包括以下步骤:存储关于语言模型的信息;存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及当判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
依据第六项发明的语音识别方法是这样的语音识别方法,其接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别方法包括以下步骤:存储关于语言模型的信息;存储分类为词组的包括在所述语言模型中的识别词汇;与一个词组相关地存储识别候选单词序列的末尾单词;存储每个所述词组成为最终单词的概率;基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及当在所述基准时间内不出现新的话音数据时,输出语音识别结果。
依据第七项发明的语音识别方法是这样的语音识别方法,其接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,所述语音识别方法包括以下步骤:存储关于语言模型的信息;存储分类为词组的包括在所述语言模型中的识别词汇;与一个词组相关地存储识别候选单词序列的末尾单词;为每个所述词组存储所述基准时间;基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时,输出语音识别结果。
依据第八项发明的记录有计算机程序的记录介质,其中计算机程序是这样的计算机程序,其能够使计算机接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,并且所述计算机程序使所述计算机充当如下装置:语言模型存储装置,用于存储关于语言模型的信息;存储装置,用于存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;最终单词判定装置,用于从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及识别结果输出装置,用于在所述最终单词判定装置判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当所述最终单词判定装置判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
依据第九项发明的记录有计算机程序的记录介质,其中计算机程序是这样的计算机程序,其能够使计算机接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,并且所述计算机程序使所述计算机充当如下装置:语言模型存储装置,用于存储关于语言模型的信息;识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;概率存储装置,用于存储每个所述词组成为最终单词的概率;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;基准时间改变装置,用于基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及识别结果输出装置,用于在所述基准时间内不出现新的话音数据时输出语音识别结果。
依据第十项发明的记录有计算机程序的记录介质,其中计算机程序是这样的计算机程序,其能够使计算机接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止,并且所述计算机程序使所述计算机充当如下装置:语言模型存储装置,用于存储关于语言模型的信息;识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;基准时间存储装置,用于为每个所述词组存储所述基准时间;识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及识别结果输出装置,用于在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时输出语音识别结果。
在第一项发明、第五项发明以及第八项发明中,接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止。存储关于语言模型的信息。还存储有:基于语音识别语法而改变的识别候选单词序列;以及指示单词序列的末尾单词是否是最终单词的信息。基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列。然后,从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词。当判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据时输出语音识别结果。这允许对包括在接收的话音数据中的发声是与最终单词(即,要接收的发声的末尾单词)对应的发声的可靠检测。因而,可以输出语音识别结果而没有不必要的等待时间。
在第二项发明中,每当对提取的识别候选单词序列进行了更新时,就把识别候选单词序列输出到外部。然后,当无声区间的持续时间达到所述基准时间时,在达到的时间点上输出识别候选单词序列。这样,不管对包括在接收的话音数据中的发声是否是对应于最终单词(即,要接收的发声的末尾单词)的发声的检测,都在早期输出语音识别结果。因而,表观上改进了语音识别响应,除了检测到所述发声是对应于最终单词(即,要接收的发声的末尾单词)的发声的情况之外。进一步,在不是对应于最终单词(即,不是要接收的发声的末尾单词)的发声的情况下,对输出的语音识别结果进行更新,从而可以确保语音识别结果的准确性。
在第三项发明、第六项发明以及第九项发明中,接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止。存储关于语言模型的信息。存储分类为词组的包括在所述语言模型中的识别词汇。与一个词组相关地存储识别候选单词序列的末尾单词。进一步,存储每个词组成为最终单词的概率。基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列。然后,基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间。然后,当在所述基准时间内不出现新的话音数据时,输出语音识别结果。这样,当接收到的发声具有成为与最终单词(即,要接收的发声的末尾单词)对应的发声的高概率时,以较短的时间显示或输出语音识别结果。这改进了语音识别响应。
在第四项发明、第七项发明以及第十项发明中,接收话音数据,然后保持语音识别结果的输出延缓状态,直到发声部分之后的无声区间的持续时间达到用于判定发声完成的基准时间为止。存储关于语言模型的信息。存储分类为词组的包括在所述语言模型中的识别词汇。与一个词组相关地存储识别候选单词序列的末尾单词。进一步,针对每个所述词组存储所述基准时间。基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列。然后,在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时,输出语音识别结果。这样,对于没有后续的新话音数据因而成为对应于最终单词(即,要接收的发声的末尾单词)的发声的概率更高的发声,把基准时间设定得比较短。这允许基于为与识别候选单词序列的末端的单词对应的每个词组设定的基准时间,调节等待时间。这改进了语音识别响应。
依据第一项发明、第五项发明以及第八项发明,实现了对包括在接收的话音数据中的发声是对应于最终单词(即,要接收的发声的末尾单词)的发声的可靠检测。因而,可以输出语音识别结果而没有不必要的等待时间。
依据第二项发明,不管对包括在接收的话音数据中的发声是否是对应于最终单词(即,要接收的发声的末尾单词)的发声的检测,都在早期输出语音识别结果。因而,表观上改进了语音识别响应,除了检测为对应于最终单词(即,要接收的发声的末尾单词)的发声的情况之外。进一步,在不是对应于最终单词(即,不是要接收的发声的末尾单词)的发声的情况中,对输出的语音识别结果进行更新,从而可以确保语音识别结果的准确性。
依据第三项发明、第六项发明以及第九项发明,当接收到的发声具有成为对应于最终单词(即,要接收的发声的末尾单词)的发声的高概率时,以较短的时间显示或输出语音识别结果。这改进了语音识别响应。
依据第四项发明、第七项发明以及第十项发明,对于没有后续的新话音数据因而成为对应于最终单词(即,要接收的发声的末尾单词)的发声的概率较高的发声,把基准时间设定得比较短。这允许基于为与识别候选单词序列的末端的单词对应的每个词组设定的基准时间,调节等待时间。这改进了语音识别响应。
根据下面结合附图的详细描述,本发明的上述和进一步的目的和特征将更全面且清楚。
附图说明
图1是示出依据本发明实施例1的语音识别设备的结构的框图。
图2是示出由依据本发明实施例1的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图3是示出由依据本发明实施例1的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图4是示出识别词汇数据的结构的示例的图。
图5是示出由依据本发明实施例2的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图6是示出由依据本发明实施例2的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图7是示出由依据本发明实施例3的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图8是示出由依据本发明实施例3的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图9是示出由依据本发明实施例4的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图10是示出由依据本发明实施例4的语音识别设备的控制装置执行的语音识别处理的过程的流程图。
图11是示出人名语法的示例的图。
具体实施方式
在上述的各现有技术的语音识别设备中,在检测到大于或等于预定时间的无声时间时,判定为发声完成的时间点。图11是示出人名语法的示例的图。因而,在采用了如图11中所示允许姓和教名、仅教名、以及仅姓的发声的人名语法的语音识别设备中,即使在输入只包含教名的发声的话音数据从而在语法上很明显没有后续单词时,在定义为相当长的时间的预定时间过去之前,也不能判定为发声完成。这导致了不能改进语音识别响应的问题。这是因为,当缩短发声完成的判定之前的时间以便改进语音识别响应时,产生这种问题,即,姓和教名之间的无声区间将被错误地判定为发声完成。
另一方面,当只采用诸如命令语法的用于离散单词识别的语音识别引擎时,没有后续单词(可以没有暂停间隔)。因而,与采用了用于连贯单词识别的语音识别引擎的情况相比,当检测到较短的无声区间时,就可以鉴别话音完成的时间点。然而,当同时采用用于连贯单词识别的语音识别引擎(在所谓的多语法模式下的应用)时,类似于上述情况,需要通过检测大于或等于预定时间的无声区间来判定发声完成的时间点。因而,在经过预定时间之前,不能判定为发声完成。这导致了不能改进语音识别响应的问题。
考虑到这种情况而作出本发明。本发明的一个目的是提供一种语音识别设备、语音识别方法以及计算机程序,其中,即使在独立地采用语音识别语法时,或者另选地,即使在同时采用了离散单词识别语法时,在早期就对发声完成的时间点进行鉴别,从而改进语音识别响应。在下列实施例中实现本发明。
(实施例1)
图1是示出依据本发明实施例1的语音识别设备1的结构的框图。语音识别设备1包括:控制装置11,如用于控制整个设备的CPU;辅助存储装置12,如CD-ROM驱动器,用于从诸如记录了各种信息的CD-ROM的记录介质102中读取各种信息,所述各种信息包括数据和可在依据本发明实施例1的语音识别设备1上执行的计算机程序101;以及记录装置13,如用于记录由辅助存储装置12读取的各种信息的硬盘。当控制装置11从记录装置13中读取包括数据和依据本发明的计算机程序101的各种信息,接着把所述信息存储到诸如RAM的用于临时存储信息的存储装置14中,然后执行包含在计算机程序101中的各种过程时,计算机充当依据本发明的语音识别设备1。
记录装置13包括:语音识别语言模型存储部131,其存储用于语音识别的语言模型;以及识别词汇辞典132,其存储对应于所述语言模型的识别词汇。语音识别设备1进一步包括:通信装置15,用于与外部执行数据通信;输入装置16,如键盘和鼠标;识别结果输出装置17,如CRT监视器和LCD监视器;以及话音数据输入装置18,如麦克风和麦克风阵列。
这里,识别词汇是否应被包括在语言模型中是定义的问题。即,可以包括或者不包括识别词汇。进一步,不需要把识别结果输出并显示在识别结果输出装置17上,而可以将其通过通信装置15输出到利用所述识别结果的另一装置、应用等。此外,话音数据输入装置18不限于麦克风等,而可以是用于通过通信装置15从另一装置、应用等接收数据的任何装置。另选地,可以从记录装置13、存储装置14或者辅助存储装置12中读取所述数据。
图2和3是示出由依据本发明实施例1的语音识别设备1的控制装置11执行的语音识别处理的过程的流程图。语音识别设备1的控制装置11判定是否已获取了话音数据(步骤S201),从而控制装置11进行等待,直到获取了话音数据(步骤S201:否)。判定是否接收到话音数据的方法不限于特定的一种。例如,可以持续监控声音装置驱动器的缓冲器余量。然后,当在缓冲器中累积了量大于或等于预定时间的数据时,读出该数据。否则,不读出该数据。依据这种方法,可以基于缓冲器余量判定是否已接收到话音数据。这里,当识别处理的运算处理量很大,因此导致缓冲器溢出的问题时,在许多情况下,按预定的时间间隔读出存储在缓冲器中的数据。然而,甚至在这种情况下,也可以基于是否已经过预定时间,判定是否已接收到话音数据。
控制装置11判定从获取的话音数据中是否检测到发声的开始(步骤S202)。当控制装置11判定尚未检测到发声的开始时(步骤S202:否),控制装置11使过程返回到步骤S201。当控制装置11判定已检测到发声的开始时(步骤S202:是),控制装置11判定是否已持续地获取话音数据(步骤S203)。当控制装置11判定已获取话音数据时(步骤S203:是),控制装置11判定是否已检测到发声完成的候选(步骤S204)。这里,检测发声的开始和发声完成的候选的方法不限于特定的一种。例如,可以持续地测量接收到的话音数据的功率,从而在测量出的话音数据功率持续地超过预定阈值达预定时间长度时,可以判定已检测到发声的开始。进一步,当测量出的话音数据功率保持在预定阈值以下达预定时间长度(例如,0.2秒,这稍微长于双辅音的持续时间)时,可以判定已检测到发声完成的候选。
当控制装置11判定尚未检测到发声完成的候选时(步骤S204:否),控制装置11等待检测发声完成的候选。当控制装置11判定已检测到发声完成的候选时(步骤S204:是),控制装置11通过使用内置的计时器、时钟等,开始对发声完成的候选之后的无声持续时间的计时(步骤S205)。进一步,通过参照记录在记录装置13上的语音识别语法和识别词汇辞典132,控制装置11提取与接收到的话音数据对应的识别候选单词序列(步骤S206)。然后,控制装置11判定是否已经过基准时间Ta,该基准时间Ta是足以确认随后没有发声(即,确认发声的完成)的时间长度(步骤S207)。
当控制装置11判定已经过基准时间Ta时(步骤S207:是),控制装置11断定接收到的发声是最后的发声(已确认发声完成),从而把提取的识别候选单词序列输出为语音识别结果(步骤S208)。这里,当尚未提取到识别候选单词序列时,在某些情况下,控制装置11可以判定发声与语言模型不匹配(发声是不可接受的),从而输出指示识别错误的信息。即,当出现后续的发声时,相当大的限制时间出现在位于发声之间的无声区间的长度上。因而,根据在接收到的发声之后持续的无声区间的时间长度,控制装置11可以判定发声是否已完成。
特别地,在连贯单词输入的情况下,即使在检测到无声区间的出现时,无声区间也可能只是话音之间的暂停间隔。因而,为了快速输出语音识别结果,即,改进语音识别响应,如果把短的基准时间用作用于判定发声是否已完成的无声区间的持续时间,则会出现尽管在发声但却拙劣地判断为发声完成的问题。
为了避免这种情况,在现有技术中,基准时间Ta被设定为大约0.5到1.5秒,以便当在基准时间Ta内没有检测到后续的发声时,就判定发声已完成。因而,尽管在基准时间Ta内已确认语音识别结果,输出等待状态却持续到允许输出该结果时。这导致难以改进语音识别响应。
在本实施例1中,以与语音识别语法的词汇(即,话音识别候选单词序列)对应的方式提供指示是否是最后话音的最终标志。图4是示出在把图11示出的人名语法存储在语音识别语言模型存储部131中的情况下,识别词汇数据结构的示例的图。如图4所示,当要把一个人的姓名接收为话音时,诸如“Yamada”和“Tanaka”的姓(姓氏)部分之后可以有话音。反之,诸如“Ichiro”和“Taro”的教名(名)部分必定是发声的最后部分。因而,把最终标志“0”赋给每个姓部分,而把最终标志“1”赋给每个教名部分。这里,应当注意,姓和教名的区别在本发明中不是绝对必要的。
当控制装置11判定尚未经过基准时间Ta时(步骤S207:否),控制装置11判定提取的识别候选单词序列的最终标志是否是“1”(步骤S209)。当控制装置11判定最终标志是“1”时(步骤S209:是),控制装置11断定随后没有发声。因而,不需要把语音识别结果的输出延缓基准时间Ta。因此,控制装置11判定是否已经过比基准时间Ta短的时间Tb(步骤S210)。时间Tb不限于特定值,只要其比基准时间Ta短即可。例如,时间Tb被设定为0.2到0.7秒。
当控制装置11判定最终标志不是“1”而是“0”时(步骤S209:否),控制装置11获取进一步的话音数据(步骤S211:是),由此判定是否已检测到发声的重新开始(步骤S212)。当控制装置11判定尚未检测到发声的重新开始时(步骤S212:否),控制装置11使过程返回到步骤S207,从而重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S212:是),控制装置11复位计时(步骤S213),然后使过程返回到步骤S203,从而重复上述处理。
当控制装置11判定尚未经过时间Tb时(步骤S210:否),控制装置11获取进一步的话音数据(步骤S211:是),由此判定是否已检测到发声的重新开始(步骤S212)。当控制装置11判定尚未检测到发声的重新开始时(步骤S212:否),控制装置11使过程返回到步骤S207,从而重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S212:是),控制装置11复位计时(步骤S213),然后使过程返回到步骤S203,从而重复上述处理。
当控制装置11判定已经过时间Tb时(步骤S210:是),控制装置11把作为语音识别结果的提取的识别候选单词序列输出并显示在例如显示装置17上(步骤S208)。
依据上述的本实施例1,使用指示提取的识别候选单词序列是否可以是末尾单词的信息。这允许对接收到的发声是对应于最终单词(即,包括在要接收的话音数据中的发声的末尾单词)的发声的可靠检测。因而,可以输出语音识别结果而没有不必要的等待时间。
这里,不需要按对应于识别候选单词序列的方式,以语音识别语法中的一项的形式存储指示是否可以是末尾单词的信息。即,例如,当语音识别语法是离散单词识别语法时,可以把指示所述语法用于离散单词识别的信息赋给所述语法。然后,在语音识别的时候,在控制装置11检测到出现指示语法用于离散单词识别的信息时,可以把所述语法之内的全部识别词汇设定为可以是末尾单词。进一步,除了只指示如图11所示的连贯单词的出现与否的语法之外,语言模型也可以是添加了它们的转变概率的语法。此外,可以代替无上下文的语法而采用概率模型(例如,N元语法)。在采用N元语法时,在N大于或等于2的情况下,可以从信息中找到最终单词。即使在N是1的情况下,也可以按对应于每个单词的方式存储指示是否是最终单词的信息。
进一步,当出现多个识别候选单词序列时,为了选择识别候选单词序列,只对于通过诸如DP匹配方法和HMM方法的公知方法计算的评价得分最高的预定数量的识别候选单词序列,或者另选地,只对于在识别候选单词序列之中评价得分值在从最高评价得分值起的预定范围内或者评价得分值在前N个评价得分值中的识别候选单词序列,可以执行上述针对最终标志的判定处理。这种方法可以减少基于错误的识别结果候选而把暂停区间错误地判定为发声完成的问题。例如,只有在评价得分值在前N个评价得分值内的所有识别候选单词序列都是最终单词候选时,才可以把最终标志设定为“1”。这样避免了上述问题。
进一步,针对提取或输出通过语音识别的识别候选单词序列的情况对上述实施例1进行了描述。然而,对识别候选进行鉴别是足够的。即,例如,可以提取或输出识别候选ID。
进一步,在上述的实施例1中,连续地读取了输入话音数据,而只对判定为语音段的部分检测发声开始和发声完成。然而,本发明不限于这种特定的示例。例如,可以在输入话音数据的全部区间上执行上述检测处理。
(实施例2)
参照示出依据实施例2的语音识别设备1的图给出下面的详细描述。依据本发明实施例2的语音识别设备1的结构类似于实施例1的结构。因而,指定了相同的标号,以便省略详细的描述。本实施例2与实施例1的不同之处在于,不管后续的话音存在与否,在比基准时间Ta短的时间Tb内向外部输出提取的识别候选单词序列,而在随后没有话音时,只向外部通知对已经输出的识别候选单词序列的确认,以便对应于语音识别结果的早期输出而在早期输出语音识别结果。
图5和6是示出由依据本发明实施例2的语音识别设备1的控制装置11执行的语音识别处理的过程的流程图。语音识别设备1的控制装置11判定是否已获取话音数据(步骤S501),从而控制装置11进行等待,直到获取了话音数据为止(步骤S501:否)。判定是否已接收到话音数据的方法不限于特定的一种。
控制装置11判定是否已从获取的话音数据中检测到发声的开始(步骤S502)。当控制装置11判定尚未检测到发声的开始时(步骤S502:否),控制装置11使过程返回到步骤S501。当控制装置11判定已检测到发声的开始时(步骤S502:是),控制装置11接着判定是否已获取话音数据(步骤S503)。当控制装置11判定已获取话音数据时(步骤S503:是),控制装置11判定是否已检测到发声完成的候选(步骤S504)。这里,检测发声的开始和发声完成的候选的方法不限于特定的一种。例如,可以持续地测量接收话音数据的功率,从而在测量出的话音数据的功率持续超过预定阈值达预定时间长度时,可以判定已检测到发声的开始。进一步,当测量出的话音数据的功率保持在预定阈值以下达预定时间长度(例如,0.2秒,这稍微长于双辅音的持续时间)时,可以判定已检测到发声完成的候选。
当控制装置11判定尚未检测到发声完成的候选时(步骤S504:否),控制装置11等待检测发声完成的候选。当控制装置11判定已检测到发声完成的候选时(步骤S504:是),控制装置11通过使用内置的计时器、时钟等,开始对发声完成的候选之后的无声持续时间的计时(步骤S505)。进一步,通过参照记录在记录装置13上的语音识别语法和识别词汇辞典132,控制装置11提取与接收到的话音数据对应的识别候选单词序列(步骤S506)。然后,控制装置11判定是否已经过时间Tb,时间Tb比足以确认随后没有话音的基准时间Ta短(步骤S507)。
当控制装置11判定已经过时间Tb时(步骤S507:是),不管接收到的发声是否是最终单词,控制装置11都在该时间点把具有最佳得分的识别候选单词序列输出为待定的语音识别结果(步骤S508)。即,不管后续的发声是否出现,就把语音识别结果显示在显示装置17上,或者发送到外部应用等。这允许用户检查语音识别结果的候选,尽管该结果仍是待定的。这里,在已经输出识别候选单词序列时,可以把新的识别候选单词序列与先前的识别候选单词序列进行比较,然后当它们不同时可以输出它们。
当控制装置11判定尚未经过时间Tb时(步骤507:否),控制装置11获取进一步的话音数据(步骤S509:是),从而判定是否已检测到发声的重新开始(步骤S510)。当控制装置11判定尚未检测到发声的重新开始时(步骤S510:否),控制装置11使过程返回到步骤S507,由此重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S510:是),控制装置11复位计时(步骤S511),然后使过程返回到步骤S503,由此重复上述处理。
控制装置11判定是否已经过基准时间Ta(步骤S512)。当控制装置11判定尚未经过基准时间Ta时(步骤S512:否),控制装置11获取进一步的话音数据(步骤S513:是),从而判定是否已检测到发声的重新开始(步骤S514)。当控制装置11判定尚未检测到发声的重新开始时(步骤S514:否),控制装置11使过程返回到步骤S512,由此重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S514:是),控制装置11复位计时(步骤S515),然后使过程返回到步骤S503,由此重复上述处理。
当控制装置11判定已经过基准时间Ta时(步骤S512:是),控制装置11断定随后没有发声,由此输出指示已对语音识别结果进行确认的信号(步骤S516)。已接收到所述信号的外部应用执行例如对显示装置17的屏幕更新进行锁定从而确认语音识别结果的处理,由此确认语音识别结果。
依据上述的本实施例2,不管是否已检测到接收的发声是对应于最终单词(即,要接收的发声的末尾单词)的发声,都在早期输出语音识别结果。然后,当检测到是对应于最终单词(即,要接收的发声的最后一部分)的发声时,就只输出确认信号。这允许用户在相对早的时期看到语音识别结果,因此改进了针对用户的语音识别响应。进一步,在不是对应于最终单词(即,不是要接收的发声的最后一部分)的发声的情况下,对输出的语音识别结果进行更新。结果,可以确保语音识别结果的准确性,同时维持类似于实施例1的响应。
这里,针对只有在检测到发声完成的候选时才提取识别候选单词序列并且输出待定语音识别结果的定时与此相符的情况,对本实施例2进行了描述。然而,本发明不限于这种特定的示例。例如,可以与帧同步地提取识别候选单词序列,然后在对具有最佳得分的识别候选单词序列进行了更新时,输出提取的识别候选单词序列。
(实施例3)
参照示出依据实施例3的语音识别设备1的图给出下面的详细描述。依据本发明实施例3的语音识别设备1的结构类似于实施例1的结构。因而,指定了相同的标号,以便省略详细的描述。本实施例3与实施例1的不同之处在于:以与要被接收为话音形式信息(即,用于鉴别例如人名的姓部分和教名部分、以及邮政编码、城市名与地址编号的信息)的区间的每个词组对应的方式,统计计算并存储成为最终单词的概率Pi(i是自然数);然后基于计算出的概率Pi来计算用于判定后续的字符是否出现的基准时间T。这里,可以为每个识别词汇而非每个词组计算概率Pi。进一步,概率可以对于所有用户都是共同的,或者可以对于每个用户是不同的。另选地,可以根据两种概率重新计算概率,如两种概率的平均值。
按识别词汇辞典132的一个数据项的形式存储概率Pi的值,因此容易以与对应于单词的词组对应的方式提取该值。显然,概率Pi的存储方法和对应于识别词汇的方法不限于这种特定的示例。
图7和8是示出由依据本发明实施例3的语音识别设备1的控制装置11执行的语音识别处理的过程的流程图。语音识别设备1的控制装置11判定是否已获取话音数据(步骤S701),从而控制装置11进行等待,直到获取了话音数据为止(步骤S701:否)。判定是否已接收到话音数据的方法不限于特定的一种。
控制装置11判定是否已从获取的话音数据中检测到发声的开始(步骤S702)。当控制装置11判定尚未检测到发声的开始时(步骤S702:否),控制装置11使过程返回到步骤S701。当控制装置11判定已检测到发声的开始时(步骤S702:是),控制装置11接着判定是否已获取了话音数据(步骤S703)。当控制装置11判定已获取了话音数据时(步骤S703:是),控制装置11判定是否已检测到发声完成的候选(步骤S704)。这里,检测发声的开始和发声完成的候选的方法不限于特定的一种。例如,可以持续地测量接收话音数据的功率,从而在测量出的话音数据的功率持续超过预定阈值达预定时间长度时,可以判定已检测到发声的开始。进一步,当测量出的话音数据的功率保持在预定阈值以下达预定时间长度(例如,0.2秒,这稍微长于双辅音的持续时间)时,可以判定已检测到发声完成的候选。
当控制装置11判定尚未检测到发声完成的候选时(步骤S704:否),控制装置11等待检测发声完成的候选。当控制装置11判定已检测到发声完成的候选时(步骤S704:是),控制装置11通过使用内置的计时器、时钟等,开始对发声完成的候选之后的无声持续时间的计时(步骤S705)。进一步,通过参照记录在记录装置13上的语音识别语法和识别词汇辞典132,控制装置11提取对应于接收到的话音数据的识别候选单词序列(步骤S706)。
基于提取的识别候选单词序列,控制装置11从存储装置14中读取用于判定是否出现后续的字符的设定时间(步骤S707)。然后,基于识别候选单词序列的词组,控制装置11从存储装置14中读取成为最终单词的概率Pi(i是自然数)(步骤S708),然后基于读出的概率Pi(i是自然数)和每个识别候选单词序列的设定时间,计算用于判定后续的字符是否出现的基准时间T(步骤S709)。计算基准时间T的方法不限于特定的一种。
例如,如果识别语法是“人名”,而只由姓(姓氏)部分组成的话音被接收为词组,则教名(名)部分成为最终单词的概率Pi是(0≤Pi≤1),而姓(姓氏)部分成为最终单词的概率是(1-Pi)。因而,如果用Tb表示在判定为是末尾话音的情况下使用的基准时间,而用Ta(Ta>Tb)表示在判定为不是末尾话音的情况下使用的基准时间,则依据(公式1)来计算基准时间T,其用作用于判定实际上是否是末尾话音的等待时间。
T=Pi·Tb+(1-Pi)·Ta (公式1)
控制装置11判定是否已经过基准时间T(步骤S710)。当控制装置11判定尚未经过基准时间T时(步骤S710:否),控制装置11获取进一步的话音数据(步骤S712:是),由此判定是否已检测到发声的重新开始(步骤S713)。当控制装置11判定尚未检测到发声的重新开始时(步骤S713:否),控制装置11使过程返回到步骤S710,由此重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S713:是),控制装置11复位计时(步骤S714),然后使过程返回到步骤S703,由此重复上述处理。
当控制装置11判定已经过基准时间T时(步骤S710:是),控制装置11断定随后没有话音,由此把提取的识别候选单词序列作为语音识别结果输出到例如显示装置17(步骤S711)。
依据上述的实施例3,按照包括在获取的话音数据中的发声可能成为识别语法中的最终单词的概率,改变用于判定是否是最终单词的基准时间。因而,可以按适于实际情况的等待时间输出语音识别结果。
(实施例4)
参照示出依据实施例4的语音识别设备1的图给出下面的详细描述。依据本发明实施例4的语音识别设备1的结构类似于实施例1的结构。因而,指定了相同的标号,以便省略详细的描述。本实施例4与实施例1的不同之处在于:当要被接收为话音形式信息的区间的词组是识别候选单词序列的末端处的单词时,为每个词组存储用于判定实际上是否是最后的话音的基准时间T。这里,不需要为每个词组存储基准时间T,而可以为每个识别词汇存储基准时间。
图9和10是示出由依据本发明实施例4的语音识别设备1的控制装置11执行的语音识别处理的过程的流程图。语音识别设备1的控制装置11判定是否已获取话音数据(步骤S901),从而控制装置11进行等待,直到获取了话音数据为止(步骤S901:否)。判定是否已接收到话音数据的方法不限于特定的一种。
控制装置11判定是否已从获取的话音数据中检测到发声的开始(步骤S902)。当控制装置11判定尚未检测到发声的开始时(步骤S902:否),控制装置11使过程返回到步骤S901。当控制装置11判定已检测到发声的开始时(步骤S902:是),控制装置11接着判定是否已获取话音数据(步骤S903)。当控制装置11判定已获取话音数据时(步骤S903:是),控制装置11判定是否已检测到发声完成的候选(步骤S904)。这里,检测发声的开始和发声完成的候选的方法不限于特定的一种。例如,可以持续地测量接收话音数据的功率,从而在测量出的话音数据的功率持续超过预定阈值达预定时间长度时,可以判定已检测到发声的开始。进一步,当测量出的话音数据的功率保持在预定阈值以下达预定时间长度(例如,0.2秒,这稍微长于双辅音的持续时间)时,可以判定已检测到发声完成的候选。
当控制装置11判定尚未检测到发声完成的候选时(步骤S904:否),控制装置11等待检测发声完成的候选。当控制装置11判定已检测到发声完成的候选时(步骤S904:是),控制装置11通过使用内置的计时器、时钟等,开始对发声完成的候选之后的无声持续时间的计时(步骤S905)。进一步,通过参照记录在记录装置13上的语音识别语法和识别词汇辞典132,控制装置11提取对应于接收到的话音数据的识别候选单词序列(步骤S906)。
基于提取的识别候选单词序列和末端处的单词的词组,控制装置11从存储装置14中读取用于判定后续的字符是否出现的基准时间T(步骤S907)。控制装置11判定是否已经过基准时间T(步骤S908)。
当控制装置11判定尚未经过基准时间T时(步骤S908:否),控制装置11获取进一步的话音数据(步骤S910:是),由此判定是否已检测到发声的重新开始(步骤S911)。当控制装置11判定尚未检测到发声的重新开始时(步骤S911:否),控制装置11使过程返回到步骤S908,由此重复上述处理。当控制装置11判定已检测到发声的重新开始时(步骤S911:是),控制装置11复位计时(步骤S912),然后使过程返回到步骤S903,由此重复上述处理。
当控制装置11判定已经过基准时间T时(步骤S908:是),控制装置11断定随后没有话音,由此把提取的识别候选单词序列作为语音识别结果输出并显示到例如显示装置17上(步骤S909)。
依据上述的本实施例4,对于没有后续的新话音数据,因此成为对应于最终单词(即,要接收的发声的末尾单词)的发声的概率更高的发声,基准时间设定得比较短。这允许基于为与识别候选单词序列的末端的单词对应的每个词组设定的基准时间,调节等待时间。这改进了语音识别响应。
这里,在上述的实施例1到4中,采用的语音识别语法的数量不需要统一。即,例如,可以同时采用连贯单词识别语法和离散单词识别语法。在这种情况下,当使用离散单词识别语法时,基准时间Tb足够了。然而,当使用连贯单词识别语法时,通过使用上述的实施例1到4的方法,把基准时间Ta缩短得例如接近Tb。这里,在采用所谓的多语法的现有技术语音识别设备中,尽管已采用了离散单词识别语法,也不能缩短基准时间T,从而即使在输入离散单词的发声时也产生了不必要的等待时间。这是因为已同时采用了连贯单词识别语法。然而,当采用依据本实施例1到4的语音识别设备时,可以在较早时期输出语音识别结果。
这里,当通过单独的语音识别语法进行识别时,即使在单词是最终单词的情况下,同一单词在某些依赖于通过多语法进行识别时同时使用的语音识别语法的情况下也可能是非最终单词。为了避免由这种不明确所导致的判定错误,当同时采用多个语音识别语法时,优选的是在把所有的语音识别语法一起合并成单个语音识别语法的状态下,判定每个识别词汇是否是最终单词。
Claims (14)
1、一种语音识别设备,包括:
话音数据接收装置,用于接收话音数据;
无声区间持续时间判定装置,用于判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
延缓装置,用于在无声区间持续时间判定装置判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
语言模型存储装置,用于存储关于语言模型的信息;
存储装置,用于存储基于语音识别语法而改变的识别候选单词序列,和指示单词序列的末尾单词是否是最终单词的信息;
识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
最终单词判定装置,用于从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及
识别结果输出装置,用于在所述最终单词判定装置已判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而在所述最终单词判定装置判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
2、如权利要求1所述的语音识别设备,进一步包括:
更新判定装置,用于判定是否对由所述识别候选提取装置提取的识别候选单词序列进行了更新;
识别候选输出装置,用于在更新判定装置判定对所述识别候选单词序列进行了更新时,输出所述识别候选单词序列;
无声区间持续时间判定装置,用于判定无声区间的持续时间是否达到所述基准时间;以及
识别候选单词序列输出装置,用于在所述无声区间持续时间判定装置判定所述持续时间已达到所述基准时间时,在达到所述基准时间的时间点输出识别候选单词序列。
3、一种语音识别设备,包括:
话音数据接收装置,用于接收话音数据;
无声区间持续时间判定装置,用于判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
延缓装置,用于在无声区间持续时间判定装置判定所述持续时间尚未达到所述基准时间时延缓语音识别结果的输出;
语言模型存储装置,用于存储关于语言模型的信息;
识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;
末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;
概率存储装置,用于存储每个所述词组成为最终单词的概率;
识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
基准时间改变装置,用于基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及
识别结果输出装置,用于在所述基准时间内不出现新的话音数据时输出语音识别结果。
4、一种语音识别设备,包括:
话音数据接收装置,用于接收话音数据;
无声区间持续时间判定装置,用于判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
延缓装置,用于在无声区间持续时间判定装置判定所述持续时间尚未达到所述基准时间时延缓语音识别结果的输出;
语言模型存储装置,用于存储关于语言模型的信息;
识别词汇存储装置,用于存储分类为词组的包括在所述语言模型中的识别词汇;
末尾单词存储装置,用于与一个词组相关地存储识别候选单词序列的末尾单词;
基准时间存储装置,用于针对每个所述词组存储所述基准时间;
识别候选提取装置,用于基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及
识别结果输出装置,用于在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时,输出语音识别结果。
5、一种语音识别设备,包括能够执行以下步骤的处理器:
接收话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;
基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及
当判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
6、如权利要求5所述的语音识别设备,包括能够进一步执行以下步骤的处理器:
判定是否对提取的识别候选单词序列进行了更新;
在判定为对所述识别候选单词序列进行了更新时,输出所述识别候选单词序列;
判定无声区间的持续时间是否已达到所述基准时间;以及
当判定所述持续时间已达到所述基准时间时,在达到所述基准时间的时间点输出识别候选单词序列。
7、一种语音识别设备,包括能够执行以下步骤的处理器:
获得话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储分类为词组的包括在所述语言模型中的识别词汇;
与一个词组相关地存储识别候选单词序列的末端处的单词;
存储每个所述词组成为最终单词的概率;
基于所述语言模型,提取与获得的话音数据对应的识别候选单词序列;
基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及
当在所述基准时间内不出现新的话音数据时,输出语音识别结果。
8、一种语音识别设备,包括能够执行以下步骤的处理器:
获得话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储分类为词组的包括在所述语言模型中的识别词汇;
与一个词组相关地存储识别候选单词序列的末端处的单词;
针对每个所述词组存储所述基准时间;
基于所述语言模型,提取与获得的话音数据对应的识别候选单词序列;以及
在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时,输出语音识别结果。
9、一种语音识别方法,包括以下步骤:
接收话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;
基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及
当判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而当判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
10、一种语音识别方法,包括以下步骤:
接收话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储分类为词组的包括在所述语言模型中的识别词汇;
与一个词组相关地存储识别候选单词序列的末端处的单词;
存储每个所述词组成为最终单词的概率;
基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及
当在所述基准时间内不出现新的话音数据时,输出语音识别结果。
11、一种语音识别方法,包括以下步骤:
接收话音数据;
判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
当判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
存储关于语言模型的信息;
存储分类为词组的包括在所述语言模型中的识别词汇;
与一个词组相关地存储识别候选单词序列的末端处的单词;
针对每个所述词组存储所述基准时间;
基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及
在与提取的识别候选单词序列的末尾单词对应的词组的基准时间中不出现新的话音数据时,输出语音识别结果。
12、一种记录有计算机程序的记录介质,所述计算机程序包括以下步骤:
使计算机接收话音数据;
使计算机判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
使计算机在判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
使计算机存储关于语言模型的信息;
使计算机存储基于语音识别语法而改变的识别候选单词序列和指示单词序列的末尾单词是否是最终单词的信息;
使计算机基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
使计算机从提取的识别候选单词序列中,判定发声末端的单词是否是最终单词;以及
使计算机在判定发声末端的单词是最终单词时,以比所述基准时间短的时间输出语音识别结果,而在判定发声末端的单词不是最终单词时,在所述基准时间内不出现新的话音数据的情况下输出语音识别结果。
13、一种记录有计算机程序的记录介质,所述计算机程序包括以下步骤:
使计算机接收话音数据;
使计算机判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
使计算机在判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
使计算机存储关于语言模型的信息;
使计算机存储分类为词组的包括在所述语言模型中的识别词汇;
使计算机与一个词组相关地存储识别候选单词序列的末尾单词;
使计算机存储每个所述词组成为最终单词的概率;
使计算机基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;
使计算机基于提取的识别候选单词序列的末尾单词成为对应词组的最终单词的概率,改变所述基准时间;以及
使计算机在所述基准时间内不出现新的话音数据时,输出语音识别结果。
14、一种记录有计算机程序的记录介质,所述计算机程序包括以下步骤:
使计算机接收话音数据;
使计算机判定发声部分之后的无声区间的持续时间是否已达到用于判定发声完成的基准时间;
使计算机在判定所述持续时间尚未达到所述基准时间时,延缓语音识别结果的输出;
使计算机存储关于语言模型的信息;
使计算机存储分类为词组的包括在所述语言模型中的识别词汇;
使计算机与一个词组相关地存储识别候选单词序列的末尾单词;
使计算机针对每个所述词组存储所述基准时间;
使计算机基于所述语言模型,提取与接收的话音数据对应的识别候选单词序列;以及
使计算机在与提取的识别候选单词序列的末尾单词对应的词组的基准时间内不出现新的话音数据时,输出语音识别结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006-079052 | 2006-03-22 | ||
JP2006079052A JP4906379B2 (ja) | 2006-03-22 | 2006-03-22 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
JP2006079052 | 2006-03-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101042866A true CN101042866A (zh) | 2007-09-26 |
CN101042866B CN101042866B (zh) | 2012-07-04 |
Family
ID=38534643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101077186A Expired - Fee Related CN101042866B (zh) | 2006-03-22 | 2006-07-20 | 语音识别设备及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7805304B2 (zh) |
JP (1) | JP4906379B2 (zh) |
CN (1) | CN101042866B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103348348A (zh) * | 2012-02-08 | 2013-10-09 | 株式会社Ntt都科摩 | 信息检索装置以及信息检索方法 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
WO2017012242A1 (zh) * | 2015-07-22 | 2017-01-26 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106796784A (zh) * | 2014-08-19 | 2017-05-31 | 努恩斯通讯公司 | 用于语音验证的系统及方法 |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
US10720154B2 (en) | 2014-12-25 | 2020-07-21 | Sony Corporation | Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition |
CN111640423A (zh) * | 2020-05-29 | 2020-09-08 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
CN112243526A (zh) * | 2018-06-05 | 2021-01-19 | 三星电子株式会社 | 语音辅助设备及其方法 |
CN112735422A (zh) * | 2015-09-03 | 2021-04-30 | 谷歌有限责任公司 | 增强型语音端点确定 |
CN114360543A (zh) * | 2013-01-07 | 2022-04-15 | 三星电子株式会社 | 交互服务器及其控制方法和交互系统 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) * | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
US20090198490A1 (en) * | 2008-02-06 | 2009-08-06 | International Business Machines Corporation | Response time when using a dual factor end of utterance determination technique |
JP2009288523A (ja) * | 2008-05-29 | 2009-12-10 | Toshiba Corp | 音声認識装置及びその方法 |
US9135809B2 (en) * | 2008-06-20 | 2015-09-15 | At&T Intellectual Property I, Lp | Voice enabled remote control for a set-top box |
US8478592B2 (en) * | 2008-07-08 | 2013-07-02 | Nuance Communications, Inc. | Enhancing media playback with speech recognition |
JP5369055B2 (ja) * | 2010-06-08 | 2013-12-18 | 日本電信電話株式会社 | 通話単位検出装置、方法及びプログラム |
SG189182A1 (en) * | 2010-10-29 | 2013-05-31 | Anhui Ustc Iflytek Co Ltd | Method and system for endpoint automatic detection of audio record |
US9614969B2 (en) * | 2014-05-27 | 2017-04-04 | Microsoft Technology Licensing, Llc | In-call translation |
US9652017B2 (en) * | 2014-12-17 | 2017-05-16 | Qualcomm Incorporated | System and method of analyzing audio data samples associated with speech recognition |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR20180084394A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
JP2018116206A (ja) * | 2017-01-20 | 2018-07-26 | アルパイン株式会社 | 音声認識装置、音声認識方法及び音声認識システム |
CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
KR102068182B1 (ko) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
US10593352B2 (en) * | 2017-06-06 | 2020-03-17 | Google Llc | End of query detection |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
JP2019195149A (ja) * | 2018-05-05 | 2019-11-07 | ナレルシステム株式会社 | グループ音声通信と過去音声確認のためのコンピュータシステム、コンピュータプログラム及び方法 |
CN112513983A (zh) | 2018-06-21 | 2021-03-16 | 奇跃公司 | 可穿戴系统语音处理 |
WO2020180719A1 (en) | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
EP3948854B1 (en) * | 2019-04-16 | 2024-01-31 | Google LLC | Joint endpointing and automatic speech recognition |
JP2022529783A (ja) * | 2019-04-19 | 2022-06-24 | マジック リープ, インコーポレイテッド | 発話認識エンジンのための入力の識別 |
WO2021014612A1 (ja) * | 2019-07-24 | 2021-01-28 | 日本電信電話株式会社 | 発話区間検出装置、発話区間検出方法、プログラム |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
CN110534109B (zh) * | 2019-09-25 | 2021-12-14 | 深圳追一科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN113179444B (zh) * | 2021-04-20 | 2022-05-17 | 浙江工业大学 | 一种基于语音识别的音字同步方法 |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
WO2024010284A1 (ko) * | 2022-07-06 | 2024-01-11 | 삼성전자주식회사 | 끝점 검출 시간 결정 방법 및 상기 방법을 수행하는 전자 장치 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2798919B2 (ja) * | 1987-03-05 | 1998-09-17 | シャープ株式会社 | 音声区間検出方式 |
JPH06250689A (ja) * | 1993-02-23 | 1994-09-09 | Toshiba Corp | 音声認識装置 |
DE69421911T2 (de) * | 1993-03-25 | 2000-07-20 | British Telecomm | Spracherkennung mit pausedetektion |
JP3004883B2 (ja) | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
US5936940A (en) * | 1996-08-22 | 1999-08-10 | International Business Machines Corporation | Adaptive rate-based congestion control in packet networks |
JPH10240290A (ja) * | 1996-12-27 | 1998-09-11 | N T T Data Tsushin Kk | 音声認識処理方法、音声認識システム及び記録媒体 |
JP3578587B2 (ja) * | 1997-03-28 | 2004-10-20 | 株式会社リコー | 音声認識装置および音声認識方法 |
US6490251B2 (en) * | 1997-04-14 | 2002-12-03 | Nortel Networks Limited | Method and apparatus for communicating congestion information among different protocol layers between networks |
JP3916861B2 (ja) * | 2000-09-13 | 2007-05-23 | アルパイン株式会社 | 音声認識装置 |
JP2002341891A (ja) * | 2001-05-14 | 2002-11-29 | Nec Corp | 音声認識装置および音声認識方法 |
EP1376999A1 (en) * | 2002-06-21 | 2004-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Spoken alpha-numeric sequence entry system with repair mode |
CN1468001A (zh) * | 2002-06-27 | 2004-01-14 | 上海汉唐科技有限公司 | 基于因特网的媒体流自适应传输方法 |
JP3822534B2 (ja) * | 2002-07-03 | 2006-09-20 | 日本電信電話株式会社 | 応答制御装置、方法及び応答制御プログラム、記録媒体 |
US20040186819A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Telephone directory information retrieval system and method |
KR100499388B1 (ko) * | 2003-06-16 | 2005-07-04 | 엘지전자 주식회사 | 멀티 보코더의 메모리 구조 및 메모리 관리 방법 |
JP4433704B2 (ja) | 2003-06-27 | 2010-03-17 | 日産自動車株式会社 | 音声認識装置および音声認識用プログラム |
CN1671124B (zh) * | 2004-03-19 | 2011-10-19 | 清华大学 | 通信终端装置、通信终端接收方法、通信系统、网关 |
US7610199B2 (en) * | 2004-09-01 | 2009-10-27 | Sri International | Method and apparatus for obtaining complete speech signals for speech recognition applications |
-
2006
- 2006-03-22 JP JP2006079052A patent/JP4906379B2/ja not_active Expired - Fee Related
- 2006-06-27 US US11/475,003 patent/US7805304B2/en not_active Expired - Fee Related
- 2006-07-20 CN CN2006101077186A patent/CN101042866B/zh not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103348348A (zh) * | 2012-02-08 | 2013-10-09 | 株式会社Ntt都科摩 | 信息检索装置以及信息检索方法 |
CN103348348B (zh) * | 2012-02-08 | 2017-02-15 | 株式会社Ntt都科摩 | 信息检索装置以及信息检索方法 |
US11854570B2 (en) | 2013-01-07 | 2023-12-26 | Samsung Electronics Co., Ltd. | Electronic device providing response to voice input, and method and computer readable medium thereof |
CN114360543B (zh) * | 2013-01-07 | 2023-03-24 | 三星电子株式会社 | 交互服务器及其控制方法和交互系统 |
CN114360543A (zh) * | 2013-01-07 | 2022-04-15 | 三星电子株式会社 | 交互服务器及其控制方法和交互系统 |
CN106796784A (zh) * | 2014-08-19 | 2017-05-31 | 努恩斯通讯公司 | 用于语音验证的系统及方法 |
US10720154B2 (en) | 2014-12-25 | 2020-07-21 | Sony Corporation | Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition |
CN107810529A (zh) * | 2015-06-29 | 2018-03-16 | 亚马逊技术公司 | 语言模型语音端点确定 |
WO2017012242A1 (zh) * | 2015-07-22 | 2017-01-26 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN112735422A (zh) * | 2015-09-03 | 2021-04-30 | 谷歌有限责任公司 | 增强型语音端点确定 |
CN105513586A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果的显示方法和装置 |
CN112243526A (zh) * | 2018-06-05 | 2021-01-19 | 三星电子株式会社 | 语音辅助设备及其方法 |
CN111640423A (zh) * | 2020-05-29 | 2020-09-08 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
CN111640423B (zh) * | 2020-05-29 | 2023-10-13 | 北京声智科技有限公司 | 一种词边界估计方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US7805304B2 (en) | 2010-09-28 |
JP2007256482A (ja) | 2007-10-04 |
JP4906379B2 (ja) | 2012-03-28 |
US20070225982A1 (en) | 2007-09-27 |
CN101042866B (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101042866A (zh) | 语音识别设备及方法,以及记录有计算机程序的记录介质 | |
CN108877778B (zh) | 语音端点检测方法及设备 | |
CN110557589B (zh) | 用于整合记录的内容的系统和方法 | |
KR102072730B1 (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
CN111341305B (zh) | 一种音频数据标注方法、装置及系统 | |
CN103000176B (zh) | 语音识别方法和系统 | |
US7177810B2 (en) | Method and apparatus for performing prosody-based endpointing of a speech signal | |
US7921014B2 (en) | System and method for supporting text-to-speech | |
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
CN1320902A (zh) | 语音识别装置、语音识别方法和记录介质 | |
JP2015206906A (ja) | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム | |
CN1841496A (zh) | 测量语速的方法和装置以及录音设备 | |
CN104464734A (zh) | 声音同时处理装置、方法及程序 | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
JP6347939B2 (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6852029B2 (ja) | ワード検出システム、ワード検出方法及びワード検出プログラム | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
JP2003295884A (ja) | 音声入力モード変換システム | |
CN112133325A (zh) | 错误音素识别方法及装置 | |
JP3908878B2 (ja) | 連続音声認識装置の音素認識性能測定装置 | |
JP5877823B2 (ja) | 音声認識装置、音声認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 |