CN105374351A - 用于使用语音识别解释接收的语音数据的方法和装置 - Google Patents
用于使用语音识别解释接收的语音数据的方法和装置 Download PDFInfo
- Publication number
- CN105374351A CN105374351A CN201510628635.0A CN201510628635A CN105374351A CN 105374351 A CN105374351 A CN 105374351A CN 201510628635 A CN201510628635 A CN 201510628635A CN 105374351 A CN105374351 A CN 105374351A
- Authority
- CN
- China
- Prior art keywords
- difference
- confidence score
- speech
- speech data
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000007405 data analysis Methods 0.000 claims description 15
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 18
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
用于使用语音识别解释接收的语音数据的方法和装置。提供了一种用于处理所接收的语音数据集合的方法,其中所接收的语音数据集合包括发言。该方法执行过程以生成多个置信分数,其中多个置信分数中的每个与多个候选发言的一个相关;确定多个差值,多个差值中的每个包括多个置信分数的两个之间的差;以及比较所述多个差值以确定至少一个差异。
Description
技术领域
本文描述的主题的实施例一般性地涉及语音识别系统。更具体地,主题的实施例涉及使用与候选发言(utterance)关联的概率的差异的语音识别。
背景技术
语音识别系统一般使用信号处理算法来基于现有语言模型确定接收的语音数据的集合对应于特定的清晰表述(articulatedstatement)的概率。每个清晰表述由组成部分构成,以包括单词、音素(phoneme)、和代码字,并且这个概率是一组或多组的这些组成部分的比较分析。结果是系统相信的一系列可能的单词或短语(连同其相应的概率)可能已经是原始发言。
因此,希望提供一种用于确定最可能的候选清晰表述的系统。此外,根据结合附图以及前面的技术领域和背景技术进行的随后的详细描述和所附的权利要求,其它希望的特征和特性将变得明显。
发明内容
一些实施例提供了一种用于处理接收的语音数据的集合的方法,其中接收的语音数据的集合包括发言。该方法执行过程以生成多个置信分数(confidencescore),其中多个置信分数中的每个与多个候选发言中的一个关联;确定多个差值,该多个差值中的每个包括多个置信分数的两个之间的差;并且比较多个差值以确定至少一个差异。
一些实施例提供了一种用于处理接收的语音数据的集合的系统,其中接收的语音数据的集合包括发言。该系统包括用户接口模块,其被配置成接收语音数据的集合;概率模块,其被配置成基于所接收的语音数据的集合来计算多个概率,计算的多个概率中的每个指示语音数据的集合包括多个候选发言中的一个的统计可能性;以及数据分析模块,其被配置成:计算多个差值,多个差值中的每个包括多个概率的两个之间的差,并且比较所述多个差值以确定至少一个差异。
一些实施例提供了一种非暂态计算机可读介质,在其上包含指令,所述指令当被处理器执行时,执行一种方法。该方法接收语音数据的集合;计算多个置信分数,其中多个置信分数中的每个与多个候选发言中的一个关联;确定多个差值,该多个差值的每个包括多个置信分数的两个之间的差;以及比较该多个差值以确定至少一个差异。
提供此概要以采用简化的形式引入下面在详细描述中进一步描述的概念的选择。此概要并不旨在识别所要求保护的主题的关键特征或必要特征,也不旨在被用作确定所要求保护的主题的范围的帮助。
附图说明
在结合以下各图考虑时,可以通过参考详细描述和权利要求来得到主题的更完整的理解,其中遍及各图,相似的参考数字指的是相似的元件。
图1是根据一些实施例的语音数据识别系统的示意性框图表示;
图2是示出用于处理所接收的语音数据的集合的过程的实施例的流程图;
图3是示出用于分析所接收的语音数据的过程的实施例的流程图;以及
图4是示出用于为语音识别应用准备语音识别系统的过程的实施例的流程图。
具体实施方式
以下详细描述本质上仅为说明性的,并且不旨在限制主题的实施例或者此类实施例的应用和使用。如本文所使用的,单词“示例性”表示“用作示例、实例或者图示”。本文中被描述为示例性的任何实施方式不一定被解释为相比于其它实施方式是优选的或者有利的。此外,不存在被在前面的技术领域、背景技术、发明内容或者以下的具体实施方式中提出的任何明示或默示理论约束的意图。
本文提出的主题涉及用来解释所接收的语音数据的方法和装置。用户的清晰表述传达语音数据的集合。系统执行用于语音识别的多个信号处理算法,以计算与候选清晰表述相关联的概率,每个概率对应于特定的候选清晰表述对应所接收的语音数据的集合的统计可能性。
在本申请的上下文中,术语“语音识别”和“声音识别”是可互换的。此外,术语“语音数据”和“声音数据”也是可互换的。语音数据的样本或集合包括至少一个单词。一个或多个单词被单个地存储在系统词典中。每个单词包括一个或多个音素,其可以被定义为将一个单词与另一个进行区分的指定语言中声音的感知不同单元中的任何单元。音素可以包括但不限于与英语语言相关联的声音的不同单元。音素提供每个单词的子集的语音表示,其可以包括单词的一部分,直到并且潜在地包括整个单词。每个音素可以与一个或多个代码字,或者单词的部分的子语音(subphonetic)表示相关联。此外,可以使用系统语言模型来参考(reference)单词以取回单个单词和/或单词组合可能在所接收的语音数据的集合中出现的概率。
现在参考附图,图1是根据一些实施例的语音数据识别系统100的示意框图表示。语音数据识别系统100可以使用任何理想的平台实施。例如,语音数据识别系统100可以在没有限制的情况下被实现为下列中的任何一个:台式电脑、膝上型电脑、服务器系统、移动设备、诊断装备的专用件、基于嵌入式处理器的设备或系统,或者包括处理器架构102的任何其它设备。
语音数据识别系统100可以在没有限制的情况下包括:处理器架构102;系统存储器104;用户接口106;信号处理模块108;系统准备模块110;参数模块112;置信分数模块114;以及数据分析模块116。实际上,语音数据识别系统100的实施例可以包括附加或替代的元件或部件,如对于特定应用来说理想的。例如,在不脱离本公开的范围的情况下,可以采用诸如显示器和用户输入部件之类的附加部件。为便于说明和清楚起见,图1中并未描绘用于这些元件和特征的各种物理、电气、和逻辑耦合和互连。此外,应当认识到,语音数据识别系统100的实施例将包括合作以支持理想功能的其它元件、模块和特征。为简化起见,图1仅描绘了关于语音数据识别的某些元件,以及在下面更加详细地描述的完成技术。
可以使用任何适当的处理系统来实现处理器架构102,例如一个或多个处理器(例如多个芯片或单个芯片上的多个核)、控制器、微处理器、微控制器、跨任何数目的分布或集成系统(包括任何数目的“基于云的”的或其它虚拟系统)展开的处理核和/或其它计算资源。
处理器架构102与系统存储器104通信。系统存储器104表示能够存储用于在处理器架构102上执行的编程指令的任何非暂态短期或长期储存器或其它计算机可读介质,包括任何种类的随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、磁或光学大容量储存器等。应当指出,系统存储器104表示此类计算机可读介质的一个适当的实施方式,并且替代地或者另外地,处理器架构102可以接收外部计算机可读介质并与其合作,所述外部计算机可读介质被实现为便携或移动部件或应用平台,例如便携硬驱动机、USB闪盘驱动机、光盘等。
用户接口106接受来自语音数据识别系统100的用户的信息,包括语音数据以及接收和识别语音数据所必要的信息。用户接口106可以包括将用户输入传输到语音数据识别系统100中的任何方式,在非限制的情况下包括:扩音器、即按即说或即按即传(PTT)设备,无线一键通(PoC)设备、或者能够接收音频数据的其它输入设备。用户接口106还被配置成向用户呈现数据和请求。用户接口106可以进一步包括计算机键盘、鼠标、触摸板、轨迹球、触摸屏幕设备;和/或其它输入设备。
信号处理模块108被适当地配置成分析所接收的语音数据,以获得识别的代码字的集合。为了实现这个,信号处理模块108可以利用用于信号处理的连续到离散信号转换技术(例如快速傅里叶变换(FFT)、线性预测编码(LPC)、滤波器组等),以生成所接收的语音数据的量化特征矢量表示。信号处理模块108还被配置成基于此量化过程来预定义被设置数目的量化矢量或者代码字。在量化过程期间,信号处理模块108将连续信号转换成离散信号(例如代码字)。
系统准备模块110被配置成确定并存储由信号处理模块108所识别的代码字与和特定语言相关的音素中的一个之间的概率关系。在某些实施例中,将由语音数据识别系统100所利用的音素与英语语言相关。在一些实施例中,语音数据识别系统100利用与非英语语言相关的音素。一般地,每个音素与多个代码字相关。系统准备模块110使用特定音素的多个接收的样本来确定识别的代码字和特定音素之间的概率关系。
参数模块112被配置成通过将所接收语音数据的解释限制到在系统存储器104(通常被称为语音数据识别系统100字典)中保留的预定义概率的集合来限制语音数据识别系统100的操作。该字典包括一字条目(one-wordentry)以及用于每个一字条目的对应音素或代码字。字典中的每个单词包括一个或多个“组成的(component)”音素或代码字,其在单词的发音期间表示每个被发音的声音。在一些情况下,音素包括一个或多个代码字。参数模块112可以:(i)与系统准备模块110通信以获得所接收的语音数据的集合的音素或代码字,其中每个音素或代码字概率性地与一组接收的代码字相关;并且(ii)将与所接收的语音数据相关的音素或代码字和与字典中存储的单词相关的音素或代码字进行比较;以及(iii)限制候选单词以及其组成的音素或代码字,其进一步被置信分数模块114以及数据分析模块116评估(下面更加详细地描述)。
参数模块112被进一步配置成通过使用语言模型(其也在系统存储器104中被保留)根据上下文限制所接收的语音数据的解释来限制语音数据识别系统100的操作。给定说出的前面的单词,语言模型被用来预测发言中的下一单词的概率。其可以被用来识别单词(以及其组成的音素)或者一组单词(以及它们的组成的音素)以给定顺序出现在语音数据的集合中的概率。参数模块112可以从字典中识别一个或多个潜在的单词(以及它们对应的音素或代码字),其可以适用于所接收的语音数据的集合。
置信分数模块114被配置成确定特定音素的串(与一个或多个代码字相关联的每个音素)对应于所接收的语音数据的集合的概率。每个所计算的概率被称为“置信分数”,并且每个置信分数与包括多个音素的候选清晰表述相关。置信分数模块114能够执行信号处理算法,例如隐式马尔可夫模型(HMM),以计算音素的序列对应于所接收的语音数据的集合的概率。在某些实施例中,音素的序列中的一个概率性地与来自所接收的语音数据的集合的一个或多个识别的代码字相关。
数据分析模块116被适当地配置成计算置信分数对之间的差值,并且分析所计算的差值,以确定是否存在一个或多个差异。在某些实施例中,每个差值可以表示两个置信分数之间的简单的差。这里,数据分析模块116被配置成从一个置信分数减去另一个,并且然后确定此减法的结果的绝对值。换句话说,数据分析模块116被配置成确定两个置信分数之间的变化或者增量(Δ)。每个差值为正值。数据分析模块116被进一步配置成评估所计算的差值,以确定是否存在一个或多个差异。差异可以被定义为差值之间存在的不寻常关系,例如不可能存在于其它计算的差值之间的两个差值之间的大的差距。
然而,在其它实施例中,数据分析模块116可以使用其它方法计算差值。例如,在一些实施例中,可以通过如下来获得每个差值:首先对于所有的生成的置信分数计算平均值和标准偏差值,并且然后从第一置信分数减去该均值,并且将该结果除以该标准偏差值。在这个情况下,针对每个生成的置信分数重复此过程,以产生标准化值,其然后可以被比较,以确定是否存在一个或多个差异。
实际上,信号处理模块108、系统准备模块110、参数模块112、置信分数模块114、以及数据分析模块116可以用处理器架构102实施(或与其合作),以执行本文更加详细地描述的功能和操作中的至少一些。在这点上,信号处理模块108、系统准备模块110、参数模块112、置信分数模块114、以及数据分析模块116可以被实现为适当地写入的处理逻辑、应用程序代码等。
图2是图示出用于处理所接收的语音数据的集合的过程200的实施例的流程图。结合过程200执行的各种任务可以由软件、硬件、固件或其任何组合来执行。为了说明的目的,过程200的下面的描述可以指的是上面结合图1提到的元件。实际上,可以由所描述系统的不同元件执行过程200的部分。应当认识到,过程200可以包括任何数目的附加或替代的任务,图2中所示的任务不需要按图示顺序被执行,并且过程200可以被结合到具有本文未详细描述的附加功能的更全面的程序或过程中。此外,只要预期的整体功能保持完整,图2中所示的一个或多个任务就可以从过程200的实施例中被省略。
首先,过程200接收并处理与语音识别(SR)技术兼容的语音数据的集合(步骤202)。所接收的语音数据的集合包括来自用户的清晰表述(即发言)的至少一个子集。一般地,经由用户输入或用户接口设备接收语音数据,在用户对语音数据发音(即发言或大声说出)时,其要求用户指示语音数据的起始点和结束点。换句话说,用户必须经由按钮、开关、关键字输入或一些其它方法指示用于过程200开始接收语音数据的时间点。类似地,在一些实施例中,要求用户指示过程200停止接收语音数据的时间。然而,在一些实施例中,过程200可以将延长的静默时段解释为所接收的语音数据的集合的结束。过程200接收并随后分析这些两个指示之间的语音数据。一旦被接收,过程200使用公知的信号处理技术分析并操作(manipulate)所接收的语音数据的集合,以生成被处理的音频数据以用于进一步使用(本文参考图3更加详细地描述的)。
接下来,过程200基于所接收的语音数据的集合执行过程以生成多个置信分数,所生成的多个置信分数中的每个包括特定音素的串(每个音素包括一个或多个代码字)倾向于相配(gotogether)的计算概率(步骤204)。此类音素的串整体地包括候选发言,并且每个置信分数与候选发言相关。在某些实施例中,采用多线程(multi-threaded)方式来执行多个过程,同时地执行与每个过程相关的分析。过程可以包括对应于特定候选清晰表述的一个或多个隐式马尔可夫模型(HMM),每个候选清晰表述包括多个音素,或者音素的串。所生成的概率与每个HMM相关,并且被称为置信分数。
一旦已经生成了多个置信分数(步骤204),过程200确定多个差值,多个差值中的每个包括多个置信分数中的两个之间的差(步骤206)。一般地,过程200产生按照从最高概率到最低概率的次序的概率的顺序列表。过程200计算在顺序次序上相互紧接着定位的置信分数对之间的差值。例如,对于置信分数的列表,其可以包括置信分数A、置信分数B、置信分数C、和置信分数D、置信分数E和置信分数F,其中置信分数A为最高概率,并且与作为对应于所接收的语音数据的集合的最可能的清晰表述的音素的串相关联。此外,置信分数F是最低概率,并且与作为对应于所接收的语音数据的相同集合的最不可能的清晰表述的音素的串相关联。置信分数B是第二高的概率,置信分数C是第三高的概率,并且置信分数E是第四高的概率(或者第二低的概率)。数据分析模块116被配置成计算置信分数A和B之间的第一差值,置信分数B和C之间的第二差值,置信分数C和D之间的第三差值,置信分数D和E之间的第四差值,以及置信分数E和F之间的第五差值。
在一些实施例中,过程200识别高于置信分数阈值的一个或多个置信分数,并且使用所识别的一个或多个置信分数来确定多个差值。这里,作为对所有置信分数计算差值的替代,过程200将系统限制到仅分析与对应于用户的清晰表述的至少最低概率相关的那些置信分数。
接下来,过程200比较多个差值以确定至少一个差异(步骤208)。差异可以被定义为差值之间存在的不寻常关系,例如,不可能存在于其它的计算的差值之间的两个差值之间的大的差距。使用先前的示例,计算5个差值。差值可以是:0.5、0.2、0.1、0.1和0.1。这里,由于0.5和0.2之间的差距数值,在第一个差值和下一个最高差值之间存在清楚的差异。
在某些实施例中,过程200将所确定的差异和预定的差异阈值进行比较,以用于识别和/或执行另外的步骤的目的。差异阈值可以包括用于差异的最小值,在其处,相对确定性可以与和该差异有关的候选发言相关联。过程200所使用的预定阈值可以在设计时间被确定,并且可以与特定的语音识别应用相关。在一些实施例中,当差异大于差异阈值时,过程200识别与多个置信分数中的一个相关联的正确的候选发言,并且完成与正确的候选发言相关联的任务。在一些实施例中,当差异小于差异阈值时,过程200为用户呈现重复包括语音数据的集合的发言的请求。在一些实施例中,当差异包括预定值的范围内的值时,过程200为用户呈现多个候选发言中的至少一个以用于确认。
图3是示出用于分析所接收的语音数据的过程300的实施例的流程图。应当认识到,图3中描述的过程300表示上面在图2的讨论中描述的步骤202的一个实施例,包括另外的细节。首先,过程300利用信号处理技术来处理所接收的语音数据,从而获得重叠特征矢量的集合(步骤302)。适用的信号处理技术可以在非限制的情况下包括,模拟数字转换、快速傅立叶变换(FFT)、线性预测编码(LPC)、滤波器组等。生成的特征矢量可以包括FFT或LPC系数,以表示在不同的时间间隔所接收的语音数据的频率和/或能量波段。基于计算机系统的计算能力以及语音数据识别过程的理想准确性,时间间隔可以是短的或长的。过程300为所接收的语音数据的每个时间间隔生成特征矢量。基于时间间隔的长度和对于每个特征矢量的时间长度,在连续的特征矢量之间可能存在重叠。
接下来,过程300识别与重叠的特征矢量的集合的每个相关联的量化矢量(步骤304)。在识别与重叠的特征矢量的集合中的每个相关联的量化矢量(步骤304)之后,过程300识别链接到每个量化矢量的代码字(步骤306)。这里,在量化过程期间,过程300将连续信号转变成离散信号(例如代码字)。
图4是示出为语音识别应用准备语音识别系统的过程400的实施例的流程图。过程400在用户使用语音识别系统之前完成。首先,过程400接收多个语音数据样本,其中多个语音数据样本中的每个对特定的音素发音(步骤402)。在示例性实施例中,过程400从多种不同的源接收语音样本,为过程400提供了稍微改变的指定音素的发音。
接下来,过程400基于所接收的多个语音数据样本识别和存储多个代码字(步骤404)。此过程在上面关于图3而被描述,并且此处不将赘述。
在识别和存储多个代码字(步骤404)之后,过程400创建并存储多个概率关系,概率关系中的每个使多个代码字中的相应的一个与特定的音素相关(步骤406)。根据所接收的多个语音样本,过程400确定特定的代码字在特定音素中出现的可能性。这些概率关系被计算,并且然后被存储以用于在语音识别中使用。一般地,这些概率关系被存储在列表中,该列表由被用作语音命令的一部分的单词的列表填充(populate),并且每个单词与其一个或多个组成的音素相关联。
本文可以关于功能和/或逻辑块部件并且参考可以由各种计算部件或设备执行的操作、处理任务和功能的符号表示来描述技术和技法。此类操作、任务、和功能有时被称为计算机执行的、计算机化的、软件实现的、或者计算机实现的。实际上,一个或多个处理器设备能够通过操纵系统存储器中存储器位置处表示数据位的电信号、以及信号的其它处理来执行所描述的操作、任务和功能。保持数据位的存储器位置是具有对应于数据位的特定的电、磁、光或有机性质的物理位置。应当认识到,图中示出的各种块部件可以由被配置成执行指定功能的任何数目的硬件、软件和/或固件部件实现。例如,系统或部件的实施例可以采用各种集成电路部件,例如存储器元件、数字信号处理元件、逻辑元件、查找表等,其可以在一个或多个微处理器或其它控制设备的控制下执行多种功能。
当用软件或固件实现时,本文描述的系统的各种元件本质上是执行各种任务的代码段或指令。程序或代码段可以被存储在处理器可读介质中,或者由在载波中包含的计算机数据信号通过传输介质或通信路径传输。“计算机可读介质”、“处理器可读介质”或者“机器可读介质”可以包括能够存储或转移信息的任何介质。处理器可读介质的示例包括电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路等。计算机数据信号可以包括能够通过传输介质(例如电子网络通道、光纤、空气、电磁路径或RF链路)传播的任何信号。代码段可以经由计算机网络(例如因特网、内联网、LAN等)下载。
为了简要的缘故,本文可能未详细地描述与信号处理、数据传输、信令、网络控制、以及系统的其它功能方面(和系统的单个操作部件)有关的常规技术。此外,本文包含的不同的图中所示的连接线旨在表示各种元件之间的示例性功能关系和/或物理耦合。应该指出,在该主题的实施例中可以存在许多替代的或者另外的功能关系或物理连接。
本说明书中描述的功能单元中的一些已经被称为“模块”,以便更特别地强调它们的实现独立性。例如,本文被称为模块的功能可以被整体地或部分地实现为硬件电路,其包括定制的VLSI电路或门阵列、现成的(offtheshelf)半导体,例如逻辑芯片、晶体管、或其它分立部件。模块还可以在可编程硬件设备(例如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等)中实现。
模块还可以在由各种类型处理器执行的软件中实现。例如,可执行代码的识别的模块可以包括一个或多个计算机指令的物理或逻辑模块,其可以例如被组织为对象、程序或功能。然而,识别的模块的可执行文件不需要物理上设置在一起,而是可以包括存储在不同位置中的不同的指令,当逻辑上接合在一起时,其构成该模块并实现该模块的所述目的。
事实上,可执行代码的模块可以是单个指令或者许多指令,并且甚至可以在多个不同的代码段上、不同的程序之中、以及跨多个存储器设备来分布。类似地,操作数据可以以任何适当的形式来具体实施,并且被组织在在任何适当类型的数据结构内。操作数据可以被收集为单个数据集,或者可以在不同的位置上分布,包括在不同的存储设备上分布,并且可以至少部分地仅作为电子信号存在于系统或网络上。
虽然已经在前面的详细描述中提出了至少一个示例性实施例,但是应当认识到,存在大量的变化。还应当意识到,本文描述的一个或多个示例实施例不旨在以任何方式限制所要求保护的主题的范围、适用性或配置。更确切地说,前面的详细描述将为本领域技术人员提供用于实现所述一个或多个实施例的便利路线图。应当理解,在不脱离权利要求定义的范围的情况下,可以在元件的功能和布置方面进行各种改变,其包括提交本专利申请时的已知等价物和可预见的等价物。
Claims (13)
1.一种用于处理所接收的语音数据的集合的方法,其中所接收的语音数据的集合包括发言,所述方法包括:
执行过程以生成多个置信分数,其中多个置信分数中的每个与多个候选发言中的一个相关;
确定多个差值,多个差值的每个包括多个置信分数的两个之间的差;以及
比较所述多个差值以确定至少一个差异。
2.权利要求1所述的方法,进一步包括:
当所述差异大于差异阈值时,
识别与所述多个置信分数的一个相关的正确候选发言,其中所述正确候选发言包括多个候选发言中的一个;以及
完成与所述正确候选发言相关的任务。
3.权利要求1所述的方法,进一步包括:
当所述差异小于差异阈值时,为用户呈现重复所述发言的请求。
4.权利要求1所述的方法,进一步包括:
当所述差异包括在预定值范围内的值时,为用户呈现多个候选发言的至少一个以用于确认。
5.权利要求1所述的方法,其中所述确定步骤进一步包括:
计算第一置信分数和第二置信分数之间的第一差;
计算第三置信分数和第四置信分数之间的第二差;并且
比较所述第一差和所述第二差,以确定所述至少一个差异;
其中所述多个置信分数包括所述第一置信分数、所述第二置信分数、所述第三置信分数、和所述第四置信分数;并且
其中,所述多个差值包括所述第一差和所述第二差。
6.权利要求1所述的方法,其中所述多个置信分数中的每个包括特定音素的串对应于所接收的语音数据集合的计算概率。
7.权利要求1所述的方法,进一步包括:
识别置信分数阈值之上的一个或多个置信分数;以及
使用所识别的一个或多个置信分数来确定所述多个差值。
8.一种用于处理所接收的语音数据的集合的系统,其中所接收的语音数据的集合包括发言,所述系统包括:
用户接口模块,被配置为接收所述语音数据的集合;
概率模块,被配置成基于所接收的语音数据的集合计算多个概率,所计算的多个概率中的每个指示语音数据的集合包括多个候选发言中的一个的统计可能性;以及
数据分析模块,被配置成:
计算多个差值,所述多个差值中的每个包括多个概率中的两个之间的差;以及
比较多个差值,以确定至少一个差异。
9.权利要求8所述的系统,其中当所述差异大于差异阈值时,所述数据分析模块被进一步配置成:
识别与所述多个概率中的一个相关的正确候选发言,其中所述正确候选发言包括多个候选发言中的一个;以及
完成与正确候选发言相关的任务。
10.权利要求8所述的系统,其中,当差异小于差异阈值时,所述用户接口模块被进一步配置成为用户呈现重复所述发言的请求。
11.权利要求8所述的系统,其中,当所述至少一个差异包括在预定值的范围内的值时,用户接口模块进一步被配置成为用户呈现多个候选发言中的至少一个以用于确认。
12.权利要求8所述的系统,其中数据分析模块被进一步配置成:
计算第一置信分数和第二置信分数之间的第一差;
计算第三置信分数和第四置信分数之间的第二差;并且
比较所述第一差和所述第二差,以确定所述至少一个差异;
其中所述多个置信分数包括所述第一置信分数、所述第二置信分数、所述第三置信分数、以及所述第四置信分数;并且
其中,所述多个差值包括所述第一差和所述第二差。
13.权利要求8所述的系统,其中数据分析模块被进一步配置成:
识别在置信分数阈值之上的一个或多个置信分数;并且
使用所识别的一个或多个置信分数来确定所述多个差值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/457809 | 2014-08-12 | ||
US14/457,809 US9418679B2 (en) | 2014-08-12 | 2014-08-12 | Methods and apparatus for interpreting received speech data using speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105374351A true CN105374351A (zh) | 2016-03-02 |
CN105374351B CN105374351B (zh) | 2021-01-22 |
Family
ID=53773360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510628635.0A Active CN105374351B (zh) | 2014-08-12 | 2015-08-11 | 用于使用语音识别解释接收的语音数据的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9418679B2 (zh) |
EP (1) | EP2985760B1 (zh) |
CN (1) | CN105374351B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782560A (zh) * | 2017-03-06 | 2017-05-31 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
CN1373468A (zh) * | 2001-03-06 | 2002-10-09 | 财团法人工业技术研究院 | 在语音识别中产生候选字串的方法 |
US20040122666A1 (en) * | 2002-12-18 | 2004-06-24 | Ahlenius Mark T. | Method and apparatus for displaying speech recognition results |
US20050075874A1 (en) * | 2003-10-01 | 2005-04-07 | International Business Machines Corporation | Relative delta computations for determining the meaning of language inputs |
US20110046953A1 (en) * | 2009-08-21 | 2011-02-24 | General Motors Company | Method of recognizing speech |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
DE19533541C1 (de) | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
JP4201455B2 (ja) | 2000-02-29 | 2008-12-24 | 株式会社リコー | 音声認識システム |
US8600760B2 (en) | 2006-11-28 | 2013-12-03 | General Motors Llc | Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable |
US20080154600A1 (en) | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
CN102047322B (zh) | 2008-06-06 | 2013-02-06 | 株式会社雷特龙 | 语音识别装置、语音识别方法以及电子设备 |
KR100905438B1 (ko) | 2008-11-04 | 2009-07-02 | 유정애 | 음성인식에 기반한 보안시스템 및 이를 이용한 보안방법 |
JP6131537B2 (ja) | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
-
2014
- 2014-08-12 US US14/457,809 patent/US9418679B2/en active Active
-
2015
- 2015-08-03 EP EP15179589.5A patent/EP2985760B1/en active Active
- 2015-08-11 CN CN201510628635.0A patent/CN105374351B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
CN1373468A (zh) * | 2001-03-06 | 2002-10-09 | 财团法人工业技术研究院 | 在语音识别中产生候选字串的方法 |
US20040122666A1 (en) * | 2002-12-18 | 2004-06-24 | Ahlenius Mark T. | Method and apparatus for displaying speech recognition results |
US20050075874A1 (en) * | 2003-10-01 | 2005-04-07 | International Business Machines Corporation | Relative delta computations for determining the meaning of language inputs |
US20110046953A1 (en) * | 2009-08-21 | 2011-02-24 | General Motors Company | Method of recognizing speech |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782560A (zh) * | 2017-03-06 | 2017-05-31 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
Also Published As
Publication number | Publication date |
---|---|
US9418679B2 (en) | 2016-08-16 |
US20160049164A1 (en) | 2016-02-18 |
EP2985760A1 (en) | 2016-02-17 |
EP2985760B1 (en) | 2018-08-01 |
CN105374351B (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US10417329B2 (en) | Dialogue act estimation with learning model | |
CN108428446B (zh) | 语音识别方法和装置 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
US11189262B2 (en) | Method and apparatus for generating model | |
CN108090218B (zh) | 基于深度强化学习的对话系统生成方法和装置 | |
EP2387031B1 (en) | Methods and systems for grammar fitness evaluation as speech recognition error predictor | |
KR20200108775A (ko) | 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 | |
CN111613212B (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN105340004A (zh) | 用于发音学习的计算机实现的方法、计算机可读介质和系统 | |
CN111177324A (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
CN109410918B (zh) | 用于获取信息的方法及装置 | |
CN103177721A (zh) | 语音识别方法和系统 | |
CN105374351A (zh) | 用于使用语音识别解释接收的语音数据的方法和装置 | |
KR20130050197A (ko) | 음성 인식 단문 메시지 서비스 기반의 사용자 맞춤 광고 장치, 및 음성 인식 단문 메시지 서비스 기반의 사용자 맞춤 광고 노출 방법 | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN114637843A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN114860938A (zh) | 一种语句意图识别方法和电子设备 | |
CN105390138A (zh) | 用于使用语音识别解释剪短的语音的方法和装置 | |
EP3843090A1 (en) | Method and apparatus for outputting analysis abnormality information in spoken language understanding | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |