CN106663423A - 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 - Google Patents
使用具有词历史的实时词网格生成的自动语音识别的系统和方法 Download PDFInfo
- Publication number
- CN106663423A CN106663423A CN201580047908.0A CN201580047908A CN106663423A CN 106663423 A CN106663423 A CN 106663423A CN 201580047908 A CN201580047908 A CN 201580047908A CN 106663423 A CN106663423 A CN 106663423A
- Authority
- CN
- China
- Prior art keywords
- word
- token
- wfst
- history
- tokens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 230000000694 effects Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 43
- 230000000644 propagated effect Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 description 47
- 239000000872 buffer Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明涉及使用具有词历史的实时词网格生成的自动语音识别的系统、制品和方法。
Description
相关申请
本申请要求2014年10月6日提交的题为“SYSTEM AND METHOD OF AUTOMATICSPEECH RECOGNITION USING ON-THE-FLY WORD LATTICE GENERATION WITH WORDHISTORIES(使用具有词历史的实时词网格生成的自动语音识别的系统和方法)”的美国专利申请No.14/506,844的权益。
背景技术
随着越来越多的基于计算机的设备使用语音识别来接收来自用户的命令以便执行某些动作,以及将语音转换为文本用于听写应用或者甚至在一个或两个方向上交换信息的情况下保持与用户的对话,语音识别系统或自动语音识别器(ASR)变得越来越重要。这样的系统可以是取决于说话者的,其中通过使用户重复词来训练系统,或不取决于说话者的,其中任何人都可以提供立即识别的词。一些系统还可以经配置理解一组固定的单个词命令,例如用于操作理解术语呼叫或应答的移动电话,或者例如用于简单数据输入电话呼叫。其他ASR使用自然语言理解(NLU)模块,该自然语言理解(NLU)模块理解语法和词的定义以从话语(所说的词或句子)的上下文识别词以用于更复杂的对话或信息交换。为了在对话系统中集成自动语音识别器(ASR)与自然语言理解(NLU)模块,通常需要置信度测量和/或替代结果。生成该数据的一种流行的方式是创建词网格,即可能的词假设的网络。然而,词网格的生成可能会减慢语音识别过程,导致相对低效的过程。
另外,词网格通常在第二步骤中从在语音解码期间实时生成的状态或音素网格中构建。由于状态和音素网格可以变得相对较大,并且通常显著地大于词网格,所以这种方法需要大量的RAM。更有效的系统是期望的。
附图说明
在附图中通过示例而非限制的方式示出本文描述的材料。为了示出的简单和清楚,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可以相对于其他元件被放大。进一步地,在认为适当的情况下,在图中重复附图标记以指示对应或类似的元件。在图中:
图1是示出自动语音识别系统的示意图;
图2是使用词历史生成词网格的语音识别过程的流程图;
图3A至图3B是使用词历史生成词网格的语音识别过程的详细流程图;
图4是用于语音解码的示例加权有限状态变换器(WFST)的图示;
图5是包括使用来自图4的WFST的中间词网格的示例静态和动态搜索空间的图示;
图6是示例静态和动态搜索空间的另一个图示;
图7是示例静态和动态搜索空间的另一个图示;
图8是示例静态和动态搜索空间的另一个图示;
图9是示例词网格的图示;
图10是示例中间词网格的图示;
图11是图10的示例中间词网格的另一个图示;
图12是图10的示例中间词网格的另一个图示;
图13是示例系统的说明图;
图14是另一示例系统的说明图;以及
图15示出全部根据本公开的至少一些实施布置的另一示例设备。
具体实施方式
现在参照附图描述一个或多个实施方式。虽然讨论了特定的配置和布置,但是应当理解,这仅仅是为了说明的目的。相关领域的技术人员将认识到,在不脱离本描述的精神和保护范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是,本文所描述的技术和/或布置还可以在除了本文所描述的之外的各种其他系统和应用中采用。
虽然以下描述阐述了例如可以在诸如芯片上系统(SoC)架构的架构中表现的各种实施方式,但是本文所描述的技术和/或布置的实施方式不限于具体架构和/或计算系统,并且可以由用于类似目的的任何架构和/或计算系统实施。例如,采用例如多个集成电路(IC)芯片和/或封装、和/或各种计算设备和/或诸如膝上型或台式计算机的消费电子(CE)设备、诸如智能电话的移动设备、视频游戏面板或控制台、电视机顶盒、车载车辆系统、听写机、建筑物的安全和环境控制系统等等的各种架构可以实施本文所描述的技术和/或布置。进一步地,虽然以下描述可以阐述诸如逻辑实施、系统部件的类型和相互关系、逻辑分区/集成选择等许多特定细节,但是可以在没有这些特定细节的情况下实践所要求保护的主题。在其他情况下,例如,可以不详细地示出诸如控制结构和完整软件指令序列的一些材料,以免混淆本文所公开的材料。本文公开的材料可以在硬件、固件、软件或其任何组合中实施。
本文公开的材料还可以实施为存储在机器可读介质或存储器上的指令,其可以由一个或多个处理器读取和执行。机器可读介质可以包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存设备;电、光、声或其它形式的传播信号(例如,载波、红外信号、数字信号等)等。在另一种形式中,诸如非暂时性计算机可读介质的非暂时性制品可以与上述任何示例或其他示例一起使用,除了其不包括暂时信号本身。它包括除了可以以“暂时”方式临时保持数据的信号本身的那些元件,例如RAM等。
在说明书中提及“一个实施方式”、“实施方式”、“示例实施方式”等指示所描述的实施方式可以包括具体特征、结构或特性,但是每个实施方式可以不一定包括具体特征、结构或特性。此外,这样的短语不一定指相同的实施方式。进一步地,当结合实施方式描述具体特征、结构或特性时,认为无论本文是否明确描述,结合其他实施方式影响这样的特征、结构或特性是在本领域技术人员的知识范围内。
使用具有词历史的实时词网格生成的自动语音识别的系统、制品以及方法。
如上所述,为了在对话系统中将自动语音识别器(ASR)与自然语言理解(NLU)模块集成,通常需要置信度测量和/或替代结果。生成该数据的一种流行方式是创建词网格,即可能的词假设的网络。词网格通常在说出话语之后在第二步骤中从动态生成的状态或音素网格中生成。由于状态和音素网格可以变得相当大,并且总是显著大于词网格,所以这种方法需要大量的RAM。例如,参见对于使用音位网格生成词网格的方法的“Efficient GeneralLattice Generation and Rescoring”(Ljolje等人,Proc.Eurospeech 99),并且其全部并入本文。
本文描述的ASR系统和方法解决了与第一最佳解码相比较以更少的存储器有效地生成词网格,并且没有减慢语音识别过程的问题。为了实现这一点,在解码期间语音识别解码器在单程中创建词网格,而不需要构建中间状态或音素网格或词边界列表。相反,在解码期间在单程中生成词网格。该方法对解码速度没有显著的负面影响。用于执行所公开的方法的解码器可以是基于加权有限状态变换器(WFST)的语音解码器,例如,如“Juicer:AWeighted Finite-State Transducer Speech Decoder”(Moore等人,3rd Joint Workshopon Multimodal Interaction and Related Machine Learning Algorithms MLMI'06)中所描述的一种解码器。词网格的产生与用于WFST解码的方法无关,例如,解码器可以使用静态或动态WFST组成。
假设词序列或词网格可以由加权有限状态变换器(WFST)解码器形成,所述加权有限状态变换器(WFST)解码器利用声学分数(基于GMM、DNN或正在分析的话语中的其它声学模型的上下文相关音位的分数)并且通过利用令牌传递算法形成话语假设。单个令牌表示所说的话语的一个假设,包括表示根据该假设说出的词的词历史指定。在解码期间,几个令牌放置在WFST的状态中,它们中的每一个表示直到该时间点可以已经说出的不同的可能话语。在解码开始时,单个令牌放置在WFST的初始状态中。另外,利用引用网格的初始节点的令牌创建空的中间词网格。在离散时间点(所谓的帧)期间,每个令牌沿着WFST的弧传输。因此,令牌被称为沿着WFST的弧传播。如果WFST状态具有多于一个输出弧,则复制令牌,为每个目的地状态创建一个令牌。如果令牌沿着具有非ε输出符号的WFST中的弧传递(即,输出不为空,使得存在附加到该弧的词假设),则用于该输出符号的新节点在中间词网格中创建并且附加到由该令牌引用的节点。然后,令牌引用新创建的节点。在单一最佳解码环境中,仅考虑WFST的每个状态中的最佳令牌就足够了。如果多于一个令牌传播到相同的状态,则除了一个令牌之外的所有令牌都会从活动搜索空间中去除。因为几个不同的话语假设重新组合成一个,所以该过程被称为重新组合。如果令牌由于重新组合而丢弃,则如果中间词网格中的对应节点没有被任何其它令牌或网格中的任何其他节点引用,则也删除中间词网格中的对应节点。如生成词网格的情况,如果在解码结束时应考虑多于一个话语假设,则该方法可丢弃重要信息。如果对于具有不同词历史的令牌(即,令牌表示不同的说出的词序列)发生重新组合,则一些话语假设在重新组合期间被丢弃,并且可不存在于最终解码结果中,降低了词网格的益处。
为了解决重新组合的问题,其他方法通常在解码期间使用音素或状态网格以便能够创建词网格,例如参见“Efficient General Lattice Generation and Rescoring”(Ljolje等人,Proc.Eurospeech 99)。本文描述的方法通过限制令牌的重新组合是可以的情况来消除对音素(或状态)网格的需要。这通过在结合每个令牌存储的诸如散列值的词指定中对每个令牌的词历史进行编码来实现。在重新组合期间,比较竞争令牌的词历史指定以确定是否必要重新组合。只有当指定相等时,才发生重新组合。如果指定不同,并且继而词历史不同,则两个令牌都保持在WFST的相同状态中,并且不发生重新组合。词历史是直到当前解码时间点建立的话语的假设整体或部分。令牌的词历史由WFST弧的输出标记组成,在解码期间令牌沿着所述WFST弧传递。这里使用的词历史和词序列是指以特定顺序放置的特定词。因此,“I am here”与“Here I am”不是相同的词序列和词历史。具有相同词历史指定或散列值的令牌表示包括相同的词和/或词序列的相同的完整或部分话语。通过一个示例,词历史散列存储在令牌中以能够通过使用单个整数比较确定两个令牌是否具有相同的词历史。具有相同词历史值的令牌可以重新组合,并且令牌中的一个被丢弃。具有在相同状态下表示不同假设词序列的不同词历史的令牌都维持在活动搜索空间中。
为了限制活动令牌的数量,偶尔仍可以重新组合放置在相同状态中但具有不同词历史的令牌,导致中间词网格的更新。词网格的该更新可以比规则令牌重新组合显著地花费更多的计算时间。因此,不对每个令牌重新组合执行该更新,而是在规则的时间间隔(例如每100ms)上或者当出现对这种更新的需求时(例如,因为活动搜索空间变得太大)执行该更新。
下面更详细地解释这些方法,并且提供这些方法以在没有大量的计算开销的情况下避免在令牌重新组合期间丢失网格信息,从而与使用具有音素网格的第一级和具有词网格的第二级的系统相比显著地减少所使用的RAM。
参照图1,诸如能使用语音的人机界面(HMI)的自动语音识别系统10可以例如具有诸如麦克风的音频捕获或接收装置14,以从用户12接收声波,并且将波转换成可以记录在存储器中的原始电声学信号。系统10可以具有模拟/数字(A/D)转换器16,以向声学前端单元18提供数字声学信号。声学前端单元18可以执行预处理和诸如权重函数、特征向量堆叠和变换、维数降低和归一化的其他处理操作,所述预处理可以包括噪声消除、使信号变平的预强调滤波、和/或辨认话语的端点的话音激活检测(VAD)以及线性预测、梅尔倒频谱和/或附加的处理(additives),例如能量测量、以及增量和加速系数。通过一个示例,前端单元18还可以以10ms帧为单位将声学信号划分为帧,并且使用傅立叶变换等从声学信号提取声学特征或特征向量,以辨认在信号中提供的音位。然后,声学评分单元20确定要被辨认的上下文相关音位的概率分数。
加权有限状态变换器(WFST)单元或解码器22使用声学分数以辨认话语假设并计算它们的分数。另外,WFST解码器22在提供置信度测量和/或替代结果的解码期间在单程中动态地创建词网格。WFST解码器22使用可以表示为被称为WFST的弧和状态的网络的计算。并且通过一个示例,通过使用散列函数,WFST可以用于生成词历史指定。同样如下面详细描述的,词历史指定用于控制令牌组合(或重新组合)并限制活动令牌的数量。WFST可以是可以包含或可以不包含ε弧的确定性或非确定性有限状态变换器。WFST可以包含可以具有或可以不具有单独权重的一个或多个最终状态。WFST可以包含一个或多个起始状态。WFST可以静态地或动态地由词典WFST(L)和语言模型或语法WFST(G)组成。替代地,它可以在不需要附加的语法或语言模型的情况下由可以或不可以被实施为树的词典WFST(L)构成。WFST可以用或可以不用上下文敏感性WFST(C)静态地或动态地组成。WFST可以用或可以不用HMMWFST(H)静态地或动态地组成,所述HMM WFST(H)可以具有HMM转变、HMM状态ID、GMM密度或DNN输出状态ID,作为输入符号。WFST可以或可以不在用于解码之前以任何顺序被确定、最小化、权重或标记推送或以其他方式变换(例如通过权重、输入或输出符号对弧进行分类)。WFST解码器22使用用于单一最佳语音解码的已知的特定规则、构造、操作和属性,并且在这里不相关的这些的细节不进一步解释,以便提供本文描述的新特征的布置的清楚描述。
使输出词网格可用于语言解释器和执行单元(或解释引擎)24以确定用户意图。该意图确定或所说的话语分类可以基于决策树,表单填充算法或统计分类(例如使用SVN或DNN)。
一旦为话语确定了用户意图,解释引擎24也可以输出响应或发起动作。例如,可以通过扬声器部件26以音频形式或者以如显示部件28上的文本的视觉形式响应。另外,可以发起动作以控制另一终端设备30(无论是否被认为是与语音识别系统10相同的设备的一部分或者在其内)。例如,用户可以陈述“呼叫回家”以激活电话设备上的电话呼叫,用户可以通过将词陈述到车辆挂件(fob)启动车辆,或者智能电话上的话音模式可以在智能电话上执行某些任务。终端设备30可以只是软件而不是物理设备或硬件或其任何组合,并且不具体限于任何东西,除了具有理解由语音识别确定导致的命令或请求并根据该命令或请求执行或发起动作的能力。
参照图2,提供了用于计算机实施的语音识别方法的示例过程200。在所示的实施方式中,过程200可以包括由按双数编号的操作202至206中的一个或多个所示的一个或多个操作、功能或动作。作为非限制性示例,本文中可以参考本文中利用图1和图4至图13中的任何一个以及在相关的情况下描述的示例语音识别设备来描述过程200。
过程200可以包括“通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符”202。换句话说,该操作针对使用利用加权有限状态变换器(WFST)的令牌传递算法来执行语音解码并生成词网格。
过程200还可以包括“当在沿着具有输出符号的弧中的一个传播的令牌处建立词时生成用于各个令牌的词历史指定,其中词历史指定指示词序列”204。这包括当具有非ε输出标记的弧通过令牌传递时生成词历史指定。如下所述,通过一个示例,指定可以是通过使用散列函数创建的散列值的整数或其他字母数字值。此外,每个指定指示处于某种顺序的某些词的序列,并且通过一个示例,指定与分配给词(I=4,am=5等)的值相关联。
过程200还可以包括“通过至少部分地使用词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌”206。如下面详细解释的,当两个令牌的词历史指定相同,指示它们都具有相同的词历史时,可以执行组合(也被称为重新组合)。在下面描述在重新组合期间对令牌的处理,未组合但共享的状态以及动态词网格更新。
参照图3A至图3B,提供了示例计算机实施的过程300,其用于使用具有词历史的实时词网格生成的自动语音识别。在所示的实施方式中,过程300可以包括由按双数编号的操作302至332中的一个或多个所示的一个或多个操作、功能或动作。作为非限制性示例,在本文中可以参考本文中利用图1至图2和图4至图13中的任一个以及在相关的情况下描述的示例语音识别设备来描述过程300。
过程300可以包括获得302声学信号数据。如上所述,这可以包括声音或音频捕获设备的使用,声学信号的预处理和前端单元的特征提取,以及声学评分单元的声学评分。通过一种方法,特征提取和声学评分在WFST解码开始之前发生。通过另一个示例,声学评分可以刚好及时发生。如果评分刚好及时进行,则它可以根据需要进行,即仅计算在WFST解码期间需要的分数。
参照图4至图9,为了帮助解释过程300,在对应于不同帧的不同时间段示出用于生成词网格402的语音解码WFST400。这里示出了WFST400,其中状态A至J通过状态之间的弧(箭头)连接。关于弧,如果它们不是ε,仅示出输出标记。省略所有输入标记和权重以对图进行简化。本文通过标记弧的源状态然后标记弧的目的地状态(例如弧AB从状态A延伸到状态B)来参考弧。与过程300的描述一起解释图示的其它特征的解释。图4提供了适用于所有图5至图9的图例。
为开始构造词网格,过程300可以包括将起始令牌放入304当前令牌缓冲器中。在一种形式中,令牌将放置在WFST的起始状态中,该起始状态对应于在WFST400的示例中的状态A。如图5所示,在该操作中还包括:初始状态A中的令牌包括表示空句子的初始词历史指定(999)和对空中间词网格402的初始节点的引用。指定999仅用作示例,但可以是许多不同的值。通过下面详细描述的一种方法,词历史指定是从散列函数确定的散列值,并且在一种形式中可以是通过使用整数形成的十六进制值,所述整数分配给正在使用并存储在ASR系统上的存储器中的词汇表中的不同的词。
诸如缓冲器1326(图13)的令牌缓冲器可以保持用于要分析的帧的令牌。因此,可以存在多个令牌缓冲器,例如每个帧一个缓冲器。通过一种方法,这包括至少两个令牌缓冲器,包括保持当前帧的活动令牌的当前令牌缓冲器和保持要激活的下一个帧的令牌的下一个令牌缓冲器。在不同的方法中,可以仅存在一个令牌缓冲器,其可以被组织为保持用于当前帧和下一个帧的两个令牌的环。该缓冲器可以包括将当前令牌与未来令牌分离的标志。
过程300可以包括计算306用于下一时间帧的声学特征。因此,确定一个或多个可以提取的特征,并且在本示例中,基于WFST操作,确定存在三个不同的目的地状态(B、C和D)。然后,状态A处的令牌从令牌缓冲器取出308,并且使用声学分数通过每个弧,且在该情况下是弧AB、AC和AD来传播310。因此,可以说令牌同时从话语初始状态沿着三个不同的可能路径或序列传播,这导致放置在用于下一帧的令牌缓冲器中的三个创建的令牌。
更特定地,根据用于解码的WFST的类型,弧的输入标记可以是可能上下文相关的音位、HMM、GMM密度、DNN状态或其它声学ID。输入用于确定应用于沿着弧传播的令牌的声学分数。弧的输出标记表示所说的词或其他句子片段。如果弧的输出标记不是ε(空),并且沿着所述弧传递令牌,则将相应的词或句子片段附加到令牌的话语假设。因此,例如,弧AB的输出是词“I”,意味着如果令牌沿着弧AB传递,则潜在的话语假设包含词“I”。
因此,对于过程300,下一操作可以是确定“弧具有输出标记吗?”312。如果是,如在弧AB的情况下,则在中间词网格中创建新节点314,并且对于一个示例,如图6的第一帧600所示,更新316令牌的词历史散列。由于输出了词,所以词历史被提供有指定103,并且在词网格402中放置词“I”形成边缘。词网格中新创建的节点通过将边缘从新节点放置到最初节点引用最初由令牌引用的网格中的节点。在图6的示例中,该边缘从用于“I”的新节点到句子初始节点。更新令牌引用以指向新创建的节点。例如,如图6中的弧AC的情况,如果在令牌沿着其传播的弧上没有输出标记,则既不修改中间词网格、从令牌到网格中的节点的应用,也不修改词历史指定。因此,在图6的示例中,状态C中的令牌引用网格中的句子初始节点并保持词历史指定999。
现在跳过用于重新组合标记(318-322)的操作,过程300检查更多的弧324。在本示例中,过程300循环,使得可以依次分析弧AC和AD,并且将建立状态C和状态D处的令牌以及建立用于两个令牌中的每一个的初始词历史指定999(图6)。当没有更多的弧以分析当前活动令牌时,过程300检查326以确定当前令牌缓冲器中是否存在更多令牌。如果是,则过程300循环以从当前令牌缓冲器取出308下一个令牌,并且过程300如前所述地进行。一旦令牌缓冲器对于当前帧为空326,则过程300用当前令牌缓冲器交换328下一帧令牌缓冲器。如果未到达话语的结束330,则过程300环回以重复针对下一帧的网格构建,其变为当前帧,并且再次计算306声学特征。在该情况下,状态B、C和D中的令牌变为对于第一帧条件600的WFST400上的活动令牌。该过程对于每个帧重复,直到完全处理音频输入或者检测到话语的结束。话语的结束检测可以通过话音活动检测(VAD)、话语假设的稳定时间、超时或适合于确定说话者是否已完成讲话的任何其它方法来完成。
再次参照图6至图7,其示出在第一帧(条件)600中的搜索空间,其中活动令牌处于WFST400的状态B、C和D中,当沿着弧CF和DG传递令牌时,用于词“are”的节点放置在中间词网格402中(如第二帧700中所示),它们的词历史指定被更新为378。然后,过程300可以如上所述继续。
当过程300到达第三帧700(图7)并且在状态B和C中的令牌分别沿着WFST400中的弧BF和CF传递时,因为两个令牌都处于相同的状态F,所以存在可能的重新组合。根据检查318在目的地状态中是否存在相同的词历史散列的操作,避免了重新组合,因为令牌分别具有词历史指定378和词历史指定103。因此,两个令牌都保留在状态F。更特定地,当没有形成新词时,词历史指定值与令牌一起传播。因此,在本示例中,在帧条件600(图6)处,沿着弧BF传递的令牌具有来自先前帧的词历史指定103,而沿着输出词“are”的弧CF传递的令牌具有更新的词历史指定378。为在常规系统中重新组合,如果两个令牌传播到相同的状态F而不考虑先前的词历史,则具有较差声学分数的令牌将被丢弃。然而,在该情况下,因为被比较的两个令牌具有不同的词历史指定(103对378),所以维持两个令牌。
参照图8,其示出第四帧800,其中令牌传播到状态A、F、G、H、I和J中。这里,四个不同的令牌传播到状态I中。两个令牌通过弧FI传播,并且一个令牌通过弧EI传播以及一个令牌通过弧GI传播。因为所有四个词历史指定都不同(816、103、78和378),所以没有发生重新组合。
在一种情况下,现在沿着弧DG传播的令牌由于重新组合而被去除,因为沿着路径FG传播的令牌具有相同的目的地状态,相同的词指定(378),并且在我们的示例中具有更好的分数。如上所述,在该情况下,具有较差分数的令牌被丢弃。
同样在WFST400(帧条件800)上,从沿弧FI传播的两个令牌形成用于“am”的两个词网格节点。令牌中的一个具有先前帧中的词指定103(表示“I”)。令牌的词历史指定更新为816(表示“I am”)。另一个令牌具有词历史指定378(表示“are”),并且更新为78(表示“aream”)。
一旦检测到话语的结束330,则过程300可以包括“输出最佳话语假设”332,并且具体地向解释引擎提供完成的词网格402以从由词网格所呈现的词序列确定最佳词序列。
参照图9,其示出所生成的和完成的词网格402。通过把处于最终状态(例如,在最终状态I和J)的所有令牌作为可能的句末端假设来生成词网格。此外,现在将边缘的方向颠倒以示出从话语的开始到话语的结束的流动,其具有符号</s>。删除未到达话语的结束的任何节点。因此,如图所示,现在从词网格402中删除了由于重新组合而丢弃的第二个“are”。网格表示句子“are”、“are am”、“I”、“I am”和“you”。
参照图10至图12,其提供用于生成词网格1000的进一步的细节。示出词网格的生成的另一种方式是示出具有活动令牌的词网格,所述活动令牌与生成的示出在令牌指向的节点处词节点的插入的词网格的图示集成。由方法再次生成的词网格是有向图。图示的节点表示单个词的假设,而图示的边缘表示“是其后继”属性,即,如上面对词网格402所解释的,该图示从话语的结束指向话语的开始。在解码期间,如图10所示,每个令牌具有对词网格1000中的节点的一个或多个引用,词网格1000表示词输出假设的历史。当令牌更新导致新的输出词时,将该词插入具有该令牌所具有的相同边缘的词网格中。更新的令牌引用新节点。使用下面解释的递归散列函数更新令牌的词历史散列。在图10中示出了在解码期间添加到词网格1000的词输出“hi”的示例。
如上所述,与不执行实时词网格生成的常规处理不同地对待令牌重新组合。通常,如果令牌仅仅对应于相同的WFST状态,则重新组合令牌。如上所述,例如,如果令牌对应于相同的WFST状态并且还具有相同的词历史指定或散列,则这里仅重新组合令牌,或主要地或通常仅重新组合令牌。这样,在不需要太多的计算开销的情况下,在令牌重新组合期间最小化网格信息的丢失。
参照图11,所公开的重新组合过程具有异常。为保持小的活动令牌的数量,偶尔重新组合对应于相同状态但具有不同词历史(并且继而具有不同的词历史指定)的令牌,导致网格更新。当出于该目的重新组合具有不同词历史的令牌时,将存在于两个令牌中的任一个中的所有对网格节点的引用组合到新令牌中,以便保有词网格信息。如果在两个令牌中都存在对节点的引用,则抛弃具有较差分数的引用。在图11中例示这种更新,图11示出以“there”、“this”和“hi”结束的词序列组合成单个活动令牌,尽管每个明显具有不同的词历史指定。该更新不应该太频繁地执行,因为与其他重新组合相比,这种网格更新可相对昂贵,这是因为必须比较对两个令牌的网格节点的所有引用以便找到副本。这种动态更新可以由时间间隔(例如每100ms大约一次)或者如果达到活动令牌的目标数量来限制。该异常更新对于词网格生成是精确的不是必需的,并且如果仅识别单个句子则可以不需要。它可以仅在识别长时间运行(例如听写)时使用,以便减少活动令牌的数量。
参照图12,在话语结束时,通常存在多于一个表示话语结束的活动令牌。代替如在第一最佳解码中执行的取出最佳令牌,将对应于WFST中的最终节点的所有活动令牌组合成词网格的一个话语结束节点。话语结束的处理可以在图12中看到,其中“there”和“hi”令牌组合成单个最终节点。与仅考虑一个最佳最终词的常规过程相反,这导致可以由解释引擎考虑的词网格上的替代词序列(一些以“there”结束,另一些以“hi”结束)。
现在返回到词历史指定的生成,通过一种方法,指定是通过使用散列函数形成的散列值(或简单地散列)。通过一个示例,词历史指定的分配依赖于表示词序列的整数值。使用散列以便生成那些整数。散列可以看作是从词串到单个整数的函数h。对于网格生成,散列函数需要是递归的,使得对于空句子ε和每个词序列(w1,w2,...,wn):
h(ε)=h0 (1)
有几种方法递归地构建散列值。一个属性是几乎没有冲突(换句话说,不同的输入不太可能导致相同的输出)。如上所述,词历史散列在解码期间存储在每个活动令牌中,并且其用于避免与如上所述的具有不同词历史的那些令牌的令牌重新组合。因此,如果两个不同的词历史导致相同的散列值,则由于令牌重新组合,信息可在网格中丢失。
可以用于确定词历史指定的散列函数可以包括循环冗余校验(CRC)散列函数、称为函数的和类型的校验和的散列函数、非密码散列函数、密码散列函数等。对于硬件实施,循环冗余校验(CRC)更好,因为其非常高效。对于软件实施,非密码散列函数通常是最适合的,因为它们通常计算速度快并且具有相当好的密钥分布。校验和可不如这些其他散列函数准确,因为它们通常是位置无关的,即句子“I am here”和“am I here”导致相同的校验和。此外,密码散列函数可在计算上是昂贵的,但是仍然可以是合适的。
通过一个示例,散列函数可以是sdbm(ndbm(新数据库管理器)的公共域重新实施)中的散列函数实施的32位版本,并且与sdbm数据库程序库一起使用。作为散列函数,其在计算上是高效的,并且在密钥分布方面看起来是足够的。对于字符i处的字符串str,实际函数是h(i)=h(i-1)·65599+str[i]。随机选取作为乘法值的常数65599(十六进制的0x1003F),并发现是足够的。sdbm散列标签函数的可能伪代码如下(在下面伪代码中是在使用位移操作实施乘法的gawk中使用的快速版本):
类似MurmurHash的其他散列函数可以给出一样好或更好的结果。
为创建用于话语的散列,例如可以为正使用的词汇表建立并存储词到整数的1:1映射。
yes | 1 |
here | 2 |
there | 3 |
I | 4 |
am | 5 |
对于该示例,句子“I am here”由“4 5 2”表示。
散列过程还可以使用具有值1-9和对应于值10-15的A-F的常用十六进制记数法。对于空话语和在话语开始处创建的起始令牌,可以使用散列值0xFFFFFFFF。许多其他值也可以起作用。只要在沿着网格中的弧传播散列值(或词历史指定)的令牌创建期间也没有词被假设,则从该令牌创建的所有令牌复制散列值。
例如,当假设第一个词“I”时,更新对应令牌的词历史散列值:
h(“I”)=modulo0xFFFFFFFF(wI+h(ε)·0x1003F)
=modulo0xFFFFFFFF(0x4+0xFFFFFFFF·0x1003F)
=modulo0xFFFFFFFF(0x1003EFFFEFFC5)
=0xFFEFFC5
当对于具有散列值0xFFFEFFC5的令牌出现下一个词“am”时,再次更新散列值:
h(“I am”)=modulo0xFFFFFFFF(0x5+0xFFEFFC5·0x1003F)=0xFF85F180
h(“I am here”)=modulo0xFFFFFFFF(0x2+0xFF85F180·0x1003F)=
0xD3766E82
即使两个词序列可以包括相同的词,散列函数方程中的算子的组合根据序列中的词的顺序导致不同的指定值。如果在相同节点中存在另一个令牌,但是其具有词历史“am Ihere”而不是“I am here”,则它具有不同于0xD3766E82的词历史散列值0xD3F37DC4,并且在本过程中两个令牌通常不组合。在该情况下,除非如上所述发生异常更新,否则两个令牌和两个词历史指定都维持在相同的状态。
上述过程不需要构建比有效词网格需要更多的RAM的中间音素或状态网格。因此,本文描述的方法需要较少的存储器以操作。此外,与单一最佳维特比解码相比,性能测量没有示出使用本文的方法的解码速度的可测量的降低。由于单一最佳维特比解码被认为是解码话语的最简单和最快速的方法之一,因此假定本方法不会比任何其它已知的生成词网格的方法慢得多。
应当理解,过程200和/或300可以由样本ASR系统10和/或1300提供以操作本公开的至少一些实施方式。这包括语音识别处理系统1300(图13)中的声学前端单元1308、声学评分单元1310、WFST解码器1312和语言解释器执行单元1314以及其他的操作,以及类似地对于系统10(图1)的操作。
另外,可以响应于由一个或多个计算机程序产品提供的指令进行图2至图3的操作中的任何一个或多个。这样的程序产品可以包括提供指令的信号承载介质,例如,当所述指令由处理器执行时,所述指令可以提供本文描述的功能。计算机程序产品可以以任何形式的一个或多个机器可读介质提供。因此,例如,响应于通过一个或多个计算机或机器可读介质传送到处理器的程序代码和/或指令或指令集,包括一个或多个处理器核心的处理器可以进行本文中的示例过程的操作中的一个或多个。一般来说,机器可读介质可以以程序代码和/或指令或指令集的形式传送可以使得任何设备和/或系统如本文所述执行的软件。机器或计算机可读介质可以是诸如非暂时性计算机可读介质的非暂时性制品或介质,并且可以与上述的任何示例或其他示例一起使用,除了其不包括暂时信号本身。它包括除了可以以“暂时”方式临时保持数据的信号本身的那些元件,例如RAM等。
如在本文描述的任何实施方式中使用的,术语“模块”指经配置提供本文所描述的功能的软件逻辑、固件逻辑和/或硬件逻辑的任何组合。软件可以体现为软件包、代码和/或指令集或指令,并且例如,如本文所描述的任何实施方式中使用的“硬件”可以包括单独的或以任何组合的硬连线电路、可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件。模块可以共同地或单独地体现为形成较大系统(例如,集成电路(IC)、芯片上系统(SoC)等)的一部分的电路。例如,模块可以体现在用于经由本文所讨论的编码系统的软件、固件或硬件实施的逻辑电路中。
如在本文描述的任何实施方式中所使用的,术语“逻辑单元”指经配置提供本文描述的功能的固件逻辑和/或硬件逻辑的任何组合。例如,在本文中描述的任何实施方式中使用的“硬件”可以包括单独的或以任何组合的硬连线电路、可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件。逻辑单元可以共同地或单独地体现为形成较大系统(例如,集成电路(IC)、芯片上系统(SoC)等)的一部分的电路。例如,逻辑单元可以体现在用于实施本文讨论的编码系统的固件或硬件的逻辑电路中。本领域的技术人员将理解,由硬件和/或固件执行的操作可以替代地经由软件实施,软件可以体现为软件包、代码和/或指令集或指令,并且还将理解,逻辑单元还可以利用软件的一部分实施其功能。
如在本文所描述的任何实施方式中使用的,术语“部件”可以指模块或逻辑单元,正如在以上描述了这些术语。因此,术语“部件”可以指经配置提供本文所描述的功能的软件逻辑、固件逻辑和/或硬件逻辑的任何组合。例如,本领域技术人员将理解,由硬件和/或固件执行的操作可以替代地经由软件模块实施,软件模块可以体现为软件包、代码和/或指令集,并且还将理解,逻辑单元还可以利用软件的一部分来实施其功能。
参照图13,根据本公开的至少一些实施布置示例图像处理系统1300。在各种实施方式中,示例语音识别处理系统1300可以具有音频捕获设备1302以形成或接收声学信号数据。这可以以各种方式实施。因此,在一种形式中,语音识别处理系统1300可以是诸如麦克风的音频捕获设备,并且在该情况下,音频捕获设备1302可以是麦克风硬件和传感器软件、模块或部件。在其他示例中,语音识别处理系统1300可以具有包括或可以是麦克风的音频捕获设备1302,并且逻辑模块1304可以与音频捕获设备1302远程通信或以其它方式可通信地耦合到音频捕获设备1302,用于进一步处理声学数据。
在任一种情况下,这种技术可以包括电话、智能电话、听写机、其他录音机、移动设备或车载设备、或这些的任何组合。因此,在一种形式中,音频捕获设备1302可以包括音频捕获硬件,所述音频捕获硬件包括一个或多个传感器以及致动器控制机构。这些控制机构可以是用于操作传感器的传感器模块或部件的一部分。传感器部件可以是音频捕获设备1302的一部分,或者可以是逻辑模块1304的一部分或两者。这种传感器部件可以用于将声波转换成电声学信号。音频捕获设备1302还可以具有A/D转换器、其他滤波器等,以提供用于语音识别处理的数字信号。
在所示的示例中,逻辑模块1304可以包括提供如结合单元18(图1)描述的预处理并且辨认声学特征的声学前端单元1308、提供用于声学特征的声学分数的声学分数单元1310、提供如本文所描述的词网格的WFST解码器1312、以及确定最佳词序列以匹配声学信号的语言解释器执行单元1314。WFST解码器单元1312可以由处理器1320操作,或者甚至完全或部分位于处理器1320,并且可以包括或连接到加速器1322,以至少执行具有词历史敏感性或声学评分或两者的WFST解码。逻辑模块可以通信地耦合到音频捕获设备1302的部件,以便接收原始声学数据。逻辑模块1304可以被认为或可以不被认为是音频捕获设备的一部分。
语音识别处理系统1300可以具有一个或多个处理器1320、存储器存储器件1324、至少一个扬声器单元1328、一个或多个显示器1328、其他终端设备1332、以及天线1334,所述一个或多个处理器1320可以包括诸如Intel Atom的专用加速器1322,所述存储器存储器件1324可以保持或可以不保持令牌缓冲器1326以及本文提及的词汇表、词历史表等,所述扬声器单元1328用于提供对输入声学信号的听觉响应,所述显示器1328用于提供文本的图像1330作为对声学信号的视觉响应,所述其他终端设备1332用于响应于声学信号而执行动作。在一个示例实施方式中,图像处理系统1300可以具有显示器1328、通信地耦合到显示器的至少一个处理器1320、通信地耦合到处理器且通过一个示例具有用于存储如上所述的令牌的令牌缓冲器1326的至少一个存储器1324。天线1334可以被提供用于将与输入声学信号匹配的最佳词序列或其他相关命令传输到可以基于这样的确定而动作的其他设备。另外,语音识别过程的结果可以存储在存储器1324中。如所示出的,这些部件中的任一个可以能够彼此通信和/或与逻辑模块1304和/或音频捕获设备1302的部分通信。因此,处理器1320可以通信地耦合到音频捕获设备1302和用于操作那些部件的逻辑模块1304两者。如图13所示,通过一种方法,虽然图像处理系统1300可以包括与具体部件或模块相关联的一组具体块或动作,但是这些块或动作可以与不同于这里所示出的具体部件或模块的部件或模块相关联。
参照图14,根据本公开的示例系统1400操作本文所描述的图像处理系统的一个或多个方面。从下面描述的系统部件的性质将理解,这样的部件可以与以上描述的图像处理系统的某部分或某些部分相关联,或者可以用于操作以上描述的图像处理系统的某部分或某些部分。在各种实施方式中,系统1400可以是媒体系统,但系统1400不限于该上下文。例如,系统1400可以并入麦克风、个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如,智能电话、智能平板或智能电视)、移动互联网设备(MID)、消息传递设备、数据通信设备等。
在各种实施方式中,系统1400包括耦合到显示器1420的平台1402。平台1402可以从诸如内容服务设备1430或内容递送设备1440的内容设备或其它类似内容源接收内容。例如,包括一个或多个导航特征的导航控制器1450可以用于与平台1402、扬声器1470、麦克风1470和/或显示器1420交互作用。这些部件中的每一个在下面更详细地描述。
在各种实施方式中,平台1402可包括芯片组1405、处理器1410、存储器1412、存储装置1414、音频子系统1404、图形子系统1415、应用1416和/或无线电装置1418的任何组合。芯片组1405可以提供处理器1410、存储器1412、存储装置1414、音频子系统1404、图形子系统1415、应用1416和/或无线电装置1418间的相互通信。例如,芯片组1405可以包括能够提供与存储装置1414相互通信的存储装置适配器(未示出)。
处理器1410可以实施为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器;x86指令集兼容处理器,多核或任何其它微处理器或中央处理单元(CPU)。在各种实施方式中,处理器1410可以是双核处理器、双核移动处理器等。
存储器1412可以实施为易失性存储器设备,例如但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。
存储装置1414可以实施为非易失性存储设备,例如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附加存储设备、闪存存储器、电池备份SDRAM(同步DRAM)和/或网络可访问存储设备。在各种实施方式中,例如,当包括多个硬盘驱动器时,存储装置1414可以包括用于提高对有价值数字媒体的存储性能增强保护的技术。
音频子系统1404可以执行诸如声学信号的音频的处理,用于本文所述的语音识别和/或话音识别。音频子系统1404可以包括一个或多个处理单元和加速器。这样的音频子系统可以集成到处理器1410或芯片组1405中。在一些实施方式中,音频子系统1404可以是通信地耦合到芯片组1405的独立卡。接口可以用于将音频子系统1404通信地耦合到扬声器1460、麦克风1470和/或显示器1420。
图形子系统1415可以执行诸如静止或视频的图像的处理以用于显示。例如,图形子系统1415可以是图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可以用于通信地耦合图形子系统1415和显示器1420。例如,接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD兼容技术中的任一种。图形子系统1415可以集成到处理器1410或芯片组1405中。在一些实施方式中,图形子系统1415可以是通信地耦合到芯片组1405的独立卡。
本文描述的音频处理技术可以在各种硬件架构中实施。例如,可以在芯片组内集成音频功能。替代地,可以使用离散的音频处理器。作为又一实施,音频功能可以由包括多核处理器的通用处理器提供。在另外的实施例中,功能可以在消费电子设备中实施。
无线电装置1418可以包括能够使用各种合适的无线通信技术传输和接收信号的一个或多个无线电装置。这样的技术可以涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(WLAN)、无线个人局域网(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨这样的网络进行通信时,无线电装置1418可以根据任何版本中的一个或多个适用的标准操作。
在各种实施方式中,显示器1420可以包括任何电视型监视器或显示器。例如,显示器1420可以包括计算机显示屏、触摸屏显示器、视频监视器、类电视设备和/或电视。显示器1420可以是数字和/或模拟的。在各种实施方式中,显示器1420可以是全息显示器。此外,显示器1420可以是可以接收视觉投影的透明表面。这样的投影可以传送各种形式的信息、图像和/或对象。例如,这样的投影可以是用于移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用1416的控制下,平台1402可以在显示器1420上显示用户界面1422。
在各种实施方式中,例如,内容服务设备1430可以由任何国家、国际和/或独立的服务托管,并且因此经由因特网可由平台1402访问。内容服务设备1430可以耦合到平台1402和/或耦合到显示器1420、扬声器1460和麦克风1470。平台1402和/或内容服务设备1430可以耦合到网络1465以对到和来自网络1465的媒体信息进行通信(例如,发送和/或接收)。内容递送设备1440还可以耦合到平台1402、扬声器1460、麦克风1470和/或显示器1420。
在各种实施方式中,内容服务设备1430可以包括麦克风、有线电视盒、个人计算机、网络、电话、能使用互联网的设备或能够递送数字信息和/或内容的器件、以及能够经由网络1465或直接地在内容提供商与平台1402和扬声器子系统1460、麦克风1470和/或显示器1420之间单向或双向地通信内容的任何其他类似设备。应当理解,内容可以经由网络1460单向和/或双向地通信到以及经由网络1460单向和/或双向地通信来自系统1400中的部件中的任何一个和内容提供商。内容的示例可以包括任何媒体信息,例如包括视频、音乐、医疗和游戏信息等。
内容服务设备1430可以接收诸如包括媒体信息、数字信息和/或其它内容的有线电视节目的内容。内容提供商的示例可以包括任何有线或卫星电视或无线电或因特网内容提供商。所提供的示例不意味着以任何方式限制根据本公开的实施。
在各种实施方式中,平台1402可以从具有一个或多个导航特征的导航控制器1450接收控制信号。例如,控制器1450的导航特征可以用于与用户界面1422交互作用。在实施例中,导航控制器1450可以是定点设备,其可以是允许用户将空间(例如,连续和多维的)数据输入到计算机中的计算机硬件部件(特定地,人机接口设备)。诸如图形用户界面(GUI)以及电视和监视器的许多系统允许用户使用物理手势控制并向计算机或电视提供数据。音频子系统1404还可以用于控制制品的运动或在界面1422上的命令的选择。
控制器1450的导航特征的移动可以通过显示器上显示的指针、光标、焦点环或其它视觉指示符的移动或通过音频命令在显示器(例如,显示器1420)上复制。例如,在软件应用1416的控制下,例如,位于导航控制器1450上的导航特征可以被映射到在用户界面1422上显示的虚拟导航特征。在实施例中,控制器1450可以不是单独的部件,而是可以集成到平台1402、扬声器子系统1260、麦克风1470和/或显示器1420中。然而,本公开不限于本文所示或描述的元件或上下文。
在各种实施方式中,驱动器(未示出)可以包括技术以使得用户能够在起始启动之后(例如,当启用时)通过触摸按钮来像电视一样立即打开和关闭平台1402,或通过听觉命令打开和关闭平台1402。即使当平台被“关闭”时,程序逻辑可以允许平台1402将内容流式传输到媒体适配器或其它内容服务设备1430或内容递送设备1440。另外,例如,芯片组1405可以包括用于8.1环绕声音频和/或高清晰度(7.1)环绕声音频的硬件和/或软件支持。驱动器可以包括用于集成听觉或图形平台的听觉或图形驱动器。在实施例中,听觉或图形驱动器可以包括外围部件互连(PCI)快速图形卡。
在各种实施方式中,可以集成系统1400中所示的部件中的任何一个或多个。例如,可以集成平台1402和内容服务设备1430,或者可以集成平台1402和内容递送设备1440,或者例如,可以集成平台1402、内容服务设备1430和内容递送设备1440。在各种实施例中,平台1402、扬声器1460、麦克风1470和/或显示器1420可以是集成单元。例如,可以集成显示器1420、扬声器1460和/或麦克风1470以及内容服务设备1430,或者可以集成显示器1420、扬声器1460和/或麦克风1470以及内容递送设备1440。这些示例不意味着限制本公开。
在各种实施例中,系统1400可以实施为无线系统、有线系统或两者的组合。当系统1400实施为无线系统时,系统1400可以包括适合于通过无线共享介质进行通信的部件和接口,例如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等。无线共享介质的示例可以包括无线频谱的部分,诸如RF频谱等。当系统1400实施为有线系统时,系统1400可以包括适合于通过有线通信介质进行通信的部件和接口,例如输入/输出(I/O)适配器、用于将I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、光盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、电缆、金属引线、印刷电路板(PCB)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。
平台1402可以建立一个或多个逻辑或物理信道以对信息进行通信。信息可以包括媒体信息和控制信息。媒体信息可以指表示用于用户的内容的任何数据。例如,内容的示例可以包括来自话音对话、视频会议、流视频和音频、电子邮件(“email”)消息、话音邮件消息、字母数字符号、图形、图像、视频、音频、文本等的数据。例如,来自话音对话的数据可以是语音信息、静默时段、背景噪声、舒适噪声、音调等。控制信息可以指表示用于自动化系统的命令、指令或控制词的任何数据。例如,控制信息可以用于通过系统路由媒体信息,或者指示节点以预定方式处理媒体信息。然而,实施方式不限于图14中示出或描述的元件或上下文。
参照图15,小形状因子设备1500是其中可以体现系统1400的变化的物理样式或形状因子的一个示例。通过该方法,设备1500可以实施为具有无线能力的移动计算设备。例如,移动计算设备可以指具有处理系统和诸如一个或多个电池的移动电源或移动电力供应的任何设备。
如上所述,移动计算设备的示例可以包括具有音频子系统的任何设备,例如个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如,智能电话、智能平板或智能电视)、移动互联网设备(MID)、消息传递设备、数据通信设备等,以及可以接受音频命令的任何其他车载(例如在车辆上)计算机。
移动计算设备的示例还可以包括被布置成由人佩戴的计算机,例如头戴式电话、头带、听力辅助设备、腕式计算机、手指计算机、环形计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、服装计算机和其他可佩戴计算机。在各种实施例中,例如,移动计算设备可以实施为能够执行计算机应用以及话音通信和/或数据通信的智能电话。尽管可以通过示例的方式利用实施为智能电话的移动计算设备描述一些实施例,但是可以理解,也可以使用其他无线移动计算设备实施其他实施例。实施例不限于该上下文。
如图15所示,设备1000可以包括外壳1502、包括屏幕1510的显示器1504、输入/输出(I/O)设备1506和天线1508。设备1500还可以包括导航特征1015。显示器1504可以包括用于显示适合于移动计算设备的信息的任何合适的显示单元。I/O设备1506可以包括用于将信息输入到移动计算设备中的任何合适的I/O设备。I/O设备1506的示例可以包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、摇臂开关、软件等。还可以通过麦克风1514将信息输入到设备1500中。这样的信息可以由如本文所述的语音识别设备以及话音识别设备来数字化,并作为设备1500的一部分,并且可以经由扬声器1516提供音频响应或经由屏幕1210提供视觉响应。实施例不限于该上下文。
可以使用硬件元件、软件元件或两者的组合实施本文所描述的各种形式的设备和过程。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、进程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、词、值、符号或其任何组合。确定实施是否使用硬件元件和/或软件元件实施可以根据任何数量的因素而变化,这些因数诸如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度和其他设计或性能约束。
至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令实施,所述代表性指令表示处理器内的各种逻辑,当由机器读取时,使得机器制造逻辑以执行本文所描述的技术。称作“IP核”的这样的表示可以存储在有形的机器可读介质上,并且供应给各种客户或制造设施以加载到实际制作逻辑或处理器的制造机器中。
虽然已经参考各种实施方式描述了本文所阐述的某些特征,但是该描述并不旨在以限制性意义来解释。因此,对本公开所属领域的技术人员显而易见的本文所描述的实施方式的各种修改以及其他实施被认为处于本公开的精神和保护范围内。
以下示例涉及进一步的实施方式。
通过一个示例,计算机实施的语音识别方法包括通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)传播令牌具有作为WFST的输出标记的弧和词或词标识符。该方法还包括当在沿着具有输出符号的弧中的一个传播的令牌处建立词时生成用于各个令牌的词历史指定,其中词历史指定指示词序列,以及通过至少部分地使用词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。
通过另一实施方式,该方法还可以包括当令牌的词历史指定相同时,在WFST的相同节点中重新组合两个或更多个令牌,并且当两个或更多令牌的词历史指定不相同时避免重新组合,以及当令牌正在传播时将在具有输出标记的WFST的弧处建立的词放置到词网格中,以及当多个令牌的词历史指定是不同的时,通过将多个令牌重新组合为单个新的活动令牌执行词网格的异常更新。这可以包括当多个令牌的词网格节点引用对来自多个令牌中的其他令牌的其他引用是唯一的时,将多个令牌的词网格节点引用放置到新的活动令牌中,以及当引用在多个令牌中的一个以上的令牌中相同时,对于新的活动令牌维持具有最佳分数的引用。该方法进一步可以包括将不同的值分配给将用作WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定词历史指定,以及将多个最终结束令牌组合成单个话语结束令牌,其中指定是通过使用递归散列函数形成的散列标签,并且其中词历史指定根据词序列内的词的顺序而不同。
通过又一个实施方式,计算机实施的语音识别系统包括至少一个声学信号接收单元、通信地连接到声学信号接收单元的至少一个处理器、通信地耦合到至少一个处理器的至少一个存储器、以及加权有限状态变换器(WFST)解码器,所述加权有限状态变换器(WFST)解码器通信地耦合到处理器,并且通过加权有限状态变换器(WFST)传播令牌,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的词或词标识符。这可以包括将词序列放置到词网格中。还可以提供WFST解码器以当在具有输出符号的WFST的弧处建立词时生成用于各个令牌的词历史指定,其中词历史指定指示词序列,并且可以提供WFST解码器以通过至少部分地使用词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。
通过另一示例,系统提供了WFST解码器,WFST解码器在令牌的词历史指定相同时在WFST的相同状态中重新组合两个或更多个令牌,当两个或更多个令牌的词历史指定不相同时避免重新组合,当令牌传播时,将在具有输出标记的WFST的弧处建立的词放置在词网格中,当多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行词网格的异常更新。该最后操作可以包括当多个令牌的词网格节点引用对来自多个令牌中的其他令牌的其他引用是唯一的时,使WFST解码器将多个令牌的词网格节点引用放置到新的活动令牌中,以及当引用在多个令牌中的一个以上的令牌中是相同的时,对于新的活动令牌维持具有最佳分数的引用。另外,可以提供WFST解码器以将不同的值分配给将用作WFST的输出符号的可能词的词汇表中的各个词,并使用对应于多个词的多个值确定词历史指定,以及将多个最终结束令牌组合成单个话语结束令牌,其中指定是通过使用递归散列函数形成的散列标签,并且其中词历史指定根据词序列内的词的顺序而不同。
通过一种方法,至少一个计算机可读介质包括多个指令,所述多个指令响应于在计算设备上执行,使计算设备通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的词或词标识符。当在沿着具有输出符号的弧传播的令牌处建立词时,计算设备被计算以生成用于各个令牌的词历史指定,其中词历史指定指示词序列,以及通过至少部分地使用词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。
通过另一方法,指令使计算设备在令牌的词历史指定相同时,在WFST的相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合,在令牌传播时将在具有输出标记的WFST的弧处建立的词放置到词网格中,在多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行词网格的异常更新,并且包括当多个令牌的词网格节点引用对来自多个令牌中的其他令牌的其他引用是唯一的时,将多个令牌的词网格节点引用放置到新的活动令牌中,以及当引用在多个令牌中的一个以上的令牌中是相同的时,对于新的活动令牌维持具有最佳分数的引用。还可以提供WFST以将不同的值分配给将用作WFST的输出符号的可能词的词汇表中的各个词,并使用对应于多个词的多个值确定词历史指定,以及将多个最终结束令牌组合成单个话语结束令牌,其中指定是通过使用递归散列函数形成的散列标签,并且其中词历史指定根据词序列内的词的顺序而不同。
在另一示例中,至少一个机器可读介质可以包括多个指令,所述多个指令响应于在计算设备上执行,使计算设备执行根据以上示例中的任何一个的方法。
在又一示例中,器件可以包括用于执行根据以上示例中任何一个的方法的装置。
以上示例可以包括特征的特定组合。然而,以上示例在这方面不受限制,并且在各种实施方式中,以上示例可以包括仅承担这些特征的子集,承担这些特征的不同顺序,承担这些特征的不同组合,和/或承担除了那些明确列出的特征之外的附加特征。例如,关于本文中的任何示例方法描述的所有特征可以关于任何示例器件、示例系统和/或示例制品实施,并且反之亦然。
Claims (25)
1.一种计算机实施的语音识别的方法,所述方法包括:
通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符;
当在沿着具有输出符号的所述弧中的一个传播的令牌处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及
通过至少部分地使用所述词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。
2.根据权利要求1所述的方法,所述方法包括当令牌的词历史指定相同时,在所述WFST的相同节点中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合。
3.根据权利要求1所述的方法,所述方法包括当所述令牌传播时,将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。
4.根据权利要求3所述的方法,所述方法包括当多个令牌的词历史指定不同时,通过将所述多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中相同时,对于所述新的活动令牌维持具有最佳分数的引用。
5.根据权利要求1所述的方法,其中所述指定是通过使用递归散列函数形成的散列标签。
6.根据权利要求1所述的方法,所述方法包括将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定所述词历史指定。
7.根据权利要求1所述的方法,其中所述词历史指定根据所述词序列内的所述词的顺序而不同。
8.根据权利要求1所述的方法,所述方法包括将多个最终结束令牌组合成单个话语结束令牌。
9.根据权利要求1所述的方法,所述方法包括
当令牌的词历史指定相同时,在所述WFST的所述相同节点中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合;
当所述令牌传播时将在具有输出标记的WFST的弧处建立的词放置到词网格中;
当多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中是相同的时,对于所述新的活动令牌维持具有最佳分数的引用;
将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,以及使用对应于多个词的多个值确定所述词历史指定;以及
将多个最终结束令牌组合成单个话语结束令牌;
其中所述指定是通过使用递归散列函数形成的散列标签;
其中所述词历史指定根据所述词序列内的词的顺序而不同;
其中所述词历史指定是十六进制数;其中用添加到所述十六进制数的令牌的每个词更新所述十六进制数;并且其中根据所述令牌中的词的顺序而不同地更新所述十六进制数。
10.一种计算机实施的语音识别的系统,所述系统包括:
至少一个声学信号接收单元;
至少一个处理器,其通信地连接到所述声学信号接收单元;
至少一个存储器,其通信地耦合到所述至少一个处理器;以及
加权有限状态变换器(WFST)解码器,其通信地耦合到所述处理器,并且:
通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为所述WFST的输出标记的词或词标识符;
当在具有输出符号的所述WFST的弧处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及
通过至少部分地使用所述词历史指定确定是否应当在所述WFST的状态中组合两个或更多个令牌以形成单个令牌。
11.根据权利要求10所述的系统,其中所述WFST解码器在令牌的词历史指定相同时在所述WFST的所述相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合。
12.根据权利要求10所述的系统,其中所述WFST解码器在令牌传播时将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。
13.根据权利要求12所述的系统,其中在多个令牌的词历史指定不同时,所述WFST解码器通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中相同时,对于新的活动令牌维持具有最佳分数的引用。
14.根据权利要求10所述的系统,其中所述指定是通过使用递归散列函数形成的散列标签。
15.根据权利要求10所述的系统,其中所述WFST解码器将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定所述词历史指定。
16.根据权利要求10所述的系统,其中所述词历史指定根据所述词序列内的所述词的顺序而不同。
17.根据权利要求10所述的系统,其中所述WFST解码器将多个最终结束令牌组合成单个话语结束令牌。
18.根据权利要求10所述的系统,其中所述WFST解码器:
当令牌的词历史指定相同时,在所述WFST的所述相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合;
当令牌传播时,将在具有输出标记的所述WFST的弧处建立的所述词放置在词网格中;
当多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中是相同的时,对于所述新的活动令牌维持具有最佳分数的引用;
将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并使用对应于多个词的多个值确定所述词历史指定;以及
将多个最终结束令牌组合成单个话语结束令牌;
其中所述指定是通过使用递归散列函数形成的散列标签;
其中所述词历史指定根据所述词序列内的所述词的顺序而不同;
其中所述词历史指定是十六进制数;其中用添加到所述十六进制数的令牌的每个词更新所述十六进制数;并且其中根据所述令牌中的词的顺序而不同地更新所述十六进制数。
19.至少一个计算机可读介质,所述介质包括多个指令,所述多个指令响应于在计算设备上执行,使所述计算设备:
通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为所述WFST的输出标记的词或词标识符;
当在沿着具有输出符号的弧传播的令牌处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及
通过至少部分地使用所述词历史指定确定是否应当在所述WFST的状态中组合两个或更多个令牌以形成单个令牌。
20.根据权利要求19所述的介质,其中所述指令使所述计算设备在令牌的词历史指定相同时,在所述WFST的所述相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合。
21.根据权利要求19所述的介质,其中所述指令使所述计算设备在所述令牌传播时将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。
22.根据权利要求21所述的介质,其中所述指令使所述计算设备在多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中是相同的时,对于新的活动令牌维持具有最佳分数的引用;
其中所述指定是通过使用递归散列函数形成的散列标签;并且
其中所述指令使所述计算设备将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定所述词历史指定。
23.根据权利要求19所述的介质,其中所述指令使所述计算设备
在令牌的词历史指定相同时,在所述WFST的所述相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合;
当令牌传播时将在具有输出标记的所述WFST的弧处建立的所述词放置到词网格中;
当多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:
当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及
当所述引用在所述多个令牌中的一个以上的令牌中是相同的时,对于所述新的活动令牌维持具有最佳分数的引用;
将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定所述词历史指定;以及
将多个最终结束令牌组合成单个话语结束令牌;
其中所述指定是通过使用递归散列函数形成的散列标签;
其中所述词历史指定根据所述词序列内的所述词的顺序而不同;
其中所述词历史指定是十六进制数;其中用添加到所述十六进制数的令牌的每个词更新所述十六进制数;并且其中根据所述令牌中的词的顺序而不同地更新所述十六进制数。
24.至少一个机器可读介质,所述介质包括多个指令,所述多个指令响应于在计算设备上执行,使所述计算设备执行根据权利要求1至权利要求9中任一项所述的方法。
25.一种器件,所述器件包括用于执行根据权利要求1至权利要求9中任一项所述的方法的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/506,844 | 2014-10-06 | ||
US14/506,844 US9530404B2 (en) | 2014-10-06 | 2014-10-06 | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
PCT/US2015/049174 WO2016057151A1 (en) | 2014-10-06 | 2015-09-09 | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106663423A true CN106663423A (zh) | 2017-05-10 |
CN106663423B CN106663423B (zh) | 2021-02-26 |
Family
ID=55633210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580047908.0A Active CN106663423B (zh) | 2014-10-06 | 2015-09-09 | 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9530404B2 (zh) |
EP (1) | EP3204937A4 (zh) |
CN (1) | CN106663423B (zh) |
TW (1) | TWI590227B (zh) |
WO (1) | WO2016057151A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388691A (zh) * | 2017-08-02 | 2019-02-26 | 奥誓公司 | 用于生成对话代理的方法和系统 |
CN112259082A (zh) * | 2020-11-03 | 2021-01-22 | 苏州思必驰信息科技有限公司 | 实时语音识别方法及系统 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672810B2 (en) * | 2014-09-26 | 2017-06-06 | Intel Corporation | Optimizations to decoding of WFST models for automatic speech recognition |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
JP2016151928A (ja) * | 2015-02-18 | 2016-08-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9704482B2 (en) * | 2015-03-11 | 2017-07-11 | International Business Machines Corporation | Method and system for order-free spoken term detection |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US9865254B1 (en) * | 2016-02-29 | 2018-01-09 | Amazon Technologies, Inc. | Compressed finite state transducers for automatic speech recognition |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
KR102295161B1 (ko) * | 2016-06-01 | 2021-08-27 | 메사추세츠 인스티튜트 오브 테크놀로지 | 저전력 자동 음성 인식 장치 |
US10339918B2 (en) | 2016-09-27 | 2019-07-02 | Intel IP Corporation | Adaptive speech endpoint detector |
TWI639997B (zh) * | 2017-09-28 | 2018-11-01 | 大仁科技大學 | 基於機率規則之對話理解方法 |
US11646894B2 (en) * | 2017-10-26 | 2023-05-09 | International Business Machines Corporation | Single channel multiple access communications system |
KR102459920B1 (ko) * | 2018-01-25 | 2022-10-27 | 삼성전자주식회사 | 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
TWI674530B (zh) * | 2018-02-13 | 2019-10-11 | 鼎新電腦股份有限公司 | 操作虛擬助理的方法及系統 |
EP3766065A1 (en) * | 2018-05-18 | 2021-01-20 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
WO2020041945A1 (en) | 2018-08-27 | 2020-03-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligent systems and methods for displaying destination on mobile device |
US11537853B1 (en) | 2018-11-28 | 2022-12-27 | Amazon Technologies, Inc. | Decompression and compression of neural network data using different compression schemes |
TWI824424B (zh) * | 2022-03-03 | 2023-12-01 | 鉭騏實業有限公司 | 語意評估之助聽調整裝置及其方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300857A1 (en) * | 2006-05-10 | 2008-12-04 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN102110437A (zh) * | 2009-12-14 | 2011-06-29 | 英特尔公司 | 遍历基于图的网络的方法和系统 |
CN102150156A (zh) * | 2008-07-03 | 2011-08-10 | 谷歌公司 | 优化用于机器翻译的参数 |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
US20130073503A1 (en) * | 2011-09-16 | 2013-03-21 | Kabushiki Kaisha Toshiba | Automation determinization method, device, and computer program product |
JP5175325B2 (ja) * | 2010-11-24 | 2013-04-03 | 日本電信電話株式会社 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
US20130138441A1 (en) * | 2011-11-28 | 2013-05-30 | Electronics And Telecommunications Research Institute | Method and system for generating search network for voice recognition |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5870706A (en) | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
AU777693B2 (en) | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
TWI220205B (en) | 2003-01-20 | 2004-08-11 | Delta Electronics Inc | Device using handheld communication equipment to calculate and process natural language and method thereof |
US7725319B2 (en) | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
US8738360B2 (en) * | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
US8701032B1 (en) * | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
US9594744B2 (en) * | 2012-11-28 | 2017-03-14 | Google Inc. | Speech transcription including written text |
US8832589B2 (en) * | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
US10235358B2 (en) | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
US9104780B2 (en) | 2013-03-15 | 2015-08-11 | Kamazooie Development Corporation | System and method for natural language processing |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
-
2014
- 2014-10-06 US US14/506,844 patent/US9530404B2/en active Active
-
2015
- 2015-09-01 TW TW104128797A patent/TWI590227B/zh not_active IP Right Cessation
- 2015-09-09 CN CN201580047908.0A patent/CN106663423B/zh active Active
- 2015-09-09 WO PCT/US2015/049174 patent/WO2016057151A1/en active Application Filing
- 2015-09-09 EP EP15848519.3A patent/EP3204937A4/en not_active Withdrawn
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300857A1 (en) * | 2006-05-10 | 2008-12-04 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
CN102150156A (zh) * | 2008-07-03 | 2011-08-10 | 谷歌公司 | 优化用于机器翻译的参数 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN102110437A (zh) * | 2009-12-14 | 2011-06-29 | 英特尔公司 | 遍历基于图的网络的方法和系统 |
JP5175325B2 (ja) * | 2010-11-24 | 2013-04-03 | 日本電信電話株式会社 | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
US20130073503A1 (en) * | 2011-09-16 | 2013-03-21 | Kabushiki Kaisha Toshiba | Automation determinization method, device, and computer program product |
US20130138441A1 (en) * | 2011-11-28 | 2013-05-30 | Electronics And Telecommunications Research Institute | Method and system for generating search network for voice recognition |
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
Non-Patent Citations (7)
Title |
---|
DANIEL POVEY ET AL.: "《Generating exact lattices in the WFST framework》", 《2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
DAVID RYBACH ET AL.: "《A comparative analysis of dynamic network decoding》", 《 2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
DAVID RYBACH ET AL.: "《Lexical Prefix Tree and WFST: A Comparison of Two Dynamic Search Concepts for LVCSR》", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
OCTAVIAN CHENG ET AL.: "《A Generalized Dynamic Composition Algorithm of Weighted Finite State Transducers for Large》", 《2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
TAKAAKI HORI ET AL.: "《Efficient WFST-Based One-Pass Decoding With On-The-Fly Hypothesis Rescoring in Extremely Large Vocabulary Continuous Speech Recognition》", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
张鹏远等: "《关键词检测系统中基于音素网格的置信度计算》", 《电子与信息学报》 * |
郭宇弘等: "《基于加权有限状态机的动态匹配词图生成算法》", 《电子与信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388691A (zh) * | 2017-08-02 | 2019-02-26 | 奥誓公司 | 用于生成对话代理的方法和系统 |
US11328017B2 (en) | 2017-08-02 | 2022-05-10 | Verizon Patent And Licensing Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
US12050648B2 (en) | 2017-08-02 | 2024-07-30 | Verizon Patent And Licensing Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
CN112259082A (zh) * | 2020-11-03 | 2021-01-22 | 苏州思必驰信息科技有限公司 | 实时语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20160098986A1 (en) | 2016-04-07 |
EP3204937A1 (en) | 2017-08-16 |
WO2016057151A1 (en) | 2016-04-14 |
US9530404B2 (en) | 2016-12-27 |
EP3204937A4 (en) | 2018-06-06 |
CN106663423B (zh) | 2021-02-26 |
TWI590227B (zh) | 2017-07-01 |
TW201636996A (zh) | 2016-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663423A (zh) | 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 | |
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
US10949736B2 (en) | Flexible neural network accelerator and methods therefor | |
CN109923608B (zh) | 利用神经网络对混合语音识别结果进行评级的系统和方法 | |
US10255911B2 (en) | System and method of automatic speech recognition using parallel processing for weighted finite state transducer-based speech decoding | |
US20160379629A1 (en) | Method and system of automatic speech recognition with dynamic vocabularies | |
US9047868B1 (en) | Language model data collection | |
CN108352168A (zh) | 用于语音唤醒的低资源关键短语检测 | |
CN108885873A (zh) | 使用自适应阈值的说话者识别 | |
CN107257996A (zh) | 环境敏感自动语音识别的方法和系统 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111819625A (zh) | 用于语言模型个性化的系统和方法 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN106847265A (zh) | 用于使用搜索查询信息的言语识别处理的方法和系统 | |
CN107221330A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
US11468892B2 (en) | Electronic apparatus and method for controlling electronic apparatus | |
CN110162604A (zh) | 语句生成方法、装置、设备及存储介质 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
CN116343765A (zh) | 自动语境绑定领域特定话音识别的方法和系统 | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN112749550B (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
US20240320925A1 (en) | Adjusting audible area of avatar's voice | |
CN117219081A (zh) | 音频处理方法、装置、电子设备及存储介质 | |
KR20230067321A (ko) | 전자 장치 및 전자 장치의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |