CN1532807A - 块同步译码 - Google Patents
块同步译码 Download PDFInfo
- Publication number
- CN1532807A CN1532807A CNA2004100286448A CN200410028644A CN1532807A CN 1532807 A CN1532807 A CN 1532807A CN A2004100286448 A CNA2004100286448 A CN A2004100286448A CN 200410028644 A CN200410028644 A CN 200410028644A CN 1532807 A CN1532807 A CN 1532807A
- Authority
- CN
- China
- Prior art keywords
- hidden markov
- pattern
- point
- hmmb
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
- A41D19/0068—Two-dimensional gloves, i.e. obtained by superposition of two sheets of material
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
- A41D19/0082—Details
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L17/00—Apparatus or implements used in manual washing or cleaning of crockery, table-ware, cooking-ware or the like
Abstract
本发明涉及块同步译码,提供了模式识别系统和方法。本发明的各方面在与多状态隐式马尔可夫模型结合时尤其有用。通过处理隐式马尔可夫模型块来实现模式识别。这个块处理允许处理器当数据在高速缓存存储器中时执行更多的这样数据上操作。通过这样增加高速缓存局部性,本发明的各方面提供显著改善的模式识别速度。
Description
背景技术
本发明涉及模式识别。本发明尤其涉及处理用于模式识别中的信号。
诸如语音识别系统这样的模式识别系统获取输入信号并试图对该信号进行译码,以发现由该信号表示的模式。例如,在语音识别系统中,语音信号(通常指测试信号)由识别系统接收,并且对该语音信号进行译码以识别由该语音信号所表示的词串。
为对引入的测试信号进行译码,绝大多数的识别系统利用一个或多个模型,该模型描述部分测试信号表示特定模式的可能性。这样模型的例子包括神经网络、动态时间翘曲(Dynamic Time Warping)、段模型(segment models),以及隐式马尔可夫模型(HMM)(Hidden Markov Models)。
绝大多数的可商用(commercially-available)语音识别系统使用HMM来匹配语音中的语音模式,语音被分割为搭接的“帧”,这些帧之间通常间隔约10毫秒。将语音分解为这些10毫秒的帧仅为被转换为一系列时序帧(time-sequenced frames)输入的一个例子。传统上,这些帧的估算每次进行1帧;在继续前进到下一帧之前,以循环(round-robin fashion)的方式对单帧更新所有的HMM。
图3阐明HMM的基本表示法,这在许多教科书中详细说明,包括例如由Huang,Acero和Hon所著的口语处理的第八章。在任何指定的时间处,该模型具有处于任何不同状态的特定概率。每个状态具有输出概率分布和到其它状态的转移概率。就语音来说,输出分布模拟从被分为10毫秒帧的原始语音波形中导出的声音特征组。这些转移和输出概率依照已知技术由训练步骤(training step)来产生。
对HMM的译码问题是指定HMM和观察序列,产生该观察序列的最有可能性的状态序列是什么?解决这个问题的标准方法被称为动态规划法,并且该方法图示在图4中。关于图3说明的六状态HMM已经初露端倪,而且时间沿着水平轴进行。指定观察,在这个栅格中的每个“点”(状态和时间的组合)代表HMM在给以观察的时间处于那种状态的概率。一条通过DP矩阵的可能路径以粗体突出显示(1-8-14-21-27-33-40-47-53-59-66),代表特定的排列或状态序列。对点的概率根据先前点的概率,转移概率和在那个时间步的输出概率。既然每个点依靠几个先前点,那么计算对那个点的概率就需要已经首先计算了先前点,从而设置计算顺序的限制。图4中通过点中的数字示出“时间同步”估算顺序;该系统在再次开始下一时间步骤之前,对指定时间步估算所有的状态。注意,由于可允许仅在已计算前任点之后来计算点的任何顺序,所以这个不是仅有的可能估算顺序。灰色的点表明或者为不可达到的或者为不导至可能的结束状态的状态,因此不需要被估算,尽管许多实施例无论如何还是对它们进行估算。
在实时系统中,可能有好几万这样的HMM同时运行。这些模型消耗足够的计算机存储器,以至每次通过整个模型组通常耗尽CPU高速缓存容量。由于仅使用CPU高速缓存的存储器操作比使用较高级的存储器的存储器操作快许多倍,这就大大减慢了语音处理。
解决该问题的另一个方法在由Tony Robinson和James Christie所著的题名为对大量词汇语音识别的时间第一搜索(Time-First Search For LargeVocaburary Speech Recognition)的论文中描述。这个方法本质上将HMM估算的顺序从对指定时间帧估算多模型转换到对指定模型估算多时间帧。这个方法意味着在与标准CPU存储器高速缓存操作协同工作的同时减少处理存储器需求,这是因为许多操作落入相同的物理存储器范围。
为提供对大量词汇应用的实时连续语音识别,需要进一步的改进以便不仅改善CPU高速缓存使用的效率,而且改善处理例程本身的效率。这样,不仅至关紧要的处理速度得到了改善,而且处理准确度也得到了提高。
发明内容
提供模式识别系统和方法。当本发明的诸方面结合多状态隐式马尔可夫模型尤其有用。模式识别可通过处理隐式马尔可夫模型块来实现。这个模块处理允许处理器在数据处于高速缓存存储器中的同时执行更多的这样数据上操作。通过这样增加高速缓存局部性,本发明的各方面提供对模式识别速度的显著改善。
附图说明
图1是其中可实施本发明的一个计算环境的框图。
图2是其中可实施本发明的另选的计算环境的框图。
图3是六状态HMM的图解视图。
图4是用时间作为水平轴的表示的图3六状态HMM的图解视图。
图5是三状态HMM三个一组的图解视图。
图6是依照本发明实施例的隐式马尔可夫模型块(HMMB)的图解视图。
具体实施方式
图1阐明其中可实施本发明的合适计算系统环境100的例子。该计算系统环境100仅为一个合适计算环境的例子,而且并非试图对本发明的使用或功能的范围提出任何限制。计算环境100也不应被解释为对在范例操作环境100中示出的任何一个组件或其组合具有任何依赖或需求。
本发明可用于许多其它通用或专用计算系统环境或配置。可适用于本发明的熟知计算系统、环境和/或配置的例子包括,但不局限于,个人计算机、服务器计算机、手持式或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子装置、网络PC、小型计算机、大型计算机、电话系统、包括任何上述系统或装置的分布计算环境等。
可用由计算机执行的诸如程序模块这样的计算机可执行指令的通用上下文来说明本发明。一般,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。本发明也可用于分布计算环境中,那里通过由通信网络链接的远程处理装置来执行任务。在分布计算环境中,程序模块可位于包括存储器存储装置的本地或者远程计算机存储媒体中。
参考图1,用于实施本发明的范例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括,但不局限于,中央处理单元120,它包括高速缓存存储器122(1级高速缓存)和高速缓存存储器123(2级高速缓存)、系统存储器130、以及将包括系统存储器的不同系统组件联结到处理单元120的系统总线121。高速缓存存储器通过允许数据块从速度较低的系统存储器转移到较高速度的高速缓存存储器而增加处理速度。当前有两个主要类型的高速缓存存储器。1级高速缓存存储器是位于微处理器本身的存储器的部分。这个存储器一般比系统中所有其它的存储器速度快,但是由于这个存储器是直接加到微处理器的硅涵盖表面上的,所以也较昂贵。2级高速缓存一般位于微处理器的附近,但不在其上。这个存储器通常也比系统存储器的速度快,但是比1级高速缓存存储器的速度慢。按照很粗略的指导方针,可认为1级高速缓存的工作速度大约比水平2级高速缓存快一个数量级,且2级高速缓存的工作速度大约比整个系统RAM的工作速度快一个数量级。这样,当高速缓存被最有效率的使用时,系统处理速度就被最大化了。
系统总线121可为几种类型的总线结构的任何一种,包括存储总线或存储器控制器、外围总线,以及使用多种总线体系结构的任何一种的本地总线。作为例子,但非限制,这样的体系结构包括工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线,以及也已知为小背板总线(Mezzanine bus)的外围组件互连(PCI)总线。
计算机110通常包括各种计算机可读媒体。计算机可读媒体可为能够被计算机110存取的任何可用媒体,而且既包括易失性媒体,又包括非易失性媒体,既包括可取走媒体,又包括不可取走媒体。作为例子,但非限制,计算机可读媒体可包含计算机存储媒体和通信媒体。计算机存储媒体包含以任何方法或技术来实现的易失性或者非易失性、可取走或者不可取走的媒体用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息。计算机存储媒体包括,但不局限于,RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CDROM、数字多用途盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁存储装置,或者可用来保存所需信息且可由计算机110存取的任何其它媒体。通信媒体通常包含计算机可读指令、数据结构、程序模块或在诸如载波或其它传送机制这样的调制数据信号中的其它数据,而且包括任何信息传递媒体。术语“调制数据信号”意指具有一个或多个特征组或以对信号中的信息进行编码的方式改变的信号。作为例子,但非限制,通信媒体包括诸如有线网络或直线连接这样的有线媒体,以及诸如声音、RF、红外线的,以及其它无线媒体这样的无线媒体。任何上述的组合也应被包括在计算机可读媒体的范围之内。
系统存储器130包括以诸如只读存储器(ROM)131和随机存取存储器(RAM)132这样的易失性和/或非易失性存储器形式的计算机存储媒体。基本输入/输出系统133(BIOS),它包含帮助(诸如在启动阶段),在计算机110中的元件之间传递信息的基本例程通常被代表性的被保存在ROM 131中。RAM 132通常包含可由处理单元120直接存取和/或目前正由处理单元120操作的数据和/或程序模块。作为例子,但非限制,图1示出操作系统134、应用程序135、其它程序模块136,以及程序数据137。
计算机110也可包括其它可取走/不可取走、易失性/非易失性计算机存储媒体。仅作为例子,图1示出读写到不可取走、非易失性磁性媒体的硬盘驱动器141、读写到可取走、非易失性磁盘152的磁盘驱动器151,以及读写至可取走、非易失性光盘156的光盘驱动器155,该可取走、非易失性光盘156如CD ROM或其它光媒体。可用在范例操作环境中的其它可取走/不可取走、易失性/非易失性计算机存储媒体包括,但不局限于,盒式磁带、闪速存储器卡、数字多用途盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器141通常是通过诸如接口140这样的不可取走存储器接口与系统总线121相连,而磁盘驱动器151和光盘驱动器155通常是通过诸如接口150这样的可取走存储器接口与系统总线121相连。
上面讨论并在图1中示出的驱动器和相关联的计算机存储媒体提供计算机可读指令、数据结构、程序模块和对计算机110的其它数据的存储。在图1中,例如,硬盘驱动器141被示作为保存操作系统144、应用程序145、其它程序模块146,以及程序数据147。注意这些组件既可与操作系统134、应用程序135、其它程序模块136,以及程序数据137相同,也可与其不同。操作系统144、应用程序145、其它程序模块146,以及程序数据147在这里被指定不同的序号,以阐明至少它们是不同的拷贝。
用户可通过诸如键盘162、话筒163以及像鼠标、跟踪球或触摸垫这样点击设备161这样的输入装置将命令和信息输入到计算机110中。其它的输入装置(未示出)可包括操纵杆、游戏垫(game pad)、圆盘式卫星电视天线、扫描仪等。这些和其它的输入装置一般通过与系统总线121联结的用户输入接口160与处理单元120相连,但其也可通过诸如并行口、游戏口或通用串行总线(USB)这样的其它接口和总线连接。监视器191或其它类型的显示装置也通过诸如视频接口190这样的接口与系统总线121相连。除监视器之外,计算机也可包括诸如扬声器197和打印机196这样的其它外围输出装置,它们可通过输出外围接口190进行连接。
计算机110可在使用到诸如远程计算机180这样的一个或多个远程计算机的逻辑连接的网络化环境中工作。远程计算机180可为个人计算机、手持装置、服务器、路由器、网络PC、对等装置(a peer device)或其它公共网络节点,而且通常包括许多或所有上述相对于计算机110示出的元件。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这样的网络环境常见于办公室、企业范围的计算机网络、内联网和国际互联网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170与LAN171相连。在WAN网络环境中使用计算机110时,计算机110通常包括调制解调器172或用于在诸如因特网这样的WAN 173上建立通信的其它装置。调制解调器172可为内置或外置,它可通过用户输入接口160或其它合适的机制与系统总线121相连。在网络化环境中,相对于计算机110示出的程序模块,或其部分,可被保存在远程存储器存储装置中。作为例子,但非限制,图1示出驻留在远程计算机180中的远程应用程序185。应当认识到所示网络连接是范例性的,而且可使用在计算机之间建立通信链路的其它装置。
图2是移动装置200的框图,它是范例计算环境。移动装置200包括微处理器202(包含高速缓存存储器203)、存储器204、输入/输出(I/O)组件206,以及用于与远程计算机或其它移动装置进行通信的通信接口208。在一个实施例中,上述组件联结在一起,以通过合适的总线210互相通信。
存储器204被实施为诸如随机存取存储器(RAM)这样的非易失性电子存储器,它具有电池备份模块(未示出),这样以使当关闭到移动装置200的通用电源时,不丢失保存在存储器204中的信息。部分存储器204更适宜被分配作为用于程序执行的可寻址存储器,而存储器204的另一部分更适宜用于存储,比如模拟磁盘驱动器中的存储。
存储器204包括操作系统212、应用程序214以及对象存储器216。在操作期间,最好由处理器202从存储器204来执行操作系统212。在一个较佳实施例中,操作系统212是来自微软公司可商用的商标为WINDOWSCE的操作系统。最好对移动装置来设计操作系统212,而且该操作系统212实现这样的数据库特征,即应用214可通过一组展现的应用编程界面和方法来利用该数据库特征。对象存储216中的对象由应用214和操作系统212来保持,至少部分响应对展现的应用编程接口和方法的调用。
通信接口208代表允许移动装置200发送和接收信息的许多装置和技术。该装置包括有线和无线调制解调器、卫星接收器和广播调谐器,这里列举了一些。移动装置200也可直接与计算机相连以与之交换数据。在这样的情况下,通信接口208可为红外线收发器或者串行或并行通信连接,所有这些都能传送流动信息。
输入/输出组件206包括多种输入装置,如触敏屏、按钮、滚动条(rollers),以及话筒,还有多种输出装置,包括音频发生器、振动装置,以及显示器。上面列出的装置是作为例子,不必所有的装置都出现在移动装置200上。另外,在本发明的范围内,其它的输入/输出装置可被加到移动装置200中,或在移动装置200中找到。
在本发明的一个方面,提供适用(adapt)HMM处理以显著增加系统高速缓存局部性的系统和方法。因此,在刷新系统高速缓存之前,执行更大量的HMM操作。这样,就对普通系统存储器进行比过去需求少的调用。从而显著提高了处理速度。虽然我们将关于语音处理来说明这些改进,本发明的实施例可被应用来改进对使用HMM的任何形式模式识别的处理。
对语音建模有用的某些模型使用所知为“三状态从左至右不跳跃”(“three-state left-to-right without skipping)的特定HMM拓扑结构。这个拓扑结构在图5和6中阐明。本发明的实施例本质上重新安排HMM估算,使得在估算另一个HMM之前,对单个HMM估算3个帧。这就显著改善高速缓存局部性,从而增加处理速度。
图6表示了被归类到隐式马尔可夫模型块(HMMMB)中的图5模型。每个粗体菱形400示出相应语音单元(即音素(phoneme))的HMMB。在每个HMMB中,提供每个状态的同样数量的帧。这样,在HMMB#1中有3个状态0的帧、3个状态1的帧,以及3个状态2的帧。虽然我们相信可用HMM中不同于状态数量的帧的数量来实现本发明实施例的优点,但是帧的数量最好与HMM状态的数量相等。另外,因为如上面所讨论的,一旦任何指定点的先前点被估算,则该指定点只能被估算,所以出现菱形。选择图6中所示的HMMB的大小以匹配所使用的状态(三状态左-右HMM)的数量。我们预期,不同的HMM拓扑结构可导至不同形状的HMMB,这也落入本发明的精神和范围。例如,十状态左-右HMM(潜在对诸如手写体识别这样的某些其它形式的模式识别有用)将依照十帧HMMB。此外,具有五状态的有时使用的拓扑结构可在每个帧上转移到本身、下一状态,或在其后的状态。在这样情况,三帧HMMB仍旧是可用的(由于任何到HMM的输入要采用至少3帧才能到达输出),但是HMMB的形状将为3帧“宽”,五状态“高”。
依照本发明的实施例,每个HMMB作为一个单元被估算。如这里用到的,HMMB是HMM处理系统中所有点的子集。该块至少包括在时间和状态上均不同的两点。每个HMMB的估算仅依靠先前HMMB的输出。
每个HMMB包括块间进入点(inter-block entry points)、块内进入点(intra-block entry points)、块间退出点(inter-block exit points),以及块内退出点(intra-block exit points)。参考图6,点402、408和414是块间进入点,这是因为它们可接收来自其它HMMB的分数(scores)或数值。点402、404和406是块内进入点,这是因为它们可接收来自相同HMM中先前块的分数。相对于块4,块1将被认为是相同HMM中的先前块。注意,点402不仅是块间进入点,而且也是块内进入点。点406、412和418是块间退出点,这是由于它们可将它们的数值提供到诸如块5这样的其它块的块间进入点。最后,点414、416和418可被认为是块内退出点。
在块处理开始之前,对在块间进入点以及块内进入点处结束的最佳路径的分数已经被预先决定了。另外,到沿着这条最佳路径的以前状态的指针已经被保存在该进入点中。
块处理从第一时间点处(the point that is first in time)开始。在图6中,那个点编号为402。通过用对每个可从点402(404、406)转移的点的转移概率乘点402的分数来处理点402。然后这个分数与被转移点的现有数值进行比较,以决定通过点402的分数是否比被转移点的现有分数高。如果这样,则就更新被转移点以反映新的最大值,而且设置与点402相关联的指针。
一旦处理了点402,点404就可被处理。点404的处理较直截了当,这是因为点404开始被设置成来自相同HMM中紧接前面的块的相应块内退出点和来自块402分数的较大者。类似于点404地处理点406。然而,由于点406是块间退出点,所以其分数将被用来更新其它块的某些块间进入点。
一旦处理了点402,则也可处理点408。点404和点408之间的相对处理顺序是设计选择的问题。处理点408有点类似于点402,这是因为在处理前,结合其转移概率,在点402以及可能连接到点404的所有退出点之中,取最大分数。此外,指针,或者其它合适的记录,被设置为指出产生最大分数的点。处理点408的工作包括用它能够转移的转移概率乘该处理点408的分数以便潜在地更新点410和414的数值。
类似于点404和406来处理点410、412、416和418。而且,点414的处理类似于上述关于点408的处理。
一旦完成块1中的所有处理,则执行退出分数处理。明确的说,对每个块间退出点,参考语言模型。语言模型列出哪些转移是可允许的,以及对在语音单元之间转移的转移概率。这样,例如,语言模型将指出从块1的语音单元到其它语音单元的转移的可允许性和概率。这个概率然后与诸如点406这样的块间退出点的分数结合,以决定该组合是否比现存于下一时间帧内任何可允许(依靠该语言模型)块间进入点的分数大。若该组合确实较大,则更新块间进入点以反映新的最大量,而且设置相关联的指针,或者其它合适的记录。对块间退出点412和418重复这个过程。注意,如图6中虚线所示,块间退出点也可与对相同语音单元时间中下一块的块间进入点相连(即406连接到420)。
点416和418将它们的分数提供到对相同语音单元时间中下一块的块间进入点。最后,如上面说明的关于点402来处理点420,而且处理继续前进到下一块。
一旦完成块1的处理,最好开始对应另一个语音单元的块的处理。图6中按块1-2-3-4-5-6-7-8-9的顺序列出范例块处理顺序。然而,可使用其它顺序而不背离本发明的范围。注意,某些点被变成灰色的,这表明它们或者是不能达到的,或者是不导至可能的结束状态。可通过不实际处理这样的点而获取附加处理效率。
尽管已经参考特定实施例说明了本发明,但是本领域中熟练的技术人员会认识到在不背离本发明主旨和范围的前提下可在形式上和细节上作出改变。
Claims (17)
1.连续模式识别系统包含:
输入装置,适合于提供输入的数字表示;
存储器,操作上与所述输入装置联结,以存储所述数字表示以及相对于所述数字表示的多个多状态模型;
处理器,与所述输入装置和所述存储器联结,所述处理器包括高速缓存存储器,并且适合于将所示数字表示转换为多个时间序列帧;以及
其中所述处理器适合基于处理所述时间序列帧和存储在所述高速缓存存储器中的所述多状态模型的块而产生识别的模式的输出。
2.如权利要求书1所述的系统,其特征在于所述多状态模型是三状态隐式马尔可夫模型。
3.如权利要求书1所述的系统,其特征在于所述输入装置是话筒。
4.如权利要求书1所述的系统,其特征在于识别的模式的所述输出包括单词。
5.如权利要求书1所述的系统,其特征在于所述系统具体体现在计算机内。
6.如权利要求书1所述的系统,其特征在于所述系统具体体现在移动装置中。
7.识别由时序帧形成输入中模式的方法,所述方法包含:
用多个多状态隐式马尔可夫模型对模式进行建模;
处理隐式马尔可夫模型块(HMMB),以识别在所述时间序列帧中的所述建模的模式,以产生识别的建模的模式的序列。
8.如权利要求书7所述的方法,其特征在于所述时间序列帧对应于语音。
9.如权利要求书7所述的方法,其特征在于所述多状态隐式马尔可夫模型是三状态隐式马尔可夫模型。
10.如权利要求书9所述的方法,其特征在于当在状态-时间图表上描述时,每个HMMB是3乘3菱形。
11.如权利要求书9所述的方法,其特征在于处理每个块包括仅与系统高速缓存存储器交互操作。
12.如权利要求书7所述的方法,其特征在于处理所述HMMB包括访问语言模型。
13.模式识别方法包含:
将输入描绘为一连串时间序列帧;以及
处理HMMB和所述序列以产生对应所述输入的识别的模式的输出序列。
14.如权利要求书13所述的方法,其特征在于所述输入对应于语音。
15.如权利要求书13所述的方法,其特征在于每个HMMB包括3个状态。
16.识别由时间序列帧形成输入中模式的方法,所述方法包含:
a)对具有多个多状态隐式马尔可夫模型的模式进行建模;
b)处理第一个多状态隐式马尔可夫模型的第一点;
c)处理所述第一多状态隐式马尔可夫模型的第二点,所述第二点在状态和时间上均与所述第一点不同;以及
d)处理所述第一隐式马尔可夫模型的余下点,以及所述多个多状态隐式马尔可夫模型的另外的点,以识别所述时间序列帧内的所述建模模式,以产生识别的建模模式的序列。
17.如权利要求书16所述的方法,其特征在于所述第一点和所述第二点包含HMMB。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/379,244 US7529671B2 (en) | 2003-03-04 | 2003-03-04 | Block synchronous decoding |
US10/379,244 | 2003-03-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1532807A true CN1532807A (zh) | 2004-09-29 |
Family
ID=32824766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004100286448A Pending CN1532807A (zh) | 2003-03-04 | 2004-03-03 | 块同步译码 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7529671B2 (zh) |
EP (1) | EP1455341A3 (zh) |
JP (1) | JP2004272251A (zh) |
KR (1) | KR20040078595A (zh) |
CN (1) | CN1532807A (zh) |
Families Citing this family (214)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
JP4801107B2 (ja) * | 2008-03-06 | 2011-10-26 | 日本電信電話株式会社 | 音声認識装置、方法、プログラム及びその記録媒体 |
JP4801108B2 (ja) * | 2008-03-06 | 2011-10-26 | 日本電信電話株式会社 | 音声認識装置、方法、プログラム及びその記録媒体 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
KR101057191B1 (ko) * | 2008-12-30 | 2011-08-16 | 주식회사 하이닉스반도체 | 반도체 소자의 미세 패턴 형성방법 |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
WO2013033119A1 (en) * | 2011-08-29 | 2013-03-07 | Accumente, Llc | Utilizing multiple processing units for rapid training of hidden markov models |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH071435B2 (ja) * | 1993-03-16 | 1995-01-11 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音響モデル適応方式 |
JPH0792676B2 (ja) * | 1993-03-26 | 1995-10-09 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識方法 |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
JP3531198B2 (ja) * | 1994-02-18 | 2004-05-24 | 松下電器産業株式会社 | 言語識別装置 |
JP3033514B2 (ja) * | 1997-03-31 | 2000-04-17 | 日本電気株式会社 | 大語彙音声認識方法及び装置 |
JP3039634B2 (ja) * | 1997-06-16 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
DE69919842T2 (de) * | 1998-12-21 | 2005-09-01 | Philips Intellectual Property & Standards Gmbh | Sprachmodell basierend auf der spracherkennungshistorie |
US7269558B2 (en) * | 2000-07-31 | 2007-09-11 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
WO2002029612A1 (en) | 2000-09-30 | 2002-04-11 | Intel Corporation | Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition |
-
2003
- 2003-03-04 US US10/379,244 patent/US7529671B2/en not_active Expired - Fee Related
-
2004
- 2004-02-06 EP EP04002695A patent/EP1455341A3/en not_active Withdrawn
- 2004-03-03 JP JP2004059838A patent/JP2004272251A/ja active Pending
- 2004-03-03 CN CNA2004100286448A patent/CN1532807A/zh active Pending
- 2004-03-04 KR KR1020040014528A patent/KR20040078595A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
EP1455341A3 (en) | 2007-06-20 |
KR20040078595A (ko) | 2004-09-10 |
US7529671B2 (en) | 2009-05-05 |
EP1455341A2 (en) | 2004-09-08 |
JP2004272251A (ja) | 2004-09-30 |
US20040176956A1 (en) | 2004-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1532807A (zh) | 块同步译码 | |
US20050159952A1 (en) | Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access | |
CN1304941C (zh) | 用于自主硬件辅助的线程栈跟踪的装置与方法 | |
US9142209B2 (en) | Data pattern analysis | |
CN1680935A (zh) | 通过用户建模的有效大写化 | |
CN1726532A (zh) | 基于传感器的语音识别器选择、自适应和组合 | |
CN1725212A (zh) | 指数模型的自适应 | |
CN1419184A (zh) | 用于调试与语言模型一起使用的类实体词典的方法和设备 | |
CN1156820C (zh) | 使用词汇树的识别系统 | |
CN1866206A (zh) | 利用马尔可夫链根据uml规范生成性能测试 | |
Ding Jr et al. | Developments of machine learning schemes for dynamic time-wrapping-based speech recognition | |
US8886535B2 (en) | Utilizing multiple processing units for rapid training of hidden markov models | |
CN111444719A (zh) | 一种实体识别方法、装置和计算设备 | |
CN112652306A (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN112015473A (zh) | 基于数据流架构的稀疏卷积神经网络加速方法及系统 | |
CN1667614A (zh) | 语言数据日志的压缩 | |
Zweig et al. | Boosting gaussian mixtures in an LVCSR system | |
US10878806B1 (en) | System and computer-executable program code for accelerated rescoring with recurrent neural net language models on hybrid CPU/GPU machines using a frame-wise, delayed dispatch of RNNLM score computation tasks to the GPU(s) | |
US8805687B2 (en) | System and method for generalized preselection for unit selection synthesis | |
WO2022251265A1 (en) | Dynamic activation sparsity in neural networks | |
CN106502775A (zh) | 一种分时调度dsp算法的方法和系统 | |
CN111832815A (zh) | 科研热点预测方法及系统 | |
CN113254104B (zh) | 一种用于基因分析的加速器及加速方法 | |
CN113628215B (zh) | 图像处理方法、系统、设备及存储介质 | |
US20230351190A1 (en) | Deterministic training of machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20040929 |