CN1149532C - 语音识别系统中的逆向追踪矩阵存储方法 - Google Patents

语音识别系统中的逆向追踪矩阵存储方法 Download PDF

Info

Publication number
CN1149532C
CN1149532C CNB001024051A CN00102405A CN1149532C CN 1149532 C CN1149532 C CN 1149532C CN B001024051 A CNB001024051 A CN B001024051A CN 00102405 A CN00102405 A CN 00102405A CN 1149532 C CN1149532 C CN 1149532C
Authority
CN
China
Prior art keywords
state
frame
definition
pronunciation
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB001024051A
Other languages
English (en)
Other versions
CN1264890A (zh
Inventor
杰弗里・阿瑟・缪尼尔
杰弗里·阿瑟·缪尼尔
・查尔斯・鲍伯特
丹尼尔·查尔斯·鲍伯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1264890A publication Critical patent/CN1264890A/zh
Application granted granted Critical
Publication of CN1149532C publication Critical patent/CN1149532C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/31Other construction details
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/14Other constructional features; Accessories

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一个装置(100)包括一个语音识别系统(204、206、207、208),它产生代表语言发音的信号,语言被分解成代表该语音的帧(Ft)。利用一对位算法把帧分配到状态(s1-s5)。利用状态转移类型把代表帧到状态分配的路径存储到存储器(110)中,这里状态转移类型标识到每个状态的状态转移。

Description

语音识别系统中的逆向追踪矩阵存储方法
技术领域
本申请涉及语音识别,更具体地说是涉及语音识别系统中存储逆向跟踪网格信息的方法。
背景技术
在一个依赖说话者的语音识别系统中,使用者必须登录他们在使用该系统时所希望得到的词汇词。一个词汇“词”可以是单个的被说出的词或一个短语,而所选择的词汇词依赖于具体的应用。例如,在便携式无线电话中语音识别的实现可能需要使用者提供经常被呼叫者的名字和地址(例如“Fred办公室”),或在用户界面中通常可得到的常用特性所用的命令(例如“蓄电池安时计”,“消息”,或“电话锁定”)。
在登录过程中,语音识别系统响应使用者的输入,对每个词汇词提取出代表样板。在一些系统中,这种样板由一个含有一系列状态的隐式马尔科夫模型(HMM)表示。每个状态表示一个语言发音(utterance)的有限一段:这里使用“发音”表示一个“词汇词”,它可以包含一个或多个词。HMM的每个状态的统计表示是使用由使用者发音的具体词汇词的一个或多个登录语音样本计算出来的。这是通过帧的状态赋值(frame-to-state assignment)来完成的。
这种状态赋值用于训练和语音识别两种操作方式。具体地说,被赋值的状态用于在训练方式中建立模型,该模型在语音识别方式过程中作为比较基准。在语音识别操作方式中,对输入发音的赋值能用于产生得分(score)信息和把输入的发音与所存储参考模型进行比较。
对位算法(alignment algorithm),例如Viterbi算法,用于发音的帧到状态对位。这种对位算法提供了语言发音对模型的最好匹配,用于把词汇词发音的每一帧赋予该模型的单个状态。利用这一赋值能改善对每个状态的统计表示。
在帧对位过程中,通过找出发音帧与模型中状态的最佳匹配来定义一个“路径”。为做到这一点,在每一帧对HMM的每个状态进行估值。如果被考查的语音已达到帧t,则这一估值过程的一部分确定哪些状态导致的给定状态在帧t-1处是最佳的状态。对于被完整连接的HMM,任何状态都能转移到其他状态。所以,N个路径进入每个状态是可能的,这里N是状态数。
利用这种技术,在对位算法过程中需要跟踪哪些语音帧被映射到模型中的每个状态。如果使用传统的技术,这需要大的存储器。现有技术方法使用一个阵列,称作逆向追踪(traceback)矩阵,用于存储每个帧的信息,详细说明到达每个状态的最好路径。这通常需要一个大小为N×T的阵列,这里N是模型中的状态数,T是在一个发音中的最大帧数。由于N等于20和T等于300是常有的事,这种实现需要6000字存储器。
为了能在便携式装置上实现依赖于说话者的训练算法,例如在无线通信装置上,在那里只有很小的随机存储存储器(RAM)能被利用,因此需要有一种用于存储逆向追踪信息的技术使所需存储器最小。于是,需要一种方法,它能在较小的存储器中存储为训练一个HMM所需的逆向追踪信息。
发明内容
根据本发明,提供了一种操作语音识别装置的方法,包括下述步骤:接收一个语言发音;产生一个代表该语言发音的信号;把代表该发音的信号分成帧;用一种对位算法把帧分配成状态;以及通过对每个状态把一状态转移类型存储到存储器中来存储代表帧到状态分配的路径,其中状态转移类型标识到每个状态的状态转移。
附图说明
图1是以方框图形式说明一无线电话的电路图。
图2是以方框图形式说明根据图1的无线电话中的,语音识别电路的输入电路。
图3说明一个左到右隐式马尔科夫模型,它带有两个被分成帧的相关语言发音。
图4说明逆向追踪网格,它伴有左到右模型中的所有可能的状态转移路径,但不允许跳跃转移。
图5是使用状态转移类型记录的逆向追踪路径的状态转移路径的存储器阵列。
图6是说明在对位算法中信息存储的流程图。
图7是说明对最好路径产生帧到状态对位操作的流程图。
图8说明对应于图4的左到右无跳跃HMM。
图9是能用于图6流程图的部分流程图,以包含一个状态跳跃。
图10是能用于图7流程图的部分流程图,以包含一个状态跳跃。
具体实施方式
这里公开一种用于语音识别的逆向追踪矩阵更新和存储的方法。在一依赖于说话者的登录过程中,说话者提供被登录语言发音的一次或多次重复。使用帧对位过程使这些发音的每一个匹配于一个现有的隐式马尔科夫模型。在完成这一过程中,记录发音中的短时分析帧和模型的各状态之间对应关系的方法的有效性受到为每个状态和帧存储转移类型(transition type)的影响。
图1中公开的装置100中能有利地利用本发明。为了说明的目的,这里把装置100描述为一个便携式无线电话,但它可以是一个计算机、一个个人数字助理或任何其他能有利地利用语音识别的装置,特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104,它们连于天线106。发射机102和接收机104连于一个呼叫处理器108,它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路,来实现呼叫处理器108。
呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM或类似存储器,或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作,包括语音识别操作,而且必须包括一个电子可变存储器以支持状态转移路径存储器。下文中将对此作更详细描述。可提供ROM用于存储该装置的操作程序。
音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。
呼叫处理器108与一显示处理器120相连。显示处理器是可选的,如果希望对装置100有附加的处理器支持的话。具体地说,显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元,它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。
参考图2,由送话器114接收的音频信号在音频电路112的模-数转换器202中被转换成数字信号。本领域技术人员将会理解,音频电路112提供额外的信号处理,如滤波,为了简练,这里将不予描述。呼叫处理器108在送话器114输出模拟信号的被处理的数字信号表示上完成特征提取204,并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧,在这里所举的实施例中是20ms。这样,每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。
在训练过程中,发音的特征矢量被用于建立HMM形式的样板,它们存储在存储器208中。在语音识别过程中,代表输入发音的特征矢量与在存储器208中存储的词汇词样板作比较,以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分,例如可以是EEPROM或闪烁ROM。如这里所用的那样,“词”可以是不只一个词,例如“John Doe”,或单个词,如“call(呼叫)”。
如前文概述的那样,存储器208中存储的词汇词是在训练方式下创建的。例如,所存储的词汇词在初始时每个是从两个训练信号,即发音U1和U2(图3)中提取出来的,由各自的特征矢量组成,发音U1代表在训练过程中说话者第一次说出一个特定词时所存储的信号。发音U2代表在训练过程中说话者第二次说出一个特定词时的信号。在所举出的实例中,发音U1的长度不同于发音U2。本领域技术人中将会理解,可以使用多些或少些发音。
因为帧有相同长度,而发音UI和U2有不同长度,当每个发音由帧代表时,有不同长度的发音U1和U2将相应地有不同的帧数。多个帧Ft构成一个发音。虽然通常发音将被标识为Ft,这里t是从1到T,但在图3的表示符号中发音的帧被标识为Fab,这里a是发音号,b是帧号。具体地说,发音U1有10帧,即F11,F12,F13,F14,F15,F16,F17,F18,F19和F110。发音2有12帧,即F21,F22,F23,F24,F25,F26,F27,F28,F29,F210,F211和F212。作为举例,每帧含有代表20毫秒声音的特征。
可以以任何方便的方式产生特征矢量。例如,一个特征矢量可以含有由A/D转换器202(图2)输出产生的倒谱(cepstral)和δ-倒谱(delta-cepstral)特征。
参考图3,初始时由发音U1的帧F11和F12以及发音U2的帧F21和F22构成状态1(s1)。这些帧值用于初始时计算构成状态1统计表示的某些或全部参数。在最佳实施例中,统计表示是来自发音U1和发音U2的帧的均值。这样,状态1初始时被设为发音U1的帧F11和F12及发音U12的帧F21和F22的均值。本领域技术人员将理解,在状态中也可包括一个方差。也生成其他状态的统计表示。第二状态s2是发音U1的帧F13和F14及发音U2的帧F23和F24之值的均值。类似地,状态s3是发音U1的帧F15和F16及发音U2的帧F25和F26之值的均值。状态s4是发音U1的帧F17和F18及发音U2的帧F27、F28和F29的均值。
如上文中所举实例那样,在发音U2中的额外帧被分配给最后两个状态。如果第二发音只有一个额外帧,则只有最后一个状态得到一个额外帧。如果第二发音有三个额外帧,则最后三个状态的每一个被分配一个额外帧。类似地,如果第一发音有额外帧,例如四个额外帧,则最后四个状态将每个有一个额外帧。如果任一发音比另一发音多五个帧,则每个状态从有较多帧的发音接收三帧,而从有较少帧的发音接收二帧。
上文中提供的帧分配是作为一个例子说明初始时可以怎样把帧分配给状态以及怎样能构成状态的统计表示。然而,本领域技术人员将会理解,对于初始状态分配和状态的统计表示存在大量的其他方法,所以本发明不限制于上述环境。
在本例中,使用了五个状态,而不管发音的长度。本领域技术人员将会理解,可以使用任何数量的状态,预计对每个发音将利用十个以上状态。此外,状态数可以被固定,不管发音的长度如何,或者状态数依赖于发音的长度。在下文的讨论中所针对的系统对任何发音都使用五个状态,而不管其长度。
一旦由发音U1和U2的帧统计创建了状态s1至s5,便创建了一个隐式马尔科夫模型(HMM)。呼叫处理器108利用一种对位算法使每个状态通过所创建的HMM状态。然后这种对位能被用于重新估计状态的统计表示。具体地说,运行对位算法,以根据所考虑的每个路径的得分,确定从任何一点返回时的最好路径,这将针对图4作一般性描述。如这里所用的那样,一个点是指网格400中的一个帧和状态的位置。路径穿过这些点延伸。
本领域技术人员将会理解,网格400(图4)显示对于8个帧从状态1到状态5的所有返回路径。一个附加限制是各帧必须分配着与前一帧相同的状态或者紧跟前一帧的状态之后的那个状态(不能有任何状态被跳过)。这与语音识别系统中帧到状态的分配相一致,而且显著地减少了为记录数据路径所需的逆向追踪信息量。对模型内从状态到状态的可能路径所作的这种限制有助于更好地模拟语言发音中声音事件的顺序、有序特征。通常,HMM状态转移在性质上被限制于从左到右,如图4所示,这里进入一特定状态n的可允许路径或者来自本状态(从sn到sn的“自循环”)或者来自先前的状态(从s(n-1)到sn的“单步转移”)。图8说明从左到右无跳跃HMM。已经证明,这种HMM体系结构对于许多语音识别任务都是有效的。本发明使用这种对受限状态转移的知识,并在逆向追踪矩阵方面进一步改进,从而显著减小了为记录逆向追踪路径所需存储器的大小。
在图4的网格400中,一种状态转移类型和状态间每个允许路径相关。状态转移类型1被分配给自循环,而状态转移类型0被分配给状态变化。在这一模型中能表示出跳跃状态,但将需要二位或更多位的状态转移类型指示符,因为单个二进制位不能区分三个或更多转移类型。不论是在哪种情况中,由于使用n-位符号阵列记录由对位算法(例如Viterbi对位算法)计算出的路径信息,使用状态转移类型相当大地减小了为存储路径所需存储器大小。本领域技术人员将会理解,n是一个小的数,在1或2个二进位的量级,而在传统的逆向追踪矩阵存储方案中使用8位或16位来标识前一个状态。
作为举例,用于帧5(图4中水平轴上的5号)的Viterbi算法确定从帧5中每个状态(状态1(s1)、状态2(s2)、状态3(s3)、状态4(s4)及状态5(s5))返回的最好路径(即产生最好得分的从每个状态的返回路径)。具体地说,该算法考虑从点A的返回路径的得分或概率,它代表对全部头五个帧该路径位于状态1的概率。这是必定的,因为条件是当前帧必须与前一帧有同一状态或者是高于前一帧状态的一个状态。
该算法对于点B产生一个从点B穿过点G的返回路径相关的得分以及从点B穿过点H的返回路径的得分。对于点C,Viterbi算法产生伴随从点C穿过点H的路径得分及伴随从点C穿过点I的路径得分。对于点D,Viterbi算法考虑伴随从点D穿过点I的返回路径得分及伴随从点D穿过点J的返回路径得分。对于点E,Viterbi算法产生伴随从点E穿过点J的返回路径得分及伴随从点E穿过点K的返回路径得分。在计算这些得分之后,对每个状态产生最高得分的路径转移类型被保留下来,作为到达这五帧中每个状态的路径。
虽然本发明可应用于允许最大2n个到任何状态的转移的左-右模型,但在所示实施例中只有两个转移类型是可允许的:自循环和单步转移。这里逆向追踪矩阵存储器是二进制标志阵列500(图5),它记录下采用了两个可能转移的哪一个。这两个可能路径是代表自循环的1和代表从较低状态到较高状态一步的0。相邻帧不能跳过一状态和要求时间上较迟的帧所处状态不能低于先前帧的状态这两个条件限制了可能路径的数目,对于这种情况这一实施例特别有利。
图5的存储器阵列500代表对于有五个可能状态的八个帧穿过矩阵的路径。X位置代表不必顾及的情况。对于来自帧的8的返回路径,状态s5即在右上角的0指示曾穿过帧7,状态s4,到达状态5的幸存(survivor)路径。在状态4下帧7的0指示该路径穿过帧6,状态s3。在帧6,状态3,中的0指示穿过帧5,状态s2,的返回路径。在帧5,状态s2,中的1指示穿过帧4,状态s2,的路径。在帧4,状态s2中的0指示穿过帧3,状态s1,的路径。对于头两个帧,路径还穿过状态1。用这同一种方法,对帧8,状态s4,s3,s2和s1的每一个的幸存路径能类似地逆向追踪。这样,可以看到,在存储器110的RAM中存储的二进制数能被用于代表对位算法的幸存路径。
现在参考图6描述存储器110中存储的处理器108的操作。初始时,如框602中所示,第一帧的各状态被设定。第一状态将被设为1,对帧1的状态2至5是X,这是不必顾及,因为它们可作为不可能状态被忽略。然后帧计数器被置为2,状态计数器被置为1,如框604中所示。
对于当前帧和状态(它是图4中网格400上的一点),处理器108计算一自循环的得分,该自循环是从当前帧中的状态sN穿过先前帧中的状态sN的返回路径,如框606中所示。还对于一状态转移导出其得分,该状态转移是从当前帧中的状态sN穿过先前帧中状态sN-1的返回路径,如框608中所示。
在步骤610,处理器108确定自循环或状态转移有较好的得分。如果自循环有较好得分,则对当前状态和帧(即当前帧的状态sN)把状态转移类型1存储在存储器110的RAM中,如框612中所示。否则,把0存于存储器110的RAM中用作一个状态转移,如框614中所示。
状态计数器被增1,如框616所示。在决策框618中,处理器确定是否已对当前帧中的各个状态计算了转移类型。如果最后一个状态尚未被计算,则处理器返回到步骤608,去计算下一状态的转移类型,这一计算是在框606处开始的。
如果在决策框616确定,当前帧的最后一个状态已被考虑,则如框620中所示,处理器110对帧计数器增1并把状态计数器复位为1。然后处理器确定刚考虑的帧是否是最后帧。如果不是,则处理器返回到步骤606,对下一帧开始状态分配过程。
如果在框622中确定,刚才考虑的帧是一次发音的最后一帧,则处理器110必须把具有最好得分的路径转换为一个状态分配模型,如果一个模型是当前被训练的模型的话。在识别过程中,只有得分将被使用,到HMM的路径转换开始时是从最后一帧的最后一个状态往回进行的,对该状态输出转移类型,如框702所示。在决策框704中处理器110确定该转移类型是否为自循环。如果它是一个自循环,如框708所示,则把前一个帧状态置成当前帧的同一状态。否则,如框706所示,把先前帧状态置成下一个较低状态。
在步骤709,状态保持(dwell)时间,或者说持续时间计数器可以被增1,如果希望保持跟踪这些保持时间的话。如果提供了这个可选的计数器,则在步骤706,当第一次被输入一个状态时把状态保持时间计数器初始化为1,并对每个状态提供一个计数器。
在步骤710,处理器108对帧计数器减1。在步骤704、706和708中标识出的先前帧状态被存储,以用于先前帧,而与那个点、帧和状态相关联的状态转移类型被输出,如框712所示。如果帧状态输出不是第一帧,则处理器返回到决策框704。如果在决策框714中确定第一帧状态已被存储,则如框716中所示,状态赋值模型已经完成。状态赋值模型包含把帧特征向适当状态的分配。这一信息可被存储供训练或用于更新一个被存储的模型。
现在将针对一个二维阵列L描述一个伪代码实现,并用状态s标志第一维,用语音帧F标志第二维,这里阵列的大小是N×T。我们还将定义符号1代表同状态转移(自循环),符号0代表从前一状态的转移。由于只有两个可能的符号,可以使用单个二进位存储它们。当进行Viterbi对位时,可用如下算法记录状态转移:
对所有语言帧(t=1到T)
  对HMM的所有状态(s=1到N)
     如果到状态s的最好路径来自状态s,则
           L[s][t]=1
          否则(最好路径必定来自前一状态)
                L[s][t]=0
          条件语句结束
    对所有状态结束
对所有语言帧结束
在训练过程中,通常对位的目标是找出该发音的每个帧的状态赋值。如果我们希望把状态赋值记录到一个阵列A[t]中,那么这一赋值能被容易地从转移矩阵L按如下作法恢复出来:
把状态s初始化为最后状态N
    对所有语言帧,从终点开始(t=T到1)
        A[t]=s
        如果L[s][t]=0,则
              s=s-1
        条件语句结束
    对所有语言帧结束
如前面提到的那样,上述算法在不允许状态跳跃的简化情况中工作得最好。如果允许状态跳跃,则需要对阵列L增加另一符号,增加这一阵列的存储需求和类型得分计算606、608的次数。
在对位过程中,追踪其中某特定状态已被占有的帧的个数也是有用的。这一信息可被用于分配状态持续时间罚值(penalty),如在题为“有选择地把一罚值赋予语音识别系统所伴随概率的方法”的未决专利申请中公开的那样,该专利申请与本申请在同一时期受理,报告号为Cs10104,以Daniel Poppert的名字受理,在这里把它的公开引入作为参考。这一保持时间信息在阵列L中被完全地表示。在时间t其状态s已被占有的帧的个数称作D[s][t],可按下述方式找到:
把D[s][t]初始化为1
当(L[s][t-D[s][t]]=1)时
        D[s][t]增1
“当…时”语句结束
本公开的识别系统使用简单的单个位标志阵列减少了逆向追踪信息的存储器足迹。如图4所示,它主要是想用于不允许状态跳跃的HMM简单情况,尽管它也能以增大存储器为代价扩展到更一般的情况。
用图9替换图6中的框608至614,则图6的流程图能被修改成容纳一个状态跳跃。具体地说,在框609中计算一跳跃得分Pskip。如果在框610中确定一自循环有最好得分,则如步骤614中所示,一个11(两个二进制位)被存储在RAM208中。在框610中的“否”决定之后,处理器108确定是否PD比Pskip更好。如果确定一个单步伴随有最好得分,则如步骤614中所示,一个00(两个二进制位)被存储在RAM208中。如果确定该状态跳跃有最好得分,则如步骤613中所示,一个10被存储在RAM中。如图10所示,通过增加705和707,并修改步骤704,能使图7修改成容纳一个跳跃。具体地说,步骤704寻找一个转移类型11,它是一个自循环。如果该状态类型不是一个自循环,则处理器检查看它是否为00,这里00指示步骤705中一个单状态步。如果不是,则如步骤707中所示,处理器108把前一帧标识为低于当前帧的两个状态。否则,处理器把它作为单步对待。
本领域技术人员将会理解,通过类似的过程扩展,能容纳更多的状态跳跃。对每个状态/帧所存储的二进制位的实际个数将依赖于所允许的跳跃个数。
尽管在上述描述和附图中已描述和图示了本发明,但应该理解,这一描述只是一种举例,本领域技术人员能做出大量的改变和修改而不离开本发明的精神和范围。尽管本发明在便携无线装置(如蜂窝无线电话)中找到了具体应用,但本发明能被应用于利用语音识别的任何装置,包括寻呼机、电子组织器(electronic organizer)、计算机、以及电话装备。本发明只应受下列权利要求书的限制。

Claims (10)

1.一种操作语音识别装置的方法,包括下述步骤:
接收一个语言发音;
产生一个代表该语言发音的信号;
把代表该发音的信号分成帧;
用一种对位算法把帧分配成状态;以及
通过对每个状态把一状态转移类型存储到存储器中来存储代表帧到状态分配的路径,其中状态转移类型标识到每个状态的状态转移。
2.如权利要求1中定义的方法,其中存储器为每个状态存储到该状态的最好路径。
3.如权利要求1中定义的方法,其中状态转移类型是由一二进制信号表示。
4.如权利要求3中定义的方法,其中二进制信号是一个单逻辑位。
5.如权利要求1中定义的方法,其中状态转移类型由一多位信号表示。
6.如权利要求1中定义的方法,还包括使用状态转移类型创建帧到状态赋值记录来产生帧到状态赋值记录的步骤。
7.如权利要求6中定义的方法,其中帧到状态对位是从最后帧开始使用状态转移类型进行逆向路径跟踪来创建的。
8.如权利要求6中定义的方法,还包括恢复状态保持时间的步骤。
9.如权利要求8中定义的方法,其中状态保持时间是从状态转移信息中提取的。
10.如权利要求8中定义的方法,其中在逆向跟踪矩阵以恢复状态赋值记录的同时对每个状态的自循环进行计数,从而得出状态保持时间。
CNB001024051A 1999-02-23 2000-02-23 语音识别系统中的逆向追踪矩阵存储方法 Expired - Lifetime CN1149532C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25755299A 1999-02-23 1999-02-23
US09/257,552 1999-02-23

Publications (2)

Publication Number Publication Date
CN1264890A CN1264890A (zh) 2000-08-30
CN1149532C true CN1149532C (zh) 2004-05-12

Family

ID=22976749

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001024051A Expired - Lifetime CN1149532C (zh) 1999-02-23 2000-02-23 语音识别系统中的逆向追踪矩阵存储方法

Country Status (6)

Country Link
JP (1) JP2000242293A (zh)
KR (1) KR100324453B1 (zh)
CN (1) CN1149532C (zh)
BR (1) BR0000894A (zh)
DE (1) DE10006937C2 (zh)
GB (1) GB2347254B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1297525A4 (en) * 2000-05-04 2005-09-28 Motorola Inc METHOD FOR STORING MATRIX MEMORY OF ORIGINAL SEARCH DATA IN A SPEECH RECOGNITION SYSTEM
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
EP2306457B1 (en) * 2009-08-24 2016-10-12 Oticon A/S Automatic sound recognition based on binary time frequency units
WO2011152575A1 (ko) * 2010-05-31 2011-12-08 주식회사 클루소프트 발음기관 애니메이션 생성 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
GB2209418B (en) * 1985-11-12 1989-10-11 Nat Res Dev Apparatus amd methods for analysing transitions in finite state machines

Also Published As

Publication number Publication date
GB0004281D0 (en) 2000-04-12
DE10006937A1 (de) 2000-10-12
KR20000071365A (ko) 2000-11-25
DE10006937C2 (de) 2003-02-13
KR100324453B1 (ko) 2002-02-27
JP2000242293A (ja) 2000-09-08
GB2347254B (en) 2001-08-22
CN1264890A (zh) 2000-08-30
BR0000894A (pt) 2000-09-12
GB2347254A (en) 2000-08-30

Similar Documents

Publication Publication Date Title
Soong et al. A Tree. Trellis based fast search for finding the n best sentence hypotheses in continuous speech recognition
WO2019191556A1 (en) Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
Schwarz et al. Hierarchical structures of neural networks for phoneme recognition
CN101490740B (zh) 声音合成装置
CN107408111A (zh) 端对端语音识别
CN1117344C (zh) 声音合成方法和装置、用于声音合成的词典构筑方法
Liu et al. Dilated convolution with dilated GRU for music source separation
CN109741754A (zh) 一种会议语音识别方法及系统、存储介质及终端
CN108615525B (zh) 一种语音识别方法及装置
CN106683677A (zh) 语音识别方法及装置
CN101551998B (zh) 一种语音互动系统以及其和人的语音互动方法
CN1748245A (zh) 三级单个单词识别
Liu et al. Speech enhancement method based on LSTM neural network for speech recognition
CN1047157A (zh) 线性预测语音编码激励脉冲的定位方法
CN105336323A (zh) 维语语音识别方法和装置
KR102056400B1 (ko) 심화 신경망을 이용한 다화자 음성 합성 방법 및 시스템
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN1149532C (zh) 语音识别系统中的逆向追踪矩阵存储方法
CN1145140C (zh) 有选择地把一罚值赋予语音识别系统所伴随概率的方法
CN1104010A (zh) 产生用于话音编码器的频谱噪音加权滤波器的方法
CN105632495A (zh) 语音识别方法和装置
Suh et al. Acoustic scene classification using specaugment and convolutional neural network with inception modules
CN117809621A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN111986653B (zh) 一种语音意图识别方法、装置及设备

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110112

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110112

Address after: Illinois Instrunment

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois Instrunment

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois Instrunment

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160427

Address after: American California

Patentee after: Google Technology Holdings LLC

Address before: Illinois Instrunment

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040512