CN1196104C - 语音处理 - Google Patents

语音处理 Download PDF

Info

Publication number
CN1196104C
CN1196104C CNB941916529A CN94191652A CN1196104C CN 1196104 C CN1196104 C CN 1196104C CN B941916529 A CNB941916529 A CN B941916529A CN 94191652 A CN94191652 A CN 94191652A CN 1196104 C CN1196104 C CN 1196104C
Authority
CN
China
Prior art keywords
node
path link
path
mark
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB941916529A
Other languages
English (en)
Other versions
CN1120372A (zh
Inventor
塞缪尔·加文·史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bt Levin Scott LLC
Cisco Levin Scott LLC
Cisco Technology Inc
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1120372A publication Critical patent/CN1120372A/zh
Application granted granted Critical
Publication of CN1196104C publication Critical patent/CN1196104C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

一种用于识别输入连续语音的路径链路传递的语音识别系统与方法,该识别系统具有多个与单词表示模型相关联的词汇点(24),网络中至少一个词汇节点(24)能够同时处理一条以上路径链路,从而允许一个以上的识别结果。

Description

语音处理
技术领域
本发明涉及语音处理,更具体地涉及用于处理连续语音的备选句法分析的系统。
背景技术
语音处理包括发言者识别,在其中检测或验证发言者的身份;以及语音识别,在其中任何人都能使用一个系统而无需经过识别器培训;以及所谓发言者相关的识别,在其中允许操作一个系统的用户是受限制的并且需要一个培训阶段来从各允许的用户得到信息,在识别处理中通常以数字形式将语音数据输入到一个所谓的前端处理器中,它从输入语音数据流中导出称作前端特征集或矢量的一组更紧致、感性上更有意义的数据。例如,语音通常经由麦克风输入,抽样,数字化,切分成长度为10-20ms的帧(诸如在8KHz上抽样),以及为每一帧计算一组系数。在语音识别中,通常假定发言者说出一组已知的单词或短语中的一个。称作样板或模型的单词或短语的一种存储的表示包括在发言者无关识别的情况中事先从多个发言者取得的该单词的一个基准特征矩阵。将输入特征矢量与模型对比并生成两者之间的一个相似性测度。
语音识别(无论是人类或机器)容易产生错误并且可能导致单词的错误识别。如果不正确地识别了一个单词或短语,则语音识别在识别中提供另一次尝试,这又可能是正确或不正确的。
已经提出过各种用于处理语音而选择输入语音与存储的语音样板或模型之间的最佳或备选的匹配的方法。在孤立的单词识别系统中,备选匹配的产生是相当简单明了的:各单词是一个表示要识别的单词的一个转移网络中的一条独立的‘路径’,并且独立的单词路径只在网络的终点上相连。将从网络出来的所有路径按它们与存储的样板之类的相似性排序便能给出最佳的与备选的匹配。
然而,在大多数连续识别系统及基于连续识别技术的某些孤立单词识别系统中,不总是有可能在网络的终点上重组所有的路径的,既不能从网络的出口点上得到的信息中直接得到最佳匹配也不能得到备选匹配。产生最佳匹配的问题的一种解决方法在1989年S.J.Young、N.H.Russell及J·H·S·Thornton的“令牌传递:连续语音识别系统的一种简单概念模型”中有所讨论,该文涉及通过一个转移网络传递称作令牌的信息包。一个令牌包含关于通过的部分路径的信息以及表示输入的与到此时为止处理过的网络部分之间的相似程度的一个累积得分。
如Young等人所描述的,在每次将一帧语音输入到一个转移网络时,便将出现在一个节点的输入端上的任何令牌传递进该节点中,并且在与这些节点相关联的单词模型内匹配当前的语音帧。然后新的令牌出现在节点的输出端上(已“行进”通过了与该节点相关联的模型)。这时只有最佳得分的令牌被传递到后面的节点的输入端上。当(诸如一个暂停检测器等外部设备)发出信号通知语音结束时,在最终节点上将出现一个单一的令牌。通过利用包含在令牌内的前面的路径信息沿该路径回溯,便能从这一令牌中提取通过网络的整个路径,而提供对输入语音的最佳匹配。
S.C.Austin与F.Fallside的论文“采用隐Markov模型的自动语音识别的一种统一的方向机制”(ICASSP 1989,卷1,667-670页)涉及以类似于上述Young等人所描述的方式操作的一种连续单词语音识别器。有关通过转移网络的识别进程的经历从单词模型出来时受到更新。识别结束时,识别结果是从提交给输出端的具有最佳得分的经历中得出的。对于每一条终止在最终节点上的路径,只有一种经历是可能的。
这种已知的配置并不允许用于给定的最终节点、用于在网络的输出端上容易地得到备用的选择。
发明内容
按照本发明,一种语音识别设备,包括:用于从每个预定的时间帧的输入语音信号导出识别特征数据的装置;用于模型化期望的输入语音的装置,包括多个词汇节点,每个词汇节点具有关联的单词表示模型,该模型具有所述词汇节点之间的链路;处理装置,用于比较所述识别特征向量与模型化的输入语音,并用于产生每个节点和时间帧的路径链路,所述路径链路为每个词汇节点和时间帧指示最可能的在前序列的词汇节点,每个路径链路包括存储累积识别得分的字段和存储该序列中最可能的在先路径链路的参考基准的字段;及依据该比较指示该输入语音信号的识别的装置;其特征在于,该处理装置(351)能够处理单个时间帧中至少一个词汇节点的一个以上的路径链路,除了最终节点之外。
这种配置表明在单个时间帧中一个节点能够处理一条以上的进入路径链路,并从而可以得出一个以上的识别结果。
该模型化装置最好包括一个具有多个噪声节点及与单词表示模型相关联的词汇节点的转移网络。该处理装置能够为每个节点生成路径链路,路径链路中包括:用于存储指向前一条路径链路的指针的字段;一条路径的累积得分;指向前一个节点的指针;以及用于切分信息的一个时标。最好,可具有在单个时间帧中被处理的一条以上路径链路的词汇节点具有一个以上的相同的关联的单词表示模型。
规定网络中至少一个词汇节点(除了最终节点之外)具有一个以上相关联的单词表示模型允许处理器同时处理多条路径,并因此允许一条以上的路径链路穿过各输入帧上的各节点间链传播。结果,本发明建立了一个转移网络的多个层次,沿它们可传播若干条备选的路径。最佳得分路径可由一个节点的第一模型应用,次最佳的由第二模型,以此类推,直到并行模型或进入的路径用完为止。
在通用的名词“网络”中包含有向的非循环图(DAG)与树。一个DAG是不带环路的一个网络,而树则是路径的唯一汇合点概念上正好出现在网络的终点上的一个网络。
名词″单词″在这里表示一个基本识别单位,它可以是一个单词也同样可以是一个双音、音素、音素变体等。识别则是将一个未知的发音与一个预定义的转移网络的匹配过程,该网络是设计成与用户可能要说的一致的。
为了标识已识别了的短语,该设备中可包含用于通过网络回溯路径链路的装置。
此外,该设备还可包含用于将一个标记分配给至少某些具有相关联的单词表示模型的节点的装置,以及用于比较各条路径的标记以确定带有对输入语音最佳匹配及次最佳备选匹配的路径的装置。
这种配置允许在性质上与最佳匹配必然不同而不只是在切分或噪声匹配上不同的一种备选方案。
单词表示模型可以是一般性地在英国远程通信技术杂志(British Telecom Technology Journal)1988年4月第6卷第2号第105页Cox的“自动语音识别的隐Markov模型:理论与应用”中所描述的隐Markov模型(HMM)、样板、动态时间卷绕模型或其它任何适用的单词表示模型。模型内进行的处理与本发明无关。
并不是所有包含与之相关联的单词模型的节点都必须具有分配给它们的标记。取决于转移网络的结构,只要将标记分配给出现在网络中的判定节点前面的那些节点就足够了。这里所使用的判定点是指网络中具有一条以上的进入路径的点而言。
可在网络中的某些判定点上检验部分路径,在这些判定点上施加有某些约束,因此只有符合这些约束的路径得以传播如申请人在1994年3月31日所提交的名为”连续语音识别”的国际专利申请(从欧洲申请93302539·7与93304503·1提出优先权要求)中所描述的,通过引用结合在此。各判定点与一组有效标记关联,并丢弃一切带有不在该组中的标记的路径链路。
累积标记可用于标识完整的路径,由于不需要在路径链路上来回移动便能确定路径本体,并且完全可以不生成令牌的部分路径信息,而得到十分高的操作效率。在这一情况中,标记字段必须大到足以唯一地标识所有的路径。
为了按照本发明的设备能高效地操作,路径标记的信号处理最好在一次单一的操作中完成以提高处理速度。
根据本发明的另一方面,提供一种语音识别的方法,包括:从每个预定时间帧的输入语音信号中导出识别特征向量;模型化期望的输入语音;通过产生一网络和产生每个节点及时间帧的的路径链路,比较特征数据与模型化的输入语音,该网络包括与单词表示模型相关联的多个词汇节点,每个路径链路包括存储累积识别得分的字段和存储该序列中最可能的在先路径链路的参考基准的字段;根据该比较指示该语音的识别,其特征在于,在除了最终节点之外的至少一个词汇节点的单个时间帧中处理一个以上的路径链路。
这里公开及提出了本发明的其它方面与较佳实施例的要求,其优点此后将是显而易见的。
附图简述
下面参照附图只是以实例的方式进一步描述本发明,附图中:
图1示意性地示出在一个远程通信环境中采用按照本发明的识别处理器;
图2为示意性地示出按照本发明的识别处理器的功能元件的方框图;
图3为示意性示出构成图2的一部分的分选器的部件的方框图;
图4为示意地示出图2的实施例中的一部分的一个序列句法分析器的结构的方框图;
图5示意性示出构成图4的一部分的一个存储器内的一个字段的内容;
图6为可应用于图4的序列句法分析器的处理器的一个转移网络的实施例的示意图;
图7a示出网络的一个节点,图7b示出按照本发明采用的一条路径链路;
图8至10示出路径链路通过图6的网络的行进;
图11为按照本发明的设备的一个转移网络的第二实施例的示意图;
图12为按照本发明的设备的一个转移网络的第三实施例的示意图。
具体实施方式的描述
参见图1,包含语音识别的远程通信系统通常包括:一麦克风1,通常构成一个电话手机的一个部分;一个远程通信网络(通常为一个公用远程通信交换网(PSTN))2;一个识别处理器3,连接成接收一个来自网络2的话音信号;以及一个应用装置4,连接在识别处理器3上配置成从它接收一个话音识别信号,指示识别了一个特定的单词或短语与否,并根据它来采取行动。例如,应用装置4可以是用于进行银行事务的一个远程操作的银行业务终端。
在许多情况中,应用装置4将向发言者发出听得见的应答,这是通过网络2传输到通常构成用户手机的一部分的一个扬声器5的。
在操作中,发言者向麦克风1说话,而一个模拟语音信号则从麦克风1传输进入网络2到达识别处理器3,在其中分析该语音信号,并生成一个指示标识了一个特定的单词或短语与否的信号并传输给应用装置4,然后在识别了语音的情况中,它便采取适当的行动。
通常,识别处理器需要采集与进行比较来确认语音信号的有关语音数据,并且这一数据采集可由在第二操作模式中的识别处理器来执行,在这一模式中,识别处理器3不连接在应用装置4上,但从麦克风1接收语音信号来构成该单词或短语的识别数据。然而,其它采集语音识别数据的方法也是可能的。
通常,识别处理器3不知道来自麦克风1的信号去往与通过网络2所取的路径;各式各样的类型与质量的接收机手机中的任何一种。同样,在网络2中可采用各式各样的传输路径中的任何一种,其中包括无线电链路、模拟与数字路径等等。从而,到达识别处理器3的语音信号Y与在麦克风1上接收的语音信号S相对应、其中卷绕了麦克风1、到网络2的链路、通过网络2的信道、以及到识别处理器3的链路的传送特征,它们可以用一个单一的传送特征H来集中与指定。
参见图2,识别处理器3包括:一个输入端31,用于接收(来自一个数字网络或来自一个模数转换器的)数字形式的语音;一个帧处理器32,用于将接连的数字样本划分成邻接的样本的接连的帧;一个特征提取器33,用于从一帧样本中生成一个对应的特征矢量;一个分选器34,接收接连的特征矢量并用多个模型状态在各个矢量上操作以生成识别结果;一个定序器35,配置成接收来自分选器34的分选结果并确定分选器输出序列表明最大相似性的预定的发音;以及一个输出端口38,在其上提供指示已经识别出的语音的一个识别信号。
帧生成器32
帧生成器32配置成以诸如每秒8,000个样本的速率接收语音样本,并以每16ms一帧的帧速率构成包含256个邻接样本的帧。最好,各帧是采用诸如Hamming窗口开成窗口的(即帧边沿附近的样本是乘以一个预定的加权常数的)以减少由帧边沿生成的虚假人工产物。在一个较佳实施例中,帧是重叠的(诸如重叠50%)以便改善窗口的效果。
特征提取器33
特征提取器33接收来自帧生成器32的帧并在各种情况中生成一组特征矢量。特征中可包括诸如逆谱系数(例如,chollet与Gagnoulet“关于采用对比系统的语音识别及数据库的评价”(1982 IEEE学报2026页)中所描述的LPC逆谱系统或唛耳频率逆谱系数),或者这些系数的差分值,其中对于每一个系数包括该系数与前面的矢量中的对应系数值之间的差,如在soong与Rosenberg的“关于在发言者识别采用瞬时与过渡频谱信息”,1988年IEEE声学学报,语音与信号处理卷36,第6,871页,中所描述的。同样,也可采用若干种特征数的混合。
特征提取器33输出一个帧号,每一个后继的帧的帧号增加一。特征提取器33的输出还传递给一个结束指示器36,指示器的输出端连接在分选器34上。结束指示器36检测语音的结束,而其各种类型是本领域内众所周知的。
在本实施例中,帧生成器32与特征提取器是用一个单一的适当地编程的数字信号处理器(DSP)设备(诸如摩托罗拉DSP56000或德克萨斯仪器公司TMS X 320)或类似设备提供的。
分选器34
参见图3,在本实施例中,分选器34包括一个分选处理器341及下一个状态存储器342。
状态存储器342包括状态字段3421,3422…,用于多种语音状态中的每一种。例如,识别处理器要识别的各音素变体包括三种状态,从而在状态存储器342中为各音素变体提供了三个状态字段。
分选处理器34配置成轮流读取存储器342内的各状态字段,并使用当前输入特征系数组为各状态字段计算输入特征集或矢量与对应的状态相对应概率。
相应地分选处理器的输出为多个状态概率P,一种概率对应状态存储器342中的每一种状态,指明输入特征矢量与各种状态相对应的似然性。
分选处理器341可以是一个适当地编程的数字信号处理(DSP)设备,尤其可能是与特征提取器33相同的数字信号处理设备。
定序器3.5
参见图4,本实施例中的定序器35包括一个状态序列存储器352、一个句法分析处理器351及一个定序器输出缓冲器354。
还设置了一个状态概率存储器353,用于为各经过处理的帧存储分选处理器341输出的状态概率,状态序列存储器352包括多个状态序列字段3521,3522,…,各对应于由一个音素体构成的要识别的单词或短语序列。
状态序列存储器352中的各状态序列包括如图5中所示的若干状态P1,P2,…PN(其中N为3的倍数),以及对每种状态的两种概率:一个重复概率(Pi1)及到下一种状态的一个过渡概率(Pi2)。序列中的状态为三种各与一个单一的音素体相关的状态的多个组。因此,观测到的与一系列帧相关联的状态序列可包括各种状态序列模型3521等中的各状态Pi的若干次重复,例如:
帧号 1   2   3   4   5   6   7   8   9…Z    Z+1
状态 P1  P1  P1  P2  P2  P2  P2  P2  P2…Pn  Pn
句法分析处理器351配置成在各帧上读取分选处理器341输出的状态概率,及前面存储在状态概率存储器353中的状态概率,并计算时间上到为止的最可能的状态路径,以及将其与存储在状态序列存储器352中的各状态序列进行比较。
计算采用以上引用的Cox论文中所讨论的著名的隐Markov模型法(HMM)。句法分析处理器351执行的HMM处理方便地利用著名的Viterbi算法。句法分析处理器351可以是诸如Interi-486(商标)微处理器或Motorola(商标)68000微处理器之类的微处理器,也可以是一个DSP设备(例如,与用作前面任何一个处理器相同的DSP设备)。
相应地对于各状态序列(对应于要识别的一个单词、短语或其它语音序列),句法分析处理器351在各输入语音帧上输出一个概率得分。例如状态序到可包括电话簿中的姓名。当检测到发音结束时,从句法分析处理器351向输出端口38输出一个表示最可能的状态序列的标签信号a来指示已识别出的对应姓名、单词或短语。
句法分析处理器351包括一个专门配置用来识别诸如数字串等特定短语或单词的网络。
图6示出一个用于识别一个单词串的简单网络,在本例中为一个四单词串或者一个三单词串。网络的各节点12是与一个诸如HMM的单词表示模型13相关联的,它是存储在一张模型表中的。若干节点能与各个模型相关联,而各节点则包含一个指向其相关联的模型的指针(如能从图6与7a中看出的)。为了生成一个最佳匹配及一个单一的备选句法分析,最终节点14是与两个模型相关联的,从而允许该节点处理两条路径。如果需要n个句法分析,则网络的最终节点14与n个相同的单词模型关联。
如图7b中所示,一条路径链路15包含涉及指向前一条路径链路的一个指针、一个累积得分、指向前面出来的节点的一个指针及一个时标。在发音的开始,将一条空的路径链路15’插入第一节点16,如图8中所示。这时第一节点包含一条路径链路,因此而成为活跃的,而其余的节点则是不活跃的。在每一个时钟信号(即带有各个进入的语音帧)上,任何活跃的节点都在它们的路径链路上累加一个分数。
如果第一模型能够匹配比如说最少七帧语音,则在第七时钟脉冲上从第一节点输出带有这七帧与模型匹配的得分及指向入口路径链路与刚才匹配的节点的指针的一个路径链路15”。将这一路径链路馈送到所有后面的节点12,如图9中所示。这时前面三个节点是活跃的。然后在与活跃节点关联的模型中匹配输入的语音帧并输出新的路径链路。
随着第一节点的模型匹配发音的不断加长部分而生成更多的路径链路,并且后面的节点执行类似的计算,这一处理继续下去。
不输入语音已经处理到网络的最终节点18时,来自网络的各‘分支’的路径链路便可提交给这一节点18。如果在任何给定的时间帧上,存在一条单一的路径链路(即只完成了并行路径中的一条),便取该路径链路作为最佳的(及唯一的)匹配并受到最终节点18的处理。然而,如果有两条路径链路提交给最终节点18,则两者都受到该节点的处理,因为最终节点18能够处理一条以上的路径。输出路径链路不断地在各帧语音上更新。当发音完成时将有两条路径链路15在网络的输出端上,如图10中所示(为了简明起见已从中去掉了指向前面的路径链路与节点的指针)。
整条路径可通过跟踪指向前面的路径链路的指针找到,并且可以通过观察指向出来的节点的指针而标识出识别的路径上的节点(并从而认为识别了输入语音)。
图11表示配置成识别三位数字的串的一个网络的第二实施例。灰色节点22为网络中的空节点;白色节点为活跃节点,它们可分成带有用于匹配进入的语音的相关联的单词表示模型(未示出)的词汇节点24及表示随机噪声的噪声节点25。
如果包括第三个空节点22’在内及其以后的活跃节点24、25各能具有三条路径用于每个时间帧(即各词汇节点24与三个单词表示模型相关联),则该网络的输出中将包括与系统中三条最高得分路径相关的路径链路。如参照图8至10所描述的,这三条路径可通过为各条路径跟踪指向前面的路径链路的指针而找出。可以通过观察指向出来的节点的指针而标识出路径上的节点(从而认为识别了输入语音)。
在本发明的进一步发展中,可以用表示网络的重要节点的标志来增强路径链路。例如,这些重要节点可包含所有的词汇节点24。在图11的实施例中,分配给每一个词汇节点24一个标记,例如分配给表示数字1的节点一个标记‘1’,分配给表示数字2的节点24”一个标记‘2’,及以此类推。
句法分析开始时,一个单一的空路径链路被传递进一个网络入口节点26。由于这是一个空节点,该路径链路被传递到一下一个节点,一个噪声节点25。在这一节点的噪声模型(未示出)中匹配这一输入帧,并在输出端上生成一个更新的路径链路。然后将这一路径链路传递到下一个活跃节点,即具有一个关联的模型(未示出)的第一词汇节点24。各词汇节点24在其相关联的单词模型中处理该语音帧并生成一个更新的路径链路。该路径链路的标记字段也被更新。在各时间帧的末尾,排序这些更新后的路径链路而保留具有不同的标记字段的三条(n条)最高得分路径。通过加上的累积标记是唯一的这一附加约束来维护以得分排序的一张表:如果一个带有相同标记的第二路径链路进入,则保留两者中较佳的一个。该表中只包含最佳的n条不同路径,而忽略其余的。
这n条路径链路通过下一个空节点22’传播到后面的噪声节点25及词汇节点24”,各该节点与三个相同的单词表示模型并联。此后,进行模型处理,得出路径链路表的更新并且路径伸到更远的节点24、25中。应当清楚,经过空节点22或噪声节点25处理之后,路径链路的标记字段并不更新,因为不曾分配给这些节点标记。
路径链路沿通过其余活跃节点的路径传播,而在一个输出节点28上生成表示通过网络所取的路径的相对得分与标记(例如121)的多达三条路径链路。这些路径链路不断地被更新直到检测到了语音的结束(例如被诸如一个暂停检测器等外部设备或者直到到达一个暂停)。在这一点上,检验输出节点28上的路径链路的指针或累积标记以确定识别结果。
例如,假设在某一时刻将下列三条路径链路提交给了输出节点28:
                   得分                标记
A                    10                122
B                     9                122
C                     7                132路径A,最高得分路径,便是最佳匹配。虽然路径B具有次最高得分,由于其标记,并从而认为识别了的语音与路径A相同,因此拒绝将它作为一个备选的句法分析。因此,路径C将作为次最佳句法分析加以保留。
如果要识别的串具有比上面所讨论的更多的结构,诸如读出的姓名,则只须将标记分配给紧接在判定点前面的节点即可;而不是在每一个词汇节点上。图12示出用于识别姓名″Phil″、″Paul″与″Peter″的读音的一个网络。为了简单起见,未示出噪声。方节点44表示标记应增强的地方。
该系统能在‘L’节点区分‘PHI’与‘PAU’路径,因为建立在前面的节点上的路径链路的标记是不同的。后面的节点47将能够区别所有三条独立的路径,由于方节点44的标记是不同的。只有‘L’节点及最终的噪声节点48需要与一个以上相同的单词模型关联,使得这些模型能够具有一条以上的路径用于单个时间帧。
在所有情况中,图解待识别的语音的各网络需要加以分析以确定哪些节点要分配标记。此外,该网络是配置成与用户可能要说的一致的。
通过限制一个节点传播的标记可以做到节省存储器容积与处理速度,如本申请人1994年3月31日提交的名为“连续语音识别”的国际专利申请(1994年10月13日公开,公开号为WO94/23425)中所描述的。例如,假如说对具有图6的网络的一个识别器的仅有的有效输入语音只有下列四数字:111、112、121、211。网络内的某些节点与一组有效标记相关联,并且一条路径只在提交了具有这些标记之一的一个路径链路时才被这一‘约束’节点所传播。为了达到这一点,检验进入一个约束节点(诸如第三空节点22’)的路径链路的标记字段。如果标记字段包含一个1或2以外的标记,便丢弃该路径而不再传播该路径。如果提交了一条允许的路径链路,便将它传递到下一个节点。下一个约束节点是下一个词汇节点后面的空节点22”。这一空节点约束成只传播具有标记11、12或21的路径链路。下一个词汇节点后面的空节点22约束成只传播具有标记111、112、121或211的路径链路。这种配置显著地减少了必要的处理,并能节省装置的存储器容量。只有网络中的判定点上的某些节点需要这样约束。在实践中,一个32位的标记已被证明适用于高达9位数字的序列。一个64位标记适用于一个12个字符的字母数字串。
语音结束检测以及与本发明有关的各种其它语音识别特征更全面地提出本申请人1994年3月25日提交的名为“语音识别”的国际专利申请中(1994年3月25日公开,公开号为WO94/22131)。
在上述实施例中,已经描述了适合于耦合到一台远程通信交换机上的识别处理装置。然而,在另一个实施例中,本发明可实施在连接在电话网上的一个传统的用户站(移动的或固定的)的简单装置上;在这一情况中,可以设置模数转换装置来数字化进入的模拟电话信号。

Claims (20)

1、一种语音识别设备,包括:
用于从每个预定的时间帧的输入语音信号导出识别特征向量的装置;
用于模型化将与输入语音信号比较的模型的语音的装置,包括多个节点,每个节点与单词表示模型相关联,所述模型化装置被构成以允许所述节点之间的路径链路的扩展;
处理装置,用于比较所述识别特征向量与模型化的输入语音,并用于产生每个节点的路径链路和时间帧,其中每个所述路径链路为每个节点和时间帧指示所述节点之间最可能的扩展路径,每个路径链路包括存储累积识别得分的字段和存储该扩展路径中最可能的在先路径链路的参考基准的字段;及
识别指示装置,指示依据该比较对该输入语音信号的识别;
其特征在于,除了最终节点之外,该处理装置(351)能够处理单个时间帧中至少一个节点的一个以上的路径链路。
2、按照权利要求1的语音识别设备,其特征在于该至少一个节点与一个以上相同的单词表示模型关联。
3、按照权利要求2的语音识别设备,其特征在于这些单词表示模型为隐Markov模型。
4、按照权利要求1、2或3中任何一项的语音识别设备,其特征在于所有节点都具有分配给它们的标记。
5、按照权利要求1、2或3中任何一项的语音识别设备,其特征在于只有出现在判定点前面的节点才具有分配给它们的标记。
6、按照权利要求4的语音识别设备,其特征在于所述路径链路中包含一个累积标记。
7、按照权利要求4的语音识别设备,其特征在于至少一部分节点受到约束只扩展具有预定标记的路径链路。
8、按照权利要求4的语音识别设备,其特征在于,该识别指示装置包括用于比较路径链路的得分与标记来确定带有与输入连续语音最佳匹配及带有次最佳备选匹配的路径的装置。
9、一种语音识别的方法,包括:
从每个预定时间帧的输入语音信号中导出识别特征向量;
模型化将与输入语音信号比较的模型的语音;
通过产生一网络和产生每个节点及时间帧的路径链路,比较特征数据与模型化的输入语音,该网络包括多个节点,每个节点与单词表示模型相关联,每个路径链路包括存储累积识别得分的字段和存储扩展路径中最可能的在先路径链路的参考基准的字段;
根据该比较指示该语音的识别,其特征在于,在除了最终节点之外的至少一个节点的单个时间帧中处理一个以上的路径链路。
10、按照权利要求9的方法,其特征在于,该至少一个节点是与一个以上相同的单词表示模型关联的。
11、按照权利要求10的方法,其特征在于,该至少一个节点是与等于多个将出现的交替识别结果的多个相同的单词表示模型关联的。
12、按照权利要求10的方法,其特征在于,在网络的各判定点上比较这些路径链路的得分,只有n条最高得分路径链路才扩展到下面的节点。
13、按照权利要求10的方法,其特征在于,将标记分配给所有节点。
14、按照权利要求12的方法,其特征在于,将标记分配给所有节点。
15、按照权利要求10的方法,其特征在于,只将标记分配给出现在网络中判定点前面的节点。
16、按照权利要求14的方法,其特征在于,还比较路径链路的标记,只有包含不同标记的路径链路才扩展到下面的节点。
17、按照权利要求13的方法,其特征在于,约束至少一部分节点只传递在它们的标记字段中具有预定标记的路径链路,
18、按照权利要求9至11中任何一项的方法,其特征在于,被识别的输入语音信号是通过经过该网络向后跟踪路径链路确定的。
19、按照权利要求13的方法,其特征在于,被识别的输入语音信号是由各路径链路的累积标记确定的。
20、按照权利要求10或11的方法,其特征在于,最佳得分路径链路是由一个词汇节点的第一单词表示模型处理的,次最佳得分路径链路由第二模型处理,以此类推,直到没有另外的并行模型可用、或直到没有另外的进入的路径链路。
CNB941916529A 1993-03-31 1994-03-31 语音处理 Expired - Lifetime CN1196104C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP93302538 1993-03-31
EP93302538.9 1993-03-31
EP93304993 1993-06-25
EP93304993.4 1993-06-25

Publications (2)

Publication Number Publication Date
CN1120372A CN1120372A (zh) 1996-04-10
CN1196104C true CN1196104C (zh) 2005-04-06

Family

ID=26134252

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB941916529A Expired - Lifetime CN1196104C (zh) 1993-03-31 1994-03-31 语音处理

Country Status (12)

Country Link
JP (1) JPH08508350A (zh)
KR (1) KR100309205B1 (zh)
CN (1) CN1196104C (zh)
AU (1) AU682177B2 (zh)
CA (1) CA2158064C (zh)
DE (1) DE69416670T2 (zh)
FI (1) FI954572A (zh)
HK (1) HK1014390A1 (zh)
NO (1) NO308756B1 (zh)
NZ (1) NZ263223A (zh)
SG (1) SG47716A1 (zh)
WO (1) WO1994023424A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943438A (en) * 1995-03-07 1999-08-24 Siemens Aktiengesellschaft Method for pattern recognition
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
CN103035243B (zh) * 2012-12-18 2014-12-24 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
CN105913848A (zh) * 2016-04-13 2016-08-31 乐视控股(北京)有限公司 一种基于最小堆的路径存储方法、系统和语音识别器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
DE3750199T2 (de) * 1986-06-02 1995-01-19 Motorola Inc System zur Erkennung kontinuierlicher Sprache.
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs

Also Published As

Publication number Publication date
AU682177B2 (en) 1997-09-25
SG47716A1 (en) 1998-04-17
DE69416670T2 (de) 1999-06-24
CA2158064A1 (en) 1994-10-13
KR100309205B1 (ko) 2001-12-17
NO308756B1 (no) 2000-10-23
CA2158064C (en) 2000-10-17
NO953895D0 (no) 1995-09-29
AU6382994A (en) 1994-10-24
NO953895L (no) 1995-11-28
JPH08508350A (ja) 1996-09-03
FI954572A0 (fi) 1995-09-27
DE69416670D1 (de) 1999-04-01
NZ263223A (en) 1997-11-24
FI954572A (fi) 1995-09-27
WO1994023424A1 (en) 1994-10-13
CN1120372A (zh) 1996-04-10
HK1014390A1 (en) 1999-09-24

Similar Documents

Publication Publication Date Title
CN1196104C (zh) 语音处理
CN1058097C (zh) 连续语音识别
Soong et al. A Tree. Trellis based fast search for finding the n best sentence hypotheses in continuous speech recognition
CN107154260B (zh) 一种领域自适应语音识别方法和装置
CN1169115C (zh) 语音合成系统及方法
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
CN1303582C (zh) 自动语音归类方法
CN1211779C (zh) 语音识别系统中确定非目标语言的方法和装置
EP0847041A3 (en) Method and apparatus for speech recognition performing noise adaptation
CN112712349A (zh) 一种基于人工智能和大数据分析的智能无纸化会议数据信息处理方法
CN1170472A (zh) 信息处理系统
US6230128B1 (en) Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
CN1223984C (zh) 基于客户机-服务器的分布式语音识别系统
CN1315721A (zh) 客户服务器语音信息传送系统与方法
US10402492B1 (en) Processing natural language grammar
CN1381005A (zh) 一个分类系统的迭代训练的方法与装置
EP0692134B1 (en) Speech processing
Nguyen et al. End-to-end named entity recognition for Vietnamese speech
CN117877531A (zh) 基于用户语音信息的情绪分析方法
CN102117615B (zh) 产生词语确认临界值的装置、方法及系统
CN112668664A (zh) 一种基于智能语音的话术训练方法
CN1055254A (zh) 声控打字系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BT RAVEN SCOTT CO., LTD.

Free format text: FORMER OWNER: BRITISH TELECOMM

Effective date: 20080620

Owner name: CISCO TECHNOLOGY COMPANY

Free format text: FORMER OWNER: SUCRE WENDSCOTT LIMITED LIABILITY COMPANY

Effective date: 20080620

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: SUCRE WENDSCOTT LIMITED LIABILITY COMPANY

Free format text: FORMER NAME OR ADDRESS: BT RAVEN SCOTT CO., LTD.

CP03 Change of name, title or address

Address after: Delaware

Patentee after: CISCO Levin Scott LLC

Address before: American California

Patentee before: BT Levin Scott LLC

TR01 Transfer of patent right

Effective date of registration: 20080620

Address after: California, USA

Patentee after: Cisco Technology, Inc.

Address before: Delaware

Patentee before: CISCO Levin Scott LLC

Effective date of registration: 20080620

Address after: American California

Patentee after: BT Levin Scott LLC

Address before: London, England

Patentee before: BRITISH TELECOMMUNICATIONS PLC

C17 Cessation of patent right
CX01 Expiry of patent term

Expiration termination date: 20140331

Granted publication date: 20050406