CN1196103C - 语音识别设备和方法以及记录了语音识别程序的记录媒体 - Google Patents
语音识别设备和方法以及记录了语音识别程序的记录媒体 Download PDFInfo
- Publication number
- CN1196103C CN1196103C CNB031231349A CN03123134A CN1196103C CN 1196103 C CN1196103 C CN 1196103C CN B031231349 A CNB031231349 A CN B031231349A CN 03123134 A CN03123134 A CN 03123134A CN 1196103 C CN1196103 C CN 1196103C
- Authority
- CN
- China
- Prior art keywords
- unimportant
- voice
- eigenwert
- speech components
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
语音识别设备100包括:语音分析器103,它提取划分成帧的自然发生语音的特征模式;关键字模型数据库(104,105)104,它预先存储代表要识别的多个关键字的特征模式的关键字;垃圾模型数据库(104,105)105,它预先存储要识别的无关紧要语音的分量的特征模式;以及或然率计算器106,它根据每个帧、关键字和无关紧要语音的特征值模式计算特征值的或然率。设备100根据每个帧与每个HMM相匹配的或然率而识别包含在自然发生语音中的关键字。
Description
技术领域
本发明涉及有关通过HMM(隐藏的马尔可夫模型)方法进行语音识别的技术领域,具体地,涉及有关识别自然发生的(spontaneous)语音中的关键字的技术领域。
背景技术
近年来,开发了识别由人发出的自然发生语音的语音识别设备。当人讲出预定的字时,这些设备从它们的输入信号识别讲出的字。
例如,配备有这样的语音识别设备的各种装置(诸如安装在汽车上的、用于引导汽车移动的导航系统,和个人计算机)将允许用户无需通过键盘或开关进行人工选择操作来输入各种信息。
因此,例如即使在操作者正在使用他/她的双手驾驶汽车时的工作环境下,操作者仍可以把想要的信息输入到导航系统。
典型的语音识别方法包括利用被称为HMM(隐藏的马尔可夫模型)的概率模型的方法。
在语音识别中,自然发生的语音是通过把自然发生语音的特征值的模式与事先准备的、代表被称为关键字的候选字的语音的特征值的模式相匹配而被识别的。
具体地,在语音识别时,通过分析输入的自然发生语音,提取被划分成预定的持续时间的分段的输入的自然发生语音的特征值,计算在输入信号的特征值与预先存储在数据库中的、用HMM表示的关键字的特征值之间的匹配程度(此后称为或然率),累积整个自然发生语音的或然率,以及把具有最高或然率的关键字判定为识别的关键字。
因此,在语音识别中,关键字是根据由人发出的自然发生语音的输入信号被识别的。
顺便说明,HMM是被表示为一组转移状态的统计源模型。它代表要被识别的预定的语音(诸如关键字)的特征值。而且,HMM是根据事先采样的多个语音数据生成的。
重要的是,这种语音识别能够怎样提取在自然发生语音中包含的关键字。
除了关键字以外,自然发生语音通常包含无关紧要(extraneous)的语音,即,先前已知不必识别的字(诸如在关键字之前和之后的“er”或“please”),原则上,自然发生语音包含夹在无关紧要语音中间的关键字。
传统上,语音识别常常利用“单字定位(word-spotting)”技术来识别要被语音识别的关键字。
在单字定位技术中,不仅准备了代表关键字模型的HMM,而且也准备了代表无关紧要语音模型(此后称为垃圾模型)的HMM,以及自然发生的语音是通过识别其特征值具有最高或然率的关键字模型、垃圾模型、或二者的组合而被识别的。
发明内容
然而,上述的用于识别自然发生的语音的设备易于误识别,因为如果发出的是非预期的无关紧要语音,则该设备不能识别无关紧要语音或不能正确地提取关键字。
鉴于以上问题,作出了本发明。本发明的目的是提供一种语音识别设备,它能够达到高的语音识别性能而不增加无关紧要语音的特征值的数据量。
本发明的以上的目的是通过本发明的语音识别设备达到的。一种用于识别在发出的自然发生语音中所包含的关键字中的至少一个关键字的语音识别设备配备有:提取装置,用于通过分析所述自然发生语音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音的语音成分的特征值;识别装置,用于通过根据所述自然发生语音的特征值来辨认在所述自然发生数据中包含的所述关键字和无关紧要语音中的至少一项来识别所述关键字,所述无关紧要语音表示非关键字;以及数据库,在其中预先存储着无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据表示无关紧要语音分量的语音成分的特征值,其中识别装置根据所提取的自然发生语音的特征值和所存储的无关紧要语音分量的特征数据来辨认在自然发生语音中包含的无关紧要语音。
按照本发明,在自然发生语音中所包含的无关紧要语音是根据所提取的自然发生语音的特征值和存储的无关紧要语音分量的特征数据而加以辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据而加以辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能改进提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中在所述数据库中预先存储的所述无关紧要语音的分量特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据而辨认的,该特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中在所述数据库中预先存储的所述无关紧要语音分量的特征数据代表该语音成分的特征值的一个数据,它已经通过组合多个无关紧要语音分量的特征值而得到。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表由组合多个无关紧要语音分量的特征值得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音可以根据存储的无关紧要语音分量特征数据之一而辨认,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中在所述数据库中预先存储的所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据作为多个所述无关紧要语音分量的语音成分的特征值数据的无关紧要语音分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音的辨认精度在多个特征值被合成时会造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;在多个所述无关紧要语音分量的特征数据被预先存储在所述数据库中的情形下,无关紧要语音分量的特征数据代表为作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结构分量的各种类型的语音声音生成的语音成分的特征值的数据。
因此,因为无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化是可以防止的,所以在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中在所述数据库中预先存储的无关紧要语音分量的特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表音素和音节中至少一项的特征值的数据的无关紧要语音分量特征数据被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别设备还配备有;获取装置,用于预先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别装置包括:计算装置,用于计算表示所提取的自然发生语音的至少一部分特征值与在所述数据库中存储的无关紧要语音分量方特征数据和所获取的关键字特征数据相匹配的概率的或然率;以及识别装置,用于根据所计算的或然率辨认在自然发生语音中所包含的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的语音识别方法达到的。一种用于识别在发出的自然发生语音中包含的关键字中的至少一个关键字的语音识别方法包括以下过程:提取过程,通过分析所述自然发生语音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音的语音成分的特征值;识别过程,通过根据所述自然发生语音的特征数据来辨认在所述自然发生数据中所包含的所述关键字和无关紧要的至少一项来识别所述关键字,所述无关紧要语音表示非关键字;以及获取过程,用于获取在数据库中预先存储的无关紧要语音分量特征数据,所述无关紧要语音分量的特征数据表示无关紧要语音分量的语音成分的特征值,其中识别过程根据所提取的自然发生语音的特征值和所获取的无关紧要语音分量的特征数据辨认在自然发生语音中所包含的无关紧要语音。
按照本发明,在自然发生语音中包含的无关紧要语音是根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据而辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;其中所述获取处理过程获取在所述数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据多个所述无关紧要语音分量的语音成分的特征值的特征数据的无关紧要语音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;其中所述获取处理过程获取在所述数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表该语音成分的特征值的一个数据,它已经通过组合多个无关紧要语音分量的特征值而得到。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表通过组合多个无关紧要语音分量的特征值得到的、语音成分的特征值的一个数据的无关紧要语音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一而辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,本发明的语音识别方法进一步被配备;其中所述获取过程获取在所述数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据作为多个所述无关紧要语音分量的语音成分的特征值数据的无关紧要语音分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一而辨认的以及可以防止无关紧要语音的辨认精度在把多个特征值合成时会造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;按照本发明的语音识别方法,其中所述获取过程获取在所述数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表为作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表作为语音的结构分量的每种类型的语音声音生成的语音成分的特征值的数据的无关紧要语音分量特征数据被辨认的。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,所以在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;按照本发明的任一项的语音识别方法,其中所述获取过程获取在所述数据库中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据代表音素和音节中的至少一项的特征值的数据的无关紧要语音分量特征数据被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的一个方面,本发明的语音识别方法进一步被配备;按照本发明的任一项的语音识别方法,其中所述获取过程预先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别过程包括:计算过程,用于计算表示所提取的自然发生语音的至少一部分特征值与在所述数据库中存储的无关紧要语音分量的特征数据和所获取的关键字特征数据相匹配的概率的或然率;以及识别过程,用于根据所计算的或然率辨认在自然发生语音中所包含的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的记录媒体达到的。记录媒体是其中记录有语音识别程序以便由计算机读出的记录媒体,被包括在用于识别在发出的自然发生语音中包含的至少一个关键字的语音识别设备的计算机,程序使得计算机用作为:提取装置,通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别装置,通过根据自然发生特征数据辨认在自然发生语音中包含的所述关键字和无关紧要的至少一项而识别所述关键字,所述无关紧要语音表示非关键字;以及获取装置,获取预先存储在数据库中的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示无关紧要语音分量的语音成分的特征值,其中识别装置根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据辨认在自然发生语音中包含的无关紧要语音。
按照本发明,在自然发生语音中包含的无关紧要语音是根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据被辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表通过组合多个无关紧要语音分量的特征值而得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据是多个所述无关紧要语音分量的语音成分的特征值数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据是多个所述无关紧要语音分量的语音成分的特征值数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表对于作为语音的结构分量的各种类型的语音声音生成的语音成分的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结构分量的每种类型的语音声音生成的语音成分的特征值的数据。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,在自然发生语音中包含的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表音素和音节中的至少一项的特征值的数据。
通常,有大量的要识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以各个音素或音节而被存储的无关紧要语音分量特征值被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为:所述获取装置,事先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别处理包括:计算装置,用于计算表示提取的自然发生语音的至少部分特征值与被存储在所述数据库中的无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别装置,用于根据计算的或然率辨认在自然发生语音中包含的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认在自然发生语音中包含的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
附图说明
图1是显示按照本发明的第一实施例的语音识别设备的图,其中使用基于HMM的语音语言模型;
图2是显示用于识别任意的自然发生语音的基于HMM的语音语言模型的图;
图3A是显示用于无关紧要语音和关键字的任意组合的无关紧要语音HMM的累积或然率的图;
图3B是显示用于无关紧要语音和关键字的任意组合的无关紧要语音分量HMM的累积或然率的图;
图4是显示按照本发明的第一和第二实施例的语音识别设备的结构的图;
图5是显示按照第一实施例的关键字识别处理的运行的流程图;
图6是显示按照第二实施例的语音识别设备的结构的图,其中使用了基于HMM的语音语言模型;
图7A是显示按照第二实施例的、特征矢量对无关紧要语音分量HMM的输出概率的第一示例性的图;
图7B是显示按照第二实施例的、特征矢量对无关紧要语音分量HMM的输出概率的第二示例性的图;
图8是显示按照第二实施例的、通过累计多个无关紧要语音分量HMM而得到的无关紧要语音分量HMM的输出概率的图。
具体实施方式
现在参照附图所示的优选实施例描述本发明。
下面描述的实施例是其中把本发明应用到语音识别设备的实施例。
[第一实施例]
图1到4是显示按照本发明的语音识别设备的第一实施例的图。
在本实施例中描述的无关紧要语音分量代表组成语音的基本语音单元,诸如音素或音节,但为了便于以下说明起见,在本实施例中将使用音节。
首先,参照图1和图2描述按照这个实施例的、基于HMM的语音语言模型。
图1是显示按照本实施例的识别网络的基于HMM的语音语言模型的图,以及图2是显示使用任意HMM的、用于识别任意的自然发生语音的语音语言模型的图。
这个实施例假设代表基于HMM识别网络(诸如图1所示的识别网络)的模型(此后称为语音语言模型),即,包含要识别的关键字的语音语言模型10。
语音语言模型10包含关键字模型11,在它的两个末端,它与代表无关紧要语音的分量的垃圾模型(此后称为无关紧要语音的分量模型)12a和12b相联系。在要识别包含在自然发生语音的关键字的情形下,包含在自然发生语音的关键字是通过把关键字与关键字模型11相匹配而被识别的,以及包含在自然发生语音的无关紧要语音是通过把无关紧要语音与无关紧要语音分量模型12a和12b相匹配而被识别的。
实际上,关键字模型11和无关紧要语音分量模型12a与12b代表一组状态,这些状态转移自然发生语音的每个任意的分段。统计源模型“HMM”,是一个由稳定源的组合所表示的不稳定源,它组成自然发生语音。
关键字模型11的HMM(此后称为关键字HMM)和无关紧要语音分量模型12a与12b的HMM(此后称为无关紧要语音分量HMM)具有两种类型的参量。一个参量是状态转移概率,它代表从一个状态到另一个状态的状态转移,以及另一个参量是输出概率,它输出当从一个状态到另一个状态的状态转移时将观察到一个矢量(对于每个帧的特征矢量)的概率。因此,关键字模型11的HMM代表每个关键字的特征模式,以及无关紧要语音分量HMM12a与12b代表每个无关紧要语音分量的特征模式。
通常,由于即使相同的字或音节也会因为各种原因表现出声音的不同,组成自然发生语音的语言声音会随说话人有很大的变化。然而,即使是由不同的说话人发出的,相同的语言声音主要由特征谱包络和它的时间变化来表征。这样的声音变化的时间系列模式的统计特性可以由HMM精确地表示。
因此,正如下面描述的,按照本实施例,包含在自然发生语音中的关键字是通过把输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM进行匹配和计算或然率而识别的。
顺便地,或然率表示输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM匹配的概率。
按照本实施例,HMM是每个关键字的语音成分的特征模式,或每个无关紧要语音分量的语音成分的特征值。而且,HMM是具有代表在规则的时间间隔内在每个频率上的功率的谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据的概率模型。
而且,HMM是通过获取由很多人发出的每个音素的自然发生语音数据,提取每个音素的特征模式,和根据提取的音素特征模式获取各个音素的特征模式数据而创建的,以及事先存储在各个数据库中。
当包含在自然发生语音中的关键字通过使用这样的HMM被识别时,要识别的自然发生语音被划分成预定的持续时间的分段,把每个分段与每个预存储的HMM数据相匹配,然后根据匹配处理过程的结果计算这些分段从一个状态到另一个状态的状态转移的概率,以辨认要被识别的关键字。
具体地,在本实施例中,把各语音分段的特征值与预存储的HMM数据的各个特征模式进行比较,计算各语音分段的特征值与HMM特征模式匹配的或然率,并通过使用匹配过程(以后说明)计算代表对于在所有的HMM之间的联系(即,在关键字与无关紧要语音之间的联系)的概率的累积或然率,以及通过检测具有最高的或然率的HMM联系,识别自然发生语音。
代表特征矢量的输出概率的HMM通常具有两个参量:状态转移概率a和输出概率b,如图2所示。输入特征矢量的输出概率由多维正态分布的组合概率给出,以及每个状态的或然率由(1)式给出:
其中x是任意语音分段的特征矢量,∑i是协变矩阵,λ是混合比,μi是事先获取的特征矢量的平均矢量,以及P是任意语音分段的特征矢量的维数。
图2是显示表示当任一个状态i改变到另一个状态(i+n)时的概率的状态转移概率a,和相对于状态转移概率a的输出概率b。图2上的每个曲线图显示在给定状态下的输入特征矢量将会输出的输出概率。
实际上,将以上公式(1)取对数的对数或然率常常被使用于语音识别,如图2所示。
接着,参照图3说明作为垃圾模型的无关紧要语音分量HMM。
图3是显示在无关紧要语音和关键字的任意组合中无关紧要语音HMM和无关紧要语音分量HMM的累积或然率的图。
如上所述,在传统的语音识别设备的情形下,由于无关紧要语音模型,与关键字模型一样,由代表无关紧要语音的特征值的HMM组成,为了辨认包含在自然发生语音中的无关紧要语音,被辨认的无关紧要语音必须事先存储在数据库。
要辨认的无关紧要语音可包括除关键字以外的所有的语音,从不构成关键字的单字到不具有语言内容的不可识别的语音。因此,为了正确地识别被包含在自然发生语音帧的无关紧要语音,必须事先为大量无关紧要语音准备好HMM。
因此,在传统的语音识别设备中,必须获取每个无关紧要语音的特征值的数据,并把它存储在数据库,以便正确地识别包含在自然发生语音中的无关紧要语音。因此,必须事先存储大量数据,但实际上不可能得到用于存储数据的区域。
而且,在传统的语音识别设备中,要花费大量的劳动以生成要存储在数据库等等中的大量数据。
另一方面,无关紧要数据也是一种语音,因此它包含诸如音节和音素的分量,它们在数量上通常是有限的。
因此,如果被包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量被辨认的,则有可能减小要被准备的数据量以及有可能正确地辨认每个无关紧要语音。
具体地,因为任何无关紧要语音可以通过组合诸如音节和音素的分量而被组成,如果无关紧要语音是通过使用事先准备的这些分量的数据而被辨认的,则有可能减小要准备的数据量以及有可能正确地辨认每个无关紧要语音。
通常,识别包含在自然发生语音中的关键字的语音识别设备把自然发生语音划分成在预定的时间间隔内的语音分段(如后面描述的),计算每个语音分段与事先准备的垃圾模型(诸如无关紧要语音HMM)或每个关键字模型(诸如关键字HMM)匹配的或然率,根据对每个无关紧要语音HMM和每个关键字模型HMM的每个语音分段的计算出的或然率,累积关键字与无关紧要语音的每个组合的或然率,以及由此计算代表HMM联系的累积或然率。
当要识别包括在自然发生语音中的无关紧要语音的无关紧要HMM没有像传统的语音识别设备那样事先准备时,在自然发生语音中相应于无关紧要语音的那部分中的语音的特征值表现出与无关紧要语音HMM和关键字HMM的匹配的低的或然率以及它们的低的累积或然率,这将导致误识别。
然而,当语音分段与无关紧要语音分量HMM相匹配时,在自然发生语音中的无关紧要语音的特征值表现出与代表无关紧要语音分量HMM的特征值的准备的数据的匹配的高的或然率。因此,如果被包含在自然发生语音中的关键字的特征值与关键字HMM数据相匹配,则被包含在自然发生语音中的关键字与无关紧要语音的组合的累积或然率是高的,这使得有可能正确地识别关键字。
例如,当表示被包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM事先准备好时,如图3(a)所示,这与在使用无关紧要语音分量HMM的情形下的累积或然率没有差别,但当表示被包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM没有事先准备好时,如图3(b)所示,与使用无关紧要语音分量HMM的情形相比较,累积或然率是低的。
因此,由于本实施例通过使用无关紧要语音分量HMM来计算累积或然率以及由此辨认包含在自然发生语音中的无关紧要语音,本实施例能够通过使用小量数据正确地辨认无关紧要语音和识别关键字。
接着,参照图4,描述按照本实施例的语音识别设备的结构。
图4是显示按照本发明的第一实施例的语音识别设备的结构的图。
如图4所示,语音识别设备100包括:话筒101,它接收自然发生语音,并把它变换成电信号(此后称为语音信号);输入处理器102,它从输入的语音信号中提取相应于语言声音的语音信号以及按预先设置的时间间隔内分割帧;语音分析器103,它提取在每帧中的语音信号的特征值;关键字模型数据库104,它预先存储代表要识别的多个关键字的特征模式的关键字HMM;垃圾模型数据库105,它预先存储代表要与关键字区分开的无关紧要语音的特征模式的无关紧要语音分量HMM;或然率计算器106,它计算从每个帧提取的特征值与关键字HMM和无关紧要语音分量HMM相匹配的或然率;匹配处理器107,它根据按逐帧的HMM计算的或然率实施匹配过程(后面描述);以及确定装置108,它根据匹配处理的结果确定包含在自然发生语音中的关键字。
语音分析器103用作为本发明的提取装置,关键字模型数据库104和垃圾模型数据库105用作为本发明的数据库。或然率计算器106用作为本发明的识别装置、计算装置和获取装置。匹配处理器109用作为本发明的识别装置和计算装置。确定装置108用作为本发明的识别装置。
在输入处理器102中,输入从话筒101输出的语音信号。输入处理器102从输入的语音信号中提取代表自然发生语音的语音分段的语音信号的那些部分,把语音信号的提取的那些部分按预定的持续时间划分为时间间隔帧,以及把它们输出到语音分析器103。例如,一个帧具有约10ms到20ms的持续时间。
语音分析器103逐帧地分析输入的语音信号,提取在每个帧中的语音信号的特征值,以及把它输出到或然率计算器106。
具体地,语音分析器103提取代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据,作为按逐帧的语音成分的特征值,把提取的特征值变换成矢量,以及把这些矢量输出到第一或然率计算器106。
关键字模型数据库104预先存储代表要被识别的关键字的特征值的模式数据的关键字HMM。这些存储的多个关键字HMM的数据代表要识别的多个关键字的特征值的模式。
例如,如果它在安装有导航系统的汽车中使用,则关键字模型数据库104被设计成存储代表包括对于汽车的目的地名称或现在的位置名称或设施名称(诸如餐馆名称)的语音信号的特征值的模式的HMM。
如上所述,按照本实施例,代表每个关键字的语音成分的特征模式的HMM代表一个概率模型,该概率模型具有代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据。
因为关键字通常包含多个音素或音节,正如按照本实施例的“present location(现在的位置)”或“destination(目的地)”的情形,一个关键字HMM包含多个关键字分量HMM,以及或然率计算器106逐帧地计算每个关键字分量HMM的特征值和或然率。
这样,关键字模型数据库104存储要识别的关键字的每个关键字HMM,即,关键字分量HMM。
在垃圾模型数据库105中,预先存储HMM“无关紧要语音分量HMM”,它是被使用来识别无关紧要语音的语言模型以及代表无关紧要语音分量的特征值的模式数据。
按照本实施例,垃圾模型数据库105存储一个HMM,它代表无关紧要语音分量的特征值。例如,如果存储一个基于音节的HMM的单位,则这个无关紧要语音分量HMM包含覆盖所有的音节的特征的特征模式,诸如日本假名,鼻音,有声辅音,和爆破音。
通常,为了生成对于每个音节的特征值的HMM,要预先获取由许多人发出的每个音节的语音数据,提取每个音节的特征模式,以及根据每个基于音节的特征模式得到每个音节的特征模式数据。然而,按照本实施例,当生成语音数据时,根据所有的音节的语音数据生成所有的特征模式的HMM,以及生成单个HMM(一种语言模型),它代表多个字节的特征值。
因此,按照本实施例,根据生成的特征模式数据,生成具有所有音节的特征模式的单个HMM(它是一种语言模型),以及把它变换成矢量,以及预先存储在垃圾模型数据库105。
在或然率计算器106中,输入每个帧的特征矢量,以及或然率计算器106根据每个帧输入的特征矢量通过在每个帧的每个输入的HMM与存储在每个数据库中的HMM的每个特征值之间进行匹配而计算或然率,以及把计算的或然率输出到匹配处理器107。
按照本实施例,或然率计算器106根据每个帧的每个特征值和存储在关键字模型数据库104和垃圾模型数据库105中的HMM的特征值来计算概率,包括相应于被存储在关键字模型数据库104和垃圾模型数据库105中的每个HMM的每个帧的概率。
具体地,或然率计算器106逐帧地计算输出概率:相应于每个关键字分量HMM的每个帧的输出概率和相应于无关紧要语音分量的每个帧的输出概率。而且,它计算状态转移概率:从任意帧到下一个帧的状态转移与从关键字分量HMM到另一个关键字分量HMM的状态转移相匹配的状态转移概率,从任意帧到下一个帧的状态转移与从关键字分量HMM到无关紧要语音分量的状态转移相匹配的状态转移概率,和从任意帧到下一个帧的状态转移与从无关紧要语音分量HMM到关键字分量HMM的状态转移相匹配的状态转移概率。然后,或然率计算器106把这些计算的概率作为或然率输出到匹配处理器107。
顺便地,状态转移概率也包括从每个关键字分量HMM到同一个关键字分量HMM的状态转移的概率和从无关紧要语音分量HMM到同一个无关紧要语音分量HMM的状态转移的概率。
按照本实施例,或然率计算器106把对于每个帧计算的各个输出概率和每个状态转移概率作为对于各个帧的各个或然率输出到匹配处理器107。
在匹配处理器107中,输入逐帧的输出概率和每个状态转移概率。匹配处理器107执行匹配处理,以便根据输入的每个输出概率与每个状态转移概率,计算累积的或然率,这是每个关键字HMM和无关紧要语音分量HMM的每个组合的或然率,以及把计算的累积的或然率输出到确定装置108。
具体地,匹配处理器107对每个关键字计算累积或然率(如后面描述),和计算不带有关键字的累积或然率,即,仅仅无关紧要分量模型的累积或然率。
顺便地,后面将描述由匹配处理器107执行的匹配处理的细节。
在确定装置108中,输入由匹配处理器107计算的、每个关键字的累积或然率,以及确定装置108向外部输出具有最高的累积的或然率的关键字,确定它作为包含在外部自然发生语音中的关键字。
在确定关键字时,确定装置108也单独地使用无关紧要语音分量模型的累积或然率。如果使用单独的无关紧要语音分量模型具有最高的累积或然率,则确定装置108确定在自然发生的语言中没有包含关键字并向外输出这个结果。
接着,将给出有关按照本实施例的匹配处理器107执行的匹配处理的说明。
按照本实施例的匹配处理过程通过使用Viterbi算法计算关键字模型与无关紧要语音分量模型的各个组合的累积或然率。
Viterbi算法是一种算法,它根据输入的每个给定的状态的输出概率和从每个状态转换到另一个状态的转移概率来计算累积或然率,然后输出其累积或然率是依据累积概率而被计算的组合。
通常,累积或然率首先通过累计在由每个帧的特征值代表的状态与由每个HMM代表的状态的特征值之间的每个欧几里德距离而被计算,然后,该累积或然率由计算累积的距离而得到计算。
具体地,Viterbi算法根据代表从任意状态i到下一个状态j的转移的路径计算累积的概率,由此提取通过它可以发生状态转移的每条路径,即,HMM的连接和组合。
在本实施例中,或然率计算器106通过从第一个划分的帧开始和到最后一个划分的帧为止,逐个地匹配关键字模型或无关紧要语音分量模型的输出概率和由此匹配对于输入的自然发生语音的帧的状态转移概率,而计算每个输出概率和每个状态转移概率,计算从第一个划分的帧和到最后一个划分的帧的关键字模型和无关紧要语音分量的任意组合的累积或然率,确定在每个关键字模型/每个关键字模型与无关紧要语音分量组合中具有最高的累积或然率的安排,以及把关键字模型的确定的累积或然率逐个地输出到确定装置108。
例如,在要被识别的关键字是“present location(现在的位置)”和“destination(目的地)”,以及进入的、输入自然发生语音是“er,present location”的情形下,按照本实施例的匹配处理过程将如下地执行。
这里假设,无关紧要语音是“er”,垃圾模型数据库105包含代表所有的无关紧要语音分量的特征的一个无关紧要语音分量HMM,关键字数据库包含“present”和“destination”的每个音节的HMM,以及由或然率计算器106计算的每个输出概率和状态转移概率已被输入到匹配处理器107。
在这样的情形下,按照本实施例,Viterbi算法根据输出概率与状态转移概率计算在对于关键字“present”与“destination”的关键字和无关紧要语音分量的每个组合中所有的排列的累积或然率。
具体地,当任意自然发生语音被输入时,根据输出概率和状态转移概率计算以下的每个组合的模式的累积或然率:对于关键字“present”的“p-r-e-se-n-t ####”,“# p-r-e-se-n-t ###”,“##p-r-e-se-n-t ##”,“### p-r-e-se-n-t #”,和“#### p-r-e-se-n-t”和对于关键字“destination”的“d-e-s-t-i-n-a-ti-o-n ####”,“#d-e-s-t-i-n-a-ti-o-n ###”,“## d-e-s-t-i-n-a-ti-o-n ##”,“###d-e-s-t-i-n-a-ti-o-n #”,和“#### d-e-s-t-i-n-a-ti-o-n”(其中#表示无关紧要语音分量)。
Viterbi算法从每个关键字(在本例中是“present location”和“destination”)的第一帧开始计算自然发生的语音所有各帧的所有的组合模式的累积或然率。
而且,在计算对每个关键字的每个排列的累积或然率的过程中,Viterbi算法对于具有低的累积或然率的那些排列半途停止计算并确定自然发生的语音与那些组合模式不相匹配。
具体地,在第一帧中,“p”的HMM(它是关键字“present location”的关键字分量HMM)的或然率,或无关紧要语音分量HMM的或然率都包括在累积或然率的计算中。在本例中,较高的累积或然率提供下一个累积或然率的计算。在以上的例子中,无关紧要语音分量HMM的或然率高于“p”的HMM的或然率,因此,对于“p-r-e-se-n-t ####”的累积或然率的计算在“p”后终结。
因此,在这种类型的匹配处理过程中,对于每个关键字“presentlocation”和“destination”只计算一个累积或然率。
接着,参照图5描述按照本实施例的关键字识别过程。
图5是显示按照本实施例的关键字识别过程的运行的流程图。
首先,当控制板或控制器(未示出)输入每个部分开始关键字识别处理的指令和自然发生语音被输入话筒101(步骤S11)时,输入处理器102从输入的语音信号提取部分的自然发生语音的语音信号(步骤S12),把提取的语音信号划分成预定的持续时间的帧,以及把它们逐帧输出到语音分析器103(步骤S13)。
然后,这个运行按逐帧的原则执行以下的处理过程。
首先,语音分析器103提取每个帧中输入语音信号的特征值,以及把它输出到或然率计算器106(步骤S14)。
具体地,根据在每帧中的语音信号,语音分析器103按规则时间间隔提取代表在每个频率上的功率的谱包络信息或从功率谱的对数的逆傅立叶变换得到的倒频谱信息作为语音成分的特征值,把提取的特征值变换成矢量,以及把矢量输出到或然率计算器106。
接着,或然率计算器106把输入帧的特征值与存储在关键字模型数据库104中的每个HMM的特征值进行比较,计算相对于每个HMM的帧的输出概率和状态转移概率(如上面描述的),以及把计算的输出概率和状态转移概率输出到匹配处理器107(步骤S15)。
然后,或然率计算器106把输入帧的特征值与被存储在垃圾模型数据库105中的无关紧要语音分量HMM的特征值进行比较,计算相对于无关紧要语音分量HMM的帧的输出概率和状态转移概率(如上面描述的),以及把计算的输出概率和状态转移概率输出到匹配处理器107(步骤S16)。
接着,匹配处理器107在上述的匹配处理过程中计算每个关键字的累积或然率(步骤S17)。
具体地,匹配处理器107累计每个关键字HMM和无关紧要语音分量HMM的每个或然率,但最终只计算对于每个关键字的每个类型的最高累积或然率。
然后,在控制器(未示出)的指令下,匹配处理器107确定给定的帧是否最后的划分的帧(步骤S18)。如果匹配处理器107确定是最后的划分的帧,则匹配处理器107把对于每个关键字的最高的累积或然率输出到确定装置108(步骤S19)。否则,如果匹配处理器107没有确定最后的划分的帧,则这个操作执行步骤S14的过程。
最后,根据每个关键字的累积或然率,确定装置108输出具有最高的累积或然率的关键字作为包含在自然发生语音中的关键字(步骤S20)。这结束该运行。
因此,按照本实施例,因为通过使用无关紧要语音分量HMM计算累积或然率以及由此可识别包含在自然发生语音中的关键字,无关紧要语音可被正确地辨认以及关键字可以通过使用比以前更小的数据量被识别。
具体地,对于传统的语音识别设备,因为事先准备的垃圾模型是无关紧要语音本身的HMM,为了正确地识别无关紧要语音,必须准备所有可发出的无关紧要语音的语言模型。
然而,按照本实施例,因为包含在自然发生语音中的无关紧要语音是根据自然发生语音的提取的特征值和存储的无关紧要语音分量HMM被辨认的,可正确地辨认无关紧要语音以及可以使用比以前更小的数据量识别关键字。
因为组成无关紧要语音的无关紧要语音分量可以通过一个无关紧要语音分量HMM被辨认,每个无关紧要语音可以通过一个无关紧要语音分量HMM被辨认
因此,自然发生语音可以通过使用小量数据被辨认,使得有可能提高提取和识别关键字的精确度。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节生成的,当然,它们可以根据音素或其他结构单元被生成。
而且,虽然按照本实施例,一个无关紧要语音分量HMM被存储在垃圾模型数据库105,但代表无关紧要语音分量的特征值的HMM可以为每组的多个的每种类型的音素、或每个元音、辅音被存储。
在这种情形下,在或然率计算过程中按逐帧地计算的特征值将是每个无关紧要语音分量HMM和每个无关紧要语音分量的或然率。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的关键字识别程序时被执行。
在执行关键字识别处理程序的这个语音识别设备上,可以使用DVD或CD作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程序的读数装置。
[第二实施例]
图6到8是显示按照本发明的第二实施例的语音识别设备的图。
这个实施例与第一实施例的不同之处在于,不是用单个无关紧要语音分量HMM,即不是用通过组合多个无关紧要语音分量的特征值得到的和存储在垃圾模型数据库中的单个无关紧要语音分量模型,而是把多个无关紧要语音分量HMM存储在垃圾模型数据库,每个无关紧要语音分量HMM具有多个无关紧要语音分量的特征数据。在其他方面,这个实施例的结构类似于第一实施例的结构。因此,与第一实施例相同的部件用与相应部件相同的参考数字表示,以及将省略这些部件的说明。
图6是显示按照本实施例的使用HMM的识别网络的语音语言模型的图,图7是显示按照本实施例的无关紧要语音分量HMM的特征矢量和输出概率的示例性的图。
图8是显示通过累计多个无关紧要语音分量HMM而得到的多个无关紧要语音分量HMM的输出概率的图。
而且,按照本实施例,说明了要假设无关紧要语音的两个分量HMM模型是存储在垃圾模型数据库中的。
在这里的语音语言模型20中,与第一实施例的情形一样,包含在自然发生语音中的关键字和无关紧要语音是通过分别把关键字与关键字模型21进行匹配和把无关紧要语音与每个无关紧要语音分量模型22a和22b进行匹配而被辨认的,由此识别自然发生语音中的关键字。
按照第一实施例,一个无关紧要语音分量HMM是通过获取由多个人发出的每个音素的语音数据,提取每个音素的特征模式,和根据提取的每个音素的特征模式获得每个音素的特征模式数据而事先生成的。然而,按照本实施例,一个无关紧要语音分量HMM是对于每组的多个音素、元音、或辅音而生成的,以及生成的每个无关紧要语音分量HMM被合并成一个或多个无关紧要语音分量HMM。
例如,通过合并根据获取的语音数据训练的八个无关紧要语音分量HMM而得到的两个无关紧要语音分量HMM具有图7所示的特征。
具体地,如图8所示,八个HMM以如下方式,被合并成如图7(a)和7(b)所示的两个HMM,即在其他HMM和特征矢量之间将没有干扰。
由此,按照本实施例,每个合并的特征矢量具有如图8所示的每个原先的无关紧要语音分量HMM的特征。
具体地,按照本实施例的每个HMM的特征矢量(语音矢量)的输出概率由公式(3)根据公式(2)给出。每个合并的无关紧要语音分量HMM的特征矢量(语音矢量)的输出概率是使用根据每个计算所得的原先的无关紧要语音分量HMM的计算出的输出概率的最大值而计算的。
按照本实施例,代表最大输出概率的HMM是与要识别的无关紧要语音进行匹配的HMM,即,用来进行匹配的HMM,以及要计算它的或然率。
最后得到的曲线图显示由语音分析器103分析的、输出概率与帧的特征矢量的关系。
按照本实施例,无关紧要语音分量HMM是这样生成的,以及被存储在垃圾模型数据库。
按照本实施例,或然率计算器106使用以上述方式生成的无关紧要语音分量HMM、关键字HMM、和逐帧的特征值来逐帧地计算或然率。计算的或然率被输出到匹配处理器107。
由此,按照本实施例,因为每个无关紧要语音分量HMM具有多个无关紧要语音分量的语音成分的特征值,在第一实施例中当多个特征值被合并成多个无关紧要语音分量HMM时会发生的识别精确度的恶化可被避免,并且可正确地辨认无关紧要语音而不必增加存储在垃圾模型数据库中的无关紧要语音分量HMM的数据量。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节生成的,当然,它们可以根据音素或其他单元生成。
而且,代表无关紧要语音分量的特征值的HMM可以对每组中多个各种类型的音素、或各个元音、和辅音被存储。
在这种情形下的或然率计算过程中,特征值是通过使用每个无关紧要语音分量HMM和每个无关紧要语音分量的或然率逐帧计算的。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的关键字识别程序时执行。
在执行关键字识别处理程序的这个语音识别设备中,DVD或CD可用作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程序的读数装置。
Claims (14)
1.一种用于识别在发出的自然发生语音中所包含的关键字中的至少一个关键字的语音识别设备(100),其特征在于,所述设备包括:
提取装置(103),用于通过分析所述自然发生语音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音的语音成分的特征值;
识别装置(106,107,108),用于通过根据所述自然发生语音的特征值来辨认在所述自然发生语音中所包含的所述关键字和无关紧要语音中的至少一个来识别所述关键字,所述无关紧要语音表示非关键字;
以及
数据库(105),其中预先存储着无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据表示无关紧要语音分量的语音成分的特征值,
其中识别装置(106,107,108)根据所提取的自然发生语音的特征值和所存储的无关紧要语音分量的特征数据来辨认在自然发生语音中所包含的无关紧要语音。
2.按照权利要求1的语音识别设备(100),其中在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
3.按照权利要求2的语音识别设备(100),其中在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据代表该语音成分的特征值的一个数据,它已经通过组合多个无关紧要语音分量的特征值而得到。
4.按照权利要求2的语音识别设备(100),其中在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值数据。
5.按照权利要求2到4的任一项的语音识别设备(100),在多个所述无关紧要语音分量的特征数据被预先存储在所述数据库(105)中的情形下,其中无关紧要语音分量的特征数据代表为作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
6.按照权利要求1到4的任一项的语音识别设备(100),其中在所述数据库(105)中预先存储的无关紧要语音分量的特征数据代表音素和音节中的至少一个的特征值的数据。
7.按照权利要求1到4的任一项的语音识别设备(100),还包括获取装置,用于预先获取代表所述关键字的语音成分的特征值的关键字特征数据,以及
其中识别装置(106,107,108)包括:
计算装置(106),用于计算表示所提取的自然发生语音的至少一部分特征值与在所述数据库(105)中存储的所述无关紧要语音分量的特征数据和所获取的关键字特征数据相匹配的概率的或然率;以及
识别装置(106,107,108),用于根据所计算的或然率辨认在自然发生语音中所包含的所述关键字和所述无关紧要语音的至少一项。
8.一种用于识别在发出的自然发生语音中包含的关键字中的至少一个关键字的语音识别方法,其特征在于,所述方法包括:
提取过程,用于通过分析所述自然发生语音来提取一个自然发生语音的特征值,该特征值是所述自然发生语音的语音成分的特征值;
识别过程,用于通过根据所述自然发生语音的特征值来辨认在所述自然发生语音中所包含的所述关键字和无关紧要语音的至少一个来识别所述关键字,所述无关紧要语音表示非关键字;以及
获取过程,用于获取在数据库(105)中预先存储的无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据指示无关紧要语音分量的语音成分的特征值,
其中识别过程根据提取的自然发生语音的特征值和获取的无关紧要语音分量的特征数据来辨认在自然发生语音中所包含的无关紧要语音。
9.按照权利要求8的语音识别方法,其中所述获取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据是多个所述无关紧要语音分量的语音成分的特征值的特征数据。
10.按照权利要求9的语音识别方法,其中所述获取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表该语音成分的特征值的一个数据,它已经通过组合多个无关紧要语音分量的特征值而得到。
11.按照权利要求9的语音识别方法,其中所述获取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
12.按照权利要求9到11的任一项的语音识别方法,其中所述获取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表为作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
13.按照权利要求8到11的任一项的语音识别方法,其中所述获取过程获取在所述数据库(105)中预先存储的所述无关紧要语音分量的特征数据,所述无关紧要语音分量的特征数据代表音素和音节中的至少一个的特征值的数据。
14.按照权利要求8到11的任一项的语音识别方法,其中:
所述获取过程预先获取代表所述关键字的语音成分的特征值的关键字特征数据,以及
所述识别过程包括:
计算过程,用于计算表示提取的自然发生语音的至少一部分特征值与在所述数据库(105)中存储的所述无关紧要语音分量的特征数据和获取的关键字特征数据相匹配的概率的或然率;以及
识别过程,用于根据所计算的或然率辨认在自然发生语音中所包含的所述关键字和所述无关紧要语音的至少一个。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP114631/2002 | 2002-04-17 | ||
JP2002114631A JP4224250B2 (ja) | 2002-04-17 | 2002-04-17 | 音声認識装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1452157A CN1452157A (zh) | 2003-10-29 |
CN1196103C true CN1196103C (zh) | 2005-04-06 |
Family
ID=28672640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031231349A Expired - Fee Related CN1196103C (zh) | 2002-04-17 | 2003-04-17 | 语音识别设备和方法以及记录了语音识别程序的记录媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20030200090A1 (zh) |
EP (1) | EP1355295B1 (zh) |
JP (1) | JP4224250B2 (zh) |
CN (1) | CN1196103C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100631786B1 (ko) | 2005-02-18 | 2006-10-12 | 삼성전자주식회사 | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 |
KR100679051B1 (ko) | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US7680664B2 (en) * | 2006-08-16 | 2010-03-16 | Microsoft Corporation | Parsimonious modeling by non-uniform kernel allocation |
TWI345218B (en) * | 2007-04-20 | 2011-07-11 | Asustek Comp Inc | Portable computer with function for identiying speech and processing method thereof |
JP5765940B2 (ja) * | 2007-12-21 | 2015-08-19 | コーニンクレッカ フィリップス エヌ ヴェ | 画像を再生するための方法及び装置 |
US8595010B2 (en) * | 2009-02-05 | 2013-11-26 | Seiko Epson Corporation | Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition |
KR101195742B1 (ko) * | 2010-04-08 | 2012-11-01 | 에스케이플래닛 주식회사 | 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법 |
US9110889B2 (en) | 2013-04-23 | 2015-08-18 | Facebook, Inc. | Methods and systems for generation of flexible sentences in a social networking system |
US9606987B2 (en) | 2013-05-06 | 2017-03-28 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
WO2016181468A1 (ja) | 2015-05-11 | 2016-11-17 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
CN117577099A (zh) | 2017-04-20 | 2024-02-20 | 谷歌有限责任公司 | 设备上的多用户认证的方法、系统和介质 |
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
Family Cites Families (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE31188E (en) * | 1978-10-31 | 1983-03-22 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
US4514800A (en) * | 1981-05-22 | 1985-04-30 | Data General Corporation | Digital computer system including apparatus for resolving names representing data items and capable of executing instructions belonging to general instruction sets |
US4641274A (en) * | 1982-12-03 | 1987-02-03 | International Business Machines Corporation | Method for communicating changes made to text form a text processor to a remote host |
US4739477A (en) * | 1984-08-30 | 1988-04-19 | International Business Machines Corp. | Implicit creation of a superblock data structure |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4674040A (en) * | 1984-12-26 | 1987-06-16 | International Business Machines Corporation | Merging of documents |
US4815029A (en) * | 1985-09-23 | 1989-03-21 | International Business Machines Corp. | In-line dynamic editor for mixed object documents |
US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
US4910663A (en) * | 1987-07-10 | 1990-03-20 | Tandem Computers Incorporated | System for measuring program execution by replacing an executable instruction with interrupt causing instruction |
US5206951A (en) * | 1987-08-21 | 1993-04-27 | Wang Laboratories, Inc. | Integration of data between typed objects by mutual, direct invocation between object managers corresponding to object types |
US4933880A (en) * | 1988-06-15 | 1990-06-12 | International Business Machines Corp. | Method for dynamically processing non-text components in compound documents |
CA1341310C (en) * | 1988-07-15 | 2001-10-23 | Robert Filepp | Interactive computer network and method of operation |
US5195183A (en) * | 1989-01-31 | 1993-03-16 | Norand Corporation | Data communication system with communicating and recharging docking apparatus for hand-held data terminal |
US5297283A (en) * | 1989-06-29 | 1994-03-22 | Digital Equipment Corporation | Object transferring system and method in an object based computer operating system |
US6044205A (en) * | 1996-02-29 | 2000-03-28 | Intermind Corporation | Communications system for transferring information between memories according to processes transferred with the information |
US5297249A (en) * | 1990-10-31 | 1994-03-22 | International Business Machines Corporation | Hypermedia link marker abstract and search services |
US5204947A (en) * | 1990-10-31 | 1993-04-20 | International Business Machines Corporation | Application independent (open) hypermedia enablement services |
US5191645A (en) * | 1991-02-28 | 1993-03-02 | Sony Corporation Of America | Digital signal processing system employing icon displays |
US5187786A (en) * | 1991-04-05 | 1993-02-16 | Sun Microsystems, Inc. | Method for apparatus for implementing a class hierarchy of objects in a hierarchical file system |
US5313631A (en) * | 1991-05-21 | 1994-05-17 | Hewlett-Packard Company | Dual threshold system for immediate or delayed scheduled migration of computer data files |
JPH05181769A (ja) * | 1991-12-28 | 1993-07-23 | Nec Corp | 文書データ管理システム |
CA2099918C (en) * | 1992-07-06 | 2002-11-19 | Robert G. Atkinson | Method and system for naming and binding objects |
US5535389A (en) * | 1993-01-26 | 1996-07-09 | International Business Machines Corporation | Business process objects with associated attributes such as version identifier |
US5469540A (en) * | 1993-01-27 | 1995-11-21 | Apple Computer, Inc. | Method and apparatus for generating and displaying multiple simultaneously-active windows |
JPH06301555A (ja) * | 1993-02-26 | 1994-10-28 | Internatl Business Mach Corp <Ibm> | マイクロカーネル上の複数の共存オペレーティング・システム・パーソナリティ用のシステム |
US5608720A (en) * | 1993-03-09 | 1997-03-04 | Hubbell Incorporated | Control system and operations system interface for a network element in an access system |
EP0692135B1 (en) * | 1993-03-12 | 2000-08-16 | Sri International | Method and apparatus for voice-interactive language instruction |
US5627979A (en) * | 1994-07-18 | 1997-05-06 | International Business Machines Corporation | System and method for providing a graphical user interface for mapping and accessing objects in data stores |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
US5764985A (en) * | 1994-12-13 | 1998-06-09 | Microsoft Corp | Notification mechanism for coordinating software extensions |
US5706501A (en) * | 1995-02-23 | 1998-01-06 | Fuji Xerox Co., Ltd. | Apparatus and method for managing resources in a network combining operations with name resolution functions |
US5680619A (en) * | 1995-04-03 | 1997-10-21 | Mfactory, Inc. | Hierarchical encapsulation of instantiated objects in a multimedia authoring system |
US5758184A (en) * | 1995-04-24 | 1998-05-26 | Microsoft Corporation | System for performing asynchronous file operations requested by runnable threads by processing completion messages with different queue thread and checking for completion by runnable threads |
US5634121A (en) * | 1995-05-30 | 1997-05-27 | Lockheed Martin Corporation | System for identifying and linking domain information using a parsing process to identify keywords and phrases |
US5745683A (en) * | 1995-07-05 | 1998-04-28 | Sun Microsystems, Inc. | System and method for allowing disparate naming service providers to dynamically join a naming federation |
US6016520A (en) * | 1995-07-14 | 2000-01-18 | Microsoft Corporation | Method of viewing at a client viewing station a multiple media title stored at a server and containing a plurality of topics utilizing anticipatory caching |
US5742504A (en) * | 1995-11-06 | 1998-04-21 | Medar, Inc. | Method and system for quickly developing application software for use in a machine vision system |
US6081610A (en) * | 1995-12-29 | 2000-06-27 | International Business Machines Corporation | System and method for verifying signatures on documents |
US5915112A (en) * | 1996-01-02 | 1999-06-22 | International Business Machines Corporation | Remote procedure interface with support for multiple versions |
US5761408A (en) * | 1996-01-16 | 1998-06-02 | Parasoft Corporation | Method and system for generating a computer program test suite using dynamic symbolic execution |
US5758358A (en) * | 1996-01-29 | 1998-05-26 | Microsoft Corporation | Method and system for reconciling sections of documents |
US5761683A (en) * | 1996-02-13 | 1998-06-02 | Microtouch Systems, Inc. | Techniques for changing the behavior of a link in a hypertext document |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
US5721824A (en) * | 1996-04-19 | 1998-02-24 | Sun Microsystems, Inc. | Multiple-package installation with package dependencies |
US5874954A (en) * | 1996-04-23 | 1999-02-23 | Roku Technologies, L.L.C. | Centricity-based interface and method |
US6026416A (en) * | 1996-05-30 | 2000-02-15 | Microsoft Corp. | System and method for storing, viewing, editing, and processing ordered sections having different file formats |
US6072870A (en) * | 1996-06-17 | 2000-06-06 | Verifone Inc. | System, method and article of manufacture for a gateway payment architecture utilizing a multichannel, extensible, flexible architecture |
US6026379A (en) * | 1996-06-17 | 2000-02-15 | Verifone, Inc. | System, method and article of manufacture for managing transactions in a high availability system |
US5860062A (en) * | 1996-06-21 | 1999-01-12 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus and speech recognition method |
US6052710A (en) * | 1996-06-28 | 2000-04-18 | Microsoft Corporation | System and method for making function calls over a distributed network |
US5859973A (en) * | 1996-08-21 | 1999-01-12 | International Business Machines Corporation | Methods, system and computer program products for delayed message generation and encoding in an intermittently connected data communication system |
US5864819A (en) * | 1996-11-08 | 1999-01-26 | International Business Machines Corporation | Internal window object tree method for representing graphical user interface applications for speech navigation |
US5911776A (en) * | 1996-12-18 | 1999-06-15 | Unisys Corporation | Automatic format conversion system and publishing methodology for multi-user network |
US6031989A (en) * | 1997-02-27 | 2000-02-29 | Microsoft Corporation | Method of formatting and displaying nested documents |
US6014135A (en) * | 1997-04-04 | 2000-01-11 | Netscape Communications Corp. | Collaboration centric document processing environment using an information centric visual user interface and information presentation method |
US6078327A (en) * | 1997-09-11 | 2000-06-20 | International Business Machines Corporation | Navigating applications and objects in a graphical user interface |
US6216152B1 (en) * | 1997-10-27 | 2001-04-10 | Sun Microsystems, Inc. | Method and apparatus for providing plug in media decoders |
US6219698B1 (en) * | 1997-12-19 | 2001-04-17 | Compaq Computer Corporation | Configuring client software using remote notification |
GB2333864B (en) * | 1998-01-28 | 2003-05-07 | Ibm | Distribution of software updates via a computer network |
US6349408B1 (en) * | 1998-03-23 | 2002-02-19 | Sun Microsystems, Inc. | Techniques for implementing a framework for extensible applications |
US6345361B1 (en) * | 1998-04-06 | 2002-02-05 | Microsoft Corporation | Directional set operations for permission based security in a computer system |
US6366912B1 (en) * | 1998-04-06 | 2002-04-02 | Microsoft Corporation | Network security zones |
US6357038B1 (en) * | 1998-04-13 | 2002-03-12 | Adobe Systems Incorporated | Cross platform and cross operating system macros |
US6054987A (en) * | 1998-05-29 | 2000-04-25 | Hewlett-Packard Company | Method of dynamically creating nodal views of a managed network |
US6209128B1 (en) * | 1998-06-05 | 2001-03-27 | International Business Machines Corporation | Apparatus and method for providing access to multiple object versions |
US6505300B2 (en) * | 1998-06-12 | 2003-01-07 | Microsoft Corporation | Method and system for secure running of untrusted content |
US6381742B2 (en) * | 1998-06-19 | 2002-04-30 | Microsoft Corporation | Software package management |
US6253374B1 (en) * | 1998-07-02 | 2001-06-26 | Microsoft Corporation | Method for validating a signed program prior to execution time or an unsigned program at execution time |
US6353926B1 (en) * | 1998-07-15 | 2002-03-05 | Microsoft Corporation | Software update notification |
US6226618B1 (en) * | 1998-08-13 | 2001-05-01 | International Business Machines Corporation | Electronic content delivery system |
US6691230B1 (en) * | 1998-10-15 | 2004-02-10 | International Business Machines Corporation | Method and system for extending Java applets sand box with public client storage |
US6374402B1 (en) * | 1998-11-16 | 2002-04-16 | Into Networks, Inc. | Method and apparatus for installation abstraction in a secure content delivery system |
US6393456B1 (en) * | 1998-11-30 | 2002-05-21 | Microsoft Corporation | System, method, and computer program product for workflow processing using internet interoperable electronic messaging with mime multiple content type |
US6396488B1 (en) * | 1999-01-04 | 2002-05-28 | Corel Inc. | System and method for determining a path in a graphical diagram |
US6507856B1 (en) * | 1999-01-05 | 2003-01-14 | International Business Machines Corporation | Dynamic business process automation system using XML documents |
US6235027B1 (en) * | 1999-01-21 | 2001-05-22 | Garrett D. Herzon | Thermal cautery surgical forceps |
US6560640B2 (en) * | 1999-01-22 | 2003-05-06 | Openwave Systems, Inc. | Remote bookmarking for wireless client devices |
US6369840B1 (en) * | 1999-03-10 | 2002-04-09 | America Online, Inc. | Multi-layered online calendaring and purchasing |
US6338082B1 (en) * | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US6578144B1 (en) * | 1999-03-23 | 2003-06-10 | International Business Machines Corporation | Secure hash-and-sign signatures |
US6347323B1 (en) * | 1999-03-26 | 2002-02-12 | Microsoft Corporation | Robust modification of persistent objects while preserving formatting and other attributes |
US6381743B1 (en) * | 1999-03-31 | 2002-04-30 | Unisys Corp. | Method and system for generating a hierarchial document type definition for data interchange among software tools |
US6253366B1 (en) * | 1999-03-31 | 2001-06-26 | Unisys Corp. | Method and system for generating a compact document type definition for data interchange among software tools |
US6711679B1 (en) * | 1999-03-31 | 2004-03-23 | International Business Machines Corporation | Public key infrastructure delegation |
US6519617B1 (en) * | 1999-04-08 | 2003-02-11 | International Business Machines Corporation | Automated creation of an XML dialect and dynamic generation of a corresponding DTD |
US6701434B1 (en) * | 1999-05-07 | 2004-03-02 | International Business Machines Corporation | Efficient hybrid public key signature scheme |
US6505230B1 (en) * | 1999-05-14 | 2003-01-07 | Pivia, Inc. | Client-server independent intermediary mechanism |
US6546546B1 (en) * | 1999-05-19 | 2003-04-08 | International Business Machines Corporation | Integrating operating systems and run-time systems |
US6408311B1 (en) * | 1999-06-30 | 2002-06-18 | Unisys Corp. | Method for identifying UML objects in a repository with objects in XML content |
US6584548B1 (en) * | 1999-07-22 | 2003-06-24 | International Business Machines Corporation | Method and apparatus for invalidating data in a cache |
US6697944B1 (en) * | 1999-10-01 | 2004-02-24 | Microsoft Corporation | Digital content distribution, transmission and protection system and method, and portable device for use therewith |
US6549221B1 (en) * | 1999-12-09 | 2003-04-15 | International Business Machines Corp. | User interface management through branch isolation |
US20030120659A1 (en) * | 2000-03-20 | 2003-06-26 | Sridhar Mandayam Anandampillai | Systems for developing websites and methods therefor |
US20020032768A1 (en) * | 2000-04-10 | 2002-03-14 | Voskuil Erik K. | Method and system for configuring remotely located applications |
US6516322B1 (en) * | 2000-04-28 | 2003-02-04 | Microsoft Corporation | XML-based representation of mobile process calculi |
US6571253B1 (en) * | 2000-04-28 | 2003-05-27 | International Business Machines Corporation | Hierarchical view of data binding between display elements that are organized in a hierarchical structure to a data store that is also organized in a hierarchical structure |
AU2001268194A1 (en) * | 2000-06-05 | 2001-12-17 | Altoweb Systems, Inc. | System and method for accessing, organizing, and presenting data |
US20020057297A1 (en) * | 2000-06-12 | 2002-05-16 | Tom Grimes | Personalized content management |
-
2002
- 2002-04-17 JP JP2002114631A patent/JP4224250B2/ja not_active Expired - Fee Related
-
2003
- 2003-04-11 EP EP03252309A patent/EP1355295B1/en not_active Expired - Fee Related
- 2003-04-16 US US10/414,312 patent/US20030200090A1/en not_active Abandoned
- 2003-04-17 CN CNB031231349A patent/CN1196103C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
Also Published As
Publication number | Publication date |
---|---|
US20030200090A1 (en) | 2003-10-23 |
EP1355295A3 (en) | 2004-05-06 |
EP1355295B1 (en) | 2011-05-25 |
JP2003308090A (ja) | 2003-10-31 |
JP4224250B2 (ja) | 2009-02-12 |
CN1452157A (zh) | 2003-10-29 |
EP1355295A2 (en) | 2003-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1196103C (zh) | 语音识别设备和方法以及记录了语音识别程序的记录媒体 | |
CN1194337C (zh) | 语音识别设备和方法以及记录了语音识别程序的记录媒体 | |
CN1244902C (zh) | 语音识别装置和语音识别方法 | |
CN1143263C (zh) | 识别有调语言的系统和方法 | |
CN1234109C (zh) | 语调生成方法、语音合成装置、语音合成方法及语音服务器 | |
CN1228762C (zh) | 用于语音识别的方法、组件、设备及服务器 | |
CN1453767A (zh) | 语音识别装置以及语音识别方法 | |
CN1160699C (zh) | 语音识别系统 | |
CN1238833C (zh) | 语音识别装置以及语音识别方法 | |
CN1168068C (zh) | 语音合成系统与语音合成方法 | |
CN1725295A (zh) | 语音处理装置、语音处理方法、程序、和记录介质 | |
CN1169116C (zh) | 语音识别装置和识别方法 | |
CN101042868A (zh) | 群集系统、方法、程序和使用群集系统的属性估计系统 | |
CN1157712C (zh) | 语音识别方法和装置 | |
CN1975857A (zh) | 会话控制装置 | |
CN1162838C (zh) | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 | |
CN1474379A (zh) | 语音识别/响应系统、语音/识别响应程序及其记录介质 | |
CN101046960A (zh) | 处理语音中的话音的装置和方法 | |
CN1941077A (zh) | 识别语音输入中的字符串的语音识别设备和方法 | |
CN1975858A (zh) | 会话控制装置 | |
CN1622195A (zh) | 语音合成方法和语音合成系统 | |
CN1908965A (zh) | 信息处理装置及其方法和程序 | |
CN1282151C (zh) | 语音识别设备和语音识别方法 | |
CN101067780A (zh) | 智能设备的文字输入系统及方法 | |
CN1841497A (zh) | 语音合成系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |