CN1214141A - 识别装置和识别方法以及学习装置和学习方法 - Google Patents

识别装置和识别方法以及学习装置和学习方法 Download PDF

Info

Publication number
CN1214141A
CN1214141A CN97193175A CN97193175A CN1214141A CN 1214141 A CN1214141 A CN 1214141A CN 97193175 A CN97193175 A CN 97193175A CN 97193175 A CN97193175 A CN 97193175A CN 1214141 A CN1214141 A CN 1214141A
Authority
CN
China
Prior art keywords
classification
data
input data
comprehensive parameters
multiple input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97193175A
Other languages
English (en)
Other versions
CN1119795C (zh
Inventor
近藤哲二郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1214141A publication Critical patent/CN1214141A/zh
Application granted granted Critical
Publication of CN1119795C publication Critical patent/CN1119795C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

从输入单元(10)输出多种数据,例如,用户发出的语音数据、通过对用户口部摄象而获得的图像数据、周围噪声的数据等。这些数据由前处理单元(20-23)分析,从而获得特征参数。在分类用数据构成单元(24)中,根据特征参数构成分类用数据,分类单元(25)将这些数据进行分类。在综合参数构成单元(26)中,根据前处理单元(20-23)输出的特征参数来构成综合参数。在自适应判定单元(27)中,选出与分类单元(25)分类结果相对应的表格。根据登记在所选表格中的标准参数和根据综合参数构成单元(26)输出的综合参数来识别用户发出的语音。因此本发明可提高语音的识别率。

Description

识别装置和识别方法以及 学习装置和学习方法
本发明涉及识别装置和识别方法以及学习装置和学习方法,具体涉及对于例如声音和物体等不但用其声音及图像数据、还用其它数据进行识别、因而能提高识别精度的识别装置和识别方法以及学习装置和学习方法。
在已有的例如识别语音的语音识别装置中,是对从送话器输出的语音数据进行(音响)分析及利用该分析结果来识别用户发出的语音的。
但是,在已有的语音识别装置中,由于只用来自送话器的语音数据的分析结果进行语音识别,其识别性能在某种程度上受到限制。
即,在识别说话人的语音时,不但来自送话器的语音数据,而且该说话人的表情和嘴部动作等也是重要因素,因而必须考虑此种等种种因素。
而且,语音识别装置几乎不在如隔音室之类的只把作为识别对象的语音从送话器输入的环境下使用,而往往在存在除此之外的种种噪声的环境下使用。最近,设有语音识别装置的例如导航系统正在实用化,在此场合下,在语音认别装置中,除了应识别的说话人的语音之外,还输入了装备在汽车中的CD(光盘)播放器的输出声音、引擎的声音、空调器的声音等其它噪声。而从混合有此类噪声的语言数据中只除去噪声是十分困难的。因此,为了提高识别性能,有必要采纳作为识别对象的语音以外的声音的噪声。
此外,在已往的语音识别装置中,是对从送话器输出的声音数据进行规定的分析处理而求出其特征参数,然后通过计算在参数空间中该特征参数之间的距离等来识别语音的。但是,要考虑,在识别时,主要的特征参数随语音识别装置的使用环境而变化。
鉴于以上状况而提出本发明。本发明的目的是提高对语音及其它因素进行识别的识别装置的识别性能。
在权利要求1中所述的识别装置包括以下设备:第一分类设备,用于根据多种输入数据的性质将这些数据按照规定的类别分类;综合参数构成设备,用于构成综合多种输入数据的综合参数;标准参数存储设备,用于存储分配给所述第一分类设备的每个输出类别的、登记着规定的标准参数的表格;以及识别设备,用于根据在与第一分类设备输出的类别对应的表格中登记的标准参数和根据综合参数来识别识别对象。
在权利要求5中所述的识别方法包括以下步骤:根据多种输入数据的性质将这些输入数据按规定的类别分类,同时通过对多种输入数据进行综合而构成综合参数;以及根据登记有与分类结果得到的类别对应的标准参数的表格和根据综合参数来识别识别对象。
在权利要求6中所述的学习装置包括以下设备:第一分类设备,用于根据多种输入数据的性质将这些数据按规定的类别分类;综合参数构成设备,用于构成综合多种输入数据的综合参数;以及分类设备,用于按照第一分类设备输出的每个类别来对综合参数分类。
在权利要求9中所述的学习方法包括以下步骤:根据多种输入数据的性质将这些输入数据按规定的类别分类,同时通过对多种输入数据进行综合而构成综合参数,以及按照分类结果得出的每个类别来对综合参数分类。
在权利要求1所述的识别装置中,第一分类设备根据多种输入数据的性质将这些输入数据进行按规定类别分类,综合参数据构成设备通过对多种输入数据的综合而构成综合参数。标准参数存储设备存储分配给所述第一分类设备的每个输出类别的、登记着规定的标准参数的表格,识别设备则根据在与第一分类设备输出的类别相对应的表格中登记的标准参数和根据综合参数来识别识别对象。
在权利要求5所述的识别方法中,根据多种输入数据的性质将这些输入数据按规定的类别分类,同时通过对多种输入数据进行综合而构成综合参数;根据登记有与分类结果得到的类别相对应的标准参数的表格和根据综合参数来识别识别对象。
在权利要求6所述的学习装置中,第一分类设备根据多种输入数据的性质把这些输入数据按规定的类别分类,综合参数构成设备构成综合多种输入数据的综合参数。分类设备把综合参数按第一分类设备输出的每个类别分类。
在权利要求9所述的学习方法中,根据多种输入数据的性质将这些数据分类成规定的类别,同时通过对多种输入数据进行综合而构成综合参数;把综合参数按分类结果得出的每个类别分类。
图1是表示应用本发明的导航系统的组成例的方框图。
图2是表示应用本发明的语音识别装置第一实施例的组成例的方框图。
图3是说明前处理单元21的处理用的图。
图4是表示应用本发明的学习装置第一实施例的组成例的方框图。
图5是表示参数空间的图。
图6是表示应用本发明的语音识别装置第二实施例的组成例的方框图。
图7是表示应用本发明的学习装置第二实施例的组成例的方框图。
图8是表示应用本发明的语音识别装置第三实施例的组成例的方框图。
图9是表示应用本发明的学习装置第三实施例的组成例的方框图。
图1是表示应用本发明的导航系统的实施例的方框图。
该导航系统装备在汽车等中,包括系统控制单元1、位置测定装置2、数据库装置3、输入装置4及输出装置5。该导航系统由例如操作按钮开关或通过对话方式输入的语音来控制。而且,该导航系统也能携带着使用。
系统控制单元1在构成该系统的各方框之间进行信息的发送和接收以控制整个系统的动作。位置测定系统2接收来自GPS(全球定位系统)卫星的电波并且用例如陀螺仪或车速传感器的测量设备来测定当前位置。在数据库装置3中,记录(存储)着例如多种比例尺的电子化地图信息及其它对导航必要的信息,由此根据来自系统控制单元1的指令来检索必要的信息以供给系统控制单元1。
在输入装置4中,装备有对导航系统进行规定处理用的按钮开关或操纵杆、输入语音用的送话器、对用户摄象用的CCD(电荷耦合器件)摄象机、还有测定汽车振动用的加速度传感器、测定湿度和温度用的传感器、以及其它各种传感器等。来自输入装置4的与按钮开关或操纵杆操作对应的信号发送到系统控制单元1。而且,输入装置4含有语音识别装置,对输入的声音进行语音识别,然后把该语音识别结果发送到系统控制单元1。
输出装置5含有例如显示图像等用的液晶显示监视器或CRT(阴极射线管)、输出语音等用的扬声器、由文本信息生成合成语音的语音合成装置等,并且显示从系统控制单元1送来的信息之中的例如地图信息和现在位置信息等以及输出语音信息。而且,输出装置5在接收到系统控制单元1发送来的文本信息时,在语音合成装置中合成并输出与该文本信息对应的语音。
在如上构成的导航系统中,例如,一旦用户说出作为目的地的地名,此语音就在输入装置4内装的语音识别装置中进行语音识别,该语音识别结果被供给到系统控制单元1。一旦系统控制单元1接收到作为目的地的地名的语音识别结果,它就根据位置测定装置2的输出识别出当前位置,并且参照存储在数据库装置3中的地图信息求出从现在位置到目的地的路线。接着,系统控制单元1把表示该路线的地图信息供给输出装置5进行显示,同时在输出装置5内装的语音合成装置中生成并输出引导该路线的合成语音。
因而,在此情况下,用户能容易地到达目的地。
图2表示图1输入装置4内装的语音识别装置第一实施例的组成例子。
输入单元10由送话器11、CCD摄象机12、送话器13、传感器14、放大器15、A/D(模数)变换器16、放大器17、A/D变换器18和19组成,由这些组成输出用于识别作为驾驶员的用户的语音的各种输入数据。
具体说,送话器11是例如有方向性的,设置成指向作为驾驶员的用户的方向。因此,在送话器11中主要输入用户的语音。把在送话器11输入的语音变换成音频信号,通过放大器15的放大供给A/D变换器18。在A/D变换器18中,通过放大器15供给的模拟语音信号用规定的取样时钟取样,然后以规定的量化步长量化,因而被变换成数字信号的音频数据。把A/D变换器18输出的音频数据提供给前处理单元20。
CCD摄象机12设置成对用户的口部摄象,把用该CCD摄象机12摄象的用户口部作为视频信号供给A/D变换器16。与在A/D变换器18中的情况相同,A/D变换器16把模拟视频信号变换成图像数据供给前处理单元21。
送话器13例如为无方向性的,它主要输入用户语音之外的声音。即,输入例如引擎声音、汽车装备的收音机和CD播放器等输出的声音、空调器的声音、以及在窗户开着的时候输入外部噪声等。在放大器17和A/D变换器19中,与在放大器15和A/D变换器18中相同地对送话器13输入的声音进行处理,据此作为音频数据提供给前处理单元22。
传感器14可以是测定汽车振动用的加速度传感器或者是测定湿度和温度用的传感器等,其输出供给前处理单元23。加速度传感器的输出表示例如由汽车振动所产生的噪声的程度(大小)。根据测定湿度和温度用的传感器的输出,判定例如是否在下雨,而且,如果在下雨,则测定该雨声大小的程度。
在前处理单元20至23中,分别对供给的数据进行分析,求出表示数据特征的特征参数。
即,前处理单元20和22根据音频数据,以规定时间的语音帧为单位,求出例如音频数据的过零值、在每一规定的频带中的功率电平、线性预测系数、倒频谱(cepsturm)系数等,作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。
如图3所示,前处理单元21根据用户口部的图像数据求出例如用户嘴部的横长L1和纵长L2,将其比值L1/L2作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。或者,在前处理单元21中,从用户口部的视频数据求出运动向量、边界值、DCT(离散余弦变换)系数等作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。
在前处理单元23中,根据对传感器14输出的分析,求出如上所述的例如反映由汽车振动产生的噪声程度(大小)的特征参数或者反映雨声程度的特征参数,这些参数也输出至分类用数据构成单元24和综合参数构成单元26。
分类用数据构成单元24把前处理单元20至23输出的特征参数的至少一部分作为用于分类的分类用数据输出至分类单元25。在分类单元25中,根据来自分类用数据构成单元24的分类用数据的性质,对这些分类用数据按规定类别进行分类。
即,分类单元25把预先分配给构成分类用数据的特征参数值的模式(pattern)的值作为该分类用数据的类别供给自适应判定单元27。
在这里,若特征参数由例如A比特表示,且若分类用数据由B个特征参数构成,则构成这样的分类用数据的特征参数值的模式数为(2A)B。因此如果A或B很大,类别数就变得巨大,难于使此后的处理迅速进行。
因此,作为进行分类之前的前处理,对分类用数据进行例如ADRC(自适应动态范围编码)之类的处理,以减少构成分类用数据的特征参数的比特数。
即,在ADRC处理中,首先从构成分类用数据的B个特征参数中检出数值最大的(以下适当地称作最大特征参数)和数值最小的(以下适当地称作最小特征参数)。然后,计算最大特征参数的值MAX和最小特征参数的值MIN的差值DR(=MAX-MIN),将其作为分类用数据的局部动态范围;根据该动态范围DR,构成分类用数据的各个特征参数被再量化成比原来分配的比特数A少的C比特。即,从构成分类用数据的各个特征参数减去最小特征参数的值MIN,把各减后值除以DR/2C
其结果是,构成分类用数据的各个特征参数用C比特来表示。因此,在例如设C=1的场合,B个特征参数的模式数成为(21)B,与不进行ADRC的场合比较,能使模式数变得非常少。
从减少构成分类用数据的特征参数的模式数的观点看,构成分类用数据的特征参数的数目B希望是不怎么大的数值。但是,特征参数的数目B过于小,也有不能进行恰当分类的危险。因此特征参数的数目B希望通过对以上二者平衡后加以确定。
另一方面,综合参数构成单元26综合(集合)前处理单元20至23输出的特征参数的至少一部分而作为综合参数输出至自适应判定单元27。
在这里,综合参数所综合和构成的特征参数组可以与构成分类用数据的特征参数组相同,也可以与构成分类用数据的特征参数组不同。
自适应判定单元27由标准参数存储单元28和匹配单元29组成。当分别从分类单元25接收到类别或从综合参数构成单元26接收到综合参数时,自适应判定单元27首先从标准参数存储单元28选择一登记有与从分类单元25接收的类别相对应的标准参数的标准参数表。
即,标准参数存储单元28存储有与类别数目相应的标准参数表,每个标准参数表登记有由后述学习装置(图4)通过学习处理获得的一组与例如音素对应的标准参数。在匹配单元29中,从所述每个类别的标准参数表之中选择与分类单元25输出的类别相对应的表格。
而且,匹配单元29算出在所选的标准参数表中登记的各个标准参数与来自综合参数构成单元26的综合参数之间的例如欧几里德(Euclidian)距离,把与该欧几里德距离为最小的标准参数相对应的音素作为语音识别结果输出。
因此,由于有了这种语音识别装置,不但利用了主要输入用户语音的送话器11输出的语音数据,还利用了从CCD摄象机12输出的图像数据中得到的例如用户的口部状态和动作、从送话器13输出的音频数据和传感器14检测出的其它数据,例如不同类型和频带成分的噪声等,来识别用户的语音,所以能提高其识别率。
而且,为每个类别准备了标准参数表,并从中选择与输入单元10输出的多种数据所确定的类别相对应的标准参数模式,所以能按照输入单元10输出的多种数据而使用对识别用户语音最适当的标准模式表,其结果是能够进一步提高识别率。
图4表示进行学习处理的学习装置的构成例,该学习装置用于求取要登记在图2所示的标准参数存储单元28中存储的每个类别的标准参数表中的标准参数。
图4中,输入单元30(送话器31、CCD摄象机32、送话器33、传感器34、放大器35,A/变换器36、放大器37、A/D变换器38和39)、前处理单元40至43、分类用数据构成单元44、分类单元45、或综合参数构成单元46在结构上分别与在图2中的语音识别装置中的输入单元10(送话器11、CCD摄象机12、送话器13、传感器14、放大器15、A/D变换器16、放大器17、A/D变换器18和19)、前处理单元20至23、分类用数据构成单元24、分类单元25、或综合参数构成单元26相同。存储器47设有接收从分类单元45输出的类别作为地址的地址端(AD)。该存储器47存储综合参数构成单元46输出的综合参数。
在如上构成的学习装置中,输入单元30输入进行学习用的学习数据。即,送话器31输入例如某个说话人发话的语音。而且,此时说话人的嘴部用CCD摄象机32摄象。此外,送话器33输入例如各种汽车的引擎声、用CD播放器再现的乐曲、雨声、空调器声、以及其它环境噪声。传感器34检测各种振动的程度,而且,当送话器33输入雨声时,检测该降雨状态下的温度、湿度等。
然后,由输入单元30接收的学习数据在前处理单元40至43、分类用数据构成单元44、分类单元45、或综合参数构成单元46中分别进行与在图2的前处理单元20至23、分类用数据构成单元24、分类单元25、或综合参数构成单元26中所进行处理相同的处理。因此,分类单元45向存储器47供给类别,综合参数构成单元46也向该存储器供给综合参数。
存储器47在与来自分类单元45的类别相对应的地址上存储来自综合参数构成单元46的综合参数作为标准参数。
以上的处理是对说话人发话的各个音素以及由送话器33及传感器34输入的各种噪声和数据进行的。
其结果是,在存储器47中,属于同一类别的综合参数按照地址分类存储。
存储在存储器47的各地址中的综合参数(组)保存在图2的标准参数存储单元28中,作为标准参数登记为与各类别对应的标准参数表中的存储内容。
由于有了该学习装置,在无噪声输入送话器33和有噪声输入送话器33的场合下产生的数据,在分类单元45中分类成不同类别。其结果是构成了对有噪声场合最适合的标准参数表和对无噪声场合最适合的标准参数表。而且,在图2的语音识别装置中,由分类单元25输出的类别与分类单元45输出的类别相同,所以能在有噪声的场合下选择对该场合最适合的标准参数表,而在无噪声的场合下选择对该场合最适合的标准参数表。
而且,在学习装置中,如上所述,对标准参数不仅按照有噪声场合和无噪声场合而且按照噪声的种类和程度、说话人发话的音素种类和说话人是男性或女性等分类成各种类别。但是怎样对标准参数分类不是重要问题。这是因为,例如,如果语音识别装置输入单元10的输入数据与学习装置输入单元30的输入数据相同,则在语音识别装置分类单元25中的分类结果与在学习装置分类单元45中的分类结果相同。因此,在语音识别装置中,可以使用由输入单元10输入的数据确定的标准参数或对该输入数据最合适的标准参数来进行语音识别。
而且,在图4所示的学习装置中,能够按照每一个类别对某个音素把一组综合参数存储在存储器47中。即,在学习中,让一个说话人在种种不同噪声环境下发出同一音素及让多个说话人作这样的发音,会对某一类别的某个音素得到散布在参数空间某种程度范围内的多个综合参数。
具体说,为简单起见,假设综合参数有三个成分P1、P2、P3,图5(A)表示三维的参数空间。如果对某个类别得到的音素“a”和“i”的综合参数进行作图,在参数空间中它们散布在一定的区域内。
虽然这样散布在该区域内的所有点都可以作为该音素的标准参数,但是最好是求出如图5(B)所示的该区域重心,将此重心作为该音素的标准参数。
图6表示图1中输入装置4内装的语音识别装置第二实施例的组成例。图中与图2对应的部分用同一标号表示,在以下适当省略对这些部分的说明。简言之,该第二实施例的语音识别装置设有标准参数存储单元281至28M来代替标准参数存储单元28,并且新设立了分类用数据构成单元51和分类单元52,其余基本上与图2的语音识别装置相同。
分类用数据构成单元51根据输入单元10输出的多种数据而构成分类用数据,将其输出至分类单元52。分类单元52对分类用数据构成单元51输出的分类用数据进行分类,把作为其分类结果的类别供给前处理单元20至23。
此时,在前处理单元20至23中,进行与分类单元52输出的类别对应的前处理。即,例如,输入到送话器11的语音包含较多的元音等有声音时,采用线性预测系数和倒频谱系数等比过零值等更易提取语音的特征,而输入到送话器11的语音包含较多的辅音等无声音时,则采用过零值和每个频带的功率电平、辅音的持续时间比线性预测系数和倒频谱系数等更易提取语音的特征。而且,当输入到送话器13的噪声电平小时,不必考虑该噪声的影响,但是当噪声电平大时则希望考虑其影响进行语音识别。而且,若用户嘴部很少或没有运动,则不需要考虑其运动向量;如果用户的嘴部产生一定程度的运动,则在语音识别时需考虑其运动向量。而且,当汽车没有或很少振动以及不下雨或下雨很小等等时,不必考虑传感器14的输出;在相反的场合,则希望考虑传感器14的输出进行语音识别。
所以,在识别语音时最合适的特征参数(为获得较高正确率的识别结果的特征参数)随其它因素而变,更不用说随作为识别对象的语音而变。
另外,在图6的语音识别装置中,根据输入单元10输出的数据来构成分类用数据,对其进行分类,然后分别在前处理单元20至23中求出对每种类别的最适当特征参数。
因此,在图6的实施例中,在自适应判定单元27(匹配单元29)中计算距离用的参数空间随分类单元52的分类结果而变化。即,在自适应判定单元27中计算在与分类单元52输出的类别相对应的参数空间中的距离,根据该距离来输出语音识别结果。
假定在分类单元52中,把分类用数据构成单元51输出的分类用数据均分成M个类别。
而且,在前处理单元20至23中,除了确定与分类单元52输出的类别相对应的特征参数之外,还可以改变特征参数的阶数(degree)(例如第8阶或第12阶的线性预测系数),或者可以取消特征参数的输出(例如,当汽车在寂静场所停车的时候,可不必考虑送话器13和传感器14的输出,因此使前处理器22和23处于休眠状态)等等。
分类单元52输出的类别,除了供给前处理单元20至23外,也供给自适应判定单元27。如上所述,自适应判定单元27有M个标准参数存储单元281至28M,其中分别存储着分别与在分类单元52输出的M个类别对应的参数空间中的标准参数。
而且,在标准参数存储单元28m(m=1,2,…,M)中,与在图2的标准参数存储单元28中的情况相同,存储着分类单元25输出的每个类别的标准参数表。
存储在标准参数存储单元281至28M中的标准参数表,可以用后述的学习装置(图7)通过学习求出。
一旦从分类单元52收到类别,自适应判定单元27就从标准参数存储单元281至28M中选择与该类别对应的存储单元(以下把从标准参数存储单元281至28M中选出的存储单元适当地记为标准参数存储单元28ms)。
另一方面,前处理单元20至23输出的特征参数通过分类用数据构成单元24供给分类单元25以进行分类,然后作为该分类结果的类别则供给自适应判定单元27。而且,前处理单元20至23输出的特征参数也供给综合参数构成单元26,在该单元内形成综合参数。根据在由自适应判定单元27选出的标准参数存储单元28ms中存储的标准参数表中登记的标准参数的同一参数空间中的参数,由综合参数构成单元26构成综合参数。
在综合参数构成单元26中得到的综合参数供给自适应判定单元27。在自适应判定单元27中,按照分类单元25输出的类别,来选择标准参数存储单元28ms存储的一个标准参数表。在匹配单元29中,算出登记在所选标准参数表中各标准参数的每一个标准参数与来自综合参数构成单元26的综合参数之间的距离。把与综合参数的距离为最小的标准参数对应的音素作为语音识别结果来输出。
如上所述,进行与分类单元52输出的类别相对应的前处理,得到了在各种场合下最适当的特征参数,因此能根据对各场合最合适的参数空间中的距离得到精度更高的语音识别结果。
图7表示进行学习处理的学习装置的组成例,该学习装置用于求出要登记在图6的各个标准参数存储单元281至28M中存储的每个类别的标准参数表中的标准参数。
在该图中,与图4对应的部分用相同的标号表示,在下文中适当省略对其的说明。该学习装置设有存储器471至47M来取代存储器47,而且新设立了分类用数据构成单元61、分类单元62和选择器63,其它组成基本上和图4的学习装置相同。
在分类用数据构成单元61或分类单元62中,分别进行与图6的分类用数据构成单元51或分类单元52中所进行处理的相同处理,作为分类处理结果的类别供给前处理单元40至43和选择器63。在前处理单元40至43中进行与图6的前处理单元20至23中所进行处理的相同处理,从而得到并输出与分类单元62输出的类别对应的最适合的特征参数。
而且,在分类用数据构成单元44、分类单元45、或综合参数构成单元46中,分别进行与图6的分类用数据构成单元24、分类单元25、或综合参数构成单元26的情况同样的处理,其结果是分别从分类单元45输出类别,从综合参数构成单元46输出综合参数。
另一方面,选择器63随着分类单元62输出的类别把选择信号输出至存储器471至47M中任一存储器的片选(CS)端。即,由此在存储器471至47M中选择与分类单元62输出的类别相对应的存储器。
又,分类单元45输出的类别供给存储器471至47M的地址(AD)端,因此,按照分类单元62输出类别选择的与分类单元45输出类别对应的存储器地址,综合参数构成单元46输出的各个综合参数被存储在存储器471至47M中。
如上所述,分别存储在标准参数存储器471至47M中各个地址中的综合参数(组)被分别存储在图6的标准参数存储器281至28M中相应的一个存储器,作为登记在与各个类别(分类单元25输出的类别)对应的标准参数表中的标准参数。
在此情况下,也可以如图5所说明的,在图6的各个标准参数存储单元281至28M中存储散布参数空间内的一组综合参数的重心之类,作为标准参数。
图8表示图1输入装置4内装的语音识别装置第三实施例的组成例。在图8中,对与图6对应的部分给予相同标号,在以下省略对这些部分的说明。此实施例的语音识别装置新设立前处理单元71至74,前处理单元71至74的输出取代了前处理单元20至23的输出而供给综合参数构成单元26,其余的组成与图6的语音识别装置基本上相同。
给予前处理单元71至74的输入与给予前处理器20至23的输入相同。而且,也把分类单元52输出的类别供给前处理器71至74。
在前处理单元71至74中,进行与分类单元52输出的类别相对应的前处理,因此把最适合的特征参数输出至综合参数构成单元26。在前处理单元71至74的每一个中,进行与前处理单元20至23的每一个中基本上不同的前处理。即,根据前处理单元20至23的输出,最终得到分类单元25输出的类别,与此相反,根据前处理单元71至74的输出,得到的是综合参数构成单元26输出的综合参数。因此,在前处理单元20至23中,与分类单元52输出的类别对应地求出适用于在分类单元25中进行分类的最合适的特征参数,另一方面,在前处理单元71至74中,则与分类单元52输出的类别对应地求出对于构成最适用于语音识别的综合参数来说最适合的特征参数。
图9表示进行学习处理的学习装置的组成例,该装置用于求取要登记在标准参数存储单元281至28M中存储的每个类别的标准参数表中的标准参数。
在图9中,与图7对应的部分用相同的标号表示,在下文中适当省略对其的说明。该学习装置新设立前处理单元81至84,前处理单元81至84的输出取代前处理单元40至43的输出而供给综合参数构成单元46,其它组成基本上和图7的学习装置相同。
与图8的前处理单元20至23的情况相同,在前处理单元40至43中与分类单元62输出的类别相对应地求出用于在分类单元45中进行分类的最合适的特征参数,而且,与图8的前处理单元71至74的情况相同,前处理单元81至84与分类单元62输出的类别相对应地求出对于构成最适用于语音识别的综合参数来说最合适的特征参数。
虽然可以把通过利用图9的学习装置学习处理得到的综合参数存储在图8的标准参数存储单元281至28M中,但是,也可以不全部存储通过学习得到的综合参数。如图5所说明的,可以存储在参数空间中散布的一组综合参数的重心之类作为标准参数。
以上对应用本发明的语音识别装置作了说明,但是本发明也可应用于除语音之外的例如图像和文字、人物等其它对象的认别装置。
而且,在本实施例中,除了使用作为识别对象的用户的语音之外,还使用CCD摄象机32、送话器33和传感器34的输出进行识别,但是不局限于这些输出。
而且,在图2的实施例中,根据前处理单元20至23的输出数据而构成分类用数据,并在分类单元25中把该分类用数据进行分类。但是也可以直接从例如输入单元10的输出数据来构成分类用数据,用于在分类单元25中分类。
而且,虽然在图6至9的实施例中向前处理单元20至23、40至43、71至73、81至83提供类别并进行与该类别相对应的前处理,但是也可以向前处理单元20至23、40和43、71至73、81至83供给与类别对应的函数,以便利用该函数进行数学运算来进行与该类别对应的前处理。
而且,为了简化本实施例的说明,在匹配单元29中根据在某个所采用参数空间的综合参数与标准参数之间的距离而得到语音识别结果,但是在匹配单元29中也可以根据按时间序列规定的综合参数与标准参数之间的距离和根据此种时间序列的出现概率来求得语音识别结果。此外,在匹配单元29中,也可以对分类单元25和52输出的每个类别用不同的语音识别算法来进行语音识别。
而且,图2、图6和图8中说明的语音识别装置以及图4、图7和图9中说明的学习装置不仅可用硬件来实现,也可以作为具有CPU(中央处理单元)和存储器等的微处理器的应用以软件方式实现。
按照权利要求1所述的识别装置和权利要求5所述的识别方法,根据多种输入数据的性质把这些数据按规定类别分类,同时构成对多种输入数据综合的综合参数,根据登记了与分类结果得到的每个类别相对应的标准参数的标准参数表和根据综合参数而对识别对象进行识别。因此,使用了最适合于每一种场合的表,所以能提高识别性能。
按照权利要求6所述的学习装置和权利要求9所述的学习方法,根据多种输入数据的性质把这些数据按规定类别分类,同时构成对多种输入数据综合的综合参数,把该综合数据按照由分类结果得到的每个类别来分类。因此,对于每一种情况,可得到最适合于识别用的参数。

Claims (9)

1.一种根据多种输入数据来识别给定识别对象的识别装置,包括:
第一分类设备,用于根据所述多种输入数据的性质把这些数据按规定的类别来分类;
综合参数构成设备,用于通过综合所述多种输入数据而构成综合参数;
标准参数存储设备,用于按照所述第一分类设备输出的每一个类别来存储登记着指定的标准参数的表格;以及
识别设备,用于根据在与所述第一分类设备输出的类别相对应的表格中登记的标准参数和根据所述综合参数来对所述识别对象进行识别。
2.如权利要求1所述的识别装置,其特征在于,还包括:
分析设备,用于分析所述输入数据以求取其特征参数;并且
所述第一分类设备根据所述特征参数进行所述的分类。
3.如权利要求1所述的识别装置,其特征在于,还包括:
分析设备,用于与所述第一分类设备输出的类别相对应地分析所述输入数据以求取其特征参数;
第二分类设备,用于利用所述多种输入数据各自的所述特征参数来进行所述的分类;
所述综合参数构成设备通过对所述多种输入数据各自的特征参数进行综合而构成所述综合参数;
所述标准参数存储设备按照所述第一分类设备输出的每个类别来存储登记着由所述第二分类设备输出的每个类别指定的标准参数的表格;
所述识别设备根据在与所述第一和第二分类设备输出的两种类别相对应的表格中登记的标准参数和根据所述综合参数来识别所述识别对象。
4.如权利要求1所述的识别装置,其特征在于:
所述识别对象是给定的说话人发出的语音;
所述多种输入数据至少包含该语音数据和对说话人嘴部摄象而得到的图像数据。
5.一种根据多种输入数据来识别给定的识别对象的识别方法,包括以下步骤:
根据所述多种输入数据的性质对这些数据按照规定的类别进行分类,同时通过综合所述多种输入数据而构成综合参数;
根据登记有与所述分类结果得到的类别相对应的标准参数的表格和根据所述综合参数来识别所述识别对象。
6.一种求取标准参数的学习装置,所述标准参数用于根据多种输入数据来识别给定的识别对象,所述学习装置包括:
第一分类设备,用于根据所述多种输入数据的性质将这些数据按规定类别分类;
综合参数构成设备,用于通过对所述多种输入数据进行综合而构成综合参数;以及
分类设备,用于把所述综合参数按所述第一分类设备输出的每个类别进行分类。
7.如权利要求6所述的学习装置,其特征在于,还包括:
分析设备,用于分析所述输入数据以求取其特征参数;并且
所述第一分类设备根据所述特征参数进行所述分类。
8.如权利要求6所述的学习装置,其特征在于,还包括:
分析设备,用于与所述第一分类设备输出的类别相对应地分析所述输入数据以求取其特征参数;
第二分类设备,用于利用所述多种输入数据各自的所述特征参数来进行所述分类;
所述综合参数构成设备通过对所述多种输入数据各自的所述特征参数进行综合而构成所述综合参数;
所述分类设备按照所述第一分类设备输出的类别和所述第二分类设备输出的类别对所述综合参数进行分类。
9.一种求取标准参数的学习方法,所述标准参数用于根据多种输入数据来识别给定的识别对象,所述学习方法包括下列步骤:
根据所述多种输入数据的性质将这些数据按规定的类别分类,同时通过综合所述多种输入数据而构成综合参数;
把所述综合参数按照所述分类结果得到的每个类别来分类。
CN97193175A 1996-12-26 1997-12-22 语音识别装置和识别方法以及语音学习装置和学习方法 Expired - Fee Related CN1119795C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP347312/1996 1996-12-26
JP34731296A JP3702978B2 (ja) 1996-12-26 1996-12-26 認識装置および認識方法、並びに学習装置および学習方法
JP347312/96 1996-12-26

Publications (2)

Publication Number Publication Date
CN1214141A true CN1214141A (zh) 1999-04-14
CN1119795C CN1119795C (zh) 2003-08-27

Family

ID=18389374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97193175A Expired - Fee Related CN1119795C (zh) 1996-12-26 1997-12-22 语音识别装置和识别方法以及语音学习装置和学习方法

Country Status (7)

Country Link
US (1) US6396954B1 (zh)
EP (1) EP0896319B1 (zh)
JP (1) JP3702978B2 (zh)
KR (1) KR100578260B1 (zh)
CN (1) CN1119795C (zh)
DE (1) DE69730705T2 (zh)
WO (1) WO1998029864A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312576C (zh) * 2003-07-03 2007-04-25 索尼株式会社 语音通信系统和方法、及机器人装置
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN104715753A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种数据处理的方法及电子设备
CN104732199A (zh) * 2008-07-17 2015-06-24 卢米耐克斯公司 用于配置分类矩阵中的分类区域的方法和存储介质
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6688888B1 (en) * 1996-03-19 2004-02-10 Chi Fai Ho Computer-aided learning system and method
US5944530A (en) * 1996-08-13 1999-08-31 Ho; Chi Fai Learning method and system that consider a student's concentration level
GB2330679B (en) * 1997-10-21 2002-04-24 911 Emergency Products Inc Warning signal light
JP3884160B2 (ja) * 1997-11-17 2007-02-21 富士通株式会社 用語付きデータを扱うデータ処理方法,データ処理装置およびプログラム記憶媒体
USRE38432E1 (en) * 1998-01-29 2004-02-24 Ho Chi Fai Computer-aided group-learning methods and systems
US9792659B2 (en) * 1999-04-13 2017-10-17 Iplearn, Llc Computer-aided methods and apparatus to access materials in a network environment
US6398556B1 (en) * 1998-07-06 2002-06-04 Chi Fai Ho Inexpensive computer-aided learning methods and apparatus for learners
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
EP1863013B1 (en) 1998-10-09 2013-01-02 Sony Corporation Normalization of vector codebook data for audio-visual speech recognition.
DE19921488A1 (de) * 1999-05-08 2000-11-16 Bosch Gmbh Robert Verfahren und Vorrichtung zur Überwachung des Innenraums und des Umfeldes eines Fahrzeugs
US6547410B1 (en) * 2000-07-28 2003-04-15 911 Emergency Products, Inc. LED alley/take-down light
US7468677B2 (en) * 1999-08-04 2008-12-23 911Ep, Inc. End cap warning signal assembly
JP3895892B2 (ja) 1999-09-22 2007-03-22 株式会社東芝 マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
KR100447667B1 (ko) * 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP4645867B2 (ja) * 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2002062894A (ja) * 2000-08-17 2002-02-28 Daiichikosho Co Ltd 音声認識リモコン機能付きワイヤレスマイクロホン
US7439847B2 (en) 2002-08-23 2008-10-21 John C. Pederson Intelligent observation and identification database system
US8188878B2 (en) 2000-11-15 2012-05-29 Federal Law Enforcement Development Services, Inc. LED light communication system
US7171042B2 (en) * 2000-12-04 2007-01-30 Intel Corporation System and method for classification of images and videos
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP4080843B2 (ja) * 2002-10-30 2008-04-23 株式会社東芝 不揮発性半導体記憶装置
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8708702B2 (en) 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
WO2008148022A2 (en) 2007-05-24 2008-12-04 Federal Law Enforcement Development Services, Inc. Building illumination apparatus with integrated communications, security and energy management
US9258864B2 (en) 2007-05-24 2016-02-09 Federal Law Enforcement Development Services, Inc. LED light control and management system
US9414458B2 (en) 2007-05-24 2016-08-09 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9294198B2 (en) 2007-05-24 2016-03-22 Federal Law Enforcement Development Services, Inc. Pulsed light communication key
US9100124B2 (en) 2007-05-24 2015-08-04 Federal Law Enforcement Development Services, Inc. LED Light Fixture
US9455783B2 (en) 2013-05-06 2016-09-27 Federal Law Enforcement Development Services, Inc. Network security and variable pulse wave form with continuous communication
US11265082B2 (en) 2007-05-24 2022-03-01 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US8077022B2 (en) * 2008-06-11 2011-12-13 Flextronics Automotive Inc. System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle
US8890773B1 (en) 2009-04-01 2014-11-18 Federal Law Enforcement Development Services, Inc. Visible light transceiver glasses
EP2426598B1 (en) * 2009-04-30 2017-06-21 Samsung Electronics Co., Ltd. Apparatus and method for user intention inference using multimodal information
EP2663969B1 (en) 2011-01-14 2020-04-15 Federal Law Enforcement Development Services, Inc. Method of providing lumens and tracking of lumen consumption
JP5849761B2 (ja) * 2012-02-22 2016-02-03 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
WO2014160096A1 (en) 2013-03-13 2014-10-02 Federal Law Enforcement Development Services, Inc. Led light control and management system
JP2013164863A (ja) * 2013-04-24 2013-08-22 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20150198941A1 (en) 2014-01-15 2015-07-16 John C. Pederson Cyber Life Electronic Networking and Commerce Operating Exchange
US20170046950A1 (en) 2015-08-11 2017-02-16 Federal Law Enforcement Development Services, Inc. Function disabler device and system
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP7299587B2 (ja) * 2019-02-05 2023-06-28 株式会社リコー 情報処理装置、発話認識システム及び発話認識プログラム
CN111251307B (zh) * 2020-03-24 2021-11-02 北京海益同展信息科技有限公司 应用于机器人的语音采集方法和装置、一种机器人
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
JPS62151903A (ja) * 1985-12-25 1987-07-06 Nippon Denso Co Ltd 車両に搭載される電子制御装置
US4975969A (en) * 1987-10-22 1990-12-04 Peter Tal Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
JPH02262199A (ja) * 1989-04-03 1990-10-24 Toshiba Corp 環境モニタ付音声認識装置
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
JPH06301393A (ja) 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
NO941999L (no) * 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
JPH0728490A (ja) 1993-06-25 1995-01-31 Canon Inc 情報処理方法及び装置
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
IL111039A (en) * 1994-09-22 1998-08-16 Advanced Recognition Tech Handwriting recognition system
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP2907079B2 (ja) * 1995-10-16 1999-06-21 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312576C (zh) * 2003-07-03 2007-04-25 索尼株式会社 语音通信系统和方法、及机器人装置
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
CN104732199A (zh) * 2008-07-17 2015-06-24 卢米耐克斯公司 用于配置分类矩阵中的分类区域的方法和存储介质
CN104732199B (zh) * 2008-07-17 2018-06-05 卢米耐克斯公司 用于配置分类矩阵中的分类区域的方法和存储介质
CN102063903A (zh) * 2010-09-25 2011-05-18 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CN104715753A (zh) * 2013-12-12 2015-06-17 联想(北京)有限公司 一种数据处理的方法及电子设备
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
CN106531155B (zh) * 2015-09-10 2022-03-15 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法

Also Published As

Publication number Publication date
WO1998029864A1 (fr) 1998-07-09
KR100578260B1 (ko) 2006-11-07
EP0896319B1 (en) 2004-09-15
EP0896319A1 (en) 1999-02-10
KR19990087263A (ko) 1999-12-15
DE69730705D1 (de) 2004-10-21
JP3702978B2 (ja) 2005-10-05
JPH10187186A (ja) 1998-07-14
US6396954B1 (en) 2002-05-28
CN1119795C (zh) 2003-08-27
EP0896319A4 (en) 2000-03-08
DE69730705T2 (de) 2005-09-29

Similar Documents

Publication Publication Date Title
CN1119795C (zh) 语音识别装置和识别方法以及语音学习装置和学习方法
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
CN110557589B (zh) 用于整合记录的内容的系统和方法
CN1139911C (zh) 语音识别系统的动态可配置声模型
CN1726532A (zh) 基于传感器的语音识别器选择、自适应和组合
US9311930B2 (en) Audio based system and method for in-vehicle context classification
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
CN1908965A (zh) 信息处理装置及其方法和程序
US6651040B1 (en) Method for dynamic adjustment of audio input gain in a speech system
CN1941079A (zh) 语音识别方法和系统
CN1216380A (zh) 特征抽取装置和方法以及模式识别装置和方法
CN1760974A (zh) 用于语音分类和语音识别的隐藏条件随机场模型
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
US11823669B2 (en) Information processing apparatus and information processing method
CN1046366C (zh) 静态和非静态信号的鉴别
CN113126951A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
CN108962226B (zh) 用于检测语音的端点的方法和装置
US20040260554A1 (en) Audio-only backoff in audio-visual speech recognition system
JP2000310993A (ja) 音声検出装置
CN111429882A (zh) 播放语音的方法、装置及电子设备
US20090063155A1 (en) Robot apparatus with vocal interactive function and method therefor
US20230335120A1 (en) Method for processing dialogue and dialogue system
CN1819019A (zh) 基于矩阵特征向量范数的语音识别装置及其语音识别方法
US20230386508A1 (en) Information processing apparatus, information processing method, and non-transitory recording medium
JP2006106300A (ja) 音声認識装置及びそのプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030827

Termination date: 20131222