CN1323436A - 声音识别装置 - Google Patents

声音识别装置 Download PDF

Info

Publication number
CN1323436A
CN1323436A CN99811950A CN99811950A CN1323436A CN 1323436 A CN1323436 A CN 1323436A CN 99811950 A CN99811950 A CN 99811950A CN 99811950 A CN99811950 A CN 99811950A CN 1323436 A CN1323436 A CN 1323436A
Authority
CN
China
Prior art keywords
sound
language
unit
sequence
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99811950A
Other languages
English (en)
Other versions
CN1280783C (zh
Inventor
庄境诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Kogyo KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kogyo KK filed Critical Asahi Kasei Kogyo KK
Publication of CN1323436A publication Critical patent/CN1323436A/zh
Application granted granted Critical
Publication of CN1280783C publication Critical patent/CN1280783C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在把在不特定说话者的单词识别中使用的固定语标签序列存储在词汇标签网络存储单元f中的同时,输入特定的声音,从该输入声音中用记录语标签序列抽出单元d制成记录语的标签序列,可以在词汇标签序列网络存储单元f中记录特定说话者的记录语的标签序列。

Description

声音识别装置
本发明涉及可以对混合存在特定说话者固有的记录语和在不特定说话者之间共用的固定语的词汇进行声音识别的声音识别装置以及方法。
识别特定说话者固有的记录语的技术一般被称为特定说话者声音识别。在特定说话者声音识别中,产生预先记录特定说话者想要进行声音识别的单词的声音的操作。该操作的具体过程是,把特定说话者预先发出的单词的声音样本变换为某一特征参数序列(称为模板),把该序列和单词的标签一同存储在存储器或者硬盘等的存储装置中。作为把声音样本变换为有某一特征参数的序列的方法,已知有对数倒频谱分析和线性预测分析等,在“声音·声音信息的数字信号处理”(鹿野清宏、中村哲、伊势史郎合著,(株)昭晃堂)中也有详细叙述。在特定说话者声音识别中,比较被存储在存储装置中的特征参数的序列和从被输入的声音中变换出的特征参数序列,将具有和从被输入的声音中变换出的特征参数的序列最相似的特征参数的序列的单词的标签作为识别结果输出。
作为比较被存储在存储装置中的特征参数的序列和从被输入的声音中变换出的特征参数的序列的方法,广泛使用采用动态计划法的动态时间轴变形,在上述“声音·声音信息的数字信号处理”中也有详细叙述。
另一方面,识别不特定说话者共用的固定语的技术一般被称为不特定说话者声音识别。在不特定说话者声音识别中,因为预先在存储装置中存储有与不特定说话者共用的固定语的特征参数有关的信息,所以不进行如特定说话者声音识别那样记录用户想要声音识别的单词的操作。作为把声音样本转换为某一特征参数的序列的方法,和特定说话者声音识别一样已知有对数倒频谱分析和线性预测分析等。另外,在与不特定说话者共用的固定语的特征参数有关的信息的制成以及对该信息和从被输入的声音中变换出的特征参数的序列进行比较中,一般使用采用隐马尔可夫模型(Hidden Markov Model,HMM)的方法。
有关采用HMM的不特定说话声音识别,也在上述“声音·声音信息的数字信号处理”中详细叙述。例如,在日语的情况下,把声音单位设置成在上述“声音·声音信息的数字信号处理”的第2章所述的音韵组,假设各音韵由HMM模型化。表1展示音韵组的标签。
  表1
    母音     a,i,u,e,o
   摩擦音     f,z,s,zh,sh,h
   破擦音     dz,ts,dh,ch
   破裂音     b,p,d,t,g,k
   半母音     w,r,y
    鼻音     m,n,ng
这时,例如“CD(シ-デイ-)”可以用图2A那样的说话者共用的音韵标签的网络(称为固定语标签序列)模型化。
另外,例如“MD(ェムデイ-)”可以用图2B那样的固定语标签序列模型化。如果准备采用HMM的音韵模板的数据和固定语标签序列,则通过上述“声音·声音信息的数字化信号处理”的第4章所述的维特比算法,当事人可以构成不特定说话者声音识别装置。
在声音识别装置中具有这样的需求,即,想要提供对于特定说话者固有的记录语和不特定说话者共用的固定语混合存在的词汇,可以识别这一功能。例如,在车用音响装置中,从安全上的考虑出发有想要用声音进行“CD”,“MD”等各机器的控制的需求。这些机器的名称,因为可以为不特定的许多说话者共同设定,所以可以用不特定说话者声音识别技术实现。由此,可以避免在特定说话者声音识别技术中需要的记录操作,用户界面良好。
另一方面,例如存在用声音选择再生被插入CD转换装置的多张CD的需求。这种情况下,考虑倒被插入CD转换装置的CD的标题、歌手名等根据用户而不同。因而,以往的不特定说话者声音识别技术不适用,需要适用特定说话者声音识别技术。即,用户需要执行预先用声音记录被插入CD转换装置中的CD的标题、歌手名等的操作。如果可以对于“CD”,“MD”等的各机器的名称和CD的标题、歌手名等混合存在的词汇,进行声音识别的话,则可以考虑提供不需要切换可以识别“CD”,“MD”等的不特定说话者共用的固定语的模式和可以识别CD的标题、歌手名等特定说话者固有的记录语的模式,对于用户来说更容易使用的声音识别功能。
此前,在特定说话者声音识别中,广泛使用采用DTW的方法。另外,在不特定说话者声音识别中,广泛使用采用HMM的方法。作为实现上述需求的一个方法,考虑并用采用DTW的特定说话者声音识别和采用HMM的不特定说话者声音识别的方法。在这两个方法中比较输入声音的参数序列和被存储在存储装置中的词汇单词的参数序列的信息时使用的尺度一般不同。因而,判断通过采用DTW的特定说话者声音识别判定为最接近输入声音的特定说话者固有的记录语,和通过采用HMM的不特定说话者声音识别判断为最接近输入声音的不特定说话者共用的固定语哪种方法更接近输入声音是不容易的。
在采用DTW的特定说话者声音识别中,通过对固定语使用许多说话者的声音,把多个模板存储在存储装置中,也可以实现不特定说话者声音识别。由此,可以用DTW实现上述需求。但是,在这种方法中,存在由于具有多个固定语的模型引起的存储装置容量的增加、由于多个模板和采用DWT的对比引起的对比时间的增加、在变更固定语时需要再次收集许多说话者的声音等的缺点。
如果归纳以上所述,则例如在车用音响装置中安装声音识别装置的情况下,不特定说话者用的声音识别装置,对于制造公司而言,因为不需要分别记录许多用户的声音所以很方便,相反,对各个用户而言,存在识别精度比特定说话者的识别精度低不少的缺点。
另外,特定说话者用的声音识别装置在识别精度方面优异,但对于制造公司来说,从各个用户的声音中取出特征参数,预先存储在声音识别装置中是极其困难的。即使用户自己记录自己的声音,例如,为了记录许多单词需要很多工夫。
进而用于以往的特定说话者的声音识别的方法和用于不特定说话者的声音识别的方法因为种类内容不同,所以如果把两种声音识别方法装入一个装置中,则存在装置大形化的问题。
本发明的目的在于,考虑了这种问题,提供一种即使在使用识别不特定说话者的声音的声音识别方法的情况下,也可以高精度地识别特定说话者发出的记录语的声音识别装置以及方法。
如果采用本发明,则是使用长度比单词短的声音单位的模板的信息,进行输入声音的单词识别的声音识别装置,包括:词汇标签网络存储单元,对于为了进行不特定说话者的输入声音的单词识别的共用的固定语,存储上述声音单位的标签序列;记录语标签序列抽出单元,对于从特定说话者的输入声音中的记录语制成上述声音单位的标签序列;记录单元,把该制成的记录语的标签序列追加记录在上述词汇标签网络存储单元中。上述声音单位是分割生成音韵的隐马尔可夫模型的各状态的音响事件。
如果采用本发明,声音识别装置还可以进一步具备把上述固定语记录在上述词汇标签网络存储单元中的单元。
如果采用本发明,则在声音识别装置中还可以把对于用于上述不特定说话者的输入声音的单词识别而共用的固定语的声音单位的标签序列,和被制成的记录语的标签序列,以并列网络的形态存储在上述词汇标签网络存储单元中。
如果采用本发明,则在声音识别装置的制造公司中,作为声音识别用数据只要提供以多个不特定的用户为对象的固定语的标签序列即可,用户可以把所需要的单词记录成自己的声音。换言之,可以在不特定说话者方式的声音识别方法中加入特定说话者的声音识别功能。由此,可以提供对用户以及制造公司双方都适合的声音识别装置以及方法。
图1是展示本发明的实施方案的系统构成的方框图。
图2A是展示“CD(シ-デイ-)的固定语标签序列的说明图。
图2B是展示说明“MD(ェムデイ-)”的固定语标签序列的说明图。
图3是展示音韵网络的内容的说明图。
图4A是展示“ジヤズ”的记录语标签序列的说明图。
图4B是展示“ポツプス”的记录语标签序列的说明图。
图5是展示固定语和记录语混合存在的词汇标签网络的说明图。
图6是展示只有固定语的词汇标签网络的说明图。
图7是展示只有记录语的词汇标签网络的说明图。
图8是展示音韵HMM的构造的说明图。
图9是展示音响事件HMM*.1的构造的说明图。
图10是展示音响事件HMM*.2的构造的说明图。
图11是展示音响事件HMM*.3的构造的说明图。
图12是展示无限制音响事件网络的说明图。
图13是展示带位置限制的音响网络的说明图。
本发明提供,使用在以往不特定说话者声音识别中使用的HMM,可以识别对特定说话者固有的记录语和不特定说话者共用的特定语混合存在的词汇的声音识别装置。在使用HMM的不特定说话者声音识别中,使用声音单位(音节,半音节,音韵,音响事件等)的模型数据、与不特定说话者共用的固定语对应的声音单位的标签序列以及各固定语的标签序列相互的连接信息,用上述的维特比算法,进行包含在输入声音中的固定语的识别。
一般认为:如果采用某种手段可以得到与特定说话者固有的记录语对应的声音单位的标签序列,则通过将上述标签序列相互的连接信息附加到该标签序列上,使用上述的维特比算法,就可以对特定说话者固有的记录语和不特定说话者共用的固定语混合存在的词汇进行识别。
作为得到与特定说话者固有的记录语对应的声音单位的标签序列的方法,可以通过代替各固定语的标签序列相互的连接信息,使用可以以任意的顺序任意的长度连接声音单位的连接信息,以维特比算法,取得包含在输入声音中的全部的声音单位的序列实现。
以下,参照附图详细说明本发明的实施方案。图1展示本发明实施方案的基本构成。
在图1中,从话筒(未图示)输入的模拟声音信号11被采用AD变换器的输入单元a变换为数字信号22。数字信号22被变换单元b以一定的帧周期变换为音响参数33。作为音响(特征)参数,只要使用在上述“声音·声音信息的数字信号处理”中所述的对数倒频谱等即可。
(特定说话者的单词记录)
在记录特定说话者固有的记录语的情况下,用声音识别装置的未图示的开关指示单词记录,把变换单元b连接在记录语标签序列抽出单元d上。特定说话者,即,连接有声音识别装置的车用音响的用户(特定说话者)向话筒输入想要记录的声音。
在话筒中产生的模拟声音信号11用变换单元b变换为音响参数33。音响参数33被送到记录语标签序列抽出单元d。记录语标签序列抽出单元d参照被存储在硬盘和存储器等的识别用数据存储单元c中的识别用数据44,进行声音单位的标签序列的识别,把音响参数33变换为记录语标签序列55。作为被存储在识别用数据存储单元c中的识别用数据44,存储被以隐马尔可夫模型模型化的声音单位的模型数据,以及用于把音响参数33变换为记录语标签序列55的声音单位模型的网络数据这2个数据。
如作为以前专利的USP5、732、187号中所叙述的那样,作为声音单位,考虑音节、半音节、音韵。
以下,以音韵为例,说明识别不特定说话者共用的固定语和特定说话者固有的记录语混合存在的词汇的声音识别装置和方法。所谓把音响参数33变换为记录语标签序列55用的声音单位(在此省略)的模型的网络数据,是表现了被容许的音韵的连接的网络。
例如,在图3的音韵网络的情况下,展示了表1的27种音韵可以以任意的顺序、任意的长度连接的情况。如果使用该网络数据和采用HMM的音韵模型的数据,则可以用上述维特比算法,把特定说话者固有的记录语的声音变换为音韵标签的序列。图4A是展示从某一说话者为了记录而发出“ジヤズ(jaz)”的输入声音中得到的音韵标签网络的例子。如果音韵的识别率是100%,则从发音为“ジヤズ”的声音中,应该可以得到j+a+z+u这一音韵标签序列,但在该例子中,最后的u因无声化而不能得到。
图4B是展示从某一说话者为了记录而发出“ポツプス(pokusu)”的输入信号中得到的音韵标签网络的例子。如果音韵的识别率是100%,则从发音为“ポツプス”的声音中,应该可以得到p+o+p+u+s+u这一音韵标签序列,但因为p,t,k的识别一般很困难,所以第2个p被转换为k。这样,把用记录语标签序列抽出单元d得到的音韵标签的网络称为记录语标签序列55。记录语标签序列55用记录单元I追加记录存储在硬盘和存储器等的词汇标签网络存储单元f中。
(不特定说话者共用的固定语的记录)
另一方面,可以根据预先的某一规则从不特定说话者共用的固定语的标签中抽出音韵标签的网络。或者,也可以从相对固定语的1个以上的不特定说话者的声音样本中以和上述(特定说话者的单词记录)同样的方法制成1个以上的音韵标签网络。把这些网络称为固定语标签序列66,把为了将该数据转送到词汇标签网络存储单元f而暂时存储的单元,例如,CPU以及RAM称为固定语标签序列存储单元e。例如,对于固定语“CD”,“MD”,可以得到图2A、图2B所示的固定语标签序列。有关固定语标签序列的数据已在制造公司中记录在软盘和CD等记录媒体中,只要从该记录媒体中拷贝到声音识别装置内的固定语标签序列存储单元e中即可。通过将固定语标签序列经由固定语标签序列存储单元e存储在词汇标签网络存储单元f中,记录与不特定说话者有关的固定语标签序列。
作为由从记录语标签序列抽出单元d抽出的,用记录单元i追加记录在词汇标签网络存储单元f中的记录语标签序列55,和用固定语标签序列存储单元e存储的固定语标签序列66构成被存储在词汇网络存储单元f中的词汇标签网络77的方法,可以考虑以下3种方法。
首先,第1种方法,是形成包含记录语标签序列55和固定语标签序列66两者的网络,把它作为词汇标签网络77的方法。在图5中展示连接了“CD”,“MD”的固定语标签序列和“ジヤズ”、“ポツプス”的记录语标签序列的词汇标签网络。
用该网络,就可以实现可以识别“CD”,“MD”的固定语和“ジヤズ”、“ポツプス”的记录语4个单词中的任意一个的声音识别装置。
第2种方法,是形成只包含记录语标签序列55的网络,把它作为词汇标签网络77的方法。图6展示连接“CD”,“MD”的固定语标签序列的词汇标签网络。通过该网络,就可以实现可以识别“CD”,“MD”2个单词中的任意一个的不特定说话者声音识别装置。
第3种方法,是形成只包含记录语标签序列55的网络,把它作为词汇标签网络77的方法。在图7中展示连接“ジヤズ”、“ポツプス”的记录语标签序列的词汇标签网络。用该网络,就可以实现可以识别“ジヤズ”、“ポツプス”这2个记录语标签中的任意一个的特定说话者声音识别装置。
再有,当用声音向CD转换装置发出动作指示时,最好是预先把不特定说话者的固定语的标签序列和动作命令相关联,和特定说话者(用户)已记录的标签序列相关联。例如,作为此方法,预先,在显示器上显示可以选择的动作指示内容后,在用光标键等选择显示的动作指示之后,用声音从话筒输入与该动作指示相关联的单词,用记录单元i把用记录语标签序列抽出单元d抽出的记录语标签序列55记录在词汇标签网络存储单元f中。另外,如果用表(关联表)形式把表示动作指示内容的代码、对应的记录语标签序列保存在硬盘等中,则以后,就可以用声音进行动作指示。当然,在该关联表中还可以存储制造公司准备的固定语标签,以及与此对应的动作指示代码。
(声音识别处理)
用户如果用未图示的模式开关指示声音识别模式,则把连接切换到变换单元b和识别单元g。使用由从输入单元a输入的,在变换单元b中被变换后输出的音响参数33和被存储在识别用数据存储单元c中的音韵模型数据构成的识别用数据45,以及被存储在词汇标签网络存储单元f中的词汇标签网络77,在识别单元g中用上述的维特比算法,得到有关单词的识别结果88。识别结果88,用扬声器和显示器等的输出单元h,作为声音和画面的输出结果99输出给说话者。另外,当用声音对CD转换装置等发出动作的指示时,用上述的关联表判断与声音识别结果对应的动作指示内容,执行与动作指示对应的控制程序等。
由于通过以上的系统构成,用户可以用自己的声音以单词形态记录频繁使用的动作指示,因此,可以以更高的精度进行动作指示。本系统的优点是,即使用户(特定说话者)记录的记录语标签序列在标签识别(从使用识别用数据的音响参数向标签变换)中被误识别,也没有影响。
在声音识别装置中,即使以误识别结果的标签序列记录动作指示,并且在声音识别模式中特定说话者用声音输入了该动作指示的情况下,因为声音识别装置以同样的内容进行误识别,所以必然选择预先付与相关关系的动作指示。
另一方面,当在声音识别中使用了不特定说话者用的固定语标签序列的情况下,如果在标签识别中发生误识别,因为与动作指示对应的标签序列和上述误识别的结果不一致,所以存在声音的动作指示不能正确识别的情况。因此,特定说话者可以用声音记录与制造公司准备的固定语标签序列中的特定的序列相同内容的动作指示。另外,在声音识别的模式中可以以特定说话者的记录语标签序列正确地进行声音识别。
在本实施方案中通过使用作为声音单位从音韵中分解生成的不特定说话者用的音响事件的模型,就可以不依赖每句话,高精度地识别特定说话者发出的记录语。
以下,增加说明作为比音韵还小的声音单位,使用构成音韵HMM的状态的情况。不管每句话和音韵的种类如何,一般大多以由图8所示的4种状态构成的HMM进行模型化。
状态1是初始状态,状态转变必须从状态1开始。状态4是最后状态,如果转变到该状态则不发生以上的状态转变。aij表示从状态i到状态j的转变的概率,被称为转变概率。如果假设j=i+1,则aii+aij=1.0。
bi(x)在从状态i开始状态转变时,表示输出观测向量x的概率,被称为输出概率。观测向量,与图1的音响参数33对应,最好使用对数倒频谱。输出概率bi(x)表现为1个以上的正规分布的重合。另外,输出概率还有这样的情况,在向状态i转变时,被定为观测向量x输出的概率bi(x),以及在从状态i向状态j状态转变时,被定为观测向量输出的概率bij(x)。
当输出概率bi(x)被规定为1个以上的正规分布的重合的情况下,把HMM称为连续HMM。除此以外,有用半连续HMM和离散HMM模型化音韵的情况,但本发明同样可以适用。
把图8所示的4状态音韵HMM分割成由图9、图10、图11的3个2状态组成的HMM。把它们称为音响事件HMM,与状态号码一致,表示为*.1,*.2,*.3。其中,*表示表1的音韵标签。
因为可以认为这些新生成的HMM表现音韵中的音响事件,所以称为音响事件HMM。图12展示这些音响事件HMM可以以任意的顺序、任意的长度连接的网络。把该网络称为无限制音响事件网络。该无限制音响事件网络,与图3的音韵网络相比,音响事件序列的自由度高,这可以认为音响性事件序列的表现能力高。
因而,与用图3的音韵网络通过维特比算法得到的音韵序列相比,使用图12的无限制音响事件网络通过维特比算法得到的音响事件序列的一方,可以期待更精确地近似特定说话者固有的记录语的发声。
相信通过把用无限制音响事件网络通过维特比算法得到的音响事件序列作为图1的记录语标签序列55使用,就可以得到对记录语更高的识别性能。
另一方面,在图12的无限制音响事件网络中,因为近似特定说话者固有的记录语的发声的音响事件序列的候补存在很多,所以还要考虑在该选择中需要许多处理时间。
在此,使用图13所示的设置有与状态的位置有关的限制的网络在削减处理时间方面也有效果。把图13的网络称为带有位置限制的音响事件网络。一般认为,在该网络中,与图12的无限制音响事件网络相比,因为可以连接的音响事件数变为三分之一,所以近似特定说话者固有的记录语的音响事件序列的候补数减少,也许会致使识别性能的有所降低,但求出近似特定说话者固有的记录语的音响事件序列的处理时间也可以相应缩短。
实际上,用音韵序列和音响事件序列进行特定说话者的记录语的识别性能的比较实验。
用日语的音韵HMM和图3的音韵网络,通过维特比算法求128个单词的音韵序列,把它作为识别词汇,为了进行与日语、英语、法语、德语、意大利语有关的特定说话者单词识别选择了男女各2人。另外,表2表示此时的声音识别的平均识别率和最低识别率。声音和杂音的比率都是10dB。
表2
语言            日语      英语      法语     德语    意大利语
平均识别率     93.6%     86.9%    88.7%   92.2%   91.4%
最低识别率     92.2%     82.8%    83.6%   85.2%   87.5%
使用音韵网络情况下的特定说话者单词识别性能
以下,表3展示使用采用上述方法从日语的音韵HMM中分解生成的音响事件HMM和图13的带位置限制的音响事件网络,通过维特比算法求出128个单词的音响事件序列,在把它作为识别对象的情况下的与日语、英语、法语、德语、意大利语有关的特定说话者单词识别的平均识别率和最低识别率。
表3
语言         日语    英语     法语    德语   意大利语
平均识别率  97.5%   92.9%  94.0%   94.0%  93.6%
最低识别率  96.1%   91.1%  92.2%   91.4%  91.4%
在使用带位置制约的音响事件网络情况下的特定说话者单词识别性能
如果比较表2和表3则可知,不依赖于词汇,与使用音韵序列相比不使用音响事件序列的一方平均识别率提高了2-6%。另外,还知道最低识别率也提高了4-8%。从这些结果可以明确地看出,与使用用图3的音韵网络通过维特比算法得到的音响序列的情况相比,使用用带有图13的位置制约的音响事件网络通过维特比算法得到的音响的一方,对于特定说话者固有的记录语可以得到更高的性能。该音响事件序列的优越性,可以认为是由于音响事件序列的一方比音韵序列一方特定说话者固有的近似度更高的缘故,这一点正是本发明的根本。
上述实施方案可以以以下形态实施。
1)图1所示的系统构成,也可以用数字电路构成,可以通过微型计算机和专用计算机的软件处理实现。这种情况下,变换单元b、记录语标签序列抽出单元d、识别单元g的功能可以通过CPU执行软件程序实现。设置成哪种电路构成,只要根据声音识别装置的用途适宜地确定即可。例如,在专用计算机中用声音进行文字输入以及控制键输入时,使用安装在专用计算机上的CPU、硬盘就可以实现图1的系统。
2)在上述的实施方案中,设置成可以把不特定说话者共用的固定语标签序列从CDROM等记录到声音识别装置,当然也可以存储到在声音识别装置中内置的EEPROM等的非易失性可写入存储器中。这种情况下,特定说话者可以用声音记录不够的单词,或者想要更高识别精度的单词。

Claims (8)

1.一种声音识别装置,用于使用长度比单词更短的声音单位的模型的信息,进行单词识别,其特征在于:包括,
词汇标签网络存储单元,对于用于进行不特定说话者的输入声音的单词识别的共用的固定语预先存储上述声音单位的标签序列;
记录语标签序列抽出单元,从特定说话者的输入声音中制成相对于记录语的上述声音单位的标签序列;
记录单元,把制成的记录语的标签序列追加存储在上述词汇标签网络存储单元中,
上述声音单位是分割音韵的隐马尔可夫模型的各状态生成的音响事件。
2.如权利要求1所述的声音识别装置,其特征在于:进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。
3.如权利要求1所述的声音识别装置,其特征在于:把相对于用于上述不特定说话者输入声音的单词识别的共用的固定语的声音单位的标签序列和被制成的记录语的标签序列以并列的网络形态存储在上述词汇标签网络存储单元。
4.如权利要求3所述的声音识别装置,其特征在于:进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。
5.一种声音识别方法,用于使用长度比单词更短的声音单位的模型的信息进行单词识别,其特征在于:
把相对于用于进行不特定说话者的输入声音的单词识别的共用的固定语的上述声音单位的标签序列预先存储在词汇标签网络存储单元中;
从特定说话者的输入声音中制成相对记录语的上述声音单位的标签序列;
把制成的记录语的标签序列追加记录到上述词汇标签网络存储单元中,
上述声音单位是分割音韵的隐马尔可夫模型的各状态生成的音响事件。
6.如权利要求5所述的声音识别方法,其特征在于:可以把上述固定语记录在在上述词汇标签网络存储单元中。
7.如权利要求5所述的声音识别方法,其特征在于:把相对于用于上述不特定说话者输入声音的单词识别的共用的固定语的声音单位的标签序列和被制成的记录语的标签序列以并列的网络形态存储在上述词汇标签网络存储单元。
8.如权利要求7所述的声音识别装置,其特征在于:进一步具有把上述固定语记录在上述词汇标签网络存储单元中的单元。
CNB998119504A 1998-09-09 1999-09-08 声音识别装置和声音识别方法 Expired - Fee Related CN1280783C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP25519698 1998-09-09
JP255196/98 1998-09-09
JP255196/1998 1998-09-09

Publications (2)

Publication Number Publication Date
CN1323436A true CN1323436A (zh) 2001-11-21
CN1280783C CN1280783C (zh) 2006-10-18

Family

ID=17275371

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998119504A Expired - Fee Related CN1280783C (zh) 1998-09-09 1999-09-08 声音识别装置和声音识别方法

Country Status (13)

Country Link
US (1) US6868382B2 (zh)
EP (1) EP1126438B1 (zh)
JP (1) JP3803029B2 (zh)
KR (1) KR100415217B1 (zh)
CN (1) CN1280783C (zh)
AU (1) AU5647899A (zh)
BR (1) BR9913524A (zh)
DE (1) DE69939124D1 (zh)
HK (1) HK1040312A1 (zh)
ID (1) ID27346A (zh)
MX (1) MXPA01002514A (zh)
RU (1) RU2223554C2 (zh)
WO (1) WO2000014723A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889171B (zh) * 2005-06-29 2010-09-01 诺基亚(中国)投资有限公司 用于识别字符/字符串的语音识别方法和系统
CN102576530A (zh) * 2009-10-15 2012-07-11 索尼爱立信移动通讯有限公司 对声音模式加了标签的联系人
CN103784255A (zh) * 2012-10-29 2014-05-14 赵士星 听力辅助系统
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
US7080013B2 (en) * 2002-06-06 2006-07-18 International Business Machines Corporation Categorization and recall methodology for physical media in large carousel systems
DE102004063552A1 (de) * 2004-12-30 2006-07-13 Siemens Ag Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems
JP4588069B2 (ja) * 2005-03-31 2010-11-24 パイオニア株式会社 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
EP2883224A1 (en) 2012-08-10 2015-06-17 Speech Technology Center Limited Method for recognition of speech messages and device for carrying out the method
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
JP2022001967A (ja) * 2018-09-11 2022-01-06 ソニーグループ株式会社 音響イベント認識装置
US11283586B1 (en) 2020-09-05 2022-03-22 Francis Tiong Method to estimate and compensate for clock rate difference in acoustic sensors

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58106329A (ja) * 1981-12-17 1983-06-24 Matsushita Electric Ind Co Ltd 加熱装置
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5054074A (en) * 1989-03-02 1991-10-01 International Business Machines Corporation Optimized speech recognition system and method
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
KR930014258A (ko) * 1991-12-30 1993-07-22 이헌조 음성인식시스템에서의 음성인식 등록 선택 제어방법
JPH05232989A (ja) * 1992-02-20 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化法
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
JP2912513B2 (ja) 1992-12-18 1999-06-28 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
US5732187A (en) 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
JP3076702B2 (ja) 1993-10-08 2000-08-14 三菱電機株式会社 表示素子の保持装置
JPH0869297A (ja) * 1994-08-30 1996-03-12 Aqueous Res:Kk 音声認識装置
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
JPH08221090A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
JPH0997096A (ja) * 1995-09-28 1997-04-08 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
EP0925579B1 (de) * 1996-09-10 2001-11-28 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889171B (zh) * 2005-06-29 2010-09-01 诺基亚(中国)投资有限公司 用于识别字符/字符串的语音识别方法和系统
CN102576530A (zh) * 2009-10-15 2012-07-11 索尼爱立信移动通讯有限公司 对声音模式加了标签的联系人
CN103784255A (zh) * 2012-10-29 2014-05-14 赵士星 听力辅助系统
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus

Also Published As

Publication number Publication date
DE69939124D1 (de) 2008-08-28
WO2000014723A1 (fr) 2000-03-16
CN1280783C (zh) 2006-10-18
KR100415217B1 (ko) 2004-01-16
EP1126438B1 (en) 2008-07-16
ID27346A (id) 2001-04-05
EP1126438A1 (en) 2001-08-22
EP1126438A4 (en) 2005-04-06
US6868382B2 (en) 2005-03-15
AU5647899A (en) 2000-03-27
RU2223554C2 (ru) 2004-02-10
US20020116192A1 (en) 2002-08-22
BR9913524A (pt) 2001-06-05
JP3803029B2 (ja) 2006-08-02
MXPA01002514A (es) 2003-09-10
HK1040312A1 (zh) 2002-05-31
KR20010086402A (ko) 2001-09-10

Similar Documents

Publication Publication Date Title
CN1280783C (zh) 声音识别装置和声音识别方法
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
CN1193342C (zh) 具有替换命令的语音识别方法
US7630878B2 (en) Speech recognition with language-dependent model vectors
US6353809B2 (en) Speech recognition with text generation from portions of voice data preselected by manual-input commands
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US7177800B2 (en) Method and device for the processing of speech information
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
CN1199488A (zh) 模式识别
CN101076851A (zh) 口语识别系统以及用于训练和操作该系统的方法
CN1760974A (zh) 用于语音分类和语音识别的隐藏条件随机场模型
CN1924994A (zh) 一种嵌入式语音合成方法及系统
CN110415697A (zh) 一种基于深度学习的车载语音控制方法及其系统
KR102415519B1 (ko) 인공지능 음성의 컴퓨팅 탐지 장치
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
CN1819019A (zh) 基于矩阵特征向量范数的语音识别装置及其语音识别方法
CN110085212A (zh) 一种用于cnc程序控制器的语音识别方法
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质
CN113066507B (zh) 端到端说话人分离方法、系统及设备
CN115171651B (zh) 一种儿化音合成方法、装置、电子设备及存储介质
CN1655232A (zh) 上下文相关的汉语语音识别建模方法
CN1512387A (zh) 一种带有语言复读功能的计算机及其实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20061018

Termination date: 20140908

EXPY Termination of patent right or utility model