JPH11184491A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11184491A
JPH11184491A JP9364638A JP36463897A JPH11184491A JP H11184491 A JPH11184491 A JP H11184491A JP 9364638 A JP9364638 A JP 9364638A JP 36463897 A JP36463897 A JP 36463897A JP H11184491 A JPH11184491 A JP H11184491A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
standard
unit
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9364638A
Other languages
English (en)
Inventor
Masaru Kuroda
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9364638A priority Critical patent/JPH11184491A/ja
Priority to US09/213,248 priority patent/US6230126B1/en
Publication of JPH11184491A publication Critical patent/JPH11184491A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 実際の発声者の発声時間長に応じて標準辞書
内の継続時間パラメータを更新し、これにより、認識性
能を向上させることの可能な音声認識装置を提供する。 【解決手段】 音声を入力する入力部(例えばマイクロ
ホン)1と、入力部1から入力された音声から特徴量を
抽出する特徴抽出部2と、全ての認識対象の標準的な特
徴量が予め格納されている標準辞書3と、特徴抽出部2
で抽出された入力音声の特徴量を標準辞書3に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合部4と、照合部4の照合結
果に基づき、例えば、類似度が最も高い認識対象であっ
て、該類似度(の最大値)が所定の閾値(リジェクト閾値)
を越えた認識対象を認識結果として出力する結果出力部
5と、標準辞書3を更新する辞書更新部6とを有してい
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
する。
【0002】
【従来の技術】従来、音声認識の手法として、音声区間
検出を行なって音声認識を行なう方法が知られている。
音声区間検出を行なって音声認識を行なう方法では、音
声のパワー情報などを使用して、認識すべき音声区間の
始端と終端を決定し、この音声区間情報に基づいて認識
処理を行なうようになっている。図7は音声区間検出を
行なって音声認識を行なう方法の処理例を示すフローチ
ャートであり、音声区間検出を行なって音声認識を行な
う方法では、認識開始の起動を行なった後(ステップS
1)、話者が発声することで音声区間検出を行ない(ステ
ップS2)、その後、音声区間の音声情報と辞書との照
合を行ない(ステップS3)、最も類似度の高い認識対象
(辞書単語)を認識結果として出力する(ステップS4)。
この場合、ステップS2において、音声区間の始端はパ
ワー情報によって容易に検出できるが、音声区間の終端
は、音声中の破裂性の子音の前の無音や促音の無音とを
区別するために、無音が一定時間以上継続する場合に音
声区間の終端として判定するようになっている。
【0003】しかしながら、音声区間の終端を判定する
ための無音の継続時間は、促音の無音とを区別するため
に、一般に250〜350m秒程度であり、従って、こ
の方法では、音声入力が終了しても、250〜350m
秒程度の時間が経過するまでは認識結果を出力すること
ができず、応答の遅い認識システムとなってしまう。ま
た、応答を速くするために、終端判定のための無音継続
時間を短かくすると、発声が終了する前に促音で結果が
出力されて、誤った認識結果が出力されるという欠点が
あった。
【0004】また、一般的に、ある発声をするときに、
話者は「え〜」や「あの〜」といった認識とは無関係な
不要語を発声することがよくある。認識対象となる音声
に対して、辞書との照合は音声区間の始端から始めるの
で、「え〜」や「あの〜」という発声が入ると、類似度
が著しく悪くなり、誤認識の原因となる。
【0005】上記各々の欠点を解消する方法として、ワ
ードスポッティング法がある。図8はワードスポッティ
ング法の処理例を示すフローチャートであり、ワードス
ポッティング法では、認識開始の起動を行なった後(ス
テップS11)、話者が音声を発声すると、音声区間検
出を行なうことなく、発声した音声情報を辞書と照合す
る(ステップS12)。そして、この照合の結果の類似度
が所定の閾値を越えたか否かを判断し(ステップS1
3)、所定の閾値を越えていないときには、再びステッ
プS12に戻り、音声情報の辞書との照合を継続する。
そして、ステップS13において、類似度が所定の閾値
を越えたときに、この類似度を与えた認識対象を認識結
果として出力する(ステップS14)。このようなワード
スポッティング法は、音声区間検出を必要としないの
で、応答の速いシステムを構築し易く、また、不要語に
対しても、発声全体から不要語を取り除いて認識結果を
出力するので、良好な認識結果を得ることができるとい
う利点がある。
【0006】
【発明が解決しようとする課題】しかしながら、ワード
スポッティング法にも次のような問題がある。すなわ
ち、ワードスポッティング法では、音声区間検出がない
ので、逐次、辞書との照合を行なう。この照合結果があ
る閾値を越えた場合に結果出力し、そうでない場合は照
合を継続する。この方法による結果出力は発声者の意志
に関係なく照合を続けるために発声者が認識させようと
する単語を発声していないにもかかわらず結果出力する
ことがある(すなわち、湧きだしが生ずることがある)。
例えば、認識装置に対して発声しているのではなく、隣
の人と会話しているときなどにこのような湧きだしが起
きる。
【0007】ワードスポッティング法の実現方法とし
て、例えば、文献「“継続時間制御型状態遷移モデルを
用いた単語音声認識法”(電子情報通信学会論文誌) vo
l.J72-D-II No.11 pp.1769-1777 1989年11月)」があ
る。この方法によれば、認識対象となる辞書に含まれる
音素に継続時間情報を付加して、演算量を減らしながら
も良好な認識性能を得ることができるが、この方法で
は、平均的な各音素の継続時間をもとに音素をつなげて
認識単語辞書としているために、時として、長い認識単
語を辞書として作った場合に、必ずしも、実際の発声者
の単語発声時間と一致しないことがある。これは、心理
的作用として、一つの単語を発声するときに、短い単語
も長い単語も同じ発声長で発声しようとするためであ
る。また、発声者が興奮しているときなどは、発声者の
発声が早くなったり、大声になったりすることもある。
このようなときに、音声認識装置は辞書との照合を行な
うときの類似度が低下し、認識性能が悪くなる。特に、
この継続時間長をパラメータとした音声認識装置におい
ては、発声者によってその発声スピードは、標準辞書に
設定されている継続時間長と近い値になるとは限らな
い。
【0008】このように、従来の音声認識装置では、平
均的な各音素の継続時間をもとに音素をつなげて認識単
語辞書としているために、実際の発声者の単語発声時間
と一致しない場合があり、認識性能が低下する場合があ
るという問題があった。
【0009】本発明は、実際の発声者の発声時間長に応
じて標準辞書内の継続時間パラメータを更新し、これに
より、認識性能を向上させることの可能な音声認識装置
を提供することを目的としている。
【0010】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、音声を入力する入力手段
と、入力手段から入力された音声から特徴量を抽出する
特徴抽出手段と、全ての認識対象の標準的な特徴量が予
め格納されている標準辞書と、特徴抽出手段で抽出され
た入力音声の特徴量を標準辞書に格納されている各認識
対象の標準的な特徴量と照合し、各認識対象との類似度
を算出する照合手段と、照合手段の照合結果に基づき、
類似度が高い認識対象を認識結果として出力する結果出
力手段と、標準辞書を更新する辞書更新手段とを有して
おり、前記辞書更新手段は、発声者の発声変動に応じて
標準辞書を逐次変更することを特徴としている。
【0011】また、請求項2記載の発明は、音声を入力
する入力手段と、入力手段から入力された音声から特徴
量を抽出する特徴抽出手段と、全ての認識対象の標準的
な特徴量が予め格納されている標準辞書と、特徴抽出手
段で抽出された入力音声の特徴量を標準辞書に格納され
ている各認識対象の標準的な特徴量と照合し、各認識対
象との類似度を算出する照合手段と、照合手段の照合結
果に基づき、類似度が高い認識対象を認識結果として出
力する結果出力手段と、標準辞書を更新する辞書更新手
段とを有しており、前記辞書更新手段は、各音素に対応
する継続時間長が標準辞書に存在する場合において、前
記照合手段の照合によって類似度が閾値を越えた認識対
象が得られるときには、標準辞書内の該認識対象を構成
する音素の継続時間長の総和と発声者の単語発声時間長
とを比較し、比較結果に応じて、標準辞書内の該認識対
象を構成する音素の継続時間長を更新することを特徴と
している。
【0012】また、請求項3記載の発明は、前記辞書更
新手段は、標準辞書内の該認識対象を構成する音素の継
続時間長を更新する際に、該音素の発声時間長に所定の
適応値を乗じた値を、標準辞書内の該音素の継続時間長
として更新することを特徴としている。
【0013】また、請求項4記載の発明は、前記辞書更
新手段は、標準辞書内の該認識対象を構成する音素の継
続時間長を更新する際には、標準辞書内の該認識対象の
音素のみならず、標準辞書内の他の認識対象の同じ音素
についても、継続時間長を更新することを特徴としてい
る。
【0014】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す図である。図1を参照すると、この音声認
識装置は、音声を入力する入力部(例えばマイクロホン)
1と、入力部1から入力された音声から特徴量を抽出す
る特徴抽出部2と、全ての認識対象の標準的な特徴量が
予め格納されている標準辞書3と、特徴抽出部2で抽出
された入力音声の特徴量を標準辞書3に格納されている
各認識対象の標準的な特徴量と照合し、各認識対象との
類似度を算出する照合部4と、照合部4の照合結果に基
づき、例えば、類似度が最も高い認識対象であって、該
類似度(の最大値)が所定の閾値(リジェクト閾値)を越え
た認識対象を認識結果として出力する結果出力部5と、
標準辞書3を更新する辞書更新部6とを有している。
【0015】ここで、特徴抽出部2,標準辞書3,照合
部4,結果出力部5には、例えば、音声区間を必要とし
ないワードスポッティング法による認識技術が用いられ
る。なお、ワードスポッティング法による認識技術とし
ては、例えば継続時間制御型状態遷移モデルを用いた単
語音声認識法を用いることができ、単語音声認識法によ
る認識を行なえば、音声の終了付近で類似度が最大とな
り、類似度のピーク点を検出することで認識結果を出力
することができる。
【0016】次に、図1の音声認識装置の動作について
説明する。音声が入力部1に入力されると、入力された
音声は、特徴抽出部2で所定の特徴量に変換される。こ
こで、特徴量としては、周波数帯域でのパワー値を示す
TSPやケプストラム値などが一般的である。
【0017】特徴抽出部2で得られた入力音声の特徴量
は、照合部4において、標準辞書3に予め格納されてい
る各認識対象の標準的な特徴量と比較され、各認識対象
の類似度が計算される。そして、結果出力部5は、照合
部4の照合結果に基づき、例えば、類似度が最も高い認
識対象であって、該類似度(の最大値)が所定の閾値(リ
ジェクト閾値)を越えた認識対象を認識結果として出力
する。
【0018】また、標準辞書3には、認識対象となる各
音素に対応した状態が表現されており、この状態を表現
するために、パラメータとして、特徴ベクトルYjと継
続時間Ljとが用いられている。ここで、継続時間Lj
は、各音素ごとに決められた平均の継続時間長である。
【0019】例えば“相関”「/s/、/o/、/q
/、/ka/、/n/」(/q/は無音区間)という単語
の場合、この単語の各音素,すなわち5個の音素である
/s/、/o/、/q/、/ka/、/n/に対応した
状態は、図2に示すように5つの状態(State1〜
State5)で表わせる。このとき、音素の特徴を表
わす各状態は、1対1で対応している特徴ベクトルYj
(j=1〜5)と継続時間Lj(j=1〜5)とによって定
義される。そして、この“相関”という単語の全体の継
続時間長は、次式のように、Ljの総和で表わせる。す
なわち、この単語を構成する各音素の継続時間長Ljの
総和で表わされる。
【0020】
【数1】
【0021】しかしながら、前述したように、実際の発
声者の単語発声時間は標準辞書内の単語の各音素の継続
時間長の総和Ltotとは必ずしも一致しない。
【0022】このような問題を回避するため、図1の音
声認識装置には、標準辞書3を更新する辞書更新部6が
さらに設けられており、辞書更新部6は、発声者の発声
変動(発声時間の変動)に応じて標準辞書を逐次変更する
ようになっている。
【0023】より具体的に、辞書更新部6は、各音素に
対応する継続時間長が標準辞書3に存在する場合におい
て、照合部4の照合によって類似度が閾値を越えた認識
対象が得られるときには、標準辞書3内の該認識対象を
構成する音素の継続時間長の総和と発声者の単語発声時
間長とを比較し、比較結果に応じて、標準辞書3内の該
認識対象を構成する音素の継続時間長を更新するように
なっている。
【0024】図3は図1の音声認識装置の処理動作を説
明するためのフローチャートである。図3を参照する
と、図1の音声認識装置では、認識開始の起動を行なっ
た後(ステップS21)、話者が音声を発声すると、音声
区間検出を行なうことなく、発声した音声情報を辞書3
と照合する(ステップS22)。そして、この照合の結果
の類似度が所定の閾値を越えたか否かを判断し(ステッ
プS23)、所定の閾値を越えていないときには、再び
ステップS22に戻り、音声情報の辞書3との照合を継
続する。そして、ステップS23において、類似度が所
定の閾値を越えたときに、この類似度を与えた認識対象
を認識結果として出力する(ステップS24)。なお、認
識結果の出力は、例えば、所定の類似度閾値SMthを
越えた後、類似度のピークを検出してから行なわれる。
【0025】また、この際(すなわち、類似度が閾値を
越えたときには)、認識結果として得られた単語の継続
時間長(この単語を構成する各音素の標準辞書3内に設
定されている継続時間長の総和)と発声者の単語発声時
間長(発声音声の継続時間長)とを比較する(ステップS
25)。そして、その比較結果に応じて(これらの差異に
応じて)、標準辞書3内の音素の継続時間パラメータL
jを変更する(ステップS26)。すなわち、認識結果と
して得られた単語の継続時間長(この単語を構成する各
音素の標準辞書3内に設定されている継続時間長の総
和)と発声者の単語発声時間長(発声音声の継続時間長)
との差異を標準辞書3内の音素の継続時間パラメータL
jに反映させる。
【0026】このときに、上記差異を生じさせた音素の
継続時間長Ljと発声時間長との差分Δtをそのままの
形で音素の継続時間長に反映させ、Δtをそのままの形
で反映させた音素の継続時間長Lj=Lj+Δtによっ
て標準辞書3内の継続時間パラメータLjを変更するこ
ともできるし、あるいは、上記差異を生じさせた音素の
継続時間長Ljと発声時間長との差分Δtに特定の係数
(適応値)Kを乗じた値KΔtで音素の継続時間長を修正
し、このように修正された音素の継続時間長Lj=Lj
+KΔtによって標準辞書3内の継続時間パラメータL
jを変更することもできる。
【0027】換言すれば、辞書更新部6は、標準辞書3
内の認識対象(単語)を構成する音素の継続時間長を更新
する際に、該音素の発声時間長に所定の適応値を乗じた
値を、標準辞書内の該音素の継続時間長Ljとして更新
することもできる。
【0028】また、辞書更新部6は、標準辞書内の該認
識対象を構成する音素の継続時間長を更新する際には、
標準辞書内の該認識対象の音素のみならず、標準辞書内
の他の認識対象の同じ音素についても、継続時間長を更
新することができる。
【0029】次に、具体例について説明する。図4,図
5は、いずれも、発声者が“相関”「/s/、/o/、
/q/、/ka/、/n/」(/q/は無音区間)という
単語を発音した場合の類似度算出結果を示す図である
が、図4は“ソオカン”という発声で、発声者の単語発
声長と標準辞書3内の各音素の継続時間長Lj(j=1
〜5)の総和との間に違いがみられない場合であり、こ
のときには、図4のように、類似度は時々刻々と加算さ
れ、類似度閾値SMthを越え、最終的にsm1とな
る。
【0030】これに対して、図5の場合は、“ソオオカ
ン”という発声で、/o/の発声時間長が標準辞書3内
の音素/o/の継続時間長よりも長い場合であり、この
とき、時刻t1において、標準辞書3内の音素/o/の
継続時間長L2と発声中に含まれる/o/の区間が一致
する。しかし、図5の例では、さらに、発声中に含まれ
る/o/の区間が長く延び、時刻t2においては、発声
した音素/o/の継続時間長が標準辞書3内の音素/o
/の継続時間長L2と合わなくなり、類似度が減点され
る。しかし、その後、/q/、/ka/、/n/と続く
ことによって類似度は加算され、類似度閾値SMthを
越え、最終的には、類似度は、sm2まで上がる。sm
2は、本来の期待される類似度sm1に比べて、2×Δ
sm分だけ低いが、所定の類似度閾値SMthを越えて
いるので、図5の場合にも認識結果が出力される。な
お、認識結果の出力は、例えば、所定の類似度閾値SM
thを越えた後、類似度のピークを検出してから行なわ
れる。
【0031】また、図5の場合には、/o/の発声時間
長が標準辞書3内の音素/o/の継続時間長よりも時間
差Δt分だけ長いので、標準辞書3内のこの認識対象
“相関”の音素/o/の継続時間パラメータL2を更新
(変更)する。なお、辞書3内のL2の更新(フィードバ
ック)は、例えば、結果出力と同時に行なうことができ
る。また、このときの更新(変更)は、次式のように、継
続時間パラメータ(継続時間長)L2にΔt分をそのまま
加算して新しい継続時間パラメータ(継続時間長)L2'
とすることができる。
【0032】
【数2】L2'=L2+Δt
【0033】あるいは、次式のように、Δtに所定の適
応値Kを乗じて新しい継続時間パラメータL2'とする
こともできる。
【0034】
【数3】L2'=L2+K・Δt
【0035】ここで、Kは0.1〜0.7程度の値であ
り、認識対象単語に正答した回数や、類似度の大きさ等
によってダイナミックに変わる値である。
【0036】このように、本発明では、音声認識した結
果をもとに、例えばその発声者の平均発声時間長と辞書
の継続時間長とを比較してダイナミックに辞書側の継続
時間長パラメータを変化させ、これにより、認識性能を
向上させることができる。
【0037】また、標準辞書3内に設定される継続時間
パラメータ(継続時間長)は、本来は1音素に対して1つ
設定されるので(音素に対し1対1対応であるので)、あ
る認識対象(認識単語)の1つの音素について標準辞書3
内の継続時間パラメータ(継続時間長)を更新したときに
は、標準辞書3内の他の認識対象(認識単語)の同じ音素
についても、継続時間パラメータ(継続時間長)を更新可
能である。例えば、音素/o/を含む認識単語として、
“ソオカン”の他に、例えば、“コオシン”が標準辞書
3内に存在するときに、“ソオカン”の/o/の継続時
間パラメータを更新するときに、“コオシン”の/o/
の継続時間パラメータも同時に新しい継続時間パラメー
タに変更することができる。
【0038】図6は図1の音声認識装置のハードウェア
構成例を示す図である。図6を参照すると、この音声認
識装置は、例えばパーソナルコンピュータ等で実現さ
れ、全体を制御するCPU21と、CPU21の制御プ
ログラム等が記憶されているROM22と、CPU21
のワークエリア等として使用されるRAM23と、音声
を入力する入力装置24と、音声認識結果を出力する結
果出力装置(例えば、ディスプレイやプリンタなど)26
とを有している。
【0039】ここで、CPU21は、図1の特徴抽出部
2,照合部4,辞書更新部6などの機能を有している。
【0040】なお、CPU21におけるこのような特徴
抽出部2,照合部4,辞書更新部6等としての機能は、
例えばソフトウェアパッケージ(具体的には、CD−R
OM等の情報記録媒体)の形で提供することができ、こ
のため、図6の例では、情報記録媒体30がセットさせ
るとき、これを駆動する媒体駆動装置31が設けられて
いる。
【0041】換言すれば、本発明の音声認識装置は、汎
用の計算機システムにCD−ROM等の情報記録媒体に
記録されたプログラムを読み込ませて、この汎用計算機
システムのマイクロプロセッサに音声認識処理を実行さ
せる装置構成においても実施することが可能である。こ
の場合、本発明の音声認識処理を実行するためのプログ
ラム(すなわち、ハードウェアシステムで用いられるプ
ログラム)は、媒体に記録された状態で提供される。プ
ログラムなどが記録される情報記録媒体としては、CD
−ROMに限られるものではなく、ROM,RAM,フ
レキシブルディスク,メモリカード等が用いられても良
い。媒体に記録されたプログラムは、ハードウェアシス
テムに組み込まれている記憶装置、例えばハードディス
ク装置にインストールされることにより、このプログラ
ムを実行して、上述した本発明の音声認識処理機能を実
現する音声認識装置の構築に寄与する。
【0042】また、本発明の音声認識処理機能を実現す
るためのプログラムは、媒体の形で提供されるのみなら
ず、通信によって(例えばサーバによって)提供されるも
のであっても良い。
【0043】
【発明の効果】以上に説明したように、請求項1乃至請
求項4記載の発明によれば、音声を入力する入力手段
と、入力手段から入力された音声から特徴量を抽出する
特徴抽出手段と、全ての認識対象の標準的な特徴量が予
め格納されている標準辞書と、特徴抽出手段で抽出され
た入力音声の特徴量を標準辞書に格納されている各認識
対象の標準的な特徴量と照合し、各認識対象との類似度
を算出する照合手段と、照合手段の照合結果に基づき、
類似度が高い認識対象を認識結果として出力する結果出
力手段と、標準辞書を更新する辞書更新手段とを有して
おり、前記辞書更新手段は、発声者の発声変動に応じて
標準辞書を逐次変更するので、認識性能を上げることが
できる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。
【図2】標準辞書内に設定されるパラメータの一例を示
す図である。
【図3】図1の音声認識装置の処理動作を説明するため
のフローチャートである。
【図4】発声者が“相関”という単語を“ソオカン”と
いう発声で発音した場合の類似度算出結果を示す図であ
る。
【図5】発声者が“相関”という単語を“ソオオカン”
という発声で発音した場合の類似度算出結果を示す図で
ある。
【図6】本発明の音声認識装置のハードウェア構成例を
示す図である。
【図7】音声区間検出を行なって音声認識を行なう方法
の処理例を示すフローチャートである。
【図8】ワードスポッティング法の処理例を示すフロー
チャートである。
【符号の説明】
1 入力部 2 特徴抽出部 3 標準辞書 4 照合部 5 結果出力部 6 辞書更新部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力手段と、入力手段か
    ら入力された音声から特徴量を抽出する特徴抽出手段
    と、全ての認識対象の標準的な特徴量が予め格納されて
    いる標準辞書と、特徴抽出手段で抽出された入力音声の
    特徴量を標準辞書に格納されている各認識対象の標準的
    な特徴量と照合し、各認識対象との類似度を算出する照
    合手段と、照合手段の照合結果に基づき、類似度が高い
    認識対象を認識結果として出力する結果出力手段と、標
    準辞書を更新する辞書更新手段とを有しており、前記辞
    書更新手段は、発声者の発声変動に応じて標準辞書を逐
    次変更することを特徴とする音声認識装置。
  2. 【請求項2】 音声を入力する入力手段と、入力手段か
    ら入力された音声から特徴量を抽出する特徴抽出手段
    と、全ての認識対象の標準的な特徴量が予め格納されて
    いる標準辞書と、特徴抽出手段で抽出された入力音声の
    特徴量を標準辞書に格納されている各認識対象の標準的
    な特徴量と照合し、各認識対象との類似度を算出する照
    合手段と、照合手段の照合結果に基づき、類似度が高い
    認識対象を認識結果として出力する結果出力手段と、標
    準辞書を更新する辞書更新手段とを有しており、前記辞
    書更新手段は、各音素に対応する継続時間長が標準辞書
    に存在する場合において、前記照合手段の照合によって
    類似度が閾値を越えた認識対象が得られるときには、標
    準辞書内の該認識対象を構成する音素の継続時間長の総
    和と発声者の単語発声時間長とを比較し、比較結果に応
    じて、標準辞書内の該認識対象を構成する音素の継続時
    間長を更新することを特徴とする音声認識装置。
  3. 【請求項3】 請求項2記載の音声認識装置において、
    前記辞書更新手段は、標準辞書内の該認識対象を構成す
    る音素の継続時間長を更新する際に、該音素の発声時間
    長に所定の適応値を乗じた値を、標準辞書内の該音素の
    継続時間長として更新することを特徴とする音声認識装
    置。
  4. 【請求項4】 請求項2または請求項3記載の音声認識
    装置において、前記辞書更新手段は、標準辞書内の該認
    識対象を構成する音素の継続時間長を更新する際には、
    標準辞書内の該認識対象の音素のみならず、標準辞書内
    の他の認識対象の同じ音素についても、継続時間長を更
    新することを特徴とする音声認識装置。
JP9364638A 1997-12-18 1997-12-18 音声認識装置 Pending JPH11184491A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9364638A JPH11184491A (ja) 1997-12-18 1997-12-18 音声認識装置
US09/213,248 US6230126B1 (en) 1997-12-18 1998-12-17 Word-spotting speech recognition device and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9364638A JPH11184491A (ja) 1997-12-18 1997-12-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPH11184491A true JPH11184491A (ja) 1999-07-09

Family

ID=18482303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9364638A Pending JPH11184491A (ja) 1997-12-18 1997-12-18 音声認識装置

Country Status (2)

Country Link
US (1) US6230126B1 (ja)
JP (1) JPH11184491A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265276A (ja) * 2008-04-23 2009-11-12 Internatl Business Mach Corp <Ibm> 支援装置、プログラムおよび支援方法
JP2016053599A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定基準更新方法およびプログラム
JP2016053600A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定結果通知方法およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621245B2 (ja) * 1997-12-12 2005-02-16 株式会社東芝 人物認識装置、人物認識方法、および、人物認識プログラムの記録媒体
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
US7620212B1 (en) * 2002-08-13 2009-11-17 Lumidigm, Inc. Electro-optical sensor
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
JP4743053B2 (ja) * 2006-09-06 2011-08-10 ヤマハ株式会社 生体認証装置、生体認証方法およびプログラム
US8219386B2 (en) * 2009-01-21 2012-07-10 King Fahd University Of Petroleum And Minerals Arabic poetry meter identification system and method
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
CN112837680A (zh) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 音频关键词检索方法、智能外呼方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
US5159637A (en) * 1988-07-27 1992-10-27 Fujitsu Limited Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265276A (ja) * 2008-04-23 2009-11-12 Internatl Business Mach Corp <Ibm> 支援装置、プログラムおよび支援方法
JP2016053599A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定基準更新方法およびプログラム
JP2016053600A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定結果通知方法およびプログラム

Also Published As

Publication number Publication date
US6230126B1 (en) 2001-05-08

Similar Documents

Publication Publication Date Title
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
JP4836290B2 (ja) 音声認識システム、音声認識プログラムおよび音声認識方法
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US9165555B2 (en) Low latency real-time vocal tract length normalization
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6317711B1 (en) Speech segment detection and word recognition
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
EP2192575A1 (en) Speech recognition based on a multilingual acoustic model
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6336219B1 (ja) 音声認識装置および音声認識方法
JPH11184491A (ja) 音声認識装置
JP3069531B2 (ja) 音声認識方法
Boite et al. A new approach towards keyword spotting.
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP5532880B2 (ja) 音声認識装置
JP4440502B2 (ja) 話者認証システム及び方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2011065044A (ja) 音声処理装置、プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050111