JP2002123286A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2002123286A
JP2002123286A JP2001270944A JP2001270944A JP2002123286A JP 2002123286 A JP2002123286 A JP 2002123286A JP 2001270944 A JP2001270944 A JP 2001270944A JP 2001270944 A JP2001270944 A JP 2001270944A JP 2002123286 A JP2002123286 A JP 2002123286A
Authority
JP
Japan
Prior art keywords
model
combination
recognition
acoustic model
functions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001270944A
Other languages
English (en)
Inventor
Ralf Kompe
コンペ、ラルフ
Silke Goronzy
ゴロンジー、シルケ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2002123286A publication Critical patent/JP2002123286A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 音声認識のための演算の負荷を軽減して高速
な認識を行う。 【解決手段】 認識ステップを所定回数実行した後、現
音響モデルに基づき、既に得られている少なくとも所定
数の認識結果に関して貢献の度合いを無視できるモデル
関数の組合せの要素を除外することにより、修正音響モ
デルを生成し、各処理において、この修正音響モデル
(MAM)を現音響モデル(CAM)として継続して使
用する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、認識処理におい
て、1組のモデル関数の組合せに基づく音響モデルを使
用する音声認識方法に関する。詳しくは、本発明は、話
者適応形の隠れマルコフモデル(hidden Markov mode
l:HMM)に基づく音声認識法において、使用される
ガウス関数等のモデル関数の組合せを減少させる音声認
識方法に関する。
【0002】
【従来の技術】自動音声認識技術は、近年、益々重要に
なってきている。従来の音声認識技術における特別な問
題は、相反する目的を同時に達成しなくてはいけないと
いう点にある。すなわち、音声認識方法及び音声認識装
置は、特に発音、アクセント、方言等の発声に関する振
舞い(behavior)の広範囲な変化を取り扱うために、で
きるだけ高い柔軟性を有している必要がある。しかしな
がら、その一方で、音声認識方法及び音声認識装置の構
成は、特に低コストで容易に実現でき、高速で効率的な
認識性能を有するために、単純であることが望まれる。
【0003】従来の音声認識方法及び音声認識方法は、
話者適応法(speaker adaptation methods)を用いて、
現在の又は特定の話者の音響特性及び発声に関する振舞
いにより適合するように、基底にある音響モデル(acou
stic model)を変形する。各音響モデルの基礎となるも
のは、本質的には、1組のモデル関数の組合せ(model
function mixtures)である。特に、短音(phones)、
音素、サブワードユニット、音節、単語等に関する音響
的振舞いの大きな変化及び変動をカバーするためには、
多くのモデル関数の組合せが必要である。従来の音声認
識技術においては、認識処理中に、既に得られている少
なくとも1つの認識結果に基づいて、モデル関数の組合
せのうちのモデル関数の組合せの要素の貢献(contribu
tions)の少なくとも一部を変更することにより、現音
響モデル(current acoustic model)を適応化する。
【0004】
【発明が解決しようとする課題】このような従来の音声
認識技術における話者適応法では、非常に多くのモデル
関数の組合せ及びモデル関数の組合せの要素を用いなく
てはならないという問題があった。したがって、これら
の音声認識技術においては、現音響モデルを現在の話者
に適応させるために、多数の確認と、比較と、判定を実
行する必要があった。このように、演算の確認の負荷が
大きいために、従来の音声認識技術を実現するために
は、記憶容量が大きく、演算能力が高い高性能なコンピ
ュータシステムが必要であった。
【0005】そこで、本発明は従来の課題に鑑みてなさ
れたものであり、演算の負荷を軽減して高速な認識を行
うとともに、高い認識精度を維持することができる音声
認識方法を提供することを目的とする。
【0006】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る音声認識方法は、既に得られている
少なくとも1つの認識結果に基づいて、モデル関数の組
合せにおけるモデル関数の組合せの要素の貢献の少なく
とも一部を認識処理中に変更することにより適応化され
る音響モデルであって、1組のモデル関数の組合せに基
づく現音響モデルを使用する音声認識方法において、認
識処理を、開始音響モデルを現音響モデルをとして使用
して開始し、認識ステップを所定回数実行した後、及び
/又は所定数の認識結果を得た後、現音響モデルに基づ
き、既に得られている少なくとも所定数の認識結果に関
して貢献の度合いが無視できるモデル関数の組合せの要
素を除外することにより、修正音響モデルを生成し、各
認識処理において、修正音響モデルを現音響モデルとし
て継続して使用する。
【0007】このように、本発明では、多数のモデル関
数の組合せを用いて、話者の音響的特性の広範囲に亘る
変化及び変動をカバーする開始音響モデルを使用する。
現音響モデルから話者又は音響的振舞い及び/又は現在
の話者の特性を記述又はモデリングするために貢献して
いない又は貢献の程度が無視できる程度であるモデル関
数の組合せの要素を除外することにより、モデル関数の
組及び特にモデル関数の組合せとその貢献に関して確認
すべきモデル関数の組合せの要素を削減することができ
る。特定のモデル関数の組合せの要素が認識結果の算出
又は記述及び/又は特定の認識結果の取得に実質的に貢
献していない場合は、そのモデル関数の組合せの要素を
スキップする。したがって、現在の認識処理における後
続する認識ステップは、過去の認識処理において無視で
きるものと判定されたモデル関数の組合せの要素をスキ
ップして、これらに対する確認処理を行わずに実行され
る。
【0008】音声認識のための従来の技術又は手法と比
較すると、本発明は、与えられた現在の話者に対して、
認識処理の開始段階においては、従来の手法と同様な音
響モデルを使用する。しかしながら、認識結果の数が増
加し、すなわち実行した認識ステップの数が増加するに
つれて、本発明によりモデル関数の組合せの要素の数が
減少し、したがって、現在の認識処理における後続する
認識ステップにおける適応化された現音響モデルにおけ
る残りのモデル関数の組合せの要素を評価する負荷が軽
減される。この結果、本発明に基づく音声認識方法で
は、より少ない記憶容量で、特に認識の精度及び効率を
低下させることなく、音声認識を高速に実行することが
できる。
【0009】また、本発明係る音声認識方法において、
修正音響モデルは、認識ステップを一定及び/又は所定
回数実行する毎に及び/又は認識結果を一定及び/又は
所定回数取得する毎に、特に認識ステップを1回実行す
る毎に及び/又は認識結果を1回取得する毎に、繰り返
し生成されてもよい。現音響モデルを適応化する前に上
述の処理を繰り返す回数は、音声認識処理に必要とされ
る速度と、即時に更新される現音響モデルに基づく認識
の信頼性とが釣り合うように決定するとよい。
【0010】適応化を行う前に実行する認識ステップの
回数を所定及び/又は一定とする代わりに、修正音響モ
デルが生成される前に実行される認識ステップ及び/又
は認識結果の取得の回数は、認識及び/又は適応化の現
在の処理において決定及び/又は変更してもよい。
【0011】本発明の好適な具体例においては、各処理
において、特に開始音響モデル及び/又は現音響モデル
として音響モデルが使用され、該音響モデルのモデル関
数の組合せは、少なくとも分布関数等を含む。特に、ガ
ウス形の関数は、話者の音響的特性をモデリングするの
に好適であり、このような関数を使用することが望まし
い。
【0012】さらに、本発明に係る音声認識方法の好適
な実施の形態においては、モデル関数の組み合わせは、
それぞれが有限の及び/又は同数の成分を有している関
数ベクトル及び重み付け係数ベクトルに基づいている。
これにより、各関数ベクトル成分は、現在の話者の音響
的振舞いをモデリングする際のその振幅又は貢献を記述
する特定の重み付け係数ベクトルに割り当てられる。異
なるモデル関数の組合せに対しては、それぞれ独立した
数の関数ベクトル又は重み付け係数ベクトル成分を選択
してもよい。なお、全てのモデル関数の組合せにおい
て、関数ベクトル及び重み付け係数ベクトルの成分の数
は同数であることが好ましい。
【0013】明確なモデル関数の組合せをどのように構
築するかについて特定の単純な記述を用いることができ
れば有益である。そこで、それぞれの場合のモデル関数
の組合せは、重み付け係数ベクトル成分により重み付け
されたベクトル関数成分の一次結合又は累積(superpos
ition)により表現するとよい。特に、モデル関数の組
合せの要素の各々は、重み付け係数ベクトル成分により
重み付けされたベクトル関数成分の一次結合又は累積で
あり、 MFMをj番目のモデル関数の組合せとし、
を重み付け係数ベクトルとし、Aj,kをそのk番
目の成分とし、fをj番目の関数ベクトルとし、f
j,kをそのk番目の成分とし、a をaの転置形
とし、・をベクトルのスカラー積又は内積として、以下
の式に示す重み付け係数ベクトルaと関数ベクトルの
スカラー積として表される。
【0014】
【数2】
【0015】このような構造により、話者の振舞いに関
して、評価、演算及びモデル関数の組合せの構築を容易
に行うことができるとともに、現音響モデルにおけるこ
れらの貢献に関する評価を容易に行うことができる。
【0016】本発明に基づく音声認識方法の基礎となる
思想は、モデル関数の組合せの要素及びこのモデル関数
の組合せの要素による現在の話者の音響的振舞いの記述
への貢献を定義する点にある。さらに、本発明の好適な
実施の形態においては、モデル関数の組合せの要素は、
特に所定数認識処理が繰り返された後及び/又は認識結
果が取得された後に、その重み付け係数ベクトル成分の
絶対値が所定の閾値を下回る場合、無視できるものと判
定されるこの閾値は、モデル関数の組合せの要素、すな
わち適切な重み付け係数ベクトル成分の振幅が到達すべ
き限界を定義し、これにより、明確なモデル関数の組合
せの要素は、現在の話者の音響的振舞いの記述及びモデ
リングに貢献する。
【0017】通常、所定の閾値を1回超えなかっただけ
で、そのモデル関数の組合せの要素が無視できるものと
判断するには不十分である。したがって、モデル関数の
組合せの要素は、その重み付け係数ベクトル成分の絶対
値が既に実行されている認識ステップ又は既に取得され
ている認識結果において、所定回数所定の閾値を下回る
場合、無視できるものと判定するとよい。これは、音声
の振舞いの評価及び現音響モデルの適応化において、特
定の重み付け係数ベクトルが所定の閾値を下回った回数
が、所定の回数を超えているか否かを判定することを意
味する。
【0018】さらに、所定の閾値を下回った状況が、モ
デル関数の組合せの要素が所定回数現在の話者の音声の
振舞いの記述及びモデリングに貢献した状況により分離
されている場合を区別して考慮してもよい。所定の閾値
を下回る状況が連続せず又は一回のみの場合、このモデ
ル関数の組合せの要素を無視できるものと判断しない場
合もある。この場合、モデル関数の組合せの要素は、所
定の閾値を下回る状況が連続する又は相関性を有する場
合に、無視できるものと判断してもよい。
【0019】さらに、本発明の好適な実施の形態におい
ては、閾値は、各モデル関数の組合せの要素毎に独立し
て、特に認識処理の開始以前に予め定められた及び/又
は固定の値としてもよい。これにより、開始音響モデル
及びその適応化及び評価処理における音響モデルの振舞
いに関する特定の設計を実現できる。モデル関数の組合
せの要素又はモデル関数の組合せの幾つかは、特定の閾
値の組に基づいて、特別な手法で評価することもでき
る。
【0020】現音響モデルの適応化及び評価処理の間、
認識処理において閾値を固定せずに随時決定及び/又は
変更して調整してもよい。この閾値の適応化及び変更
は、特に入力される音声情報の信号品質及び/又は統計
的及び/又は雑音データに基づいて実行してもよい。
【0021】本発明は、以下のように要約することがで
きる。
【0022】従来の話者適応法は、音声認識装置又は音
声認識方法における基底の音響モデルを変形して、現在
の話者の音響的特性及び音声の振舞いに適合させてい
た。音響モデルの基礎となるものは、特にガウス関数形
の多数のモデル関数の組合せである。発声される短音
(phones)、音素、サブワードユニット、音節、単語等
に関する音響的振舞いの大きな変化及び変動を捕捉し及
びカバーするためには、多くのモデル関数の組合せが必
要である。
【0023】このような手法によっても、従来の音声認
識方法は、音声の振舞いの大きな変動の一部しか取り扱
うことができない。従来の音声認識方法では、現在の認
識処理の度に、現在の話者の記述に必要であるか否かに
関わらず、多数のモデル関数の組合せ及びその成分を評
価しなくてはならないという問題があった。複数回の適
応化ステップの後、モデルは、新たな話者の音響的特性
により良好に適合するように変形される。すなわち、モ
デルは、特定の話者に適合するように変形される。これ
は、変動がより小さくなるために、多くのモデル関数の
組合せを使用する必要がなくなることを意味する。さら
に、このことは、この話者に対するモデル関数の組合せ
の貢献に対して、重みがより高いと表現することもでき
る。
【0024】したがって、本発明に係る音声認識方法で
は、現音響モデルに含まれるモデル関数の組合せ及びモ
デル関数の組合せの要素を現在の話者の記述に実際に必
要なモデル関数の組合せ及びモデル関数の組合せの要素
に低減する。これにより、処理時間を削減でき、高速な
処理性能を実現できるとともに、記憶容量の負荷を低減
することもできる。
【0025】現在の話者の適応化処理の後は、現音響モ
デルにおいて、特に全ての可能な話者に関する開始音響
モデルにおける広範囲に亘る変動を考慮する必要がなく
なる。したがって、現音響モデルとして適応化された音
響モデルにおいては、より少ない数のモデル関数の組合
せ及びモデル関数の組合せの要素により十分に現在の話
者の記述及びモデリングを行うことができる。これらの
モデル関数の組合せの要素のみが適応処理において維持
され、正しい認識結果を得るために必要とされる。
【0026】認識処理又は音声信号において頻繁に観察
される、例えばガウス関数などのモデル関数の組合せの
要素、すなわち、過去の認識処理、取得された認識結果
又は観察された音声フレームに最も適合する成分につい
て、組合せの重み又は重み付け係数ベクトル成分は徐々
に増加される。一方、観察されない他のモデル関数の組
合せの要素については、重み付け係数ベクトル成分は低
減される。このようなモデル関数の組合せの要素の組合
せの重みが上述の所定の閾値を下回った場合、そのモデ
ル関数の組合せの要素は除外される。すなわち、このモ
デル関数の組合せの要素は、これ以降評価されない。こ
れにより、処理時間が速められ、記憶容量を節約するこ
とができる。
【0027】
【発明の実施の形態】以下、本発明に係る音声認識方法
について、図面を参照にして詳細に説明する。
【0028】図1は、本発明を適用した音声認識方法の
手順10を示す図である。
【0029】まず、ステップS11において、現在の話
者からの音声信号が受信され、処理される。音声信号
は、連続的に受信される音声の一部であってもよく、こ
の音声信号は、音声認識処理のコアであるステップS1
2に供給され、ステップS13において音声認識処理の
結果が得られる。すなわち、ステップS12では、ステ
ップS19の1組のモデル関数の組合せ(model functi
on mixture、MFM・・・MFM)に基づく現音響
モデル(current acoustic model:以下、CAMとい
う。)として、ステップ19aの開始音響モデル(star
ting acoustic model:以下、SAMという。)を用
い、音声信号の音声認識を行う。ステップS12におけ
る音声認識及びステップS13の音声認識結果に基づい
て、ステップS14において、オンライン話者適応化
(online speaker adaptation)が開始される。ステッ
プS14のオンライン話者適応化においては、平均ベク
トル、分散(variances)及び組合せ重みa、すなわ
ちガウス関数の組合せ(Gaussian mixtures)の重み付
け係数ベクトル成分が変更される。
【0030】ステップS15において、組合せ重みa
は、特に既に実行されている現在の認識処理の認識ステ
ップS12に関連付けて評価される。この評価処理にお
いて、重み付け係数ベクトルaj,kが所定の閾値C
j,kより小さいガウス関数又は一般的モデル関数の組
合せの要素が現音響モデルから取り出され、取り除かれ
る。
【0031】次のステップS16において、残りの重み
付け係数ベクトル成分が、各モデル関数の組合せに対し
てその和が1となるようの正規化される。
【0032】次のステップS17において、現音響モデ
ルCAMは、隠れマルコフモデル等の内部データを含む
ように適応化及び更新され、修正音響モデル(modified
acoustic model:以下、MAMという。)が形成され
る。
【0033】次のステップS18において、現音響モデ
ルCAMは、ステップS17において形成された修正音
響モデルMAMに設定される。そして、ステップS19
において、現音響モデルCAMは、次の認識ステップS
12において音声を認識するための規則(rule)とする
ために準備される。
【0034】ここで、上述したステップS15において
は、重み付け係数ベクトル成分a ,jは、話者適応化
処理用に修正音響モデルMAMの他の成分のうち、所定
の閾値以下の重み付け係数ベクトル成分を低減するよう
に修正される。
【0035】本発明では、上述したステップS11〜S
19の処理を繰り返して、音声認識を行う。すなわち、
既に得られている少なくとも1つの認識結果に基づい
て、モデル関数の組合せ(MFM)におけるモデル関
数の組合せの要素(MFMj, )の貢献の少なくとも
一部を認識処理中に変更することにより適応化される、
1組のモデル関数の組合せ(MFM・・・MFM
に基づく現音響モデル(CAM)を用いて音声認識を行
う。そして、認識処理を、開始音響モデル(SAM)を
上記現音響モデル(CM)をとして使用して開始する。
そして、認識処理を所定回数実行した後、及び/又は所
定数の認識結果を得た後、現音響モデル(CAM)に基
づき、既に得られている少なくとも所定数の認識結果に
関して貢献の度合いを無視できるモデル関数の組合せの
要素(MFMj,k)を除外することにより、修正音響
モデル(MAM)を生成する。各認識処理において、修
正音響モデル(MAM)を現音響モデル(CAM)とし
て継続して使用する。
【0036】このように、本発明では、多数のモデル関
数の組合せを用いて、話者の音響的特性の広範囲に亘る
変化及び変動をカバーする開始音響モデルを使用する。
現音響モデルから話者又は音響的振舞い及び/又は現在
の話者の特性を記述又はモデリングするために貢献して
いない又は貢献の程度が無視できる程度であるモデル関
数の組合せの要素を除外することにより、モデル関数の
組及び特にモデル関数の組合せとその貢献に関して確認
すべきモデル関数の組合せの要素を削減することができ
る。特定のモデル関数の組合せの要素が認識結果の算出
又は記述及び/又は特定の認識結果の取得に実質的に貢
献していない場合は、そのモデル関数の組合せの要素を
スキップする。したがって、現在の認識処理における後
続する認識ステップは、過去の認識処理において無視で
きるものと判定されたモデル関数の組合せの要素をスキ
ップして、これらに対する確認処理を行わずに実行され
る。
【0037】音声認識のための従来の技術又は手法と比
較すると、本発明は、与えられた現在の話者に対して、
認識処理の開始段階においては、従来の手法と同様な音
響モデルを使用する。しかしながら、認識結果の数が増
加し、すなわち実行した認識ステップの数が増加するに
つれて、本発明によりモデル関数の組合せの要素の数が
減少し、したがって、現在の認識処理における後続する
認識ステップにおける適応化された現音響モデルにおけ
る残りのモデル関数の組合せの要素を評価する負荷が軽
減される。この結果、本発明に基づく音声認識方法で
は、より少ない記憶容量で、特に認識の精度及び効率を
低下させることなく、音声認識を高速に実行することが
できる。
【0038】なお、上述した修正音響モデルは、認識ス
テップを一定及び/又は所定回数実行する毎に及び/又
は認識結果を一定及び/又は所定回数取得する毎に、特
に認識ステップを1回実行する毎に及び/又は認識結果
を1回取得する毎に、繰り返し生成されてもよい。現音
響モデルを適応化する前に上述の処理を繰り返す回数
は、音声認識処理に必要とされる速度と、即時に更新さ
れる現音響モデルに基づく認識の信頼性とが釣り合うよ
うに決定するとよい。
【0039】また、適応化を行う前に実行する認識ステ
ップの回数を所定及び/又は一定とする代わりに、修正
音響モデルが生成される前に実行される認識ステップ及
び/又は認識結果の取得の回数は、認識及び/又は適応
化の現在の処理において決定及び/又は変更してもよ
い。
【0040】ところで、上述したように、各認識処理に
おいて、特に開始音響モデル及び/又は現音響モデルと
して音響モデルが使用され、この音響モデルのモデル関
数の組合せは、例えば少なくとも分布関数等を含むよう
にしてもよい。特に、ガウス形の関数は、話者の音響的
特性をモデリングするのに適しているので、このような
関数を使用する。
【0041】また、モデル関数の組合せは、それぞれが
有限の及び/又は同数の成分を有している関数ベクトル
及び重み付け係数ベクトルに基づいている。これによ
り、各関数ベクトル成分は、現在の話者の音響的振舞い
をモデリングする際のその振幅又は貢献を記述する特定
の重み付け係数ベクトルに割り当てられる。異なるモデ
ル関数の組合せに対しては、それぞれ独立した数の関数
ベクトル又は重み付け係数ベクトル成分を選択してもよ
い。なお、全てのモデル関数の組合せにおいて、関数ベ
クトル及び重み付け係数ベクトルの成分の数は、例えば
同数とする。
【0042】明確なモデル関数の組合せをどのように構
築するかについて特定の単純な記述を用いることができ
れば有益である。そこで、それぞれの場合のモデル関数
の組合せは、重み付け係数ベクトル成分により重み付け
されたベクトル関数成分の一次結合又は累積(superpos
ition)により表現するとよい。特に、モデル関数の組
合せの要素の各々は、重み付け係数ベクトル成分により
重み付けされたベクトル関数成分の一次結合又は累積で
あり、 MFMをj番目のモデル関数の組合せとし、
を重み付け係数ベクトルとし、Aj,kをそのk番
目の成分とし、fをj番目の関数ベクトルとし、f
j,kをそのk番目の成分とし、a をaの転置形
とし、・をベクトルのスカラー積又は内積として、以下
の式に示す重み付け係数ベクトルaと関数ベクトルの
スカラー積として表される。
【0043】
【数3】
【0044】このような構造により、話者の振舞いに関
して、評価、演算及びモデル関数の組合せの構築を容易
に行うことができるとともに、現音響モデルにおけるこ
れらの貢献に関する評価を容易に行うことができる。
【0045】本発明に基づく音声認識方法の基礎となる
思想は、モデル関数の組合せの要素及びこのモデル関数
の組合せの要素による現在の話者の音響的振舞いの記述
への貢献を定義する点にある。さらに、本発明の好適な
実施の形態においては、モデル関数の組合せの要素は、
特に所定数認識処理が繰り返された後及び/又は認識結
果が取得された後に、その重み付け係数ベクトル成分の
絶対値が所定の閾値を下回る場合、無視できるものと判
定されるこの閾値は、モデル関数の組合せの要素、すな
わち適切な重み付け係数ベクトル成分の振幅が到達すべ
き限界を定義し、これにより、明確なモデル関数の組合
せの要素は、現在の話者の音響的振舞いの記述及びモデ
リングに貢献する。
【0046】通常、所定の閾値を1回超えなかっただけ
で、そのモデル関数の組合せの要素が無視できるものと
判断するには不十分である。したがって、モデル関数の
組合せの要素は、その重み付け係数ベクトル成分の絶対
値が既に実行されている認識ステップ又は既に取得され
ている認識結果において、所定回数所定の閾値を下回る
場合、無視できるものと判定するとよい。これは、音声
の振舞いの評価及び現音響モデルの適応化において、特
定の重み付け係数ベクトルが所定の閾値を下回った回数
が、所定の回数を超えているか否かを判定することを意
味する。
【0047】さらに、所定の閾値を下回った状況が、モ
デル関数の組合せの要素が所定回数現在の話者の音声の
振舞いの記述及びモデリングに貢献した状況により分離
されている場合を区別して考慮してもよい。所定の閾値
を下回る状況が連続せず又は一回のみの場合、このモデ
ル関数の組合せの要素を無視できるものと判断しない場
合もある。この場合、モデル関数の組合せの要素は、所
定の閾値を下回る状況が連続する又は相関性を有する場
合に、無視できるものと判断してもよい。
【0048】さらに、本発明では、閾値は、各モデル関
数の組合せの要素毎に独立して、特に認識処理の開始以
前に予め定められた及び/又は固定の値としてもよい。
これにより、開始音響モデル及びその適応化及び評価処
理における音響モデルの振舞いに関する特定の設計を実
現できる。モデル関数の組合せの要素又はモデル関数の
組合せの幾つかは、特定の閾値の組に基づいて、特別な
手法で評価することもできる。
【0049】現音響モデルの適応化及び評価処理の間、
認識処理において閾値を固定せずに随時決定及び/又は
変更して調整してもよい。この閾値の適応化及び変更
は、特に入力される音声情報の信号品質及び/又は統計
的及び/又は雑音データに基づいて実行してもよい。
【0050】ここで、本発明を、従来の方法と比較して
説明すると、以下のようになる。
【0051】従来の話者適応法は、音声認識装置又は音
声認識方法における基底の音響モデルを変形して、現在
の話者の音響的特性及び音声の振舞いに適合させてい
た。音響モデルの基礎となるものは、特にガウス関数形
の多数のモデル関数の組合せである。発声される短音
(phones)、音素、サブワードユニット、音節、単語等
に関する音響的振舞いの大きな変化及び変動を捕捉し及
びカバーするためには、多くのモデル関数の組合せが必
要である。
【0052】このような方法によっても、従来の音声認
識方法は、音声の振舞いの大きな変動の一部しか取り扱
うことができない。従来の音声認識方法では、現在の認
識処理の度に、現在の話者の記述に必要であるか否かに
関わらず、多数のモデル関数の組合せ及びその成分を評
価しなくてはならないという問題があった。複数回の適
応化ステップの後、モデルは、新たな話者の音響的特性
により良好に適合するように変形される。すなわち、モ
デルは、特定の話者に適合するように変形される。これ
は、変動がより小さくなるために、多くのモデル関数の
組合せを使用する必要がなくなることを意味する。さら
に、このことは、この話者に対するモデル関数の組合せ
の貢献に対して、重みがより高いと表現することもでき
る。
【0053】したがって、本発明に係る音声認識方法で
は、現音響モデルに含まれるモデル関数の組合せ及びモ
デル関数の組合せの要素を現在の話者の記述に実際に必
要なモデル関数の組合せ及びモデル関数の組合せの要素
に低減する。これにより、処理時間を削減でき、高速な
処理性能を実現できるとともに、記憶容量の負荷を低減
することもできる。
【0054】現在の話者の適応化処理の後は、現音響モ
デルにおいて、特に全ての可能な話者に関する開始音響
モデルにおける広範囲に亘る変動を考慮する必要がなく
なる。したがって、現音響モデルとして適応化された音
響モデルにおいては、より少ない数のモデル関数の組合
せ及びモデル関数の組合せの要素により十分に現在の話
者の記述及びモデリングを行うことができる。これらの
モデル関数の組合せの要素のみが適応処理において維持
され、正しい認識結果を得るために必要とされる。
【0055】認識処理又は音声信号において頻繁に観察
される、例えばガウス関数などのモデル関数の組合せの
要素、すなわち、過去の認識処理、取得された認識結果
又は観察された音声フレームに最も適合する成分につい
て、組合せの重み又は重み付け係数ベクトル成分は徐々
に増加される。一方、観察されない他のモデル関数の組
合せの要素については、重み付け係数ベクトル成分は低
減される。このようなモデル関数の組合せの要素の組合
せの重みが上述の所定の閾値を下回った場合、そのモデ
ル関数の組合せの要素は除外される。すなわち、このモ
デル関数の組合せの要素は、これ以降評価されない。こ
れにより、処理時間が速められ、記憶容量を節約するこ
とができる。
【0056】
【発明の効果】以上のように、本発明に係る音声認識方
法では、認識ステップを所定回数実行した後、現音響モ
デルに基づき、既に得られている少なくとも所定数の認
識結果に関して貢献の度合いを無視できるモデル関数の
組合せの要素を除外することにより、修正音響モデルを
生成し、各処理において、この修正音響モデル(MA
M)を現音響モデル(CAM)として継続して使用す
る。これにより、音声認識のための演算の負荷を軽減し
て高速な認識を行うとともに、高い認識精度を維持する
ことができる。
【図面の簡単な説明】
【図1】本発明に基づく音声認識方法の手順を説明する
図である。
【符号の説明】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 コンペ、ラルフ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドヴ ァンスド テクノロジー センター シュ トゥットゥガルト内 (72)発明者 ゴロンジー、シルケ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドヴ ァンスド テクノロジー センター シュ トゥットゥガルト内 Fターム(参考) 5D015 GG01 HH00

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 既に得られている少なくとも1つの認識
    結果に基づいて、モデル関数の組合せ(MFM)にお
    けるモデル関数の組合せの要素(MFMj,k)の貢献
    の少なくとも一部を認識処理中に変更することにより適
    応化される現音響モデル(CAM)であって、1組のモ
    デル関数の組合せ(MFM・・・MFM)に基づく
    上記現音響モデル(CAM)を使用する音声認識方法に
    おいて、上記認識処理を、開始音響モデル(SAM)を
    上記現音響モデル(CM)をとして使用して開始し、 認識ステップを所定回数実行した後、及び/又は所定数
    の認識結果を得た後、上記現音響モデル(CAM)に基
    づき、既に得られている少なくとも所定数の認識結果に
    関して貢献の度合いを無視できるモデル関数の組合せの
    要素(MFM ,k)を除外することにより、修正音響
    モデル(MAM)を生成し、 各認識処理において、上記修正音響モデル(MAM)を
    上記現音響モデル(CAM)として継続して使用する音
    声認識方法。
  2. 【請求項2】 上記修正音響モデル(MAM)は、上記
    認識ステップを一定及び/又は所定回数実行する毎に及
    び/又は上記認識結果を一定及び/又は所定回数取得す
    る毎に、あるいは上記認識ステップを1回実行する毎に
    及び/又は上記認識結果を1回取得する毎に、繰り返し
    生成されることを特徴とする請求項1記載の音声認識方
    法。
  3. 【請求項3】 上記修正音響モデルが生成される前に実
    行される上記認識ステップ及び/又は認識結果の取得の
    回数は、認識及び/又は適応化の現在の処理において決
    定及び/又は変更されることを特徴とする請求項1又は
    2記載の音声認識方法。
  4. 【請求項4】 各認識処理において、上記開始音響モデ
    ル(SAM)及び/又は上記現音響モデル(CAM)と
    して音響モデルが使用され、該音響モデルのモデル関数
    の組合せ(MFM)は、上記モデル関数の組合せの要
    素(MFMj, )として少なくとも分布関数又はガウ
    ス関数を含むことを特徴とする請求項1乃至3いずれか
    1項記載の音声認識方法。
  5. 【請求項5】 上記モデル関数の組合せ(MFM
    は、それぞれが有限の及び/又は同数(n)の成分を
    有している関数ベクトル(f)及び重み付け係数ベク
    トル(a)に基づいていることを特徴とする請求項1
    乃至4いずれか1項記載の音声認識方法。
  6. 【請求項6】 上記モデル関数の組合せ(MFM)の
    各々は、重み付け係数ベクトル成分(aj,k)により
    重み付けされたベクトル関数成分(fj,k)の一次結
    合又は累積であり、MFMをj番目のモデル関数の組
    合せとし、aを重み付け係数ベクトルとし、Aj,k
    をそのk番目の成分とし、fをj番目の関数ベクトル
    とし、fj,kをそのk番目の成分とし、a をa
    の転置形とし、・をベクトルのスカラー積又は内積とし
    て、以下の式に示す重み付け係数ベクトルaと関数ベ
    クトルのスカラー積として表されることを特徴とする請
    求項5記載の音声認識方法。 【数1】
  7. 【請求項7】 上記モデル関数の組合せの要素(MFM
    j,k)は、その重み付け係数ベクトル成分
    (aj,k)の絶対値(|aj,k|)が既に実行され
    ている認識ステップ又は既に取得されている認識結果に
    おいて、?所定回数(m ,k)所定の閾値
    (cj,k)を下回る場合、無視できるものと判定され
    ることを特徴とする請求項5又は6記載の音声認識方
    法。
  8. 【請求項8】 上記閾値(cj,k)は、各モデル関数
    の組合せの要素(MFMj,k)毎に独立して、認識処
    理の開始以前に予め定められた及び/又は固定の値であ
    ることを特徴とする請求項7記載の音声認識方法。
  9. 【請求項9】 上記閾値(cj,k)は、入力される音
    声情報の信号品質及び/又は統計的及び/又は雑音デー
    タに基づいて、認識処理の実行中に決定及び/又は変更
    されることを特徴とする請求項7又は8記載の音声認識
    方法。
  10. 【請求項10】 上記重み付け係数ベクトル成分(a
    j,k)は、話者の修正音響モデル(MAM)の他の成
    分のうち、特に所定の閾値以下の重み付け係数ベクトル
    成分(aj,k)を低減することにより修正されること
    を特徴とする請求項1乃至9いずれか1項記載の音声認
    識方法。
JP2001270944A 2000-09-06 2001-09-06 音声認識方法 Withdrawn JP2002123286A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00119278.0 2000-09-06
EP00119278A EP1187096A1 (en) 2000-09-06 2000-09-06 Speaker adaptation with speech model pruning

Publications (1)

Publication Number Publication Date
JP2002123286A true JP2002123286A (ja) 2002-04-26

Family

ID=8169765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001270944A Withdrawn JP2002123286A (ja) 2000-09-06 2001-09-06 音声認識方法

Country Status (5)

Country Link
US (1) US6999929B2 (ja)
EP (1) EP1187096A1 (ja)
JP (1) JP2002123286A (ja)
KR (1) KR20020020237A (ja)
CN (1) CN1183511C (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
WO2008137616A1 (en) * 2007-05-04 2008-11-13 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
MX2018001996A (es) * 2015-08-24 2018-06-06 Ford Global Tech Llc Modelo acustico dinamico para un vehículo.
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
EP1197949B1 (en) * 2000-10-10 2004-01-07 Sony International (Europe) GmbH Avoiding online speaker over-adaptation in speech recognition

Also Published As

Publication number Publication date
US6999929B2 (en) 2006-02-14
EP1187096A1 (en) 2002-03-13
KR20020020237A (ko) 2002-03-14
CN1183511C (zh) 2005-01-05
CN1342969A (zh) 2002-04-03
US20020046024A1 (en) 2002-04-18

Similar Documents

Publication Publication Date Title
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US6195634B1 (en) Selection of decoys for non-vocabulary utterances rejection
JP2768274B2 (ja) 音声認識装置
US6882972B2 (en) Method for recognizing speech to avoid over-adaptation during online speaker adaptation
Fukuda et al. Orthogonalized distinctive phonetic feature extraction for noise-robust automatic speech recognition
US20060195317A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2002123286A (ja) 音声認識方法
JP2002536691A (ja) 音声認識除去方式
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
Deligne et al. A robust high accuracy speech recognition system for mobile applications
JP2011107314A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Nakadai et al. A robot referee for rock-paper-scissors sound games
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
Sun Statistical modeling of co-articulation in continuous speech based on data driven interpolation
JP3868798B2 (ja) 音声認識装置
WO2003085638A1 (en) Pattern recognition
JPH04332000A (ja) 音声認識方法
WO2002067245A1 (en) Speaker verification
Rokibul Alam Kotwal et al. Recurrent neural network based phoneme recognition incorporating articulatory dynamic parameters
Yamade et al. Unsupervised speaker adaptation for robust speech recognition in real environments
Park et al. Performance improvement of rapid speaker adaptation based on eigenvoice and bias compensation.
JP3105708B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081113

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20090227

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20090303

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20090414