JPH0690631B2

JPH0690631B2 - 音声認識方法

Info

Publication number: JPH0690631B2
Application number: JP58099960A
Authority: JP
Inventors: 和行冨田; 亜紀彦竹内; 良平中津
Original assignee: Fujitsu Ltd; Nippon Telegraph and Telephone Corp
Current assignee: Fujitsu Ltd; Nippon Telegraph and Telephone Corp
Priority date: 1983-06-03
Filing date: 1983-06-03
Publication date: 1994-11-14
Anticipated expiration: 2009-11-14
Also published as: JPS59224900A

Description

【発明の詳細な説明】発明の技術分野本発明は，電話による音声応答システムに用いられるよ
うな不特定話者方式の音声認識装置において，入力音声
の有音区間にはさまれた無音部における環境雑音の特性
を，認識処理において考慮し，マッチング性能を改善し
た音声認識方法に関する。

技術の背景不特定話者を対象とする音声認識装置の中で，特に入力
音声を音素に分解して認識する方法のものにおいては，
標準パターンを音素単位で有している。他方，入力音声
には，無音区間が多く含まれている。例えば，数字６の
発声音「ロク」は,ROとKUの間に無音部がある。したが
って音素を単位として認識を行う方法では，音素標準パ
ターンの１つとして雑音に対応した標準パターンを持
ち，かつ認識対象語は雑音音素も含めた形で音素系列表
記を行い記憶しておく。このような方法において無音部
を含んだ語が正しく認識されるためには，この無音部に
おいて雑音に対応する標準パターンとの距離が小さい値
である必要がある。しかし，電話による音声応答システ
ムに用いられる場合など，実際には周囲雑音が環境によ
り大幅に変動するため，無音区間において必ずしも雑音
に対応した標準パターンとの距離値が小さい値をとると
は限らず，これが認識誤りの原因となる問題点があっ
た。

発明の目的および構成そのため，本発明は，このような無音部において，雑音
の標準パターンとの距離が大きくなることをさけるため
話者の発声直前の環境雑音を収集して，パラメータ分析
したものを雑音に対応した標準パターンとして用いるこ
とにより，マッチング特性を向上させた音声認識方法を
提供するものである。

そして，本発明は，その構成として，認識単語中に現わ
れる音素を標準パターンとして予め認識装置に登録して
おき，入力音声をある時間間隔で切出し，上記標準パタ
ーンとの距離を求め，更に音素系列で表現してある認識
対象語とマツチングをとる不特定話者音声認識方法にお
いて，話者の発声前に，環境雑音を収集し，これを雑音
音素として定義される音素標準パターンの１つとして登
録することにより，入力音声の無音区間に含まれる環境
雑音を雑音音素に対応づけて認識処理することを特徴と
している。

発明の実施例以下に，本発明を実施例にしたがつて説明する。

第１図は実施例装置の構成図である。図において,1はア
ナログ部であり，入力音声をA/D変換してデジタル信号
化する。２は音声分析部であり，入力デジタル音声信号
を数十ミリ秒のフレーム周期毎に，線型予測分析等を用
いてパラメータ分析し，特徴パラメータを計算する。３
は音声バツフアであり，フレーム周期毎の入力音声の特
徴パラメータを格納する。４は音素標準パターン・メモ
リであり，音素の標準となるパラメータを格納したメモ
リである。５は距離計算部であり，音声バツフア３中の
入力音声の特徴パラメータと，音素標準パターン・メモ
リ４中の音素標準パラメータとの距離計算を，フレーム
毎に行なう。６は単語辞書メモリであり，音素系列で表
現された単語が格納されている。７はマッチング部であ
り，距離計算部５からの距離計算された音素の系列と，
単語辞書メモリ６からの各単語の音素系列との間で,DP
−マッチングのような照合を行ない，最小距離をもつ単
語を認識結果として出力する。８は制御部であり，本発
明では，特に音声入力前に環境雑音を測定して，雑音音
素のパラメータを標準パターン・メモリに加える設定制
御を行なう。

次に動作例を説明する。第２図（ａ）は，中間に無音部
を有する入力音声の一例を示す。図において，無音部
は，環境雑音にしたがったレベルを示している。y₁,y₂,
y₃,……,ynは，フレーム毎に分析されたパラメータ系列
である。

たとえば，中間に無音部を有する入力音声「イチ」
が入力された場合，次のような音素標準パターンを用い
て，距離計算とマッチング処理を行ない，最適マッチン
グを求めた結果を第２図（ｂ）に示す。音素名パラメータｉＩ cn CH ｎＮａＡ無音Ｘ上例のように，数字１を「イチ」と無音部を挾んで
発声されたときに，正しく音声認識されるためには，無
音期間のパラメータyiが，無音の音素標準パターンＸに
対して，距離計算結果が最短距離を示さなければならな
い。しかし，一般に環境雑音は，千差万別である。

そのため，無音に相当する雑音音素として，一律に単一
のパターンを適用することをせずに，音声入力される直
前の話者の周囲の環境雑音を収集し，第１図の音声分析
部２によりパラメータ分析したものを，音素標準パター
ン・メモリ４に雑音音素パラメータとして登録する。

環境雑音の収集，登録処理は，第２図（ａ）に示すよう
な有音部区間を検出するパワー閾値を決定するために，
音声入力開始前に通常行なわれる雑音測定の際に，制御
部８内の雑音音素設定ルーチンにより，同時に行なわれ
る。

しかし，雑音測定時に，誤って音声や突発的な大きな音
響が混入したときには，それを雑音として登録するの
は，認識性能を低下させることになるので，避けなけれ
ばならない。

このため，雑音として許容できる一定基準を設け，これ
から外れるものを排除する。たとえば，複数人の話者の
無音区間を分析し，これを予め雑音音素の基準パターン
として登録しておく。雑音測定時に入力された信号の分
析パラメータは，まず雑音音素基準パターンとの距離計
算により異常の有無が調べられる。距離が一定の閾値を
超えて離れている場合には，それを採用せずに再度雑音
測定を指示する。第３図には，制御部８内の処理手順を
示す。

雑音音素の基準パターンは，音素標準パターン・メモリ
４内の特性番地に格納されており，制御部８の雑音音素
設定ルーチンのみによって呼び出されることができる。

発明の効果本発明によれば，入力音声中の無音区間が環境雑音から
とられた雑音音素標準パターンによって対応づけられる
ため，高いマッチング精度の音声認識結果を得ることが
できる。

【図面の簡単な説明】

第１図は実施例装置の構成図，第２図はその動作説明
図，第３図は雑音音素標準パターン設定手順を説明する
フロー図である。図中,1はアナログ部,2は音声分析部,3は音声バッファ,4
は音素標準パターン・メモリ,5は距離計算部,6は単語辞
書メモリ,7はマッチング部,8は雑音音素設定を含む制御
部を示す。

Claims

【特許請求の範囲】

【請求項１】認識単語中に現われる音素を標準パターン
として予め登録しておき，入力音声をある時間間隔で切
出し，上記標準パターンとの距離を求め，更に音素系列
で表現してある認識対象語とマッチングをとる不特定話
者音声認識方法において，話者の発声前に，環境雑音を収集し，これを雑音音素と
して定義される音素標準パターンの１つとして登録する
ことにより，入力音声の無音区間に含まれる環境雑音を
雑音音素に対応づけて認識処理することを特徴とする音
声認識方法。
【請求項２】前記第（１）項において，収集された環境
雑音と，予め定められた基準となる雑音との間で，その
パラメータ間距離が一定の大きさを超える場合に，雑音
音素としての標準パターンの登録を禁止することを特徴
とする音声認識方法。