JP2000132181A - 音声処理装置及び方法 - Google Patents

音声処理装置及び方法

Info

Publication number
JP2000132181A
JP2000132181A JP11298766A JP29876699A JP2000132181A JP 2000132181 A JP2000132181 A JP 2000132181A JP 11298766 A JP11298766 A JP 11298766A JP 29876699 A JP29876699 A JP 29876699A JP 2000132181 A JP2000132181 A JP 2000132181A
Authority
JP
Japan
Prior art keywords
energy
level
processing
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11298766A
Other languages
English (en)
Inventor
Robert Alexander Caylor
アレクサンダー ケイラー,ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2000132181A publication Critical patent/JP2000132181A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

(57)【要約】 【課題】 ノイズマスキングによる音声処理装置及び方
法を提供する。 【解決手段】 入力音声信号の各フレーム内の、周波数
に関するエネルギーの分布を決定し、フレーム内の最大
エネルギーに基づいて決定されたマスキングレベル未満
の、あらゆるエネルギー成分をマスキングレベルに等し
くする音声処理装置が提供される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声処理装置及び方
法に関する。本発明は、特に、例えば入力音声信号のよ
うな入力信号におけるノイズのマスキングに関するが、
これに限られるものではない。
【0002】
【従来の技術】高レベルのノイズが存在するか、また
は、ノイズレベルがかなり変化する可能性のある幾つか
の音声認識及び音声認証システムにおいては、ある同じ
周波数で、入力音声のエネルギーよりも大きいエネルギ
ーをノイズ信号が有していることに起因して、誤認識及
び誤認証が行われることがあり得る。US4,918,
732はこの問題を扱い、トレーニングの間及びこれに
続く認識または認証の間、バックグラウンドノイズのエ
ネルギーよりも低いエネルギーとなり得る音声信号内の
その周波数帯をマスキングすることによってこの問題を
緩和する。そのため、マッチング処理に際して、これら
の部分が考慮されることはない。US4,918,73
2に記載されているシステムは、入力音声信号の各フレ
ームにおけるノイズレベルが一定であるという仮定のも
とで動作するので、自動利得コントローラが用いられる
場合には使用出来ない。入力音声信号の各フレームへ適
用される利得が異なることになるからである。
【0003】
【発明が解決しようとする課題】本発明の一目的は入力
音声信号にこの種のノイズマスキング操作を実施するた
めの技術を提供することにある。
【0004】
【課題を解決するための手段】本発明は、その一態様に
基づき音声処理装置を提供する。前記装置は、音声信号
を表す一連のタイムフレームを受信する手段と、前記タ
イムフレームの各々に含まれる周波数をもつエネルギー
分布を決定する手段と、次に示す手順にしたがって前記
の各フレームエネルギー分布を処理する手段とを有す
る。即ち、(i)カレントフレーム内の最大エネルギー
レベルを決定し、(ii)前記最大エネルギーレベルか
ら所定のエネルギーレベルを差算することによってカレ
ントフレームに関する最大エネルギーレベルを決定し、
(iii)前記マスキングレベルよりも低いあらゆるエ
ネルギー成分を前記マスキングレベルに等しくする。
【0005】
【発明の実施の形態】本発明の実施形態はコンピュータ
ハードウェアにおいて実行可能であるが、ここで記述す
る実施形態は、例えばパーソナルコンピュータ、ワーク
ステーション、写真式複写機、ファクシミリマシン等の
処理ハードウェアと共に動作するソフトウェアにおいて
実行される。
【0006】図1は本発明の実施形態を操作するように
プログラミング可能なパーソナルコンピュータ(PC)
1を示す。キーボード3、ポインティングデバイス5、
マイクロホン7、及び、電話線9はインタフェース11
を介してPC1に接続される。キーボード3及びポイン
ティングデバイス5はユーザによるシステム制御を可能
にする。マイクロホン7はユーザの音波音声信号を等価
電気信号に変換し、これを処理するためにPC1に供給
する。内部モデム及び音声受信回路(不図示)は、PC
1が、例えば、遠隔コンピュータ或いは遠隔ユーザと通
信できるように、電話線9に接続することも可能であ
る。
【0007】本発明にしたがってPC1を動作させるプ
ログラム命令は、既存のPC1において使用するため
に、例えば磁気ディスク13のような記憶デバイスに、
または、内部モデム及び電話線9を介してインターネッ
ト(不図示)からソフトウェアをダウンロードすること
によって供給することが出来る。
【0008】本実施形態の音声認識システムの動作につ
いて、図2を参照しながら、簡単に述べることとする。
本音声認識システムに関するより詳細な記述は、本出願
人の欧州特許出願EP0,789,349に既に記載さ
れており、参考として、その内容をここに記す。例え
ば、マイクロホン7からの入力音声を表す電気信号はプ
リプロセッサ15に供給される。このプリプロセッサは
入力音声信号を一連のパラメータフレーム(a sequence
of parameter frames)に変換する。その各パラメータ
フレームは、入力音声信号の、対応タイムフレームを表
す。その一連のパラメータフレームはバッファ16を介
して認識ブロック17に供給され、パラメータフレーム
の入力シーケンスを基準モデル又はワードモデル19と
比較することにより、音声が識別される。前記の各モデ
ルは、認識されるべき入力音声のパラメータと同じ種類
のパラメータで表現されたパラメータフレームのシーケ
ンスを有する。
【0009】言語モデル21及びノイズモデル23は、
認識処理を援助するために、同様に入力として認識ブロ
ック17へ供給される。ノイズモデルは無音またはバッ
クグラウンドノイズを表し、本実施形態においては、認
識されるべき入力音声信号のパラメータと同じタイプの
単一パラメータフレームをも含む。言語モデル21は、
認識ブロック17から出力されうるワードシーケンス
を、システムにおいて既知のワード列に一致させるため
に用いられる。次に、認識ブロック17から出力される
ワードシーケンスは、例えばワードプロセッシングパッ
ケージにおいて使用するために転記可能であり、又は、
PC1の動作を開始、停止、或いは、修正するためのオ
ペレータコマンドとして使用することもできる。
【0010】上記ブロックについて、以下に更に詳細に
説明する。
【0011】[プリプロセッサ]図3から17までを参
照してプリプロセッサについて説明する。
【0012】プリプロセッサ15の機能は必要な情報を
音声から抽出し、処理するべきデータ量を減じることで
ある。入力信号から抽出できる情報には多くの異なるタ
イプがある。本実施形態において、プリプロセッサ15
は「フォルマント」関連情報を抽出するよう設計されて
いる。フォルマントとはユーザの声道の共振周波数であ
ると定義され、声道の形状が変わると変化する。
【0013】図3は、入力音声信号に対して実施され
る、いくつかの前処理を示すブロック図である。マイク
ロホン7または電話線9からの入力音声S(t)はフィ
ルタブロック61に供給され、このブロックは入力音声
信号内の殆ど無意味な情報を含む周波数を除去する。音
声認識のために有用な情報の大部分は300Hzから4
KHzまでの間の周波数帯域に含まれる。したがって、
フィルタブロック61は、この周波数帯域外の全ての周
波数を除去する。音声認識に有用な情報がフィルタブロ
ック61によってフィルタリングされることはないの
で、認識性能の損失はない。更に、例えば自動車内のよ
うな環境においては、バックグラウンドノイズの大部分
は300Hz以下であり、したがって、フィルタブロッ
ク61により、SN比を約10dB、或いはそれ以上、
効果的に増加することができる。フィルタリングされた
音声信号は、次に、ADC(アナログ/デジタルコンバ
ータ)63によって、16ビットデジタルサンプルに変
換される。ナイキストサンプリング基準に加えて、AD
C63は毎秒8000のレートでフィルタリング信号を
サンプリングする。本実施形態において、全入力音声発
声はデジタルサンプルに変換され、続けて行なわれる音
声信号処理に先立ってバッファ(不図示)に記憶され
る。
【0014】入力音声がサンプリングされた後、ブロッ
ク65において重複なし等長フレームに分割される。こ
のように入力音声をフレームへ分割する理由について、
ここで更に詳細に述べる。既に述べたように、音声が連
続している間、フォルマント関連情報は連続的に変化す
るが、この場合の変化率は、生理学的拘束条件によって
制限される音声調音器官の動きの度合に直接関係する。
したがって、フォルマント周波数を追跡するためには、
音声信号は短い期間またはフレームについて分析しなけ
ればならず、この方法は、音声分析の技術分野において
は音声の「短時間」分析として知られている。短時間分
析を実施する場合、次に示す2つの項目について考慮し
なければならない。即ち、(i)どの程度のレートで音
声信号からタイムフレームを抽出するべきか、及び、
(ii)どの程度の大きさのタイムフレームを使用する
べきかということである。
【0015】第1の考慮項目は音声調音器官の動きの度
合に依存する。即ち、重要な事象が失われないことを保
証し、かつ妥当な連続性のあることを保証するために充
分な程度にフレームが接近していなければならない。第
2の考慮項目は、フレーム期間中は音声信号の特性が一
定である程度にタイムフレームが十分に短いこと、そし
て、フォルマントが識別できる程度に充分な周波数分解
能を与えるだけのフレーム長さを有すること、の両方を
考慮して決定される。
【0016】本実施形態においては必要計算量を減らす
ために、フロントエンド処理及びその後の認識段階の両
方において、128サンプルの重複なしフレーム(音声
の16ミリセカンドに対応する)が、従来の窓掛け処理
することなしに音声から直接抽出される。図4及び5
は、それぞれ、入力信号S(t)の一部分及び信号の重
複なしフレームへの分割、及び、これらのフレームS
(r)の1つを示す。従来の方式においては、通常、音
声信号からフレームを抽出することに起因する周波数歪
みを軽減する窓掛け機能を用いて重複フレームが抽出さ
れる。しかし、本出願人によれば、重複なしフレームを
使用する場合、これらの従来型窓掛け機能は認識性能を
向上させず、むしろ悪化させることが分かっている。
【0017】次に、ブロック65によって出力された音
声フレームS(r)は音声の約1秒に対応する62フ
レームを記憶できる循環バッファ66に書き込まれる。
循環バッファ66に書込まれたフレームは、入力信号内
の音声がいつ始まり、開始後いつ終るかを識別するた
め、終端検出部68に送られる。循環バッファ内のフレ
ームは、入力信号内で音声が検出されるまで、集中的に
計算を行なう特徴抽出部70には供給されない。ただ
し、終端検出部68が入力信号内における音声の開始を
検出すると、終端検出部は、音声の開始点以降に受け取
ったフレームの特徴抽出部70への送信を開始すること
を、循環バッファに合図し、次に特徴抽出部は当該フレ
ーム内の音声信号を表現する、各フレームに関する1組
のパラメータを抽出する。
【0018】[音声検出]図6から図9までを参照し、
本実施形態における終端検出部68の動作について述べ
る。本実施形態においては、入力信号の平均フレームエ
ネルギーをサンプリング信号として扱い、音声を特徴づ
ける変調(modulation)をそのサンプリング信号内で捜
すことによって音声が検出される。特に、音声によるエ
ネルギーは4Hz周辺の周波数において強く変調され、
1Hzよりも低いか又は10Hzよりも高い周波数にお
いては殆ど変調されない。これとは対照的に、ノイズレ
ベルの変化は、一般に1Hz未満において信号エネルギ
ーを変調する際に比較的ゆっくり発生する傾向がある。
更に、ノイズエネルギーの不規則な変動はフレーム毎の
相互関係を持たず、0Hzからフレームレート(サンプ
リングレート)の半分までの変調周波数範囲全体に亙っ
て散在する。したがって、本実施形態における終端検出
部68は、2Hzから6Hzまでの間の周波数帯域にお
いて平均フレームエネルギーを帯域フィルタリングし、
この周波数帯域内の変調パワーを算定し、算定した変調
パワーへ検出しきい値を適用することによって音声の存
在を検出するように構成されている。
【0019】図6Aは一例としての入力信号における平
均フレームエネルギーを示すプロットである。入力信号
は、バックグラウンドノイズに対応し、かつ部分74を
拘束するバックグラウンドノイズ部72aと72bを含
む。図6Aに示すように、バックグラウンドノイズ部に
おける平均エネルギーは時間によってはあまり上下しな
い。対照的に、部分74を含む音声においては、平均フ
レームエネルギーは時間によってかなり大きく変動し、
平均値は比較的大きい。
【0020】上記したように、従来の技術における終端
検出部は、音声開始点(SOS)と音声終端(EOS)
とを決定するために、図6Aに示す信号を簡単にしきい
値で分割する。ただし、これらの点を適確に決定するた
めには、しきい値はノイズレベルに近いレベルに設定さ
れなければならない。当該技術分野における当業者が認
めるように、ノイズレベルが高いか或いはノイズレベル
が連続的に変化する状況の下において、このような設定
は、音声の開始点及び終端の検出エラーの原因となり得
る。
【0021】既に述べたように、本実施形態において図
6Aに示すエネルギー信号は、カットオッフ周波数が2
Hzと6Hzであって、約4Hzにおいてピークレスポ
ンスを持つバンドパスフィルタによって帯域フィルタリ
ングされる。そして次に、帯域フィルタリングされた信
号のパワーが決定される。図6Aに示すエネルギー信号
に関するその結果のプロットを図6Bに示す。図に示す
ように、領域72aと72bにおけるこの変調パワーは
音声部分74期間の変調パワーに較べると比較的小さ
い。この傾向は、バックグラウンドノイズ内のエネルギ
ー量とは無関係に同じである。したがって、各フレーム
に関してこのバンドパス変調パワーを固定検出しきい値
Thと比較すると、音声開始点(SOS)と音声終端
(EOS)は上に述べた特にノイズの多い環境における
従来の方法よりも一層適確に検出可能である。
【0022】本実施形態において、音声開始点及び音声
終端の検出が実際に実施される方法について更に詳細に
述べる。図7は図3に示す終端検出部68の構成要素を
示すブロック図である。図に示すように、終端検出部
は、ブロック65によって出力されたフレームS
(r)を連続的に受け取り、受け取った各フレーム内
の信号の平均エネルギーE(k)を算定し、これをバッ
ファ78に出力するエネルギー計算ユニット76を備え
る。新規な各平均パワー値が算定され、バッファ78へ
入力されると、固定サイズのスライドウィンドウによっ
て定義され、最後に受け取ったフレームのエネルギー値
で終了する、一連のエネルギー値がバンドパスフィルタ
80によってフィルタリングされ、変調パワー計算ユニ
ット82がフィルタリングされた一連の変調パワーを算
定する。本実施形態において、スライドウィンドウにお
ける平均パワーの離散フーリエ変換の第1非DC係数を
計算することにより、バンドパスフィルタリングとパワ
ー計算が結合される。特に、フレームkに関するバンド
パス変調パワーwは次式によって与えられる。
【0023】
【数1】
【0024】ここに、eはブロック76によって算定
されるフレームiに関する平均フレームエネルギーであ
り、Nはウィンドウにおけるフレーム数である。本実施
形態においてNは、約4Hzにおけるピークレスポンス
を持つバンドパスフィルタに相当する16に設定され
る。次に、しきい値回路84において各フレームに関す
るwの値が検出しきい値Thと比較され、しきい値回
路は、カレントフレームに関するバンドパス変調パワー
が検出しきい値よりも大きいか又は小さいかを識別する
制御ユニット86に制御信号を出力する。
【0025】用途に応じて、バンドパス変調パワーw
が検出しきい値Thを越えることをしきい値回路84が
検出すると直ちに、制御ユニット86は特徴抽出部70
に入力信号の処理を開始させる。ただし、本実施形態に
おいては、ノイズに起因する認識エラーを減少させ、か
つ認識性能を改良するように特徴抽出部70によるバッ
クグラウンド信号の最小限度の処理が行われることを保
証するために音声開始と音声終端の一層適確な決定が実
施される。本実施形態においては、所定の個数のフレー
ムに関してバンドパス変調パワーwが検出しきい値T
hを越えることを制御ユニット36が識別した場合に算
定される最尤計算を用いて、これが達成される。
【0026】図8は最尤計算をいつ実施するかを決定す
る際に制御ユニット86によって実施される制御ステッ
プを示す。本実施形態において、制御ユニット86は、
2つの状態、即ち、INSPEECH(音声中)状態と
INSILENCE(無音中)状態をとる。制御ユニッ
ト86がINSILENCE状態にある場合には音声開
始を検索し、INSPEECH状態にある場合には音声
終端を検索する。図8Aに示すように、ステップS1に
おいて、制御ユニット86はINSPEECH状態にあ
るかどうかを判定する。そのような状態にない場合に
は、ステップS3に進行し、制御ユニット86はカレン
トフレームkに関するバンドパス変調パワーwが検出
しきい値Thよりも大きいかどうかを、しきい値回路8
4に受信された信号から決定する。そうでない場合に
は、ステップS5に進み、kがインクリメントされ、そ
の次のフレームに関して同じ手順が再び実行される。バ
ンドパス変調パワーwが検出しきい値Thより大きい
場合には、ステップS3からステップS7へ進み、検出
しきい値Thよりも大きいフレームの個数を示すカウン
ト[CNTABV]がインクリメントされる。次に、ス
テップS9において、このカウントCNTABVは事前
画定された数NDTCT(音声が既に開始したことを示
す)と比較される。本実施形態において、NDTCTは
18であり、288ミリセカンドの入力音声に対応す
る。
【0027】しきい値、即ち、CNTABVよりも大き
いフレームの個数が所定の数NDTCTより大きくない
場合には、フレーム数kはステップS13においてイン
クリメントされ、更に、ステップS15において、制御
ユニット86は、その次のフレームに関するバンドパス
変調パワーw検出しきい値Thよりも大きいかどうか
を決定する。そうでない場合には、次に、ステップS7
に戻り、しきい値よりも大きいフレーム数のカウントC
NTABVがインクリメントされる。ステップS15に
おいてバンドパス変調パワーwがしきい値未満である
場合には、次にステップS17に進み、しきい値よりも
小さい連続したフレーム数のカウント(CNTBLW)
がインクリメントされる。続いて、ステップS19にお
いて、しきい値よりも小さい連続したフレーム数のカウ
ントCNTBLWが所定の数NHLD(制御ユニット8
6が、カウントを停止し、しきい値の再度超過を待たね
ばならないことを指示する)と比較される。本実施形態
において、NHLDは6であり、96ミリセカンドの入
力信号に対応する。
【0028】カウントCNTBLWが所定数NHLDよ
り大きい場合には、カウントCNTABV及びCNTB
LWがステップS21においてリセットされ、ステップ
S5に戻り、制御ユニット86は、ステップS3及びS
5の作用により、検出しきい値Thより大きいその次の
フレームを待つ。ステップS19において、しきい値よ
りも小さい連続するフレーム数が所定数NHLDより大
きい場合には、ステップS23に進み、フレーム数kが
インクリメントされる。ステップS25において、制御
ユニット86は、その時次のフレームのためのバンドパ
ス変調パワーw が検出しきい値Th以上であるかどう
かを決定する。そうでない場合には、ステップS17に
戻り、しきい値より小さい連続したフレーム数のカウン
トCNTBLがインクリメントされる。他方、ステップ
S25において、その次のフレームに関するバンドパス
変調パワーパワーwが検出しきい値Thよりも大きい
と制御ユニット86に判定された場合には、ステップS
25からステップS27へ進み、検出しきい値よりも小
さいフレーム数がゼロにリセットされ、ステップS7へ
戻り、検出しきい値よりも大きいフレーム数がインクリ
メントされる。一旦、カウントCNTABVがNDTC
Tよりも大きくなり、音声が開始されたことが指示され
た場合には、ステップS9からステップS28に進み、
制御ユニット86が、その時点で処理していたフレーム
に関する最大尤度計算を用いて音声開始点の計算を開始
する。次に、ステップS29において制御ユニット86
の状態INSPEECHに変更され、ステップS1に戻
る。
【0029】したがって、要約すれば、制御ユニット8
6がINSILENCE状態にあり、バンドパス変調パ
ワーが最初に検出しきい値Thを越えた場合、制御ユニ
ット86は、しきい値よりも大きいフレーム数及びしき
い値より小さい連続したフレーム数のカウントを始め
る。しきい値よりも小さい連続したフレームの数がNH
LDを越えた場合には、アルゴリズムはカウントを停止
し、しきい値を再び越えるフレームを待つ。しきい値よ
りも大きいフレームの数のカウントCNTABVがND
TCTを越える以前に、このカウント停止が起きなかっ
た場合には、状態情報をINSPEECHに変更し、最
近のフレームを用いて開始点が算定される。次に、音声
開始が算定された後で、特徴抽出部70によるデータの
全処理が開始される。
【0030】一旦、音声の開始が決定されると、制御ユ
ニット86は音声の終端を捜すようにプログラムされ
る。再び図8Aを参照すると、ステップS28における
音声の開始が算定され、コントローラの状態がINSP
EECHに設定された後で、図8Bに示すように、ステ
ップS1からステップS31へパスし、カレントフレー
ムkに関するバンドパス変調パワーwが検出しきい値
Thよりも小さいかどうかを判定するために制御ユニッ
ト86がチェックする。次に、wが検出しきい値より
も大きい場合には、ステップS33へループし、フレー
ムカウンターkがインクリメントされ、制御ユニットは
その次のフレームのバンドパス変調パワーをチェックす
る。バンドパス変調パワーがしきい値よりも小さいフレ
ームを制御ユニット86が識別した場合には、ステップ
S35に進み、しきい値よりも小さい連続フレーム数の
カウントCNTBLWがインクリメントされる。次に、
ステップS37へ進み、しきい値よりも小さい連続フレ
ーム数が音声が終了したことを示す所定数NENDを超
過しているかどうかを制御ユニット86がチェックす
る。本実施形態において、NENDは224ミリセカン
ドに対応する14である。
【0031】連続フレームの数がNENDより小さく、
かつ音声が終了していない場合には、ステップS39へ
進行し、フレームカウンタkがインクリメントされる。
次に、ステップS41へ進行し、その次のフレームに関
するバンドパス変調パワーが検出しきい値Thより小さ
いかどうかを制御ユニット86が判定する。そうでない
場合には、検出しきい値よりも小さい連続フレーム数の
カウントCNTBLWがステップS43においてリセッ
トされ、ステップS33に戻る。ステップS41におい
て、バンドパス変調パワーが依然として検出しきい値よ
り小さい場合には、ステップS35に戻り、しきい値よ
り小さい連続フレーム数のカウントがインクリメントさ
れる。一旦、しきい値よりも小さい連続フレームの数が
NENDを越えると、ステップS45へ進み、制御ユニ
ット86が、その時点のフレームに関する最大尤度計算
を用いて音声終端の算定を開始する。次に、ステップS
47において制御ユニット86の状態はINSILEN
CEに変更され、ステップS1に戻る。
【0032】したがって、要約すれば、音声の開始が決
定された後、続いて、制御ユニット86は音声の終端を
捜す。これは、検出しきい値よりも小さいフレームの連
続数をカウントする制御ユニット86によって行われ、
この数が所定の数NENDを越えた場合、制御ユニット
86は状態(state)をINSILENCEに変え、音
声の終端が算定される。
【0033】[最尤終端検出]既に述べたように、入力
信号内音声の開始点及び終端は最尤法を用いて算定され
る。特定のフレームにおいて発生する終端に関する尤度
が算出され、最大尤度をもつフレームが終端として選定
される。再度説明すれば、尤度計算にはフレーム当たり
の平均信号エネルギーが用いられ、このパラメータに関
する単純モデルが仮定される。
【0034】図7を参照することとし、音声が開始した
ことを制御ユニット86が識別した場合、制御ユニット
はバッファ78へのライン88上に制御信号を出力し、
時間的に最も近いN個のフレームエネルギーをバッファ
78から読み出し、ハイパスフィルタ90へ入力させ
る。ハイパスフィルタ90は、エネルギー信号内のDC
オフセット及び変化の緩やかなあらゆるノイズの影響を
除去し、フィルタリングされたエネルギーをバッファ9
2へ出力する。本実施形態において、ハイパスフィルタ
90はカットオフ周波数が1Hzの2次再帰フィルタで
ある。図9は、図6Aに示すエネルギー信号用のハイパ
スフィルタ90の出力を示す。図に示すように、フィル
タリングされたフレームエネルギーは無音部分72a及
び72bの期間中はゼロのまわりで上下するが、音声部
分74の期間中は振動する。その結果として、一方、無
音部分の期間において、フィルタリングされたフレーム
エネルギーはフレーム毎に相互関係を持たず、他方、音
声部分において、各フレームのフィルタリングされたフ
レームエネルギーはその近傍フレームのフィルタリング
されたフレームエネルギーに依存するものと仮定され
る。
【0035】次に、最尤終端計算ユニット94は、各点
を検出され得る開始点(或いは、終端)とみて、この点
以前の全てのフレームをノイズとして扱い、また、この
点以後の全てのフレームを音声として扱い、更に、当該
点に終端としての尤度スコアを与えるために指示された
ノイズフレームの各々をノイズモデルへ適用し、また、
更に、指示された音声フレームの各々を音声モデルへ適
用することによって、バッファ92に記憶されているN
個のフィルタリングされたエネルギーフレームを処理す
る。この処理は、バッファ92内のN個のフレームの各
々に関して実施され、最良の尤度スコアを与えるフレー
ムが終端として決定される。
【0036】本実施形態において、ノイズ及び音声部分
をモデル化するために、ラプラス統計量が用いられ、バ
ッファ92内のフレーム1からMまでが無音である尤度
L1は次式で与えられる。
【0037】
【数2】 ここに、yはハイパスフィルタリングされたエネルギ
ーであり、σは無音分散である。同様に、フレームM
+1からNまでが音声である尤度L2は次式で与えられ
る。
【0038】
【数3】 ここに、分散σのラプラス推進項を持つ一次自己回帰
処理が用いられた。パラメータ a は自己回帰モデルの
予測係数であり、本実施形態においては、固定値0.8
が用いられる。ラプラス統計量は、更に一般的なガウス
統計量よりもデータを一層よく表し、一層頑強な推定値
を導き、必要な計算量を少なくすることが実証された。
ただしガウス統計量を使用しても差し支えない。尤度L
1とL2を乗算すると、フレームMにおける無音から音声
への遷移に関する尤度が与えられる。
【0039】分散σ及びσは未知であるが、方程式
(2)及び(3)を微分し、微分値をゼロに等しくする
σを見付けることにより尤度を最大にする値はデータか
ら算定できる。これは、σ及びσに関して次式をあ
たえる。
【0040】
【数4】
【0041】
【数5】 これらの推定値を尤度に代入し、対数を求め、定数項を
無視すると、最大化しようとする対数尤度が求められ
る。
【0042】
【数6】 これは各Mに関して算定され、したがって、最大1のフ
レームが終端として選定される。
【0043】音声の終端(EOS)を算定するために
は、データが時間の逆数であること以外は全く同じアル
ゴリズムが用いられる。更に、信頼できる終端を得るの
に十分な無音フレーム及び十分な音声フレームがNフレ
ームのウィンドウに含まれていることを保証することが
重要である。これは、十分な数の無音及び音声フレーム
を含むようにウィンドウサイズ(N)を動的に選択する
ことによって保証される。これは、検出しきい値を越え
た第1フレームの直前16個の先行フレームと共に、検
出しきい値Thを最初に越えたフレームから当該音声が
開始したと制御ユニットが判断するまでの全てのフレー
ムを対象とすることによって達成される。
【0044】[特徴抽出]一旦、音声の開始が検出され
ると、第1音声フレームが図3に示す循環バッファ66
から特徴抽出部70へ供給される。図10は、本実施形
態に用いられる特徴抽出部70の構成要素を一層詳細に
示す図である。図に示すように、特徴抽出における第1
ステップは、ブロック67におけるカレントフレームの
離散フーリエ変換(DFT)の大きさ、即ち|S
(f)|を計算するステップである。ここで、fは離
散周波数変数である。このプリプロセッサの多くのアス
ペクトは入力音声信号の位相には比較的鈍感な人間聴覚
系の動作をシミュレートするように設計されているの
で、大きさ情報だけが必要である。
【0045】図11は図5に示すフレームS(r)に
おける音声信号のDFT|S(f)|の大きさを示
し、その最終サンプルはサンプリング周波数の半分の周
波数、即ち4KHzにおいて発生する。DFTを実施し
た後におけるスペクトルは多数の周波数帯域内のサンプ
ルを平均するフィルタバンクを通過する。人間の聴覚系
に関する研究によれば、耳の周波数分解能は周波数の増
大と共に低下することが判明している。したがって、対
数的に間隔を保ったフィルタバンクは知覚的に一層有意
な情報をもつので、対数的に間隔を保ったフィルタバン
ク、すなわち、高い周波領域と比較して低い周波領域に
より多くの周波数帯域が存在するフィルタバンクの方が
線形的に間隔を保つフィルタバンクよりも好ましい。
【0046】本実施形態においては、16個の帯域を持
つメルスケールフィルタバンク69が用いられる。メル
スケールは音声分析の技術分野において周知であり、基
音(トーン)の感知された周波数を線形スケール上にマ
ッピングしようと試みる対数スケールである。図12
は、図11に示すサンプルがバンク69をパスする場合
におけるメルスケールフィルタバンク69の出力|S
(f')|を示す。結果として得られる振幅スペクトル
のエンベロープ100は、フィルタバンクの対数間隔に
起因して低い方の周波数においてはあまり顕著でない
が、フィルタバンク69の平均化効果により、かなり平
滑である。
【0047】次に、以下に説明する処理により、フォル
マント関連情報が図10のブロック73、75、77を
用いて音声から抽出される。
【0048】励起信号E(t)及びフィルタV(t)に
関してユーザの音声信号S(t)をモデル化することが
可能である。ここに、励起信号E(t)は声道に入る気
流を表し、フィルタV(t)は声道のフィルタリング効
果を表す。したがって、音声信号の周波数スぺクトル|
S(f)|の大きさは、次式で表されるように、励起信
号の周波数スぺクトル|E(f)|の大きさに声道フィ
ルタのスペクトル|V(f)|の大きさを乗算すること
によって与えられる。
【0049】
【数7】
【0050】ケプストラム法として知られている入力音
声から声道情報を抽出する方法について次に述べる。こ
の方法は、音声の振幅レスポンス|S(f)|の対数を
求めることにより励起の振幅レスポンス|E(f)|か
ら声道フィルタの振幅レスポンス|V(f)|を分離
し、結果的に励起特性と声道フィルタ特性を次式に示す
ように加算的にすることに関連する。
【0051】
【数8】
【0052】図13はメルフィルタバンク69かの対数
出力のエンベロープ、即ち、log|S(f’)|を
示す。この式は2つの成分101と103の加算性を図
式的に示すものである。成分101は声道特性、即ち、
log|V(f)|を表し、成分103は励起特性、即
ち、log|E(f)|を表す。成分101におけるピ
ークは声道のフォルマント周波数において発生し、成分
103における等間隔ピークは話者のピッチの高周波帯
域において発生する。
【0053】声道特性101は、ブロック71から出力
されたサンプルに離散余弦変換(DCT)を実施し、そ
の結果をフィルタリングすることによって励起特性10
3から抽出できる。ただし、DCTを実施する以前に、
ノイズマスキング部73によって動的ノイズマスキング
が実施される。
【0054】[ノイズマスキング]ノイズマスキング部
73は、先ず、メルフィルタバンク69から出力される
最大対数フィルタバンクエネルギーを算定することによ
って各フレームの動的マスキングを実施する。図14は
標本フレームに関する対数フィルタバンクエネルギーを
示す。第1ステップは最大係数を出力する周波数バンク
を決定することに単純に関係する。この例において、こ
れは第2フィルタバンクであり、その値はmelmax
として記憶される。次に、ノイズマスキング部73は、
カレントフレームに関して決定された最大対数フィルタ
バンクエネルギーから、トレーニング音声から経験的に
見付けられる事前画定されたレンジ(me
range)を、減算することによって、最小対数フ
ィルタバンクエネルギーmelminを決定する。即
ち、ノイズマスキング部73は以下のようになる。
【0055】
【数9】 最終的に、ノイズマスキング部73は、melmin
りも小さい任意のメルフィルタバンクエネルギーをme
minに等しくする。この動的ノイズマスキングを行
う理由及びその利点について、図15を参照しながら説
明する。
【0056】図15Aはノイズを殆ど含まない標本フレ
ームの対数メルフィルタバンクエネルギーを示す。図に
示すように、対数メルエネルギーは周波数軸に沿って間
隔を保つ3個のピーク100a、100b、100cを
有する。図15Bはバックグラウンドノイズがハイレベ
ルである場合における、同じフレームに関する対数メル
エネルギーを示す。図に示すように、ハイレベルのノイ
ズがある場合にはピーク100bはノイズによって平滑
化され、出力はピーク100a及び100cのみを有す
る。これら2つの信号を相互にマッチングさせようとし
て両者を比較すれば、両者は同一音声信号を表すにも拘
わらず、図15Bの信号に含まれる追加ノイズのため
に、誤認識が行われることがあり得る。ただし、それぞ
れのフレームのピーク対数フィルタバンクエネルギーに
関してノイズフロアを定義することによってこの種の誤
認識を減少させることが可能である。ノイズフロアに近
い可能性のある(したがって、それによって汚染される
可能性のある)対数フィルタバンクエネルギーのピーク
は、自動的にマスクされて除去され、マッチング処理
中、考慮されないからである。これは図15C及び図1
5Dに示される。これらの図は、それぞれ図15A及び
図15Bに示す対数フィルタバンクエネルギーに本実施
形態の動的ノイズマスキングが実施された状態を示す。
太線プロファイル102及び104によって示すよう
に、ノイズマスキングを施せば、比較的多くのノイズを
含んでいる信号であっても、そうでない信号に一層密接
に対応する。
【0057】ノイズマスキングの概念は新しいものでは
ない。ただし、現在までに提案された方式においては、
一定のマスキングレベルが各フレームへ適用され、ノイ
ズフロアに基づいて算定される。このマスキングは、各
フレームに適用される増幅及びスケーリングが同じであ
る場合、又は、各フレームに対して同一レベルのマスキ
ングが実施されるように各フレームの増幅量及びスケー
リング量がモニタリングされる場合に、実施され得る。
ただし、これは、入力音声の各フレームに異なる利得を
適用する自動利得コントローラ(AGC)を入力に対し
て用いるシステムにおいては実施困難である。AGCに
よって適用される利得が未知だからである。上記したよ
うに各フレームに対して異なるマスキングを実施する本
実施形態の動的ノイズマスキングに関して言えば、各フ
レームへどの程度の利得が適用されたかは一切関係な
い。マスキングレベルがフレームマキシマム(フレーム
中の最大スペクトル)に関連して決定されるからであ
る。
【0058】再び図10を参照することとし、対数フィ
ルタバンクエネルギーがノイズマスキング部73によっ
てマスクされた後で、ブロック75において、離散余弦
変換(DCT)が実施される。本実施形態においては1
6個のメルフィルタバンクエネルギーフレームがあるの
で、本実施形態においては、実際には高速コサイン変換
がDCTブロック75において用いられる。速度の点で
標準DCTよりもいくらか優れているからである。
【0059】図16はケプストラムC(m)として知
られているDCTブロック75の出力を示す。ケプスト
ラムの独立変数(図16のx軸)の次元は時間であり、
「ケフレンシィ(quefrency)」と称する。図
13に示す非常に周期的な成分103は話者のピッチ周
期Tに等価な場所においてケプストラムのピーク105
となる。図13に示す徐々に変化する成分101はケプ
ストラムの原点近くの多数の小さいピーク107に変換
される。ピークの位置と振幅はフォルマントに依存す
る。
【0060】声道特性及び音声の励起特性はケフレンシ
ィスケールの別々の部分に現れるので、それらはフィル
タリング処理又はケプストラム用語において「リフタリ
ング」と呼ばれる処理により相互に分離可能である。図
16に示すケプストラムC(m)は1組の離散ケプス
トラム係数(C、C、..C15)で構成され、し
たがって、簡単な矩形ウィンドウによってリフタリング
を達成することができる。ただし、スペクトルの信頼度
が比較的小さいとみなされる部分をデエンファシスする
ために、更に漸進的な窓掛け機能が好ましい。本実施形
態において、リフタリングブロック77において用いら
れる窓掛け機能を次に示す。
【0061】
【数10】
【0062】本実施形態においては、最初の9個のケプ
ストラム係数が算定される。残りの係数は音声認識性能
に無視出来る程度の影響を及ぼすに過ぎないからであ
る。(ただし、話者認証システムにおいては、ピーク1
03のまわりの係数が用いられる。話者のピッチがその
話者の特性であるからである。) リフタリングブロック77から出力される係数はそれぞ
れ16ビットの2進数によって表される。基準モデル及
び認識処理中における係数の両方を記憶するのに必要な
記憶量を軽減するため、各ケプストラム係数のためのビ
ット数が8に減らされる。これは、各2進数を簡単にス
ケーリングし直すことによって達成される。ただし、本
出願人は、ケプストラム係数が平均値付近にまとまって
所在し、時にはその付近以外にも所在することを確認し
た。即ち、この種のリスケーリングの結果として、ケプ
ストラム係数の大部分はゼロの近辺に集まるはずであ
る。
【0063】したがって、本実施形態においては、非線
形変換が図10に示すビット変換ユニット79によって
実施される。図17は、本実施形態に適用される非線形
変換を示す。特に、X軸は入力16ビット2進値を示
し、Y軸は、曲線111によって表される非線形シグモ
イド関数から得られる対応8ビット値を示す。図17か
ら分かるように、シグモイド関数111は、ゼロのまわ
りの実質的に線形である部分113を有する。これは、
大部分のケプストラム係数が存在する部分に対応する。
したがって、図17に示す非線形シグモイド関数は、極
値から離れた大多数のケプストラム係数にとって有用
な、分解能を効果的に増加させ、同時に、極値がオーバ
ーフローすることを防止する。
【0064】[エネルギー正規化]既にのべた9個のケ
プストラム係数に加えて、各フレーム内の音声信号の平
均エネルギーも各入力フレームに関する認識特徴として
用いられる。エネルギーは重要な特徴である。多くの特
徴の中で、エネルギーは、フレーム中の入力音声信号が
有声音声信号に対応するか否かを示すために使用できる
からである。既に述べたように、各入力フレームのフレ
ームエネルギーはエネルギー計算ユニット76において
算定され、図7に示すバッファ78に記憶される。次
に、可変記録条件によって引き起こされる変動を除去す
るために、バッファ78によって出力されたカレントフ
レームに関するエネルギーは正規化ブロック83によっ
て正規化される。
【0065】図18A及び18Bは、認識精度に影響を
及ぼす可能性のあるエネルギー変動のタイプを示す。特
に、図18A及び18Bは同一語(ワード)の2つの発
声におけるエネルギーレベルを概略的に図示する。図1
8Aに示す第1の発声121は、低いバックグラウンド
ノイズ状態における大きい発声であり、図18Bに示す
第2の発声123は、バックグラウンドノイズが更に多
い状態におけるより静かな発声である。エネルギー計算
ユニット76によって各発声に関して算定されたエネル
ギーを認識特徴として単純に用いることにより、2つの
発声の間の重大なミスマッチが示される。両方の発声に
おけるピークエネルギーが同じであるように正規化する
と、大きい発声部分のミスマッチは除去されるが、静か
な発声部分の間のミスマッチを増加させることになる。
この問題を克服するために、本実施形態においては、エ
ネルギーマスキングステップ(上記のノイズマスキング
技術と同様)を実施し、それによって、最大値より小さ
い固定値よりも大きい全てのエネルギー値を最大値より
も小さい前記の値で置き換える。これを図18Cに示
す。即ち、図18Cは、最大正規化後における図18A
及び18Bに示す発声121及び123の両エネルギー
レベルを示し、更に、トレーニングデータから経験的に
選定され、事前に設定された一定のマスキング深度12
7を用いてエネルギーマスキングを施した後に結果とし
て得られるエネルギーレベル125を示す。
【0066】この技術を用いる場合の一問題は、全発声
の受取りが完了するまで各発声に関する最大エネルギー
が未知であることである。これは、入力音声が増分的に
処理される場合、即ち、入力音声が、受け取られるにつ
れて、待ち状態に置かれることなしに、当該発声が終わ
るまで、処理される場合に問題となる。ただし、一般に
発声内の最大エネルギーは音声の開始から2つ、3つの
フレーム内に存在するので、この問題は克服可能であ
る。したがって、既に述べた音声検出アルゴリズムは、
音声が実際に開始してから幾らか時間が経過した後で当
該音声の開始を確認するため、エネルギー正規化が最初
に必要とされる段階において最大エネルギーが現れる可
能性が大きい。最大エネルギーを推測するための次の方
法は満足のゆくものであることが立証される。
【0067】i)音声の開始が確認され、認識探索が始
まる時まで、エネルギーの正規化を遅延させる。
【0068】ii)最大エネルギーのマスキング深さ1
27が少なくとも無音エネルギーより大きいと仮定す
る。
【0069】iii)現時点までの全ての音声フレーム
の最大値を算定する。
【0070】iv)(iii)において識別された最大
エネルギーのなかの更に大きい方の値、及び、無音エネ
ルギーにマスキング深さを加えた値を用いて最大正規化
を実施する。ただし、増分処理においては、3個のフレ
ームの処理を遅延させる。
【0071】前述のエネルギー正規化が各フレームエネ
ルギーに実施された後で、認識スコアへのエネルギー貢
献度に適宜重み付けする、経験的に選定した係数によっ
て、エネルギー項がリスケールされる。
【0072】要約すれば、プリプロセッサ15は入力信
号を連続的に監視し、音声開始を識別すると、特徴抽出
ルーチンを開始し、入力音声の各フレームに関して9個
のケプストラム係数と1個のエネルギー係数を抽出す
る。次に、プリプロセッサによって出力された係数ベク
トル又は特徴ベクトルは記憶されている基準モデルと比
較される。基準モデルは当該システム及び当該システム
を囲む音素環境にとって既知である語(ワード)をモデ
ル化する。特定の語(ワード)と関連する各モデルは、
記述のプリプロセッサによって出力された同じタイプの
一連の特徴ベクトルを含む。
【0073】[トレーニング]上述のワードモデルを生
成する方法について簡単に記述する。更に詳細な記述に
関しては、本出願人によって既に出願済みの記述欧州出
願EP0789349を参照されたい。
【0074】本トレーニングの目的は、本システムによ
って使用される各語(ワード)の代表的モデルを生成す
ることにある。トレーニングプロセスへの入力は当該ワ
ードに関する複数のトレーニング事例(example)であ
る。各事例は、上記特徴抽出部によって抽出された一連
の特徴ベクトルによって表される。トレーニング処理は
僅かに2つのトレーニング事例から1つのワードモデル
を生成することができる。尤も、3つの事例を用いると
僅かに一層適確なワードモデルが生成される。これ以上
のトレーニング事例を用いても殆ど改良されることはな
い。
【0075】トレーニングアルゴリズムは、第1ワード
モデルを生成するための入力として先ず2つの事例を用
いる。当該ワードをトレーニングするために2つより多
い事例を用いる場合には、第1モデルから第2のワード
モデルと更に1つのトレーニング事例が生成される。必
要とされる個数の事例の使用が終了するまで反復が継続
される。最終的に生成されたワードモデルは、当該ワー
ドの代表モデルとして記憶される。いずれにせよ、トレ
ーニングアルゴリズムのコア部分はただ2つの事例から
1つのワードモデルを生成するように動作する。
【0076】トレーニングにおける第1ステップは、2
つの例に関する特徴ベクトルの2つのシーケンスを配置
構成することである。この配置構成処理は、フレキシブ
ルプログラミング配置構成処理を用いて実施される。こ
の処理には、ワード間の最適配置パスが開始されるべき
場所及び終るべき場所は含まれない。このフレキシブル
動的配置構成処理については、さきの本出願人による欧
州出願に詳細に記述されているので、ここでは再度述べ
ない。
【0077】図19Aは2つのトレーニング事例151
と153の間のこの種フレキシブル動的プログラミング
配置構成処理を示す。図19Aに示すように、トレーニ
ング事例151は、無音またはバックグラウンドノイズ
に対応する部分151a及び151cと、音声に対応す
る部分151bを有する。同様に、第2のトレーニング
事例153も、無音またはバックグラウンドノイズに対
応する、その開始点と終端の部分153a及び153c
と、音声に対応する部分153bを有する。配置構成処
理は、各トレーニング事例151及び153の開始点及
び終端におけるノイズフレームを、無音またはノイズモ
デル155にマッチングさせ、音声部分151b及び1
53bを、相互に配置させる。次に、相互に配置構成さ
れる部分151b及び153b内のフレームを平均する
ことによって、当該音声に関するワードモデルが生成さ
れる。ただし、前述の処理は、特にトレーニング事例が
一貫して行われていない場合に、ワードモデルにエラー
を生じさせることがあり得る。本実施形態においては、
一貫性のあるトレーニング事例のみを用いてワードモデ
ルを生成することを保証するために一貫性チェックが実
施される。
【0078】[一貫性検査]本実施形態において実施さ
れる一貫性チェックは多数の理由に起因して発生する可
能性のある事例間の矛盾を見付けるように設計されてい
る。例えば、ユーザがトレーニング事例を入力する場
合、トレーニング事例の開始に際してユーザがマイクロ
ホン内に偶然深く息を吹き込むことがあり得る。発声の
開始時における大きい振動155として、この可能性を
図19Bに示す。その代りに、ユーザが単に間違ったワ
ードを入力することもあり得る。これは、信号151と
信号153の音声部分において音声部分159が明らか
に異なる現象として図19Cに示される。別の可能性と
して、ユーザがトレーニングワードの一部分だけを入力
するか、或いは、なんらかの理由によって、ワードの一
部を遮断することもあり得る。これは図19Dに示され
る。即ち、トレーニングワードの第1の部分161は入
力されるが、第2の部分は入力されない。最後に、トレ
ーニング事例の入力中に、バックグラウンドノイズが大
幅に増加してトレーニング事例を汚染することもあり得
る。これを図19Eに示す。即ち、トレーニングワード
の中央において現れたバックグラウンドノイズ163の
一部が示される。
【0079】本実施形態は、2つのトレーニング事例が
一貫して行われているか、そして、そうである場合に
は、トレーニング中のワードに関するモデルを生成する
ために両事例が使用されるか、についてチェックする。
両事例に一貫性がない場合には、次の規則が適用され
る。
【0080】i)一方の事例が既にワードモデルである
場合(2つ又はそれ以上の以前のトレーニング事例によ
って形成された)には、もう一方の事例は廃棄され、余
分な一事例が必要とされる。
【0081】ii)双方の事例が特徴抽出部から直接抽
出された場合には、双方の事例が記憶されるが、モデル
生成は実施されない。システムは他の一事例を必要とす
る。第3の事例が、記憶されている事例の一方と一貫性
をもつ場合には、この一貫性のある一対の事例がワード
モデルを生成するために用いられ、もう一方の事例は廃
棄される。
【0082】iii)第3の事例が、記憶されている事
例のどちらとも一貫性をもたない場合には、第1事例が
廃棄され、第2と第3事例が、第1と第2事例としてラ
ベリングし直される。次に、システムは別の事例を待
つ。
【0083】トレーニングされた各ワードから見付けら
れた矛盾の件数の総計が求められる。矛盾件数が一定の
最高値を越えた場合には、それ以上の矛盾チェックは一
切行われない。これは、システムが無限ループに固着す
ることを防止する。
【0084】本実施形態において用いられる一貫性テス
トについて次に述べる。先ず、システムは、相互に配置
構成された2つのトレーニング事例内のフレームに関す
る平均フレームスコア(f)を決定する。ただし、無音
部分からのスコアは含まないものとする。これは、配置
構成されたフレームに関する動的プログラミングスコア
を配置構成されたフレーム数で除算することによって算
定される。次に、システムは、配置構成された音声部分
内の連続する10個の最悪マッチングフレーム(w)の
スコアを決定する。次に、これらの値は、一貫性のある
発声内においてこれら2つの値(f及びw)がどのよう
に変化するかをモデル化するモデルと比較され、カレン
トトレーニング事例に関するこれらの値がモデルと一致
する場合には、2つのトレーニング事例は一貫性をもつ
ものとみなされる。
【0085】一貫性をもつことが知られているトレーニ
ング事例の大きい集合に関するこれらの2つの値(f及
びw)の統計資料を考察することによって、使用するモ
デルが決定される。モデルは単純にこれら2つの値の平
均値であっても差し支えない。ただし、本実施形態にお
いては、一貫性のある事例に含まれるこれら2つの値の
間の変動値の平均及び相関性をモデル化するために二変
量ガウスモデルが用いられる。次に、それらのトレーニ
ング配置構成に関する統計値(即ちf及びw)がこの二
変量ガウスモデルの95%確率範囲内に所在するか、或
いは、2つのトレーニング事例に関するf及びwが両方
とも、当該モデルによって画定されたf及びwに関する
予測値未満である場合には、2つのトレーニング発声は
一貫性をもつものとみなされる。
【0086】1対のトレーニング事例が一貫性をもつと
みなされた後で、これらのトレーニング事例に関する統
計値(f及びw)が一貫性のある発声に関して記憶され
ているモデルを更新するために使用される。これは最尤
推定技術を用いて行われる。
【0087】本システムがトレーニングされた後で、認
識結果を提供するために、本音声認識システムはユーザ
からの入力発声を記憶されているワードモデルと比較す
ることが出来る。この種の音声認識結果が提供され得る
方法については、既に述べた本出願人の欧州出願に記述
済みであるので、ここでは改めて記述しない。
【0088】当該技術分野における当業者は、上記の音
声処理及び一貫性チェックが音声認識システムの文脈に
おいて記述されたものであり、それらは、例えば話者認
証システムのような他の音声処理システムにおいても同
等に適用可能であることを理解するはずである。
【図面の簡単な説明】
【図1】本発明の実施形態を操作するようにプログラミ
ング可能なコンピュータの概略構成図である。
【図2】音声認識システムの概略構成図である。
【図3】図2に示すシステムの一部として組み込まれた
プリプロセッサであって、入力音声信号に適用される処
理ステップの幾つかを示すブロック図である。
【図4】一連のタイムフレームへの入力音声信号S
(t)の分割をグラフに表した図である。
【図5】単一タイムフレームに関する典型的な一音声信
号をグラフに表した図である。
【図6A】入力信号内の音声開始と音声終端とにおける
平均エネルギーの変化を示すため、入力音声信号の平均
フレームエネルギーをプロットした図である。
【図6B】4Hzのまわりに集中した周波数帯域内にお
ける図6Aのエネルギー信号の変調パワーをプロットし
た図である。
【図7】図3に示す終端検出部について更に詳細に示す
ブロック図である。
【図8A】図7に示す制御ユニットによる処理ステップ
の一部を示すフローチャートである。
【図8B】図7に示す制御ユニットによる処理ステップ
の図8Aの続きを示すフローチャートである。
【図9】低周波変動及び直流変動を除去するためにフィ
ルタリングした後における図6Aに示す平均エネルギー
をプロットした図である。
【図10】図3に示す特徴抽出部による処理について更
に詳細に示すブロック図である。
【図11】図5に示す音声信号の離散フーリエ変換の振
幅レスポンスをグラフに表した図である。
【図12】メルスケールフィルタバンクの平均された振
幅レスポンス出力をグラフに表した図である。
【図13】メルスケールフィルタバンクから出力される
対数振幅スペクトルをグラフに表した図である。
【図14】入力フレーム内エネルギーがメル周波数バン
ク全体に亙って拡散される方法をグラフに表した図であ
る。
【図15A】バックグラウンドノイズが殆ど無い場合に
おいて、サンプルワードに関するメルスケールフィルタ
バンクからの出力の対数振幅スペクトルをプロットした
図である。
【図15B】高レベルのバックグラウンドノイズが存在
する場合において、図15Aと同じワードに関するメル
スケールフィルタバンクからの出力の対数振幅スペクト
ルをプロットした図である。
【図15C】メルスケールフィルタバンクからの出力
に、ノイズマスキングレベルが適用される場合における
図15Aのプロットを示す図である。
【図15D】メルスケールフィルタバンクからの出力
に、図15Cと同じノイズマスキングが実施される場合
における図15Bのプロットを示す図である。
【図16】図13に示す対数振幅スペクトルのケプスト
ラムをグラフに表した図である。
【図17】ケプストラム係数の表現に使用するビット数
を減らすため、ケプストラム係数の2値表現のスケーリ
ングに用いられる非線形変換をプロットした図である。
【図18A】バックグラウンドノイズが殆ど無いサンプ
ルワードの発声中においてエネルギーレベルが変化する
様子をグラフに表した図である。
【図18B】発声が一層静かであり、一層多くのバック
グラウンドノイズが存在する場合に、図18Aと同じサ
ンプルワードの発声中においてエネルギーレベルが変化
する様子をグラフに表した図である。
【図18C】エネルギー正規化及びエネルギーマスキン
グ後における図18A及び18Bのエネルギーレベルを
グラフに表した図である。
【図19A】ワードモデルを生成するために用いられる
図18Aと同じサンプルワードについての2つの発声を
グラフに表した図である。
【図19B】ユーザによるマイクロホンへの息吹き込み
に起因して発声開始点において大きく振動するトレーニ
ング例の発声をグラフに表した図である。
【図19C】図19Aのトレーニングワードと異なる1
つのトレーニングワードの発声をグラフに表した図であ
る。
【図19D】その一部が削除されたトレーニングワード
の発声をグラフに表した図である。
【図19E】その音声部分に多量のノイズを含むトレー
ニングワードの発声をグラフに表した図である。
【符号の説明】
15 プリプロセッサ 17 認識ブロック 19 ワードモデル 21 言語モデル 23 ノイズモデル 66 循環円バッファ 68 終端検出部 70 特徴抽出部 82 変調パワー計算ユニット 84 しきい値 86 制御ユニット 94 最尤終端計算ユニット

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号を受信する受信手段と、 受信した音声信号を複数の連続するタイムフレームに分
    割する分割手段と、 前記タイムフレームそれぞれの中で周波数に対するエネ
    ルギーの分布を決定するエネルギー分布決定手段と、 (i)カレントタイムフレーム内の最大エネルギーレベ
    ルを決定し、(ii)決定された前記最高エネルギーレ
    ベルから所定のエネルギーレベルを減じることにより、
    前記カレントタイムフレームに関するマスキングレベル
    を決定し、(iii)前記マスキングレベルより低いあ
    らゆるエネルギー成分を前記マスキングレベルに等しく
    することによって各フレームエネルギー分布を処理する
    エネルギー分布処理手段と、 を有することを特徴とする音声処理装置。
  2. 【請求項2】前記エネルギー分布決定手段は、 各タイムフレーム内の信号のフーリエ変換を実施するフ
    ーリエ変換手段を含むことを特徴とする請求項1に記載
    の音声処理装置。
  3. 【請求項3】複数の離散周波数帯域内のエネルギーを平
    均する手段を有し、 前記エネルギー分布処理手段は、最高出力信号レベルで
    前記周波数帯域を識別することにより、前記最大エネル
    ギーレベルを決定するように動作可能であることを特徴
    とする請求項1又は2に記載の音声処理装置。
  4. 【請求項4】前記周波数帯域が相互に対数的に間隔を保
    つことを特徴とする請求項3に記載の音声処理装置。
  5. 【請求項5】前記周波数帯域の各々から出力された信号
    の対数化を実施する対数化手段を有し、 前記エネルギー分布処理手段は、前記対数化手段によっ
    て出力された信号を処理するように動作可能であること
    を特徴とする請求項3又は4に記載の音声処理装置。
  6. 【請求項6】入力音声信号を受信する受信ステップと、 受信した音声信号を多数の連続したタイムフレームに分
    割する分割ステップと、 前記各々のタイムフレーム内の周波数をもつエネルギー
    分布を決定するエネルギー分布決定ステップと、 (i)カレントタイムフレーム内の最大エネルギーレベ
    ルを決定し、(ii)前記の決定済み最高エネルギーレ
    ベルから所定のエネルギーレベルを減じることによって
    カレントタイムフレームに関するマスキングレベルを決
    定し、(iii)前記マスキングレベルより低いあらゆ
    るエネルギー成分を前記マスキングレベルに等しくする
    ことによって各フレームエネルギー分布を処理するエネ
    ルギー分布処理ステップとを含むことを特徴とする音声
    処理方法。
  7. 【請求項7】前記エネルギー分布決定ステップは、各タ
    イムフレーム内の信号のフーリエ変換を実施することを
    特徴とする請求項6に記載の音声処理方法。
  8. 【請求項8】複数の離散周波数帯域内のエネルギーを平
    均するステップを有し、 前記エネルギー分布処理ステップが最高出力信号レベル
    をもつ前記周波数帯域を識別することによって前記最大
    エネルギーレベルを決定することを特徴とする請求項6
    に記載の音声処理方法。
  9. 【請求項9】前記周波数帯域が相互に対数的に間隔を保
    つことを特徴とする請求項8に記載の音声処理方法。
  10. 【請求項10】前記周波数帯域の各々から出力された信
    号の対数化を実施するステップを有し、 前記処理ステップが前記対数化ステップによって出力さ
    れた信号を処理することを特徴とする請求項8に記載の
    音声処理方法。
  11. 【請求項11】請求項6乃至10のいずれかに記載の方
    法を実行するようにプロセッサを制御するためのプロセ
    ッサ実行可能命令を記憶する記憶媒体。
  12. 【請求項12】音声処理方法を実行するようにプロセッ
    サを制御するコンピュータ実行可能処理ステップを記憶
    するコンピュータ可読媒体であって、前記処理ステップ
    において、 入力音声信号を受信する受信ステップと、 受信した音声信号を多数の連続したタイムフレームに分
    割する分割ステップと、 前記各々のタイムフレーム内の周波数をもつエネルギー
    分布を決定するエネルギー分布決定ステップと、 (i)カレントタイムフレーム内の最大エネルギーレベ
    ルを決定し、(ii)前記の決定済み最高エネルギーレ
    ベルから所定のエネルギーレベルを減じることによって
    カレントタイムフレームに関するマスキングレベルを決
    定し、(iii)前記マスキングレベルより低いあらゆ
    るエネルギー成分を前記マスキングレベルに等しくする
    ことによって各フレームエネルギー分布を処理するエネ
    ルギー分布処理ステップと、 を含むことを特徴とするコンピュータ可読媒体。
  13. 【請求項13】前記エネルギー分布決定ステップは各タ
    イムフレーム内信号のフーリエ変換を実施することを特
    徴とする請求項12に記載のコンピュータ可読媒体。
  14. 【請求項14】複数の離散周波数帯域内のエネルギーを
    平均するステップを含み、 前記エネルギー分布処理ステップは、前記最高出力信号
    レベルをもつ前記周波数帯域を識別することによって前
    記最大エネルギーレベルを決定することを特徴とする請
    求項12又は13に記載のコンピュータ可読媒体。
  15. 【請求項15】前記周波数帯域が相互に対数的に間隔を
    保つことを特徴とする請求項14に記載のコンピュータ
    可読媒体。
  16. 【請求項16】更に、前記周波数帯域の各々から出力さ
    れる信号の対数化を実施するステップを含み、前記エネ
    ルギー分布処理ステップが前記対数化ステップによって
    出力された信号を処理することを特徴とする請求項14
    又は15に記載のコンピュータ可読媒体。
JP11298766A 1998-10-20 1999-10-20 音声処理装置及び方法 Withdrawn JP2000132181A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9822930.5 1998-10-20
GBGB9822930.5A GB9822930D0 (en) 1998-10-20 1998-10-20 Speech processing apparatus and method

Publications (1)

Publication Number Publication Date
JP2000132181A true JP2000132181A (ja) 2000-05-12

Family

ID=10840934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11298766A Withdrawn JP2000132181A (ja) 1998-10-20 1999-10-20 音声処理装置及び方法

Country Status (5)

Country Link
US (1) US6411925B1 (ja)
EP (1) EP0996111B1 (ja)
JP (1) JP2000132181A (ja)
DE (1) DE69918635T2 (ja)
GB (1) GB9822930D0 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296110A (ja) * 2008-06-03 2009-12-17 Chiba Inst Of Technology 音像定位フィルタ及びこれを用いた音響信号処理装置並びに音響信号処理方法
JP2016164628A (ja) * 2015-03-06 2016-09-08 ブラザー工業株式会社 音読評価装置、音読評価方法、及びプログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
SE521465C2 (sv) 1999-06-07 2003-11-04 Ericsson Telefon Ab L M Mobiltelefon med taligenkänningssystem innehållande en beräkningsenhet för spektralavstånd.
DE69932861T2 (de) * 1999-10-30 2007-03-15 Stmicroelectronics Asia Pacific Pte Ltd. Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
GB0003903D0 (en) * 2000-02-18 2000-04-05 Canon Kk Improved speech recognition accuracy in a multimodal input system
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20020120446A1 (en) * 2001-02-23 2002-08-29 Motorola, Inc. Detection of inconsistent training data in a voice recognition system
WO2002073600A1 (en) * 2001-03-14 2002-09-19 International Business Machines Corporation Method and processor system for processing of an audio signal
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2007041789A1 (en) * 2005-10-11 2007-04-19 National Ict Australia Limited Front-end processing of speech signals
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US8942975B2 (en) * 2010-11-10 2015-01-27 Broadcom Corporation Noise suppression in a Mel-filtered spectral domain
CN103594103B (zh) * 2013-11-15 2017-04-05 腾讯科技(成都)有限公司 音频处理方法及相关装置
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
JP2018072723A (ja) * 2016-11-02 2018-05-10 ヤマハ株式会社 音響処理方法および音響処理装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US4918732A (en) 1986-01-06 1990-04-17 Motorola, Inc. Frame comparison method for word recognition in high noise environments
US4805193A (en) * 1987-06-04 1989-02-14 Motorola, Inc. Protection of energy information in sub-band coding
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296110A (ja) * 2008-06-03 2009-12-17 Chiba Inst Of Technology 音像定位フィルタ及びこれを用いた音響信号処理装置並びに音響信号処理方法
JP2016164628A (ja) * 2015-03-06 2016-09-08 ブラザー工業株式会社 音読評価装置、音読評価方法、及びプログラム

Also Published As

Publication number Publication date
EP0996111A3 (en) 2001-01-17
GB9822930D0 (en) 1998-12-16
EP0996111B1 (en) 2004-07-14
DE69918635D1 (de) 2004-08-19
US6411925B1 (en) 2002-06-25
EP0996111A2 (en) 2000-04-26
DE69918635T2 (de) 2005-07-14

Similar Documents

Publication Publication Date Title
JP4484283B2 (ja) 音声処理装置及び方法
JP2000132181A (ja) 音声処理装置及び方法
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
US7542900B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH08506427A (ja) 雑音減少
WO2003041052A1 (en) Improve speech recognition by dynamical noise model adaptation
JP2000122688A (ja) 音声処理装置及び方法
US5732388A (en) Feature extraction method for a speech signal
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP0459384A1 (en) Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal
US20040064315A1 (en) Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP4301896B2 (ja) 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
JPH08160994A (ja) 雑音抑圧装置
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
JP2007093635A (ja) 既知雑音除去装置
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
JPH0844390A (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070109