JP2000132177A

JP2000132177A - 音声処理装置及び方法

Info

Publication number: JP2000132177A
Application number: JP11298768A
Authority: JP
Inventors: David Rees; リースデイビッド
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-10-20
Filing date: 1999-10-20
Publication date: 2000-05-12
Anticipated expiration: 2019-10-20
Also published as: EP0996110A1; DE69926851D1; EP0996110B1; US20030055639A1; JP4484283B2; US6711536B2; US20040158465A1; DE69926851T2

Abstract

(57)【要約】【課題】入力信号内において的確に効果的に音声を検出
すること。【解決手段】入力音声信号内における音声の存在を検出
するために装置が提供される。入力音声信号の平均フレ
ームエネルギーをサンプリングされた信号として扱い、
サンプリングされた信号内において音声の特性を示す変
調を捜すことによって音声が検出される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声処理装置及び方
法に関する。本発明は、特に、入力信号内の音声の検出
に関するが、これに限定されるものではない。

【０００２】

【従来の技術】例えば音声認識システム、話者認証シス
テム、及び、音声伝送システムのような幾つかの適用例
において、ユーザの音声を対応する電気信号に変換する
ために用いられるマイクロホンは連続的にスイッチを入
れた状態に保たれる。したがって、ユーザが話していな
い場合であっても、無音またはバックグラウンドノイズ
に対応してマイクロホンから絶えず出力信号が発生して
いる。したがって、この種のシステムにおいては、
（ｉ）このバックグラウンドノイズの不必要な処理を防
止し、（ｉｉ）そのノイズに起因する間違った認識を防
止し、（ｉｉｉ）全体的な性能を向上させるために、マ
イクロホンからの信号を連続的に監視し、入力信号内に
音声が識別された場合に限り主音声処理をアクティブに
する音声検出回路を使用する。

【０００３】信号エネルギーは、無音期間中は小さい
が、通話中は大きいので、従来技術による殆どのデバイ
スは、入力信号内のエネルギーを監視することによって
音声の開始と終端を検出する。特に、従来のシステムに
おいては、平均エネルギーをしきい値と比較し、平均エ
ネルギーがそのしきい値を越えるのを待ち、越えたとき
に音声開始を示すものとして、音声が検出される。この
技法によって音声の開始及び終端（いわゆる終端点）を
適確に決定するためには、しきい値をノイズフロアに近
い値に設定しなければならない。このシステムは、ノイ
ズレベルが低く、かつ一定である環境においては良好に
動作する。しかし、ノイズレベルが高く、時間的にかな
り変動するような多くの環境においては、このシステム
は適当ではない。この種の環境の例には、車内、道路
脇、混雑した公共的場所が含まれる。これらの環境にお
いては、ノイズが音声の比較的静かな部分をマスキング
し、ノイズレベルが変化することによって、ノイズが音
声として検出され得る。

【０００４】

【発明が解決しようとする課題】本発明の一目的は入力
信号内において的確に音声を検出するシステムを提供す
ることにある。

【０００５】

【課題を解決するための手段】本発明は、その一態様に
よれば、次に示す手段を有する音声認識装置を提供す
る、即ち、入力信号を受信する手段と受信した信号内の
局部的エネルギーを決定する手段とフィルタリングされ
たエネルギー信号を用いて入力信号内における音声の存
在を検出する手段とを有する。ノイズレベルが高い環境
であっても音声の存在を一層的確に検出できることがこ
の装置の利点である。音声に起因するエネルギー変動に
較べてノイズレベルの変化は一般に比較的遅い（１Ｈｚ
未満）ことにより、着目したものである。

【０００６】本発明は、他の態様によれば、入力音声信
号における音声を含む部分とバックグラウンドノイズを
含む部分との間の境界の位置を決定する装置を提供す
る、即ち、入力信号を受信する手段とエネルギー信号を
生成するために受信信号を処理する手段とエネルギー信
号内における複数の可能なロケーションの各々に境界が
位置する尤度を決定する手段と前記の可能なロケーショ
ンの各々に関して決定された前記尤度を用いて境界の所
在ロケーションを決定する手段とを有する。

【０００７】

【発明の実施の形態】本発明の実施形態はコンピュータ
ハードウェアにおいて実行可能であるが、ここで記述す
る実施形態は、例えばパーソナルコンピュータ、ワーク
ステーション、写真式複写機、ファクシミリマシン等の
処理ハードウェアと共に動作するソフトウェアにおいて
実行される。

【０００８】図１は本発明の実施形態を操作するように
プログラミング可能なパーソナルコンピュータ（ＰＣ）
１を示す。キーボード３、ポインティングデバイス５、
マイクロホン７、及び、電話線９はインタフェース１１
を介してＰＣ１に接続される。キーボード３及びポイン
ティングデバイス５はユーザによるシステム制御を可能
にする。マイクロホン７はユーザの音波音声信号を等価
電気信号に変換し、これを処理するためにＰＣ１に供給
する。内部モデム及び音声受信回路（不図示）は、ＰＣ
１が、例えば、遠隔コンピュータ或いは遠隔ユーザと通
信できるように、電話線９に接続することも可能であ
る。

【０００９】本発明にしたがってＰＣ１を動作させるプ
ログラム命令は、既存のＰＣ１において使用するため
に、例えば磁気ディスク１３のような記憶デバイスに、
または、内部モデム及び電話線９を介してインターネッ
ト（不図示）からソフトウェアをダウンロードすること
によって供給することが出来る。

【００１０】本実施形態の音声認識システムの動作につ
いて、図２を参照しながら、簡単に述べることとする。
本音声認識システムに関するより詳細な記述は、本出願
人の欧州特許出願ＥＰ０，７８９，３４９に既に記載さ
れており、参考として、その内容をここに記す。例え
ば、マイクロホン７からの入力音声を表す電気信号はプ
リプロセッサ１５に供給される。このプリプロセッサは
入力音声信号を一連のパラメータフレーム（a sequence
of parameter frames）に変換する。その各パラメータ
フレームは、入力音声信号の、対応タイムフレームを表
す。その一連のパラメータフレームはバッファ１６を介
して認識ブロック１７に供給され、パラメータフレーム
の入力シーケンスを基準モデル又はワードモデル１９と
比較することにより、音声が識別される。前記の各モデ
ルは、認識されるべき入力音声のパラメータと同じ種類
のパラメータで表現されたパラメータフレームのシーケ
ンスを有する。

【００１１】言語モデル２１及びノイズモデル２３は、
認識処理を援助するために、同様に入力として認識ブロ
ック１７へ供給される。ノイズモデルは無音またはバッ
クグラウンドノイズを表し、本実施形態においては、認
識されるべき入力音声信号のパラメータと同じタイプの
単一パラメータフレームをも含む。言語モデル２１は、
認識ブロック１７から出力されうるワードシーケンス
を、システムにおいて既知のワード列に一致させるため
に用いられる。次に、認識ブロック１７から出力される
ワードシーケンスは、例えばワードプロセッシングパッ
ケージにおいて使用するために転記可能であり、又は、
ＰＣ１の動作を開始、停止、或いは、修正するためのオ
ペレータコマンドとして使用することもできる。

【００１２】上記ブロックについて、以下に更に詳細に
説明する。

【００１３】［プリプロセッサ］図３から１７までを参
照してプリプロセッサについて説明する。

【００１４】プリプロセッサ１５の機能は必要な情報を
音声から抽出し、処理するべきデータ量を減じることで
ある。入力信号から抽出できる情報には多くの異なるタ
イプがある。本実施形態において、プリプロセッサ１５
は「フォルマント」関連情報を抽出するよう設計されて
いる。フォルマントとはユーザの声道の共振周波数であ
ると定義され、声道の形状が変わると変化する。

【００１５】図３は、入力音声信号に対して実施され
る、いくつかの前処理を示すブロック図である。マイク
ロホン７または電話線９からの入力音声Ｓ（ｔ）はフィ
ルタブロック６１に供給され、このブロックは入力音声
信号内の殆ど無意味な情報を含む周波数を除去する。音
声認識のために有用な情報の大部分は３００Ｈｚから４
ＫＨｚまでの間の周波数帯域に含まれる。したがって、
フィルタブロック６１は、この周波数帯域外の全ての周
波数を除去する。音声認識に有用な情報がフィルタブロ
ック６１によってフィルタリングされることはないの
で、認識性能の損失はない。更に、例えば自動車内のよ
うな環境においては、バックグラウンドノイズの大部分
は３００Ｈｚ以下であり、したがって、フィルタブロッ
ク６１により、ＳＮ比を約１０ｄＢ、或いはそれ以上、
効果的に増加することができる。フィルタリングされた
音声信号は、次に、ＡＤＣ（アナログ／デジタルコンバ
ータ）６３によって、１６ビットデジタルサンプルに変
換される。ナイキストサンプリング基準に加えて、ＡＤ
Ｃ６３は毎秒８０００のレートでフィルタリング信号を
サンプリングする。本実施形態において、全入力音声発
声はデジタルサンプルに変換され、続けて行なわれる音
声信号処理に先立ってバッファ（不図示）に記憶され
る。

【００１６】入力音声がサンプリングされた後、ブロッ
ク６５において重複なし等長フレームに分割される。こ
のように入力音声をフレームへ分割する理由について、
ここで更に詳細に述べる。既に述べたように、音声が連
続している間、フォルマント関連情報は連続的に変化す
るが、この場合の変化率は、生理学的拘束条件によって
制限される音声調音器官の動きの度合に直接関係する。
したがって、フォルマント周波数を追跡するためには、
音声信号は短い期間またはフレームについて分析しなけ
ればならず、この方法は、音声分析の技術分野において
は音声の「短時間」分析として知られている。短時間分
析を実施する場合、次に示す２つの項目について考慮し
なければならない。即ち、（ｉ）どの程度のレートで音
声信号からタイムフレームを抽出するべきか、及び、
（ｉｉ）どの程度の大きさのタイムフレームを使用する
べきかということである。

【００１７】第１の考慮項目は音声調音器官の動きの度
合に依存する。即ち、重要な事象が失われないことを保
証し、かつ妥当な連続性のあることを保証するために充
分な程度にフレームが接近していなければならない。第
２の考慮項目は、フレーム期間中は音声信号の特性が一
定である程度にタイムフレームが十分に短いこと、そし
て、フォルマントが識別できる程度に充分な周波数分解
能を与えるだけのフレーム長さを有すること、の両方を
考慮して決定される。

【００１８】本実施形態においては必要計算量を減らす
ために、フロントエンド処理及びその後の認識段階の両
方において、１２８サンプルの重複なしフレーム（音声
の１６ミリセカンドに対応する）が、従来の窓掛け処理
することなしに音声から直接抽出される。図４及び５
は、それぞれ、入力信号Ｓ（ｔ）の一部分及び信号の重
複なしフレームへの分割、及び、これらのフレームＳ^ｋ
（ｒ）の１つを示す。従来の方式においては、通常、音
声信号からフレームを抽出することに起因する周波数歪
みを軽減する窓掛け機能を用いて重複フレームが抽出さ
れる。しかし、本出願人によれば、重複なしフレームを
使用する場合、これらの従来型窓掛け機能は認識性能を
向上させず、むしろ悪化させることが分かっている。

【００１９】次に、ブロック６５によって出力された音
声フレームＳ^ｋ（ｒ）は音声の約１秒に対応する６２フ
レームを記憶できる循環バッファ６６に書き込まれる。
循環バッファ６６に書込まれたフレームは、入力信号内
の音声がいつ始まり、開始後いつ終るかを識別するた
め、終端検出部６８に送られる。循環バッファ内のフレ
ームは、入力信号内で音声が検出されるまで、集中的に
計算を行なう特徴抽出部７０には供給されない。ただ
し、終端検出部６８が入力信号内における音声の開始を
検出すると、終端検出部は、音声の開始点以降に受け取
ったフレームの特徴抽出部７０への送信を開始すること
を、循環バッファに合図し、次に特徴抽出部は当該フレ
ーム内の音声信号を表現する、各フレームに関する１組
のパラメータを抽出する。

【００２０】［音声検出］図６から図９までを参照し、
本実施形態における終端検出部６８の動作について述べ
る。本実施形態においては、入力信号の平均フレームエ
ネルギーをサンプリング信号として扱い、音声を特徴づ
ける変調（modulation）をそのサンプリング信号内で捜
すことによって音声が検出される。特に、音声によるエ
ネルギーは４Ｈｚ周辺の周波数において強く変調され、
１Ｈｚよりも低いか又は１０Ｈｚよりも高い周波数にお
いては殆ど変調されない。これとは対照的に、ノイズレ
ベルの変化は、一般に１Ｈｚ未満において信号エネルギ
ーを変調する際に比較的ゆっくり発生する傾向がある。
更に、ノイズエネルギーの不規則な変動はフレーム毎の
相互関係を持たず、０Ｈｚからフレームレートの半分ま
での変調周波数範囲全体に亙って散在する。したがっ
て、本実施形態における終端検出部６８は、２Ｈｚから
６Ｈｚまでの間の周波数帯域において平均フレームエネ
ルギーを帯域フィルタリングし、この周波数帯域内の変
調パワーを算定し、算定した変調パワーへ検出しきい値
を適用することによって音声の存在を検出するように構
成されている。

【００２１】図６Ａは一例としての入力信号における平
均フレームエネルギーを示すプロットである。入力信号
は、バックグラウンドノイズに対応し、かつ部分７４を
拘束するバックグラウンドノイズ部７２ａと７２ｂを含
む。図６Ａに示すように、バックグラウンドノイズ部に
おける平均エネルギーは時間によってはあまり上下しな
い。対照的に、部分７４を含む音声においては、平均フ
レームエネルギーは時間によってかなり大きく変動し、
平均値は比較的大きい。

【００２２】上記したように、従来の技術における終端
検出部は、音声開始点（ＳＯＳ）と音声終端（ＥＯＳ）
とを決定するために、図６Ａに示す信号を簡単にしきい
値で分割する。ただし、これらの点を適確に決定するた
めには、しきい値はノイズレベルに近いレベルに設定さ
れなければならない。当該技術分野における当業者が認
めるように、ノイズレベルが高いか或いはノイズレベル
が連続的に変化する状況の下において、このような設定
は、音声の開始点及び終端の検出エラーの原因となり得
る。

【００２３】既に述べたように、本実施形態において図
６Ａに示すエネルギー信号は、カットオッフ周波数が２
Ｈｚと６Ｈｚであって、約４Ｈｚにおいてピークレスポ
ンスを持つバンドパスフィルタによって帯域フィルタリ
ングされる。そして次に、帯域フィルタリングされた信
号のパワーが決定される。図６Ａに示すエネルギー信号
に関するその結果のプロットを図６Ｂに示す。図に示す
ように、領域７２ａと７２ｂにおけるこの変調パワーは
音声部分７４期間の変調パワーに較べると比較的小さ
い。この傾向は、バックグラウンドノイズ内のエネルギ
ー量とは無関係に同じである。したがって、各フレーム
に関してこのバンドパス変調パワーを固定検出しきい値
Ｔｈと比較すると、音声開始点（ＳＯＳ）と音声終端
（ＥＯＳ）は上に述べた特にノイズの多い環境における
従来の方法よりも一層適確に検出可能である。

【００２４】本実施形態において、音声開始点及び音声
終端の検出が実際に実施される方法について更に詳細に
述べる。図７は図３に示す終端検出部６８の構成要素を
示すブロック図である。図に示すように、終端検出部
は、ブロック６５によって出力されたフレームＳ
^ｋ（ｒ）を連続的に受け取り、受け取った各フレーム内
の信号の平均エネルギーＥ（ｋ）を算定し、これをバッ
ファ７８に出力するエネルギー計算ユニット７６を備え
る。新規な各平均パワー値が算定され、バッファ７８へ
入力されると、固定サイズのスライドウィンドウによっ
て定義され、最後に受け取ったフレームのエネルギー値
で終了する、一連のエネルギー値がバンドパスフィルタ
８０によってフィルタリングされ、変調パワー計算ユニ
ット８２がフィルタリングされた一連の変調パワーを算
定する。本実施形態において、スライドウィンドウにお
ける平均パワーの離散フーリエ変換の第１非ＤＣ係数を
計算することにより、バンドパスフィルタリングとパワ
ー計算が結合される。特に、フレームｋに関するバンド
パス変調パワーｗ_ｋは次式によって与えられる。

【００２５】

【数１】

【００２６】ここに、ｅ_ｉはブロック７６によって算定
されるフレームｉに関する平均フレームエネルギーであ
り、Ｎはウィンドウにおけるフレーム数である。本実施
形態においてＮは、約４Ｈｚにおけるピークレスポンス
を持つバンドパスフィルタに相当する１６に設定され
る。次に、しきい値回路８４において各フレームに関す
るｗ_ｋの値が検出しきい値Ｔｈと比較され、しきい値回
路は、カレントフレームに関するバンドパス変調パワー
が検出しきい値よりも大きいか又は小さいかを識別する
制御ユニット８６に制御信号を出力する。

【００２７】用途に応じて、バンドパス変調パワーｗ_ｋ
が検出しきい値Ｔｈを越えることをしきい値回路８４が
検出すると直ちに、制御ユニット８６は特徴抽出部７０
に入力信号の処理を開始させる。ただし、本実施形態に
おいては、ノイズに起因する認識エラーを減少させ、か
つ認識性能を改良するように特徴抽出部７０によるバッ
クグラウンド信号の最小限度の処理が行われることを保
証するために音声開始と音声終端の一層適確な決定が実
施される。本実施形態においては、所定の個数のフレー
ムに関してバンドパス変調パワーｗ_ｋが検出しきい値Ｔ
ｈを越えることを制御ユニット３６が識別した場合に算
定される最尤計算を用いて、これが達成される。

【００２８】図８は最大尤度計算をいつ実施するかを決
定する際に制御ユニット８６によって実施される制御ス
テップを示す。本実施形態において、制御ユニット８６
は、２つの状態、即ち、ＩＮＳＰＥＥＣＨ（音声中）状
態とＩＮＳＩＬＥＮＣＥ（無音中）状態をとる。制御ユ
ニット８６がＩＮＳＩＬＥＮＣＥ状態にある場合には音
声開始を検索し、ＩＮＳＰＥＥＣＨ状態にある場合には
音声終端を検索する。図８Ａに示すように、ステップＳ
１において、制御ユニット８６はＩＮＳＰＥＥＣＨ状態
にあるかどうかを判定する。そのような状態にない場合
には、ステップＳ３に進行し、制御ユニット８６はカレ
ントフレームｋに関するバンドパス変調パワーｗ_ｋが検
出しきい値Ｔｈよりも大きいかどうかを、しきい値回路
８４に受信された信号から決定する。そうでない場合に
は、ステップＳ５に進み、ｋがインクリメントされ、そ
の次のフレームに関して同じ手順が再び実行される。バ
ンドパス変調パワーｗ_ｋが検出しきい値Ｔｈより大きい
場合には、ステップＳ３からステップＳ７へ進み、検出
しきい値Ｔｈよりも大きいフレームの個数を示すカウン
ト［ＣＮＴＡＢＶ］がインクリメントされる。次に、ス
テップＳ９において、このカウントＣＮＴＡＢＶは事前
画定された数ＮＤＴＣＴ（音声が既に開始したことを示
す）と比較される。本実施形態において、ＮＤＴＣＴは
１８であり、２８８ミリセカンドの入力音声に対応す
る。

【００２９】しきい値、即ち、ＣＮＴＡＢＶよりも大き
いフレームの個数が所定の数ＮＤＴＣＴより大きくない
場合には、フレーム数ｋはステップＳ１３においてイン
クリメントされ、更に、ステップＳ１５において、制御
ユニット８６は、その次のフレームに関するバンドパス
変調パワーｗ_ｋ検出しきい値Ｔｈよりも大きいかどうか
を決定する。そうでない場合には、次に、ステップＳ７
に戻り、しきい値よりも大きいフレーム数のカウントＣ
ＮＴＡＢＶがインクリメントされる。ステップＳ１５に
おいてバンドパス変調パワーｗ_ｋがしきい値未満である
場合には、次にステップＳ１７に進み、しきい値よりも
小さい連続したフレーム数のカウント（ＣＮＴＢＬＷ）
がインクリメントされる。続いて、ステップＳ１９にお
いて、しきい値よりも小さい連続したフレーム数のカウ
ントＣＮＴＢＬＷが所定の数ＮＨＬＤ（制御ユニット８
６が、カウントを停止し、しきい値の再度超過を待たね
ばならないことを指示する）と比較される。本実施形態
において、ＮＨＬＤは６であり、９６ミリセカンドの入
力信号に対応する。

【００３０】カウントＣＮＴＢＬＷが所定数ＮＨＬＤよ
り大きい場合には、カウントＣＮＴＡＢＶ及びＣＮＴＢ
ＬＷがステップＳ２１においてリセットされ、ステップ
Ｓ５に戻り、制御ユニット８６は、ステップＳ３及びＳ
５の作用により、検出しきい値Ｔｈより大きいその次の
フレームを待つ。ステップＳ１９において、しきい値よ
りも小さい連続するフレーム数が所定数ＮＨＬＤより大
きい場合には、ステップＳ２３に進み、フレーム数ｋが
インクリメントされる。ステップＳ２５において、制御
ユニット８６は、その時次のフレームのためのバンドパ
ス変調パワーｗ _ｋが検出しきい値Ｔｈ以上であるかどう
かを決定する。そうでない場合には、ステップＳ１７に
戻り、しきい値より小さい連続したフレーム数のカウン
トＣＮＴＢＬがインクリメントされる。他方、ステップ
Ｓ２５において、その次のフレームに関するバンドパス
変調パワーパワーｗ_ｋが検出しきい値Ｔｈよりも大きい
と制御ユニット８６に判定された場合には、ステップＳ
２５からステップＳ２７へ進み、検出しきい値よりも小
さいフレーム数がゼロにリセットされ、ステップＳ７へ
戻り、検出しきい値よりも大きいフレーム数がインクリ
メントされる。一旦、カウントＣＮＴＡＢＶがＮＤＴＣ
Ｔよりも大きくなり、音声が開始されたことが指示され
た場合には、ステップＳ９からステップＳ２８に進み、
制御ユニット８６が、その時点で処理していたフレーム
に関する最大尤度計算を用いて音声開始点の計算を開始
する。次に、ステップＳ２９において制御ユニット８６
の状態ＩＮＳＰＥＥＣＨに変更され、ステップＳ１に戻
る。

【００３１】したがって、要約すれば、制御ユニット８
６がＩＮＳＩＬＥＮＣＥ状態にあり、バンドパス変調パ
ワーが最初に検出しきい値Ｔｈを越えた場合、制御ユニ
ット８６は、しきい値よりも大きいフレーム数及びしき
い値より小さい連続したフレーム数のカウントを始め
る。しきい値よりも小さい連続したフレームの数がＮＨ
ＬＤを越えた場合には、アルゴリズムはカウントを停止
し、しきい値を再び越えるフレームを待つ。しきい値よ
りも大きいフレームの数のカウントＣＮＴＡＢＶがＮＤ
ＴＣＴを越える以前に、このカウント停止が起きなかっ
た場合には、状態情報をＩＮＳＰＥＥＣＨに変更し、最
近のフレームを用いて開始点が算定される。次に、音声
開始が算定された後で、特徴抽出部７０によるデータの
全処理が開始される。

【００３２】一旦、音声の開始が決定されると、制御ユ
ニット８６は音声の終端を捜すようにプログラムされ
る。再び図８Ａを参照すると、ステップＳ２８における
音声の開始が算定され、コントローラの状態がＩＮＳＰ
ＥＥＣＨに設定された後で、図８Ｂに示すように、ステ
ップＳ１からステップＳ３１へパスし、カレントフレー
ムｋに関するバンドパス変調パワーｗ_ｋが検出しきい値
Ｔｈよりも小さいかどうかを判定するために制御ユニッ
ト８６がチェックする。次に、ｗ_ｋが検出しきい値より
も大きい場合には、ステップＳ３３へループし、フレー
ムカウンターｋがインクリメントされ、制御ユニットは
その次のフレームのバンドパス変調パワーをチェックす
る。バンドパス変調パワーがしきい値よりも小さいフレ
ームを制御ユニット８６が識別した場合には、ステップ
Ｓ３５に進み、しきい値よりも小さい連続フレーム数の
カウントＣＮＴＢＬＷがインクリメントされる。次に、
ステップＳ３７へ進み、しきい値よりも小さい連続フレ
ーム数が音声が終了したことを示す所定数ＮＥＮＤを超
過しているかどうかを制御ユニット８６がチェックす
る。本実施形態において、ＮＥＮＤは２２４ミリセカン
ドに対応する１４である。

【００３３】連続フレームの数がＮＥＮＤより小さく、
かつ音声が終了していない場合には、ステップＳ３９へ
進行し、フレームカウンタｋがインクリメントされる。
次に、ステップＳ４１へ進行し、その次のフレームに関
するバンドパス変調パワーが検出しきい値Ｔｈより小さ
いかどうかを制御ユニット８６が判定する。そうでない
場合には、検出しきい値よりも小さい連続フレーム数の
カウントＣＮＴＢＬＷがステップＳ４３においてリセッ
トされ、ステップＳ３３に戻る。ステップＳ４１におい
て、バンドパス変調パワーが依然として検出しきい値よ
り小さい場合には、ステップＳ３５に戻り、しきい値よ
り小さい連続フレーム数のカウントがインクリメントさ
れる。一旦、しきい値よりも小さい連続フレームの数が
ＮＥＮＤを越えると、ステップＳ４５へ進み、制御ユニ
ット８６が、その時点のフレームに関する最大尤度計算
を用いて音声終端の算定を開始する。次に、ステップＳ
４７において制御ユニット８６の状態はＩＮＳＩＬＥＮ
ＣＥに変更され、ステップＳ１に戻る。

【００３４】したがって、要約すれば、音声の開始が決
定された後、続いて、制御ユニット８６は音声の終端を
捜す。これは、検出しきい値よりも小さいフレームの連
続数をカウントする制御ユニット８６によって行われ、
この数が所定の数ＮＥＮＤを越えた場合、制御ユニット
８６は状態（state）をＩＮＳＩＬＥＮＣＥに変え、音
声の終端が算定される。

【００３５】［最尤終端検出］既に述べたように、入力
信号内音声の開始点及び終端は最尤法を用いて算定され
る。特定のフレームにおいて発生する終端に関する尤度
が算出され、最大尤度をもつフレームが終端として選定
される。再度説明すれば、尤度計算にはフレーム当たり
の平均信号エネルギーが用いられ、このパラメータに関
する単純モデルが仮定される。

【００３６】図７を参照することとし、音声が開始した
ことを制御ユニット８６が識別した場合、制御ユニット
はバッファ７８へのライン８８上に制御信号を出力し、
時間的に最も近いＮ個のフレームエネルギーをバッファ
７８から読み出し、ハイパスフィルタ９０へ入力させ
る。ハイパスフィルタ９０は、エネルギー信号内のＤＣ
オフセット及び変化の緩やかなあらゆるノイズの影響を
除去し、フィルタリングされたエネルギーをバッファ９
２へ出力する。本実施形態において、ハイパスフィルタ
９０はカットオフ周波数が１Ｈｚの２次再帰フィルタで
ある。図９は、図６Ａに示すエネルギー信号用のハイパ
スフィルタ９０の出力を示す。図に示すように、フィル
タリングされたフレームエネルギーは無音部分７２ａ及
び７２ｂの期間中はゼロのまわりで上下するが、音声部
分７４の期間中は振動する。その結果として、一方、無
音部分の期間において、フィルタリングされたフレーム
エネルギーはフレーム毎に相互関係を持たず、他方、音
声部分において、各フレームのフィルタリングされたフ
レームエネルギーはその近傍フレームのフィルタリング
されたフレームエネルギーに依存するものと仮定され
る。

【００３７】次に、最尤終端計算ユニット９４は、各点
を検出され得る開始点（或いは、終端）とみて、この点
以前の全てのフレームをノイズとして扱い、また、この
点以後の全てのフレームを音声として扱い、更に、当該
点に終端としての尤度スコアを与えるために指示された
ノイズフレームの各々をノイズモデルへ適用し、また、
更に、指示された音声フレームの各々を音声モデルへ適
用することによって、バッファ９２に記憶されているＮ
個のフィルタリングされたエネルギーフレームを処理す
る。この処理は、バッファ９２内のＮ個のフレームの各
々に関して実施され、最良の尤度スコアを与えるフレー
ムが終端として決定される。

【００３８】本実施形態において、ノイズ及び音声部分
をモデル化するために、ラプラス統計量が用いられ、バ
ッファ９２内のフレーム１からＭまでが無音である尤度
Ｌ1は次式で与えられる。

【００３９】

【数２】ここに、ｙ_ｉはハイパスフィルタリングされたエネルギ
ーであり、σ_１は無音分散である。同様に、フレームＭ
＋１からＮまでが音声である尤度Ｌ2は次式で与えられ
る。

【００４０】

【数３】ここに、分散σ_２のラプラス推進項を持つ一次自己回帰
処理が用いられた。パラメータ a は自己回帰モデルの
予測係数であり、本実施形態においては、固定値０．８
が用いられる。ラプラス統計量は、更に一般的なガウス
統計量よりもデータを一層よく表し、一層頑強な推定値
を導き、必要な計算量を少なくすることが実証された。
ただしガウス統計量を使用しても差し支えない。尤度Ｌ
1とＬ2を乗算すると、フレームＭにおける無音から音声
への遷移に関する尤度が与えられる。

【００４１】分散σ_１及びσ_２は未知であるが、方程式
（２）及び（３）を微分し、微分値をゼロに等しくする
σを見付けることにより尤度を最大にする値はデータか
ら算定できる。これは、σ_１及びσ_２に関して次式をあ
たえる。

【００４２】

【数４】

【００４３】

【数５】これらの推定値を尤度に代入し、対数を求め、定数項を
無視すると、最大化しようとする対数尤度が求められ
る。

【００４４】

【数６】これは各Ｍに関して算定され、したがって、最大１のフ
レームが終端として選定される。

【００４５】音声の終端（ＥＯＳ）を算定するために
は、データが時間の逆数であること以外は全く同じアル
ゴリズムが用いられる。更に、信頼できる終端を得るの
に十分な無音フレーム及び十分な音声フレームがＮフレ
ームのウィンドウに含まれていることを保証することが
重要である。これは、十分な数の無音及び音声フレーム
を含むようにウィンドウサイズ（Ｎ）を動的に選択する
ことによって保証される。これは、検出しきい値を越え
た第１フレームの直前１６個の先行フレームと共に、検
出しきい値Ｔｈを最初に越えたフレームから当該音声が
開始したと制御ユニットが判断するまでの全てのフレー
ムを対象とすることによって達成される。

【００４６】［特徴抽出］一旦、音声の開始が検出され
ると、第１音声フレームが図３に示す循環バッファ６６
から特徴抽出部７０へ供給される。図１０は、本実施形
態に用いられる特徴抽出部７０の構成要素を一層詳細に
示す図である。図に示すように、特徴抽出における第１
ステップは、ブロック６７におけるカレントフレームの
離散フーリエ変換（ＤＦＴ）の大きさ、即ち｜Ｓ
^ｋ（ｆ）｜を計算するステップである。ここで、ｆは離
散周波数変数である。このプリプロセッサの多くのアス
ペクトは入力音声信号の位相には比較的鈍感な人間聴覚
系の動作をシミュレートするように設計されているの
で、大きさ情報だけが必要である。

【００４７】図１１は図５に示すフレームＳ^ｋ（ｒ）に
おける音声信号のＤＦＴ｜Ｓ^ｋ（ｆ）｜の大きさを示
し、その最終サンプルはサンプリング周波数の半分の周
波数、即ち４ＫＨｚにおいて発生する。ＤＦＴを実施し
た後におけるスペクトルは多数の周波数帯域内のサンプ
ルを平均するフィルタバンクを通過する。人間の聴覚系
に関する研究によれば、耳の周波数分解能は周波数の増
大と共に低下することが判明している。したがって、対
数的に間隔を保ったフィルタバンクは知覚的に一層有意
な情報をもつので、対数的に間隔を保ったフィルタバン
ク、すなわち、高い周波領域と比較して低い周波領域に
より多くの周波数帯域が存在するフィルタバンクの方が
線形的に間隔を保つフィルタバンクよりも好ましい。

【００４８】本実施形態においては、１６個の帯域を持
つメルスケールフィルタバンク６９が用いられる。メル
スケールは音声分析の技術分野において周知であり、基
音（トーン）の感知された周波数を線形スケール上にマ
ッピングしようと試みる対数スケールである。図１２
は、図１１に示すサンプルがバンク６９をパスする場合
におけるメルスケールフィルタバンク６９の出力｜Ｓ^ｋ
（ｆ'）｜を示す。結果として得られる振幅スペクトル
のエンベロープ１００は、フィルタバンクの対数間隔に
起因して低い方の周波数においてはあまり顕著でない
が、フィルタバンク６９の平均化効果により、かなり平
滑である。

【００４９】次に、以下に説明する処理により、フォル
マント関連情報が図１０のブロック７３、７５、７７を
用いて音声から抽出される。

【００５０】励起信号Ｅ（ｔ）及びフィルタＶ（ｔ）に
関してユーザの音声信号Ｓ（ｔ）をモデル化することが
可能である。ここに、励起信号Ｅ（ｔ）は声道に入る気
流を表し、フィルタＶ（ｔ）は声道のフィルタリング効
果を表す。したがって、音声信号の周波数スぺクトル｜
Ｓ（ｆ）｜の大きさは、次式で表されるように、励起信
号の周波数スぺクトル｜Ｅ（ｆ）｜の大きさに声道フィ
ルタのスペクトル｜Ｖ（ｆ）｜の大きさを乗算すること
によって与えられる。

【００５１】

【数７】

【００５２】ケプストラム法として知られている入力音
声から声道情報を抽出する方法について次に述べる。こ
の方法は、音声の振幅レスポンス｜Ｓ（ｆ）｜の対数を
求めることにより励起の振幅レスポンス｜Ｅ（ｆ）｜か
ら声道フィルタの振幅レスポンス｜Ｖ（ｆ）｜を分離
し、結果的に励起特性と声道フィルタ特性を次式に示す
ように加算的にすることに関連する。

【００５３】

【数８】

【００５４】図１３はメルフィルタバンク６９かの対数
出力のエンベロープ、即ち、ｌｏｇ｜Ｓ^ｋ（ｆ’）｜を
示す。この式は２つの成分１０１と１０３の加算性を図
式的に示すものである。成分１０１は声道特性、即ち、
ｌｏｇ｜Ｖ（ｆ）｜を表し、成分１０３は励起特性、即
ち、ｌｏｇ｜Ｅ（ｆ）｜を表す。成分１０１におけるピ
ークは声道のフォルマント周波数において発生し、成分
１０３における等間隔ピークは話者のピッチの高周波帯
域において発生する。

【００５５】声道特性１０１は、ブロック７１から出力
されたサンプルに離散余弦変換（ＤＣＴ）を実施し、そ
の結果をフィルタリングすることによって励起特性１０
３から抽出できる。ただし、ＤＣＴを実施する以前に、
ノイズマスキング部７３によって動的ノイズマスキング
が実施される。

【００５６】［ノイズマスキング］ノイズマスキング部
７３は、先ず、メルフィルタバンク６９から出力される
最大対数フィルタバンクエネルギーを算定することによ
って各フレームの動的マスキングを実施する。図１４は
標本フレームに関する対数フィルタバンクエネルギーを
示す。第１ステップは最大係数を出力する周波数バンク
を決定することに単純に関係する。この例において、こ
れは第２フィルタバンクであり、その値はｍｅｌ_ｍａｘ
として記憶される。次に、ノイズマスキング部７３は、
カレントフレームに関して決定された最大対数フィルタ
バンクエネルギーから、トレーニング音声から経験的に
見付けられる事前画定されたレンジ（ｍｅ
ｌ_{ｒａｎｇｅ}）を、減算することによって、最小対数フ
ィルタバンクエネルギーｍｅｌ_ｍｉｎを決定する。即
ち、ノイズマスキング部７３は以下のようになる。

【００５７】

【数９】最終的に、ノイズマスキング部７３は、ｍｅｌ_ｍｉｎよ
りも小さい任意のメルフィルタバンクエネルギーをｍｅ
ｌ_ｍｉｎに等しくする。この動的ノイズマスキングを行
う理由及びその利点について、図１５を参照しながら説
明する。

【００５８】図１５Ａはノイズを殆ど含まない標本フレ
ームの対数メルフィルタバンクエネルギーを示す。図に
示すように、対数メルエネルギーは周波数軸に沿って間
隔を保つ３個のピーク１００ａ、１００ｂ、１００ｃを
有する。図１５Ｂはバックグラウンドノイズがハイレベ
ルである場合における、同じフレームに関する対数メル
エネルギーを示す。図に示すように、ハイレベルのノイ
ズがある場合にはピーク１００ｂはノイズによって平滑
化され、出力はピーク１００ａ及び１００ｃのみを有す
る。これら２つの信号を相互にマッチングさせようとし
て両者を比較すれば、両者は同一音声信号を表すにも拘
わらず、図１５Ｂの信号に含まれる追加ノイズのため
に、誤認識が行われることがあり得る。ただし、それぞ
れのフレームのピーク対数フィルタバンクエネルギーに
関してノイズフロアを定義することによってこの種の誤
認識を減少させることが可能である。ノイズフロアに近
い可能性のある（したがって、それによって汚染される
可能性のある）対数フィルタバンクエネルギーのピーク
は、自動的にマスクされて除去され、マッチング処理
中、考慮されないからである。これは図１５Ｃ及び図１
５Ｄに示される。これらの図は、それぞれ図１５Ａ及び
図１５Ｂに示す対数フィルタバンクエネルギーに本実施
形態の動的ノイズマスキングが実施された状態を示す。
太線プロファイル１０２及び１０４によって示すよう
に、ノイズマスキングを施せば、比較的多くのノイズを
含んでいる信号であっても、そうでない信号に一層密接
に対応する。

【００５９】ノイズマスキングの概念は新しいものでは
ない。ただし、現在までに提案された方式においては、
一定のマスキングレベルが各フレームへ適用され、ノイ
ズフロアに基づいて算定される。このマスキングは、各
フレームに適用される増幅及びスケーリングが同じであ
る場合、又は、各フレームに対して同一レベルのマスキ
ングが実施されるように各フレームの増幅量及びスケー
リング量がモニタリングされる場合に、実施され得る。
ただし、これは、入力音声の各フレームに異なる利得を
適用する自動利得コントローラ（ＡＧＣ）を入力に対し
て用いるシステムにおいては実施困難である。ＡＧＣに
よって適用される利得が未知だからである。上記したよ
うに各フレームに対して異なるマスキングを実施する本
実施形態の動的ノイズマスキングに関して言えば、各フ
レームへどの程度の利得が適用されたかは一切関係な
い。マスキングレベルがフレームマキシマム（フレーム
中の最大スペクトル）に関連して決定されるからであ
る。

【００６０】再び図１０を参照することとし、対数フィ
ルタバンクエネルギーがノイズマスキング部７３によっ
てマスクされた後で、ブロック７５において、離散余弦
変換（ＤＣＴ）が実施される。本実施形態においては１
６個のメルフィルタバンクエネルギーフレームがあるの
で、本実施形態においては、実際には高速コサイン変換
がＤＣＴブロック７５において用いられる。速度の点で
標準ＤＣＴよりもいくらか優れているからである。

【００６１】図１６はケプストラムＣ^ｋ（ｍ）として知
られているＤＣＴブロック７５の出力を示す。ケプスト
ラムの独立変数（図１６のｘ軸）の次元は時間であり、
「ケフレンシィ（ｑｕｅｆｒｅｎｃｙ）」と称する。図
１３に示す非常に周期的な成分１０３は話者のピッチ周
期Ｔに等価なロケーションにおいてケプストラムのピー
ク１０５となる。図１３に示す徐々に変化する成分１０
１はケプストラムの原点近くの多数の小さいピーク１０
７に変換される。ピークの位置と振幅はフォルマントに
依存する。

【００６２】声道特性及び音声の励起特性はケフレンシ
ィスケールの別々の部分に現れるので、それらはフィル
タリング処理又はケプストラム用語において「リフタリ
ング」と呼ばれる処理により相互に分離可能である。図
１６に示すケプストラムＣ^ｋ（ｍ）は１組の離散ケプス
トラム係数（Ｃ_０、Ｃ_１、．．Ｃ_１５）で構成され、し
たがって、簡単な矩形ウィンドウによってリフタリング
を達成することができる。ただし、スペクトルの信頼度
が比較的小さいとみなされる部分をデエンファシスする
ために、更に漸進的な窓掛け機能が好ましい。本実施形
態において、リフタリングブロック７７において用いら
れる窓掛け機能を次に示す。

【００６３】

【数１０】

【００６４】本実施形態においては、最初の９個のケプ
ストラム係数が算定される。残りの係数は音声認識性能
に無視出来る程度の影響を及ぼすに過ぎないからであ
る。（ただし、話者認証システムにおいては、ピーク１
０３のまわりの係数が用いられる。話者のピッチがその
話者の特性であるからである。）リフタリングブロック７７から出力される係数はそれぞ
れ１６ビットの２進数によって表される。基準モデル及
び認識処理中における係数の両方を記憶するのに必要な
記憶量を軽減するため、各ケプストラム係数のためのビ
ット数が８に減らされる。これは、各２進数を簡単にス
ケーリングし直すことによって達成される。ただし、本
出願人は、ケプストラム係数が平均値付近にまとまって
所在し、時にはその付近以外にも所在することを確認し
た。即ち、この種のリスケーリングの結果として、ケプ
ストラム係数の大部分はゼロの近辺に集まるはずであ
る。

【００６５】したがって、本実施形態においては、非線
形変換が図１０に示すビット変換ユニット７９によって
実施される。図１７は、本実施形態に適用される非線形
変換を示す。特に、Ｘ軸は入力１６ビット２進値を示
し、Ｙ軸は、曲線１１１によって表される非線形シグモ
イド関数から得られる対応８ビット値を示す。図１７か
ら分かるように、シグモイド関数１１１は、ゼロのまわ
りの実質的に線形である部分１１３を有する。これは、
大部分のケプストラム係数が存在する部分に対応する。
したがって、図１７に示す非線形シグモイド関数は、極
値から離れた大多数のケプストラム係数にとって有用
な、分解能を効果的に増加させ、同時に、極値がオーバ
ーフローすることを防止する。

【００６６】［エネルギー正規化］既にのべた９個のケ
プストラム係数に加えて、各フレーム内の音声信号の平
均エネルギーも各入力フレームに関する認識特徴として
用いられる。エネルギーは重要な特徴である。多くの特
徴の中で、エネルギーは、フレーム中の入力音声信号が
有声音声信号に対応するか否かを示すために使用できる
からである。既に述べたように、各入力フレームのフレ
ームエネルギーはエネルギー計算ユニット７６において
算定され、図７に示すバッファ７８に記憶される。次
に、可変記録条件によって引き起こされる変動を除去す
るために、バッファ７８によって出力されたカレントフ
レームに関するエネルギーは正規化ブロック８３によっ
て正規化される。

【００６７】図１８Ａ及び１８Ｂは、認識精度に影響を
及ぼす可能性のあるエネルギー変動のタイプを示す。特
に、図１８Ａ及び１８Ｂは同一語（ワード）の２つの発
声におけるエネルギーレベルを概略的に図示する。図１
８Ａに示す第１の発声１２１は、低いバックグラウンド
ノイズ状態における大きい発声であり、図１８Ｂに示す
第２の発声１２３は、バックグラウンドノイズが更に多
い状態におけるより静かな発声である。エネルギー計算
ユニット７６によって各発声に関して算定されたエネル
ギーを認識特徴として単純に用いることにより、２つの
発声の間の重大なミスマッチが示される。両方の発声に
おけるピークエネルギーが同じであるように正規化する
と、大きい発声部分のミスマッチは除去されるが、静か
な発声部分の間のミスマッチを増加させることになる。
この問題を克服するために、本実施形態においては、エ
ネルギーマスキングステップ（上記のノイズマスキング
技術と同様）を実施し、それによって、最大値より小さ
い固定値よりも大きい全てのエネルギー値を最大値より
も小さい前記の値で置き換える。これを図１８Ｃに示
す。即ち、図１８Ｃは、最大正規化後における図１８Ａ
及び１８Ｂに示す発声１２１及び１２３の両エネルギー
レベルを示し、更に、トレーニングデータから経験的に
選定され、事前に設定された一定のマスキング深度１２
７を用いてエネルギーマスキングを施した後に結果とし
て得られるエネルギーレベル１２５を示す。

【００６８】この技術を用いる場合の一問題は、全発声
の受取りが完了するまで各発声に関する最大エネルギー
が未知であることである。これは、入力音声が増分的に
処理される場合、即ち、入力音声が、受け取られるにつ
れて、待ち状態に置かれることなしに、当該発声が終わ
るまで、処理される場合に問題となる。ただし、一般に
発声内の最大エネルギーは音声の開始から２つ、３つの
フレーム内に存在するので、この問題は克服可能であ
る。したがって、既に述べた音声検出アルゴリズムは、
音声が実際に開始してから幾らか時間が経過した後で当
該音声の開始を確認するため、エネルギー正規化が最初
に必要とされる段階において最大エネルギーが現れる可
能性が大きい。最大エネルギーを推測するための次の方
法は満足のゆくものであることが立証される。

【００６９】ｉ）音声の開始が確認され、認識探索が始
まる時まで、エネルギーの正規化を遅延させる。

【００７０】ｉｉ）最大エネルギーのマスキング深さ１
２７が少なくとも無音エネルギーより大きいと仮定す
る。

【００７１】ｉｉｉ）現時点までの全ての音声フレーム
の最大値を算定する。

【００７２】ｉｖ）（ｉｉｉ）において識別された最大
エネルギーのなかの更に大きい方の値、及び、無音エネ
ルギーにマスキング深さを加えた値を用いて最大正規化
を実施する。ただし、増分処理においては、３個のフレ
ームの処理を遅延させる。

【００７３】前述のエネルギー正規化が各フレームエネ
ルギーに実施された後で、認識スコアへのエネルギー貢
献度に適宜重み付けする、経験的に選定した係数によっ
て、エネルギー項がリスケールされる。

【００７４】要約すれば、プリプロセッサ１５は入力信
号を連続的に監視し、音声開始を識別すると、特徴抽出
ルーチンを開始し、入力音声の各フレームに関して９個
のケプストラム係数と１個のエネルギー係数を抽出す
る。次に、プリプロセッサによって出力された係数ベク
トル又は特徴ベクトルは記憶されている基準モデルと比
較される。基準モデルは当該システム及び当該システム
を囲む音素環境にとって既知である語（ワード）をモデ
ル化する。特定の語（ワード）と関連する各モデルは、
記述のプリプロセッサによって出力された同じタイプの
一連の特徴ベクトルを含む。

【００７５】［トレーニング］上述のワードモデルを生
成する方法について簡単に記述する。更に詳細な記述に
関しては、本出願人によって既に出願済みの記述欧州出
願ＥＰ０７８９３４９を参照されたい。

【００７６】本トレーニングの目的は、本システムによ
って使用される各語（ワード）の代表的モデルを生成す
ることにある。トレーニングプロセスへの入力は当該ワ
ードに関する複数のトレーニング事例（example）であ
る。各事例は、上記特徴抽出部によって抽出された一連
の特徴ベクトルによって表される。トレーニング処理は
僅かに２つのトレーニング事例から１つのワードモデル
を生成することができる。尤も、３つの事例を用いると
僅かに一層適確なワードモデルが生成される。これ以上
のトレーニング事例を用いても殆ど改良されることはな
い。

【００７７】トレーニングアルゴリズムは、第１ワード
モデルを生成するための入力として先ず２つの事例を用
いる。当該ワードをトレーニングするために２つより多
い事例を用いる場合には、第１モデルから第２のワード
モデルと更に１つのトレーニング事例が生成される。必
要とされる個数の事例の使用が終了するまで反復が継続
される。最終的に生成されたワードモデルは、当該ワー
ドの代表モデルとして記憶される。いずれにせよ、トレ
ーニングアルゴリズムのコア部分はただ２つの事例から
１つのワードモデルを生成するように動作する。

【００７８】トレーニングにおける第１ステップは、２
つの例に関する特徴ベクトルの２つのシーケンスを配置
構成することである。この配置構成処理は、フレキシブ
ルプログラミング配置構成処理を用いて実施される。こ
の処理には、ワード間の最適配置パスが開始されるべき
位置及び終るべき位置は含まれない。このフレキシブル
動的配置構成処理については、さきの本出願人による欧
州出願に詳細に記述されているので、ここでは再度述べ
ない。

【００７９】図１９Ａは２つのトレーニング事例１５１
と１５３の間のこの種フレキシブル動的プログラミング
配置構成処理を示す。図１９Ａに示すように、トレーニ
ング事例１５１は、無音またはバックグラウンドノイズ
に対応する部分１５１ａ及び１５１ｃと、音声に対応す
る部分１５１ｂを有する。同様に、第２のトレーニング
事例１５３も、無音またはバックグラウンドノイズに対
応する、その開始点と終端の部分１５３ａ及び１５３ｃ
と、音声に対応する部分１５３ｂを有する。配置構成処
理は、各トレーニング事例１５１及び１５３の開始点及
び終端におけるノイズフレームを、無音またはノイズモ
デル１５５にマッチングさせ、音声部分１５１ｂ及び１
５３ｂを、相互に配置させる。次に、相互に配置構成さ
れる部分１５１ｂ及び１５３ｂ内のフレームを平均する
ことによって、当該音声に関するワードモデルが生成さ
れる。ただし、前述の処理は、特にトレーニング事例が
一貫して行われていない場合に、ワードモデルにエラー
を生じさせることがあり得る。本実施形態においては、
一貫性のあるトレーニング事例のみを用いてワードモデ
ルを生成することを保証するために一貫性チェックが実
施される。

【００８０】［一貫性検査］本実施形態において実施さ
れる一貫性チェックは多数の理由に起因して発生する可
能性のある事例間の矛盾を見付けるように設計されてい
る。例えば、ユーザがトレーニング事例を入力する場
合、トレーニング事例の開始に際してユーザがマイクロ
ホン内に偶然深く息を吹き込むことがあり得る。発声の
開始時における大きい振動１５５として、この可能性を
図１９Ｂに示す。その代りに、ユーザが単に間違ったワ
ードを入力することもあり得る。これは、信号１５１と
信号１５３の音声部分において音声部分１５９が明らか
に異なる現象として図１９Ｃに示される。別の可能性と
して、ユーザがトレーニングワードの一部分だけを入力
するか、或いは、なんらかの理由によって、ワードの一
部を遮断することもあり得る。これは図１９Ｄに示され
る。即ち、トレーニングワードの第１の部分１６１は入
力されるが、第２の部分は入力されない。最後に、トレ
ーニング事例の入力中に、バックグラウンドノイズが大
幅に増加してトレーニング事例を汚染することもあり得
る。これを図１９Ｅに示す。即ち、トレーニングワード
の中央において現れたバックグラウンドノイズ１６３の
一部が示される。

【００８１】本実施形態は、２つのトレーニング事例が
一貫して行われているか、そして、そうである場合に
は、トレーニング中のワードに関するモデルを生成する
ために両事例が使用されるか、についてチェックする。
両事例に一貫性がない場合には、次の規則が適用され
る。

【００８２】ｉ）一方の事例が既にワードモデルである
場合（２つ又はそれ以上の以前のトレーニング事例によ
って形成された）には、もう一方の事例は廃棄され、余
分な一事例が必要とされる。

【００８３】ｉｉ）双方の事例が特徴抽出部から直接抽
出された場合には、双方の事例が記憶されるが、モデル
生成は実施されない。システムは他の一事例を必要とす
る。第３の事例が、記憶されている事例の一方と一貫性
をもつ場合には、この一貫性のある一対の事例がワード
モデルを生成するために用いられ、もう一方の事例は廃
棄される。

【００８４】ｉｉｉ）第３の事例が、記憶されている事
例のどちらとも一貫性をもたない場合には、第１事例が
廃棄され、第２と第３事例が、第１と第２事例としてラ
ベリングし直される。次に、システムは別の事例を待
つ。

【００８５】トレーニングされた各ワードから見付けら
れた矛盾の件数の総計が求められる。矛盾件数が一定の
最高値を越えた場合には、それ以上の矛盾チェックは一
切行われない。これは、システムが無限ループに固着す
ることを防止する。

【００８６】本実施形態において用いられる一貫性テス
トについて次に述べる。先ず、システムは、相互に配置
構成された２つのトレーニング事例内のフレームに関す
る平均フレームスコア（ｆ）を決定する。ただし、無音
部分からのスコアは含まないものとする。これは、配置
構成されたフレームに関する動的プログラミングスコア
を配置構成されたフレーム数で除算することによって算
定される。次に、システムは、配置構成された音声部分
内の連続する１０個の最悪マッチングフレーム（ｗ）の
スコアを決定する。次に、これらの値は、一貫性のある
発声内においてこれら２つの値（ｆ及びｗ）がどのよう
に変化するかをモデル化するモデルと比較され、カレン
トトレーニング事例に関するこれらの値がモデルと一致
する場合には、２つのトレーニング事例は一貫性をもつ
ものとみなされる。

【００８７】一貫性をもつことが知られているトレーニ
ング事例の大きい集合に関するこれらの２つの値（ｆ及
びｗ）の統計資料を考察することによって、使用するモ
デルが決定される。モデルは単純にこれら２つの値の平
均値であっても差し支えない。ただし、本実施形態にお
いては、一貫性のある事例に含まれるこれら２つの値の
間の変動値の平均及び相関性をモデル化するために二変
量ガウスモデルが用いられる。次に、それらのトレーニ
ング配置構成に関する統計値（即ちｆ及びｗ）がこの二
変量ガウスモデルの９５％確率範囲内に所在するか、或
いは、２つのトレーニング事例に関するｆ及びｗが両方
とも、当該モデルによって画定されたｆ及びｗに関する
予測値未満である場合には、２つのトレーニング発声は
一貫性をもつものとみなされる。

【００８８】１対のトレーニング事例が一貫性をもつと
みなされた後で、これらのトレーニング事例に関する統
計値（ｆ及びｗ）が一貫性のある発声に関して記憶され
ているモデルを更新するために使用される。これは最尤
推定技術を用いて行われる。

【００８９】本システムがトレーニングされた後で、認
識結果を提供するために、本音声認識システムはユーザ
からの入力発声を記憶されているワードモデルと比較す
ることが出来る。この種の音声認識結果が提供され得る
方法については、既に述べた本出願人の欧州出願に記述
済みであるので、ここでは改めて記述しない。

【００９０】当該技術分野における当業者は、上記の音
声処理及び一貫性チェックが音声認識システムの文脈に
おいて記述されたものであり、それらは、例えば話者認
証システムのような他の音声処理システムにおいても同
等に適用可能であることを理解するはずである。

【図面の簡単な説明】

【図１】本発明の実施形態を操作するようにプログラミ
ング可能なコンピュータの概略構成図である。

【図２】音声認識システムの概略構成図である。

【図３】図２に示すシステムの一部として組み込まれた
プリプロセッサであって、入力音声信号に適用される処
理ステップの幾つかを示すブロック図である。

【図４】一連のタイムフレームへの入力音声信号Ｓ
（ｔ）の分割をグラフに表した図である。

【図５】単一タイムフレームに関する典型的な一音声信
号をグラフに表した図である。

【図６Ａ】入力信号内の音声開始と音声終端とにおける
平均エネルギーの変化を示すため、入力音声信号の平均
フレームエネルギーをプロットした図である。

【図６Ｂ】４Ｈｚのまわりに集中した周波数帯域内にお
ける図６Ａのエネルギー信号の変調パワーをプロットし
た図である。

【図７】図３に示す終端検出部について更に詳細に示す
ブロック図である。

【図８Ａ】図７に示す制御ユニットによる処理ステップ
の一部を示すフローチャートである。

【図８Ｂ】図７に示す制御ユニットによる処理ステップ
の図８Ａの続きを示すフローチャートである。

【図９】低周波変動及び直流変動を除去するためにフィ
ルタリングした後における図６Ａに示す平均エネルギー
をプロットした図である。

【図１０】図３に示す特徴抽出部による処理について更
に詳細に示すブロック図である。

【図１１】図５に示す音声信号の離散フーリエ変換の振
幅レスポンスをグラフに表した図である。

【図１２】メルスケールフィルタバンクの平均された振
幅レスポンス出力をグラフに表した図である。

【図１３】メルスケールフィルタバンクから出力される
対数振幅スペクトルをグラフに表した図である。

【図１４】入力フレーム内エネルギーがメル周波数バン
ク全体に亙って拡散される方法をグラフに表した図であ
る。

【図１５Ａ】バックグラウンドノイズが殆ど無い場合に
おいて、サンプルワードに関するメルスケールフィルタ
バンクからの出力の対数振幅スペクトルをプロットした
図である。

【図１５Ｂ】高レベルのバックグラウンドノイズが存在
する場合において、図１５Ａと同じワードに関するメル
スケールフィルタバンクからの出力の対数振幅スペクト
ルをプロットした図である。

【図１５Ｃ】メルスケールフィルタバンクからの出力
に、ノイズマスキングレベルが適用される場合における
図１５Ａのプロットを示す図である。

【図１５Ｄ】メルスケールフィルタバンクからの出力
に、図１５Ｃと同じノイズマスキングが実施される場合
における図１５Ｂのプロットを示す図である。

【図１６】図１３に示す対数振幅スペクトルのケプスト
ラムをグラフに表した図である。

【図１７】ケプストラム係数の表現に使用するビット数
を減らすため、ケプストラム係数の２値表現のスケーリ
ングに用いられる非線形変換をプロットした図である。

【図１８Ａ】バックグラウンドノイズが殆ど無いサンプ
ルワードの発声中においてエネルギーレベルが変化する
様子をグラフに表した図である。

【図１８Ｂ】発声が一層静かであり、一層多くのバック
グラウンドノイズが存在する場合に、図１８Ａと同じサ
ンプルワードの発声中においてエネルギーレベルが変化
する様子をグラフに表した図である。

【図１８Ｃ】エネルギー正規化及びエネルギーマスキン
グ後における図１８Ａ及び１８Ｂのエネルギーレベルを
グラフに表した図である。

【図１９Ａ】ワードモデルを生成するために用いられる
図１８Ａと同じサンプルワードについての２つの発声を
グラフに表した図である。

【図１９Ｂ】ユーザによるマイクロホンへの息吹き込み
に起因して発声開始点において大きく振動するトレーニ
ング例の発声をグラフに表した図である。

【図１９Ｃ】図１９Ａのトレーニングワードと異なる１
つのトレーニングワードの発声をグラフに表した図であ
る。

【図１９Ｄ】一部が削除されたトレーニングワードの発
声をグラフに表した図である。

【図１９Ｅ】その音声部分に多量のノイズを含むトレー
ニングワードの発声をグラフに表した図である。

【符号の説明】

１５プリプロセッサ１７認識ブロック１９ワードモデル２１言語モデル２３ノイズモデル６６循環バッファ６８終端検出部７０特徴抽出部８２変調パワー計算ユニット８４しきい値回路８６制御ユニット９４最尤終端計算ユニット

Claims

【特許請求の範囲】

【請求項１】入力信号を受信する受信手段と、受信した信号内の局部エネルギーによって変化するエネ
ルギー変動信号を生成するために受信した前記入力信号
を処理する処理手段と、所定周波数よりも低い周波数を持つエネルギー変動を除
去するために前記エネルギー変動信号をフィルタリング
するフィルタリング手段と、前記フィルタリング手段によりフィルタリングしたエネ
ルギー変動信号を用いて前記入力信号内における音声の
存在を検出する検出手段と、を有することを特徴とする音声処理装置。
【請求項２】前記フィルタリング手段が所定周波数より
も高い周波数を持つ前記エネルギー変動信号を除去する
ように動作可能であることを特徴とする請求項１に記載
の音声処理装置。
【請求項３】前記フィルタリング手段が２Ｈｚより低く
１０Ｈｚより高い前記エネルギー変動信号をフィルタリ
ングして除去するように動作可能であることを特徴とす
る請求項２に記載の音声処理装置。
【請求項４】前記フィルタリング手段が約４Ｈｚの周波
数を持つ前記エネルギー変動信号をパスするように動作
可能であることを特徴とする請求項２または３に記載の
音声処理装置。
【請求項５】前記検出手段が前記フィルタリングしたエ
ネルギー変動信号を所定のしきい値と比較し、その比較
結果に基づいて音声の存在を検出するように動作可能で
あることを特徴とする請求項１，２，３または４に記載
の音声処理装置。
【請求項６】前記処理手段は入力音声信号を多数の連続
タイムフレームに分割し、前記エネルギー変動信号を生
成するために前記タイムフレームの各々における入力信
号のエネルギーを決定するように動作可能であることを
特徴とする請求項１乃至５のいずれかに記載の音声処理
装置。
【請求項７】所定の周波数帯域内に前記フィルタリング
したエネルギー変動信号の変調パワーを決定する変調パ
ワー決定手段を更に有することを特徴とする請求項６に
記載の音声処理装置。
【請求項８】前記フィルタリング手段及び前記変調パワ
ー決定手段が前記エネルギー変動信号の離散部分におけ
る変調パワーをフィルタリング及び決定するように動作
可能であることを特徴とする請求項７に記載の音声処理
装置。
【請求項９】前記フィルタリング手段及び前記変調パワ
ー決定手段が前記エネルギー変動信号の各離散部分の離
散フーリエ変換の第１非ＤＣ係数を決定するように動作
可能な離散フーリエ変換手段によって構成されることを
特徴とする請求項８に記載の音声処理装置。
【請求項１０】それぞれ入力信号の一部分を表す入力フ
レームのシーケンスを受信する受信手段と、代表的信号内の局部エネルギーを示すエネルギー値のシ
ーケンスを生成するように、受信したフレームシーケン
ス内の各フレームを処理する処理手段と、所定の周波数より低い周波数を持つエネルギー変動を除
去するように前記エネルギー値のシーケンスをフィルタ
リングするフィルタリング手段と、前記のフィルタリング済みエネルギー値を用いて前記入
力信号内における音声の存在を検出する検出手段と、を有することを特徴とする音声処理装置。
【請求項１１】更に、前記入力信号における音声を含む
部分とバックグラウンドノイズを含む部分との間の境界
を決定する境界決定手段を有することを特徴とする請求
項１乃至１０のいずれかに記載の音声処理装置。
【請求項１２】前記境界決定手段は、前記エネルギー信
号内における複数の可能なロケーションの各々に、前記
境界が位置する場合の尤度を決定するように、動作可能
であり、その中で、最大の尤度を持つロケーションを決
定することを特徴とする請求項１１に記載の音声処理装
置。
【請求項１３】音声認識結果を提供するため、前記検出
手段で検出された音声と、記憶されている基準モデルと
を比較する比較手段を更に有することを特徴とする請求
項１乃至１２のいずれかに記載の音声処理装置。
【請求項１４】入力音声信号内における音声を含む部分
とバックグラウンドノイズとの間における境界のロケー
ションを決定する音声処理装置であって、入力信号を受信する手段と、受信した信号内の局部エネルギーを示すエネルギー信号
を生成するように受信した信号を処理する処理手段と、前記エネルギー信号内における複数の可能なロケーショ
ンの各々に前記境界が位置する場合の尤度を決定する尤
度決定手段と、前記の可能なロケーションの各々に関して決定された前
記尤度を用いて前記境界のロケーションを決定する手段
とを有することを特徴とする音声処理装置。
【請求項１５】前記尤度決定手段は、（ｉ）カレントロケーションの一方の側におけるエネル
ギー信号の一部分をバックグラウンドノイズ内エネルギ
ーを表すモデルと比較し、（ｉｉ）カレントロケーションのもう一方の側における
エネルギー信号の一部分を音声内エネルギーを表すモデ
ルと比較し、（ｉｉｉ）前記の比較結果を組み合わせることにより、
可能なカレントロケーションに関する尤度を決定するこ
とにより、前記境界が前記の可能なロケーションの各々に位置する
場合の尤度を決定するように動作可能であることを特徴
とする請求項１４に記載の音声処理装置。
【請求項１６】前記モデルは統計的モデルであることを
特徴とする請求項１５に記載の音声処理装置。
【請求項１７】前記モデルはラプラス統計に基づくこと
を特徴とする請求項１６に記載の音声処理装置。
【請求項１８】前記音声モデルは自己回帰モデルである
ことを特徴とする請求項１６または１７に記載の音声処
理装置。
【請求項１９】前記受信信号を処理し、かつ受信信号内
に音声が存在することを識別するように動作可能な音声
検出手段を有し、前記音声検出手段が受信信号内において音声を検出した
場合に前記尤度決定手段が当該受信信号内における前記
尤度を決定するように動作可能であることを特徴とする
請求項１４乃至１８のいずれかに記載の音声処理装置。
【請求項２０】更に、所定周波数より低い周波数を持つ
エネルギー変動を除去するために前記エネルギー信号を
フィルタリングするフィルタリング手段を有することを
特徴とする請求項１４乃至１９のいずれかに記載の音声
処理装置。
【請求項２１】前記フィルタリング手段が１Ｈｚより低
いエネルギー変動をフィルタリングして除去するように
動作可能であることを特徴とする請求項２０に記載の音
声処理装置。
【請求項２２】前記処理手段は、入力音声信号を複数の
連続タイムフレームに分割し、離散エネルギー信号を生
成するために前記タイムフレームの各々における入力信
号のエネルギーを決定するように動作可能であることを
特徴とする請求項１４乃至２１のいずれかに記載の音声
処理装置。
【請求項２３】前記処理手段は、入力音声信号を多数の
連続タイムフレームに分割し、離散エネルギー信号を生
成するために前記タイムフレームの各々における入力信
号のエネルギーを決定するように動作可能であって、前記フィルタリング手段が前記のフィルタリング済みエ
ネルギー信号を表す多数の離散サンプルを出力するよう
に動作可能なことを特徴とする請求項２０に記載の音声
処理装置。
【請求項２４】前記の尤度決定手段が前記離散フィルタ
リング済みエネルギー値の各々に関する前記尤度を決定
するように動作可能であることを特徴とする請求項２３
に記載の音声処理装置。
【請求項２５】前記境界が、前記受信信号の音声を含む
部分の開始または終端に位置することを特徴とする請求
項１３乃至２４のいずれかに記載の音声処理装置。
【請求項２６】入力信号を受信する受信ステップと、受信した信号内の局部エネルギーによって変化するエネ
ルギー変動信号を生成するために受信した前記入力信号
を処理する処理ステップと、所定周波数より低い周波数を持つエネルギー変動を除去
するために前記エネルギー変動信号をフィルタリングす
るフィルタリングステップと、前記フィルタリングステップでフィルタリングしたエネ
ルギー変動信号を用いて前記入力信号における音声の存
在を検出する検出ステップと、を含むことを特徴とする音声処理方法。
【請求項２７】前記フィルタリングステップが所定周波
数よりも高い周波数を持つ前記エネルギー変動信号を除
去することを特徴とする請求項２６に記載の音声処理方
法。
【請求項２８】前記フィルタリングステップが２Ｈｚよ
り低く１０Ｈｚより高い前記エネルギー変動信号をフィ
ルタリングして除去することを特徴とする請求項２７に
記載の音声処理方法。
【請求項２９】前記フィルタリングステップが約４Ｈｚ
の周波数を持つエネルギー変動をパスすることを特徴と
する請求項２７または２８に記載の音声処理方法。
【請求項３０】前記検出ステップが前記フィルタリング
したエネルギー信号を所定のしきい値と比較し、この比
較の結果に基づいて音声の存在を検出することを特徴と
する請求項２６、２７、２８または２９に記載の音声処
理方法。
【請求項３１】前記処理ステップが入力音声信号を多数
の連続タイムフレームに分割し、前記エネルギー変動信
号を生成するために前記タイムフレームの各々における
入力信号のエネルギーを決定することを特徴とする請求
項２６乃至３０のいずれかに記載の音声処理方法。
【請求項３２】所定周波数帯域内にフィルタリングした
前記エネルギー変動信号の変調パワーを決定する変調パ
ワー決定ステップを含むことを特徴とする請求項３１に
記載の音声処理方法。
【請求項３３】前記フィルタリングステップ及び前記変
調パワー決定ステップが前記エネルギー変動信号の離散
部分における変調パワーをフィルタリングし、決定する
ように動作可能であることを特徴とする請求項３２に記
載の音声処理方法。
【請求項３４】前記フィルタリングステップ及び前記パ
ワー変調決定ステップが前記エネルギー変動信号の各離
散部分の離散フーリエ変換の第１非ＤＣ係数を決定する
ことを特徴とする請求項３３に記載の音声処理方法。
【請求項３５】各々が入力信号の一部分を表す入力フレ
ームのシーケンスを受信する受信ステップと、代表的信号内の局部エネルギーを示すエネルギー値のシ
ーケンスを生成するために受信したフレームのシーケン
ス内の各フレームを処理する処理ステップと、所定周波数より低い周波数を持つエネルギー変動を除去
するために前記エネルギー値のシーケンスをフィルタリ
ングするフィルタリングステップと、前記フィルタリングしたエネルギー値を用いて前記入力
信号内における音声の存在を検出する検出ステップと、を含むことを特徴とする音声処理方法。
【請求項３６】前記入力信号における音声を含む部分と
バックグラウンドノイズを含む部分との間の境界を決定
するステップを含むことを特徴とする請求項２６乃至３
５のいずれかに記載の音声処理方法。
【請求項３７】前記の境界決定ステップは、前記境界が
前記エネルギー信号内における複数の可能なロケーショ
ンの各々に位置する場合の尤度を決定し、その中で最大
の尤度を持つロケーションを決定することを特徴とする
請求項３６に記載の音声処理方法。
【請求項３８】音声認識結果を提供するため、前記検出
ステップで検出された音声と、記憶されている基準モデ
ルとを比較する比較ステップを更に有することを特徴と
する請求項２６乃至３７のいずれかに記載の音声処理方
法。
【請求項３９】入力音声信号内における音声を含む部分
とバックグラウンドノイズを含む部分の間の境界のロケ
ーションを決定する音声処理方法であって、入力信号を受信する受信ステップと、受信した信号内における局部エネルギーを示すエネルギ
ー信号を生成するように受信した信号を処理する処理ス
テップと、前記境界が前記エネルギー信号内における複数の可能な
ロケーションの各々に位置する場合の尤度を決定する尤
度決定ステップと、前記の可能なロケーションの各々に関して決定された前
記尤度を用いて前記境界のロケーションを決定するステ
ップとを含むことを特徴とする音声処理方法。
【請求項４０】前記尤度決定ステップは、（ｉ）カレントロケーションの一方の側におけるエネル
ギー信号の一部分をバックグラウンドノイズ内エネルギ
ーを表すモデルと比較し、（ｉｉ）カレントロケーションのもう一方の側における
エネルギー信号の一部分を音声内エネルギーを表すモデ
ルと比較し、（ｉｉｉ）前記の比較結果を組み合わせて、可能なカレ
ントロケーションに関する尤度を決定することにより、前記境界が前記の可能なロケーションの各々に位置する
尤度を決定することを特徴とする請求項３９に記載の音
声処理方法。
【請求項４１】前記モデルは、統計モデルであることを
特徴とする請求項４０に記載の音声処理方法。
【請求項４２】前記モデルは、ラプラス統計に基づくこ
とを特徴とする請求項４１に記載の音声処理方法。
【請求項４３】前記音声モデルは、自己回帰モデルであ
ることを特徴とする請求項４０または４２に記載の音声
処理方法。
【請求項４４】受信した前記入力信号を処理し、受信し
た信号内に音声が存在するかどうかを識別する音声検出
ステップを含み、前記尤度決定ステップは、前記音声検出ステップが受信
した入力信号内に音声を検出した場合に、受信した前記
入力信号内における前記尤度を決定することを特徴とす
る請求項３９乃至４３のいずれかに記載の音声処理方
法。
【請求項４５】更に、所定周波数より低い周波数を持つ
エネルギー変動を除去するために前記エネルギー信号を
フィルタリングするフィルタリングステップを含むこと
を特徴とする請求項３９乃至４４のいずれかに記載の音
声処理方法。
【請求項４６】前記フィルタリングステップは、１Ｈｚ
より低いエネルギー変動をフィルタリングして除去する
ことを特徴とする請求項４５に記載の音声処理方法。
【請求項４７】前記処理ステップは、入力音声信号を多
数の連続タイムフレームに分割し、離散エネルギー信号
を生成するために前記タイムフレームの各々における入
力信号のエネルギーを決定することを特徴とする請求項
３９乃至４６のいずれかに記載の音声処理方法。
【請求項４８】前記処理ステップは前記入力信号を多数
の連続タイムフレームに分割し、離散エネルギー信号を
生成するために前記タイムフレームの各々における入力
信号のエネルギーを決定し、前記フィルタリングステップは、前記のフィルタリング
済みエネルギー信号を表す多数の離散サンプルを出力す
ることを特徴とする請求項４５に記載の音声処理方法。
【請求項４９】前記尤度決定ステップが前記離散フィル
タリング済みエネルギー値の各々に関する前記尤度を決
定することを特徴とする請求項４８に記載の音声処理方
法。
【請求項５０】前記境界は、前記受信信号の音声を含む
部分の開始または終端に位置することを特徴とする請求
項３９乃至４９のいずれかに記載の音声処理方法。
【請求項５１】請求項２６乃至５０のいずれかに記載の
音声処理方法を実行するようにプロセッサを制御するた
めのプロセッサ実行可能命令を記憶することを特徴とす
る記憶媒体。
【請求項５２】音声処理方法を実施するようにプロセッ
サを制御するためのコンピュータ実行可能処理ステップ
を記憶するコンピュータ可読媒体であって、前記処理ステップにおいて、入力信号を受信するステップと、受信した信号内の局部エネルギーと共に変化するエネル
ギー信号を生成するように受信信号を処理するステップ
と、所定周波数より低い周波数を持つエネルギー変動を除去
するために前記エネルギー信号をフィルタリングするス
テップと、前記フィルタリング済みエネルギー信号を用いて前記入
力信号内における音声の存在を検出するステップと、認識結果を提供するために検出された音声を記憶されて
いる基準モデルと比較するステップとを含むことを特徴
とするコンピュータ可読媒体。
【請求項５３】入力信号に関する音声を検出する方法を
実行するようにプロセッサを制御するためのコンピュー
タ実行可能処理ステップを記憶するコンピュータ可読媒
体であって、前記処理ッステップにおいて、入力信号を受信するステップと、受信した信号内における局部エネルギーを示すエネルギ
ー信号を生成するように受信信号を処理するステップ
と、前記エネルギー信号内における複数の可能なロケーショ
ンの各々に前記境界が位置する尤度を決定するステップ
と、前記の可能なロケーションの各々に関して決定された前
記尤度を用いて前記境界のロケーションを決定するステ
ップとを含むことを特徴とするコンピュータ可読媒体。