JPS6039695A

JPS6039695A - 自動音声アクチビテイ検出方法および装置

Info

Publication number: JPS6039695A
Application number: JP14076284A
Authority: JP
Inventors: サンドラ・イー・ハツチンス; スチーブン・エフ・ボール; ジヨージ・ベンスコ; ローレンス・カーリン; アレン・アール・スミス
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1983-07-08
Filing date: 1984-07-09
Publication date: 1985-03-01
Also published as: CA1218458A; EP0143161A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、比較的高いレベルの雑音のある環境において
話す人と無関係の音声アクチビテイの検出を行うための
方法および装置に関するものであシ、マたそのような話
す人と無ｒ！、９係の音声アクチビテイ検出を利用した
自動音声認識装置に関するものである。

〔発明の技術的背景〕

本発明は、本出願人が１９８３年３月９日出願した米国
特許出願第４７３，４２２号の発明と関連したものであ
る。

自動音声認識システムは、通信装置、コンピュータその
他の機械に対して人間の最も自然な便利な通信方法とし
てインターフェイスをする人間のための手段を提供する
ものである。要求されれば、これは電話、コンピュータ
等のオペレータが他の人を呼出した）、データを入力さ
せたシ、情報を要求した）、システムを制御したシする
ことを、オペレータが手や眼が他の作業で使えなかった
シ、暗かったシ、或は端末において座っていることがで
きないような場合にも可能にする。

従来知られている自動音声認識方法は次のようにして行
われる。すなわちパントノ！スフィルタ（ＢＰＦ）でろ
波された可聴周波数音声入力信号が周期にサンプリング
されてデータフレームが生成され、次いでそのデータが
予備処理されて音声処理にさらに適したものであるパラ
メータ値の処理されたフレームに変換され、複数のテン
グレー）　（ｔｅｍｐｌｉｔｅ　）を蓄積しく各テング
レートは１つの語を表わす／やラメータ値の予め生成さ
れ処理された複数のフレームであシ、そのＨ社−緒にさ
れた時に自動音声認識装置の基準断食を形成する）、音
声の処理されたフレームを予め定められたアルゴリズム
例えばダイナミックプ四グラオンダアルゴリズム（ＤＰ
Ａ　）に従ってテンプレートと比較する。ＤＰＡはＩ　
ＥｇＥＴｒａｎｓ、Ａｏｏｕｓｔｉａｍ＋５ｐｅｅｃｈ
　ａｎｄ　ＳｉｇｎａｌＰｒｏｅｅｓｓ＋ｉｎｇ＋ＡＳ
ＳＰ　−２３巻６７〜７２頁（１９７５年２月）にＦ、
イタクラ氏によって発表されておシ、与えられたテンプ
レートと話された語との間の最良の時間整列路または整
合を有することが認められている。

自動音声認識はエネルギの測定に基いた音声の終シの点
の検出に依存している。従来の技術においては音声アク
チピテイ検出装置は音声であると仮定されたエネルギの
存在と沈黙であると仮定されたエネルギの欠如とを弁別
している。

それ故従来の自動音声認識装置は比較的静かな環境で使
用することが必要であシ、そうでなければ認識の正確度
は急激に低下する。静かな環境が必要であることは音声
ｇ識装置が適用される用途を制限する。例えば従来の音
声認識装置杜維音の多い工場の床の上に置いて動作させ
たル、航空機のコックビット中等で使用することは困難
である。これらの軸音の多い環境では音声が存在しない
時に雑音が発生し、雑音は時には音声信号レベル以上の
レベルを有し、音声信号が存在しているかどうか判定す
ることは困難である。それ故、話す人と無関係な音声ア
クチビテイ検出の方法および装置を捉供することが望ま
れておシ、音声が存在し麦い時に雑音が比較的高いレベ
ルで発生するよう外環境において動作しなければならな
い自動音声認識装置において使用するそのような音声ア
クチビテイ検出の方法および装置が望まれている。

〔発明の概要〕

本発明は、音声が存在しない時に音声信号に等しいかそ
れよ多大きい信号強度であってもよい雑音信号レベルで
発生する雑音を含む雑音の存在している中で音声信号の
音声アクチビテイ検出を行う方法および装置に関するも
のである。

入力信号はデジタル化され、このデジタル化された信号
に関係するデジタル信号値のフレームが反覆的に形成さ
れる。音声信号および雑音信号は自動的処分離される。

好ましい実施態様においてはこれは話す人とは無関係釦
予め定められた、一定の動作すなわち変換をフレームに
ついて行うことによって為される。

また、好ましい実施態様においては、入力信号は周波数
に応じてろ波されて卵数のフィルタ出力信号が形成され
、それらは次いでデジタル化される。フレームはデジタ
ル化されたフィルタ出力信号から生成される。線形変換
がそのデジタル信号値のフレームに適用されて各フレー
ムに対するスカラ特徴が生成され、その大きさは雑音信
号よシ音声信号に対して大きい。

検出しきい値がスカラ特徴の大きさに対して生成され、
それは反覆的に更新される。スカラ特徴は検出しきい値
と比較され、複数の連続した比較の結果が蓄積される。

蓄積された結果は予め定められた方法で組合わされ、音
声信号が偽存在する時驚指示が得られる。

音声信号が存在する指示が与えられる時、フレームは認
識可能な語の語希を表わす蓄積されたテングレートと比
較される前にさらに前処理される。比較はダイナミック
プログラミングアルゴリズム（ＤＰＡ　）に基いて行わ
れる。

本発明の目的、特徴および効果は、添付図面を参照にし
た以下の実施例の説明によってさらに明らかになるであ
ろう。

〔発明の実施例〕

第１図は自動音声認識装置１００のブロック図である。

それは、マイクロホン１０２と、マイクロホン前置増巾
器１０４と、この増巾器１０４の可聴周波数信号出力の
デジタルスペクトルサンプリングを行うバンド／４スフ
イルタ／９ンク（以下ＢＰＦとい５）回路１０８と、プ
ロセッサ間通信回路１１４および１１６によって相互接
続された一対のｆ０セッサ１１０および１１２と、およ
び外部不揮発メモリ装置１１８とを備えている。好まし
い実施例ではプロセッサ１１０．１１２はモトローラ社
のＭＣ６８０００をマイクロプロセッサであシ、プロセ
ッサ間通信回路１１４，１１６はＭＣ６８０００型マイ
ク四プロセッサ間のデータの転送および中断を処理する
ための通常の設計の回路である。ＭＣ６８０００型に対
する中断方法についてはＭＣ６８０００型の説明書に充
分に記載されている。

音声認識アルゴリズムはプロセッサ１１０および１１２
のＥＰＲＯＭメモリ部分１２２および１２４にそれぞれ
蓄積されておシ、予め定められた断食は外部不揮発繊メ
モリ装置１１Ｂ中の予め作られたテンプレートとして蓄
積されている。メモリ装置１１８は例えばインテル社の
Ａプルメモリ７１１０型でよく、それは１００万ピツト
を蓄積できる。この実施例では断食中に３６語しかなく
、平均テンブレ′−ト当ヤ要求される４０００ビツトを
有する３６のテングレートがある。したがってバブルメ
モリは約２５０のテンプレートを蓄積できる。テンプレ
ートがＢＰＦ回路１０８から音声データの入来フレーム
との比較のために必要であるとき、それらはメモリ１１
８からプロセッサ１１２中の動作メモリ１２６に呼出さ
れる。

第２図を参照すると、ＢＰＦ回路１０８の詳細なブロッ
ク図が示されている。第１図の導線１３０上の前置増巾
器１０４からの出力信号は１０　ｋｐｍの３　ｄｂバン
ド巾を有する入力増巾器２００に送られる。これに続い
てオクターブ当ｐ　６　ｄｂのプレエンファシスを行う
増巾器２０２があシ５００或は５０００１ｉｚの周波数
において台９選択実にカットする。これは一般に音声データ中の振巾
では高い周波数のものの方が振巾が低）− いために低い周波数よシ高い周波数において高い利得を
与えるために通常使用されている。増巾器２０２の出力
信号は分割されアンチ・アリアス（、ａｎｔｌ−ａｌｌ
ａｓｌｎｇ　）フィルタ２０４（ｊ！断同周波数１４　
ｋＨｚ　）および２ｏ６ｃ遮Ｐ’Ｒ周波数１０、５　）
ｃＨｚ　）の各入力部に与えられる。これらは次のサン
プリングのために生じるアリアスを消去するために設け
られている。

フィルタ２０４および２０６の出力はＩＩＰＦ回路２０
８および２１０にそれぞれ供給される。

ＢＰＦ回路２０８はチャンネル１〜９ｆ：含み、ＢＰＦ
回路２１０はチャンネル１０〜１９を含む。

−チャンネル１〜１８のそれぞれは１／３オクターブフ
イルタを含んでいる。チャンネル１９は全オクターブフ
ィルタを含んでいる。チャンネルフィルタはＲａｔｉｃ
ｏｎ社Ｒ５６０４型およびＲ５６６０６型のスイッチド
キャパシタ装置を使用して通常の形式で構成されている
。第３図はＢＰＦ回路２０８および２１０のクロック入
力周波数、中心周波数および１９のチャンネルの３　ｄ
ｂバンド巾を示している。ＢＰＦ回路２０８および２１
０に対して要求されるバンドパスフィルタクロック周波
数入力は通常の方法で１．６３２ＭＨｚり四ツク２１３
によって駆動されるクロック発生回路２１２から発生さ
れる。

ＢＰＦ回路２０８および２１０の出力は整流され、ロー
パスフィルタでろ波され（遮断周波数＝３０Ｈｚ）、同
時にサンプリング回路２１４中の１９のサンプルおよび
保持回路においてサンプリングされる。１９のチャンネ
ルサンプルはマルチプレクサ２１６およびｚ　１　Ｂ　
（Ｓｉｌｉｃｏｎｌｘ社ＤＧ５０６型）を通って多重化
され、対数〜Φ変換器Ｃ５ｉｌｌｅｏｎｉｘ社ＤＦ３３
１型）においてアナログ信号からデジタル信号に変換さ
れる。変換器２２０は８ビット順次出力を有し、それは
パスｘｓ；ｔを通ってプロセッサ１１０へ−の入力とす
るために直列並列レジスタ（ＮａｔｌｏｎａｌＳｅｍｌ
ｃｏｎｄｕｃｔｏｒ　ＤＭ８６　ＬＳ　６２型）２２２
にお、いて並列フォーマットに変換される。

２　ＭＨｚのクロック発生器２２４は回路２１４、マル
チプレクサ２１６および２１８およびめ変換器２２０の
ために種々のタイミング信号を発生する。サンプルおよ
び保持命令は１０ミリ秒毎に１回、線２１５によって回
路２１４に与えられる。各サンプルおよび保持回路はタ
イミング回路２２６から回路２１６と２１８へパス２１
７を経て送信された５ビツト選択信号に応答して順次Ｋ
（５００マイクロ秒毎に１回）多重化される。４ビツト
は回路によって使用され、一方１ピットはどの回路を選
択するかに使用される。それ故ψ変換器の１９のサンプ
ルされたチャンネルプラス基本基準サンプルに１０ミリ
秒が取られる。これらの２０個の８ピットデジタル信号
はデータフレームと呼ばれ、それらは適当々時間にパス
１３２上をマイクロプロセッサ１１０へ送られる。フレ
ーム毎に１つの状態信号がタイミング発生回路２２６か
ら発生され、導線２２８を経てプロセッサｌｌ０Ｊ／Ｃ
Ｊｉえられる。との信号はプロセッサ１１０の入力に対
するタイミングでフィルタ回路１０Ｂを同期させる。タ
イミング発生回路２２６はさらに導′ｍＸ　Ｓ　Ｏを経
てプロセッサ１１０に２　ｋＨｚデータ準備準備ストロ
−用力する。これはプロセッサ１１０に対してフレーム
轟り２ｏの中断信号を与える。

第４図を参照すると本発明の自動音声ＨＭｅｌｔアルゴ
リズム装置４００のブロック図が示されている。それは
４個のサブ動作部分に分けられることができる。すなわ
ちバンドパスフィルタデータ変換装置４０２；音声アク
チビテイ検出装置４０４：可変フレーム率エンコードお
よヒ正規化メルーセグストラル（ｍｏｌ−ｅｅｐｓｔｒ
ａｌ）変換装置４０６；および認識装置４０８である。

音声アクチビテイ検出装許４０４はＶａｘｌｌ／７８０
において使用するためのＣ言語およびＭＣ６８０００型
において使用するための組立％言語で構成されている。

Ｃ言語は技術社会において一般に使用されウェスターン
・エレクトリック社から入手できる高次元言語である。

装置４０４のＣ言語形式については後述する。それＫつ
いては第７図の説明に関連してさらに詳細に説明する。

前述のように５００ミリ秒毎にマイクロプロセッサ１１
０は導線２３０を介して回路１０Ｂによって中断される
。その中断を処理するソフトウェアはＢＰＦ変換装置４
０２である。通常、パス１３２からの新しい８ピツトフ
イルタ値はバッファ中に蓄積されるが１０ミリ秒毎に（
２０回目の中断）新しいフレーム信号が導線２２８を経
て送られる。ＢＰＦ変換装置４０２はバッファされた１
９個の８ビツトフイルタ値を取シ、最初の３つの値を組
合せて第１の係数にし、次の２つの値を第２の係数とし
、１９番目の値を捨てる。何故ならば、特に雑音環境に
おいては何か有用な情報であっても少ししか含まれてい
ないことが発見されたからである。その結果の１５係数
は入力信号の１つの１０ミリ秒フレームを特徴づける。

変換された音声フレームは、もしも音声アクチビテイ検
出装置４０４が音声の存在を指示したならば、バッファ
４１０１Ｃ，次いでＶＦＲＥおよびメル・セプストラル
変＃ｌ！、装置４０６に伝送される。音声アクチピテイ
検出装ｆ１４０４については後で詳しく説明する。この
検出装置４０４が音声の存在を指示した瞬間を考えると
、変換装Ｗ４０６においては予め蓄積されたフレームと
バッファ４１０中の現在のフレームとの間のユークリッ
ド距離（Ｅｕｃｌｉｄｅａｎ　ｄｉｓｔａｎｃｓ　）が
決定される。もしもその差が小であり（同様に大きい）
、データの２フレ一ム以上がスキップされるととがない
々らば、現在のフレームは通過する。他方それは将来の
比較のために蓄積され、正規化されたメル・セグストラ
ル変換の次のステツブに通過する。平均で回路１０８か
らのデータフレームの半分が通過する（すなわち、毎秒
５０フレーム）。

処理されるべきデータを減少させるために、１５個のフ
ィルタ係数は線形変換マトリックスによって５個の係数
に減少される。一般に使用されるマトリックスは５個の
メル・コサインベクトルのファミリーから成シ、それは
バンド／母スフイルタのデータをメル・セプストラル係
数の近似値に変換する。メル・コサイン線形変換につい
ては［１ｌＤａｖｉｓ＋Ｓ、Ｂ、およびＭｅｒｍｅｌｓ
ｔｏｉｎ＊Ｐ。

の論文Ｅｖａｌｕａｔｉｏｎ　ｏｆ　Ａａｏｕｓ＋ｔｌ
ｃ　Ｐａｒａｍｅｔｅｒｆｏｒ　Ｍｏｎｏｓｙｌｌａｂ
ｌｅ　Ｗｏｒｄ　Ｉｄｅｎｔｌｆｉｅａｔｌｏｎ（Ｊｏ
ｕｒｎａｌ　Ａａｏｕｓｔ、Ｓｏｏ、Ａｍ−第６４５ｕ
ｐｐｌ・１・Ｓ　１８０〜１８１頁および（２）同じく
両氏の論文Ｃｏｍｐａｒｌｉｉｏｎ　ｏｆ　Ｐａｒａｍ
ｅｔｓｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒ　Ｍ
ｏｎｏｓｙｌｌａｂｉｅ　Ｗｏｒｄ　Ｒｓｃｏｇｎｉｔ
ｌｏｎ　ＩｎＣｏｎｔｌｎｕｏｕｓｌｙ　５ｐｏｋｅｎ
　５ｓｎｔｅｎｃｅｓ　（ＩＥＩＪＴｒａｎｓ。

Ａｅｏｕｓｔ、＋５ｐｅｅｃｈ＋Ｓ１ｇｎａｌ　Ｐｒｏ
ｅ、、ＡＳ８Ｐ−２８巻３５７〜３６６頁に記載されて
いる。しかしながら本発明の実施例においてはメル・コ
サイン線形変換における変形の正規化されたメル・セゾ
ストラル変換と呼ばれるものが使用されている。すなわ
ち未処理のＢＰＦデータは正規化されてゼロ平均にされ
、５００　Ｈｚよシ上で実質ゼロスロープに正規化され
、１ステツプにおいてメル・コサイン変換される。最初
のメル・セゾストラル係数（それはスペクトルスロープ
に非常に敏感である）は使用されない。

メル・セゾストラル変換を受けた各フレームはそれから
ｆ０セッサの動作メモリ１２６中に今蓄積されている断
案を表わすテンプレートのそれぞれと比較される。比較
は前述の米国特許出願４７３．４２２号明細書に記載さ
れた、周知のダイナミックプログラミングアルゴリズム
（ＤＰＡ）に基づいたアルゴリズムの認？８ｊ部４０８
に従って行われる。ＤＰＡについては前述のようにＦ、
イタクラ氏の論文に記載されている。上述の米国特許出
願においてはＤＰＡの変形方式が使用されパス境界制御
による窓のある（ｗｉｎｄｏｗｅｄ）　ＤＰＡと呼ばれ
ている。ＤＰＡの概要は以下第５図の説明に関連して与
えられる。テンプレートはｙ軸５０２上に置かれ、ｕＷ
＆されるべき入力語はズ軸５０４上に置かれてＤＰＡマ
トリックス５００が形成される。マトリックス中のセル
は何れも語フレームを有スるテンプレートフレームの１
つづつのマツピングに対応する。これらの／ヤターンの
フトーム間の任意の時間整列は左下隅から右上隅へのマ
トリックスを通る通路によって表わされることができる
。代表的な整列路５０６が示されている。ＤＰＡ機能は
、マトリックス中において変数Ａ、Ｂ、Ｃによシ表わさ
れる隣接セルに終る最良の通路に延びることによシ名セ
ルＤＫ対する最良の通路を順次発見することによってマ
トリックスを通る局部的に最良の通路を発見する。最小
スコアを有する通路はＤＫ局部通路強制を受けるように
延びるように選択される。各水平または垂直ステップは
斜方向ステップが後続しなければならない。例えばもし
も垂直ステップがセルＣに行われたならば、セルＣにお
ける通路はセルＤＫ対する最良の通路として選択される
ことはできない。セルＤにおける通路スコアは前の通路
スコア（Ａ、ＢまたはＣからの）ｆラスセルＤにおける
フレームからフレームまでの距離によって更新される。

この距離はもしも斜めのステップが通路スコアの正規化
罠よυ選択されるシらば加える前に２倍にされる。ＤＰ
Ａ機能の移動は各発声フレームに対してテンプレート軸
に沿っている。以上説明した機能はＢ変数をセルＤのス
コアにリセットし、Ａ変数をセルＣあスコアにリセット
し、Ｃに対して新しい値を蓄積部から検索することＫよ
って認識アルゴリズムの最も内側のループにおいて反覆
される。

しかしながら装置４０６と４０８が動作できる前に、音
声の始めと終シが検出されなければならない。雑音が少
いか、全く存在しない静かな環境において音声認識が行
われる場合には、エネルギ測定に基いた終点検出が使用
できる。

しかしながら、例えば航空機特に戦闘機の環境では伝統
的な音声アクチビティ検出器−を使用できなくするよう
な２つの形式の雑音が存在する。

すなわちエンジンと風からの背景雑音が音声信号に加え
られ、その結果、信号と付加された雑音の分離の昔から
の検出の問題を生じる。第６図の曲線６０２を参照され
たい。マスクに酸素調整器を使用すると吸入および排気
から雑音が発生し、それは音声と共働せず偽似検出を生
じる可能性がある。曲線６０４および６０６を参照され
たい。これらの雑音と関連した信号の振巾は多くのコッ
クピットの状態におりて音声信号の振巾を超過する。

第７図を参照して音声アクチビテイ検出装置４０４を詳
細に説明する。ＢＰＦ変換装置４０２からのデータの多
数のフレームは種々の発声者と酸素調整装置からの音声
と雑音の両者を表わしておル、フレームに供給されたと
き話している音声範囲に亘って音声と雑音との間の良好
な分離を与える一定した変換を決定するように何機ベク
トル７０２が発見され、その変形されたフレーム７０４
との内積７０３はバンドパスフィルタ７０５から出力さ
れ、雑音から音声を良好に分離するスケーラ％、徴７０
６を与えることが決定された。ＢＰＦ変換装置４０２か
ら来るフレームは対数ＡＪ／′Ｄ変換器２２０の作用に
よシ対数的に符号化されたフレームである。しかしなが
ら、雑音信号と音声信号のエネルギに比例したフレーム
が形成されるならば、さらによい結果が得られる。これ
は７０５からのＢＰＦフレームをフレーム成分７０７の
逆対数の２乗動作することによって行われる。このステ
ップは特徴のダイナミック範囲を増加することによって
音声アクチビテイ検出を強調し、したがって音声スペク
トルのピークと比較的ブロードな雑音および音声以外の
ス（り、トルとの間のさらに良好な分離を与える。

良好な特徴ベクトルＦを導出する念めに、音声が存在し
ない時に生じる雑音と複数の発声者うに行われ変形され
る。データは音声フレーム［８）および雑音フレーム［
Ｎ）のセットに分ケラれる。検査によシＦＫおける良好
な直感的推論が行われ、次いで以下の式によって全ての
〔Ｓ〕および全ての（Ｎ）　ＫよるＦの内積が作られ、
その結果のスカラ特徴の２つのクラスの統計的オーバー
ラツプＣＦ、　Ｓ）および（：Ｆ、Ｎ］が測定され、分
離したフィギュア・オノ・メリットが形成される（・は
２個のベクトルの内積を形成する表示である）。

各特徴ベクトル成分子ｊにおける小さな変化が作られ、
例えばＦの第１の成分子１は少し大きく作られ、それか
ら少し小さく作られ、次いで同じことがｆ３について行
われ、以下同様に行われる・冬季さな変化に対してＦ、
ＳおよびＦ、Ｎは全てのフレーム〔Ｓ〕および〔Ｎ〕お
よび再び測定された分離に対して再び計算される。これ
はよシ良好な分離のためのＦの変化を行わせる方向を特
定する。したがってＦｌｄ変化され、出発点に対して新
しいベクトルが得られ、このプロセスは反覆される。こ
の方法は傾斜サーチとして知られている。

顕著な改善であることを示す特徴ベクトルＦが形成され
る時、それがどのように働くかを確認することが認識装
置アルゴリズムにおいて試みられた。もしも成る形式の
紋音が依然として検出をトリがすることが発見され、或
は成る音声が調和してミスされたならば、それらのザン
ゾルが取られ、データベース［Ｓ］および［Ｎ）に加算
される。それから新しいベクトルが古いデータと同様に
新しいデータを処理するためにサーチされる。

傾斜サーチ中所要の内積および分離の計算を行う補助と
して、ＶＡＸコンピュータに対してＣ言語中に１つのプ
ログラムが作られた。上述した多少変形した傾斜サーチ
用のプログラムのリストについては後に示す。

好ましい実施例では、前述の傾斜サーチにょシ発見され
た１５のパラメータ特徴ベクトルは次のとおシである。

１０．０２　１３．９３５．９４１．２５１．４６１．４７１．５８１．６９２．４１０　１．３１１　２．０１２　１．２１３　４．８１４　−１３．６１５　０．０一度最良の特徴ベクトルが決定されると、変形フレーム
との白状動作によシ形成されたスカラ特徴は集められて
、第７図に全体を７１０で示されたヒストグラムに形成
される。Ｘ軸７１２はスカラ特徴の大きさであシ、一方
、ｙ軸７１４は特定の大きさが生じる回数である。ジェ
ット雑音７１６および酸素調整装置雑音７１８はしきい
値７２０以下で生じる。一方音声７２２はしきい値７２
０よシ上で生じる。

音声認識装置が例えば戦闘機のコックピットで使用され
ている時、音声アクチピテイ検出装Ｍ４０４は最初に検
出しきい値を選択するが、その後連続的に統計を集め、
特徴７２６のヒストグラムを更新する。１０００フレー
ム毎に検出しきい値はヒストグラム中の統計に基いて調
整される。例えばピーク７５０はヒストグラム７１０中
に位置し、サーチはビーク７５０の前方へ低い点７２０
を位置させる。しきい値は低い点の値に１または２のよ
うな向等かの値をプラスした値に設定される。最後に各
ヒストグラムエントリは２分されヒストグラム値が過大
にガって行くことのないように保持する。

検出しきい値７０８の大きさは各フレームに対してゾｉ
ツク７３０においてスカラ特徴７０６の大きさから減算
される。重みづけ機能７３２がｆ０ツク７３０の出力値
に適用されてそれらが７３４においてろ波されクランプ
される前にに平滑にする。重みづけ機能はブロック７３
０から大きな負の値を減少させ小さな正の値を減少させ
る。大きな正の値は実質上影響を受けずそのままである
。重みづけ機能はフィルタおよびフランジ機能７３４に
よシ行われる積分処理と共同して音声検出の始めおよび
終シの間の鋭いカットオフ点を与える。大きな負の値は
もつと小さな値よシも音声不存在の指示の良好な結果を
与えるものではなく、音声が存在する時を指示すること
から積分処理を歪ませ遅延させる。

小さい正の値は音声が存在するかどうかについての不確
実性を生じ、検出されないままの方がよい。実施例の重
みづけ機能およびフィルタおよびフランジ機能はＣ言語
において与えられる。

装置４０２からの４つの連続フレームに対応するフィル
タおよびフラング機能７３４から４つの値はバッファ７
３６中に蓄按される。マルチフレーム決定論理装置７３
８は音声が存在するかどうかを決定するために使用され
る。例えばもしも音声が存在しないならば、およびもし
も４個のベソファ全てが正の指示を与えられるならば、
その時には決定鉱音声が存在するとされる。そしてこれ
は第４図のグロック４１０に転送される。それ以外では
決定は音声が依然として存在しないとされる。他方音声
が現在存在しているならば、決定はもしもバッファのど
れか１つが音声が存在していることを指示するならば音
声が存在するとする。もしも４個のバッファ全てが音声
信号が存在しないことを指示す　。

るならば音声杜今終ったと決定される。゛上述の復号は
Ｃ言語で行われる。

実施例において装置４０２，４０４および４０６はプロ
セッサ１１０中で動作され、−刃装置４０８はプロセッ
サ１１２中で動作する。

しかしながら、２個のプロセッサが１個に組合されるべ
き理由はない。本発明は分離された語認職による３６語
の語垂に関するものであるけれども、音声アクチビテイ
検出装置がもつと大きな語粟の連続音声認識装置と共に
使用できない理由はない。また予め定められた特徴ベク
トルおよび音声フレーム間の内積の使用による音声アク
チビテイ検出は、バンドパスフィルタ変換装置４０２か
らデジタル信号の値の対数に比例しているこのフレーム
を通って直接与えられた音声フレームについて行われる
とともできる。

同様に内積は、デジタル信号がデジタル信号の大きさに
比例し、２乗に比例しないフレームを使用して行われる
こともできる。

認識装置の実行の結果は、コックビットの音圧レベルが
１１５　ｄＢで加速力が５Ｇである最悪の場合に対して
８５から９５％の認識正確度を示している。事実、その
システムは低レベル周囲雑音特性（９５＋％正確度）か
ら約１０６ｄＢの雑音レベルまで劣化を示さない。しか
しながら、５Ｇの加速力における１　１５　ｄＢの音響
レベルはしばしば見せかけであることが指摘されなけれ
ばなら々い。／ぐイロットは部分的に周囲のコックビッ
ト雑音から密閉されている酸素ｈ１４整装置中に話す。

しかしながら、雑音および加速力によるストレスによっ
て７４イロツトは正常の話し方よシ劣った話し方で話す
ようＫなる。また酸素調整装置中へのパイロットのスト
レスによる息によって生じた雑音も存在する。

以上本発明をその特定の実施例に関連して説明したけれ
ども、その他の多くの実施態様が特許請求の範囲に記載
された発明の技術的範囲に含まれることを理解すべきで
ある。

【図面の簡単な説明】

第１図は本発明の１実施例のブロック図であシ、第２図
は第１図の装置のパントノやスフイルタ部分の詳細ブロ
ック図である。第３図は第２図のフィルタ特性を示し、
第４図は本発明における音声認識アルゴリズムの動作を
示すためのブロック図であシ、第５図は第４図における
認識部分の整列および整合をまとめたグラフである。第
６図は音声ならびにジェット雑音および酸素調整装置雑
音の振巾対周波数特性を示し、第７図は第４図の音声認
識アルゴリズムの音声アクチピテイ検出部分の詳細なブ
ロック図を示すＯ第１頁の続き＠発明者　ジョージ・ペンスコ　７０発　明　者　ローレンス−カーリン　アエ＠発明者　アレン・アール・スミ　アス　−：メリカ合衆国、カリフォルニア州、ラモナ、ハンドルバ
・ロード　１６９２７メリカ合衆国、カリフォルニア州、ボモノ、イースト・
イッス・ストリート　６２３４リ力合衆国、コネチカット州、ハンチイントン、バタ
カツプ・レーン　２７

Claims

【特許請求の範囲】

（１）音声が存在していない時に発生している雑音を含
む雑音の存在下に音声アクチビティを検出し、それにお
いて前記雑音と関係する信号から前記音声に関係する信
号を自動的に分離することを特徴とする音声アクチピテ
ィ検出方法。
（２）　前記雑音信号は前記音声信号の大きさに等しい
かそれよシ大きいものである特許請求の範囲第１項記載
の方法。
（３）　前記信号を分離する方法として、前記音声およ
び雑音信号を周波数によってろ波して複数のフィルタ出
力信号を出力させ、これらフィルタ出力信号をデジタル
化し、それらフィルタ出力信号に関係する複数のデジタ
ル信号値を有するフレームを反覆形成し、話す人と無関
係の、予め定められた、一定の変換を前記フレームの前
記デジタル信号値に適用して前記音声信号に関係するク
レームを前記雑音信号に関係するフレームから分離する
特許請求の範囲第１項記載の方法。
（４）前記予め定められた、一定の変換を適用するに際
して前記雑音信号と関係するフレームと関係したスカラ
特徴の大きさより大きい大きさを持つ前記音声信号と関
係する前記フレームの大部分に対してスカラ特徴を生成
する特許請求の範囲第３項記載の方法。
（５）　前記フレームと関係する前記スカラ特徴の大き
さを蓄積し、その蓄積された大きさから検出しきい値を
反覆して設定し、各フレームの前記スカラ特徴を前記し
きい値と比較して、前記音声信号の存在しない前記雑音
信号から音声信号を分離する特許請求の範囲第４項記載
の方法・
（６）前記蓄積されたスカラ％徴の大きさからスカラ特
徴の大きさのヒストグラムを形成し、前記検出しきい値
の設定はＮを約１ｏｏｏとしてＮフレーム毎に１画集行
される特許請求の範間第５項記載の方法。　−
（７）帥記スカラ特徴としきい値の比較は前記検出しき
い値を前記スカラ特徴の大きさから減算して未処理の特
徴値を生成することによって行われ、さらに複数の連続
するフレームと関係する前記未処理の複数の特徴値が蓄
積され、予め定められた態様によってそれら複数の未処
理の特徴値がデコードされて音声信号が存在する時を指
示する特許請求の範囲第５項記載の方法。
（８）　前記デジタル信号値に変換を適用する方法は、
各フレームにおける前記複数のデジタル信号値に対して
等しい数のｖＩ数の素子を有する一定の線形特徴ベクト
ルを形成し、前記線形特徴ベクトルとデジタル信号値の
各フレームとの内積を形成することを含む特許請求の範
囲第４項記載の方法。
（９）　前記フレームの前記複数のデジタル信号値は前
記音声および雑音信号の大きさの２乗に関係している特
許請求の範囲第３項記載の方法。卸　音声信号に関係した信号および雑音に関係した信号
をデジタル化し、前記音声および雑音信号に関係したデ
ジタル信号値のフレームを形成する手段と、前記デジタル化する手段に結合されて前記雑音信号から
音声信号を自動的に分離する分離手段とを具備している
ことを特徴とする音声が存在しない時に発生する雑音を
含んだ雑音の存在下において音声の音声アクチビテイ検
出を行う装置。Ｑツ　前記分離手段は、話す人と無関係の、予め定めら
れた、一定の変換を前記フレームの前記デジタル信号値
に対して施す手段を備え、それＫよって前記音声信号に
関係するフレームが前記雑音信号に関係するフレームか
ら分離される特許請求の範囲第１０項記載の装置。（ロ）前記変換を施す手段は、前記フレームからスカラ
特徴を生成する手段を備え、分離手段はしきい値を設定
し、更新する手段を備え、前記検出しきい値よシ大きさ
の小さいスカラ特徴と関係するフレームは雑音信号と関
係するものとして考慮され、検出しきい値よシ大きさが
大きいスカラ特徴は音声信号と関係するものとして考慮
される如く構成されている特許請求の範囲第１１項記載
の装置。 α罎　前記スカラ特徴を前記検出しきい値と比較する手
段と、複数の連続するフレームに対して検数の前記比較
の結果を蓄積する手段と、蓄積された結果を組合わせて
音声信号が存在する時の指示を得る手段とを備えている
特許請求の範囲第１２項記載の装置◎ ０４　前記雑音信号の大きさが前記音声信号の大きさに
等しいかそれよ〕大きいものである特許請求の範囲第１
０項記載の装置０（ロ）　前記フレームのデジタル信号値が前記音声およ
び雑音信号の大きさの２乗に関係している特許請求の範
囲第１１項記載の装置。０時　音声と関係する信号および雑音と関係する信号と
をデジタル化し、前記音声および雑音信号と関係するデ
ジタル信号値のフレームを形成する手段と、音声信号が存在している時を決定するために前記雑音信
号から音声４８号を自動的に分離するように前記デジタ
ル化する手段に結合された音声アクチピテイ手段と、前記デジタル化する手段および前記音声アクチビテイ手
段に結合されて音声信号が存在することを帥記音声アク
チビテイ手段が決定する時にさらに認識処理をするのに
一層適しているパラメトリックデータのフレームに前記
フレームを変換する音声認識手段と、前記音声認識手段に結合され、前記音声信号が認識され
るように認識されるべき前記音声を表わしている複数の
テンプレートと前記／母うメトリックデータのフレーム
の選択された１個とを比較する手段とを具備しているこ
とを特徴とする音声が存在しない時に発生する雑音を含
む雑音の存在下で音声の自ｍｌ　Ｎ　識を行う装置。Ｏ′／）比較はダイナミック・プログラミング・アルゴ
リズムによって行われる特許請求の範囲第１６項記載の
装置・（１時　前記音声アクチピティ手段は、前記フレームか
らスカラ特徴を生成する手段と、検出しきい値を設定し
、更新する手段と、前記スカラ特徴を検出しきい値と比
較する手段と、複数の連続するフレームに対して前記複
数の比較の結果を蓄積する手段と、前記蓄積された結果
を組合わせて音声信号が存在する時の指示を得る手段と
を備え、前記検出しきい値を設定し更新する手段におい
ては検出しきい値よシ大きさが小さいスカラ特徴を有す
るフレームは雑音信号と関係するものとして考慮され、
検出しきい値より大きさが大きいスカラ特徴を有するフ
レームは音声信号と関係するものとして考慮される特許
請求の範囲第１６項記載の装置。０呻　前記雑音信号の大きさが音声信号の大きさに等し
いか大きいものである特許請求の範囲第１６項記載の装
置。に）音声アクチピテイ手段に結合された前記デジタル信
号のフレームを変形してデジタル信号の変形フレームを
形成する手段が設けられ、それにおいて前記デジタル信
号値は前記音声および雑音信号の大きさの２乗に関係す
るものである特許請求の範囲第１６項記載の装置。