JPS58176700A

JPS58176700A - 音声認識装置

Info

Publication number: JPS58176700A
Application number: JP57059024A
Authority: JP
Inventors: 信之寺浦; 久米　一秋
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1982-04-09
Filing date: 1982-04-09
Publication date: 1983-10-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発Ｆ！Ａ＃−ｉ、例えばエンジン音等の騒音の影響
を効果的に低減できるように改良した音声認識装置に関
する。

例えば、自動車等の車輛に搭載する音声認識装置におい
て、音声認ｗ＆ヲ確実に実行させるために最も大きな障
害となるのは、車室内の特に走行時における騒音である
。したがって、車載用の音声認識装置でその音声入力部
が要求される条件として＼は、必要な入力音声のみを効
率よく捕捉し、それ以外の騒音はできるかぎシ捕捉しな
いようにすることである。また、会議室、工場内環で使
用する音声認識装置においても、周囲騒音に対して同様
のことが云える。

従来、このような条件を満足させるための入力手段とし
ては、まずノイズキャンセル型マイクロ７オンを使用す
ることであり、第２に指向性の高いマイクロフォンを使
用することである。

ノイズキャンセル型マイクロフォンｈ、球面波のみに感
応するように構成されるもので、したがって、口元に接
近して設置する必要がある。

このため、常圧頭部に固定器具を用いて固定しなければ
ならず、例えば運転者にとってわずられしいものとなる
。また、頭部を圧迫するために、疲労感を与えるので、
音声認識装置の入力部として用いることは不適尚である
。また、音声入力を行なう同乗者等に対してのこの型の
マイクロフォンの装着を求めることは実用的でない。

また、指向性の高いマイクロフォンを用いるようにした
のでは、運転者もしくは同乗者の発声位置が異なるため
、発声者の位置に常に指向性を向けることは、固定さ九
たマイクロフォンによっては不可能である。

また、指向性の高いマイクロフォンは、複数のマイクロ
フォンを用い、そのそれぞれの入力の和もしくは差を単
にとるように構成している。

しかし、この手段では特定の方向にしか全周波数範囲に
指向性を高めることは不可能である。

例えば２つのマイクロフォンを平行にして設置した場合
ＫＦｉ、両マイクロフォンの中点に対して垂直な方向の
みに全周波数範囲にわたって指向性を高めることが可能
である。このことは、音源と両マイクロフォンへの行路
差に依存して指向性を作り出しており、行路差と音波の
波長との関係によって位相がずれることにより、特定の
周波数に対しては指向性？有するが、他の周波数に対し
ては逆に打ち消し合うという現象が生ずるからである。

したがって、複数のマイクロフォン入力を波形領域でそ
の和もしくは差をとるような構成としても、任意の方向
に対して、全周波数範囲にわたって指向性を高めること
は不可能である。

この発明は上記のような点に鑑みなされたもので、例え
ば車載用とした場合に車室内で発声された音声を考慮す
る全周波数範囲にわたって、できる限り効率が良く且つ
エンジン音等の周囲騒音の影響を充分減少して、例えば
走行中の車室内等圧おいても常に安定した認識操作が実
行されるようにする音声認識装＠を提供しようとするも
のである。

すなわち、この発明に係る音声認識装置は、検数のスイ
ッチと共に複数のマイクロフォンを配置設定し、このマ
イクロフォンそれぞれからの人力音声ｔそれぞれ周波数
分析し、選択的に操作される上記スイッチの操作に対応
して、この操作されたスイッチ位置に対する上記分析周
波数帯域のすべてについて指向性を有するように設定さ
れ九重み係数を選択すると共に、この選択された重み係
数を入力音声の各周波数成分に乗じてその和によって各
周波数成分を算出し認識に供するようにしたものである
。

認識装置を設置する室内に設置された複数のスイッチの
中のいずれかが操作されると、室内に設置された複数の
マイクロフォンのそれぞれの人力音声の周波数分析を行
ない、演算装置でその各周波数成分のサンプリンダを行
なう。また、記憶装置ｔＫ上記複数のスイッチとそのス
イッチ毎に付属する！リセットスイ、チに対応して、各
周波数成分毎の各マイクロフォン入力の重み１にあらか
じめ記憶設定する。この重み係数は車室内の特定位置に
各周波数毎に指向性が高く、且つエンジン音等の騒音醇
ヲひろわないように設定される。

そして、記憶装置に記憶された重み係数を操作されたス
イッチさらにグリセットスイッチに対応して選択し、サ
ンプリンダされた各マイクロフォンからの入力音声の各
周波数成分に対して上記重み係数を乗じ、その和をとる
ことによりて各周波数成分を求め、これにもとすいて音
声・ダターンを作成し・９ターン１．サンプによって音
声ｕ＊ｒｔ行なわせるようＫする。

以下図面を参照してこの発明の一実施例を説明する。こ
の実施例は車載用としたものを示すもので、第１図はそ
の構成を示す。すなわち、音声認識装置を搭載する自動
軍勢の車室内には、それぞれ位置を異ならせて複数、例
えば３個のマイクロフォン１１１〜１ｌｅｆ配瞳設定す
る。

このマイクロフォン１１ａ〜１１にれぞれ捕捉された音
声は、それぞれ増幅器１２ａ〜１２ｃで増幅し、帯域通
過フィルタ群１３ａ〜１３ｃに供給する。

このフィルタ群１ｏｔａ〜１３ｅは、それぞれ供給され
た入力音声を周波数分析するもので、それぞれが第２図
に示すように構成されている。

すなわち、前段の増幅器１２から得られる入力音声の信
号を複数例えばＦ個の帯域通過フィルタ１４ａ〜１４Ｆ
に並列的に供給するもので、このフィルタ１４１〜Ｊ４
Ｆそれぞれの通過帯中心周波数は、対数軸上で順次等間
隔となるように設、定されている。そして、これら帯域
通過フィルタ１４＆〜１４Ｆ’ｉｆ通過した信号は、そ
れぞれ検波器１５ａ〜１５Ｆで一線して、通過信号のレ
ベルに対応したアナログ状の信号とするものである。

このように構成される帯域通過フィルタ群ｌｊａ〜１３
ｅからの出力信号は、マルチプレクサ１６に供給して順
次読み取られるようにし、このマルチプレクサ１６から
取り出される信号はい変換器１１でディジタル信号に変
換し、ＣＰＵ　Ｊ　＆　Ｋ供給する。このＣＰＵ　１　
Ｂ　Ｋ対してはタイマー１９からクロ、り信号を与える
もので、このＣＰｏ　１　Ｂによって上記マルチプレク
サ１６が制御されるようにする。また、このＣＰＵ　Ｊ
　８には重み係数ｔｐ憶する記憶装置２０、ＣＰＵ７８
のプログラム？記憶する記憶装置２ノ、さらに一時記憶
用の記憶装置２２が結合されるもので、この記憶装置２
２に対してはメモリバラファツジ用の蓄電池２３が設け
られる。この蓄電池２３は例えば自動車エンジーンの起
動用吟のものを用いる・また、車室内には複数のスイッチ２４ａ。

２４ｂ・・・が配置されるもやで、このスイッチ２４ｍ
、２４ｂ・・・は音声入力を行なう時に選択的その１つ
が操作されるもので、音声入力のための発声位置と、以
後の入力音声は音声入力のための音声であることｔ示す
作用をする。車室内にはさらに複数個゛のグリセットス
イッチ２５ａ。

２５ｂ・・・が配置されるもので、こめスイッチ２５ｍ
、２５ｂ−は上記スイッチ２４ｍ、２４ｂ・・・で指定
された発声位置を微調整するものである。具体的には、
特定位置に指向性を集中するために用いる重み係数を指
定する。そして、これらスイッチ２４ｍ、２４ｂ・・・
およびデリセ。

トスイ、チ２５ｍ、２５ｂ・・・の操作信号は、それぞ
れＣＰＵ　１　Ｂ　Ｋ結合する。２６ｔｄ音声Ｖ誠によ
って制御される機器、例えば車載用エアコンである。

次に上記のような装置の動作を第３図に示す流れ図にし
たがって説明する。まず、電源が投入されると、ＣＰｏ
　１　Ｂは起動され、ステ、プ１０１に進んでスイッチ
２４ｍ、２４ｂ・・・を検出し、操作されたか否かを判
定する。「ＮＯ」の場合は再びステ、ｆｚｏｌにもどり
、上記検出動作を繰り返す。スイッチ２４＊、２４ｂ・
・・の中の１つが操作されたとすると「ＹＥｓＪとなり
、以後音声が入力されると判定してステ、プ１０２に進
む、ここで祉、ステップ１０１によって操作されたと判
定されたスイッチに対応する！リセットスイッチｊ　ｊ
　ａ　ｐ　Ｊ　ｊ　ｂ−・・の中の１つを検出する０次
に、ステップｉｏｓに進み、ステップ１０２で検゛出さ
れたグリセットスイッチの設定値に従って、重み係数な
配憶装置２０から読み出し一時記憶装置２２に転送する
。

ここて、重み係数は次のように行列で表現され、一般的
にＦ個のマイクロフォン入力を有する場合にである。このＷｔ−以後重み行列と呼ぶ。

ここで、Ｗｍ、ｔｈｍ番目のマイクロフォン入力に対す
る１番目の帯域通過フィルタの検波Ｗ力のサンプリング
値の重み係数である。Ｆは、各帯域通過フィルタ群１３
ｈ〜１３ｅに含まれる帯域通過フィルタの個数である。

この重み係数行列は、指定し得る発声位置の数だけ記憶
装置２０に記憶設定されるもので、この重み係数がセッ
トされた状態でステップ１０４に進み、音声のサンプリ
ングを行なう。

第３図はこの音声サンプリングの過程？示すもので、こ
の音声サンプリングの過程に入ると、ステ、ゾ２０１に
進み、有効な音声入力の回数を示す指標１’１ｒｌｊに
初期設定し、ステップ２０２で有効音声入力後の無効な
入力の回数を示す指標ｔ’ｉｒ　ＯＪＫ初期設定する。

次に、ステ、プ２０３に進み、タイマー１９の割シ込み
信号による割り込みによって、マルチプレクサ１６を制
御するとと゛により、帯域通過フィルタ群１３１〜１３
ｅの検波出力？順にＡ／Ｄ変換器１７でディジタル状に
変換し、サンプリングを行なう。

ここで、第ｍ番目のン゛イクロフォン入力の第１番目の
サンプリングデータ（特徴ベクトル）を４とすると ”？’　＝　（’Ｔ、１　”Ｔ、２　””Ｔ、ｆ　”・
マＴ、ｒ　）　　　”’＜２）が得られる。ここで、マ
Ｔｔは第ｍ番目のマイクロフォン入力の、第１番目のサ
ンプリングの第ｆ番目の帯域通過フィルタの検波出力の
サンプリング値を示す。

次に、ステ、プ２０４に進み、ステップ２０３で得られ
た各マイクロフォン入力の重み和をとることにより、発
声音の各周波数成分を推定する。一般的にＭ個のマイク
ロフォン入力ヲ有する場合、１回のサンプリングによっ
て得られるデータは次のような行列として表わされる。

サンプリングデータ′ｆｒ：（３）式のように行列表現
すると、重み和は（１）式で示した重み行列とのスカラ
ー積をとること罠よシ得られ、推定される各周波数成分
か′ら成る特徴ベクトルｋＶ、とすると次のようになる
。

Ｖ１＝　ｖｌ−Ｗ−’　　　　　　　　　　　　　−・
（４）次にステップ２０５に進み、特徴ベクトルＶ。

の音声／４ワーの計算を行なう。音声ノ９ワーＰｉとし
て、ここでは次式を用いる。

Ｐ　＝Σ　ｖ２　　　　　　　　　　　　　・・・（５
）ｉ、ヨ１．　　、ｉ、ｆただし’　　ｖｉ、ｆは特徴ベクトルＹｉＯｆ番目の帯
域通過フィルタに対応する成分である。

次にステ、デ２０６に進み、特徴ベクトルｉが有効な音
声入力を代表しているか否かを判定するもので、この判
定＃′ｉあらかじめ定められたしきい値Ｐ０に対して次
式を満九すか否かによって行なう。

Ｐｔ＞Ｐｏ　　　　　　　　　　　　　　　　・・・（
６）このステ、プ２０６で判定結果が「ＹＥＳ」の場合
はステ、ゾ２０７に進み、有効音声入力後の無効入力回
数を示す指標ｔが「０」に等しい否かを判定する。この
ステラｆ２０７でｒＹＥｓＪの判定の場合はステップ２
１０に進み、ｌに「１」を加えてステ、グ２０３に戻る
。また、「ＮＯ」の判定の場合はステップ２０Ｂに進み
、過去を回の無効入力は単語内に含まれる無音部分てあ
ったと判定し、その２回の特徴ベクトルは発音された単
語の短時間の音声を代表する有効な入力であるとして、
１Ｋｔｋ加えてｌス、テ、　７’　２０９に進み、ｔを
「０」にリセットシてステップ２１０に進む。

上記ステ、ゾ２０６で無効入力「ＮＯ」であると判定さ
れた場合は、ステ、プ２１１で１が「１」に等しいか否
かを判定する。そしてｒＹＥｓＪの場合は音声は未だ発
せられていないと判定し、ステップ２０３に戻る。また
ｒＮＯＪの場合はステップ２１１に進み、ｔがあらかじ
め定められたしきい値りより大きいか否か全判定する。

そしてｒＹＥｓＪの場合は単語内に含まれる無音部分よ
り充分長い無音部分があり、音声入力は終了したと判定
してステップ２１４に進み、１があらかじめ定めたしき
い値Ｉよりも大きいか否かを判定する。このステツｆ２
１４で１ＮＯ」の結果が得られた場合は、音声が発せら
れ且つ音声入力は終了したが、音声入力時間か小さいた
め有効な入力であると判定し、ステ、プ２０１に戻って
再び音声入力の検出を行なう。またｒＹＥＳＪの場合は
、有効な音声入力があり且つこれが終了したとして音声
サンプリングの過程を終了する。

また、前記ステ、ゾ２１２で「ＮＯ」の判定がされた場
合は、単語内に含まれる無音部分である可能性があると
して、ステ、１２１３でｔに「１」を加え、ステップ２
０３に戻る。

このようにして第３図のステ、７ａｘ　０４の音声サン
プリングの過程が終了するとステ、グ１０５に進み、ス
テ、デ１０４でサンプリングされた入力音声パターンと
あらかじめ登録された標準パターンとのパターンマ、チ
ンダを行なうＯここで、登録されている標準・母ターンの数をＮ個とし
、入力音声ノｆターンとｎ番目の標準・苧ターンとの類
似度ｔＤｎとすると、各標準パターンに対して次式のよ
うに類似度ベクトル０１求める。

Ｄ　＝（Ｄｌ、Ｄ２・・・Ｄｎ・・・ＤＮ　　）　　　
　　　　　　−（７）次Ｖこ、ステ、デ１０６・Ｋ進み
入力音声に対応する標準・母ターンがあるか否かを判定
する。この判定は例えば次のようにして行なう。

すなわち、類似度ベクトルＤの中で最大の成分１ｋＤＭ
とし、２番目に大きい成分’ｋＤｗｗとし、あらかじめ
設定されたしきい値ＤＴ、ＤＴに対して次式が同時に満
たされるか否かを判定する。

ＤＭ　）　ＤＴ　　　　　　・・・（８）Ｄａ　−ＤＭ
Ｍ　：＞　ＤＴ　　　・・・（９）上記（８）式を満た
さない場合は入力音声に対応する標準パターンは存在せ
ず、誤った音声が入力されたと判定する。また、（９）
式を満たさない場合は、入力音声はＭ番目の標準・臂タ
ーンに対応する可能性が高いがＭＭ番目の標準／母ター
ンを有意な差がなく、区別できないと判定する。

さらに（８）　（９）の両式を満たさない場合、有効な
入力がなかつ九として、演算ｔ−終了する。（８）　（
９）両式を同時に満たす場合には、入力音声はＭ番目の
標準・臂ターンに対応すると判定し、ステップ１０７Ｖ
Ｃ進み、入力音声に対応する制御をエアコン２６に対し
て行ない、１回の音声入力の認識制御動作を終える。

したがって、上記のように構成される装置によれば、特
に指向特性等を考慮することなく、車室内に固定配置さ
れたマイクロフォンをそのまま用いることができる。こ
の場合、固定されたマイクロフォンは例えば車室内に突
起として出る構造とする必要はなく、外観上からまた安
全上からも効果的なものとすることができる。

ま念、入力者は例えば運転者等に特定されることがなく
、在室者全てがその位置に応じたスイッチを選択操作す
ることＫよって入力可能となるものであシ、音声認識装
置としての機能向上に大きな効果を発揮するものである
。

尚、上記実施例では、周波数分析手段として帯域通過フ
ィルタを用いた例を示したが、音声波形そのものをサン
プリングし、ＦＦＴ（高速フーリエ変換）によって周波
数成分を抽出しても、同様の効果をあげることができる
。

また、このような音声認識装置は実施例等で説明したよ
うな車載用に限らず、そのまま会議室等の多数の人の存
在する室内、または騒音条件の良くない工場等において
も効果的に使用できる。

次以上のようＫこの発明によれば、音声された位置を、ス
イッチ類によって検出することによって、発声位置に最
も指向性？有するようなマイクロフォンの各周波数成分
に対する重み係数が選択されるものであり、指令入力の
ための発声音声？高い信号対雑音比で捕捉することがで
きる。したがって、音声の認ｉ！１ｍ！率の向上に非常
に大きな効果を発揮する。特に、発声位置が特定される
ことのないものであるため、在室する複数の八によって
適宜音声入力可能となるものである。

【図面の簡単な説明】

第１図はこの発明の一実施例に係る音声認識装５ｉを説
明する構成図、第２図は上記装置の特に帯域通過フィル
タ群部を取シ出して示す図、ｍ３図は上記装置の作用を
説明する流れ図、第４図は上記流れ図の音声サンプリン
グ部を説明する流れ図である。１１　ｍ〜ｌ　１　ｅ・＝マイクロフォン、１３゜１３
ａ〜１３ｃ・・・帯域通過フィルタ群、１４＠。Ｊ４ｂ・・・帯域通過フィルタ、１５ｔｈ、１５ｂ・−
・検波器、１６・・・マルチプレクサ−％　１８−・Ｃ
ＰＵ　。２４ｍ　、　２４　ｂ　−、−スイッチ、２５ｍ　、２
５ｂ・・・、・・・デリセットスイ、チ、２０＝−記憶
装置（重み係数記憶）。出願人代理人　　弁理士　鈴　江　武　２第１図第２図第３図

Claims

【特許請求の範囲】

（１）　　室内に位置を異ならせて設置した複数の　　
３マイクロフオンと、このマイクロフォンそれぞれで検
知した音声をそれぞれ周波数分析する手段と、上記室内
に位置を異ならせて配置した複数のスイッチと、この複
数のスイッチの選択的操作によシその操作されたスイッ
チに対応する位置に対して上記周波数分析手段の分析周
波数帯域のすべてについて指向性？有するように指定さ
れた重み係数を選択する手段とを具備し、上記各マイク
ロフォン人力に対応する入力音声の各周波数成分に対し
て、上記選択された重み係数を乗じ、その和によって入
力音声の各周波数成分を算出して認識するようにしたこ
とを特徴とする音声認識装置。
（２）上記スイッチは、その位置をさらに微調指定する
ノリセットスイッチを含み、このプリセットスイッチの
操作により発生位置？さらに指定して各周波数成分に対
する重み係数の組みｔ選択し得るよう圧した特許請求の
範囲第１項記載の装置。