JPS5862700A

JPS5862700A - 音声認識装置

Info

Publication number: JPS5862700A
Application number: JP56162203A
Authority: JP
Inventors: 信之寺浦; 野尻　忠雄; 岡本　敦稔
Original assignee: NipponDenso Co Ltd
Current assignee: Denso Corp
Priority date: 1981-10-12
Filing date: 1981-10-12
Publication date: 1983-04-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発明は、例えば自動車等の車輛、あるいは工場内等
の騒音環境内に設置し使用される音声認識・装置に関す
る。

人間の話声前によって指令を発生し、各種装置を制御す
るために音声認識装置が用いられる。

この種の音声認識装置においては、特定話者装置ではあ
らかじめその特定される話者の音声ノ４ターンを学習し
、また不特定話者装置ではあらかじめ標準的゛な音声・
やターンを設定しておき、これら音声パターンと入力さ
れた音声の音声ツタターンとのＡター／マ、チングを行
なうことによって、音声Ｗ１ｍ操作が行なわれる。す危
わち、このような装置にあっては、入力され丸音がすべ
て話者の発声した音声であり、ナベて認識のために意味
のあるものとして取９扱われてきた。

したがって、この種の音声ｌｌｊ！！識装置は、話者か
らの音声のみが入力される静かな環境、あるいは騒音が
存在して４その騒音が常に一定の状態で存在する特定さ
れる環境においてのみ効果的に使用できるものである。

しかし、音声ｇ＃装置は上記のような特定される環境下
のみではなく、例えば自動車等の車輛内あるいは工場内
等に設置することが広く賛望される。すなわち、音声に
よって車輛の運転等の制御あるいは工場内の機械装置等
の制御を行なうようにするものがあるが、この場合は被
制御装置若し・〈は設置される物体それ自体ＫＭ音の発
生源を有する状態となるものであり、また例えば車輛の
場合には走行状態によってエンジンルーム等から発生す
る騒音の音圧レベルとこの騒音の周波数分布が時々刻々
に変化するものである。したがって、前述し丸ように静
寂な場所に設置され使用することを前提とした装置、あ
るいは騒音のレベルおよび周波数分布が時間的にほぼ一
様である場所に設置され使用されることを前提とし九装
置では、時間的に変動する鰻音壌壇に設置したのでは、
その変動する騒音によって音声成分相互の／４ターンマ
、チングを行なうことができない。すなわち、音声認識
装置として機能させることができない。

この発明は、上記のような点に鑑みなされたもので、時
間的に変化する音圧レベル、周波数分布Ｏ・−音櫨境、
例えば車輛内、工場内等であっても、音声による入力を
確実にｇｔすることができるようにする音声１１ｉ１識
装置を提供しようとするものである。

すなわち、この発明に係る音声ｇｄ＆装置は、騒音発生
源の状態を検出する検出器を設けると共に、上記騒音発
生源の状態に対応した発生騒音の周波数分布成分を記憶
設定し、上記検出器の検出信号にもとすき上記記憶され
た周波数分布成分を推定して読み出し、この推定された
周波数分布成分をマイクロホ／で捕捉され九入力音声の
周波数分布成分から差し引いて、ｇ識すべき音声入力の
周波数分布成分を得るようにしたものである。

以下図面を参照してこの発明の一実施例を説明する。こ
の実施・例は、自動車等の車輛に装備される車載用音声
ｇ識装置の場合を示すもので、第１図はその構成を示す
。図において１ノはマイクロホンであり、このマイクロ
ホン１ノは車室内に設置され、音声入力と共にその車室
内に存在するエンジンルームからの騒音、エアコン装置
のファン等からの騒音等も同時に捕捉される。このマイ
クロホン１１で捕捉された音声に対応する音声入力信号
は、増幅器１２で適宜増幅され、それぞれ通過周波数帯
琥を順次異ならせるように設定した複数、例えば１５段
にしたパントノ母スフィルタｚｓ−ｉ、１ｓ−ｘ・・・
１３−ｎに並列的に供給される。そして、このバンド／
譬スフィルタ１３−１〜１３−ｎそれぞれを通過した信
号は、それぞれ検波器１４−１゜１４−２・・・１４−
ｎに供給され、パントノ臂スフィルタ１３−１〜１３−
ｎそれぞれに対応する周波数分布におけるそれぞれ信号
成分レベルに対応した信号とされる。すなわち、パント
ノ々スフィルタ１３−１〜ＩＳ−胞および検波器１４−
１−１４−　ｎ部分で、入力音声信号の周波数分析が行
なわれるもので、この検波器１４−１〜１４−ｎそれぞ
れからの出力信号は、マルチブレフサ１５に結合して順
次取り出すようにし、このマルチプレクサ１５からの出
力信号はＡｙ’ｔ）変換器１６でディジタル信号に変換
して演算処理を行なうＣＰＵ　１７に供給する。

このＣＰＵ　１７には、タイマー１８からクロ。

りが与えられ、サン！リングのための割り込み指令等を
発するもので、上記マルチプレクサ１５はＣＰＵ　１　
Ｆによって制御される。

また、この装置にはアクセル踏み込み量、ゼヤチェンジ
の位置、エンジンの回転数、ファンスイッチの位置等の
、車輌における騒音発生源の状態を検出する種数の検出
器１９　ｍ　＋　１９　ｂ　＋１９ｃ、１９ｄが設けら
れ、これら検出器１９鳳〜１９ｄの検出信号は、ＣＰＵ
　Ｊ　ｒに供給される。このＣＰＵ　Ｉ　Ｆには、！ロ
グラムを格納するＲＯＭ　２０、上記検出器１９ｍ−Ｊ
＃ｄそれぞれによって検出された信号とマイクロホン１
１に入力される騒音の周波数成分を対応ず仕るテーブル
を記憶するＲＯＭ　２１　、および前記Ａ／１）変換さ
れた入力音声信号の周波数分布成分のサン！リングデー
タ等を一時記憶するＲＡＭ２２が付属されている。そし
て、このＣＰＵ　Ｊ　Ｆによって、例えばエアコン２３
等の出力装置を制御するものである。２４はエアコン２
３を手動で制御するスイッチである。

すなわち、上記のように構成される音声ｉａ！繊装置に
おいては、マイクロホン１ノによって車室内の音声が捕
捉され、電気的音声信号に変換サレテノぐンドノ譬スフ
イルター３−１〜１３−１に供給され、その各出力信号
が検波器１４−１〜１４−ｍで検波されるようになる。

したがりて、この検波器１４−１〜１４−ｎからの出力
信号は、入力音声信号の周波数分布を示すようになる。

そして、この周波数分布を示す検波器１４−１〜１４−
　ｎの出力信号は、ＣＰＵ　Ｊ　’／の指令によって１
ルチルクサ１５およびυ変換器１６でフィシタルデータ
としてサン！す／グされ、ＲＡＭＪＪに一時記憶される
ようになる。

・□；・このサン！リングされ九入力音声信号の各周波数成分は
、話者によって発声された音声の周波数成分のみではな
く、車室内に存在する騒音、すなわちエンジンルーム内
から発生する騒音、車室内のエアコンのファン等の騒音
の成分を含んでいる。したがって、入力された音声のサ
ン！リングデータのすべてが意味のあるｒ−夕ではなく
、これら騒音の成分、すなわち無意味な成分を、上記サ
ン！リングされた各周波数成分から差し引くことによっ
て、有用の話者の音声の周波数分布成分を知ることがで
きる。

ここで、上記騒音による周波数成分は次のようにして推
定する。すなわち、騒音をエンジンルーム内から発生す
る音と、車室内から発生する音に分類する。エンジンル
ーム内から発生する音は、エンジンの回転数および負荷
を検出する検出器により検出された量と、エンジンルー
ム内から発生し車室内のマイクロホン１１に捕捉される
音の周波数分布および音圧レベルとを、あらかじめ実験
によって対応ずけておき、ＲＯＭ１：″ ２ノに記憶設定しておく。そして、認識動作時において
は、検出器１９ｍ、１９ｂ、Ｊ９ｅの検出器からＲＯＭ
　２１に記憶された変換テーブルを用いて、エンジンル
ーム内で発生し、マイクロホン１１で捕捉される騒音の
各周波数成分を推定するものである。

また、車室内から発生する音は、車室内に設けられ九各
スイッチによってその動作が規定されている。そこで、
この音を発生する機能部品の動作を規定するスイッチの
状態を検出器１９４によって検出し、その検出量とマイ
クロホン１ノに捕捉される音の周波数分布および音圧レ
ベルの対応を、前記ニンジンルーム内から発生する音の
場合と同様にＲＯＭ　ｊ　１に記憶しておき、−織動作
時に検出器１９４の検出量からＲＯＭ２１に記憶され九
変換テーブルを用いて、各周波数成分を推定するもので
ある。

そして、サン！リングされた入力音声信号の周波数成分
から、上記推定された騒音成分を差し引いた残りの周波
数成分からなる入力音声７１ターンと、あらかじめ学習
若しくは設定され九音声／ｌターンとのパター／マ、チ
／グを行なうことにより、音声の認識を行なうようにな
るものである。

この°実施例では、車輛の走行状態を代表してエンジン
騒音をあられすことができる量として、アクセルの踏み
込み量、ギヤのチェンジ位置、エンジンの回転数をとり
、また車室内騒音源としてファン音をとりそれを代表す
る量としてファンスイッチの位置をとるようにし、これ
ら騒音源の状態が検出器１　’９　ａ〜１９ｄで検出さ
れるものである。そして、認識装置の駆動装置としてエ
アコン２３をとった場合において、その２−夕処理の過
程は第２図に示す流れ図のようになる。

すなわち、音声認識装置が作動を開始するスタート状態
では、初期設定として有効入力カウンタを零にセットし
、割り込み待ちの状態とされる。そして、タイマー１８
からの割り込み「１」によってステ、ｆｒｏｏに進み、
検出器１９ｍからアクセルの踏み込み量を検出し、この
検出量をディジタル量としてサン！リングする。ここで
この検出量を例えばＳノとする。次に、ステ、ｆｚｏｒ
に進み検出器１９ｂからチェンジ位置、例えば「ロー」
「セカンド」「ト、！」等の別を検出し、その位置を代
表する量Ｓ２としてサンプリングする。さらに、ステ。

ｆ１０２に進み、検出器１９ｃによってエンジンの回転
数を検出し、その検出量をディジタル量Ｓ３としてサン
プリングする。

そして、次にステラｆ１０３に進み、あらかじめ実験に
より定められＲＯＭ　ｊ　Ｉ　Ｋ記憶されたテーブルを
用いて、上記ステ、ｆｌ　００　、１０１゜１０２で検
出された検出量８１，８２．Ｂ３に対応して、車輛走行
に基因して発生し、マイクロホン１１に捕捉されてＣＰ
Ｕ　ｉ　ｙに供給される入力音声信号の各周波数成分に
含まれるようになる騒音の各周波数成分を推定する。こ
れら走行に基因する騒音の各周波数成分■は、次式で表
現される。

■・　＝　（ダ；訓−・・　、−）、　　・・・　、　
豐：５　）ここで、！）は走行に基因する騒音の１番目
のバンドパスフィルタ１３−ｆの検波出力がん市変換さ
れると推定される値であり、この式はパントノ譬゛スフ
ィルタ１３−ノ〜Ｊ、ｙ−ｎが１５段に構成された場合
を示している。

次に、ステラｆ１０４に進み、ファンの回転数を規定す
るファンスイッチの位ｌｆｔ−検出し、それを代表する
値を８４とする。そして、ステップ１０５に進み前記ス
テ、ノ１０３と同様にあらかじめ実験によって定められ
ＲＯＭ　Ｊ　Ｊに記憶されたテーブルを用い、ステツノ
１０４で検出された検出量Ｓ４に対応して、ファン音が
マイクロホン１ノで捕捉され周波数分析されてディジタ
ル１１１１としてＣＰＵ　１７によってサンプリングさ
ｎる谷間波数成分の値を推定する。これらの各成分は次
式で表現される。

Ｖム＝（咋弓、・・・、す、・・、Ｖτ５）ここで、す
は１１フアン音の１番目の・櫂ンド２ｆスフィルタ１３
−ｆの検出出力が検波されＡ／ｂ変換されると推定され
る値である。そして、以上で割り込み「１」の演算を終
了し、再び割り込み待ちとなる。

次に、タイマーＪ８からの割り込み信号による割り込み
「２」によって、ステ、ゾ１０６に進む。すなわち、上
記割シ込み信号によってＣＰＵ　Ｊ　７からマルチルク
サ１５に指令を与え、その時マイク・ロホン１１に入力
されバンドパスフィルタ１３−１〜１３−ｎおよび検波
器１４−１〜１４−ｎから検出される入力音声に対応す
る各周波数成分に対応する検出信号を順次取シ出し、Φ
変換器１６でディジタル値に変換してＣＰＵ　１　Ｆで
入力音声のサンプリングを行なう。このサンプリングは
前述したように１５段にしたパントノ臂スフィルタ１３
−１〜１３−勘のそれぞれ検波出力について行なうもの
で、これらのす／！リングデータは次式であられされる
。

ＶＩＮ＝＜９１１”７１・・・１号、・・・、！電、）
ここで、すは入力音の１番目のパンｐ　／ｌスフィルタ
ｚｓ−ｆの検波出力のサンプリング値であるつこの割り込み「２」を前記割り込み「１」と独立して設
けたのは、入力音声のサンプリングを定時間、例えば２
０ｍ秒単位で行なうためである。

次に、ステップ１０７に進み、入力音声に含まれる各周
波数成分の中で、走行に基因する騒音およびファン音を
除いた命令音声の各周波数成分を推定する。この命令音
声の各周波数成分は、次式であられされる。

Ｖｇｙｙ＝＝（ｍｌ、　、　１１２．　・”　、　ｌ／
、　−、Ｗ、５　）ここで、１ｆは命令音声の１番目の
パントノ譬スフィルタ１３−ｆの検波出力の推定値であ
る。

そして、この命令音声の各周波数成分Ｖｇｙｒは次式に
よって与えられる。

Ｖｍｙｙ　＝ＶＩＮ　Ｖｇ　ＶＡこれを各成分について表現するとｖ！＝リーν）−りとなる。ただし、マイナス（−）となった成分ｖｆにつ
いては、９ｔ　＝　０とおく。以上の過程で割り込み「２」を終了し、メイン
ルーチンに戻る。

次に、ステ、ｆｒｏｇに進み、有効な音声入力がちった
か、否かを判定する。すなわち、推定された命令音声の
各周波数成分について、音声ノヤワーＰをＳとし、あらかじめ定められたしきい値Ｐ・に対してｒｐ
＞ｐｓＪ　となった場合、有効な音声入力有りとして、
音声入力が継続していると判定する。すなわち、有効入
力カウンタに「１」を加えて割り込み「ｌ」待ちとなり
、タイマー１８からの割り込み信号による割り込みによ
って再びステ、７’７００に戻る。まえ、「ｐ＜ｐ・」
の場合は、今のサン！リングデー□りが有効な音−入力
では表かつ九と判定し、ステラｆＪＯ９に進み、このス
テ、ｆ１０９ではすでに有効な音声入力が規定時間以上
存在したか否かを判定する・すなわち、有効な音声入力
の時間を示す有効入力カウンタＮがあらかじめ定められ
た値Ｎ・に対して、「ＮくＮ・」の場合は、有効な巣語
音声入力がなされなかっ九と判定し、有効入力カウンタ
を零にセ、トシて割シ込み待ちとなる。そして、タイマ
ーノ８の割り込み信号による割り込みｒｌＪによってス
テラｆ１００に進む。

ステラｆ１０９で「Ｎ＞Ｎｏ」と判定された場合は、有
効な羊語音戸入力があり、且つ入力は終了したと判定し
てステツノ１１０に進む。

このステツノ１１０は、命令音声の周波数分布Ｖｇ　Ｆ
　Ｆの時間的推移４ター／と、あらかじめ学習若しくは
設定されたノ母ターフ、例えば「エアコンオン」　「エ
アコンオン」　「オ／ト１ア、！」「オンドダウ／」「
すｔ′−イクル」「フレ、シエ」等のエアコン２３に対
する制御命令に対応する音声の周波数分布の時間的推移
ノ９ターンとの・ダターンマ、チングを行なう。このｉ
４ターンマツチングは、ダイナミ、り！ログラミング（
＝［）　ｐ）を用いて、入力命令音声の／譬ターンと最
っとも類似しているノ譬ターンを選び出す。入力命令音
声のノ１メーンと各学習若しくは設定され九パターンと
の類似度はＤＰによって計算し、ｉ番目の・母ターンに
、対する類似度をＱｌとし、値が大きい程類似度が大き
いものとする。そして、Ｑｌの中で最大の値をＱ（１）
とし、２番目に大きい値をＱ（２）とする。

次に、ステ、！１１ノに進み、あらかじめ定められたし
きい値Ｑｔ、Ｑｏに対してＱ（１）＜ＱＴである場合には入力命令音声に対応するノ４ターンは存
在しないと判定し、またＱ（１）　−Ｑ（２）　＜　Ｑ。

である場合は、入力命令音声が２つのノターンのいずれ
に対応するのか、断定できないと判定し、有効入力カラ
／りを零にセットして割り込み待ちとする本のであり、
タイマー１８からのｉｏｏに進む。

そして、Ｑ（１）＞ＱＴであり、且つ −Ｑ（１）　−Ｑ（２）ンＱ。

である場合に、入力命令音声は類似度Ｑ（１）である・
母、夕、−ンと同じであると判定し、ステツノ１１２に
進む。このステツノ１１２ではノ４ターンマツチングに
よって固定された音声に対応する操作を、エアコン２３
に対して行なう。そして、これによって音声ｖ！ｄ操作
に伴なう手続きが終了される。

尚、以上説明した実施例では、複数のバンドパスフィル
タを用いて周波数分析を行なったが、これは音声波形そ
のもののす／！リングを行ない、一定数（例えば２５６
）のデータ毎に高速フーリエ変換（ＦＦＴ　）を行なう
ことによって周波数分析を行なうようにしても同様に１
！施することができる。ま走、実施例では車輛の機能部
を検出し、受動騒音を推定することも可能であり、この
騒音検出は任意必要に応じて選定できるものである。

を九、実施例ではこの音声認識装置を自動車等の車輛に
載置する場合について示したが、これは工場内等に設置
する場合も同様に実施可能なもので、この場合は工場内
の機械の状態等を検出し、機械騒音等を推定するのであ
る。、以上のようにこの発明によれば、音声認識装置を
走行する車輛内、工場内等の時間的に一様性を有さない
騒音環境内に設置し九場合でも、各騒音源の音声Ｗｌｆ
Ｉ＆に対する寄与を容易に推定することができ、したが
ってその寄与を大幅に減少させて音声認識の一鐵率の向
上を効果的にはかることができるものである。

【図面の簡単な説明】

第１図はこの発明の一実１１１１４．例に係る音声ｉｍ
繊装置を説明する構成図、第２図は上記装置の認識動作
を説明する流れ図である。１ノ・・・マイクロホン、１３−１．〜１３−１・・・
パントノ母スフィルタ、１４−１〜１４−ｎ・・Φ検波
器、１５・・・マルチ！レクサ、ノロ・・・Ａ／ｌ）変
換器、１７　・−ＣＰＵ、　　７　ｇ　・・タイマー、
１９ｍ＋１９ｂ・・・検出器、２０．２１・・・ＲＯＭ
、ｊ！・・・ＲＡＭ。出願人代理人　　弁理士　鈴　江　武　彦１を第１図第２図

Claims

【特許請求の範囲】

騒音発生源の状態を検出する検出器と、上記騒音発生源
の状態に対応する発生騒音の周波数分布成分を記憶設定
した記憶装置と、上記検出器の検出信号にもとすき上記
記憶装置から騒音の周波数分布の各成分を推定し読み出
す手段と、上記騒音環境内に設けられ１ｉａｉ繊すべき
音声を入力スルマイクロホンと、このマイクロ小ンから
の入力音声信号の周波数分布成分を検出する周波数分析
手段と、この周波数分析手段で得られた周波数分布成分
から上記推定された周波数分布成分を差し引く手段とを
具備し、この差し引かれた結果の周波数分布成分にもと
すき音声認識するようにし九ことを特徴とする音声ｇ識
装置０