JPH023520B2

JPH023520B2 -

Info

Publication number: JPH023520B2
Application number: JP57065142A
Authority: JP
Inventors: Kenji Shima; Masahiro Hibino
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1982-04-16
Filing date: 1982-04-16
Publication date: 1990-01-23
Also published as: JPS58181099A

Description

【発明の詳細な説明】この発明は音声識別装置に関し、特に、音声を
入力し、その音声の内容に基づいて各種被制御機
器を制御するために用いられるような音声識別装
置の改良に関する。

たとえば、自動車などにおいて運転者がラジオ
などの車載機器を操作する場合には、一般に手動
的に行なうことが多い。しかし、運転者が車を運
転中にラジオなどを操作するためには、しばしば
視線を前方から機器の操作部に移す必要があり、
このことが脇見運転の原因になり、非常に危険を
判う。また、最近では運転者用の車載用計算機が
実用に供されているが、このような車載用計算機
を、運転しながら操作することは不可能に近いも
のであつた。この他にも、窓の開閉やその他の車
載機器を操作する場合においても同様の問題点を
生じていた。

そこで、運転者が手動的な操作によることな
く、ラジオの電源投入や窓の開閉などをすること
ができれば便利である。このためには、運転者が
「ラジオ」と発音したとき、この音声を識別して
その識別結果に基づいてラジオを制御するような
音声入力制御装置が考えられる。このような音声
入力制御装置では、運転者の近傍にマイクロホン
を設けておき、このマイクロホンに入力された音
声を識別する。ところが、自動車の窓が開かれて
いると、外部からの騒音がマイクロホンに混入し
てしまい、運転者の発音と騒音との識別が極めて
困難になり、車載機器などを誤動作させる原因と
なつていた。

それゆえに、この発明の主たる目的は、外部か
らの騒音と人間の発音した音声とを容易に識別し
得る音声識別装置を提供することである。

この発明を要約すれば、発音者の近傍に所定の
間隔を隔てて第１および第２の入力手段を配置し
ておき、それぞれの音声入力手段から出力された
音声入力信号から予め定める周波数帯域成分の音
声信号を抽出し、それぞれ音声信号の相関を演算
し、その演算結果に基づいて音声電気信号変換手
段から出力された音声信号が発音者の発音した音
声に基づくものであるかあるいは騒音に基づくも
のであるかを判別するように構成したものであ
る。

この発明の上述の目的およびその他の目的と特
徴は以下に図面を参照して行なう詳細な説明から
一層明らかとなろう。

第１図はこの発明の一実施例が適用された自動
車を横方向から見た概略図であり、第２図は同じ
く運転者の後方向から見た概略図であり、第３図
は同じく自動車の車内の概略図である。

まず、第１図ないし第３図を参照して、この発
明の概要について説明する。運転者１１は車体１
２に設けられている座席１３に着席し、シフトレ
バー１４およびステアリングホイール１５を操作
して運転する。計器盤１６にはたとえばカーラジ
オ７が取付けられている。また、天井２０には、
運転者１１の正面方向に直交して等距離の位置に
所定の間隔を有して第１および第２の音声入力手
段としてのマイクロホン１７と１８とが取付けら
れている。さらに、これらのマイクロホン１７と
１８との間には指向性マイクロホン１９が設けら
れている。

運転者１１がたとえばラジオ７の電源を投入し
ようとする場合は、予め定められている制御用の
音声（以下、キーワードと称する）を発音する。
この発音は空気中を伝播し、マイクロホン１７と
１８と１９とに入る。このとき、マイクロホン１
７と１８が運転者１１から等距離の位置に設けら
れているので、音声はこれらのマイクロホン１７
と１８とに同時に伝播されることになる。マイク
ロホン１７と１８とに入力された音声は電気信号
に変換されて音声信号となり、この２つの音声信
号の相互関係数が求められる。騒音が入力されて
いない場合には、相関係数は１に近い値が得ら
れ、音声信号は騒音に比べて十分に大きいことが
相関係数の値から示される。逆に、大きな騒音が
入力された場合には相関係数は０に近い値が得ら
れ、音声信号は騒音に比べて十分に小さいことが
示される。そして、この相互相関係数の値に基づ
いて、指向性マイクロホン１９から出力される音
声信号を認識するか否かを判別する。そして、相
互相関係数が１に近い値であれば、指向性マイク
ロホン１９から出力される音声信号と予め記憶さ
れているキーワードの音声パラメータとを比較
し、いずれのキーワードであるかを判別する。そ
して、この判別結果に基づいてたとえばラジオ７
などの各種車載機器を制御する。

なお、上述の説明では、音声認識用の音声信号
を指向性マイクロホン１９から出力するようにし
たが、特に指向性マイクロホン１９を設けること
なく、マイクロホン１７または１８のいずれかか
一方からの音声信号を認識するようにしてもよ
い。しかしながら、運転者１１の発音した音声を
分析して認識を行なうための音声信号のＳ／Ｎ比
としては十分高いものが好ましく、周囲雑音を除
去できる高指向性マイクロホンを用いるのが望ま
しい。

第４図は音声信号と騒音との関係を説明するた
めの図であり、第５Ａ図および第５Ｂ図は相互相
関係数の計算結果を示す図である。

次に、２つのマイクロホン１７と１８とから出
力される音声信号の相互相関について説明する。
第４図において、騒音発生源１００として、この
場合は一例として自動車騒音について考えてみ
る。運転者１１はマイクロホン１７と１８とから
等距離に口許がくる位置に座つており、運転者１
１の前方には自動車のフロントガラス（図示せ
ず）、後方にもリアウインドウ（図示せず）が存
在するものとし、騒音発生源１００は運転者１１
の側方にあるものとする。

騒音発生源１００から騒音がマイクロホン１７
と１８とに伝播する遅延時間差をτ₀とし、その振
幅差はマイクロホン１７と１８との間隔ｄに比べ
て、マイクロホン１７と１８とから騒音源１００
の距離が十分に大きいものとみなして考慮せずに
振幅な同一であるとする。また、運転者１１によ
り発生された音声信号Sa，Sbはマイクロホン１
７と１８とに同一の振幅と時間で伝播するものと
する。このとき、マイクロホン１７と１８との時
間信号ａ（ｔ）とｂ（ｔ）は、音声信号をｓ（ｔ）、
騒音発生源１００からの騒音ｎ（ｔ）とすると、ａ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ） …(1) ｂ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ＋τ₀） …(2) と表わすことができる。ここで、相互相関関数
φab（τ）および正規化相互相関関数Φ（τ）はそ
れぞれ、 φab（τ）＝lim Ｔ−∞1/2T∫^T _-Tａ（ｔ）ｂ（ｔ＋τ）dt
…(3) Φ（τ）＝φab（τ）／√（Ｏ）φbb（Ｏ）…(4
) である。但し、φaa（Ｏ）、φbb（Ｏ）は、ａ（ｔ）、
ｂ（ｔ）の自己相関関数φaa（τ）、φbb（τ）のそ
れぞれτ＝０のときの値であつて、パワーを表わ
しており、 φaa（Ｏ）＝lim Ｔ−∞1/2T∫^T _-Ta²（ｔ）dt …(5) φbb（Ｏ）＝lim Ｔ−∞1/2T^T _-Tb²（ｔ）dt …(6) で表現できる。ここで、ｓ（ｔ）＝Ssinωst ｎ（ｔ）＝Nsinωnt とする。但し、ωs、ωnはｓ（ｔ）、ｎ（ｔ）の角
周波数であり、Ｓ、Ｎはｓ（ｔ）、ｎ（ｔ）の振幅
を示している。そして、ωs＝2πfs、ωn＝2πfnで
あるとすると、正規化相互相関関数Φ（τ）は、 Φ（τ）＝｛S²cosωsτ ＋N²cosωn（τ＋τ₀）｝／（S²＋N²） …(7) であり、またτ＝０とすれば、 Φ（Ｏ）＝（S²＋N²cosωnτ₀）／（S²＋N²） …(8) である。

さらに、ｓ（ｔ）、ｎ（ｔ）がそれぞれＬ個、Ｍ
個の正弦波から成立つている場合には、ｓ（ｔ）＝_L 〓^l=1 Slsinωslt …(9) ｎ（ｔ）＝_M 〓^l=1 Nlsinωnlt …(10) となるので、であり、またτ＝０とすれば、である。

前述の第(8)式において、τ₀＝333μsつまりマイ
クロホン１７と１８との間隔ｄが約1.13cmにおけ
る計算結果を第５Ａ図に示している。この第５Ａ
図から明らかなように、側方から入つてくる騒音
が大きくなりかつＳ／Ｎが小さくなるに従い正規
化相関関数の小さくなることがわかる。但し、正
弦波の場合には、１／τ₀の周波数の整数倍に近い
周波数の騒音の場合には、第５Ａ図に示したよう
にはならないことは明らかであるので、実際には
そのような成分を小さくした状態で求める必要が
ある。

また、前述の第(12)式において、τ₀＝333μs、ｄ
＝11.3cmにおける計算結果を第５Ｂ図に示してい
る。この第５Ｂ図では、騒音ｎ（ｔ）をｎ（ｔ）＝0.4sin（2π・100）ｔ＋1.0sin（2π・400）ｔ＋1.0sin（2π・1000）ｔ＋1.0sin（2π・3100）ｔ …（13）とし、100Hz、400Hz、1kHz、3.1kHzの４つの周波
数成分が0.4、１、１、１の比率で含まれている
ものとした。この場合には、τ₀＝333μsの周期に
近い3.1kHzの成分や低い周波数成分を含んでいる
ので、Φ（Ｏ）はさほど小さくはならないが、そ
れでもＳ／Ｎが小さくなると、Φ（Ｏ）が小さく
なる傾向が見られる。

この発明は２つのマイクロホン１７と１８とか
ら出力される音声信号の相関関係を用いて音声信
号のＳ／Ｎ比を推定し、その値によつて認識結果
の有効あるいは無効を決定したり、類似度計算に
重み付けたりすることによつて、騒音による誤認
識や誤判定を防止できるような音声識別装置を構
成できる。以下に、この発明の実施例について詳
細に説明する。

第６図はこの発明の一実施例の概略ブロツク図
である。前述の第２図および第３図に示したマイ
クロホン１７からの音声信号は増幅器２１で増幅
され、フイルタ２２によつて識別したい周波数帯
域（通常は音声周波数帯域）のみが抽出され、相
互相関係数計算機２５に与えられる。他方のマイ
クロホン１８からの音声信号は同様にして増幅器
２３で増幅され、フイルタ２４によつて識別した
い周波数帯域成分のみが抽出されて相互相関係数
計算機２５に与えられる。この相互相関係数計算
機２５は入力された２つの音声信号から相互相関
係数Φ（Ｏ）を求めるものである。この相互相関
係数計算機によつて計算された相互相関係数Φ
（Ｏ）の値によつてＳ／Ｎを推定することができ
る。このために、相互相関係数計算機２５で計算
された相互相関係数Φ（Ｏ）が比較器２６に与え
られる。比較器２６には予め定める相関係数を記
憶するための相関係数しきい値レジスタ２７が接
続される。そして、比較器２６は相互相関係数計
算機２５で計算された相互相関係数Φ（Ｏ）の値
と相関係数しきい値レジスタ２７に記憶されてい
る相関数係数とを比較し、指向性マイクロホン１
９から出力される音声信号を認識するために騒音
が小さい否かの判定を行なう。そして、その判定
信号を音声認識認識回路２９に与える。

一方、指向性マイクロホン１９は２つのマイク
ロホン１９１と１９２とを含み、それぞれから出
力された音声信号は増幅器１９３および１９４で
増幅され、加算器１９５で加算されてフイルタ２
８に与えられる。このフイルタ２８は音声信号と
して不必要な低周波域や高周波領域の信号成分を
除去するためのものである。フイルタ２８の出力
信号は音声認識回路２９に与えられる。音声認識
回路２９は後述の第８図で詳細に説明するが、入
力された騒音の混入した音声信号から特徴パラメ
ータを抽出し、メモリ３８に予め登録されている
音声パラメータとの類似度を求め、その類似度が
一致していると判断するのに十分でない場合に
は、入力された音声信号を判定できないことを出
力し、最も類似度が大きくかつ類似度が十分に大
きい場合にはそのデータであると判定して出力す
るものである。

音声認識回路２９には比較器２６から音声の騒
音判定信号が与えられており、この信号が騒音で
あることを示している場合には、音声認識回路２
９は騒音または判定不能を表わす信号を出力する
ことによつて、騒音が大きいときに各種機器、こ
の実施例ではラジオ７が誤動作しないように構成
される。

第７Ａ図は第６図に示す相互相関係数計算機２
５の一例を示す概略ブロツク図である。第７Ａ図
において、ａ（ｔ）はマイクロホン１７から出力
される音声信号であり、ｂ（ｔ）はマイクロホン
１８から出力される音声信号である。そして、乗
算器２５１と積分器２５４と対数変換器２５７は
前述の第(5)式を演算するものである。すなわち、
乗算器２５１はａを２乗し、これを積分器２５４
で積分し、対数変換器２５７によつて対数化し、
対数化されたφ3a（Ｏ）を演算する。また、乗算
器２５２乗算器２５６と対数変換器２５９は前述
の第(6)式の演算を行なうものである。すなわち、
乗算器２５２はｂを２乗し、積分器はb²を積分
し、対数変換器２５９は先の対数変換器２５７と
同様に対数化されたφbb（Ｏ）を求める。対数変
換器２５７と２５９との出力は加算器２６０で加
算され、1/2減衰器２６１によつてその平方根に
対応した処理が行なわれる。したがつて、1/2減
衰器２６１の出力には、前述の第(4)式の分母に対
応した結果が得られることになる。

一方、乗算器２５３と積分器２５５と対数変換
器２５８は前述の第(3)式のτ＝０のときの演算を
行なうものである。すなわち、乗算器２５３はａ
とｂとを乗算し、それを積分器２５５が積分し、
対数変換器２５８は第(3)式のφab（Ｏ）の対数化
された値を出力する。この出力は加算器２６２に
与えられ、1/2減衰器２６１の出力と減算され、
指数変換器２６３によつて指数化してもとに戻さ
れ、Φ（Ｏ）が出力される。すなわち、この第７
Ａ図に示す相互相関係数計算機２５は、マイクロ
ホン１７および１８から出力される音声信号に基
づいて、騒音が小さい場合にはΦ（Ｏ）＝１を出力
し、騒音が大きい場合にはΦ（Ｏ）＝１を出力す
る。

第７Ｂ図は相互相関係数計算機の他の例を示す
概略ブロツク図である。第７Ｂ図において、２乗
平均値回路（RMS）２６６は時間成分ａの２乗
平均を開根するものであり、√²を演算する。加
算器２６４はａとｂとを加算し、RMS２６７に
よつてその２乗平均値√（＋）²が演算される。
加算器２６５はａと−ｂとを加算するものであ
り、RMS２６８はその結果の２乗平均値√（−
ｂ）²を演算する。RMS２６８はｂの２乗平均値
√²を演算する。各RMS２６６ないし２６９の
演算結果は演算回路２６９によつてA²−B²／
4CDを演算し、Φ（Ｏ）を求める。

第８図は第６図に含まれる音声認識回路２９の
具体的なブロツク図である。この第８図に示す音
声認識回路２９は従来から知られたチヤネルフイ
ルタを用いたものであつて、以下その構成と動作
について簡単に説明する。入力遮断スイツチ２９
１には入力信号として第６図に示すフイルタ２８
から指向性マイクロホン１９からの音声入力信号
が与えられる。また、入力遮断スイツチ２９１に
は制御信号として第６図に示す比較器２６から音
声騒音判定信号が入力される。そして、入力遮断
スイツチ２９１は音声騒音判定信号が音声を表わ
す信号であるとき閉じられて認識動作を行ない得
る状態となり、音声でないつまり騒音であると判
定されているときには開いて認識動作を停止した
状態となる。このような機能を有する入力遮断ス
イツチ２９１を介して音声信号がプリエンフアシ
ス回路２９２に与えられる。プリエンフアシス回
路２９２は入力された音声信号のうちの300ない
し5kHzの帯域成分のみを通過させる6dB／oct程
度の特性を有するフイルタである。

プリエンフアシス回路２９２を通過した音声信
号は、バンドパスフイルタ（BPF）３０１ない
し３０８に与えられる。これらのバンドパスフイ
ルタ３０１ないし３０８はそれぞれ予め定められ
た帯域成分の音声信号のみを通過させて、後段の
整流回路３１１ないし３１８に与える。この整流
回路３１１ないし３１８はそれぞれバンドパスフ
イルタ３０１ないし３０８の出力信号を整流して
直流電圧に変換する。整流された直流電圧はロー
パスフイルタ３２１ないし３２８に与えられる。
これらのローパスフイルタ３２１ないし３２８
は、一種の積分機能を有したものである。さら
に、入力された信号に重み付けをして加算し、そ
の信号をトリガ回路３４に与える。トリガ回路３
４は入力された信号の変化に応じて音声の始端と
終端を検出し、CPU３５に対して音声期間であ
ることを表わす信号を与える。また、ローパスフ
イルタ３２１ないし３２８のそれぞれ出力信号は
マルチプレクサ３３に与えられる。マルチプレク
サ３３には、CPU３５から入出力インタフエイ
ス３６を介してローパスフイルタ３２１ないし３
２８のそれぞれの出力信号を切替るための切替信
号が与えられる。そして、マルチプレクサ３３は
その切替信号に応答して、いずれかのローパスフ
イルタの出力をＡ−Ｄ変換器３７に与える。Ａ−
Ｄ変換器３７は、入力されたアナログ電圧をデジ
タル値に変換するものである。このデジタル値に
変換された信号は、入出力インタフエイス３６を
介してCPU３５に与えられる。メモリ３８は音
声認識に必要なプログラムを記憶するプログラム
メモリ３８１と、音声認識に必要なデータを記憶
する音声パラメータメモリ３８２とを含む。音声
パラメータメモリ３８２は予め登録された分析パ
ラメータを記憶する登録部として記憶領域３８３
と、入出力インタフエイス３６から出力された音
声パラメータを記憶する入力部としての記憶領域
３８４と、200ｍsec程度の信号の分析パラメータ
を記憶するためのバツフア部としての記憶領域３
８５とを含む。200ｍsec程度の信号の分析パラメ
ータを記憶するのは、音声認識をする上において
音声期間としてはトリガ回路３４によつて音声期
間であると判定された時点以前も極めて重要であ
るので、類似度を計算する際にはバツフア部３８
５の内容から始点部を溯つて検出するためであ
る。

次に、動作について説明する。入力遮断スイツ
チ２９１は第６図に示す比較器２６から騒音であ
ることを表わす判定信号が入力されるとその接点
を開き、音声であることを表わす判定信号が入力
されればその接点を閉じる。接点が閉じられる
と、音声入力信号はプリエンフアシス回路２９
２、バンドパスフイルタ３０１ないし３０８、整
流回路３１１ないし３１８およびローパスフイル
タ３２１ないし３２８に順次与えられる。マルチ
プレクサ３３はCPU３５から入出力インタフエ
イス３６を介して出力される切替信号に応答し
て、各ローパスフイルタ３２１ないし３２８のそ
れぞれの出力を順次選択してＡ−Ｄ変換器３７に
与える。Ａ−Ｄ変換器３７は入力された信号をデ
イジタル値に変換し、入出力インタフエイス３６
を介して音声パラメータメモリ３８２の入力部３
８４に記憶させる。一方、トリガ回路３４はロー
パスフイルタ３２１ないし３２８の信号によつ
て、音声期間の終了を判断し、CPU３５に割込
信号を与える。応じて、CPU３５は入力部３８
４に記憶した音声パラメータと登録部３８３に予
め記憶している音声パラメータとの内容を比較
し、ある値以上の類似度が得られないときには判
定不能の出力を行ない、ある値以上の類似度が得
られたときには最も類似度の高いキーワードを音
声認識データとして入出力インタフエイス３６経
由で出力する。なお、類似度の計算のために用い
る音声期間としては、トリガ回路３４によつて音
声期間であると判定された時点以前も極めて重要
であるので、CPU３５はバツフア部３８５に記
憶されている過去200ｍsecの音声パラメータにつ
いての類似度も計算する。

このように入力遮断スイツチ２９を構成するこ
とによつて、音声、騒音判定信号によつて音声認
識の機能を停止したり機能させたりすることがで
きるので、騒音の大きいときの誤認識を未然に防
止することができる。

第９図は音声識別回路の他の例を示すブロツク
図であり。前述の第８図に示す音声認識回路２９
では、入力遮断スイツチ２９１を設け、騒音が大
きいときにはこのスイツチ２９１の接点を開いて
音声入力信号を音声認識回路２９に与えないよう
にした。しかしながら、第９図に示す実施例で
は、入力遮断スイツチ２９１を設けることなく、
CPU３５に音声、騒音判定信号を与えるように
する。そして、騒音が大きいときにはCPU３５
による音声認識動作を禁止するものである。それ
以外は前述の第８図と同じである。

第１０図はこの発明の他の実施例の概略ブロツ
ク図である。前述の第６図に示す実施例では、前
述の第(4)式のΦ（τ）を０としたとき相互相関係
数を相互相関係数計算機２５で計算し、Φ（Ｏ）
の値に応じてマイクロホン１７と１８とに入力さ
れた音声が人間の発音した音声であるかあるいは
外部からの騒音であるかを判定するようにした。
しかし、この第１０図に示す実施例では、第(4)式
における相互相関関数Φ（τ）を相互相関関数計
算機３９で計算する。これは人間の発音した音声
の場合はτ＝０の近傍にΦ（τ）が最大を有し、
騒音は側方から入力されると想定しているので、
τ＝０近傍以外の位置にできることを用いたもの
である。このために、相互相関関数計算機３２か
ら相互相関係数を計算してΦ5（τ）を求めた後、
このΦ（τ）からΦ（τ）が最大となるτの値を２
つのマイクロホン１７と１８から出力される信号
の遅れ時間検出器３３で検出する。そして、その
遅れ時間をコード化して出力し、その遅れ時間の
範囲が音声であると判定すべき範囲かそれとも騒
音と判定すべき範囲かを相関関数しきい値レジス
タ３４の値によつて比較して判定し、音声である
かを表わす判定信号を出力する。それ以外は前述
の第６図と同じである。

第１１図はこの発明のその他の実施例を示すブ
ロツク図である。この実施例は騒音は側方から入
るとしているので、τ＝０から離れた位置で騒音
のパワーが集中することに着目して騒音の判定信
号を出力するものである。すなわち、Φ（τ）の
うちΦ（Ｏ）およびΦ（Ｏ）の近傍に人間の発音が
集中し、それ以外は騒音とみなすことができるこ
とに着目し、前述の第１０図に示す実施例と同様
にして、相互相関関数計算器３２によつて相互相
関係関数Φ（τ）を演算する。そして、最大値検
出器３５によつて相互相関関数Φ（τ）の最大値
を求める。また、相互相関関数計算機３２は相互
相関係数Φ（Ｏ）を出力し、相互相関関数Φ（τ）
を相互相関係数（Ｏ）によつて演算器３６で割算
する。そして、演算器３６で演算された値の大き
さとしきい値レジスタ３７に記憶されている値と
を比較器２６で比較し、音声であるかあるいは騒
音であるかを判定するようにしたものである。そ
れ以外は前述の第１０図に示す実施例と同じであ
る。

第１２図はこの発明のさらにその他の実施例を
示すブロツク図であり、第１３図は重み関数と音
声／騒音比との関係の一例を示す図である。

構成において、マイクロホン１７と１８とから
出力される音声信号に基づいて相互相関係数計算
機２５によつて相互相関係数Φ（Ｏ）を求める部
分は前述の第６図に示す実施例と同じである。そ
して、相互相関係数計算機２５によつて求められ
た相互相関係数は音声／騒音比対応信号として類
似度計算機４５に与えられる。

一方、指向性マイクロホン１９から出力された
音声信号はフイルタ２８を介して音声パラメータ
抽出器４７に与えられる。なお、フイルタ２８は
前述の第８図に示すプリエンフアシス回路２９２
を含んでいるものとする。音声パラメータ抽出器
４７は同じく第８図に示すバンドパスフイルタ３
０１ないし３０８、整流回路３１１ないし３１８
およびローパスフイルタ３２１ないし３２８など
含む。そして、音声パラメータ抽出器４７は各バ
ンドパスフイルタ３０１ないし３０８のそれぞれ
周波数帯域に応じた信号の強さを出力し、それを
音声パラメータメモリ３８に与える。この音声パ
ラメータメモリ３８は前述の第８図に示したもの
と同じものが用いられる。但し、入力部３８４に
は音声の有無にかかわらず類似度計算機４５が入
力部３８４に記憶されたデータに従つて計算して
いるとき以外は常時音声パラメータ抽出器４７か
ら出力される音声パラメータを順次更新するよう
に構成される。

また、前記音声パラメータ抽出器４７は指向性
マイクロホン１９に入力された音声の音の大きさ
（音圧）に対応した信号を出力し、これを音声期
間判定器４８に与える。音声期間判定器４８はそ
の信号に基づいて音声期間を決定し、その結果を
音声期間レジスタ４９に記憶する。そして、この
音声期間レジスタ４９の内容は類似度計算機４５
に与えられる。類似度計算機４５は音声期間レジ
スタ４９に記憶されている音声期間に基づいて、
音声の始端からたとえば200ｍsec以前と音声の終
つたことを検知し、終端を決定した時点から音声
パラメータメモリ３８の入力部３８４に記憶され
ていてかつ音声期間レジスタ４９によつて区間が
設定された音声パラメータのデータと、音声パラ
メータメモリ３８に登録されているキーワードの
音声パラメータのデータとの間の類似度の計算を
開始する。この計算において、類似度計算機４５
は相互相関係数計算機２５から出力される音声／
騒音比対応信号を重み関数として類似度の計算を
行なう。

なお、この実施例では、音声パラメータ抽出器
４７から得られる音声パラメータは、５ｍsecご
とに８種類のデータを取込み、たとえば１秒あた
り200回の時間軸に沿つたデータとして得るよう
にしている。ここで、計算量を減少するために、
時間の変化の少ない部分のデータを捨てることに
よつて情報量を一定量まで減少させるような処理
を行なつておく。今、１回の取込むデータをＮ
種、時間軸方向のデータの長さをＭ個とし、音声
パラメータメモリ３８の登録部３８３に記憶され
ている音声パラメータの要素をTij、入力された
音声の音声パラメータの要素をPijとしたとき、
よく知られたユークリツド距離ｄはｄ＝_M 〓^j=1 _N 〓ⁱ⁼¹ （Tij−Pij）² …（14）として表わされる。ここでｉは１回に取込まれた
Ｎ種うちの種類に、ｊは時間軸方向のデータの順
序にそれぞれ対応している。通常、類似度と距離
（この場合にはｄ）とは、逆数の関係がある。こ
の実施例では、音声／騒音の比率に対応したＷ
（SN）なる重み付けを行なつたユークリツド距離
dWは、 dW＝_M 〓^j=1 Ｗ（SN）・_N 〓ⁱ⁼¹ （Tij−Pij）² …（15）を用いて類似度を求めている。重み関数Ｗ（SN）
は一例として、第１３図のようなものが用いられ
ている。但し、第１３図において横軸はSN比、
縦軸は重みを表わしている。

このようにして得られた類似度から、あまりに
類似度が小さい場合には判定不能であるとする
が、ある値以上の類似度がある場合には最大値の
類似度を有するキーワードであるとキーワード判
定器４６において判定し、インタフエイス３１に
そのキーワードに対応した信号を送出し、ラジオ
７の制御を行なう。なお、類似度計算機４５およ
びキーワード判定器４６は、たとえばマイクロコ
ンピユータなどによつて構成できる。

上述のごとく音声／騒音比によつて重みを変え
て距離または類似度計算を行なうことによつて、
SN比が大きいときの音声パラメータ同士の比較
を優先的に行ない、SN比が小さいときの値はな
るべく無視するように構成することによつて、音
声／騒音比のよくないときの認識性能を向上でき
かつ瞬時的に音声／騒音比が低下したときの誤認
識を特に減少することができる。もちろん、第１
３図に示した横軸のＳ／Ｎは前述の第５Ａ図で示
したＳ／Ｎを用いてもよいことは言うまでもな
い。また、第１３図において重み関数Ｗ（SN）は
連続的に変化する関数としたが、簡単なために
は、たとえばＳ／Ｎ＝17dBから上を１、下を０
とするような２値による重み付けを行なつてもよ
い。

第１４図はこの発明のさらにその他の実施例を
示すブロツク図である。この第１４図に示す実施
例は、前述の第１２図に示す類似度計算機４５に
与える音声／騒音比対応信号に代えて前述の第１
０図に示す音声、騒音判定信号を与えるようにし
たものである。そして、類似度計算機４５は音
声、騒音判定信号が２値であるため、重み関数Ｗ
（SN）としても２値として出力する。

第１５図はこの発明のさらにその他の実施例を
示すブロツク図である。この第１５図に示す実施
例は、前述の第１２図に示す類似度計算機４５に
与える音声／騒音比対応信号に代えて前述の第１
図に示す演算器４３からの信号を用いるようにし
たものである。そして、割算器４３からの信号に
基づいて、重み関数の値を変えて距離または類似
度計算を行なう。もちろん２値関数として扱つて
もよいことは言うまでもない。

なお、前述の第１０図、第１１図、第１４図お
よび第１５図に示す相互相関関数計算機３９とし
て、前述の第(3)式および第(4)式における周期Ｔを
無限大とする極限を求めないで、ある有限区間に
おいて数値計算する方法がよく用いられる。この
場合、データの長さはマイクロホン１７と１８と
の間隔（30cm程度）の空気の伝播時間の２倍（約
２ｍsec）より長ければ計算できるが、精度を上
げるために10倍以上長くするように構成される。

なお、上述の実施例において、マイクロホン１
７と１８は運転者１１の口許から等距離にあるも
のとして説明したが、これは必ずしも必要でな
く、２つのマイクロホン１７と１８から出力され
る運転者の音声信号の時間差をずらせて前述の説
明と同様に行なうことができることは言うまでも
ない。

また、上述の説明では、この発明を車のラジオ
７を制御するための音声識別装置として説明した
が、これに限ることなくその他の制御対象を制御
するために用いてもよいことは言うまでもない。

以上のように、この発明によれば、比較的高い
騒音の中においても人間の発音した極めて正確に
識別することができる。

【図面の簡単な説明】

第１図はこの発明の一実施例が適用された自動
車を横方向から見た概略図である。第２図は同じ
く運転者の後方向から見た概略図である。第３図
は同じく自動車の車内の概略図である。第４図は
音声信号と騒音との関係を説明するための図であ
る。第５Ａ図および第５Ｂ図は相関係数の計算結
果の例を示す図である。第６図はこの発明の一実
施例の概略ブロツク図である。第７Ａ図および第
７Ｂ図は相関関数計算機の一例を示す概略ブロツ
ク図である。第８図は第６図に含まれる音声認識
回路の具体的なブロツク図である。第９図は音声
認識回路の他の例を示すブロツク図である。第１
０図はこの発明の他の実施例の概略ブロツク図で
ある。第１１図はこの発明のその他の実施例を示
す概略ブロツク図である。第１２図はこの発明の
さらにその他の実施例を示す概略ブロツク図であ
る。第１３図は重み関数と音声／騒音比との関係
の一例を示す図である。第１４図はこの発明のそ
の他の実施例を示すブロツク図である。第１５図
はこの発明の他の実施例のブロツク図である。図において、１７，１８，１９はマイクロホ
ン、２５は相互相関係数計算機、２６は比較器、
２７，４１，４４はレジスタ、２９は音声認識回
路、３１はインタフエイス、３８は音声パラメー
タメモリ、３９は相互相関関数計算機、４０は遅
れ時間検出器、４２は最大値検出器、４３は割算
器、４５は類似度計算機、４６はキーワード判定
器、４７は音声パラメータ抽出器、４８は音声期
間判定器、４９は音声期間レジスタを示す。

Claims

【特許請求の範囲】１発音者の発音した音声を識別するための音声
識別装置であつて、それぞれが前記発音者の近傍に所定の間隔を有
して配置され、入力された音声を電気信号に変換
する少なくとも第１および第２の音声入力手段を
含む音声電気信号変換手段、前記第１の音声入力手段から出力される音声入
力信号から予め定める周波数帯域成分の音声信号
を抽出する第１のフイルタ手段、前記第２の音声入力手段から出力される音声入
力信号から前記第１のフイルタ手段と同一の周波
数帯域成分の音声信号を抽出する第２のフイルタ
手段、前記第１および第２のフイルタ手段から抽出さ
れたそれぞれの音声信号の相関を演算する相関演
算手段、および前記相関演算手段からの演算結果に基づいて、
前記音声電気信号変換手段から出力される音声信
号が前記発音者の発音した音声に基づくものであ
るかあるいは騒音に基づくものであるかを判別す
る音声判別手段を備えた、音声識別装置。２前記音声判別手段は、予め定める音声対騒音比としての値を記憶する
記憶手段、前記記憶手段に記憶している音声対騒音比と前
記相関演算手段出力とを比較し、音声対騒音比の
大小を表わす信号を出力する比較手段、および前記比較手段からの音声対騒音比の大小を表わ
す信号に基づいて、前記音声電気信号変換手段か
ら入力された音声信号の音声認識を行なうかある
いは音声認識を不能にする音声認識手段を含む、
特許請求の範囲第１項記載の音声識別装置。３前記相関演算手段は、前記第１および第２の
フイルタ手段から出力された音声入力信号のそれ
ぞれの時間差に対応した相関係数を演算する相関
係数演算手段を含み、前記記憶手段は予め定める相関係数を音声対騒
音比対応信号として記憶し、前記比較手段は前記相関係数演算手段出力と前
記記憶手段に記憶している相関係数とを比較して
発音者の発音した音声と騒音との比に応じた音声
騒音判定信号を出力するようにした、特許請求の
範囲第２項記載の音声識別装置。４前記音声判別手段は、前記相関係数演算手段出力から相関係数の最大
値を有する時間を検出する遅れ時間検出手段と、前記第１および第２の音声入力手段出力の音声
入力信号のそれぞれの時間差を中央値とし、それ
から所定の時間の範囲の値を記憶する時間範囲記
憶手段と、前記遅れ時間検出手段によつて検出された遅れ
時間と前記時間範囲記憶手段の内容とを比較し、
遅れ時間が前記時間範囲記憶手段の内容に基づく
範囲内に含まれていることに応じて音声判定信号
を出力し、前記範囲外であれば騒音判定信号を出
力する第２の比較手段と、前記第２の比較手段からの音声判定信号に応じ
て前記音声電気信号変換手段から入力された音声
入力信号の認識を能動化し、前記騒音判定信号に
応じて前記認識を不能化する第２の音声認識手段
とを含む、特許請求の範囲第１項記載の音声識別
装置。５前記第１または第２の音声認識手段は、前記音声電気信号変換手段出力に基づいて音声
パラメータを抽出する音声パラメータ抽出手段
と、予め定める音声パラメータを記憶する音声パラ
メータ記憶手段と、前記音声パラメータ抽出手段からの音声パラメ
ータと前記音声パラメータ記憶手段に記憶してい
る音声パラメータとの類似度を演算する類似度演
算手段と、前記類似度演算手段による類似度の演算結果に
基づいていずれの音声であるかを判定するキーワ
ード判定手段とを含み、前記類似度演算手段は、前記相関係数演算手段
出力の相関係数に基づく音声対騒音比対応信号に
応じた重み関数を考慮して類似度演算を行なうよ
うにした、特許請求の範囲第２項または第４項に
記載の音声識別装置。６前記重み関数は２値信号である、特許請求の
範囲第５項記載の音声識別装置。７前記音声電気信号変換手段は、前記音声判別
手段に音声信号を与える第３の音声入力手段を含
む、特許請求の範囲第１項記載の音声識別装置。８前記第３の音声入力手段は指向性マイクロホ
ンを含む、特許請求の範囲第７項記載の音声識別
装置。９前記第１および第２の音声入力手段はそれぞ
れ前記発音者の口許から等距離の位置に配置され
る、特許請求の範囲第１項記載の音声識別装置。