JPH07306692A

JPH07306692A - 音声認識装置及び音声入力装置

Info

Publication number: JPH07306692A
Application number: JP6099625A
Authority: JP
Inventors: Tatsumi Watanabe; 辰巳渡辺; Hidetsugu Maekawa; 英嗣前川; Kazuaki Obara; 和昭小原; Kazuhiro Kayashima; 一弘萱嶋; Kenji Matsui; 謙二松井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-05-13
Filing date: 1994-05-13
Publication date: 1995-11-21

Abstract

(57)【要約】【目的】口唇の情報を用いた、周囲騒音等のノイズに
よる影響を受けないで安定した認識を行うことのできる
音声認識装置と、音声認識を用いないで自動的に音声信
号の記録・再生の制御を行う音声入力装置を実現する。【構成】発光素子の反射光を受光素子１０２で電気信
号に変換して、顔の変化を捉え、微分処理部１０３によ
る処理を経て、口唇の時間的変化を表す信号を抽出す
る。カテゴリ分類部７０４では、まず時系列パターン抽
出部７０１が微分処理部１０３の信号からさらに特徴的
な部分を取り出し、カテゴリ判断部７０３が標準パター
ン保持部７０２にある比較用標準パターンとの比較を行
うことによって、口唇の大まかなカテゴリ分類を行う。
音声認識部１０９は、カテゴリ判断部７０３で得られた
カテゴリ内に属する音声のみを認識対象として認識を行
う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話者の口唇の情報と音
声信号を用いて音声認識を行う音声認識装置と、話者の
口唇の情報をもとに音声・画像記録再生装置への記録ま
たは再生を制御する音声入力装置に関するものである。

【０００２】

【従来の技術】従来の音声認識装置は、話者の音声信号
から音声区間を切り出して音声認識を行うものであっ
た。図１３は、従来の音声認識装置の構成を示すもので
ある。図１３において、１０７はマイク等の話者の音声
を入力する音響部、１０８は音響部１０７が入力した話
者の音声を電気信号に変換する音声変換部、１３０１は
変換された電気信号から音声区間を抽出する音声区間抽
出部、１３０２は音声変換部１０８における電気信号か
ら音声区間を切り出す音声区間切り出し部、１３０３は
音声特徴量照合のための音声認識用標準データ記録部、
１３０４は音声区間切り出し部１３０２で切り出された
音声信号を特徴量に変換して音声認識用標準データ部１
３０３のデータとの類似度により認識を行う類似度計算
部である。音声認識部１０９は音声認識用標準データ記
録部１３０３と類似度計算部１３０４より構成され、音
声入力部１１２は音響部１０７と音声変換部１０８より
構成される。

【０００３】このように構成された従来の音声認識装置
では、入力された話者の音声信号は音声区間抽出部１３
０１、音声区間切り出し部１３０２が音声信号から音声
区間を切り出し、類似度計算部１３０４が音声特徴量に
変換し音声認識用標準データ記録部１３０３のデータと
の類似度を求めることにより音声認識を行うものであっ
た。

【０００４】また、従来の音声入力装置は、入力された
音声信号に対する前記音声認識装置の認識結果をもとに
音声信号に対する処理を開始するものであった。図１４
は、従来の音声入力装置の構成を示すものである。図１
４において、音響部１０７、音声変換部１０８、音声認
識部１０９、音声入力部１１２、音声区間抽出部１３０
１、音声区間切り出し部１３０２、音声認識用標準デー
タ記録部１３０３、類似度計算部１３０４は従来の音声
認識装置で説明したものと全く同様である。さらに、１
４０１は音声信号に対する処理の実行を指示する音声処
理部であり、１４０２は音声信号処理が実行されるまで
に一時的に音声信号を保持する音声信号仮記録部であ
る。

【０００５】このように構成された従来の音声入力装置
では、切り出された音声区間における音声信号を音声認
識し、その結果をもとに、音声処理部１４０１が、例え
ば磁気ディスクへの音声信号の記録を開始する等といっ
た処理を実行するものであった。

【０００６】

【発明が解決しようとする課題】しかしながら、上記従
来の音声認識装置では、ノイズ環境下、特に音楽や人声
等といった騒音レベルが非定常な環境において、周囲騒
音を音声区間だと誤って検出してしまい、音声認識率が
著しく低下するという問題が生じた。また、上記従来の
音声入力装置では、このようなノイズ環境下における誤
認識により、周囲騒音に反応して音声信号の記録・再生
を実行してしまうという問題があった。さらに、上記従
来の音声入力装置では、音声認識が終り処理が実行され
るまでに入力される音声信号を一時的に記録する手段を
必要とするという問題があった。

【０００７】本発明は上記課題を解決するもので、口唇
の情報を用いた、周囲騒音等のノイズによる影響を受け
ないで安定した認識を行うことのできる音声認識装置
と、音声認識を用いないで自動的に音声信号の記録・再
生の制御を行う音声入力装置を提供することを目的とす
る。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、本発明における第１の音声認識装置は、口唇の情報
を利用して、入力された音声信号が周囲の騒音ではなく
話者の音声か否かの判断を行うことにより、音声認識を
行うようにしたものである。すなわち、音声信号を入力
する音声入力手段と、前記音声入力手段で得られた音声
信号を用いて音声認識する音声認識手段と、口唇を含む
画像を入力する画像入力手段と、前記画像入力手段を用
いて入力された画像信号から口唇の情報を抽出する特徴
抽出手段と、前記特徴抽出手段で得られた口唇の情報に
より前記音声認識手段の結果が有効であるか否かの判断
をする音声判断手段と、前記音声判断手段の結果と前記
音声認識手段の結果から最終的な認識判断を行う認識判
断手段を備えた構成である。

【０００９】本発明における第２の音声認識装置は、口
唇により大まかなカテゴリ分類を行い、そのカテゴリに
含まれる音声の中で、最も入力された音声信号に近いも
のを認識結果として判断するものである。すなわち、音
声信号を入力する音声入力手段と、口唇を含む画像を入
力する画像入力手段と、前記画像入力手段を用いて入力
された画像信号から口唇の情報を抽出する特徴抽出手段
と、前記特徴抽出手段で得られた口唇の情報をいくつか
のカテゴリに分類するカテゴリ分類手段と、前記カテゴ
リ分類手段で得られたカテゴリに属する音声のみを認識
対象とする音声認識手段を備えた構成である。

【００１０】また、本発明の音声入力装置は、口唇の情
報を利用して入力された音声が周囲の騒音ではなく話者
の音声か否かを瞬時に判断し、音声信号の記録または再
生を制御するものである。すなわち、音声信号を入力す
る音声入力手段と、口唇を含む画像を入力する画像入力
手段と、前記画像入力手段を用いて入力された画像信号
から口唇の情報を抽出する特徴抽出手段と、前記特徴抽
出手段で得られた口唇の情報により、入力された音声信
号が周囲の騒音ではなく話者の音声であるか否かの判断
をする音声判断手段と、前記音声判断手段の結果によ
り、音声・画像記録再生装置に対して音声信号の記録ま
たは再生を制御する音声処理手段を備えた構成である。

【００１１】

【作用】本発明における第１の音声認識装置は前記した
構成により、画像入力手段が口唇の画像を電気信号に変
換して入力し、特徴抽出手段がその信号から口唇の情報
を抽出できるような信号に変換する。そして、音声判断
手段がその変換信号を用いて、入力された音声信号が周
囲の騒音ではなく話者の音声であるか否かの判断を行
い、認識判断手段が音声認識手段の結果と音声判断手段
の結果をもとに最終的な認識判断を行う。ここで、口唇
の情報は周囲騒音等のノイズによる影響を殆ど受けない
ため、ノイズ環境下においても話者の音声認識を安定し
て行い、音声認識率の低下を抑える。

【００１２】また、本発明における第２の音声認識装置
は前記した構成により、画像入力手段が口唇の画像を電
気信号に変換して入力し、特徴抽出手段がその信号から
口唇の情報を抽出できるような信号に変換する。カテゴ
リ分類手段がその信号より入力された音声をいくつかの
カテゴリに分類する。そして、得られたカテゴリ内に属
する音声のみを認識対象として音声認識手段が入力され
た音声信号から認識を行う。本発明の第１の音声認識装
置では、口唇の情報が音声認識手段の結果を有効とみな
すか否かの判断のためのみに用いられるのに対し、本発
明では、口唇の情報を用いて認識対象の大まかな限定を
行っている。そのため、音声認識手段にかかる計算時間
を減らすことができ、ノイズ環境下においてもより安定
した音声認識を行う。

【００１３】また、本発明の音声入力装置は前記した構
成により、画像入力手段が口唇の画像を電気信号に変換
して入力し、特徴抽出手段がその信号から口唇の情報を
抽出できるような信号に変換する。音声判断手段が、そ
の口唇情報を用いて話者音声が入力されたか否かの判断
を行い、その結果をもとに音声処理手段が音声信号の記
録や再生を制御する。前述のように、口唇の情報を用い
た話者音声か否かの判断はノイズによる影響を殆ど受け
ないため、周囲騒音による誤動作を避けることができ
る。また、音声認識を必要としない分だけ音声信号の入
力に素早く対応して音声信号の記録または再生の制御を
行う。

【００１４】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。図１は本発明の第１の実施例における音声
認識装置のブロック図、図４は本発明の第２の実施例に
おける音声認識装置のブロック図、図７は本発明の第３
の実施例における音声認識装置のブロック図、図１０は
本発明の第４の実施例における音声認識装置のブロック
図、図１２は本発明の第１の実施例における音声入力装
置のブロック図であり、各図において、同一部には同一
番号を付している。

【００１５】まず、本発明の第１の実施例について説明
する。第１の実施例は、口唇の情報を入力する手段とし
て、従来のＣＣＤカメラ等の光学系ではなく発光素子と
その反射光を受ける受光素子を適用し、入力音声の有効
性を判断する手段として、しきい値による判断手段を適
用したものである。

【００１６】図１において、１０１は話者の口唇に当て
る光を発する発光ダイオード等の発光素子、１０２は発
光素子１０１から出る光の反射光を受けて電気信号に変
換するフォトダイオード等の受光素子、１０３は受光素
子１０２からの電気信号に対して、微分処理を行う微分
処理部、１０４は微分処理部１０３で得られた信号に対
して、信号の平滑化を行う平滑処理部、１０５は平滑処
理部１０４で得られた信号からしきい値を求めるしきい
値決定部、１０６はしきい値決定部１０５で得られたし
きい値との比較をもとに、入力音声が話者の音声である
か否かを判断するしきい値処理判断部、１０７は画像の
入力と並行して音声信号の入力を行うマイク等の音響
部、１０８は音響部１０７が入力した音声を電気信号に
変換する音声変換部、１０９は音声変換部１０８より入
力された信号より認識を行う音声認識部である。ここ
で、画像入力部１１０は発光素子１０１と受光素子１０
２より構成され、特徴抽出部１１１は微分処理部１０３
と平滑処理部１０４より構成される。また、音声入力部
１１２は音響部１０７と音声変換部１０８より構成さ
れ、音声判断部１１３はしきい値決定部１０５としきい
値処理判断部１０６より構成される。１１４は音声認識
部１０９の結果と音声判断部１１３の結果から最終的な
認識判断を行う認識判断部である。

【００１７】以上のように構成された本発明の第１の実
施例における音声認識装置の動作について説明する。ま
ず、画像入力部１１０の動作について説明する。発光素
子１０１から発せられた光は、口唇を含む顔に当たり反
射する。受光素子１０２がその反射光を捉え、電気信号
に変換する。なお、電気信号への変換は、適当なサンプ
リングレートにより行われる。一方、音声入力部１１２
では、音響部１０７が画像入力部１１０と同期して音声
信号のサンプリングを行い、音声変換部１０８で電気信
号に変換される。そして、音声変換部１０８で変換され
た音声信号を用いて、音声認識部１０９が単独に音声認
識を実行する。なお、音声認識部１０９は、公知の音声
認識装置を用いればよい。

【００１８】次に、特徴抽出部１１１の動作について説
明する。微分処理部１０３が受光素子１０２で得られた
電気信号に対して微分処理を加えることにより、口唇の
動きにより生じた光量変化を抽出する。さらに、微分処
理部１０３で得られた微分信号を用いて、平滑処理部１
０４がサンプリング時刻ｉにおける特徴信号量Sig_iを次
の（数１）のように定義する。

【００１９】

【数１】

【００２０】（数１）において、diff_jがサンプリング
時刻ｊにおける１０３で得られた微分信号、Ｔaが平均
を求める時間幅を表す。この処理は、サンプリング時刻
ｊにおける前後Ｔa時刻分の微分信号値diff_jの平均を求
める処理に相当する。この処理をloop回繰り返すことに
より、微分信号波形における微小な変動分を滑らかに整
形し、信号のピークを明確にする。ここで、図２は口唇
の動きを表す微分信号波形と、平滑化により得られた特
徴信号波形の概念図を表し、図３は前記の平滑化処理の
概念図を表す。

【００２１】次に、音声判断部１１３の動作について説
明する。しきい値決定部１０４が、音声認識を開始する
以前の時刻における特徴信号量Sig_noを、（数１）に従
い求める。この値Sig_noは騒音の特徴を表すものと考え
られるので、この値に安全係数δ(δ≧1)を乗ずること
により得られた値を、しきい値処理判断部１０６で用い
るしきい値ＴＨvalueとする。しきい値処理判断部１０
６では、しきい値ＴＨvalueを超える特徴信号Sig_iの個
数を数え、その値が予め設定した値Ｗlengthに達するか
否かを調べることにより、騒音ではなく話者が発した単
語音声であるか否かの判断を下す。そして、認識判断部
１１４がしきい値処理判断部１０６からの結果と音声認
識部１０９の結果から、最終的な音声認識の判断を行う
のである。以上のように、口唇の情報にこのような簡単
な手法を用いて処理することにより、ノイズ環境下にお
ける音声認識率の低下を抑えることが可能となる。

【００２２】以下、本発明の第２の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、第１の実施例における音声判断部に、ニューラルネ
ットワーク（神経回路網）を適用したものである。図４
は、本発明の第２の実施例における音声認識装置の構成
を示すものである。図４において、４０１は、口唇の情
報を示す特徴信号Sig_iから、話者音声であるか否かの判
断を行うニューラルネット音声判断部である。

【００２３】以上のように構成された本発明の第２の実
施例における音声認識装置の動作について説明する。図
５は、認識判断を行うニューラルネットワークの概念図
を示す。本実施例のニューラルネットワークは、図のよ
うに、入力層、中間層、出力層、状態層から構成され
る。入力層はＮ_i個のニューロンより構成され、サンプ
リング時刻ｔから時刻(ｔ＋Ｎ_i−１)における口唇の特
徴を示す特徴信号が入力される。尚、入力層数、つま
り、１度にニューラルネットワークに入力される微分信
号数Ｎ_iを単語音声の開始から終了までの時間よりも小
さな値に設定する。

【００２４】出力層は話者の音声入力の開始を表すニュ
ーロンと、その音声入力の終了を表すニューロンの２個
より構成される。状態層は２個のニューロンより構成さ
れ、出力層からの信号がフィードバックされている。状
態層のニューロンの特性は１次遅れ、もしくは２次遅れ
のフィルタになっているので、過去の出力層の出力の履
歴をこの層で記録することができる。入力層と状態層の
出力は中間層、出力層へと伝わりネットワークの出力が
得られる。さらに、この出力は再び状態層へフィードバ
ックされる。各ニューロンは次の（数２）に従い、出力
ｙ_iが計算される。

【００２５】

【数２】

【００２６】（数２）において、ｙ_iが各ニューロンｉ
の出力、Ｗ_ijが結合荷重、ｘ_jが他のニューロンからの
入力、θ_iがスレッシュホールドである。非線形関数ｆ
は、（数３）に示すシグモイド関数である。

【００２７】

【数３】

【００２８】各ニューロンが（数３）・（数４）に示す
計算を行って結果を出力する。

【００２９】

【数４】

【００３０】本実施例のニューラルネットワークは、大
きく分けて学習過程と認識過程の２種類の動作を行う。
学習過程では、口唇画像から得られた特徴信号から、話
者の音声入力の開始と終了を判断することができるよう
にネットワークの結合荷重を変化（学習）させる。図６
は学習時に用いられる、出力層のニューロンに与えられ
る教師信号と特徴信号との関係を概念的に表したもので
ある。サンプリング時刻Ｎ_i分の特徴信号と過去の時間
における出力層の出力の履歴を入力とする。その時刻Ｎ
_i内に特徴信号が大きく立ち上がる、つまり話者音声の
入力が開始された場合には、それに対応する出力層のニ
ューロンに１を教師信号として与える。

【００３１】同様に、そのＮ_i時間内で特徴信号が大き
く立ち下がる、つまり話者音声の入力が終了となった場
合には、それに対応する出力層のニューロンに１を教師
信号として与える。これらの教師信号を用いて学習が行
われ、（数４）に示した出力信号と教師信号の誤差を小
さくする方向に、（数５）のように各ニューロンの結合
荷重を変更するバックプロパゲーション法が学習方法と
して用いられる。

【００３２】ここで、outがネットワークの出力信号、t
argetが教師信号である。

【００３３】

【数５】

【００３４】ここで、ΔＷ_ij(n)は結合荷重の変更度、
α、ηは適当な正の実数、ｎは学習の回数、∂E / ∂Ｗ
_ijは、各結合荷重の変更がネットワークの出力誤差に与
える感度を表す。（数５）において第１項が誤差を小さ
くする荷重変更方向、第２項が慣性項である。

【００３５】一方、認識過程では学習過程と同様に実際
の話者の口唇画像から得られる特徴信号をｍ時刻分入力
して、各ニューロンが所定の計算を行い、検出結果を出
力する。口唇の情報は連続的に続くことから、連続的に
Ｎ_i時刻分のデータをネットワークに入力し続けなが
ら、学習・認識を行い入力された音声信号が話者音声で
あるか否かの判断を行う。

【００３６】以上のように、本発明の第２の実施例にお
ける音声認識装置は、フィードバックを持つニューラル
ネットワークを用いて、入力された音声信号の有効性を
判断するため、単語や話者に対する口唇の動きの変動を
ある程度吸収することができる。

【００３７】なお、本実施例でのニューラルネットワー
クは、シグモイド関数を用いたニューロンにバックプロ
パゲーションによる学習方法を適用したが、本実施例は
この学習方法に限定されるものではない。例えば、共役
勾配法、準ニュートン法等を利用した学習方法等の適用
も考えられる。

【００３８】以下、本発明の第３の実施例における音声
認識装置について図面を参照しながら説明する。図７
は、本発明の第３の実施例における音声認識装置の構成
を示すものである。本実施例は、受光素子で受けた反射
光より得られる電気信号の微分信号から口唇の情報を表
す時系列パターンを抽出して、音声のカテゴリ分類を行
うものである。

【００３９】図７において、７０１は微分処理部１０３
で得られた信号からその特徴を表す時系列パターンを取
り出す時系列パターン抽出部、７０２はカテゴリ分類を
行うために用意された標準パターンを保持する標準パタ
ーン保持部、７０３は時系列パターン抽出部７０１で得
られた時系列パターンを標準パターン保持部７０２の標
準パターンと比較し、入力音声のカテゴリを判断するカ
テゴリ判断部である。ここで、カテゴリ分類部７０４は
時系列パターン抽出部７０１と標準パターン保持部７０
２、そしてカテゴリ判断部７０３より構成される。

【００４０】以上のように構成された本発明の第３の実
施例における音声認識装置の動作について説明する。ま
ず、カテゴリ分類部７０４の動作について述べる。図８
は微分処理により得られた口唇の時間的変動を表す信号
diffの概念図を表すが、このように微分信号diffの特徴
を表す極大・極小部分は、微小摂動部分から比較的に容
易に分離することができ、この極値の出現パターンは発
せられた単語音声の特徴を表していると考えられる。

【００４１】このことに注目して、時系列パターン抽出
部７０１が、ある一定時間Ｔ内の微分信号の極大値・極
小値を順番に抽出する。その際、選ばれた極値の絶対値
が、音声認識を開始する以前の微分信号レベルdiff_noに
安全係数ηを掛けた値より小さい場合は、その微分信号
の特徴を示していないものとして除外する。図９はある
微分信号から抽出される時系列パターンの概念図を表
す。

【００４２】図９においてq₁,q₂,...,q₈等は極大値・極
小値、そして時間Ｔにおける始点と終点の微分信号値を
表しており、これを出現順に並べることにより時系列パ
ターンを抽出する。カテゴリ判断部７０３が、その時系
列パターンと標準パターン保持部７０２の標準パターン
の間の２乗距離length^pを（数６）により求める。

【００４３】

【数６】

【００４４】（数６）において、ｑ_iが求められた時系
列パターンのｉ番目の要素を、ｔ_i ^pが標準パターンｐの
ｉ番目の要素を、Ｎ^pが標準パターン数を、ｎ^pが標準パ
ターンの要素数を表す。尚、単語によりパターンの要素
数が異なる可能性があるが、標準パターンの要素数の方
が多い場合にはｑ_iの要素にdiff_noを加えて２乗距離計
算を行い、逆に少ない場合は、ｑ_iの余分な要素を削除
して２乗距離計算を実行する。このlength^pの値が、最
も小さいパターンｐを口唇の動きから得られるカテゴリ
として判断を下す。この際、length^pが予め設定したし
きい値ＴＨvalue2より大きい場合は、入力された信号は
単語を発した時の口唇の動きを表してないものと判断す
るのである。

【００４５】最後に、カテゴリ分類部７０４で得られた
カテゴリ内の単語音声を認識対象として、音声認識部１
０９により音声認識を行う。以上のように口唇の情報を
大まかにカテゴリ分類を行い、そのカテゴリ内に属する
音声のみを認識対象として音声信号による認識を行うこ
とによって、ノイズ環境下においても、安定した話者音
声認識を行え、ノイズ環境下における音声認識率の低下
を抑えることが可能となる。

【００４６】また、本発明の第１及び２の実施例におけ
る音声認識装置では、口唇の情報が音声認識手段の結果
を有効とみなすか否かの判断のためのみに用いられるの
に対し、本実施例では、口唇の情報を用いて認識対象の
大まかな限定を行っている。そのため、音声認識手段に
かかる計算時間を減らすことができ、ノイズ環境下にお
いてもより安定した音声認識を行うことができる。

【００４７】以下、本発明の第４の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、第３の実施例におけるカテゴリ分類部に、ニューラ
ルネットワーク（神経回路網）を適用したものである。
図１０は、本発明の第４の実施例における音声認識装置
の構成を示すもので、１００１は、口唇の時間的変動を
示す微分信号diff_iから、音声信号のカテゴリ分類を行
うニューラルネットカテゴリ分類部である。

【００４８】以上のように構成された本発明の第４の実
施例における音声認識装置の動作について説明する。図
１１は、口唇の動きを示す微分信号を用いて音声信号の
カテゴリ分類を行うニューラルネットワークの概念図を
示す。ここで、本発明の第２の実施例で用いられたバッ
クプロパゲーション法による階層型ニューラルネットワ
ークモデルを利用したカテゴリ分類方法等も考えられる
が、比較的簡単な学習アルゴリズムで小数のサンプル数
で高度なパターン分類ができる学習ベクトル量子化法に
よるニューラルネットワークを適用した。

【００４９】本実施例のニューラルネットワークは、図
に示すように、入力層ニューロン数Ｎ_i、出力層ニュー
ロン数Ｎ_oの２層構造をなす。出力層ニューロン数N
_oは、識別したい音声単語カテゴリー数Ｍに等しく、入
力層ニューロン数Ｎ_iは口唇の動きを示すＮ_i時刻分の微
分信号に等しい。

【００５０】Ｎ_i時刻分の微分信号を入力ベクトルＶ
(v₁,v₂,...,v_Ni)とし、ｍ番目の音声単語カテゴリに対
応する入力ベクトルをＶ^m(m=1,2,...,M)とし、さらに結
合係数をＷ_ij(i=1,2,...,N_i,j=1,2,...,N_o)とする。

【００５１】本実施例のニューラルネットワークは、大
きく分けると学習過程と認識過程の２種類の動作を行
う。学習過程では、ニューラルネットワークは、結合係
数Ｗ_ijを構成するＭ個のベクトルＷ_i(W_i1,W_i2,...,
W_iNi)を用いて、入力ベクトルＶの空間をＭ個の領域に
分割する働きをする。このＭ個の結合係数ベクトルは参
照ベクトルと呼ばれ、各領域に１つの参照ベクトルが対
応させられる。そして、この参照ベクトルはその対応し
た領域内に含まれるすべての入力ベクトルに対する最近
接ベクトルに相当する。

【００５２】ここで、ベクトルＷ_iの中で最も距離の近
いベクトルをベクトルＷ_cとすると、（数７）のように
なり、また、出力層ニューロンｉからの出力ｕ_iは（数
８）のようになる。

【００５３】

【数７】

【００５４】

【数８】

【００５５】学習はこのベクトルＷ_cのみを更新するこ
とにより行われ、この更新量△Ｗ_cは次の（数９）に従
い実行される。

【００５６】

【数９】

【００５７】η(n)は学習回数ｎに従い単調減少する学
習係数（0<η(n)<1)である。（数９）は、参照ベクトル
Ｗ_cは、正しく分類された場合は入力ベクトルＶ_mに近づ
き、分類されていない場合はＶ_mより遠ざかることで領
域境界面を形成することを示す。このように学習過程
は、実際に分類したい単語音声を話している話者の口唇
の動きから得られるＮ_i時刻分の信号を入力学習ベクト
ルとし、その入力学習ベクトルを充分多く与えることに
より行われる（学習ベクトル量子化法）。

【００５８】一方、認識過程は、前述の学習過程により
予め充分学習が行われたニューラルネットワークを用い
て行われる。実際の話者の口唇の動きを示すＮ_i時刻分
の微分信号を入力して、各ニューロンが計算を行い、そ
のカテゴリ分類結果を出力する。以上説明したように、
第３の実施例における音声認識装置は、口唇の動きを示
す微分信号を用いて音声信号のカテゴリ分類を行う際に
ニューラルネットワークを用いている。そして、ニュー
ラルネットカテゴリ分類部１００１で得られたカテゴリ
内の単語音声のみを認識対象として、音声認識部１０９
により音声認識を行う。従って、本発明の第３の実施例
と同様により安定した音声認識を行うことができる。さ
らに、口唇の情報をニューラルネットワークに入力して
音声の分類を行うことから、単語や話者に対する口唇の
動きの変動をある程度吸収することが可能である。

【００５９】以下、本発明の一実施例における音声入力
装置について図面を参照しながら説明する。本実施例
は、口唇の情報を用いて入力音声が周囲の騒音ではなく
話者の音声か否かの判断を行い、話者音声として有効と
判断された場合、磁気ディスク等の記録媒体への記録を
開始することに適用したものである。図１２は、本発明
の一実施例における音声入力装置の構成を示すもので、
音声判断部１１３としては、本発明の第１、第２の音声
認識装置の実施例で述べた構成のどちらを採用しても問
題はない。１２０１は音声判断部１１３からの結果をも
とに、記録媒体部１２０２への音声信号の記録の指示を
行う音声処理指示部、１２０２は音声信号を記録するた
めの記録媒体部、１２０３は音声処理指示部１２０１か
らの信号に従い、音声信号の記録を実行する記録実行
部、１２０４は音声記録の開始と終了を知らせるメッセ
ージを保持するメッセージ保持部、１２０５はそのメッ
セージを表示するメッセージ表示部である。音声処理部
１２０６は記録媒体部１２０２と記録実行部１２０３に
より構成される。メッセージ制御部１２０７はメッセー
ジ保持部１２０４、メッセージ表示部１２０５により構
成される。

【００６０】以上のように構成された本実施例における
音声入力装置の動作について説明する。まず、画像入力
部１１０、特徴抽出部１１１、音声判断部１１３が、口
唇の情報から、話者音声であるか否かの判断を行う。音
声処理判断部１２０１は、音声判断部１１３より話者音
声であるという判断を初めて受けた時点で、音声処理部
１２０６に音声記録開始を指示するとともにメッセージ
制御部１２０７に音声記録開始のメッセージ表示の指示
を行う。そして、音声処理判断部１２０１は、音声記録
が開始されてからある一定時間、話者の音声であるとい
う判断結果が音声判断部１１３から送られなかった場合
に、音声信号の入力が終わったと判断して音声信号記録
終了の指示を音声処理部１２０６とメッセージ制御部１
２０７に行う。

【００６１】音声処理部１２０６とメッセージ制御部１
２０７の動作について説明する。記録実行部１２０３が
音声処理判断部１２０１から記録開始の指示を受けた瞬
間から、記録媒体部１２０２への音声信号の記録処理を
開始するとともに、メッセージ表示部１２０５がメッセ
ージ保持部１２０４から音声信号記録開始のメッセージ
を読みだして表示する。同様に音声処理指示部１２０１
から記録終了の指示を受けてから、記録実行部１２０３
が記録媒体部１２０２への音声信号の記録処理を終了す
るとともにメッセージ表示部１２０５が音声信号記録終
了のメッセージを表示するのである。

【００６２】以上説明したように、本実施例における音
声入力装置によれば、周囲騒音による誤動作を避けて音
声の記録を行うことができる。また、周囲の騒音ではな
く話者の音声入力に対して、音声認識を必要としない分
だけ素早く自動的に音声信号の記録開始とその終了を行
うことができる。

【００６３】

【発明の効果】以上のように本発明の第１の音声認識装
置によれば、口唇の情報を用いて周囲騒音ではなく話者
の音声か否かの判断を行うので、ノイズ環境下における
音声認識率の低下を抑えることができる。

【００６４】また、本発明の第２の音声認識装置によれ
ば、口唇の情報を用いて認識対象の大まかな限定を行う
ため、音声認識手段にかかる計算時間を減らすことがで
きるとともに、ノイズ環境下においてもより安定した音
声認識を行うことができる。

【００６５】また、本発明の音声入力装置によれば、音
声認識を用いず口唇の情報から話者の音声か否かの判断
を行い、磁気ディスクへの音声信号の記録開始を行うた
め、ノイズ環境下においても、周囲騒音による誤動作を
避けることができ、音声認識を必要としない分だけ素早
く自動的に音声信号の取り込みを行うことができ、音声
信号を一時的に保持する手段も必要としないといった優
れた項かを有する。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識装置の
構成を示すブロック図

【図２】本発明における口唇の動きを表す信号とその信
号を平滑化した信号の概念図

【図３】口唇の動きを表す信号の平滑化処理の概念図

【図４】本発明の第２の実施例における音声認識装置の
構成を示すブロック図

【図５】認識判断手段で用いたニューラルネットワーク
の概念図

【図６】ニューラルネットワークの出力層のニューロン
に与えられる教師信号と口唇画像から得られた特徴信号
の関係を表す概念図

【図７】本発明の第３の実施例における音声認識装置の
ブロック図

【図８】口唇からの反射光を受ける受光素子の出力信号
の微分信号の概念図

【図９】口唇の動きを表す微分信号から抽出される時系
列パターンの概念図

【図１０】本発明の第４の実施例における音声認識装置
のブロック図

【図１１】カテゴリ分類部で用いられたニューラルネッ
トワークの概念図

【図１２】本発明の一実施例における音声入力装置のブ
ロック図

【図１３】従来の音声認識装置のブロック図

【図１４】従来の音声入力装置のブロック図

【符号の説明】

１０１発光素子１０２受光素子１０３微分処理部１０４平滑化処理部１０５しきい値決定部１０６しきい値処理判断部１０７音響部１０８音声変換部１０９音声認識部１１０画像入力部１１１特徴抽出部１１２音声入力部１１３音声判断部１１４認識判断部４０１ニューラルネット音声判断部７０１時系列パターン抽出部７０２標準パターン保持部７０３カテゴリ判断部７０４カテゴリ分類部１００１ニューラルネットカテゴリ分類部１２０１音声処理指示部１２０２記録媒体部１２０３記録実行部１２０４メッセージ保持部１２０５メッセージ表示部１２０６音声処理部１２０７メッセージ制御部

フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｔ 1/00 7/20 Ｇ１０Ｌ 5/06 Ｄ 9/10 ３０１Ｃ (72)発明者萱嶋一弘大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者松井謙二大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】音声信号を入力する音声入力手段と、前記
音声入力手段で得られた音声信号を用いて音声認識する
音声認識手段と、口唇を含む画像を入力する画像入力手
段と、前記画像入力手段を用いて入力された画像信号か
ら口唇の情報を抽出する特徴抽出手段と、前記特徴抽出
手段で得られた口唇の情報により前記音声認識手段の結
果が有効であるか否かを判断する音声判断手段と、前記
音声判断手段の結果と前記音声認識手段の結果から最終
的な認識判断を行う認識判断手段とを備えたことを特徴
とする音声認識装置。
【請求項２】認識判断手段は、特徴抽出手段で得られた
口唇の情報をニューラルネットワークに入力することを
特徴とする請求項１記載の音声認識装置。
【請求項３】音声信号を入力する音声入力手段と、前記
音声入力手段で得られた音声信号を用いて音声認識する
音声認識手段と、口唇を含む画像を入力する画像入力手
段と、前記画像入力手段を用いて入力された画像信号か
ら口唇の情報を抽出する特徴抽出手段と、前記特徴抽出
手段で得られた口唇の情報をいくつかのカテゴリに分類
するカテゴリ分類手段と、前記カテゴリ分類手段により
得られたカテゴリに属する音声のみを認識対象として音
声認識を行う音声認識手段とを備えたことを特徴とする
音声認識装置。
【請求項４】特徴抽出手段が、画像入力手段を用いて得
られた画像信号の時間的な変化を取り出す微分処理手段
で構成されていることを特徴とする請求項３記載の音声
認識装置。
【請求項５】カテゴリ分類手段は、特徴抽出手段で得ら
れた口唇の情報をニューラルネットワークに入力するこ
とにより複数のカテゴリに分類することを特徴とする請
求項３記載の音声認識装置。
【請求項６】音声信号を入力する音声入力手段と、口唇
を含む画像を入力する画像入力手段と、前記画像入力手
段を用いて入力された画像信号から口唇の情報を抽出す
る特徴抽出手段と、前記特徴抽出手段で得られた口唇の
情報をもとに入力された音声が話者の音声か否かを判断
する音声判断手段と、前記音声判断手段の結果により、
音声・画像記録再生装置への音声信号の記録または再生
の制御をする音声処理手段を備えたことを特徴とする音
声入力装置。