JPH07306692A - 音声認識装置及び音声入力装置 - Google Patents

音声認識装置及び音声入力装置

Info

Publication number
JPH07306692A
JPH07306692A JP6099625A JP9962594A JPH07306692A JP H07306692 A JPH07306692 A JP H07306692A JP 6099625 A JP6099625 A JP 6099625A JP 9962594 A JP9962594 A JP 9962594A JP H07306692 A JPH07306692 A JP H07306692A
Authority
JP
Japan
Prior art keywords
voice
unit
signal
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6099625A
Other languages
English (en)
Inventor
Tatsumi Watanabe
辰巳 渡辺
Hidetsugu Maekawa
英嗣 前川
Kazuaki Obara
和昭 小原
Kazuhiro Kayashima
一弘 萱嶋
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6099625A priority Critical patent/JPH07306692A/ja
Publication of JPH07306692A publication Critical patent/JPH07306692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

(57)【要約】 【目的】 口唇の情報を用いた、周囲騒音等のノイズに
よる影響を受けないで安定した認識を行うことのできる
音声認識装置と、音声認識を用いないで自動的に音声信
号の記録・再生の制御を行う音声入力装置を実現する。 【構成】 発光素子の反射光を受光素子102で電気信
号に変換して、顔の変化を捉え、微分処理部103によ
る処理を経て、口唇の時間的変化を表す信号を抽出す
る。カテゴリ分類部704では、まず時系列パターン抽
出部701が微分処理部103の信号からさらに特徴的
な部分を取り出し、カテゴリ判断部703が標準パター
ン保持部702にある比較用標準パターンとの比較を行
うことによって、口唇の大まかなカテゴリ分類を行う。
音声認識部109は、カテゴリ判断部703で得られた
カテゴリ内に属する音声のみを認識対象として認識を行
う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、話者の口唇の情報と音
声信号を用いて音声認識を行う音声認識装置と、話者の
口唇の情報をもとに音声・画像記録再生装置への記録ま
たは再生を制御する音声入力装置に関するものである。
【0002】
【従来の技術】従来の音声認識装置は、話者の音声信号
から音声区間を切り出して音声認識を行うものであっ
た。図13は、従来の音声認識装置の構成を示すもので
ある。図13において、107はマイク等の話者の音声
を入力する音響部、108は音響部107が入力した話
者の音声を電気信号に変換する音声変換部、1301は
変換された電気信号から音声区間を抽出する音声区間抽
出部、1302は音声変換部108における電気信号か
ら音声区間を切り出す音声区間切り出し部、1303は
音声特徴量照合のための音声認識用標準データ記録部、
1304は音声区間切り出し部1302で切り出された
音声信号を特徴量に変換して音声認識用標準データ部1
303のデータとの類似度により認識を行う類似度計算
部である。音声認識部109は音声認識用標準データ記
録部1303と類似度計算部1304より構成され、音
声入力部112は音響部107と音声変換部108より
構成される。
【0003】このように構成された従来の音声認識装置
では、入力された話者の音声信号は音声区間抽出部13
01、音声区間切り出し部1302が音声信号から音声
区間を切り出し、類似度計算部1304が音声特徴量に
変換し音声認識用標準データ記録部1303のデータと
の類似度を求めることにより音声認識を行うものであっ
た。
【0004】また、従来の音声入力装置は、入力された
音声信号に対する前記音声認識装置の認識結果をもとに
音声信号に対する処理を開始するものであった。図14
は、従来の音声入力装置の構成を示すものである。図1
4において、音響部107、音声変換部108、音声認
識部109、音声入力部112、音声区間抽出部130
1、音声区間切り出し部1302、音声認識用標準デー
タ記録部1303、類似度計算部1304は従来の音声
認識装置で説明したものと全く同様である。さらに、1
401は音声信号に対する処理の実行を指示する音声処
理部であり、1402は音声信号処理が実行されるまで
に一時的に音声信号を保持する音声信号仮記録部であ
る。
【0005】このように構成された従来の音声入力装置
では、切り出された音声区間における音声信号を音声認
識し、その結果をもとに、音声処理部1401が、例え
ば磁気ディスクへの音声信号の記録を開始する等といっ
た処理を実行するものであった。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識装置では、ノイズ環境下、特に音楽や人声
等といった騒音レベルが非定常な環境において、周囲騒
音を音声区間だと誤って検出してしまい、音声認識率が
著しく低下するという問題が生じた。また、上記従来の
音声入力装置では、このようなノイズ環境下における誤
認識により、周囲騒音に反応して音声信号の記録・再生
を実行してしまうという問題があった。さらに、上記従
来の音声入力装置では、音声認識が終り処理が実行され
るまでに入力される音声信号を一時的に記録する手段を
必要とするという問題があった。
【0007】本発明は上記課題を解決するもので、口唇
の情報を用いた、周囲騒音等のノイズによる影響を受け
ないで安定した認識を行うことのできる音声認識装置
と、音声認識を用いないで自動的に音声信号の記録・再
生の制御を行う音声入力装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明における第1の音声認識装置は、口唇の情報
を利用して、入力された音声信号が周囲の騒音ではなく
話者の音声か否かの判断を行うことにより、音声認識を
行うようにしたものである。すなわち、音声信号を入力
する音声入力手段と、前記音声入力手段で得られた音声
信号を用いて音声認識する音声認識手段と、口唇を含む
画像を入力する画像入力手段と、前記画像入力手段を用
いて入力された画像信号から口唇の情報を抽出する特徴
抽出手段と、前記特徴抽出手段で得られた口唇の情報に
より前記音声認識手段の結果が有効であるか否かの判断
をする音声判断手段と、前記音声判断手段の結果と前記
音声認識手段の結果から最終的な認識判断を行う認識判
断手段を備えた構成である。
【0009】本発明における第2の音声認識装置は、口
唇により大まかなカテゴリ分類を行い、そのカテゴリに
含まれる音声の中で、最も入力された音声信号に近いも
のを認識結果として判断するものである。すなわち、音
声信号を入力する音声入力手段と、口唇を含む画像を入
力する画像入力手段と、前記画像入力手段を用いて入力
された画像信号から口唇の情報を抽出する特徴抽出手段
と、前記特徴抽出手段で得られた口唇の情報をいくつか
のカテゴリに分類するカテゴリ分類手段と、前記カテゴ
リ分類手段で得られたカテゴリに属する音声のみを認識
対象とする音声認識手段を備えた構成である。
【0010】また、本発明の音声入力装置は、口唇の情
報を利用して入力された音声が周囲の騒音ではなく話者
の音声か否かを瞬時に判断し、音声信号の記録または再
生を制御するものである。すなわち、音声信号を入力す
る音声入力手段と、口唇を含む画像を入力する画像入力
手段と、前記画像入力手段を用いて入力された画像信号
から口唇の情報を抽出する特徴抽出手段と、前記特徴抽
出手段で得られた口唇の情報により、入力された音声信
号が周囲の騒音ではなく話者の音声であるか否かの判断
をする音声判断手段と、前記音声判断手段の結果によ
り、音声・画像記録再生装置に対して音声信号の記録ま
たは再生を制御する音声処理手段を備えた構成である。
【0011】
【作用】本発明における第1の音声認識装置は前記した
構成により、画像入力手段が口唇の画像を電気信号に変
換して入力し、特徴抽出手段がその信号から口唇の情報
を抽出できるような信号に変換する。そして、音声判断
手段がその変換信号を用いて、入力された音声信号が周
囲の騒音ではなく話者の音声であるか否かの判断を行
い、認識判断手段が音声認識手段の結果と音声判断手段
の結果をもとに最終的な認識判断を行う。ここで、口唇
の情報は周囲騒音等のノイズによる影響を殆ど受けない
ため、ノイズ環境下においても話者の音声認識を安定し
て行い、音声認識率の低下を抑える。
【0012】また、本発明における第2の音声認識装置
は前記した構成により、画像入力手段が口唇の画像を電
気信号に変換して入力し、特徴抽出手段がその信号から
口唇の情報を抽出できるような信号に変換する。カテゴ
リ分類手段がその信号より入力された音声をいくつかの
カテゴリに分類する。そして、得られたカテゴリ内に属
する音声のみを認識対象として音声認識手段が入力され
た音声信号から認識を行う。本発明の第1の音声認識装
置では、口唇の情報が音声認識手段の結果を有効とみな
すか否かの判断のためのみに用いられるのに対し、本発
明では、口唇の情報を用いて認識対象の大まかな限定を
行っている。そのため、音声認識手段にかかる計算時間
を減らすことができ、ノイズ環境下においてもより安定
した音声認識を行う。
【0013】また、本発明の音声入力装置は前記した構
成により、画像入力手段が口唇の画像を電気信号に変換
して入力し、特徴抽出手段がその信号から口唇の情報を
抽出できるような信号に変換する。音声判断手段が、そ
の口唇情報を用いて話者音声が入力されたか否かの判断
を行い、その結果をもとに音声処理手段が音声信号の記
録や再生を制御する。前述のように、口唇の情報を用い
た話者音声か否かの判断はノイズによる影響を殆ど受け
ないため、周囲騒音による誤動作を避けることができ
る。また、音声認識を必要としない分だけ音声信号の入
力に素早く対応して音声信号の記録または再生の制御を
行う。
【0014】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。図1は本発明の第1の実施例における音声
認識装置のブロック図、図4は本発明の第2の実施例に
おける音声認識装置のブロック図、図7は本発明の第3
の実施例における音声認識装置のブロック図、図10は
本発明の第4の実施例における音声認識装置のブロック
図、図12は本発明の第1の実施例における音声入力装
置のブロック図であり、各図において、同一部には同一
番号を付している。
【0015】まず、本発明の第1の実施例について説明
する。第1の実施例は、口唇の情報を入力する手段とし
て、従来のCCDカメラ等の光学系ではなく発光素子と
その反射光を受ける受光素子を適用し、入力音声の有効
性を判断する手段として、しきい値による判断手段を適
用したものである。
【0016】図1において、101は話者の口唇に当て
る光を発する発光ダイオード等の発光素子、102は発
光素子101から出る光の反射光を受けて電気信号に変
換するフォトダイオード等の受光素子、103は受光素
子102からの電気信号に対して、微分処理を行う微分
処理部、104は微分処理部103で得られた信号に対
して、信号の平滑化を行う平滑処理部、105は平滑処
理部104で得られた信号からしきい値を求めるしきい
値決定部、106はしきい値決定部105で得られたし
きい値との比較をもとに、入力音声が話者の音声である
か否かを判断するしきい値処理判断部、107は画像の
入力と並行して音声信号の入力を行うマイク等の音響
部、108は音響部107が入力した音声を電気信号に
変換する音声変換部、109は音声変換部108より入
力された信号より認識を行う音声認識部である。ここ
で、画像入力部110は発光素子101と受光素子10
2より構成され、特徴抽出部111は微分処理部103
と平滑処理部104より構成される。また、音声入力部
112は音響部107と音声変換部108より構成さ
れ、音声判断部113はしきい値決定部105としきい
値処理判断部106より構成される。114は音声認識
部109の結果と音声判断部113の結果から最終的な
認識判断を行う認識判断部である。
【0017】以上のように構成された本発明の第1の実
施例における音声認識装置の動作について説明する。ま
ず、画像入力部110の動作について説明する。発光素
子101から発せられた光は、口唇を含む顔に当たり反
射する。受光素子102がその反射光を捉え、電気信号
に変換する。なお、電気信号への変換は、適当なサンプ
リングレートにより行われる。一方、音声入力部112
では、音響部107が画像入力部110と同期して音声
信号のサンプリングを行い、音声変換部108で電気信
号に変換される。そして、音声変換部108で変換され
た音声信号を用いて、音声認識部109が単独に音声認
識を実行する。なお、音声認識部109は、公知の音声
認識装置を用いればよい。
【0018】次に、特徴抽出部111の動作について説
明する。微分処理部103が受光素子102で得られた
電気信号に対して微分処理を加えることにより、口唇の
動きにより生じた光量変化を抽出する。さらに、微分処
理部103で得られた微分信号を用いて、平滑処理部1
04がサンプリング時刻iにおける特徴信号量Sigiを次
の(数1)のように定義する。
【0019】
【数1】
【0020】(数1)において、diffjがサンプリング
時刻jにおける103で得られた微分信号、Taが平均
を求める時間幅を表す。この処理は、サンプリング時刻
jにおける前後Ta時刻分の微分信号値diffjの平均を求
める処理に相当する。この処理をloop回繰り返すことに
より、微分信号波形における微小な変動分を滑らかに整
形し、信号のピークを明確にする。ここで、図2は口唇
の動きを表す微分信号波形と、平滑化により得られた特
徴信号波形の概念図を表し、図3は前記の平滑化処理の
概念図を表す。
【0021】次に、音声判断部113の動作について説
明する。しきい値決定部104が、音声認識を開始する
以前の時刻における特徴信号量Signoを、(数1)に従
い求める。この値Signoは騒音の特徴を表すものと考え
られるので、この値に安全係数δ(δ≧1)を乗ずること
により得られた値を、しきい値処理判断部106で用い
るしきい値THvalueとする。しきい値処理判断部10
6では、しきい値THvalueを超える特徴信号Sigiの個
数を数え、その値が予め設定した値Wlengthに達するか
否かを調べることにより、騒音ではなく話者が発した単
語音声であるか否かの判断を下す。そして、認識判断部
114がしきい値処理判断部106からの結果と音声認
識部109の結果から、最終的な音声認識の判断を行う
のである。以上のように、口唇の情報にこのような簡単
な手法を用いて処理することにより、ノイズ環境下にお
ける音声認識率の低下を抑えることが可能となる。
【0022】以下、本発明の第2の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、第1の実施例における音声判断部に、ニューラルネ
ットワーク(神経回路網)を適用したものである。図4
は、本発明の第2の実施例における音声認識装置の構成
を示すものである。図4において、401は、口唇の情
報を示す特徴信号Sigiから、話者音声であるか否かの判
断を行うニューラルネット音声判断部である。
【0023】以上のように構成された本発明の第2の実
施例における音声認識装置の動作について説明する。図
5は、認識判断を行うニューラルネットワークの概念図
を示す。本実施例のニューラルネットワークは、図のよ
うに、入力層、中間層、出力層、状態層から構成され
る。入力層はNi個のニューロンより構成され、サンプ
リング時刻tから時刻(t+Ni−1)における口唇の特
徴を示す特徴信号が入力される。尚、入力層数、つま
り、1度にニューラルネットワークに入力される微分信
号数Niを単語音声の開始から終了までの時間よりも小
さな値に設定する。
【0024】出力層は話者の音声入力の開始を表すニュ
ーロンと、その音声入力の終了を表すニューロンの2個
より構成される。状態層は2個のニューロンより構成さ
れ、出力層からの信号がフィードバックされている。状
態層のニューロンの特性は1次遅れ、もしくは2次遅れ
のフィルタになっているので、過去の出力層の出力の履
歴をこの層で記録することができる。入力層と状態層の
出力は中間層、出力層へと伝わりネットワークの出力が
得られる。さらに、この出力は再び状態層へフィードバ
ックされる。各ニューロンは次の(数2)に従い、出力
iが計算される。
【0025】
【数2】
【0026】(数2)において、yiが各ニューロンi
の出力、Wijが結合荷重、xjが他のニューロンからの
入力、θiがスレッシュホールドである。非線形関数f
は、(数3)に示すシグモイド関数である。
【0027】
【数3】
【0028】各ニューロンが(数3)・(数4)に示す
計算を行って結果を出力する。
【0029】
【数4】
【0030】本実施例のニューラルネットワークは、大
きく分けて学習過程と認識過程の2種類の動作を行う。
学習過程では、口唇画像から得られた特徴信号から、話
者の音声入力の開始と終了を判断することができるよう
にネットワークの結合荷重を変化(学習)させる。図6
は学習時に用いられる、出力層のニューロンに与えられ
る教師信号と特徴信号との関係を概念的に表したもので
ある。サンプリング時刻Ni分の特徴信号と過去の時間
における出力層の出力の履歴を入力とする。その時刻N
i内に特徴信号が大きく立ち上がる、つまり話者音声の
入力が開始された場合には、それに対応する出力層のニ
ューロンに1を教師信号として与える。
【0031】同様に、そのNi時間内で特徴信号が大き
く立ち下がる、つまり話者音声の入力が終了となった場
合には、それに対応する出力層のニューロンに1を教師
信号として与える。これらの教師信号を用いて学習が行
われ、(数4)に示した出力信号と教師信号の誤差を小
さくする方向に、(数5)のように各ニューロンの結合
荷重を変更するバックプロパゲーション法が学習方法と
して用いられる。
【0032】ここで、outがネットワークの出力信号、t
argetが教師信号である。
【0033】
【数5】
【0034】ここで、ΔWij(n)は結合荷重の変更度、
α、ηは適当な正の実数、nは学習の回数、∂E / ∂W
ijは、各結合荷重の変更がネットワークの出力誤差に与
える感度を表す。(数5)において第1項が誤差を小さ
くする荷重変更方向、第2項が慣性項である。
【0035】一方、認識過程では学習過程と同様に実際
の話者の口唇画像から得られる特徴信号をm時刻分入力
して、各ニューロンが所定の計算を行い、検出結果を出
力する。口唇の情報は連続的に続くことから、連続的に
i時刻分のデータをネットワークに入力し続けなが
ら、学習・認識を行い入力された音声信号が話者音声で
あるか否かの判断を行う。
【0036】以上のように、本発明の第2の実施例にお
ける音声認識装置は、フィードバックを持つニューラル
ネットワークを用いて、入力された音声信号の有効性を
判断するため、単語や話者に対する口唇の動きの変動を
ある程度吸収することができる。
【0037】なお、本実施例でのニューラルネットワー
クは、シグモイド関数を用いたニューロンにバックプロ
パゲーションによる学習方法を適用したが、本実施例は
この学習方法に限定されるものではない。例えば、共役
勾配法、準ニュートン法等を利用した学習方法等の適用
も考えられる。
【0038】以下、本発明の第3の実施例における音声
認識装置について図面を参照しながら説明する。図7
は、本発明の第3の実施例における音声認識装置の構成
を示すものである。本実施例は、受光素子で受けた反射
光より得られる電気信号の微分信号から口唇の情報を表
す時系列パターンを抽出して、音声のカテゴリ分類を行
うものである。
【0039】図7において、701は微分処理部103
で得られた信号からその特徴を表す時系列パターンを取
り出す時系列パターン抽出部、702はカテゴリ分類を
行うために用意された標準パターンを保持する標準パタ
ーン保持部、703は時系列パターン抽出部701で得
られた時系列パターンを標準パターン保持部702の標
準パターンと比較し、入力音声のカテゴリを判断するカ
テゴリ判断部である。ここで、カテゴリ分類部704は
時系列パターン抽出部701と標準パターン保持部70
2、そしてカテゴリ判断部703より構成される。
【0040】以上のように構成された本発明の第3の実
施例における音声認識装置の動作について説明する。ま
ず、カテゴリ分類部704の動作について述べる。図8
は微分処理により得られた口唇の時間的変動を表す信号
diffの概念図を表すが、このように微分信号diffの特徴
を表す極大・極小部分は、微小摂動部分から比較的に容
易に分離することができ、この極値の出現パターンは発
せられた単語音声の特徴を表していると考えられる。
【0041】このことに注目して、時系列パターン抽出
部701が、ある一定時間T内の微分信号の極大値・極
小値を順番に抽出する。その際、選ばれた極値の絶対値
が、音声認識を開始する以前の微分信号レベルdiffno
安全係数ηを掛けた値より小さい場合は、その微分信号
の特徴を示していないものとして除外する。図9はある
微分信号から抽出される時系列パターンの概念図を表
す。
【0042】図9においてq1,q2,...,q8等は極大値・極
小値、そして時間Tにおける始点と終点の微分信号値を
表しており、これを出現順に並べることにより時系列パ
ターンを抽出する。カテゴリ判断部703が、その時系
列パターンと標準パターン保持部702の標準パターン
の間の2乗距離lengthpを(数6)により求める。
【0043】
【数6】
【0044】(数6)において、qiが求められた時系
列パターンのi番目の要素を、ti pが標準パターンpの
i番目の要素を、Npが標準パターン数を、npが標準パ
ターンの要素数を表す。尚、単語によりパターンの要素
数が異なる可能性があるが、標準パターンの要素数の方
が多い場合にはqiの要素にdiffnoを加えて2乗距離計
算を行い、逆に少ない場合は、qiの余分な要素を削除
して2乗距離計算を実行する。このlengthpの値が、最
も小さいパターンpを口唇の動きから得られるカテゴリ
として判断を下す。この際、lengthpが予め設定したし
きい値THvalue2より大きい場合は、入力された信号は
単語を発した時の口唇の動きを表してないものと判断す
るのである。
【0045】最後に、カテゴリ分類部704で得られた
カテゴリ内の単語音声を認識対象として、音声認識部1
09により音声認識を行う。以上のように口唇の情報を
大まかにカテゴリ分類を行い、そのカテゴリ内に属する
音声のみを認識対象として音声信号による認識を行うこ
とによって、ノイズ環境下においても、安定した話者音
声認識を行え、ノイズ環境下における音声認識率の低下
を抑えることが可能となる。
【0046】また、本発明の第1及び2の実施例におけ
る音声認識装置では、口唇の情報が音声認識手段の結果
を有効とみなすか否かの判断のためのみに用いられるの
に対し、本実施例では、口唇の情報を用いて認識対象の
大まかな限定を行っている。そのため、音声認識手段に
かかる計算時間を減らすことができ、ノイズ環境下にお
いてもより安定した音声認識を行うことができる。
【0047】以下、本発明の第4の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、第3の実施例におけるカテゴリ分類部に、ニューラ
ルネットワーク(神経回路網)を適用したものである。
図10は、本発明の第4の実施例における音声認識装置
の構成を示すもので、1001は、口唇の時間的変動を
示す微分信号diffiから、音声信号のカテゴリ分類を行
うニューラルネットカテゴリ分類部である。
【0048】以上のように構成された本発明の第4の実
施例における音声認識装置の動作について説明する。図
11は、口唇の動きを示す微分信号を用いて音声信号の
カテゴリ分類を行うニューラルネットワークの概念図を
示す。ここで、本発明の第2の実施例で用いられたバッ
クプロパゲーション法による階層型ニューラルネットワ
ークモデルを利用したカテゴリ分類方法等も考えられる
が、比較的簡単な学習アルゴリズムで小数のサンプル数
で高度なパターン分類ができる学習ベクトル量子化法に
よるニューラルネットワークを適用した。
【0049】本実施例のニューラルネットワークは、図
に示すように、入力層ニューロン数Ni、出力層ニュー
ロン数Noの2層構造をなす。出力層ニューロン数N
oは、識別したい音声単語カテゴリー数Mに等しく、入
力層ニューロン数Niは口唇の動きを示すNi時刻分の微
分信号に等しい。
【0050】Ni時刻分の微分信号を入力ベクトルV
(v1,v2,...,vNi)とし、m番目の音声単語カテゴリに対
応する入力ベクトルをVm(m=1,2,...,M)とし、さらに結
合係数をWij(i=1,2,...,Ni,j=1,2,...,No)とする。
【0051】本実施例のニューラルネットワークは、大
きく分けると学習過程と認識過程の2種類の動作を行
う。学習過程では、ニューラルネットワークは、結合係
数Wijを構成するM個のベクトルWi(Wi1,Wi2,...,
WiNi)を用いて、入力ベクトルVの空間をM個の領域に
分割する働きをする。このM個の結合係数ベクトルは参
照ベクトルと呼ばれ、各領域に1つの参照ベクトルが対
応させられる。そして、この参照ベクトルはその対応し
た領域内に含まれるすべての入力ベクトルに対する最近
接ベクトルに相当する。
【0052】ここで、ベクトルWiの中で最も距離の近
いベクトルをベクトルWcとすると、(数7)のように
なり、また、出力層ニューロンiからの出力uiは(数
8)のようになる。
【0053】
【数7】
【0054】
【数8】
【0055】学習はこのベクトルWcのみを更新するこ
とにより行われ、この更新量△Wcは次の(数9)に従
い実行される。
【0056】
【数9】
【0057】η(n)は学習回数nに従い単調減少する学
習係数(0<η(n)<1)である。(数9)は、参照ベクトル
cは、正しく分類された場合は入力ベクトルVmに近づ
き、分類されていない場合はVmより遠ざかることで領
域境界面を形成することを示す。このように学習過程
は、実際に分類したい単語音声を話している話者の口唇
の動きから得られるNi時刻分の信号を入力学習ベクト
ルとし、その入力学習ベクトルを充分多く与えることに
より行われる(学習ベクトル量子化法)。
【0058】一方、認識過程は、前述の学習過程により
予め充分学習が行われたニューラルネットワークを用い
て行われる。実際の話者の口唇の動きを示すNi時刻分
の微分信号を入力して、各ニューロンが計算を行い、そ
のカテゴリ分類結果を出力する。以上説明したように、
第3の実施例における音声認識装置は、口唇の動きを示
す微分信号を用いて音声信号のカテゴリ分類を行う際に
ニューラルネットワークを用いている。そして、ニュー
ラルネットカテゴリ分類部1001で得られたカテゴリ
内の単語音声のみを認識対象として、音声認識部109
により音声認識を行う。従って、本発明の第3の実施例
と同様により安定した音声認識を行うことができる。さ
らに、口唇の情報をニューラルネットワークに入力して
音声の分類を行うことから、単語や話者に対する口唇の
動きの変動をある程度吸収することが可能である。
【0059】以下、本発明の一実施例における音声入力
装置について図面を参照しながら説明する。本実施例
は、口唇の情報を用いて入力音声が周囲の騒音ではなく
話者の音声か否かの判断を行い、話者音声として有効と
判断された場合、磁気ディスク等の記録媒体への記録を
開始することに適用したものである。図12は、本発明
の一実施例における音声入力装置の構成を示すもので、
音声判断部113としては、本発明の第1、第2の音声
認識装置の実施例で述べた構成のどちらを採用しても問
題はない。1201は音声判断部113からの結果をも
とに、記録媒体部1202への音声信号の記録の指示を
行う音声処理指示部、1202は音声信号を記録するた
めの記録媒体部、1203は音声処理指示部1201か
らの信号に従い、音声信号の記録を実行する記録実行
部、1204は音声記録の開始と終了を知らせるメッセ
ージを保持するメッセージ保持部、1205はそのメッ
セージを表示するメッセージ表示部である。音声処理部
1206は記録媒体部1202と記録実行部1203に
より構成される。メッセージ制御部1207はメッセー
ジ保持部1204、メッセージ表示部1205により構
成される。
【0060】以上のように構成された本実施例における
音声入力装置の動作について説明する。まず、画像入力
部110、特徴抽出部111、音声判断部113が、口
唇の情報から、話者音声であるか否かの判断を行う。音
声処理判断部1201は、音声判断部113より話者音
声であるという判断を初めて受けた時点で、音声処理部
1206に音声記録開始を指示するとともにメッセージ
制御部1207に音声記録開始のメッセージ表示の指示
を行う。そして、音声処理判断部1201は、音声記録
が開始されてからある一定時間、話者の音声であるとい
う判断結果が音声判断部113から送られなかった場合
に、音声信号の入力が終わったと判断して音声信号記録
終了の指示を音声処理部1206とメッセージ制御部1
207に行う。
【0061】音声処理部1206とメッセージ制御部1
207の動作について説明する。記録実行部1203が
音声処理判断部1201から記録開始の指示を受けた瞬
間から、記録媒体部1202への音声信号の記録処理を
開始するとともに、メッセージ表示部1205がメッセ
ージ保持部1204から音声信号記録開始のメッセージ
を読みだして表示する。同様に音声処理指示部1201
から記録終了の指示を受けてから、記録実行部1203
が記録媒体部1202への音声信号の記録処理を終了す
るとともにメッセージ表示部1205が音声信号記録終
了のメッセージを表示するのである。
【0062】以上説明したように、本実施例における音
声入力装置によれば、周囲騒音による誤動作を避けて音
声の記録を行うことができる。また、周囲の騒音ではな
く話者の音声入力に対して、音声認識を必要としない分
だけ素早く自動的に音声信号の記録開始とその終了を行
うことができる。
【0063】
【発明の効果】以上のように本発明の第1の音声認識装
置によれば、口唇の情報を用いて周囲騒音ではなく話者
の音声か否かの判断を行うので、ノイズ環境下における
音声認識率の低下を抑えることができる。
【0064】また、本発明の第2の音声認識装置によれ
ば、口唇の情報を用いて認識対象の大まかな限定を行う
ため、音声認識手段にかかる計算時間を減らすことがで
きるとともに、ノイズ環境下においてもより安定した音
声認識を行うことができる。
【0065】また、本発明の音声入力装置によれば、音
声認識を用いず口唇の情報から話者の音声か否かの判断
を行い、磁気ディスクへの音声信号の記録開始を行うた
め、ノイズ環境下においても、周囲騒音による誤動作を
避けることができ、音声認識を必要としない分だけ素早
く自動的に音声信号の取り込みを行うことができ、音声
信号を一時的に保持する手段も必要としないといった優
れた項かを有する。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声認識装置の
構成を示すブロック図
【図2】本発明における口唇の動きを表す信号とその信
号を平滑化した信号の概念図
【図3】口唇の動きを表す信号の平滑化処理の概念図
【図4】本発明の第2の実施例における音声認識装置の
構成を示すブロック図
【図5】認識判断手段で用いたニューラルネットワーク
の概念図
【図6】ニューラルネットワークの出力層のニューロン
に与えられる教師信号と口唇画像から得られた特徴信号
の関係を表す概念図
【図7】本発明の第3の実施例における音声認識装置の
ブロック図
【図8】口唇からの反射光を受ける受光素子の出力信号
の微分信号の概念図
【図9】口唇の動きを表す微分信号から抽出される時系
列パターンの概念図
【図10】本発明の第4の実施例における音声認識装置
のブロック図
【図11】カテゴリ分類部で用いられたニューラルネッ
トワークの概念図
【図12】本発明の一実施例における音声入力装置のブ
ロック図
【図13】従来の音声認識装置のブロック図
【図14】従来の音声入力装置のブロック図
【符号の説明】
101 発光素子 102 受光素子 103 微分処理部 104 平滑化処理部 105 しきい値決定部 106 しきい値処理判断部 107 音響部 108 音声変換部 109 音声認識部 110 画像入力部 111 特徴抽出部 112 音声入力部 113 音声判断部 114 認識判断部 401 ニューラルネット音声判断部 701 時系列パターン抽出部 702 標準パターン保持部 703 カテゴリ判断部 704 カテゴリ分類部 1001 ニューラルネットカテゴリ分類部 1201 音声処理指示部 1202 記録媒体部 1203 記録実行部 1204 メッセージ保持部 1205 メッセージ表示部 1206 音声処理部 1207 メッセージ制御部
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06T 1/00 7/20 G10L 5/06 D 9/10 301 C (72)発明者 萱嶋 一弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 松井 謙二 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力する音声入力手段と、前記
    音声入力手段で得られた音声信号を用いて音声認識する
    音声認識手段と、口唇を含む画像を入力する画像入力手
    段と、前記画像入力手段を用いて入力された画像信号か
    ら口唇の情報を抽出する特徴抽出手段と、前記特徴抽出
    手段で得られた口唇の情報により前記音声認識手段の結
    果が有効であるか否かを判断する音声判断手段と、前記
    音声判断手段の結果と前記音声認識手段の結果から最終
    的な認識判断を行う認識判断手段とを備えたことを特徴
    とする音声認識装置。
  2. 【請求項2】認識判断手段は、特徴抽出手段で得られた
    口唇の情報をニューラルネットワークに入力することを
    特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】音声信号を入力する音声入力手段と、前記
    音声入力手段で得られた音声信号を用いて音声認識する
    音声認識手段と、口唇を含む画像を入力する画像入力手
    段と、前記画像入力手段を用いて入力された画像信号か
    ら口唇の情報を抽出する特徴抽出手段と、前記特徴抽出
    手段で得られた口唇の情報をいくつかのカテゴリに分類
    するカテゴリ分類手段と、前記カテゴリ分類手段により
    得られたカテゴリに属する音声のみを認識対象として音
    声認識を行う音声認識手段とを備えたことを特徴とする
    音声認識装置。
  4. 【請求項4】特徴抽出手段が、画像入力手段を用いて得
    られた画像信号の時間的な変化を取り出す微分処理手段
    で構成されていることを特徴とする請求項3記載の音声
    認識装置。
  5. 【請求項5】カテゴリ分類手段は、特徴抽出手段で得ら
    れた口唇の情報をニューラルネットワークに入力するこ
    とにより複数のカテゴリに分類することを特徴とする請
    求項3記載の音声認識装置。
  6. 【請求項6】音声信号を入力する音声入力手段と、口唇
    を含む画像を入力する画像入力手段と、前記画像入力手
    段を用いて入力された画像信号から口唇の情報を抽出す
    る特徴抽出手段と、前記特徴抽出手段で得られた口唇の
    情報をもとに入力された音声が話者の音声か否かを判断
    する音声判断手段と、前記音声判断手段の結果により、
    音声・画像記録再生装置への音声信号の記録または再生
    の制御をする音声処理手段を備えたことを特徴とする音
    声入力装置。
JP6099625A 1994-05-13 1994-05-13 音声認識装置及び音声入力装置 Pending JPH07306692A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6099625A JPH07306692A (ja) 1994-05-13 1994-05-13 音声認識装置及び音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6099625A JPH07306692A (ja) 1994-05-13 1994-05-13 音声認識装置及び音声入力装置

Publications (1)

Publication Number Publication Date
JPH07306692A true JPH07306692A (ja) 1995-11-21

Family

ID=14252273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6099625A Pending JPH07306692A (ja) 1994-05-13 1994-05-13 音声認識装置及び音声入力装置

Country Status (1)

Country Link
JP (1) JPH07306692A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
EP1619660A1 (en) * 2003-04-09 2006-01-25 Toyota Jidosha Kabushiki Kaisha Change information recognition device and change information recognition method
KR100578260B1 (ko) * 1996-12-26 2006-11-07 소니 가부시끼 가이샤 인식장치및인식방법과,학습장치및학습방법
JP2007094104A (ja) * 2005-09-29 2007-04-12 Sony Corp 情報処理装置および方法、並びにプログラム
WO2011065952A1 (en) * 2009-11-30 2011-06-03 Hewlett-Packard Development Company, L.P. Face recognition apparatus and methods
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
JP5257680B2 (ja) * 2006-03-30 2013-08-07 本田技研工業株式会社 音声認識装置
CN107702273A (zh) * 2017-09-20 2018-02-16 珠海格力电器股份有限公司 空调控制方法和装置
WO2019175960A1 (ja) * 2018-03-13 2019-09-19 三菱電機株式会社 音声処理装置および音声処理方法
CN111681671A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 异常音识别方法、装置及计算机存储介质
CN112400325A (zh) * 2018-06-22 2021-02-23 巴博乐实验室有限责任公司 数据驱动的音频增强

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100578260B1 (ko) * 1996-12-26 2006-11-07 소니 가부시끼 가이샤 인식장치및인식방법과,학습장치및학습방법
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
USRE42647E1 (en) 1997-05-08 2011-08-23 Electronics And Telecommunications Research Institute Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
US7508959B2 (en) 2003-04-09 2009-03-24 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
EP1619660A1 (en) * 2003-04-09 2006-01-25 Toyota Jidosha Kabushiki Kaisha Change information recognition device and change information recognition method
US7302086B2 (en) 2003-04-09 2007-11-27 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
EP1881484A1 (en) * 2003-04-09 2008-01-23 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
EP1619660A4 (en) * 2003-04-09 2007-02-28 Toyota Motor Co Ltd MODIFICATION INFORMATION RECOGNITION DEVICE AND METHOD FOR RECOGNIZING MODIFICATION INFORMATION
JP2007094104A (ja) * 2005-09-29 2007-04-12 Sony Corp 情報処理装置および方法、並びにプログラム
JP5257680B2 (ja) * 2006-03-30 2013-08-07 本田技研工業株式会社 音声認識装置
WO2011065952A1 (en) * 2009-11-30 2011-06-03 Hewlett-Packard Development Company, L.P. Face recognition apparatus and methods
US8818034B2 (en) 2009-11-30 2014-08-26 Hewlett-Packard Development Company, L.P. Face recognition apparatus and methods
CN107702273A (zh) * 2017-09-20 2018-02-16 珠海格力电器股份有限公司 空调控制方法和装置
CN107702273B (zh) * 2017-09-20 2020-06-16 珠海格力电器股份有限公司 空调控制方法和装置
WO2019175960A1 (ja) * 2018-03-13 2019-09-19 三菱電機株式会社 音声処理装置および音声処理方法
CN112400325A (zh) * 2018-06-22 2021-02-23 巴博乐实验室有限责任公司 数据驱动的音频增强
CN111681671A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 异常音识别方法、装置及计算机存储介质
CN111681671B (zh) * 2020-05-20 2023-03-10 浙江大华技术股份有限公司 异常音识别方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
US5404422A (en) Speech recognition system with neural network
CA2085842C (en) Neural network-based speech token recognition system and method
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
US8566088B2 (en) System and method for automatic speech to text conversion
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
JP3168779B2 (ja) 音声認識装置及び方法
US5566270A (en) Speaker independent isolated word recognition system using neural networks
JPH0990974A (ja) 信号処理方法
JPH07306692A (ja) 音声認識装置及び音声入力装置
CN112634944A (zh) 识别声音事件的方法
KR100292919B1 (ko) 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법
Pawar et al. Speaker Identification using Neural Networks.
JPH0792988A (ja) 音声検出装置と映像切り替え装置
JP5626221B2 (ja) 音響画像区間分類装置および方法
JP6755843B2 (ja) 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
JP3536471B2 (ja) 識別装置および識別方法、並びに音声認識装置および音声認識方法
JPH064097A (ja) 話者認識方法
WO2021024869A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Hmich et al. Automatic speaker identification by using the neural network
Malcangi et al. Evolving fuzzy-neural method for multimodal speech recognition
KR102621954B1 (ko) 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템
US20230317102A1 (en) Sound Event Detection
JP2792709B2 (ja) 音声認識装置
Kim et al. Discriminative training of GMM via log-likelihood ratio for abnormal acoustic event classification in vehicular environment
JPH0442299A (ja) 音声区間検出装置