JP4992218B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4992218B2
JP4992218B2 JP2005284521A JP2005284521A JP4992218B2 JP 4992218 B2 JP4992218 B2 JP 4992218B2 JP 2005284521 A JP2005284521 A JP 2005284521A JP 2005284521 A JP2005284521 A JP 2005284521A JP 4992218 B2 JP4992218 B2 JP 4992218B2
Authority
JP
Japan
Prior art keywords
speaker
motion pattern
sound
pattern
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005284521A
Other languages
English (en)
Other versions
JP2007094104A (ja
JP2007094104A5 (ja
Inventor
プロフィオ ウゴ ティ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005284521A priority Critical patent/JP4992218B2/ja
Publication of JP2007094104A publication Critical patent/JP2007094104A/ja
Publication of JP2007094104A5 publication Critical patent/JP2007094104A5/ja
Application granted granted Critical
Publication of JP4992218B2 publication Critical patent/JP4992218B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ユーザが発した音声を適切に認識することができるようにした情報処理装置および方法、並びにプログラムに関する。
近年、ロボットやホームエレクトロニクスの分野において、ユーザの音声を認識して所定の処理を実行させる技術が盛んに研究されている。
ところで集音された音声を単純に認識すると(非特許文献1および非特許文献2参照)、その音声に、ユーザが発した音声の他、例えばユーザの近くにあるテレビジョン受像機から出力された音声などが含まれている場合、ユーザの音声を正確に認識することができなかった。
そこで、例えばユーザの口の部分の映像から、ユーザの口の動きを検出し、その検出結果に基づいて、ユーザの音声を認識する方法が考えられている(非特許文献1乃至非特許文献6、特許文献1、および特許文献2参照)。
L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, New Jersey, Prentice Hall, Signal Processing Series (1993) Towards improving speech detection robustness for speech recognition in adverse conditions, Speech Communication, Volume 40, Issue 3, May 2003, Pages 261-276, Lamia Karray and Arnaud Martin P. de Cuetos, C. Neti, A.W. Senior. Audio-visual intent-to-speak detection for human-computer interaction, ICASSP June 5-9 2000, pp. 1325-1328, Istanbul, Turkey. G. Iyengar, C. Neti. A vision-based microphone switch for speech intent detection, July 2001, Vancouver, Canada. Large-Vocabulary Audio-Visual Speech Recognition: A Summary of the John Hopkins Summer 2000 Workshop. C. Neti, G. Potaminos, J. Luettin, I. Matthews, H. Glotin and D. Vergyri. Workshop on Multimedia Signal Processing (MMSP), Cannes, 2001. Audio-Visual Speech Recognition. C. Neti, G. Potamianos, J. Luettin, I. Matthews, H. Glotin, D. Vergyri, J. Sison, A. Mashari and J. Zhou. Technical Report, Workshop 2000, CLSP, Johns Hopkins University, July-August 2000. US20040243416 A1 G10L 20041202 Speech recognition US20030048930 A1 G06K 20030313 KABUSHIKI KAISHA TOSHIBA Image recognition apparatus and method
このように、音声認識においてユーザの映像を利用する方法が提案されているが、この方法では、入力した音声にユーザの音声が含まれていることが前提とされており、入力した音声にユーザの音声が含まれるか否かを判定する際に、ユーザの映像を利用する方法は存在しない。
またユーザの動きを利用する従来の方法では、通常、口の動きまたは目の動きがそれぞれ別々に利用されており、口および目の動きを総合して利用したり、口または目の動きの他、顔(頭部分)の動き、手の動き、または体全体の動きを利用する方法は、存在しない。
本発明はこのような状況に鑑みてなされたものであり、ユーザの動きを総合的に利用して音声認識を実行することで、音声認識を正確に実行できるようにするものである。
本発明の一側面は、話者による発話時の音声を認識する情報処理装置であって、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段と、集音部により音声が集音されたか否かを判定する第1の判定手段と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定手段と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識手段とを備える情報処理装置である。
前記検出手段には、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段とを設けさせることができる。
前記トラッキング対象決定手段には、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔、前記トラッキング対象として決定させることができる。
前記第2の判定手段には、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定させることができる。
前記音声認識手段には、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、前記話者による発話時の音声を認識させることができる
本発明の一側面は、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、集音部により音声が集音されたか否かを判定する第1の判定ステップと、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップと、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識ステップとを含む情報処理方法またはプログラムである。
本発明の一側面においては、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンが検出され、集音部により音声が集音されたか否かが判定され、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かが判定され、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識が行われ、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識が行われる。
以上のように、本発明の一側面によれば、音声認識を正確に行うことが可能となる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。したがって、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面は、話者による発話時の音声を認識する情報処理装置において、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段(例えば、図1の動きパターン検出部13)と、集音部により音声が集音されたか否かを判定する第1の判定手段(例えば、図1の発話判定部14)と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定手段(例えば、図1の発話判定部14)と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識手段(例えば、図1の音声認識部15)とを備える情報処理装置である。
本発明の一側面において、前記検出手段は、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段(例えば、図2のステップS12の処理を実行する顔動きパターン検出部21−1)と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段(例えば、図2のステップS14の処理を実行する顔動きパターン検出部21−1)と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段(例えば、図2のステップS15の処理を実行する顔動きパターン検出部21−1)と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段(例えば、図2のステップS19の処理を実行する顔動きパターン検出部21−1)と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段(例えば、図2のステップS21の処理を実行する顔動きパターン検出部21−1)とを有する。
本発明の一側面は、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップ(例えば、図4のステップS32)と、集音部により音声が集音されたか否かを判定する第1の判定ステップ(例えば、図4のステップS31)と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップ(例えば、図4のステップS33)と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識ステップ(例えば、図4のステップS34)とを含む情報処理方法またはプログラムである。
図1は、本発明を適用した音声認識装置3の利用例およびその構成例を示している。
マイクロフォン1は、集音した音声信号を音声認識装置3に供給する。
ビデオカメラ2は、撮影の結果得られた画像信号を音声認識装置3に供給する。
マイクロフォン1およびビデオカメラ2は、例えば、ユーザがその設置位置がわかるように、部屋の壁等に埋め込まれており、ユーザが、マイクロフォン1およびビデオカメラ2に向かって話しかけることができるようになされている。
音声認識装置3は、ビデオカメラ2により撮影された映像を利用して、マイクロフォン1により取り込まれた音声から、ユーザが発した音声を認識し、その認識結果を処理装置4に供給する。
処理装置4は、音声認識装置3からのユーザ音声の認識結果に応じて所定の処理を行う。例えば、処理装置4は、家電制御装置であり、ユーザの音声認識結果に応じて所定の家電機器(例えば、テレビジョン受像機や照明)の電源をオンオフするなどの制御を行う。
次に音声認識装置3の構成について説明する。
音声認識装置3の音声処理部11は、マイクロフォン1から供給された音声信号に対して所定の音声処理を施し、その結果得られた音声データを発話判定部14および音声認識部15に供給する。
画像処理部12は、ビデオカメラ2から供給された画像信号に対して所定の画像処理を施し、その結果得られた画像データを動きパターン検出部13に供給する。
動きパターン検出部13は、顔動きパターン検出部21−1乃至手動きパターン検出部21−4から構成されている。
顔動きパターン検出部21−1は、画像処理部12から供給された画像データから、ユーザの顔の部分を検出するとともに、例えば頭部分の動きパターンを検出し、その検出結果を、発話判定部14に供給する。
目動きパターン検出部21−2は、画像処理部12から供給された画像データから、ユーザの目の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部14に供給する。
口動きパターン検出部21−3は、画像処理部12から供給された画像データから、ユーザの口の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部14に供給する。
手動きパターン検出部21−4は、画像処理部12から供給された画像データから、ユーザの手の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部14に供給する。
発話判定部14は、音声処理部11からの音声信号の有無、動きパターン検出部13からの動きパターンの検出結果に基づいて、音声処理部11からの音声信号は、ユーザが発した音声であるか(発話があったか)否かを判定し、その判定結果を、音声認識部15に供給する。
音声認識部15は、発話判定部14からの発話判定結果に基づいて音声処理部11から供給された音声に対して、隠れマルコフモデル(Hidden Markov Models)(文献1参照)等を利用した音声認識処理を行い、その処理結果を、処理装置4に供給する。
文献1:L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, New Jersey, Prentice Hall, Signal Processing Series (1993)
人間が言葉を発するとき、話者(ユーザ)の口の他、通常、目、頭、手が動く。例えばうなずく場合、頭は、前後に動き、話の内容を否定するとき、左右に動く。目および手も、同様に、所定のパターンを伴って動く。
すなわち本発明では、話者(ユーザ)の映像から口、目、頭、手などの複数の部分の動きを検出し、その検出結果を総合的に利用して、音声認識することで、音声認識が正確に行われるようにするものである。
次に、音声認識装置3の顔動きパターン検出部21−1の動作を、図2のフローチャートを参照して説明する。
ステップS11において、顔動きパターン検出部21−1は、画像処理部12から、1フレーム分の画像データを入力する。
ステップS12において、顔動きパターン検出部21−1は、入力した画像データから、肌色領域を検出し、その検出結果に基づいて、トラッキングの対象(例えば、額部分)を決定する。
ステップS13において、顔動きパターン検出部21−1は、次のフレームの画像データを、画像処理部12から入力する。
ステップS14において、顔動きパターン検出部21−1は、ステップS13で入力したフレームの画像データを利用して、トラッキングの対象のオプティカルフローを検出する。
ステップS15において、顔動きパターン検出部21−1は、ステップS14で検出したオプティカルフローに基づいて、トラッキングの対象(額部分)の動きパターンを認識する。
ステップS16において、顔動きパターン検出部21−1は、ステップS15で認識した動きパターンが、予め想定した顔の動きの範囲内であるか否かを判定し、その範囲内ではないと判定した場合、いまトラッキングの対象としている領域が顔部分の画像でないとして、ステップS17に進む。
ステップS17において、顔動きパターン検出部21−1は、トラッキング対象に対して肌色抽出処理を行い、ステップS18において、その結果として例えば一定領域の肌色領域が認識され、トラッキング対象が顔部分であり動きパターンの追跡を続行すべきか否かを判定する。
ステップS18で、顔部分ではないと判定された場合、ステップS11に戻り、それ以降の処理が行われ、はじめからトラッキング対象が検出される。
ステップS16で、認識された動きパターンが予想範囲内であると判定された場合、またはステップS18で、動きパターンの追跡を続行すべきであると判定された場合、ステップS19に進み、顔動きパターン検出部21−1は、検出したトラッキング対象の動きを記憶し、そのパターンをトラッキングする。
ステップS20において、顔動きパターン検出部21−1は、トラッキング対象の動作パターンを決定するのに必要なデータが集まったか否かを判定し、まだ集まっていないと判定した場合、ステップS13に戻り、それ以降の処理を同様に実行する。
ステップS20で、トラッキング対象の動作パターンを決定するのに必要なデータが集まったと判定された場合、ステップS21に進み、顔動きパターン検出部21−1は、集まったデータに基づいて、例えば隠れマルコフモデルやベイジアンネットワークを利用して、顔(例えば、頭の部分)の動きパターンを決定し、発話判定部14に供給する。
その後処理は終了する。上述した処理は、例えば画像処理部12から画像データが供給される毎など、所定のタイミングで繰り返し実行される。
なお目動きパターン検出部21−2乃至手動きパターン検出部21−4の動作は、顔動きパターン検出部21−1の動作と基本的に同じであるので、その説明は省略する。
また動きパターン検出部13の検出処理は、上述した処理の他、例えば図3に示すように、画像データからのトラッキング対象を特定する処理(ステップS12の処理に相当する処理)、トラッキング対象の特徴を抽出する処理(ステップS14,S15の処理に相当する処理)、および抽出した特徴を分類する処理(ステップS21の処理に相当する処理)を有する他の方法で行うこともできる。
文献2および文献3には、トラッキング対象を特定するappearance modelsについての記載があり、文献4には、optical flow with skin color detectionについての記載がある。
文献2:Large-Vocabulary Audio-Visual Speech Recognition: A Summary of the John Hopkins Summer 2000 Workshop. C. Neti, G. Potaminos, J. Luettin, I. Matthews, H. Glotin and D. Vergyri. Workshop on Multimedia Signal Processing (MMSP), Cannes, 2001.
文献3:Allan D. Jepson, David J. Fleet, and Thomas F El-Maraghi. Robust online appearance models for visual tracking. In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, pages 415{422, Kauai, Hawaii, 2001.
文献4:Hoey, J.: Decision Theoretic Learning of Human Facial Displays and Gestures., PhD thesis, University of British Columbia (2004).
次に発話判定部14の動作を、図4のフローチャートを参照して説明する。
ステップS31において、発話判定部14は、音声処理部11から音声が入力されるまで待機し、音声が入力されたとき、ステップS32に進む。
ステップS32において、発話判定部14は、そのとき動きパターン検出部13から動きパターンの検出結果が供給されたか否かを判定し、供給されたと判定した場合、ステップS33に進む。
ステップS33において、発話判定部14は、隠れマルコフモデルやベイジアンネットワーク等を利用して(文献5および文献6参照)、動きパターン検出部13から供給された動きパターンが、発話時の動きのパターンであるか(発話動作があったか)否かを判定する。
文献5:Bourlard, H. and Dupont, S., A new ASR approach based on independent processing and recombination of partial frequency bands, Proc. ICSLP, vol. 1, pp. 426429, 1996.
文献6:Dynamic Bayesian Networks for Audio-Visual, Speech Recognition, Ara V. Nefian et al. EURASIP Journal on Applied Signal Processing 2002:11, 115, 2002
ステップS33で、発話時の動きのパターンである(発話動作があった)と判定された場合、ステップS34に進み、発話判定部14は、発話があった旨を、音声認識部15に通知する。音声認識部15は、発話判定部14からその通知を受けると、音声処理部11から供給される音声の音声認識を開始する。
ステップS32で、動きパターンの検出結果が入力されなかったと判定された場合、ステップS33で、発話動作なしと判定された場合、またはステップS34で、発話判定結果が音声認識部15に通知された場合、ステップS31に戻り、それ以降の処理が同様に行われる。
次に上述した発話判定部14における動作を、図5を参照して具体的に説明する。
図5の最上段の欄には、動きパターン検出部13に供給される画像の例が示されている。
画像Aは、ユーザが立って、身振り手振りで話しているとき(顔、目、口、手が動いているとき)の体全体の撮像画像(動画)であり、この画像Aが画像処理部12から供給されると、顔動きパターン検出部21−1乃至手動きパターン検出部21−4は、それぞれ所定の部分の動きパターンを検出し、その検出結果を発話判定部14に供給する。
なお図5中、各画像の欄の下に設けられた、「動き有り」の欄に対応する「顔」、「目」、「口」、「手」の項目に示される○印は、その部分の動きパターンが検出されたことを示し、×印は、その部分の動きパターンが検出されなかったことを示す。
画像Aが動きパターン検出部13に供給されるとき、いまの場合、ユーザが発した大きな音声が発話判定部14に供給される。
すなわち発話判定部14には、ユーザの音声と画像Aに対する動きパターンの検出結果が入力されるので(ステップS31,S32)、発話判定部14は、ステップS33に進み、その動きパターンが発話時の動作であるか否かを判定する。
この場合、発話判定部14は、顔動きパターン検出部21−1乃至手動きパターン検出部21−4から供給された動きパターンから、それぞれ、頭、目、口、および手の動きが、発話時の動きであると判定し(ステップS33)、発話があった旨を音声認識部15に通知する(ステップS34)。
なお図5中、各画像の欄の下に設けられた、「発話時の動き」の欄に対応する「顔」、「目」、「口」、「手」の項目に示される○印は、その部分の動きが発話時の動きであることを示し、×印は、その部分の動きが発話時の動きではないことを示す。
画像Bは、ユーザが手で口の部分を覆って静かに話しているとき(目は動いているが、顔と手は動いておらず、口が外からは見えないとき)の顔部分の撮像画像(動画)であり、この画像Bが画像処理部12から供給されると、目動きパターン検出部21−2は、目の動きパターンを検出して、その検出結果を発話判定部14に供給し、顔動きパターン検出部21−1、口動きパターン検出部21−3、および手動きパターン検出部21−4は、動きパターンを検出しないので、検出結果を発話判定部14に供給しない。
画像Bが動きパターン検出部13に供給されるとき、いまの場合、ユーザが発した小さな音声が発話判定部14に供給される。
すなわち発話判定部14には、ユーザの音声と画像Bに対する目動きパターンの検出結果が入力されるので(ステップS31,S32)、発話判定部14は、ステップS33に進み、目の動きパターンが発話時の動作であるか否かを判定する。
この場合、発話判定部14は、目動きパターン検出部21−2から供給された動きパターンから、目の動きが発話時の動きであると判定し(ステップS33)、発話があった旨を音声認識部15に通知する(ステップS34)。
画像Cは、ユーザが座って寝ているとき(顔、目、口、手も動いていないとき)の体全体の撮像画像(動画)であり、この画像Cが画像処理部12から供給されると、顔動きパターン検出部21−1乃至手動きパターン検出部21−4のいずれも、動きパターンを検出しないので、検出結果を発話判定部14に供給しない。
画像Cが動きパターン検出部13に供給されるとき、音声は発話判定部14に供給されない。
すなわち結局発話判定部14には、音声が入力されないので(ステップS31)、発話判定部14は、発話があった旨を音声認識部15に通知しない(ステップS34)。
画像Dは、ユーザが無言でテレビジョン受像機の前に座ってテレビゲームをやっているとき(顔と口は動いておらず、目と手が動いているとき)の撮像画像(動画)であり、この画像Dが画像処理部12から供給されると、目動きパターン検出部21−2および手動きパターン検出部21−4は、目および手の動きパターンを検出して、その検出結果を発話判定部14に供給する。顔動きパターン検出部21−1および口動きパターン検出部21−3は、動きパターンを検出しないので、検出結果を発話判定部14に供給しない。
画像Dが動きパターン検出部13に供給されるとき、テレビジョン受像機から出力されたテレビゲームの音声が発話判定部14に供給される。
すなわち発話判定部14には、テレビゲームの音声と画像Dに対する目動きパターン検出部21−2および手動きパターン検出部21−4からの動きパターンの検出結果が入力されるので(ステップS31,S32)、発話判定部14は、ステップS33に進み、その動きパターンが発話時の動作であるか否かを判定する。
この場合、発話判定部14は、目動きパターン検出部21−2および手動きパターン検出部21−4から供給された動きパターンから、目の動きおよび手の動きが発話時の動きではないと判定し(ステップS33)、発話があった旨を音声認識部15に通知しない(ステップS34)。
画像Eは、ラジオ放送の音声を出力しているラジオの撮像画像(ユーザの映像を含まない画像)(動画)であり、この画像Eが画像処理部12から供給されたとき、顔動きパターン検出部21−1乃至手動きパターン検出部21−4は、動きパターンを検出しないので、検出結果を発話判定部14に供給しない。
画像Eが動きパターン検出部13に供給されるとき、ラジオの音声が発話判定部14に供給される。
すなわち発話判定部14には、ラジオの音声が入力されるが(ステップS31)、動きパターンは入力されないので(ステップS32)、発話判定部14は、発話があった旨を音声認識部15に通知しない(ステップS34)。
以上のように、音声の入力とともに、映像からユーザの発話動作を検出して音声認識を行うようにしたので、音声認識を正確に行うことができる。例えば、図5の画像Dおよび画像Eによる例のように、音声の入力があっても、ユーザの発話動作が検出されない場合、音声認識が行われないので、テレビジョン受像機またはラジオから出力される音声が、ユーザの音声として認識されることはない。
またユーザの発話動作を検出するに際に、ユーザの体の複数の部分の動きを利用して発話動作を検出するようにしたので、音声認識をさらに正確に行うことができる。例えば画像Bの例の場合のように、口の部分の動きが検出されなくても、目の動きから発話動作を検出することができるので、口の動きが検出されなくても、ユーザの音声として音声認識を行うようにすることができる。
なお、図1の例においては、図6Aに示すように、音声入力と所定の部分の動作パターンに基づいて、発話動作を判定したが、図6Bに示すように、各部の動作パターンを検出する前段階としてその部分が検出されたとき、その検出結果をさらに利用して発話動作を判定することができる。
これにより例えば、口が検出されたときは、その動作パターンに関わらず、発話動作があったものとして、発話動作検出を簡単なものにすることもできる。
また図6Aおよび図6Bの例では、対象部分の検出結果、およびその動きパターンの検出結果は、発話動作検出のみに利用されたが、図6Cに示すように、音声処理に利用することもできる。
これによりユーザの音声をより正確に抽出することができるようになる。
また以上においては、ユーザの映像は、発話動作の判定にのみ利用されていたが、音声認識部15において、例えば口の部分の動きを利用して音声認識をすることもできる。
これにより音声にユーザの音声以外の音声が含まれていても、正確に音声認識を行うことができる。
また以上において、検出するユーザの体の部分を、顔、目、口、および手としたが、体全体、耳、腕、足等、他の部分を検出し、その検出結果を利用することもできる。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図7は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU(Central Processing Unit)201は、ROM(Read Only Memory)202、または記憶部208に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)203には、CPU201が実行するプログラムやデータなどが適宜記憶される。これらのCPU201、ROM202、およびRAM203は、バス204により相互に接続されている。
CPU201にはまた、バス204を介して入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロフォンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続されている。CPU201は、入力部206から入力される指令に対応して各種の処理を実行する。そして、CPU201は、処理の結果を出力部207に出力する。
入出力インタフェース205に接続されている記憶部208は、例えばハードディスクからなり、CPU201が実行するプログラムや各種のデータを記憶する。通信部209は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部209を介してプログラムを取得し、記憶部208に記憶してもよい。
入出力インタフェース205に接続されているドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部208に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図7に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM202や、記憶部208を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部209を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明を適用した音声認識装置3の構成例を示すブロック図である。 図1の動きパターン検出部13の動作を説明するフローチャートである。 図1の動きパターン検出部13の動作を説明する他の図である。 図1の発話判定部14の動作を説明するフローチャートである。 図1の発話判定部14の動作を説明する他の図である。 音声認識装置3の他の動作を説明する図である。 パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
1 マイクロフォン, 2 ビデオカメラ, 3 音声認識装置, 4 処理装置, 11 音声処理部, 12 画像処理部, 13 動きパターン検出部, 14 発話判定部, 15 音声認識部


Claims (6)

  1. 話者による発話時の音声を認識する情報処理装置において、
    前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段と、
    集音部により音声が集音されたか否かを判定する第1の判定手段と、
    前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定手段と、
    検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
    検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
    音声認識手段と
    を備える情報処理装置。
  2. 前記検出手段は、
    前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、
    前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、
    検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、
    認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、
    追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段と
    を有する請求項1に記載の情報処理装置。
  3. 前記トラッキング対象決定手段は、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔、前記トラッキング対象として決定する
    請求項2に記載の情報処理装置。
  4. 前記第2の判定手段は、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する
    請求項1乃至3に記載の情報処理装置。
  5. 話者による発話時の音声を認識する情報処理装置の情報処理方法において、
    前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
    集音部により音声が集音されたか否かを判定する第1の判定ステップと、
    前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップと、
    検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
    検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
    音声認識ステップと
    を含む情報処理方法。
  6. 話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
    集音部により音声が集音されたか否かを判定する第1の判定ステップと、
    前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第2の判定ステップと、
    検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
    検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
    音声認識ステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2005284521A 2005-09-29 2005-09-29 情報処理装置および方法、並びにプログラム Expired - Fee Related JP4992218B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005284521A JP4992218B2 (ja) 2005-09-29 2005-09-29 情報処理装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005284521A JP4992218B2 (ja) 2005-09-29 2005-09-29 情報処理装置および方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2007094104A JP2007094104A (ja) 2007-04-12
JP2007094104A5 JP2007094104A5 (ja) 2008-11-13
JP4992218B2 true JP4992218B2 (ja) 2012-08-08

Family

ID=37979893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005284521A Expired - Fee Related JP4992218B2 (ja) 2005-09-29 2005-09-29 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4992218B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017188801A1 (ko) * 2016-04-29 2017-11-02 주식회사 브이터치 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치
US11449307B2 (en) 2017-07-10 2022-09-20 Samsung Electronics Co., Ltd. Remote controller for controlling an external device using voice recognition and method thereof

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
KR20180019752A (ko) * 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
JP2013142843A (ja) * 2012-01-12 2013-07-22 Fuji Xerox Co Ltd 動作解析装置、音声取得装置、および、動作解析システム
BR112014018604B1 (pt) * 2012-04-27 2022-02-01 Hewlett-Packard Development Company, L.P. Dispositivo de computação, método para receber entrada de áudio e meio legível por computador não volátil
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
US10475439B2 (en) * 2015-03-23 2019-11-12 Sony Corporation Information processing system and information processing method
JP6855737B2 (ja) * 2016-10-05 2021-04-07 富士ゼロックス株式会社 情報処理装置、評価システムおよびプログラム
WO2019150708A1 (ja) * 2018-02-01 2019-08-08 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7259447B2 (ja) * 2019-03-20 2023-04-18 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3729179B2 (ja) * 1992-11-02 2005-12-21 松下電器産業株式会社 音声入力装置
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JP2004112518A (ja) * 2002-09-19 2004-04-08 Takenaka Komuten Co Ltd 情報提供装置
JP2005004535A (ja) * 2003-06-12 2005-01-06 Mitsubishi Electric Corp 携帯通信端末及び画像処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017188801A1 (ko) * 2016-04-29 2017-11-02 주식회사 브이터치 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치
US10796694B2 (en) 2016-04-29 2020-10-06 VTouch Co., Ltd. Optimum control method based on multi-mode command of operation-voice, and electronic device to which same is applied
US11449307B2 (en) 2017-07-10 2022-09-20 Samsung Electronics Co., Ltd. Remote controller for controlling an external device using voice recognition and method thereof

Also Published As

Publication number Publication date
JP2007094104A (ja) 2007-04-12

Similar Documents

Publication Publication Date Title
JP4992218B2 (ja) 情報処理装置および方法、並びにプログラム
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
US20220375472A1 (en) Method and system of audio false keyphrase rejection using speaker recognition
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
Zhou et al. A review of recent advances in visual speech decoding
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
JP5772069B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
US20200286484A1 (en) Methods and systems for speech detection
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
US20120130716A1 (en) Speech recognition method for robot
JP2012003326A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6562790B2 (ja) 対話装置および対話プログラム
JP2011191423A (ja) 発話認識装置、発話認識方法
JP2006500858A (ja) 合成された映像及び音声サインを介した拡張コマーシャル検出
JP5700963B2 (ja) 情報処理装置およびその制御方法
Iwano et al. Audio-visual speech recognition using lip information extracted from side-face images
Potamianos et al. Joint audio-visual speech processing for recognition and enhancement
Huang et al. Audio-visual speech recognition using an infrared headset
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US9576587B2 (en) Example-based cross-modal denoising
Lucey et al. Continuous pose-invariant lipreading
Takeuchi et al. Voice activity detection based on fusion of audio and visual information
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080926

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees