JP4992218B2

JP4992218B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP4992218B2
Application number: JP2005284521A
Authority: JP
Inventors: プロフィオウゴティ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-09-29
Filing date: 2005-09-29
Publication date: 2012-08-08
Anticipated expiration: 2025-09-29
Also published as: JP2007094104A

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ユーザが発した音声を適切に認識することができるようにした情報処理装置および方法、並びにプログラムに関する。

近年、ロボットやホームエレクトロニクスの分野において、ユーザの音声を認識して所定の処理を実行させる技術が盛んに研究されている。

ところで集音された音声を単純に認識すると（非特許文献１および非特許文献２参照）、その音声に、ユーザが発した音声の他、例えばユーザの近くにあるテレビジョン受像機から出力された音声などが含まれている場合、ユーザの音声を正確に認識することができなかった。

そこで、例えばユーザの口の部分の映像から、ユーザの口の動きを検出し、その検出結果に基づいて、ユーザの音声を認識する方法が考えられている（非特許文献１乃至非特許文献６、特許文献１、および特許文献２参照）。

L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, New Jersey, Prentice Hall, Signal Processing Series (1993) Towards improving speech detection robustness for speech recognition in adverse conditions, Speech Communication, Volume 40, Issue 3, May 2003, Pages 261-276, Lamia Karray and Arnaud Martin P. de Cuetos, C. Neti, A.W. Senior. Audio-visual intent-to-speak detection for human-computer interaction, ICASSP June 5-9 2000, pp. 1325-1328, Istanbul, Turkey. G. Iyengar, C. Neti. A vision-based microphone switch for speech intent detection, July 2001, Vancouver, Canada. Large-Vocabulary Audio-Visual Speech Recognition: A Summary of the John Hopkins Summer 2000 Workshop. C. Neti, G. Potaminos, J. Luettin, I. Matthews, H. Glotin and D. Vergyri. Workshop on Multimedia Signal Processing (MMSP), Cannes, 2001. Audio-Visual Speech Recognition. C. Neti, G. Potamianos, J. Luettin, I. Matthews, H. Glotin, D. Vergyri, J. Sison, A. Mashari and J. Zhou. Technical Report, Workshop 2000, CLSP, Johns Hopkins University, July-August 2000. US20040243416 A1 G10L 20041202 Speech recognition US20030048930 A1 G06K 20030313 KABUSHIKI KAISHA TOSHIBA Image recognition apparatus and method

このように、音声認識においてユーザの映像を利用する方法が提案されているが、この方法では、入力した音声にユーザの音声が含まれていることが前提とされており、入力した音声にユーザの音声が含まれるか否かを判定する際に、ユーザの映像を利用する方法は存在しない。

またユーザの動きを利用する従来の方法では、通常、口の動きまたは目の動きがそれぞれ別々に利用されており、口および目の動きを総合して利用したり、口または目の動きの他、顔（頭部分）の動き、手の動き、または体全体の動きを利用する方法は、存在しない。

本発明はこのような状況に鑑みてなされたものであり、ユーザの動きを総合的に利用して音声認識を実行することで、音声認識を正確に実行できるようにするものである。

本発明の一側面は、話者による発話時の音声を認識する情報処理装置であって、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段と、集音部により音声が集音されたか否かを判定する第１の判定手段と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定手段と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識手段とを備える情報処理装置である。
前記検出手段には、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段とを設けさせることができる。
前記トラッキング対象決定手段には、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔も、前記トラッキング対象として決定させることができる。
前記第２の判定手段には、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定させることができる。
前記音声認識手段には、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、前記話者による発話時の音声を認識させることができる。

本発明の一側面は、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、集音部により音声が集音されたか否かを判定する第１の判定ステップと、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定ステップと、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識ステップとを含む情報処理方法またはプログラムである。

本発明の一側面においては、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンが検出され、集音部により音声が集音されたか否かが判定され、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かが判定され、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識が行われ、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識が行われる。

以上のように、本発明の一側面によれば、音声認識を正確に行うことが可能となる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。したがって、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面は、話者による発話時の音声を認識する情報処理装置において、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段（例えば、図１の動きパターン検出部１３）と、集音部により音声が集音されたか否かを判定する第１の判定手段（例えば、図１の発話判定部１４）と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定手段（例えば、図１の発話判定部１４）と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識手段（例えば、図１の音声認識部１５）とを備える情報処理装置である。
本発明の一側面において、前記検出手段は、前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段（例えば、図２のステップＳ１２の処理を実行する顔動きパターン検出部２１−１）と、前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段（例えば、図２のステップＳ１４の処理を実行する顔動きパターン検出部２１−１）と、検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段（例えば、図２のステップＳ１５の処理を実行する顔動きパターン検出部２１−１）と、認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段（例えば、図２のステップＳ１９の処理を実行する顔動きパターン検出部２１−１）と、追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段（例えば、図２のステップＳ２１の処理を実行する顔動きパターン検出部２１−１）とを有する。

本発明の一側面は、前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップ（例えば、図４のステップＳ３２）と、集音部により音声が集音されたか否かを判定する第１の判定ステップ（例えば、図４のステップＳ３１）と、前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定ステップ（例えば、図４のステップＳ３３）と、検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない音声認識ステップ（例えば、図４のステップＳ３４）とを含む情報処理方法またはプログラムである。

図１は、本発明を適用した音声認識装置３の利用例およびその構成例を示している。

マイクロフォン１は、集音した音声信号を音声認識装置３に供給する。

ビデオカメラ２は、撮影の結果得られた画像信号を音声認識装置３に供給する。

マイクロフォン１およびビデオカメラ２は、例えば、ユーザがその設置位置がわかるように、部屋の壁等に埋め込まれており、ユーザが、マイクロフォン１およびビデオカメラ２に向かって話しかけることができるようになされている。

音声認識装置３は、ビデオカメラ２により撮影された映像を利用して、マイクロフォン１により取り込まれた音声から、ユーザが発した音声を認識し、その認識結果を処理装置４に供給する。

処理装置４は、音声認識装置３からのユーザ音声の認識結果に応じて所定の処理を行う。例えば、処理装置４は、家電制御装置であり、ユーザの音声認識結果に応じて所定の家電機器（例えば、テレビジョン受像機や照明）の電源をオンオフするなどの制御を行う。

次に音声認識装置３の構成について説明する。

音声認識装置３の音声処理部１１は、マイクロフォン１から供給された音声信号に対して所定の音声処理を施し、その結果得られた音声データを発話判定部１４および音声認識部１５に供給する。

画像処理部１２は、ビデオカメラ２から供給された画像信号に対して所定の画像処理を施し、その結果得られた画像データを動きパターン検出部１３に供給する。

動きパターン検出部１３は、顔動きパターン検出部２１−１乃至手動きパターン検出部２１−４から構成されている。

顔動きパターン検出部２１−１は、画像処理部１２から供給された画像データから、ユーザの顔の部分を検出するとともに、例えば頭部分の動きパターンを検出し、その検出結果を、発話判定部１４に供給する。

目動きパターン検出部２１−２は、画像処理部１２から供給された画像データから、ユーザの目の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部１４に供給する。

口動きパターン検出部２１−３は、画像処理部１２から供給された画像データから、ユーザの口の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部１４に供給する。

手動きパターン検出部２１−４は、画像処理部１２から供給された画像データから、ユーザの手の部分を検出するとともに、その動きのパターンを検出し、その検出結果を、発話判定部１４に供給する。

発話判定部１４は、音声処理部１１からの音声信号の有無、動きパターン検出部１３からの動きパターンの検出結果に基づいて、音声処理部１１からの音声信号は、ユーザが発した音声であるか（発話があったか）否かを判定し、その判定結果を、音声認識部１５に供給する。

音声認識部１５は、発話判定部１４からの発話判定結果に基づいて音声処理部１１から供給された音声に対して、隠れマルコフモデル（Hidden Markov Models）（文献１参照）等を利用した音声認識処理を行い、その処理結果を、処理装置４に供給する。
文献１：L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, New Jersey, Prentice Hall, Signal Processing Series (1993)

人間が言葉を発するとき、話者（ユーザ）の口の他、通常、目、頭、手が動く。例えばうなずく場合、頭は、前後に動き、話の内容を否定するとき、左右に動く。目および手も、同様に、所定のパターンを伴って動く。

すなわち本発明では、話者（ユーザ）の映像から口、目、頭、手などの複数の部分の動きを検出し、その検出結果を総合的に利用して、音声認識することで、音声認識が正確に行われるようにするものである。

次に、音声認識装置３の顔動きパターン検出部２１−１の動作を、図２のフローチャートを参照して説明する。

ステップＳ１１において、顔動きパターン検出部２１−１は、画像処理部１２から、１フレーム分の画像データを入力する。

ステップＳ１２において、顔動きパターン検出部２１−１は、入力した画像データから、肌色領域を検出し、その検出結果に基づいて、トラッキングの対象（例えば、額部分）を決定する。

ステップＳ１３において、顔動きパターン検出部２１−１は、次のフレームの画像データを、画像処理部１２から入力する。

ステップＳ１４において、顔動きパターン検出部２１−１は、ステップＳ１３で入力したフレームの画像データを利用して、トラッキングの対象のオプティカルフローを検出する。

ステップＳ１５において、顔動きパターン検出部２１−１は、ステップＳ１４で検出したオプティカルフローに基づいて、トラッキングの対象（額部分）の動きパターンを認識する。

ステップＳ１６において、顔動きパターン検出部２１−１は、ステップＳ１５で認識した動きパターンが、予め想定した顔の動きの範囲内であるか否かを判定し、その範囲内ではないと判定した場合、いまトラッキングの対象としている領域が顔部分の画像でないとして、ステップＳ１７に進む。

ステップＳ１７において、顔動きパターン検出部２１−１は、トラッキング対象に対して肌色抽出処理を行い、ステップＳ１８において、その結果として例えば一定領域の肌色領域が認識され、トラッキング対象が顔部分であり動きパターンの追跡を続行すべきか否かを判定する。

ステップＳ１８で、顔部分ではないと判定された場合、ステップＳ１１に戻り、それ以降の処理が行われ、はじめからトラッキング対象が検出される。

ステップＳ１６で、認識された動きパターンが予想範囲内であると判定された場合、またはステップＳ１８で、動きパターンの追跡を続行すべきであると判定された場合、ステップＳ１９に進み、顔動きパターン検出部２１−１は、検出したトラッキング対象の動きを記憶し、そのパターンをトラッキングする。

ステップＳ２０において、顔動きパターン検出部２１−１は、トラッキング対象の動作パターンを決定するのに必要なデータが集まったか否かを判定し、まだ集まっていないと判定した場合、ステップＳ１３に戻り、それ以降の処理を同様に実行する。

ステップＳ２０で、トラッキング対象の動作パターンを決定するのに必要なデータが集まったと判定された場合、ステップＳ２１に進み、顔動きパターン検出部２１−１は、集まったデータに基づいて、例えば隠れマルコフモデルやベイジアンネットワークを利用して、顔（例えば、頭の部分）の動きパターンを決定し、発話判定部１４に供給する。

その後処理は終了する。上述した処理は、例えば画像処理部１２から画像データが供給される毎など、所定のタイミングで繰り返し実行される。

なお目動きパターン検出部２１−２乃至手動きパターン検出部２１−４の動作は、顔動きパターン検出部２１−１の動作と基本的に同じであるので、その説明は省略する。

また動きパターン検出部１３の検出処理は、上述した処理の他、例えば図３に示すように、画像データからのトラッキング対象を特定する処理（ステップＳ１２の処理に相当する処理）、トラッキング対象の特徴を抽出する処理（ステップＳ１４，Ｓ１５の処理に相当する処理）、および抽出した特徴を分類する処理（ステップＳ２１の処理に相当する処理）を有する他の方法で行うこともできる。

文献２および文献３には、トラッキング対象を特定するappearance modelsについての記載があり、文献４には、optical flow with skin color detectionについての記載がある。

文献２：Large-Vocabulary Audio-Visual Speech Recognition: A Summary of the John Hopkins Summer 2000 Workshop. C. Neti, G. Potaminos, J. Luettin, I. Matthews, H. Glotin and D. Vergyri. Workshop on Multimedia Signal Processing (MMSP), Cannes, 2001.
文献３：Allan D. Jepson, David J. Fleet, and Thomas F El-Maraghi. Robust online appearance models for visual tracking. In Proceedings IEEE Conference on Computer Vision and Pattern Recognition, pages 415{422, Kauai, Hawaii, 2001.
文献４：Hoey, J.: Decision Theoretic Learning of Human Facial Displays and Gestures., PhD thesis, University of British Columbia (2004).

次に発話判定部１４の動作を、図４のフローチャートを参照して説明する。

ステップＳ３１において、発話判定部１４は、音声処理部１１から音声が入力されるまで待機し、音声が入力されたとき、ステップＳ３２に進む。

ステップＳ３２において、発話判定部１４は、そのとき動きパターン検出部１３から動きパターンの検出結果が供給されたか否かを判定し、供給されたと判定した場合、ステップＳ３３に進む。

ステップＳ３３において、発話判定部１４は、隠れマルコフモデルやベイジアンネットワーク等を利用して（文献５および文献６参照）、動きパターン検出部１３から供給された動きパターンが、発話時の動きのパターンであるか（発話動作があったか）否かを判定する。

文献５：Bourlard, H. and Dupont, S., A new ASR approach based on independent processing and recombination of partial frequency bands, Proc. ICSLP, vol. 1, pp. 426429, 1996.
文献６：Dynamic Bayesian Networks for Audio-Visual, Speech Recognition, Ara V. Nefian et al. EURASIP Journal on Applied Signal Processing 2002:11, 115, 2002

ステップＳ３３で、発話時の動きのパターンである（発話動作があった）と判定された場合、ステップＳ３４に進み、発話判定部１４は、発話があった旨を、音声認識部１５に通知する。音声認識部１５は、発話判定部１４からその通知を受けると、音声処理部１１から供給される音声の音声認識を開始する。

ステップＳ３２で、動きパターンの検出結果が入力されなかったと判定された場合、ステップＳ３３で、発話動作なしと判定された場合、またはステップＳ３４で、発話判定結果が音声認識部１５に通知された場合、ステップＳ３１に戻り、それ以降の処理が同様に行われる。

次に上述した発話判定部１４における動作を、図５を参照して具体的に説明する。

図５の最上段の欄には、動きパターン検出部１３に供給される画像の例が示されている。

画像Ａは、ユーザが立って、身振り手振りで話しているとき（顔、目、口、手が動いているとき）の体全体の撮像画像（動画）であり、この画像Ａが画像処理部１２から供給されると、顔動きパターン検出部２１−１乃至手動きパターン検出部２１−４は、それぞれ所定の部分の動きパターンを検出し、その検出結果を発話判定部１４に供給する。

なお図５中、各画像の欄の下に設けられた、「動き有り」の欄に対応する「顔」、「目」、「口」、「手」の項目に示される○印は、その部分の動きパターンが検出されたことを示し、×印は、その部分の動きパターンが検出されなかったことを示す。

画像Ａが動きパターン検出部１３に供給されるとき、いまの場合、ユーザが発した大きな音声が発話判定部１４に供給される。

すなわち発話判定部１４には、ユーザの音声と画像Ａに対する動きパターンの検出結果が入力されるので（ステップＳ３１，Ｓ３２）、発話判定部１４は、ステップＳ３３に進み、その動きパターンが発話時の動作であるか否かを判定する。

この場合、発話判定部１４は、顔動きパターン検出部２１−１乃至手動きパターン検出部２１−４から供給された動きパターンから、それぞれ、頭、目、口、および手の動きが、発話時の動きであると判定し（ステップＳ３３）、発話があった旨を音声認識部１５に通知する（ステップＳ３４）。

なお図５中、各画像の欄の下に設けられた、「発話時の動き」の欄に対応する「顔」、「目」、「口」、「手」の項目に示される○印は、その部分の動きが発話時の動きであることを示し、×印は、その部分の動きが発話時の動きではないことを示す。

画像Ｂは、ユーザが手で口の部分を覆って静かに話しているとき（目は動いているが、顔と手は動いておらず、口が外からは見えないとき）の顔部分の撮像画像（動画）であり、この画像Ｂが画像処理部１２から供給されると、目動きパターン検出部２１−２は、目の動きパターンを検出して、その検出結果を発話判定部１４に供給し、顔動きパターン検出部２１−１、口動きパターン検出部２１−３、および手動きパターン検出部２１−４は、動きパターンを検出しないので、検出結果を発話判定部１４に供給しない。

画像Ｂが動きパターン検出部１３に供給されるとき、いまの場合、ユーザが発した小さな音声が発話判定部１４に供給される。

すなわち発話判定部１４には、ユーザの音声と画像Ｂに対する目動きパターンの検出結果が入力されるので（ステップＳ３１，Ｓ３２）、発話判定部１４は、ステップＳ３３に進み、目の動きパターンが発話時の動作であるか否かを判定する。

この場合、発話判定部１４は、目動きパターン検出部２１−２から供給された動きパターンから、目の動きが発話時の動きであると判定し（ステップＳ３３）、発話があった旨を音声認識部１５に通知する（ステップＳ３４）。

画像Ｃは、ユーザが座って寝ているとき（顔、目、口、手も動いていないとき）の体全体の撮像画像（動画）であり、この画像Ｃが画像処理部１２から供給されると、顔動きパターン検出部２１−１乃至手動きパターン検出部２１−４のいずれも、動きパターンを検出しないので、検出結果を発話判定部１４に供給しない。

画像Ｃが動きパターン検出部１３に供給されるとき、音声は発話判定部１４に供給されない。

すなわち結局発話判定部１４には、音声が入力されないので（ステップＳ３１）、発話判定部１４は、発話があった旨を音声認識部１５に通知しない（ステップＳ３４）。

画像Ｄは、ユーザが無言でテレビジョン受像機の前に座ってテレビゲームをやっているとき（顔と口は動いておらず、目と手が動いているとき）の撮像画像（動画）であり、この画像Ｄが画像処理部１２から供給されると、目動きパターン検出部２１−２および手動きパターン検出部２１−４は、目および手の動きパターンを検出して、その検出結果を発話判定部１４に供給する。顔動きパターン検出部２１−１および口動きパターン検出部２１−３は、動きパターンを検出しないので、検出結果を発話判定部１４に供給しない。

画像Ｄが動きパターン検出部１３に供給されるとき、テレビジョン受像機から出力されたテレビゲームの音声が発話判定部１４に供給される。

すなわち発話判定部１４には、テレビゲームの音声と画像Ｄに対する目動きパターン検出部２１−２および手動きパターン検出部２１−４からの動きパターンの検出結果が入力されるので（ステップＳ３１，Ｓ３２）、発話判定部１４は、ステップＳ３３に進み、その動きパターンが発話時の動作であるか否かを判定する。

この場合、発話判定部１４は、目動きパターン検出部２１−２および手動きパターン検出部２１−４から供給された動きパターンから、目の動きおよび手の動きが発話時の動きではないと判定し（ステップＳ３３）、発話があった旨を音声認識部１５に通知しない（ステップＳ３４）。

画像Ｅは、ラジオ放送の音声を出力しているラジオの撮像画像（ユーザの映像を含まない画像）（動画）であり、この画像Ｅが画像処理部１２から供給されたとき、顔動きパターン検出部２１−１乃至手動きパターン検出部２１−４は、動きパターンを検出しないので、検出結果を発話判定部１４に供給しない。

画像Ｅが動きパターン検出部１３に供給されるとき、ラジオの音声が発話判定部１４に供給される。

すなわち発話判定部１４には、ラジオの音声が入力されるが（ステップＳ３１）、動きパターンは入力されないので（ステップＳ３２）、発話判定部１４は、発話があった旨を音声認識部１５に通知しない（ステップＳ３４）。

以上のように、音声の入力とともに、映像からユーザの発話動作を検出して音声認識を行うようにしたので、音声認識を正確に行うことができる。例えば、図５の画像Ｄおよび画像Ｅによる例のように、音声の入力があっても、ユーザの発話動作が検出されない場合、音声認識が行われないので、テレビジョン受像機またはラジオから出力される音声が、ユーザの音声として認識されることはない。

またユーザの発話動作を検出するに際に、ユーザの体の複数の部分の動きを利用して発話動作を検出するようにしたので、音声認識をさらに正確に行うことができる。例えば画像Ｂの例の場合のように、口の部分の動きが検出されなくても、目の動きから発話動作を検出することができるので、口の動きが検出されなくても、ユーザの音声として音声認識を行うようにすることができる。

なお、図１の例においては、図６Ａに示すように、音声入力と所定の部分の動作パターンに基づいて、発話動作を判定したが、図６Ｂに示すように、各部の動作パターンを検出する前段階としてその部分が検出されたとき、その検出結果をさらに利用して発話動作を判定することができる。

これにより例えば、口が検出されたときは、その動作パターンに関わらず、発話動作があったものとして、発話動作検出を簡単なものにすることもできる。

また図６Ａおよび図６Ｂの例では、対象部分の検出結果、およびその動きパターンの検出結果は、発話動作検出のみに利用されたが、図６Ｃに示すように、音声処理に利用することもできる。

これによりユーザの音声をより正確に抽出することができるようになる。

また以上においては、ユーザの映像は、発話動作の判定にのみ利用されていたが、音声認識部１５において、例えば口の部分の動きを利用して音声認識をすることもできる。

これにより音声にユーザの音声以外の音声が含まれていても、正確に音声認識を行うことができる。

また以上において、検出するユーザの体の部分を、顔、目、口、および手としたが、体全体、耳、腕、足等、他の部分を検出し、その検出結果を利用することもできる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図７は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU（Central Processing Unit）２０１は、ROM（Read Only Memory）２０２、または記憶部２０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）２０３には、CPU２０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU２０１、ROM２０２、およびRAM２０３は、バス２０４により相互に接続されている。

CPU２０１にはまた、バス２０４を介して入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロフォンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続されている。CPU２０１は、入力部２０６から入力される指令に対応して各種の処理を実行する。そして、CPU２０１は、処理の結果を出力部２０７に出力する。

入出力インタフェース２０５に接続されている記憶部２０８は、例えばハードディスクからなり、CPU２０１が実行するプログラムや各種のデータを記憶する。通信部２０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部２０９を介してプログラムを取得し、記憶部２０８に記憶してもよい。

入出力インタフェース２０５に接続されているドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部２０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図７に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１、または、プログラムが一時的もしくは永続的に格納されるROM２０２や、記憶部２０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部２０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明を適用した音声認識装置３の構成例を示すブロック図である。図１の動きパターン検出部１３の動作を説明するフローチャートである。図１の動きパターン検出部１３の動作を説明する他の図である。図１の発話判定部１４の動作を説明するフローチャートである。図１の発話判定部１４の動作を説明する他の図である。音声認識装置３の他の動作を説明する図である。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１マイクロフォン，２ビデオカメラ，３音声認識装置，４処理装置，１１音声処理部，１２画像処理部，１３動きパターン検出部，１４発話判定部，１５音声認識部

Claims

話者による発話時の音声を認識する情報処理装置において、
前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出手段と、
集音部により音声が集音されたか否かを判定する第１の判定手段と、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定手段と、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識手段と
を備える情報処理装置。
前記検出手段は、
前記映像に基づいて、前記話者の体の複数部分のうち、少なくとも口および手を、動きを検出する対象であるトラッキング対象として決定するトラッキング対象決定手段と、
前記映像から、決定された前記トラッキング対象のオプティカルフローを検出するオプティカルフロー検出手段と、
検出された前記オプティカルフローに基づいて、前記トラッキング対象の動きを認識する動き認識手段と、
認識された前記動きが、予め想定した動きの想定範囲内である場合、前記動きを追跡する動き追跡手段と、
追跡された前記動きに基づいて、前記トラッキング対象の動きパターンを決定する動きパターン決定手段と
を有する請求項１に記載の情報処理装置。
前記トラッキング対象決定手段は、前記映像内の前記話者の顔を表す肌色領域に基づいて、前記話者の顔も、前記トラッキング対象として決定する
請求項２に記載の情報処理装置。
前記第２の判定手段は、前記集音部により前記音声が集音されたと判定された場合、隠れマルコフモデル、又はベイジアンネットワークのいずれか一方を用いて、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する
請求項１乃至３に記載の情報処理装置。
話者による発話時の音声を認識する情報処理装置の情報処理方法において、
前記話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
集音部により音声が集音されたか否かを判定する第１の判定ステップと、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定ステップと、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識ステップと
を含む情報処理方法。
話者が撮影された映像から、前記話者の少なくとも口および手の動きパターンを検出する検出ステップと、
集音部により音声が集音されたか否かを判定する第１の判定ステップと、
前記集音部により前記音声が集音されたと判定された場合、検出された前記動きパターンが、前記話者による発話時の動きパターンであるか否かを判定する第２の判定ステップと、
検出された前記動きパターンが、前記話者による発話時の動きパターンであると判定された場合、集音された前記音声の音声認識を行い、
検出された前記動きパターンが、前記話者による発話時の動きパターンではないと判定された場合、集音された前記音声の音声認識を行わない
音声認識ステップと
を含む処理をコンピュータに実行させるプログラム。