JP2011013731A

JP2011013731A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011013731A
Application number: JP2009154923A
Authority: JP
Inventors: Kazumi Aoyama; 一美青山; Kotaro Sabe; 浩太郎佐部; Masato Ito; 真人伊藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2011-01-20

Abstract

【課題】動画像を用いた読唇技術において、不特定話者の発話内容を高い精度で認識する。
【解決手段】発話認識装置１０は、学習処理を実行する学習系１１、登録処理を行う登録系１２、および認識処理を行う認識系１３から構成される。学習系１１では、口形素ラベルが付加された唇画像を学習サンプルとし、入力された唇画像に対応する口形素を判別する口形素判別器３１が生成される。登録系１２では、登録用発話単語を話す話者の唇の動きに対応する時系列特徴量が生成されてモデル化されて登録される。認識系１３では、話者の動画像から時系列特徴量が生成されて、登録されているモデルと比較され、発話内容が認識される。本発明は、話者をビデオ撮影した動画像から、その発話内容を認識する場合に適用することができる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、話者を撮影した動画像に基づいてその発話内容を認識する、いわゆる読唇術を実現できるようにした情報処理装置、情報処理方法、およびプログラムに関する。

画像認識処理を用いて動画像における唇領域の動きを検出し、その検出結果に基づいて被写体となった話者の発話内容を認識する技術（以下、読唇技術と称する）の研究は既に１９８０年代後半から存在する。

このような画像認識処理に基づく読唇技術は、音声に基づいてその発話内容を認識する音声認識技術に比較し、周囲の雑音に影響されない、複数の被写体が同時に発話したとしても対応できるなど利点がある。

しかしながら、現状の読唇技術は、音声認識技術に比較して、不特定の話者に対して高い認識性能を得ることができていない。このため、現在の読唇技術は、ノイズ環境下における音声認識技術の補助としたAVSR(Audio Visual Speech Recognition)という形でも研究されている。すなわち、AVSRでは、音声の変化と、唇の形の変化と基づいて発話内容を推測している。

唇領域の画像からその形の特徴量を抽出する方法は、従来様々な方法が存在する。

例えば、非特許文献１には、唇の位置を同定し、その唇の縦横比などの幾何学情報を用いるものや、画像にブロック状の離散フーリエ変換処理を行い、その時系列信号をモデル化するもの、画像にブロック離散コサイン変換処理を行い、その結果えられた特徴量を複数の口形のいずれかに分類するものなどが記載されている。

非特許文献２には、唇領域の画像を切り出し、オプティカルフローを用いるものが記載されている。非特許文献３には、画像に対して主成分分析処理を行い低次元化したものを特徴量として用いるものが記載されている。

さらに、話者の口に蓄光テープを付けるなどのマーキングを行って唇の形状を検出し、唇の形状をフーリエ記述子により表現し音韻を特定する方法（例えば、特許文献１参照）、唇領域の筋電位を計測し母音を特定する方法（例えば、特許文献２参照）なども存在する。

またさらに、非特許文献１や特許文献２，３などには、唇の形状をいくつかの種類に分類して認識する方法も存在する（例えば、非特許文献１、並びに特許文献２および３参照）。

特開２００８−１４６２６８号公報特開２００８−２３３４３８号公報特開２００８−３１０３８２号公報

G. Potamianos，et. Al，「Recent Advances in the Automatic Recognition of Audiovisual Speech」，Proceedings of the IEEE, Vol. 91, No. 9, September, 2003. 間瀬，ペントランド著「オプティカルフローを用いた読唇」，テレビジョン学会技術報告，Vol.13, No.44, pp.7-12, 1989 石川他著「初期統合によるバイモーダル大語彙連続音声認識」，2002年情報科学技術フォーラム全国大会,pp.203-204

上述したように、従来、様々な方法によって唇の形の特徴量が求められてきたが、唇領域は個人差が極めて大きいことに加え、特徴量の空間でも唇形による分離が難しく、依然として、不特定話者の発話認識が困難であるという現状がある。

また、上述したマーキングを用いる方法や筋電位を測定する方法は、実用的な読唇技術を考慮した場合、適切とは言い得ない。

さらに、唇の形状をいくつかの種類に分類して認識する方法は、母音を発話している各状態と、唇を閉じた状態とを分類しているに過ぎず、例えば「はなし(hanashi)」と「たわし(tawashi)」のように、母音が共通であって子音が異なる単語を区別して識別することができない。

本発明はこのような状況に鑑みてなされたものであり、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識できるようにするものである。

本発明の一側面である情報処理装置は、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段とを含む。

前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成するようにすることができる。

前記画像特徴量は、ピクセル差分特徴とすることができる。

前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識するようにすることができる。

前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加するようにすることができる。

前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMMによりモデル化するようにすることができる。

本発明の一側面である情報処理方法は、入力された動画像を識別する情報処理装置の情報処理方法において、前記情報処理装置による、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップとを含む。

本発明の一側面であるプログラムは、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段として機能させる。

本発明の一側面によれば、クラスラベルが付加された学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器が生成される。また、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像が生成され、登録画像が多クラス判別器に入力され、その結果得られた登録画像に対応する多次元スコアベクトルが時系列に配置されて登録用時系列特徴量が生成され、登録動作に対応付けて登録用時系列特徴量がモデル化される。さらに、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像が生成され、認識画像が多クラス判別器に入力され、その結果得られた認識画像に対応する多次元スコアベクトルが時系列に配置されて認識用時系列特徴量が生成され、認識用時系列特徴量とモデル化された前記登録用時系列特徴量とが比較される。

本発明の一側面によれば、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識することができる。

本発明を適用した発話認識装置の構成例を示すブロック図である。顔画像、唇領域、および唇画像の例を示す図である。音素ラベルを口形素ラベルに変換する変換テーブルの一例を示す図である。学習サンプルの例を示す図である。時系列特徴量の一例を示す図である。発話認識処理を説明するフローチャートである。学習処理を説明するフローチャートである。学習用発話動画像の処理を説明するフローチャートである。学習用発話音声の処理を説明するフローチャートである。 AdaBoostECOC学習処理を説明するフローチャートである。２値判別弱判別器の学習処理を説明するフローチャートである。登録処理を説明するフローチャートである。Ｋ次元スコアベクトル演算処理を説明するフローチャートである。認識処理を説明するフローチャートである。登録用発話単語の例を示す図である。認識性能を示す図である。本発明を適用したデジタルスチルカメラの構成例を示すブロック図である。オートシャッタ制御部の構成例を示すブロック図である。オートシャッタ登録処理を説明するフローチャートである。オートシャッタ実行処理を説明するフローチャートである。コンピュータの構成例

以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
１．第１の実施の形態
２．第２の実施の形態

＜１．第１の実施の形態＞
［発話認識装置の構成例］
図１は、第１の実施の形態である発話認識装置１０の構成例を示している。この発話認識装置１０は、話者を被写体としてビデオ撮像した動画像に基づいて、被写体の発話内容を識別するものである。

発話認識装置１０は、学習処理を実行する学習系１１、登録処理を行う登録系１２、および認識処理を行う認識系１３から構成される。

学習系１１には、画音分離部２１、顔領域検出部２２、唇領域検出部２３、唇画像生成部２４、音素ラベル付与部２５、音素辞書２６、口形素ラベル変換部２７、口形素ラベル付加部２８、学習サンプル保持部２９、口形素判別器学習部３０、および口形素判別器３１が属する。

登録系１２には、口形素判別器３１、顔領域検出部４１、唇領域検出部４２、唇画像生成部４３、発話期間検出部４４、時系列特徴量生成部４５、時系列特徴量学習部４６、および発話認識器４７が属する。

認識形１３は、口形素判別器３１、顔領域検出部４１、唇領域検出部４２、唇画像生成部４３、発話期間検出部４４、時系列特徴量生成部４５、および発話認識器４７が属する。

すなわち、口形素判別器３１は、学習系１１、登録系１２、および認識形１３に重複して属し、登録系１２から時系列特徴量学習部４６を削除したものが認識系１３となる。

画音分離部２１は、任意の言葉を話している話者をビデオ撮影して得られる音声付動画像（以下、学習用音声付発話動画像と称する）を入力とし、これを学習用発話動画像と学習用発話音声とに分離する。分離された学習用発話動画像は顔領域検出部２２に入力され、分離された学習用発話音声は音素ラベル付与部２５に入力される。

なお、学習用音声付発話動画像は、この学習のためにビデオ撮影を行って用意してもよいし、例えばテレビジョン番組などのコンテンツを利用してもよい。

顔領域検出部２２は、学習用発話動画像を各フレームに分割し、各フレームについて、図２Ａに示すように、人の顔を含む顔領域を検出し、学習用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部２３に出力する。

唇領域検出部２３は、学習用発話動画像の各フレームの顔領域から、図２Ｂに示すように、唇の口角の端点を含む唇領域を検出し、学習用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部２４に出力する。

なお、顔領域および唇領域の検出方法については、例えば特開２００５−２８４３４８号公報、特開２００９−４９４８９号公報などに開示されている手法など、既存の任意の手法を適用できる。

唇画像生成部２４は、学習用発話動画像の各フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部２４は、回転補正後の各フレームから唇領域を抽出し、図２Ｃに示すように、抽出した唇領域を予め定められた画像サイズ（例えば、３２×３２画素）にリサイズすることにより唇画像を生成する。このようにして生成された各フレームに対応する唇画像は口形素ラベル付加部２８に供給される。

音素ラベル付与部２５は、音素辞書２６を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部２７に出力する。音素ラベルを付与する方法には、例えば、音声認識の研究分野において自動音素ラベリングと称されている方法を適用できる。

口形素ラベル変換部２７は、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部２８に出力する。なお、この変換には、予め用意されている変換テーブルを用いる。

図３は、音素ラベルを口形素ラベルに変換する変換テーブルの一例を示している。同図の変換テーブルを用いた場合、４０種類に分類されている音素ラベルが、１９種類に分類されている口形素ラベルに変換される。例えば、音素ラベル[ａ]および[ａ：]が口形素ラベル[ａ]に変換される。また例えば、音素ラベル[ｂｙ]，[ｍｙ]および[ｐｙ]が口形素ラベル[ｐｙ]に変換される。なお、変換テーブルは、図３に示されたものに限らず、他の変換テーブルを用いてもよい。

口形素ラベル付加部２８は、唇画像生成部２４から入力される学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部２７から入力される学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部２９に出力する。

学習サンプル保持部２９は、口形素ラベルが付加された複数の唇画像（以下、口形素ラベル付唇画像と称する）を学習サンプルとして保持する。

より具体的には、図４に示すように、Ｍ枚の唇画像ｘ_i（ｉ＝１，２，・・・，Ｍ）に、口形素ラベルに相当するクラスラベルｙ_k（ｋ＝１，２，・・・，Ｋ）が付与されて状態で、Ｍ個の学習サンプル（ｘ_i，ｙ_k）を保持する。なお、いまの場合、クラスラベルの種類の数Ｋは１９となる。

口形素判別器学習部３０は、学習サンプル保持部２９に保持されている複数の学習サンプルとしての口形素ラベル付唇画像からその画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器３１を生成する。

唇画像の画像特徴量としては、例えば、本発明者等が提案するPixDif Feature（ピクセル差分特徴）を用いることができる。

なお、PixDif Feature（ピクセル差分特徴）については、”佐部、日台、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」、第１０回画像センシングシンポジウム予稿集、pp.547-552, 2004.”、特開２００５−１５７６７９号公報などに開示されている。

ピクセル差分特徴は、画像（いまの場合、唇画像）上の２画素の画素値（輝度値）Ｉ₁，Ｉ₂の差分（Ｉ₁−Ｉ₂）を算出することによって得られる。２画素の各組み合わせにそれぞれ対応する２値判別弱判別器ｈ（ｘ）では、次式（１）に示すように、このピクセル差分特徴Ｉ₁−Ｉ₂と閾値Ｔｈにより真（＋１）、または偽（−１）が判別される。
ｈ（ｘ）＝−１ｉｆＩ₁−Ｉ₂≦Ｔｈ
ｈ（ｘ）＝＋１ｉｆＩ₁−Ｉ₂＞Ｔｈ
・・・（１）

例えば、唇画像のサイズを３２×３２画素として場合、１０２４×１０２３通りのピクセル差分特徴が得られることになる。これら複数通りの２画素の組み合わせとその閾値Ｔｈが各２値判別弱判別器のパラメータとなり、これらのうちの最適なものがブースティング学習により選択される。

口形素判別器３１は、発話期間検出部４４から通知される発話期間において、唇画像生成部４３から入力される唇画像に対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。

ここで、Ｋ次元スコアベクトルは、入力された唇画像が、Ｋ（いまの場合、Ｋ＝１９）種類の口形素のうちのどれに対応するものであるかを示す指標であって、Ｋ種類の各口形素に対応するものである可能性を示すＫ次元のスコアからなる。

登録系１２および認識系１３の顔領域検出部４１、唇領域検出部４２、および唇画像生成部４３は、上述した学習系１１に属する顔領域検出部２２、唇領域検出部２３、および唇画像生成部２４と同様のものである。

なお、登録系１２には、予め決められている発話内容（登録用発話単語）とそれを発話している話者をビデオ撮影した動画像（以下、登録用発話動画像と称する）とを組み合わせた複数の登録用データが入力される。

また、認識系１３には、認識対象となる、発話内容を話す話者をビデオ撮影した動画像（以下、認識用発話動画像と称する）が入力される。

すなわち、登録処理時において、顔領域検出部４１は、登録用発話動画像を各フレームに分割し、各フレームについて、顔領域を検出し、登録用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部４２に出力する。

唇領域検出部４２は、登録用動画像の各フレームの顔領域から唇領域を検出し、登録用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部４３に出力する。

唇画像生成部４３は、登録用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器３１および発話期間検出部４４に出力する。

また、認識処理時において、顔領域検出部４１は、認識用発話動画像（話者の発話内容が不明である動画像）を各フレームに分割し、各フレームについて、顔領域を検出し、認識用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部４２に出力する。

唇領域検出部４２は、認識用発話動画像の各フレームの顔領域から唇領域を検出し、認識用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部４３に出力する。

唇画像生成部４３は、認識用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器３１および発話期間検出部４４に出力する。

発話期間検出部４４は、唇画像生成部４３から入力される、登録用発話動画像または認識用発話動画像の各フレームの唇画像に基づき、話者が発話している期間（以下、発話期間と称する）を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器３１および時系列特徴量生成部４５に通知する。

時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間において、口形素判別器３１から入力されるＫ次元スコアベクトルを時系列に配置することにより、時系列特徴量を生成する。

図５は、話者が「おもしろい」と話したときの発話期間に対応する時系列特徴量を示している。すなわち、この発話期間を１秒間と仮定し、フレームレートを６０フレーム／秒とすれば、６０Ｋのスコアからなる時系列特徴量が生成される。生成された時系列特徴量は、登録処理時には時系列特徴量学習部４６に出力され、認識処理時には発話認識部４７に出力される。

時系列特徴量学習部４６は、登録処理時において、入力される登録用発話単語（登録用発話動画像における話者の発話内容）に対応付けて、時系列特徴量生成部４５から入力される時系列特徴量をHMM(Hidden Markov Model)を用いてモデル化する。なお、モデル化の手法はHMMに限られず、時系列特徴量をモデル化できるものであればよい。モデル化された時系列特徴量は発話認識器４７に内蔵された学習データベース４８に保持される。

発話認識器４７は、認識処理時において、時系列特徴量生成部４５から入力される時系列特徴量に対して、学習データベース４８に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器４７は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。

［動作説明］
図６は、発話認識装置１０の動作を説明するフローチャートである。

ステップＳ１において、発話認識装置１０の学習系１１は、学習処理を実行することによって口形素判別器３１を生成する。

ステップＳ２において、発話認識装置１０の登録系１２は、登録処理を実行することによって、登録用発話動画像に対応する時系列特徴量を生成し、HMMを用いてモデル化し、これに登録用発話単語を対応付けて学習データベース４８に登録する。

ステップＳ３において、発話認識装置１０の認識系１３は、認識処理を実行することによって、認識用発話動画像における話者の発話内容を認識する。

以下、上述したステップＳ１乃至Ｓ３の処理の詳細について説明する。

［学習処理の詳細］
図７は、ステップＳ１の学習処理を詳細に説明するフローチャートである。

ステップＳ１１において、学習用音声付発話動画像が画音分離部２１に入力される。画音分離部２１は、学習用音声付発話動画像を学習用発話動画像と学習用発話音声とに分離し、学習用発話動画像を顔領域検出部２２に、学習用発話音声を音素ラベル付与部２５に出力する。

ステップＳ１２において、学習用発話動画像の処理が行われる。また、ステップＳ１３において、学習用発話音声の処理が行われる。なお、ステップＳ１２とステップＳ１３とは、実際には並行して同時に実行される。そして、学習用発話動画像の処理の出力（唇画像）と、それに対応する学習用発話音声の処理の出力（口形素ラベル付き学習用発話音声）が口形素ラベル付加部２８に同時に供給されることになる。

図７は、ステップＳ１２における学習用発話動画像の処理を詳細に説明するフローチャートである。

ステップＳ２１において、顔領域検出部２２は、学習用発話動画像を各フレームに分割し、１フレームずつ処理対象とする。ステップＳ２２において、顔領域検出部２２は、処理対象のフレームから顔領域を検出し、ステップＳ２３において、顔領域を検出できたか否か判定する。顔領域を検出できたと判定された場合、処理はステップＳ２４に進められる。反対に、顔領域を検出できなかったと判定された場合、処理はステップＳ２６に進められる。

ステップＳ２４において、顔領域検出部２２は、処理対象としている１フレーム分の学習用発話動画像とともに顔領域の位置情報を唇領域検出部２３に出力する。唇領域検出部２３は、処理対象のフレームの顔領域から唇領域を検出し、ステップＳ２５において、唇領域を検出できたか否か判定する。唇領域を検出できたと判定された場合、処理はステップＳ２７に進められる。反対に、唇領域を検出できなかったと判定された場合、処理はステップＳ２６に進められる。

なお、ステップＳ２３またはステップＳ２５から、処理がステップＳ２６に進められた場合、処理対象としているフレームの１フレーム前の顔領域または唇領域の少なくとも一方の位置情報が流用される。

ステップＳ２７において、唇領域検出部２３は、処理対象としている１フレーム分の学習用発話動画像とともに唇領域の位置情報を唇画像生成部２４に出力する。唇画像生成部２４は、処理対象としている学習用発話動画像の１フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部２４は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズすることにより唇画像を生成して口形素ラベル付加部２８に出力する。

この後、ステップＳ２１に戻り、学習用発話動画像信号の入力が終わるまで、ステップＳ２１乃至Ｓ２７の処理が繰り返される。

次に、図９は、ステップＳ１３における学習用発話音声の処理を詳細に説明するフローチャートである。

ステップＳ３１において、音素ラベル付与部２５は、音素辞書２６を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部２７に出力する。

ステップＳ３２において、口形素ラベル変換部２７は、予め保持する変換テーブルを用い、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部２８に出力する。

この後、ステップＳ３１に戻り、学習用発話音声の入力が終わるまで、ステップＳ３１およびＳ３２の処理が繰り返される。

図７に戻る。ステップＳ１４において、口形素ラベル付加部２８は、唇画像生成部２４から入力された学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部２７から入力された学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部２９に出力する。学習サンプル保持部２９は、口形素ラベル付唇画像を学習サンプルとして保持する。学習サンプル保持部２９に所定の数Ｍの学習サンプルが保持された後、ステップＳ１５以降の処理が行われる。

ステップＳ１５において、口形素判別器学習部３０は、学習サンプル保持部２９に保持されている複数の学習サンプルとしての唇画像の画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器３１を生成する。

図１０は、ステップＳ１５の処理(AdaBoostECOC学習処理)を詳細に説明するフローチャートである。

ステップＳ４１において、口形素判別器学習部３０は、図４に示されたように、Ｍ個の学習サンプル（ｘ_i，ｙ_k）を学習サンプル保持部２９から取得する。

ステップＳ４２において、口形素判別器学習部３０は、次式（２）に従い、Ｍ行Ｋ列で表されるサンプル重みＰ_t（ｉ，ｋ）を初期化する。具体的には、サンプル重みＰ_t（ｉ，ｋ）の初期値Ｐ₁（ｉ，ｋ）を、実在する学習サンプル（ｘ_i，ｙ_k）に対応するものは０に、それ以外はそれらの総和が１となるような一様な値に設定する。
Ｐ₁（ｉ，ｋ）＝１／Ｍ（Ｋ−１） for ｙ_k≠ｋ
・・・（２）

以下に説明するステップＳ４３乃至ステップＳ４８の処理は任意の数Ｔだけ繰り返される。なお、任意の繰り返し回数Ｔは、最大で唇画像上で得られるピクセル差分特徴の数とすることができ、この繰り返し回数Ｔと同じ数だけ弱判別器が生成される。

ステップＳ４３において、口形素判別器学習部３０は、１行Ｋ列のECOCテーブルを生成する。なお、ECOCテーブルのｋ列の値μ_t（ｋ）は−１または＋１であり、−１と＋１の数が同数となるようにランダムに割り振られる。
μ_t（ｋ）＝｛−１，＋１｝
・・・（３）

ステップＳ４４において、口形素判別器学習部３０は、次式（４）に従い、Ｍ行１列で表される２値判別用重みＤ_t（ｉ）を計算する。なお、式（４）において、[]内は論理式であり、真であれば１、偽であれば０とする。

・・・（４）

ステップＳ４５において、口形素判別器学習部３０は、ステップＳ４４で得られた２値判別用重みＤ_t（ｉ）の下、次式（５）に示す重み付き誤り率ε_tを最小とする２値判別弱判別器ｈ_tを学習する。

・・・（５）

図１１は、ステップＳ４５の処理を詳細に説明するフローチャートである。

ステップＳ６１において、口形素判別器学習部３０は、唇画像の全画素からランダムに２画素を選択する。例えば、唇画像を３２×３２画素とした場合、２画素の選択は、１０２４×１０２３通りのうちの１つを選ぶことになる。ここで、選択した２画素の画素位置をＳ₁，Ｓ₂とし、その画素値（輝度値）をＩ₁，Ｉ₂とする。

ステップＳ６２において、口形素判別器学習部３０は、全ての学習サンプルについて、ステップＳ６１で選択した２画素の画素値Ｉ₁，Ｉ₂を用いたピクセル差分特徴（Ｉ₁−Ｉ₂）を算出し、その頻度分布を求める。

ステップＳ６３において、口形素判別器学習部３０は、ピクセル差分特徴の頻度分布に基づき、式（５）に示された重み付き誤り率ε_tを最小ε_minにする閾値Ｔｈ_minを求める。

ステップＳ６４において、口形素判別器学習部３０は、ピクセル差分特徴の頻度分布に基づき、式（５）に示された重み付き誤り率ε_tを最大ε_maxにする閾値Ｔｈ_maxを求める。さらに、口形素判別器学習部３０は、次式（６）に従い、閾値Ｔｈ_maxなどを反転する。
ε’_max＝１−ε_max
Ｓ’₁＝Ｓ₂
Ｓ’₂＝Ｓ₁
Ｔｈ’_max＝−Ｔｈ_max
・・・（６）

ステップＳ６５において、口形素判別器学習部３０は、上述した重み付き誤り率ε_tの最小ε_minと最大ε_maxの大小関係に基づいて、２値判別弱判別器のパラメータである２画素の位置Ｓ₁，Ｓ₂と閾値Ｔｈを決定する。

すなわち、ε_min＜ε’_maxの場合、２画素の位置Ｓ₁，Ｓ₂と閾値Ｔｈ_minをパラメータとして採用する。また、ε_min≧ε’_maxの場合、２画素の位置Ｓ’₁，Ｓ’₂と閾値Ｔｈ’_maxをパラメータとして採用する。

ステップＳ６６において、口形素判別器学習部３０は、上述したステップＳ６１乃至Ｓ６５の処理を所定の回数繰り返したか否かを判定し、所定の回数繰り返したと判定するまでステップＳ６１に戻り、それ以降を繰り返す。そして、ステップＳ６１乃至Ｓ６５の処理を所定の回数繰り返したと判定した場合、処理をステップＳ６７に進める。

ステップＳ６７において、口形素判別器学習部３０は、上述したように所定の回数繰り返されるステップＳ６５の処理において決定された２値判別弱判別器（のパラメータ）のうち、重み付き誤り率ε_tが最小となるものを１つの２値判別弱判別器ｈ_t（のパラメータ）として最終的に採用する。

以上説明したように、１つの２値判別弱判別器ｈ_tが決定された後、処理は図１０のステップＳ４６にリターンする。

ステップＳ４６において、口形素判別器学習部３０は、ステップＳ４５の処理で決定した２値判別弱判別器ｈ_tに対応する重み付き誤り率ε_tに基づき、次式（７）に従い信頼度α_tを計算する。

・・・（７）

ステップＳ４７において、口形素判別器学習部３０は、次式（８）に示すように、ステップＳ４５の処理で決定した２値判別弱判別器ｈ_tと、ステップＳ４６の処理で計算した信頼度α_tを乗算することにより、信頼度付き２値判別弱判別器ｆ_t（ｘ_i）を求める。
ｆ_t（ｘ_i）＝α_tｈ_t
・・・（８）

ステップＳ４８において、口形素判別器学習部３０は、次式（９）に従い、Ｍ行Ｋ列で表されるサンプル重みＰ_t（ｉ，ｋ）を更新する。

・・・（９）

ただし、式（９）のＺ_iは次式（１０）に示すとおりである。

・・・（１０）

ステップＳ４９において、口形素判別器学習部３０は、上述したステップＳ４３乃至Ｓ４８の処理を所定の回数Ｔだけ繰り返したか否かを判定し、所定の回数Ｔだけ繰り返したと判定するまでステップＳ４３に戻り、それ以降を繰り返す。そして、ステップＳ４３乃至Ｓ４８の処理を所定の回数Ｔだけ繰り返したと判定した場合、処理をステップＳ５０に進める。

ステップＳ５０において、口形素判別器学習部３０は、所定の数Ｔと同じ数だけ得られた信頼度付き２値判別弱判別器ｆ_t（ｘ）、およびそれぞれに対応するECOCテーブルに基づき、次式（１１）に従って最終判別器Ｈ_k（ｘ）、すなわち口形素判別器３１を得る。

・・・（１１）

なお、得られた口形素判別器３１はパラメータとして、クラスの数（口形素の数）Ｋ、および弱判別器の数Ｔを有する。また、各弱判別器はパラメータとして、唇画像上の２画素の位置Ｓ₁，Ｓ₂、ピクセル差分特徴の判別用の閾値Ｔｈ、信頼度α、およびECOCテーブルμを有する。

以上説明したように最終判別器Ｈ_k（ｘ）、すなわち口形素判別器３１を得て、当該AdaBoostECOC学習処理は終了される。

以上のように生成された口形素判別器３１によれば、入力される唇画像の画像特徴量をＫ次元スコアベクトルで表現できる。すなわち、登録用発話動画像の各フレームから生成される唇画像がＫ（いまの場合、１９）種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。また、認識用発話動画像の各フレームから生成される唇画像に対しても同様に、Ｋ種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。

［登録処理の詳細］
図１２は、ステップＳ２の登録処理を詳細に説明するフローチャートである。

ステップＳ７１において、登録系１２は、図７を参照して上述した学習系１１による学習用発話動画像の処理と同様の処理を実行することにより、登録用発話動画像の各フレームに対応する唇画像を生成する。生成された唇画像は、口形素判定器３１および発話期間検出部４４に入力される。

ステップＳ７２において、発話期間検出部４４は、登録用発話動画像の各フレームの唇画像に基づき発話期間を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器３１および時系列特徴量生成部４５に通知する。口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算する。

図１３は、口形素判定器３１によるＫ次元スコアベクトル演算処理を詳細に説明するフローチャートである。

ステップＳ８１において、口形素判定器３１は、クラスを示すパラメータｋ（ｋ＝１，２，・・・，Ｋ）を１に初期化する。ステップＳ８２において、口形素判定器３１は、各クラスのスコアＨ_kを０に初期化する。

ステップＳ８３において、口形素判定器３１は、弱判別器を特定するためのパラメータｔ（ｔ＝１，２，・・・，Ｔ）を１に初期化する。

ステップＳ８４において、口形素判定器３１は、２値判別弱判別器ｈ_tのパラメータ、すなわち、唇画像ｘ上の２画素の位置Ｓ₁，Ｓ₂、ピクセル差分特徴の判別用の閾値Ｔｈ、信頼度α、およびECOCテーブルμを設定する。

ステップＳ８５において、口形素判定器３１は、唇画像ｘ上の２画素の位置Ｓ₁，Ｓ₂から画素値Ｉ₁，Ｉ₂を読み出し、ピクセル差分特徴（Ｉ₁−Ｉ₂）を算出して閾値Ｔｈと比較することにより、２値判別弱判別器ｈ_tの判別値（−１または＋１）を得る。

ステップＳ８６において、口形素判定器３１は、ステップＳ８５で得た２値判別弱判別器ｈ_tの判別値に信頼度α_tを乗算し、さらに１行Ｋ列のECOCテーブルの値μ_t（ｋ）を乗算することにより、パラメータｔに対応する１行Ｋ列のクラススコアＨ_kを得る。

ステップＳ８７において、口形素判定器３１は、ステップＳ８６で得た、パラメータｔに対応する１行Ｋ列のクラススコアＨ_kを、前回（すなわち、ｔ−１）までのクラススコアＨ_kの累計値に加算することにより、１行Ｋ列のクラススコアＨ_kを更新する。

ステップＳ８８において、口形素判定器３１は、パラメータｔ＝Ｔであるか否かを判定し、否と判定した場合、処理をステップＳ８９に進めてパラメータｔを１だけインクリメントする。そして、処理はステップＳ８４に戻され、それ以降の処理が繰り返される。その後、ステップＳ８８において、パラメータｔ＝Ｔであると判定された場合、処理はステップＳ９０に進められる。

ステップＳ９０において、口形素判定器３１は、パラメータｋ＝Ｋであるか否かを判定し、パラメータｋ＝Ｋではないと判定した場合、処理をステップＳ９１に進めてパラメータｋを１だけインクリメントする。そして、処理はステップＳ８３に戻され、それ以降の処理が繰り返される。その後、ステップＳ９０において、パラメータｋ＝Ｋであると判定された場合、処理はステップＳ９２に進められる。

ステップＳ９２において、口形素判定器３１は、その時点で得られている１行Ｋ列のクラススコアＨ_kを口形素判定器３１の出力、すなわち、Ｋ次元スコアベクトルとして後段（いまの場合、時系列特徴量生成部４５）に出力する。以上で、Ｋ次元スコアベクトル演算処理は終了される。

図１２に戻る。ステップＳ７３において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、登録用発話動画像の発話期間に対応した時系列特徴量を生成する。

ステップＳ７４において、時系列特徴量学習部４６は、登録用発話動画像とともに外部から供給された登録用発話単語（登録用発話動画像における話者の発話内容）に対応付けて、時系列特徴量生成部４５から入力された時系列特徴量をHMMによりモデル化する。モデル化された時系列特徴量は、発話認識器４７に内蔵された学習データベース４８に保持される。以上で、登録処理は終了される。

[認識処理の詳細]
図１４は、認識処理を詳細に説明するフローチャートである。

認識系１３は、入力された認識用発話動画像に対し、ステップＳ１０１乃至Ｓ１０３の処理として、図１２を参照して上述した登録系１２による登録処理のステップＳ７１乃至Ｓ７３と同様の処理を行う。この結果、認識用発話動画像の発話期間に対応した時系列特徴量が生成される。生成された認識用発話動画像の発話期間に対応した時系列特徴量は、発話認識器４７に入力される。

ステップＳ１０４において、発話認識器４７は、時系列特徴量生成部４５から入力された時系列特徴量に対して、学習データベース４８に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器４７は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。以上で、認識処理は終了される。

[認識実験の結果]
次に、発話認識装置１０による認識実験の結果について説明する。

この認識実験では、学習処理において、２１６単語を発声する７３人の被験者（話者）をそれぞれ個別にビデオ撮影した学習用音声付発話動画像を用いた。また、登録処理においては、学習処理時の２１６単語のうちの、図１５に示す２０単語を登録発話単語に選択し、それに対応する学習用発話動画像を登録用発話動画像に流用した。また、HMMを用いたモデル化では、遷移確率をleft-to-rightに制約し、４０状態の遷移モデルとした。

そして、認識処理では、学習処理および登録処理と同じ被験者の認識用発話動画像を用いたクローズ評価と、学習処理および登録処理とは異なる被験者の認識用発話動画像を用いたオープン評価を行い、図１６に示す認識率を得ることができた。

図１６は、ある登録用発話単語Ｗを発話している認識用発話動画像に対応する時系列特徴量が、２０種類の各登録用発話単語にそれぞれ対応する各HMMにどの程度類似しているかを順位付けした際に、正解（登録用発話単語Ｗに対応するHMM）がＭ番目（横軸）までに入っている確率（縦軸）を示している。

同図によれば、クローズ評価の場合には９６％の識別率を得ることができた。また、オープン評価の場合には８０％の識別率を得ることができた。

なお、上述した認識実験では、学習処理と登録処理の被験者（話者）を共通とし、登録用発話動画像に学習用発話動画像を流用したが、学習処理と登録処理の被験者（話者）を別人としてもよく、さらに、認識処理の被験者（話者）をさらに別人としてもよい。

以上説明した、第１の実施の形態である発話認識装置１０によれば、入力された画像（いまの場合、唇画像）の特徴量を演算するための判別器を学習により生成するので、認識したい対象に対して、その都度、判別器を新たに設計する不要ない。したがって、ラベルの種類を変更することにより、例えば動画像からジェスチャや手書き文字を識別したりする認識装置にも容易に適用できる。

また、学習処理によって、個人差の大きい部位の画像に対して汎用性のある特徴量を抽出することができる。

さらに、画像特徴量に比較的演算量が少ないピクセル差分を用いたので、リアルタイムな認識処理が可能になる。

＜２．第２の実施の形態＞
［デジタルスチルカメラの構成例］
次に、図１７は、第２の実施の形態であるデジタルスチルカメラ６０の構成例を示している。このデジタルスチルカメラ６０は、読唇技術を応用したオートシャッタ機能を有している。具体的には、被写体となる人物が「ハイ、チーズ」などと所定のキーワード（以下、シャッタキーワードと称する）を発話したことを検出した場合、これに応じてシャッタをきる（静止画像を撮像する）ようにしたものである。

このデジタルスチルカメラ６０は、撮像部６１、画像処理部６２、記録部６３、Ｕ／Ｉ部６４、撮像制御部６５、およびオートシャッタ制御部６６から構成される。

撮像部６１は、レンズ群、CMOS(Complementary Metal-Oxide Semiconductor)等の撮像素子（いずれも図示せず）から構成され、被写体の光学像を取得して電気信号に変換し、その結果得られる画像信号を後段に出力する。

すなわち、撮像部６１は、撮像制御部６５からの制御に従い、撮像前の段階において画像信号を撮像制御部６５およびオートシャッタ制御部６６に出力する。また、撮像部６１は、撮像制御部６５からの制御に従って撮像を行い、その結果得られる画像信号を画像処理部６２に出力する。

以下、撮像前の構図決定用に撮像制御部６５に出力されてＵ／Ｉ部６４に含まれるディスプレイ（不図示）に表示される動画像をファインダ画像と称する。ファインダ画像は、オートシャッタ制御部６６にも出力される。また、撮像の結果として撮像部６１から画像処理部６２に出力される画像信号を記録画像と称する。

画像処理部６２は、撮像部６１から入力される記録画像に所定の画像処理（例えば、手ぶれ補正、ホワイトバランス補正、画素補間など）を行った後、所定の符号化方式に従って符号化し、その結果得られた画像符号化データを記録部６３に出力する。また、画像処理部６２は、記録部６３から入力される画像符号化データを復号し、その結果得られる画像信号（以下、再生画像と称する）を撮像制御部６５に出力する。

記録部６３は、画像処理部６２から入力される画像符号化データを、図示せぬ記録メディアに記録する。また、記録部６３は、記録メディアに記録されている画像符号化データを読み出して画像処理部６２に出力する。

撮像制御部６５は、デジタルスチルカメラ６０の全体を制御する。特に、撮像処理部６５は、Ｕ／Ｉ部６４からのシャッタ操作信号、あるいはオートシャッタ制御部６６からのオートシャッタ信号に従い、撮像部６１を制御して撮像を実行させる。

Ｕ／Ｉ(user interface)部６４は、ユーザによるシャッタ操作を受け付けるシャッタボタンに代表される各種の入力デバイスと、ファインダ画像や再生画像などを表示するディスプレイからなる。特に、Ｕ／Ｉ部６４は、ユーザからのシャッタ操作に応じてシャッタ操作信号を撮像制御部６５に出力する。

オートシャッタ制御部６６は、撮像部６１から入力されるファインダ画像に基づき、被写体となる人物によるシャッタキーワードの発話を検出した場合、これに応じてオートシャッタ信号を撮像制御部６５に出力する。

次に、図１８は、オートシャッタ制御部６６の詳細な構成例を示している。

同図と図１を比較して明らかなように、オートシャッタ制御部６６は、図１の発話認識装置１０の登録系１２および認識系１３と同様の構成に加えて、オートシャッタ信号出力部７１が追加されて構成される。オートシャッタ制御部６６の、図１の発話認識装置１０と共通する構成要素には同一の番号を付しているので、その説明は省略する。

ただし、オートシャッタ制御部６６における口形素判別器３１は既に学習済みのものである。

オートシャッタ信号出力部７１は、発話認識器４７からの発話認識結果が予め登録されているシャッタキーワードであることを示す場合、オートシャッタ信号を発生して撮像制御部６５に出力する。

[動作説明]
次に、デジタルスチルカメラ６０の動作について説明する。デジタルスチルカメラ６０の動作には、通常撮影モード、通常再生モード、オートシャッタ登録モード、オートシャッタ実行モードなどが設けられている。

通常撮影モードでは、ユーザによるシャッタ操作に応じて撮影が行われる。通常再生モードでは、ユーザによる再生操作に応じて撮影済みの画像が再生されて表示される。

シャッタキーワード登録モードでは、シャッタキーワードとする任意の言葉を発話する被写体（ユーザなど）の唇の動きを示す時系列特徴量のHMMが登録される。なお、デジタルスチルカメラ６０を商品として出荷する段階において、予めシャッタキーワードとそれに対応する唇の動きを示す時系列特徴量のHMMを登録しておくようにしてもよい。

オートシャッタ実行モードでは、ファインダ画像に基づき、被写体となる人物の唇の動きを示す時系列特徴量が検出され、検出された時系列特徴量に基づいてシャッタキーワードを発話していると認識された場合に撮影が行われる。

［シャッタキーワード登録処理の詳細］
次に、図１９は、シャッタキーワード登録処理を説明するフローチャートである。

このシャッタキーワード登録処理は、ユーザからの所定の操作に応じてシャッタキーワード登録モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。

なお、このシャッタキーワード登録処理の開始を指示した後にユーザは、ファインダ画像に、シャッタキーワードとして登録したい言葉を発話している話者の顔が写るようにする。この話者には、オートシャッタ実行処理時に被写体となる人物を用いることが望ましいが、それ以外の例えばユーザ自身が話者となってもよい。そして、シャッタキーワードの発話が終了した後に、オートシャッタ学習処理の終了を指示するようにする。

ステップＳ１２１において、撮像制御部６５は、オートシャッタ登録処理の終了が指示されたか否かを判定し、指示されていない場合、処理をステップＳ１２２に進める。

ステップＳ１２２において、登録系１２の顔領域検出部４１は、ファインダ画像を各フレームに分割し、１フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。ステップＳ１２３において、顔領域検出部４１は、処理対象のフレームから顔領域を１つだけ検出したか否かを判定し、複数の顔領域を検出した場合、または顔領域を１つも検出できなかった場合、処理をステップＳ１２４に進める。

ステップＳ１２４において、Ｕ／Ｉ部６４は、シャッタキーワードとして登録したい言葉を発話する一人の話者だけがファインダ画像に写るようユーザに注意を促す。この後、処理はステップＳ１２１に戻り、それ以降が繰り返される。

ステップＳ１２３において、処理対象のフレームから顔領域を１つだけ検出した場合、処理はステップＳ１２５に進められる。

ステップＳ１２５において、顔領域検出部４１は、処理対象としている１フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部４２に出力する。唇領域検出部４２は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている１フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部４３に出力する。

唇画像生成部４３は、処理対象としているファインダ画像の１フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部４３は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器３１および発話期間検出部４４に入力される。

ステップＳ１２６において、発話期間検出部４４は、処理対象としているフレームの唇画像に基づき、当該フレームが発話期間であるか否かを判定し、判定結果を口形素判別器３１および時系列特徴量生成部４５に通知する。そして、発話期間であると判定された場合、処理はステップＳ１２７に進められる。反対に、発話期間ではないと判定された場合、ステップＳ１２７はスキップされる。

ステップＳ１２７において、口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。この後、処理はステップＳ１２１に戻り、オートシャッタ登録処理の終了が指示されるまで、ステップＳＳ１２１乃至１２７の処理が繰り返される。

そして、ステップＳ１２１において、オートシャッタ登録処理の終了が指示されたと判定された場合、処理はステップＳ１２８に進められる。

ステップＳ１２８において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、登録したいシャッタキーワードに対応した時系列特徴量を生成する。

ステップＳ１２９において、時系列特徴量学習部４６は、Ｕ／Ｉ部６４から入力されるシャッタキーワードのテキストデータに対応付けて、時系列特徴量生成部４５から入力された時系列特徴量を、HMMによりモデル化する。モデル化された時系列特徴量は、発話認識器４７に内蔵された学習データベース４８に保持される。以上で、シャッタキーワード登録処理は終了される。

［オートシャッタ実行処理の詳細］
次に、図２０は、オートシャッタ実行処理を説明するフローチャートである。

このオートシャッタ実行処理は、ユーザからの所定の操作に応じてオートシャッタ実行モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。

ステップＳ１４１において、認識系１２の顔領域検出部４１は、ファインダ画像を各フレームに分割し、１フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。

ステップＳ１４２において、顔領域検出部４１は、処理対象のフレームから顔領域を検出できたか否かを判定し、顔領域が検出できるまで、処理をステップＳ１４１に戻す。そして、処理対象のフレームから顔領域を検出できた場合、処理はステップＳ１４３に進められる。

なお、ここでは、シャッタキーワード登録処理時とは異なり、１フレームから複数の顔領域が検出されてもかまわない。１フレームから複数の顔領域が検出された場合、検出された各顔領域に対して並行し、これ以降の処理が実行される。

ステップＳ１４３において、顔領域検出部４１は、処理対象としている１フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部４２に出力する。唇領域検出部４２は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている１フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部４３に出力する。

ステップＳ１４４において、発話期間検出部４４は、処理対象としているフレームの唇画像に基づいて発話期間を判定する。すなわち、処理対象としているフレームが発話期間の始点、または発話期間中であると判定された場合、処理はステップＳ１４５に進められる。

ステップＳ１４５において、口形素判定器３１は、順次入力される唇画像のうち、発話期間に対応するものについて対応するＫ次元スコアベクトルを演算して時系列特徴量生成部４５に出力する。この後、処理はステップＳ１４１に戻り、それ以降が繰り返される。

ステップＳ１４４において、処理対象としているフレームが発話期間の終点であると判定された場合、処理はステップＳ１４６に進められる。

ステップＳ１４６において、時系列特徴量生成部４５は、発話期間検出部４４から通知される発話期間に、口形素判別器３１から順次入力されたＫ次元スコアベクトルを時系列に配置することにより、被写体の唇の動きに対応した時系列特徴量を生成する。

ステップＳ１４７において、時系列特徴量生成部４５は、生成した時系列特徴量を発話認識器４７に入力する。ステップＳ１４８において、発話認識器４７は、時系列特徴量生成部４５から入力された時系列特徴量と、学習データベース４８に保持されているシャッタキーワードに対応するHMMを比較して、被写体の唇の動きがシャッタキーワードに対応するものであるか否かを判定する。被写体の唇の動きがシャッタキーワードに対応するものであると判定された場合、処理はステップＳ１４９に進められる。なお、否と判定された場合、処理はステップＳ１４１に戻り、それ以降が繰り返される。

ステップＳ１４９において、発話認識器４７は、被写体の唇の動きがシャッタキーワードに対応するものである旨をオートシャッタ信号出力部７１に通知する。この通知の応じ、オートシャッタ信号出力部７１は、オートシャッタ信号を発生して撮像制御部６５に出力する。このオートシャッタ信号に従い、撮像制御部６５は、撮像部６１などを制御して撮像を行わせる。なお、この撮像タイミングは、シャッタキーワードの発話の所定時間（例えば１秒間）後などとユーザが任意に設定できる。この後、処理はステップＳ１４１に戻り、それ以降が繰り返される。

なお、上述した説明では、ファインダ画像から複数の顔領域（被写体）が検出された場合、複数の被写体のうちの誰がシャッタキーワードを発話してもよいことになる。

ただし、このような仕様を変更し、例えば、被写体の過半数がシャッタキーワードを発話したことに応じて撮像を行うようにしてもよい。このような仕様にすれば、集合写真を撮像する際の遊戯性をユーザらに与えることができる。また複数の顔認識を行うので、認識結果が頑健になり、シャッタキーワードの誤検出などを抑止できる効果も期待できる。

さらに、個人の顔を識別する個人識別技術を組み合わせることにより、複数の被写体のうちの特定の人物にだけ注目してシャッタキーワードを検出するようにしてもよい。この特定の人物は複数であってもよい。この特定の人物を被験者（被写体）として、上述したシャッタキーワード登録処理を行えば、より頑健で正確な発話認識が可能となる。

以上説明したように、第２の実施の形態であるデジタルスチルカメラ６０によれば、離れた位置にいる被写体が、リモートコントローラなどを用いることなく、ノイズ環境化においても、シャッタキーワードを発話するだけで撮像タイミングを指示することができる。なお、このシャッタキーワードは、任意に設定することができる。

なお、本発明は、デジタルスチルカメラに限らず、デジタルビデオカメラにも適用することができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ２００において、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０発話認識装置，２１画音分離部, ２２顔領域検出部, ２３唇領域検出部, ２４唇画像生成部，２５音素ラベル付与部，２６音素辞書，２７口形素ラベル変換部，２８口形素ラベル付加部，２９学習サンプル保持部，３０口形素判別器学習部，３１口形素判別器，４１顔領域検出部, ４２唇領域検出部, ４３唇画像生成部，４４発話期間検出部，４５時系列特徴量生成部，４６時系列特徴量学習部，４７発話認識器，４８学習データベース，６０デジタルスチルカメラ, ６１撮像部，６２画像処理部，６３記録メディア，６４Ｕ／Ｉ部，６５撮像制御部，６６オートシャッタ制御部，７１オートシャッタ信号出力部，２００コンピュータ，２０１ CPU

Claims

時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
を含む情報処理装置。
前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC(Error Correct Output Coding)学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する
請求項１に記載の情報処理装置。
前記画像特徴量は、ピクセル差分特徴である
請求項２に記載の情報処理装置。
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、
前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、
前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識する
請求項２に記載の情報処理装置。
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加する
請求項４に記載の情報処理装置。
前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMM(Hidden Markov Model)によりモデル化する
請求項２に記載の情報処理装置。
入力された動画像を識別する情報処理装置の情報処理方法において、
前記情報処理装置による、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップと
を含む情報処理方法。
コンピュータに、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
して機能させるプログラム。