JP2011013731A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2011013731A JP2011013731A JP2009154923A JP2009154923A JP2011013731A JP 2011013731 A JP2011013731 A JP 2011013731A JP 2009154923 A JP2009154923 A JP 2009154923A JP 2009154923 A JP2009154923 A JP 2009154923A JP 2011013731 A JP2011013731 A JP 2011013731A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- registration
- recognition
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
【課題】動画像を用いた読唇技術において、不特定話者の発話内容を高い精度で認識する。
【解決手段】発話認識装置10は、学習処理を実行する学習系11、登録処理を行う登録系12、および認識処理を行う認識系13から構成される。学習系11では、口形素ラベルが付加された唇画像を学習サンプルとし、入力された唇画像に対応する口形素を判別する口形素判別器31が生成される。登録系12では、登録用発話単語を話す話者の唇の動きに対応する時系列特徴量が生成されてモデル化されて登録される。認識系13では、話者の動画像から時系列特徴量が生成されて、登録されているモデルと比較され、発話内容が認識される。本発明は、話者をビデオ撮影した動画像から、その発話内容を認識する場合に適用することができる。
【選択図】図1
【解決手段】発話認識装置10は、学習処理を実行する学習系11、登録処理を行う登録系12、および認識処理を行う認識系13から構成される。学習系11では、口形素ラベルが付加された唇画像を学習サンプルとし、入力された唇画像に対応する口形素を判別する口形素判別器31が生成される。登録系12では、登録用発話単語を話す話者の唇の動きに対応する時系列特徴量が生成されてモデル化されて登録される。認識系13では、話者の動画像から時系列特徴量が生成されて、登録されているモデルと比較され、発話内容が認識される。本発明は、話者をビデオ撮影した動画像から、その発話内容を認識する場合に適用することができる。
【選択図】図1
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、話者を撮影した動画像に基づいてその発話内容を認識する、いわゆる読唇術を実現できるようにした情報処理装置、情報処理方法、およびプログラムに関する。
画像認識処理を用いて動画像における唇領域の動きを検出し、その検出結果に基づいて被写体となった話者の発話内容を認識する技術(以下、読唇技術と称する)の研究は既に1980年代後半から存在する。
このような画像認識処理に基づく読唇技術は、音声に基づいてその発話内容を認識する音声認識技術に比較し、周囲の雑音に影響されない、複数の被写体が同時に発話したとしても対応できるなど利点がある。
しかしながら、現状の読唇技術は、音声認識技術に比較して、不特定の話者に対して高い認識性能を得ることができていない。このため、現在の読唇技術は、ノイズ環境下における音声認識技術の補助としたAVSR(Audio Visual Speech Recognition)という形でも研究されている。すなわち、AVSRでは、音声の変化と、唇の形の変化と基づいて発話内容を推測している。
唇領域の画像からその形の特徴量を抽出する方法は、従来様々な方法が存在する。
例えば、非特許文献1には、唇の位置を同定し、その唇の縦横比などの幾何学情報を用いるものや、画像にブロック状の離散フーリエ変換処理を行い、その時系列信号をモデル化するもの、画像にブロック離散コサイン変換処理を行い、その結果えられた特徴量を複数の口形のいずれかに分類するものなどが記載されている。
非特許文献2には、唇領域の画像を切り出し、オプティカルフローを用いるものが記載されている。非特許文献3には、画像に対して主成分分析処理を行い低次元化したものを特徴量として用いるものが記載されている。
さらに、話者の口に蓄光テープを付けるなどのマーキングを行って唇の形状を検出し、唇の形状をフーリエ記述子により表現し音韻を特定する方法(例えば、特許文献1参照)、唇領域の筋電位を計測し母音を特定する方法(例えば、特許文献2参照)なども存在する。
またさらに、非特許文献1や特許文献2,3などには、唇の形状をいくつかの種類に分類して認識する方法も存在する(例えば、非特許文献1、並びに特許文献2および3参照)。
G. Potamianos,et. Al,「Recent Advances in the Automatic Recognition of Audiovisual Speech」,Proceedings of the IEEE, Vol. 91, No. 9, September, 2003.
間瀬,ペントランド著「オプティカルフローを用いた読唇」,テレビジョン学会技術報告,Vol.13, No.44, pp.7-12, 1989
石川他 著「初期統合によるバイモーダル大語彙連続音声認識」,2002年情報科学技術フォーラム全国大会,pp.203-204
上述したように、従来、様々な方法によって唇の形の特徴量が求められてきたが、唇領域は個人差が極めて大きいことに加え、特徴量の空間でも唇形による分離が難しく、依然として、不特定話者の発話認識が困難であるという現状がある。
また、上述したマーキングを用いる方法や筋電位を測定する方法は、実用的な読唇技術を考慮した場合、適切とは言い得ない。
さらに、唇の形状をいくつかの種類に分類して認識する方法は、母音を発話している各状態と、唇を閉じた状態とを分類しているに過ぎず、例えば「はなし(hanashi)」と「たわし(tawashi)」のように、母音が共通であって子音が異なる単語を区別して識別することができない。
本発明はこのような状況に鑑みてなされたものであり、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識できるようにするものである。
本発明の一側面である情報処理装置は、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段とを含む。
前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成するようにすることができる。
前記画像特徴量は、ピクセル差分特徴とすることができる。
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識するようにすることができる。
前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加するようにすることができる。
前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMMによりモデル化するようにすることができる。
本発明の一側面である情報処理方法は、入力された動画像を識別する情報処理装置の情報処理方法において、前記情報処理装置による、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップとを含む。
本発明の一側面であるプログラムは、時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段として機能させる。
本発明の一側面によれば、クラスラベルが付加された学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器が生成される。また、登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像が生成され、登録画像が多クラス判別器に入力され、その結果得られた登録画像に対応する多次元スコアベクトルが時系列に配置されて登録用時系列特徴量が生成され、登録動作に対応付けて登録用時系列特徴量がモデル化される。さらに、不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像が生成され、認識画像が多クラス判別器に入力され、その結果得られた認識画像に対応する多次元スコアベクトルが時系列に配置されて認識用時系列特徴量が生成され、認識用時系列特徴量とモデル化された前記登録用時系列特徴量とが比較される。
本発明の一側面によれば、動画像を用いた読唇技術において、不特定話者の発話内容も高い精度で認識することができる。
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.第1の実施の形態
2.第2の実施の形態
1.第1の実施の形態
2.第2の実施の形態
<1.第1の実施の形態>
[発話認識装置の構成例]
図1は、第1の実施の形態である発話認識装置10の構成例を示している。この発話認識装置10は、話者を被写体としてビデオ撮像した動画像に基づいて、被写体の発話内容を識別するものである。
[発話認識装置の構成例]
図1は、第1の実施の形態である発話認識装置10の構成例を示している。この発話認識装置10は、話者を被写体としてビデオ撮像した動画像に基づいて、被写体の発話内容を識別するものである。
発話認識装置10は、学習処理を実行する学習系11、登録処理を行う登録系12、および認識処理を行う認識系13から構成される。
学習系11には、画音分離部21、顔領域検出部22、唇領域検出部23、唇画像生成部24、音素ラベル付与部25、音素辞書26、口形素ラベル変換部27、口形素ラベル付加部28、学習サンプル保持部29、口形素判別器学習部30、および口形素判別器31が属する。
登録系12には、口形素判別器31、顔領域検出部41、唇領域検出部42、唇画像生成部43、発話期間検出部44、時系列特徴量生成部45、時系列特徴量学習部46、および発話認識器47が属する。
認識形13は、口形素判別器31、顔領域検出部41、唇領域検出部42、唇画像生成部43、発話期間検出部44、時系列特徴量生成部45、および発話認識器47が属する。
すなわち、口形素判別器31は、学習系11、登録系12、および認識形13に重複して属し、登録系12から時系列特徴量学習部46を削除したものが認識系13となる。
画音分離部21は、任意の言葉を話している話者をビデオ撮影して得られる音声付動画像(以下、学習用音声付発話動画像と称する)を入力とし、これを学習用発話動画像と学習用発話音声とに分離する。分離された学習用発話動画像は顔領域検出部22に入力され、分離された学習用発話音声は音素ラベル付与部25に入力される。
なお、学習用音声付発話動画像は、この学習のためにビデオ撮影を行って用意してもよいし、例えばテレビジョン番組などのコンテンツを利用してもよい。
顔領域検出部22は、学習用発話動画像を各フレームに分割し、各フレームについて、図2Aに示すように、人の顔を含む顔領域を検出し、学習用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部23に出力する。
唇領域検出部23は、学習用発話動画像の各フレームの顔領域から、図2Bに示すように、唇の口角の端点を含む唇領域を検出し、学習用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部24に出力する。
なお、顔領域および唇領域の検出方法については、例えば特開2005−284348号公報、特開2009−49489号公報などに開示されている手法など、既存の任意の手法を適用できる。
唇画像生成部24は、学習用発話動画像の各フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部24は、回転補正後の各フレームから唇領域を抽出し、図2Cに示すように、抽出した唇領域を予め定められた画像サイズ(例えば、32×32画素)にリサイズすることにより唇画像を生成する。このようにして生成された各フレームに対応する唇画像は口形素ラベル付加部28に供給される。
音素ラベル付与部25は、音素辞書26を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部27に出力する。音素ラベルを付与する方法には、例えば、音声認識の研究分野において自動音素ラベリングと称されている方法を適用できる。
口形素ラベル変換部27は、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部28に出力する。なお、この変換には、予め用意されている変換テーブルを用いる。
図3は、音素ラベルを口形素ラベルに変換する変換テーブルの一例を示している。同図の変換テーブルを用いた場合、40種類に分類されている音素ラベルが、19種類に分類されている口形素ラベルに変換される。例えば、音素ラベル[a]および[a:]が口形素ラベル[a]に変換される。また例えば、音素ラベル[by],[my]および[py]が口形素ラベル[py]に変換される。なお、変換テーブルは、図3に示されたものに限らず、他の変換テーブルを用いてもよい。
口形素ラベル付加部28は、唇画像生成部24から入力される学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部27から入力される学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部29に出力する。
学習サンプル保持部29は、口形素ラベルが付加された複数の唇画像(以下、口形素ラベル付唇画像と称する)を学習サンプルとして保持する。
より具体的には、図4に示すように、M枚の唇画像xi(i=1,2,・・・,M)に、口形素ラベルに相当するクラスラベルyk(k=1,2,・・・,K)が付与されて状態で、M個の学習サンプル(xi,yk)を保持する。なお、いまの場合、クラスラベルの種類の数Kは19となる。
口形素判別器学習部30は、学習サンプル保持部29に保持されている複数の学習サンプルとしての口形素ラベル付唇画像からその画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器31を生成する。
唇画像の画像特徴量としては、例えば、本発明者等が提案するPixDif Feature(ピクセル差分特徴)を用いることができる。
なお、PixDif Feature(ピクセル差分特徴)については、”佐部、日台、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」、第10回画像センシングシンポジウム予稿集、pp.547-552, 2004.”、特開2005−157679号公報などに開示されている。
ピクセル差分特徴は、画像(いまの場合、唇画像)上の2画素の画素値(輝度値)I1,I2の差分(I1−I2)を算出することによって得られる。2画素の各組み合わせにそれぞれ対応する2値判別弱判別器h(x)では、次式(1)に示すように、このピクセル差分特徴I1−I2と閾値Thにより真(+1)、または偽(−1)が判別される。
h(x)=−1 if I1−I2≦Th
h(x)=+1 if I1−I2>Th
・・・(1)
h(x)=−1 if I1−I2≦Th
h(x)=+1 if I1−I2>Th
・・・(1)
例えば、唇画像のサイズを32×32画素として場合、1024×1023通りのピクセル差分特徴が得られることになる。これら複数通りの2画素の組み合わせとその閾値Thが各2値判別弱判別器のパラメータとなり、これらのうちの最適なものがブースティング学習により選択される。
口形素判別器31は、発話期間検出部44から通知される発話期間において、唇画像生成部43から入力される唇画像に対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。
ここで、K次元スコアベクトルは、入力された唇画像が、K(いまの場合、K=19)種類の口形素のうちのどれに対応するものであるかを示す指標であって、K種類の各口形素に対応するものである可能性を示すK次元のスコアからなる。
登録系12および認識系13の顔領域検出部41、唇領域検出部42、および唇画像生成部43は、上述した学習系11に属する顔領域検出部22、唇領域検出部23、および唇画像生成部24と同様のものである。
なお、登録系12には、予め決められている発話内容(登録用発話単語)とそれを発話している話者をビデオ撮影した動画像(以下、登録用発話動画像と称する)とを組み合わせた複数の登録用データが入力される。
また、認識系13には、認識対象となる、発話内容を話す話者をビデオ撮影した動画像(以下、認識用発話動画像と称する)が入力される。
すなわち、登録処理時において、顔領域検出部41は、登録用発話動画像を各フレームに分割し、各フレームについて、顔領域を検出し、登録用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部42に出力する。
唇領域検出部42は、登録用動画像の各フレームの顔領域から唇領域を検出し、登録用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部43に出力する。
唇画像生成部43は、登録用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器31および発話期間検出部44に出力する。
また、認識処理時において、顔領域検出部41は、認識用発話動画像(話者の発話内容が不明である動画像)を各フレームに分割し、各フレームについて、顔領域を検出し、認識用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部42に出力する。
唇領域検出部42は、認識用発話動画像の各フレームの顔領域から唇領域を検出し、認識用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部43に出力する。
唇画像生成部43は、認識用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器31および発話期間検出部44に出力する。
発話期間検出部44は、唇画像生成部43から入力される、登録用発話動画像または認識用発話動画像の各フレームの唇画像に基づき、話者が発話している期間(以下、発話期間と称する)を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器31および時系列特徴量生成部45に通知する。
時系列特徴量生成部45は、発話期間検出部44から通知される発話期間において、口形素判別器31から入力されるK次元スコアベクトルを時系列に配置することにより、時系列特徴量を生成する。
図5は、話者が「おもしろい」と話したときの発話期間に対応する時系列特徴量を示している。すなわち、この発話期間を1秒間と仮定し、フレームレートを60フレーム/秒とすれば、60Kのスコアからなる時系列特徴量が生成される。生成された時系列特徴量は、登録処理時には時系列特徴量学習部46に出力され、認識処理時には発話認識部47に出力される。
時系列特徴量学習部46は、登録処理時において、入力される登録用発話単語(登録用発話動画像における話者の発話内容)に対応付けて、時系列特徴量生成部45から入力される時系列特徴量をHMM(Hidden Markov Model)を用いてモデル化する。なお、モデル化の手法はHMMに限られず、時系列特徴量をモデル化できるものであればよい。モデル化された時系列特徴量は発話認識器47に内蔵された学習データベース48に保持される。
発話認識器47は、認識処理時において、時系列特徴量生成部45から入力される時系列特徴量に対して、学習データベース48に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器47は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。
[動作説明]
図6は、発話認識装置10の動作を説明するフローチャートである。
図6は、発話認識装置10の動作を説明するフローチャートである。
ステップS1において、発話認識装置10の学習系11は、学習処理を実行することによって口形素判別器31を生成する。
ステップS2において、発話認識装置10の登録系12は、登録処理を実行することによって、登録用発話動画像に対応する時系列特徴量を生成し、HMMを用いてモデル化し、これに登録用発話単語を対応付けて学習データベース48に登録する。
ステップS3において、発話認識装置10の認識系13は、認識処理を実行することによって、認識用発話動画像における話者の発話内容を認識する。
以下、上述したステップS1乃至S3の処理の詳細について説明する。
[学習処理の詳細]
図7は、ステップS1の学習処理を詳細に説明するフローチャートである。
図7は、ステップS1の学習処理を詳細に説明するフローチャートである。
ステップS11において、学習用音声付発話動画像が画音分離部21に入力される。画音分離部21は、学習用音声付発話動画像を学習用発話動画像と学習用発話音声とに分離し、学習用発話動画像を顔領域検出部22に、学習用発話音声を音素ラベル付与部25に出力する。
ステップS12において、学習用発話動画像の処理が行われる。また、ステップS13において、学習用発話音声の処理が行われる。なお、ステップS12とステップS13とは、実際には並行して同時に実行される。そして、学習用発話動画像の処理の出力(唇画像)と、それに対応する学習用発話音声の処理の出力(口形素ラベル付き学習用発話音声)が口形素ラベル付加部28に同時に供給されることになる。
図7は、ステップS12における学習用発話動画像の処理を詳細に説明するフローチャートである。
ステップS21において、顔領域検出部22は、学習用発話動画像を各フレームに分割し、1フレームずつ処理対象とする。ステップS22において、顔領域検出部22は、処理対象のフレームから顔領域を検出し、ステップS23において、顔領域を検出できたか否か判定する。顔領域を検出できたと判定された場合、処理はステップS24に進められる。反対に、顔領域を検出できなかったと判定された場合、処理はステップS26に進められる。
ステップS24において、顔領域検出部22は、処理対象としている1フレーム分の学習用発話動画像とともに顔領域の位置情報を唇領域検出部23に出力する。唇領域検出部23は、処理対象のフレームの顔領域から唇領域を検出し、ステップS25において、唇領域を検出できたか否か判定する。唇領域を検出できたと判定された場合、処理はステップS27に進められる。反対に、唇領域を検出できなかったと判定された場合、処理はステップS26に進められる。
なお、ステップS23またはステップS25から、処理がステップS26に進められた場合、処理対象としているフレームの1フレーム前の顔領域または唇領域の少なくとも一方の位置情報が流用される。
ステップS27において、唇領域検出部23は、処理対象としている1フレーム分の学習用発話動画像とともに唇領域の位置情報を唇画像生成部24に出力する。唇画像生成部24は、処理対象としている学習用発話動画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部24は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズすることにより唇画像を生成して口形素ラベル付加部28に出力する。
この後、ステップS21に戻り、学習用発話動画像信号の入力が終わるまで、ステップS21乃至S27の処理が繰り返される。
次に、図9は、ステップS13における学習用発話音声の処理を詳細に説明するフローチャートである。
ステップS31において、音素ラベル付与部25は、音素辞書26を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部27に出力する。
ステップS32において、口形素ラベル変換部27は、予め保持する変換テーブルを用い、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部28に出力する。
この後、ステップS31に戻り、学習用発話音声の入力が終わるまで、ステップS31およびS32の処理が繰り返される。
図7に戻る。ステップS14において、口形素ラベル付加部28は、唇画像生成部24から入力された学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部27から入力された学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部29に出力する。学習サンプル保持部29は、口形素ラベル付唇画像を学習サンプルとして保持する。学習サンプル保持部29に所定の数Mの学習サンプルが保持された後、ステップS15以降の処理が行われる。
ステップS15において、口形素判別器学習部30は、学習サンプル保持部29に保持されている複数の学習サンプルとしての唇画像の画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器31を生成する。
図10は、ステップS15の処理(AdaBoostECOC学習処理)を詳細に説明するフローチャートである。
ステップS41において、口形素判別器学習部30は、図4に示されたように、M個の学習サンプル(xi,yk)を学習サンプル保持部29から取得する。
ステップS42において、口形素判別器学習部30は、次式(2)に従い、M行K列で表されるサンプル重みPt(i,k)を初期化する。具体的には、サンプル重みPt(i,k)の初期値P1(i,k)を、実在する学習サンプル(xi,yk)に対応するものは0に、それ以外はそれらの総和が1となるような一様な値に設定する。
P1(i,k)=1/M(K−1) for yk≠k
・・・(2)
P1(i,k)=1/M(K−1) for yk≠k
・・・(2)
以下に説明するステップS43乃至ステップS48の処理は任意の数Tだけ繰り返される。なお、任意の繰り返し回数Tは、最大で唇画像上で得られるピクセル差分特徴の数とすることができ、この繰り返し回数Tと同じ数だけ弱判別器が生成される。
ステップS43において、口形素判別器学習部30は、1行K列のECOCテーブルを生成する。なお、ECOCテーブルのk列の値μt(k)は−1または+1であり、−1と+1の数が同数となるようにランダムに割り振られる。
μt(k)={−1,+1}
・・・(3)
μt(k)={−1,+1}
・・・(3)
ステップS44において、口形素判別器学習部30は、次式(4)に従い、M行1列で表される2値判別用重みDt(i)を計算する。なお、式(4)において、[]内は論理式であり、真であれば1、偽であれば0とする。
・・・(4)
図11は、ステップS45の処理を詳細に説明するフローチャートである。
ステップS61において、口形素判別器学習部30は、唇画像の全画素からランダムに2画素を選択する。例えば、唇画像を32×32画素とした場合、2画素の選択は、1024×1023通りのうちの1つを選ぶことになる。ここで、選択した2画素の画素位置をS1,S2とし、その画素値(輝度値)をI1,I2とする。
ステップS62において、口形素判別器学習部30は、全ての学習サンプルについて、ステップS61で選択した2画素の画素値I1,I2を用いたピクセル差分特徴(I1−I2)を算出し、その頻度分布を求める。
ステップS63において、口形素判別器学習部30は、ピクセル差分特徴の頻度分布に基づき、式(5)に示された重み付き誤り率εtを最小εminにする閾値Thminを求める。
ステップS64において、口形素判別器学習部30は、ピクセル差分特徴の頻度分布に基づき、式(5)に示された重み付き誤り率εtを最大εmaxにする閾値Thmaxを求める。さらに、口形素判別器学習部30は、次式(6)に従い、閾値Thmaxなどを反転する。
ε’max=1−εmax
S’1=S2
S’2=S1
Th’max=−Thmax
・・・(6)
ε’max=1−εmax
S’1=S2
S’2=S1
Th’max=−Thmax
・・・(6)
ステップS65において、口形素判別器学習部30は、上述した重み付き誤り率εtの最小εminと最大εmaxの大小関係に基づいて、2値判別弱判別器のパラメータである2画素の位置S1,S2と閾値Thを決定する。
すなわち、εmin<ε’maxの場合、2画素の位置S1,S2と閾値Thminをパラメータとして採用する。また、εmin≧ε’maxの場合、2画素の位置S’1,S’2と閾値Th’maxをパラメータとして採用する。
ステップS66において、口形素判別器学習部30は、上述したステップS61乃至S65の処理を所定の回数繰り返したか否かを判定し、所定の回数繰り返したと判定するまでステップS61に戻り、それ以降を繰り返す。そして、ステップS61乃至S65の処理を所定の回数繰り返したと判定した場合、処理をステップS67に進める。
ステップS67において、口形素判別器学習部30は、上述したように所定の回数繰り返されるステップS65の処理において決定された2値判別弱判別器(のパラメータ)のうち、重み付き誤り率εtが最小となるものを1つの2値判別弱判別器ht(のパラメータ)として最終的に採用する。
以上説明したように、1つの2値判別弱判別器htが決定された後、処理は図10のステップS46にリターンする。
ステップS47において、口形素判別器学習部30は、次式(8)に示すように、ステップS45の処理で決定した2値判別弱判別器htと、ステップS46の処理で計算した信頼度αtを乗算することにより、信頼度付き2値判別弱判別器ft(xi)を求める。
ft(xi)=αtht
・・・(8)
ft(xi)=αtht
・・・(8)
ステップS49において、口形素判別器学習部30は、上述したステップS43乃至S48の処理を所定の回数Tだけ繰り返したか否かを判定し、所定の回数Tだけ繰り返したと判定するまでステップS43に戻り、それ以降を繰り返す。そして、ステップS43乃至S48の処理を所定の回数Tだけ繰り返したと判定した場合、処理をステップS50に進める。
ステップS50において、口形素判別器学習部30は、所定の数Tと同じ数だけ得られた信頼度付き2値判別弱判別器ft(x)、およびそれぞれに対応するECOCテーブルに基づき、次式(11)に従って最終判別器Hk(x)、すなわち口形素判別器31を得る。
・・・(11)
なお、得られた口形素判別器31はパラメータとして、クラスの数(口形素の数)K、および弱判別器の数Tを有する。また、各弱判別器はパラメータとして、唇画像上の2画素の位置S1,S2、ピクセル差分特徴の判別用の閾値Th、信頼度α、およびECOCテーブルμを有する。
以上説明したように最終判別器Hk(x)、すなわち口形素判別器31を得て、当該AdaBoostECOC学習処理は終了される。
以上のように生成された口形素判別器31によれば、入力される唇画像の画像特徴量をK次元スコアベクトルで表現できる。すなわち、登録用発話動画像の各フレームから生成される唇画像がK(いまの場合、19)種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。また、認識用発話動画像の各フレームから生成される唇画像に対しても同様に、K種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。
[登録処理の詳細]
図12は、ステップS2の登録処理を詳細に説明するフローチャートである。
図12は、ステップS2の登録処理を詳細に説明するフローチャートである。
ステップS71において、登録系12は、図7を参照して上述した学習系11による学習用発話動画像の処理と同様の処理を実行することにより、登録用発話動画像の各フレームに対応する唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
ステップS72において、発話期間検出部44は、登録用発話動画像の各フレームの唇画像に基づき発話期間を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器31および時系列特徴量生成部45に通知する。口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算する。
図13は、口形素判定器31によるK次元スコアベクトル演算処理を詳細に説明するフローチャートである。
ステップS81において、口形素判定器31は、クラスを示すパラメータk(k=1,2,・・・,K)を1に初期化する。ステップS82において、口形素判定器31は、各クラスのスコアHkを0に初期化する。
ステップS83において、口形素判定器31は、弱判別器を特定するためのパラメータt(t=1,2,・・・,T)を1に初期化する。
ステップS84において、口形素判定器31は、2値判別弱判別器htのパラメータ、すなわち、唇画像x上の2画素の位置S1,S2、ピクセル差分特徴の判別用の閾値Th、信頼度α、およびECOCテーブルμを設定する。
ステップS85において、口形素判定器31は、唇画像x上の2画素の位置S1,S2から画素値I1,I2を読み出し、ピクセル差分特徴(I1−I2)を算出して閾値Thと比較することにより、2値判別弱判別器htの判別値(−1または+1)を得る。
ステップS86において、口形素判定器31は、ステップS85で得た2値判別弱判別器htの判別値に信頼度αtを乗算し、さらに1行K列のECOCテーブルの値μt(k)を乗算することにより、パラメータtに対応する1行K列のクラススコアHkを得る。
ステップS87において、口形素判定器31は、ステップS86で得た、パラメータtに対応する1行K列のクラススコアHkを、前回(すなわち、t−1)までのクラススコアHkの累計値に加算することにより、1行K列のクラススコアHkを更新する。
ステップS88において、口形素判定器31は、パラメータt=Tであるか否かを判定し、否と判定した場合、処理をステップS89に進めてパラメータtを1だけインクリメントする。そして、処理はステップS84に戻され、それ以降の処理が繰り返される。その後、ステップS88において、パラメータt=Tであると判定された場合、処理はステップS90に進められる。
ステップS90において、口形素判定器31は、パラメータk=Kであるか否かを判定し、パラメータk=Kではないと判定した場合、処理をステップS91に進めてパラメータkを1だけインクリメントする。そして、処理はステップS83に戻され、それ以降の処理が繰り返される。その後、ステップS90において、パラメータk=Kであると判定された場合、処理はステップS92に進められる。
ステップS92において、口形素判定器31は、その時点で得られている1行K列のクラススコアHkを口形素判定器31の出力、すなわち、K次元スコアベクトルとして後段(いまの場合、時系列特徴量生成部45)に出力する。以上で、K次元スコアベクトル演算処理は終了される。
図12に戻る。ステップS73において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、登録用発話動画像の発話期間に対応した時系列特徴量を生成する。
ステップS74において、時系列特徴量学習部46は、登録用発話動画像とともに外部から供給された登録用発話単語(登録用発話動画像における話者の発話内容)に対応付けて、時系列特徴量生成部45から入力された時系列特徴量をHMMによりモデル化する。モデル化された時系列特徴量は、発話認識器47に内蔵された学習データベース48に保持される。以上で、登録処理は終了される。
[認識処理の詳細]
図14は、認識処理を詳細に説明するフローチャートである。
図14は、認識処理を詳細に説明するフローチャートである。
認識系13は、入力された認識用発話動画像に対し、ステップS101乃至S103の処理として、図12を参照して上述した登録系12による登録処理のステップS71乃至S73と同様の処理を行う。この結果、認識用発話動画像の発話期間に対応した時系列特徴量が生成される。生成された認識用発話動画像の発話期間に対応した時系列特徴量は、発話認識器47に入力される。
ステップS104において、発話認識器47は、時系列特徴量生成部45から入力された時系列特徴量に対して、学習データベース48に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器47は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。以上で、認識処理は終了される。
[認識実験の結果]
次に、発話認識装置10による認識実験の結果について説明する。
次に、発話認識装置10による認識実験の結果について説明する。
この認識実験では、学習処理において、216単語を発声する73人の被験者(話者)をそれぞれ個別にビデオ撮影した学習用音声付発話動画像を用いた。また、登録処理においては、学習処理時の216単語のうちの、図15に示す20単語を登録発話単語に選択し、それに対応する学習用発話動画像を登録用発話動画像に流用した。また、HMMを用いたモデル化では、遷移確率をleft-to-rightに制約し、40状態の遷移モデルとした。
そして、認識処理では、学習処理および登録処理と同じ被験者の認識用発話動画像を用いたクローズ評価と、学習処理および登録処理とは異なる被験者の認識用発話動画像を用いたオープン評価を行い、図16に示す認識率を得ることができた。
図16は、ある登録用発話単語Wを発話している認識用発話動画像に対応する時系列特徴量が、20種類の各登録用発話単語にそれぞれ対応する各HMMにどの程度類似しているかを順位付けした際に、正解(登録用発話単語Wに対応するHMM)がM番目(横軸)までに入っている確率(縦軸)を示している。
同図によれば、クローズ評価の場合には96%の識別率を得ることができた。また、オープン評価の場合には80%の識別率を得ることができた。
なお、上述した認識実験では、学習処理と登録処理の被験者(話者)を共通とし、登録用発話動画像に学習用発話動画像を流用したが、学習処理と登録処理の被験者(話者)を別人としてもよく、さらに、認識処理の被験者(話者)をさらに別人としてもよい。
以上説明した、第1の実施の形態である発話認識装置10によれば、入力された画像(いまの場合、唇画像)の特徴量を演算するための判別器を学習により生成するので、認識したい対象に対して、その都度、判別器を新たに設計する不要ない。したがって、ラベルの種類を変更することにより、例えば動画像からジェスチャや手書き文字を識別したりする認識装置にも容易に適用できる。
また、学習処理によって、個人差の大きい部位の画像に対して汎用性のある特徴量を抽出することができる。
さらに、画像特徴量に比較的演算量が少ないピクセル差分を用いたので、リアルタイムな認識処理が可能になる。
<2.第2の実施の形態>
[デジタルスチルカメラの構成例]
次に、図17は、第2の実施の形態であるデジタルスチルカメラ60の構成例を示している。このデジタルスチルカメラ60は、読唇技術を応用したオートシャッタ機能を有している。具体的には、被写体となる人物が「ハイ、チーズ」などと所定のキーワード(以下、シャッタキーワードと称する)を発話したことを検出した場合、これに応じてシャッタをきる(静止画像を撮像する)ようにしたものである。
[デジタルスチルカメラの構成例]
次に、図17は、第2の実施の形態であるデジタルスチルカメラ60の構成例を示している。このデジタルスチルカメラ60は、読唇技術を応用したオートシャッタ機能を有している。具体的には、被写体となる人物が「ハイ、チーズ」などと所定のキーワード(以下、シャッタキーワードと称する)を発話したことを検出した場合、これに応じてシャッタをきる(静止画像を撮像する)ようにしたものである。
このデジタルスチルカメラ60は、撮像部61、画像処理部62、記録部63、U/I部64、撮像制御部65、およびオートシャッタ制御部66から構成される。
撮像部61は、レンズ群、CMOS(Complementary Metal-Oxide Semiconductor)等の撮像素子(いずれも図示せず)から構成され、被写体の光学像を取得して電気信号に変換し、その結果得られる画像信号を後段に出力する。
すなわち、撮像部61は、撮像制御部65からの制御に従い、撮像前の段階において画像信号を撮像制御部65およびオートシャッタ制御部66に出力する。また、撮像部61は、撮像制御部65からの制御に従って撮像を行い、その結果得られる画像信号を画像処理部62に出力する。
以下、撮像前の構図決定用に撮像制御部65に出力されてU/I部64に含まれるディスプレイ(不図示)に表示される動画像をファインダ画像と称する。ファインダ画像は、オートシャッタ制御部66にも出力される。また、撮像の結果として撮像部61から画像処理部62に出力される画像信号を記録画像と称する。
画像処理部62は、撮像部61から入力される記録画像に所定の画像処理(例えば、手ぶれ補正、ホワイトバランス補正、画素補間など)を行った後、所定の符号化方式に従って符号化し、その結果得られた画像符号化データを記録部63に出力する。また、画像処理部62は、記録部63から入力される画像符号化データを復号し、その結果得られる画像信号(以下、再生画像と称する)を撮像制御部65に出力する。
記録部63は、画像処理部62から入力される画像符号化データを、図示せぬ記録メディアに記録する。また、記録部63は、記録メディアに記録されている画像符号化データを読み出して画像処理部62に出力する。
撮像制御部65は、デジタルスチルカメラ60の全体を制御する。特に、撮像処理部65は、U/I部64からのシャッタ操作信号、あるいはオートシャッタ制御部66からのオートシャッタ信号に従い、撮像部61を制御して撮像を実行させる。
U/I(user interface)部64は、ユーザによるシャッタ操作を受け付けるシャッタボタンに代表される各種の入力デバイスと、ファインダ画像や再生画像などを表示するディスプレイからなる。特に、U/I部64は、ユーザからのシャッタ操作に応じてシャッタ操作信号を撮像制御部65に出力する。
オートシャッタ制御部66は、撮像部61から入力されるファインダ画像に基づき、被写体となる人物によるシャッタキーワードの発話を検出した場合、これに応じてオートシャッタ信号を撮像制御部65に出力する。
次に、図18は、オートシャッタ制御部66の詳細な構成例を示している。
同図と図1を比較して明らかなように、オートシャッタ制御部66は、図1の発話認識装置10の登録系12および認識系13と同様の構成に加えて、オートシャッタ信号出力部71が追加されて構成される。オートシャッタ制御部66の、図1の発話認識装置10と共通する構成要素には同一の番号を付しているので、その説明は省略する。
ただし、オートシャッタ制御部66における口形素判別器31は既に学習済みのものである。
オートシャッタ信号出力部71は、発話認識器47からの発話認識結果が予め登録されているシャッタキーワードであることを示す場合、オートシャッタ信号を発生して撮像制御部65に出力する。
[動作説明]
次に、デジタルスチルカメラ60の動作について説明する。デジタルスチルカメラ60の動作には、通常撮影モード、通常再生モード、オートシャッタ登録モード、オートシャッタ実行モードなどが設けられている。
次に、デジタルスチルカメラ60の動作について説明する。デジタルスチルカメラ60の動作には、通常撮影モード、通常再生モード、オートシャッタ登録モード、オートシャッタ実行モードなどが設けられている。
通常撮影モードでは、ユーザによるシャッタ操作に応じて撮影が行われる。通常再生モードでは、ユーザによる再生操作に応じて撮影済みの画像が再生されて表示される。
シャッタキーワード登録モードでは、シャッタキーワードとする任意の言葉を発話する被写体(ユーザなど)の唇の動きを示す時系列特徴量のHMMが登録される。なお、デジタルスチルカメラ60を商品として出荷する段階において、予めシャッタキーワードとそれに対応する唇の動きを示す時系列特徴量のHMMを登録しておくようにしてもよい。
オートシャッタ実行モードでは、ファインダ画像に基づき、被写体となる人物の唇の動きを示す時系列特徴量が検出され、検出された時系列特徴量に基づいてシャッタキーワードを発話していると認識された場合に撮影が行われる。
[シャッタキーワード登録処理の詳細]
次に、図19は、シャッタキーワード登録処理を説明するフローチャートである。
次に、図19は、シャッタキーワード登録処理を説明するフローチャートである。
このシャッタキーワード登録処理は、ユーザからの所定の操作に応じてシャッタキーワード登録モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。
なお、このシャッタキーワード登録処理の開始を指示した後にユーザは、ファインダ画像に、シャッタキーワードとして登録したい言葉を発話している話者の顔が写るようにする。この話者には、オートシャッタ実行処理時に被写体となる人物を用いることが望ましいが、それ以外の例えばユーザ自身が話者となってもよい。そして、シャッタキーワードの発話が終了した後に、オートシャッタ学習処理の終了を指示するようにする。
ステップS121において、撮像制御部65は、オートシャッタ登録処理の終了が指示されたか否かを判定し、指示されていない場合、処理をステップS122に進める。
ステップS122において、登録系12の顔領域検出部41は、ファインダ画像を各フレームに分割し、1フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。ステップS123において、顔領域検出部41は、処理対象のフレームから顔領域を1つだけ検出したか否かを判定し、複数の顔領域を検出した場合、または顔領域を1つも検出できなかった場合、処理をステップS124に進める。
ステップS124において、U/I部64は、シャッタキーワードとして登録したい言葉を発話する一人の話者だけがファインダ画像に写るようユーザに注意を促す。この後、処理はステップS121に戻り、それ以降が繰り返される。
ステップS123において、処理対象のフレームから顔領域を1つだけ検出した場合、処理はステップS125に進められる。
ステップS125において、顔領域検出部41は、処理対象としている1フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部42に出力する。唇領域検出部42は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている1フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部43に出力する。
唇画像生成部43は、処理対象としているファインダ画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部43は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
ステップS126において、発話期間検出部44は、処理対象としているフレームの唇画像に基づき、当該フレームが発話期間であるか否かを判定し、判定結果を口形素判別器31および時系列特徴量生成部45に通知する。そして、発話期間であると判定された場合、処理はステップS127に進められる。反対に、発話期間ではないと判定された場合、ステップS127はスキップされる。
ステップS127において、口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。この後、処理はステップS121に戻り、オートシャッタ登録処理の終了が指示されるまで、ステップSS121乃至127の処理が繰り返される。
そして、ステップS121において、オートシャッタ登録処理の終了が指示されたと判定された場合、処理はステップS128に進められる。
ステップS128において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、登録したいシャッタキーワードに対応した時系列特徴量を生成する。
ステップS129において、時系列特徴量学習部46は、U/I部64から入力されるシャッタキーワードのテキストデータに対応付けて、時系列特徴量生成部45から入力された時系列特徴量を、HMMによりモデル化する。モデル化された時系列特徴量は、発話認識器47に内蔵された学習データベース48に保持される。以上で、シャッタキーワード登録処理は終了される。
[オートシャッタ実行処理の詳細]
次に、図20は、オートシャッタ実行処理を説明するフローチャートである。
次に、図20は、オートシャッタ実行処理を説明するフローチャートである。
このオートシャッタ実行処理は、ユーザからの所定の操作に応じてオートシャッタ実行モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。
ステップS141において、認識系12の顔領域検出部41は、ファインダ画像を各フレームに分割し、1フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。
ステップS142において、顔領域検出部41は、処理対象のフレームから顔領域を検出できたか否かを判定し、顔領域が検出できるまで、処理をステップS141に戻す。そして、処理対象のフレームから顔領域を検出できた場合、処理はステップS143に進められる。
なお、ここでは、シャッタキーワード登録処理時とは異なり、1フレームから複数の顔領域が検出されてもかまわない。1フレームから複数の顔領域が検出された場合、検出された各顔領域に対して並行し、これ以降の処理が実行される。
ステップS143において、顔領域検出部41は、処理対象としている1フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部42に出力する。唇領域検出部42は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている1フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部43に出力する。
唇画像生成部43は、処理対象としているファインダ画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部43は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
ステップS144において、発話期間検出部44は、処理対象としているフレームの唇画像に基づいて発話期間を判定する。すなわち、処理対象としているフレームが発話期間の始点、または発話期間中であると判定された場合、処理はステップS145に進められる。
ステップS145において、口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。この後、処理はステップS141に戻り、それ以降が繰り返される。
ステップS144において、処理対象としているフレームが発話期間の終点であると判定された場合、処理はステップS146に進められる。
ステップS146において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、被写体の唇の動きに対応した時系列特徴量を生成する。
ステップS147において、時系列特徴量生成部45は、生成した時系列特徴量を発話認識器47に入力する。ステップS148において、発話認識器47は、時系列特徴量生成部45から入力された時系列特徴量と、学習データベース48に保持されているシャッタキーワードに対応するHMMを比較して、被写体の唇の動きがシャッタキーワードに対応するものであるか否かを判定する。被写体の唇の動きがシャッタキーワードに対応するものであると判定された場合、処理はステップS149に進められる。なお、否と判定された場合、処理はステップS141に戻り、それ以降が繰り返される。
ステップS149において、発話認識器47は、被写体の唇の動きがシャッタキーワードに対応するものである旨をオートシャッタ信号出力部71に通知する。この通知の応じ、オートシャッタ信号出力部71は、オートシャッタ信号を発生して撮像制御部65に出力する。このオートシャッタ信号に従い、撮像制御部65は、撮像部61などを制御して撮像を行わせる。なお、この撮像タイミングは、シャッタキーワードの発話の所定時間(例えば1秒間)後などとユーザが任意に設定できる。この後、処理はステップS141に戻り、それ以降が繰り返される。
なお、上述した説明では、ファインダ画像から複数の顔領域(被写体)が検出された場合、複数の被写体のうちの誰がシャッタキーワードを発話してもよいことになる。
ただし、このような仕様を変更し、例えば、被写体の過半数がシャッタキーワードを発話したことに応じて撮像を行うようにしてもよい。このような仕様にすれば、集合写真を撮像する際の遊戯性をユーザらに与えることができる。また複数の顔認識を行うので、認識結果が頑健になり、シャッタキーワードの誤検出などを抑止できる効果も期待できる。
さらに、個人の顔を識別する個人識別技術を組み合わせることにより、複数の被写体のうちの特定の人物にだけ注目してシャッタキーワードを検出するようにしてもよい。この特定の人物は複数であってもよい。この特定の人物を被験者(被写体)として、上述したシャッタキーワード登録処理を行えば、より頑健で正確な発話認識が可能となる。
以上説明したように、第2の実施の形態であるデジタルスチルカメラ60によれば、離れた位置にいる被写体が、リモートコントローラなどを用いることなく、ノイズ環境化においても、シャッタキーワードを発話するだけで撮像タイミングを指示することができる。なお、このシャッタキーワードは、任意に設定することができる。
なお、本発明は、デジタルスチルカメラに限らず、デジタルビデオカメラにも適用することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータ200において、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
10 発話認識装置, 21 画音分離部, 22 顔領域検出部, 23 唇領域検出部, 24 唇画像生成部, 25 音素ラベル付与部, 26 音素辞書, 27 口形素ラベル変換部, 28 口形素ラベル付加部, 29 学習サンプル保持部, 30 口形素判別器学習部, 31 口形素判別器, 41 顔領域検出部, 42 唇領域検出部, 43 唇画像生成部, 44 発話期間検出部, 45 時系列特徴量生成部, 46 時系列特徴量学習部, 47 発話認識器, 48 学習データベース, 60 デジタルスチルカメラ, 61 撮像部, 62 画像処理部, 63 記録メディア, 64 U/I部, 65 撮像制御部, 66 オートシャッタ制御部, 71 オートシャッタ信号出力部, 200 コンピュータ, 201 CPU
Claims (8)
- 時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
を含む情報処理装置。 - 前記学習手段は、前記クラスラベルが付加された前記学習画像の画像特徴量を用いたAdaBoostECOC(Error Correct Output Coding)学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する
請求項1に記載の情報処理装置。 - 前記画像特徴量は、ピクセル差分特徴である
請求項2に記載の情報処理装置。 - 前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む学習画像を生成するとともに、前記学習画像に対して、前記被験者の唇の形を示す口形素をクラスラベルとして付加し、
前記登録手段は、登録単語を発話する被験者を被写体として撮像した登録用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録単語に対応付けて前記登録用時系列特徴量をモデル化し、
前記識別手段は、発話内容が不明な被写体を撮像した認識用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量との比較結果に応じて、前記発話内容を認識する
請求項2に記載の情報処理装置。 - 前記学習サンプル生成手段は、発話している被験者を被写体として撮像した学習用音声付動画像を前記学習用動画像と学習用音声に分離し、前記学習用動画像の各フレームからそれぞれに対応する、前記被験者の唇領域を含む前記学習画像を生成するとともに、前記学習用音声を音声認識して前記被験者の発話内容に対応する口形素を特定し、前記学習画像に対して、前記被験者の唇の形を示す前記口形素をクラスラベルとして付加する
請求項4に記載の情報処理装置。 - 前記登録手段は、前記登録動作に対応付けて前記登録用時系列特徴量を、HMM(Hidden Markov Model)によりモデル化する
請求項2に記載の情報処理装置。 - 入力された動画像を識別する情報処理装置の情報処理方法において、
前記情報処理装置による、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成ステップと、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習ステップと、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録ステップと、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別ステップと
を含む情報処理方法。 - コンピュータに、
時間の経過とともに変化する被写体を撮像した学習用動画像の各フレームからそれぞれに対応する学習画像を生成するとともに、前記学習画像に対してクラスラベルを付加する学習サンプル生成手段と、
前記クラスラベルが付加された前記学習画像を用いた統計学習により、入力画像に対応する多次元スコアベクトルを出力する多クラス判別器を生成する学習手段と、
登録動作を行う被写体を撮像した登録用動画像の各フレームからそれぞれに対応する登録画像を生成し、前記登録画像を前記多クラス判別器に入力し、その結果得られた前記登録画像に対応する前記多次元スコアベクトルを時系列に配置して登録用時系列特徴量を生成し、前記登録動作に対応付けて前記登録用時系列特徴量をモデル化する登録手段と、
不明な動作を行う被写体を撮像した認識用動画像の各フレームからそれぞれに対応する認識画像を生成し、前記認識画像を前記多クラス判別器に入力し、その結果得られた前記認識画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成し、前記認識用時系列特徴量とモデル化された前記登録用時系列特徴量とを比較する識別手段と
して機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009154923A JP2011013731A (ja) | 2009-06-30 | 2009-06-30 | 情報処理装置、情報処理方法、およびプログラム |
US12/815,478 US20100332229A1 (en) | 2009-06-30 | 2010-06-15 | Apparatus control based on visual lip share recognition |
CN2010102133955A CN101937268A (zh) | 2009-06-30 | 2010-06-23 | 基于视觉唇形识别的设备控制 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009154923A JP2011013731A (ja) | 2009-06-30 | 2009-06-30 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011013731A true JP2011013731A (ja) | 2011-01-20 |
Family
ID=43592599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009154923A Withdrawn JP2011013731A (ja) | 2009-06-30 | 2009-06-30 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011013731A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (ja) * | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
JP2015028691A (ja) * | 2013-07-30 | 2015-02-12 | 富士通株式会社 | 画像判別装置、画像判別方法および画像判別プログラム |
JP2017211596A (ja) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | 音声対話システムおよび発話タイミング決定方法 |
JP2019121374A (ja) * | 2018-01-08 | 2019-07-22 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法 |
JP2019128938A (ja) * | 2018-01-22 | 2019-08-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 |
WO2021024869A1 (ja) | 2019-08-02 | 2021-02-11 | 日本電気株式会社 | 音声処理装置、音声処理方法、および記録媒体 |
WO2021054347A1 (ja) * | 2019-09-20 | 2021-03-25 | 国立大学法人筑波大学 | 動き学習装置、制御装置及びプログラム |
-
2009
- 2009-06-30 JP JP2009154923A patent/JP2011013731A/ja not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (ja) * | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
JP2015028691A (ja) * | 2013-07-30 | 2015-02-12 | 富士通株式会社 | 画像判別装置、画像判別方法および画像判別プログラム |
JP2017211596A (ja) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | 音声対話システムおよび発話タイミング決定方法 |
JP7097801B2 (ja) | 2018-01-08 | 2022-07-08 | 三星電子株式会社 | 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法 |
JP2019121374A (ja) * | 2018-01-08 | 2019-07-22 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法 |
JP2019128938A (ja) * | 2018-01-22 | 2019-08-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 |
US10810413B2 (en) | 2018-01-22 | 2020-10-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Wakeup method, apparatus and device based on lip reading, and computer readable medium |
WO2021024869A1 (ja) | 2019-08-02 | 2021-02-11 | 日本電気株式会社 | 音声処理装置、音声処理方法、および記録媒体 |
JPWO2021024869A1 (ja) * | 2019-08-02 | 2021-02-11 | ||
JP7347511B2 (ja) | 2019-08-02 | 2023-09-20 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
WO2021054347A1 (ja) * | 2019-09-20 | 2021-03-25 | 国立大学法人筑波大学 | 動き学習装置、制御装置及びプログラム |
JP2021048917A (ja) * | 2019-09-20 | 2021-04-01 | 国立大学法人 筑波大学 | 動き学習装置、制御装置及びプログラム |
JP7378120B2 (ja) | 2019-09-20 | 2023-11-13 | 国立大学法人 筑波大学 | 動き学習装置、制御装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100332229A1 (en) | Apparatus control based on visual lip share recognition | |
Noda et al. | Lipreading using convolutional neural network. | |
Katsaggelos et al. | Audiovisual fusion: Challenges and new approaches | |
Mroueh et al. | Deep multimodal learning for audio-visual speech recognition | |
US7209883B2 (en) | Factorial hidden markov model for audiovisual speech recognition | |
JP2011013731A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2001092974A (ja) | 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 | |
Tao et al. | End-to-end audiovisual speech activity detection with bimodal recurrent neural models | |
JP5356527B2 (ja) | 信号分類装置 | |
JP2012003326A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Potamianos et al. | Audio and visual modality combination in speech processing applications | |
JP5723446B2 (ja) | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 | |
Saenko et al. | Articulatory features for robust visual speech recognition | |
Gillet et al. | Automatic transcription of drum sequences using audiovisual features | |
Sasou | Automatic identification of pathological voice quality based on the GRBAS categorization | |
Kumagai et al. | Detection of inconsistency between subject and speaker based on the co-occurrence of lip motion and voice towards speech scene extraction from news videos | |
Le Cornu et al. | Voicing classification of visual speech using convolutional neural networks | |
Yau et al. | Visual speech recognition using motion features and hidden markov models | |
JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Yang et al. | Uncertainty-Guided End-to-End Audio-Visual Speaker Diarization for Far-Field Recordings | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2011014985A (ja) | 撮像装置、撮像方法、およびプログラム | |
Robi et al. | Active Speaker Detection using Audio, Visual and Depth Modalities: A Survey | |
Ibrahim | A novel lip geometry approach for audio-visual speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120904 |