JP2011014985A - Imaging apparatus, imaging method and program - Google Patents
Imaging apparatus, imaging method and program Download PDFInfo
- Publication number
- JP2011014985A JP2011014985A JP2009154924A JP2009154924A JP2011014985A JP 2011014985 A JP2011014985 A JP 2011014985A JP 2009154924 A JP2009154924 A JP 2009154924A JP 2009154924 A JP2009154924 A JP 2009154924A JP 2011014985 A JP2011014985 A JP 2011014985A
- Authority
- JP
- Japan
- Prior art keywords
- image
- lip
- registration
- imaging
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、撮像装置、撮像方法、およびプログラムに関し、特に、被写体が所定のキーワードを発話したことに応じて撮像を行うようにした撮像装置、撮像方法、およびプログラムに関する。 The present invention relates to an imaging apparatus, an imaging method, and a program, and more particularly to an imaging apparatus, an imaging method, and a program that perform imaging in response to a subject speaking a predetermined keyword.
従来、オートシャッタ機能を備えるカメラが存在する。 Conventionally, there are cameras having an auto shutter function.
古くは、タイマー式のものやリモートコントローラを用いるものなどが存在する。昨今では、被写体の笑顔に応じて撮像を行う、いわゆるスマイルシャッタ機能(例えば、特許文献1参照)を備えるものや、被写体のウィンクに応じて撮像を行う、いわゆるウィンクシャッタ機能を備えるもの(例えば、特許文献2参照)などが存在する。 In the old days, there are a timer type and a remote controller. In recent years, what has a so-called smile shutter function (for example, refer to Patent Document 1) that captures an image in response to a smiling face of a subject, or has a so-called wink shutter function that performs image capturing in response to a wink of a subject (for example, (See Patent Document 2).
また、特許文献2には、被写体の口の動きに応じて撮像を行うことが記載されている。 Japanese Patent Application Laid-Open No. 2004-228561 describes that imaging is performed according to the movement of the subject's mouth.
上述したスマイルシャッタ機能の場合、被写体の笑顔の度合いがカメラによって検出され、その度合いが予め定められている閾値を越えたときに撮像が行われる。したがって、被写体が意識的に笑顔の表情を作ったとしても、その撮像タイミングを任意に調整することは困難であった。 In the case of the smile shutter function described above, the degree of smile of the subject is detected by the camera, and imaging is performed when the degree exceeds a predetermined threshold. Therefore, even when the subject consciously creates a smiling expression, it is difficult to arbitrarily adjust the imaging timing.
また、上述したウィンクシャッタ機能の場合、被写体のウィンク(片目の開閉)がカメラによって検出されたときに撮像が行われる。この場合、被写体が意図的に且つ確実にウィンクを実行できれば、被写体が意図するタイミングで撮像を行うことができる。しかしながら、被写体が瞬きをした場合にも、これをカメラがウィンクとして誤検出するが起こり得る。さらに、被写体にとってウィンク自体が普段行わない動きである場合、気恥ずかしさなどからウィンクを行えないこともある。 Further, in the case of the above-described wink shutter function, imaging is performed when a wink (opening / closing of one eye) of a subject is detected by the camera. In this case, if the subject can intentionally and reliably execute winking, it is possible to perform imaging at the timing when the subject intends. However, when the subject blinks, the camera may erroneously detect this as a wink. In addition, when the wink itself is a movement that is not normally performed for the subject, it may not be possible to wink due to embarrassment or the like.
またさらに、複数の人数で集合写真を撮る場合など、同時に写る他の人たちに対し、ウィンク以外にも発声によって例えば「ハイチーズ」などの掛け声により撮像タイミングを知らせる必要があった。 In addition, when taking a group photo with a plurality of people, it is necessary to inform other people who are photographed at the same time of the imaging timing by uttering, for example, “high cheese” in addition to winking.
なお、カメラに音声認識機能を備えることにより、例えば「ハイチーズ」などのキーワードに応じて撮像を行うようにすることが考えられるが、その場合、声が届かない距離にカメラを置いたり、音声以外の環境ノイズが多い状態下などでは使用できないので実用性が低い。 In addition, by providing a voice recognition function in the camera, for example, it may be possible to take an image in response to a keyword such as “Hi-Cheese”. Since it cannot be used under conditions where there is a lot of environmental noise, it is not practical.
またさらに、特許文献2などに記載されている、被写体の発話(口の動き)に応じて撮像を行う方法では、所定のキーワードの発話を検出するのではなく、単に口の動きを検出しているに過ぎないので、希望する撮像タイミングまで何も発言することができない。
Furthermore, in the method of performing imaging according to the utterance of the subject (mouth movement) described in
本発明はこのような状況に鑑みてなされたものであり、ファインダ画像に基づいて被写体の発話内容を識別し、所定のキーワードが発話されたことに応じて撮像を行うようにするものである。 The present invention has been made in view of such a situation, and identifies the utterance content of a subject based on a finder image, and performs imaging in response to the utterance of a predetermined keyword.
本発明の一側面である撮像装置は、構図決定時にファインダ画像を出力し、撮像時に記録画像を出力する撮像手段と、唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースと、前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成手段と、生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御手段とを含む。 An image pickup apparatus according to one aspect of the present invention includes an image pickup unit that outputs a finder image at the time of composition determination and outputs a recorded image at the time of image pickup, and the input of the lip image. From the finder image, a multi-class classifier that outputs a multi-dimensional score vector indicating how similar, a registration database in which modeled registration time series feature amounts are registered in association with keywords, and The lip image including the lip region of the subject is generated and input to the multi-class classifier, and the multi-dimensional score vectors corresponding to the lip image based on the finder image obtained as a result are arranged in time series. Based on the comparison result between the generating means for generating the recognition time-series feature quantity, the generated recognition time-series feature quantity, and the model registered in the registration database, And controls the image pickup means and a automatic shutter control means for executing an imaging process.
前記多クラス判別器は、口形素を示すクラスラベルが付加された唇画像の画像特徴量を用いたAdaBoostECOC学習により生成されているものとすることができる。 The multi-class classifier can be generated by AdaBoostECOC learning using an image feature amount of a lip image to which a class label indicating a viseme is added.
前記画像特徴量は、ピクセル差分特徴とすることができる。 The image feature amount may be a pixel difference feature.
本発明の一側面である撮像装置は、任意の前記キーワードを発話する被験者を被写体とする登録用ファインダ画像から登録用の唇画像を生成し、前記登録用の唇画像を前記多クラス判別器に入力し、その結果得られた前記登録用の唇画像に対応する前記多次元スコアベクトルを時系列に配置して前記登録用時系列特徴量を生成し、前記任意のキーワードに対応付けて前記登録用時系列特徴量をモデル化して前記登録データベースに登録する登録手段をさらに含むことができる。 An imaging apparatus according to one aspect of the present invention generates a lip image for registration from a finder image for registration with a subject who speaks any of the keywords as a subject, and uses the lip image for registration as the multi-class classifier. The multi-dimensional score vector corresponding to the registration lip image obtained as a result is arranged in time series to generate the registration time series feature quantity, and the registration is performed in association with the arbitrary keyword. It may further include a registering means for modeling the use time series feature quantity and registering it in the registration database.
前記登録手段は、前記登録用時系列特徴量を、HMMによりモデル化するようにすることができる。 The registration unit may model the registration time-series feature amount using an HMM.
本発明の一側面である撮像方法は、構図決定時にファインダ画像を出力し、撮像時に記録画像を出力する撮像手段と、唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースとを備える撮像装置の撮像方法において、前記撮像装置による、前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成ステップと、生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御ステップとを含む。 An imaging method according to an aspect of the present invention includes an imaging unit that outputs a finder image at the time of composition determination and outputs a recorded image at the time of imaging, and the input of the lip image. An imaging apparatus comprising: a multi-class discriminator that outputs a multi-dimensional score vector indicating how much similarity is present; and a registration database in which modeled registration time-series feature amounts are registered in association with keywords In the imaging method, the imaging device generates the lip image including a lip region of a subject from the finder image, inputs the lip image to the multi-class classifier, and corresponds to the lip image based on the finder image obtained as a result Generating a time series feature quantity for recognition by arranging the multidimensional score vectors in time series, the generated time series feature quantity for recognition, and the registration Based on the result of comparison between the model registered in the database, and a automatic shutter control step of executing an imaging process by controlling the imaging means.
本発明の一側面であるプログラムは、構図決定時にファインダ画像を出力し、撮像時に記録画像を出力する撮像手段と、唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースとを備える撮像装置のコンピュータに、前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成手段と、生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御手段として機能させる。 A program according to one aspect of the present invention includes an imaging unit that outputs a finder image at the time of composition determination and outputs a recorded image at the time of imaging, and a lip image input. A computer of an imaging apparatus, comprising: a multi-class discriminator that outputs a multi-dimensional score vector indicating a degree of similarity; and a registration database in which registration time-series feature quantities modeled in association with keywords are registered Then, the lip image including the lip region of the subject is generated from the finder image and input to the multi-class classifier, and the multidimensional score vector corresponding to the lip image based on the finder image obtained as a result is obtained. Generating means for generating a time series feature for recognition by arranging in time series, the generated time series feature for recognition, and registered in the registration database; That on the basis of a comparison result of a model, and controls the imaging unit to function as an auto shutter control means for executing an imaging process.
本発明の一側面においては、ファインダ画像から被写体の唇領域を含む唇画像が生成されて多クラス判別器に入力され、その結果得られたファインダ画像に基づく唇画像に対応する多次元スコアベクトルが時系列に配置されて認識用時系列特徴量が生成され、生成された認識用時系列特徴量と、登録用データベースに登録されているモデルとの比較結果に基づき、撮像手段が制御されて撮像処理が実行される。 In one aspect of the present invention, a lip image including a lip region of a subject is generated from a finder image and input to a multi-class classifier, and a multidimensional score vector corresponding to the lip image based on the obtained finder image is obtained. Time-series feature quantities for recognition are generated by being arranged in time series. Based on the comparison result between the generated time-series feature quantities for recognition and models registered in the registration database, the imaging means is controlled to capture images. Processing is executed.
本発明の一側面によれば、ファインダ画像に基づいて被写体の発話内容を識別し、所定のキーワードが発話されたことに応じて撮像を行うことができる。 According to an aspect of the present invention, it is possible to identify the utterance content of a subject based on a finder image and perform imaging in response to a predetermined keyword being uttered.
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。なお、説明は、以下の順序で行なう。
1.第1の実施の形態
2.第2の実施の形態
Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described in detail with reference to the drawings. The description will be given in the following order.
1. 1. First embodiment Second embodiment
<1.第1の実施の形態>
[発話認識装置の構成例]
図1は、第1の実施の形態である発話認識装置10の構成例を示している。この発話認識装置10は、話者を被写体としてビデオ撮像した動画像に基づいて、被写体の発話内容を識別するものである。
<1. First Embodiment>
[Configuration example of speech recognition device]
FIG. 1 shows a configuration example of an
発話認識装置10は、学習処理を実行する学習系11、登録処理を行う登録系12、および認識処理を行う認識系13から構成される。
The
学習系11には、画音分離部21、顔領域検出部22、唇領域検出部23、唇画像生成部24、音素ラベル付与部25、音素辞書26、口形素ラベル変換部27、口形素ラベル付加部28、学習サンプル保持部29、口形素判別器学習部30、および口形素判別器31が属する。
The
登録系12には、口形素判別器31、顔領域検出部41、唇領域検出部42、唇画像生成部43、発話期間検出部44、時系列特徴量生成部45、時系列特徴量学習部46、および発話認識器47が属する。
The
認識形13は、口形素判別器31、顔領域検出部41、唇領域検出部42、唇画像生成部43、発話期間検出部44、時系列特徴量生成部45、および発話認識器47が属する。
The recognition form 13 includes a
すなわち、口形素判別器31は、学習系11、登録系12、および認識形13に重複して属し、登録系12から時系列特徴量学習部46を削除したものが認識系13となる。
That is, the
画音分離部21は、任意の言葉を話している話者をビデオ撮影して得られる音声付動画像(以下、学習用音声付発話動画像と称する)を入力とし、これを学習用発話動画像と学習用発話音声とに分離する。分離された学習用発話動画像は顔領域検出部22に入力され、分離された学習用発話音声は音素ラベル付与部25に入力される。
The image / sound separation unit 21 receives a moving image with sound (hereinafter referred to as a learning moving image with sound) obtained by video-taking a speaker who speaks an arbitrary word, and uses this as a learning speech video for learning. Separation into images and speech for learning. The separated learning utterance moving image is input to the face area detection unit 22, and the separated learning utterance voice is input to the phoneme
なお、学習用音声付発話動画像は、この学習のためにビデオ撮影を行って用意してもよいし、例えばテレビジョン番組などのコンテンツを利用してもよい。 Note that the learning speech-added speech moving image may be prepared by taking a video for this learning, or may use content such as a television program.
顔領域検出部22は、学習用発話動画像を各フレームに分割し、各フレームについて、図2Aに示すように、人の顔を含む顔領域を検出し、学習用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部23に出力する。
The face area detection unit 22 divides the learning utterance moving image into each frame, detects a face area including a human face for each frame, as shown in FIG. 2A, and together with the learning utterance moving image, The position information of the face area is output to the lip
唇領域検出部23は、学習用発話動画像の各フレームの顔領域から、図2Bに示すように、唇の口角の端点を含む唇領域を検出し、学習用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部24に出力する。
As shown in FIG. 2B, the lip
なお、顔領域および唇領域の検出方法については、例えば特開2005−284348号公報、特開2009−49489号公報などに開示されている手法など、既存の任意の手法を適用できる。 As a method for detecting the face region and the lip region, any existing method such as the method disclosed in Japanese Patent Application Laid-Open Nos. 2005-284348 and 2009-49489 can be applied.
唇画像生成部24は、学習用発話動画像の各フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部24は、回転補正後の各フレームから唇領域を抽出し、図2Cに示すように、抽出した唇領域を予め定められた画像サイズ(例えば、32×32画素)にリサイズすることにより唇画像を生成する。このようにして生成された各フレームに対応する唇画像は口形素ラベル付加部28に供給される。
The lip
音素ラベル付与部25は、音素辞書26を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部27に出力する。音素ラベルを付与する方法には、例えば、音声認識の研究分野において自動音素ラベリングと称されている方法を適用できる。
The phoneme
口形素ラベル変換部27は、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部28に出力する。なお、この変換には、予め用意されている変換テーブルを用いる。
The viseme
図3は、音素ラベルを口形素ラベルに変換する変換テーブルの一例を示している。同図の変換テーブルを用いた場合、40種類に分類されている音素ラベルが、19種類に分類されている口形素ラベルに変換される。例えば、音素ラベル[a]および[a:]が口形素ラベル[a]に変換される。また例えば、音素ラベル[by],[my]および[py]が口形素ラベル[py]に変換される。なお、変換テーブルは、図3に示されたものに限らず、他の変換テーブルを用いてもよい。 FIG. 3 shows an example of a conversion table for converting phoneme labels into viseme labels. When the conversion table of FIG. 5 is used, the phoneme labels classified into 40 types are converted into viseme labels classified into 19 types. For example, phoneme labels [a] and [a:] are converted into viseme labels [a]. Also, for example, phoneme labels [by], [my], and [py] are converted into viseme labels [py]. Note that the conversion table is not limited to that shown in FIG. 3, and other conversion tables may be used.
口形素ラベル付加部28は、唇画像生成部24から入力される学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部27から入力される学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部29に出力する。
The viseme
学習サンプル保持部29は、口形素ラベルが付加された複数の唇画像(以下、口形素ラベル付唇画像と称する)を学習サンプルとして保持する。
The learning
より具体的には、図4に示すように、M枚の唇画像xi(i=1,2,・・・,M)に、口形素ラベルに相当するクラスラベルyk(k=1,2,・・・,K)が付与されて状態で、M個の学習サンプル(xi,yk)を保持する。なお、いまの場合、クラスラベルの種類の数Kは19となる。 More specifically, as shown in FIG. 4, class labels y k (k = 1, 1) corresponding to viseme labels are added to M lip images x i (i = 1, 2,..., M). 2,..., K) and M learning samples (x i , y k ) are held. In this case, the number K of class label types is 19.
口形素判別器学習部30は、学習サンプル保持部29に保持されている複数の学習サンプルとしての口形素ラベル付唇画像からその画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器31を生成する。
The viseme
唇画像の画像特徴量としては、例えば、本発明者等が提案するPixDif Feature(ピクセル差分特徴)を用いることができる。 As the image feature amount of the lip image, for example, PixDif Feature (pixel difference feature) proposed by the present inventors can be used.
なお、PixDif Feature(ピクセル差分特徴)については、”佐部、日台、「ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習」、第10回画像センシングシンポジウム予稿集、pp.547-552, 2004.”、特開2005−157679号公報などに開示されている。 As for PixDif Feature (pixel difference feature), “Sabe, Nitadai,“ Learning real-time arbitrary posture face detector using pixel difference feature ”, Proceedings of 10th Image Sensing Symposium, pp.547- 552, 2004. ”, JP-A-2005-157679, and the like.
ピクセル差分特徴は、画像(いまの場合、唇画像)上の2画素の画素値(輝度値)I1,I2の差分(I1−I2)を算出することによって得られる。2画素の各組み合わせにそれぞれ対応する2値判別弱判別器h(x)では、次式(1)に示すように、このピクセル差分特徴I1−I2と閾値Thにより真(+1)、または偽(−1)が判別される。
h(x)=−1 if I1−I2≦Th
h(x)=+1 if I1−I2>Th
・・・(1)
The pixel difference feature is obtained by calculating a difference (I 1 −I 2 ) between two pixel values (luminance values) I 1 and I 2 on an image (in this case, a lip image). In the binary discriminant weak discriminator h (x) corresponding to each combination of two pixels, as shown in the following equation (1), true (+1) by the pixel difference feature I 1 -I 2 and the threshold Th, or False (-1) is determined.
h (x) = − 1 if I 1 −I 2 ≦ Th
h (x) = + 1 if I 1 −I 2 > Th
... (1)
例えば、唇画像のサイズを32×32画素として場合、1024×1023通りのピクセル差分特徴が得られることになる。これら複数通りの2画素の組み合わせとその閾値Thが各2値判別弱判別器のパラメータとなり、これらのうちの最適なものがブースティング学習により選択される。 For example, when the size of the lip image is 32 × 32 pixels, 1024 × 1023 pixel difference features are obtained. These two combinations of two pixels and the threshold value Th thereof become the parameters of each binary discrimination weak discriminator, and the optimum one of these is selected by boosting learning.
口形素判別器31は、発話期間検出部44から通知される発話期間において、唇画像生成部43から入力される唇画像に対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。
The
ここで、K次元スコアベクトルは、入力された唇画像が、K(いまの場合、K=19)種類の口形素のうちのどれに対応するものであるかを示す指標であって、K種類の各口形素に対応するものである可能性を示すK次元のスコアからなる。 Here, the K-dimensional score vector is an index indicating which of the K (in this case, K = 19) types of visemes the input lip image corresponds to. It consists of a K-dimensional score indicating the possibility of corresponding to each viseme.
登録系12および認識系13の顔領域検出部41、唇領域検出部42、および唇画像生成部43は、上述した学習系11に属する顔領域検出部22、唇領域検出部23、および唇画像生成部24と同様のものである。
The face
なお、登録系12には、予め決められている発話内容(登録用発話単語)とそれを発話している話者をビデオ撮影した動画像(以下、登録用発話動画像と称する)とを組み合わせた複数の登録用データが入力される。
The
また、認識系13には、認識対象となる、発話内容を話す話者をビデオ撮影した動画像(以下、認識用発話動画像と称する)が入力される。 The recognition system 13 is input with a moving image (hereinafter, referred to as a recognition utterance moving image) obtained by taking a video of a speaker who speaks the utterance content to be recognized.
すなわち、登録処理時において、顔領域検出部41は、登録用発話動画像を各フレームに分割し、各フレームについて、顔領域を検出し、登録用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部42に出力する。
That is, during the registration process, the face
唇領域検出部42は、登録用動画像の各フレームの顔領域から唇領域を検出し、登録用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部43に出力する。
The lip
唇画像生成部43は、登録用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器31および発話期間検出部44に出力する。
The lip
また、認識処理時において、顔領域検出部41は、認識用発話動画像(話者の発話内容が不明である動画像)を各フレームに分割し、各フレームについて、顔領域を検出し、認識用発話動画像とともに各フレームの顔領域の位置情報を唇領域検出部42に出力する。
In the recognition process, the face
唇領域検出部42は、認識用発話動画像の各フレームの顔領域から唇領域を検出し、認識用発話動画像とともに各フレームの唇領域の位置情報を唇画像生成部43に出力する。
The lip
唇画像生成部43は、認識用発話動画像の各フレームを適宜、回転補正した後、各フレームから唇領域を抽出し、リサイズして唇画像を生成し、口形素判別器31および発話期間検出部44に出力する。
The lip
発話期間検出部44は、唇画像生成部43から入力される、登録用発話動画像または認識用発話動画像の各フレームの唇画像に基づき、話者が発話している期間(以下、発話期間と称する)を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器31および時系列特徴量生成部45に通知する。
The utterance
時系列特徴量生成部45は、発話期間検出部44から通知される発話期間において、口形素判別器31から入力されるK次元スコアベクトルを時系列に配置することにより、時系列特徴量を生成する。
The time series feature
図5は、話者が「おもしろい」と話したときの発話期間に対応する時系列特徴量を示している。すなわち、この発話期間を1秒間と仮定し、フレームレートを60フレーム/秒とすれば、60Kのスコアからなる時系列特徴量が生成される。生成された時系列特徴量は、登録処理時には時系列特徴量学習部46に出力され、認識処理時には発話認識部47に出力される。
FIG. 5 shows time-series feature amounts corresponding to the utterance period when the speaker speaks “interesting”. That is, assuming that this utterance period is 1 second and the frame rate is 60 frames / second, a time-series feature amount having a score of 60K is generated. The generated time-series feature amount is output to the time-series feature
時系列特徴量学習部46は、登録処理時において、入力される登録用発話単語(登録用発話動画像における話者の発話内容)に対応付けて、時系列特徴量生成部45から入力される時系列特徴量をHMM(Hidden Markov Model)を用いてモデル化する。なお、モデル化の手法はHMMに限られず、時系列特徴量をモデル化できるものであればよい。モデル化された時系列特徴量は発話認識器47に内蔵された学習データベース48に保持される。
The time-series feature
発話認識器47は、認識処理時において、時系列特徴量生成部45から入力される時系列特徴量に対して、学習データベース48に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器47は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。
The
[動作説明]
図6は、発話認識装置10の動作を説明するフローチャートである。
[Description of operation]
FIG. 6 is a flowchart for explaining the operation of the
ステップS1において、発話認識装置10の学習系11は、学習処理を実行することによって口形素判別器31を生成する。
In step S1, the
ステップS2において、発話認識装置10の登録系12は、登録処理を実行することによって、登録用発話動画像に対応する時系列特徴量を生成し、HMMを用いてモデル化し、これに登録用発話単語を対応付けて学習データベース48に登録する。
In step S2, the
ステップS3において、発話認識装置10の認識系13は、認識処理を実行することによって、認識用発話動画像における話者の発話内容を認識する。
In step S <b> 3, the recognition system 13 of the
以下、上述したステップS1乃至S3の処理の詳細について説明する。 Hereinafter, the details of the processing in steps S1 to S3 described above will be described.
[学習処理の詳細]
図7は、ステップS1の学習処理を詳細に説明するフローチャートである。
[Details of learning process]
FIG. 7 is a flowchart for explaining the learning process in step S1 in detail.
ステップS11において、学習用音声付発話動画像が画音分離部21に入力される。画音分離部21は、学習用音声付発話動画像を学習用発話動画像と学習用発話音声とに分離し、学習用発話動画像を顔領域検出部22に、学習用発話音声を音素ラベル付与部25に出力する。
In step S <b> 11, the learning speech-added speech moving image is input to the image sound separation unit 21. The image sound separation unit 21 separates the learning speech-added speech moving image into the learning speech moving image and the learning speech speech, the learning speech moving image to the face area detection unit 22, and the learning speech speech to the phoneme label. It outputs to the
ステップS12において、学習用発話動画像の処理が行われる。また、ステップS13において、学習用発話音声の処理が行われる。なお、ステップS12とステップS13とは、実際には並行して同時に実行される。そして、学習用発話動画像の処理の出力(唇画像)と、それに対応する学習用発話音声の処理の出力(口形素ラベル付き学習用発話音声)が口形素ラベル付加部28に同時に供給されることになる。
In step S12, the learning utterance moving image is processed. In step S13, the learning speech is processed. Note that step S12 and step S13 are actually executed simultaneously in parallel. Then, the learning utterance moving image processing output (lip image) and the corresponding learning utterance speech processing output (learning speech with viseme label) are simultaneously supplied to the viseme
図7は、ステップS12における学習用発話動画像の処理を詳細に説明するフローチャートである。 FIG. 7 is a flowchart for explaining in detail the processing of the learning speech moving image in step S12.
ステップS21において、顔領域検出部22は、学習用発話動画像を各フレームに分割し、1フレームずつ処理対象とする。ステップS22において、顔領域検出部22は、処理対象のフレームから顔領域を検出し、ステップS23において、顔領域を検出できたか否か判定する。顔領域を検出できたと判定された場合、処理はステップS24に進められる。反対に、顔領域を検出できなかったと判定された場合、処理はステップS26に進められる。 In step S <b> 21, the face area detection unit 22 divides the learning utterance moving image into frames, and sets each frame as a processing target. In step S22, the face area detection unit 22 detects a face area from the frame to be processed, and determines in step S23 whether the face area has been detected. If it is determined that the face area has been detected, the process proceeds to step S24. On the other hand, if it is determined that the face area cannot be detected, the process proceeds to step S26.
ステップS24において、顔領域検出部22は、処理対象としている1フレーム分の学習用発話動画像とともに顔領域の位置情報を唇領域検出部23に出力する。唇領域検出部23は、処理対象のフレームの顔領域から唇領域を検出し、ステップS25において、唇領域を検出できたか否か判定する。唇領域を検出できたと判定された場合、処理はステップS27に進められる。反対に、唇領域を検出できなかったと判定された場合、処理はステップS26に進められる。
In step S <b> 24, the face area detection unit 22 outputs position information of the face area to the lip
なお、ステップS23またはステップS25から、処理がステップS26に進められた場合、処理対象としているフレームの1フレーム前の顔領域または唇領域の少なくとも一方の位置情報が流用される。 When the process proceeds from step S23 or step S25 to step S26, the position information of at least one of the face area or the lip area one frame before the frame to be processed is used.
ステップS27において、唇領域検出部23は、処理対象としている1フレーム分の学習用発話動画像とともに唇領域の位置情報を唇画像生成部24に出力する。唇画像生成部24は、処理対象としている学習用発話動画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部24は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズすることにより唇画像を生成して口形素ラベル付加部28に出力する。
In step S <b> 27, the lip
この後、ステップS21に戻り、学習用発話動画像信号の入力が終わるまで、ステップS21乃至S27の処理が繰り返される。 Thereafter, the process returns to step S21, and the processes of steps S21 to S27 are repeated until the input of the learning utterance moving image signal is completed.
次に、図9は、ステップS13における学習用発話音声の処理を詳細に説明するフローチャートである。 Next, FIG. 9 is a flowchart for explaining in detail the processing of the learning speech voice in step S13.
ステップS31において、音素ラベル付与部25は、音素辞書26を参照することにより、学習用発話音声に対してその音素を示す音素ラベルを付与して口形素ラベル変換部27に出力する。
In step S <b> 31, the phoneme
ステップS32において、口形素ラベル変換部27は、予め保持する変換テーブルを用い、学習用発話音声に付与されている音素ラベルを、発話時の唇の形を示す口形素ラベルに変換して口形素ラベル付加部28に出力する。
In step S32, the viseme
この後、ステップS31に戻り、学習用発話音声の入力が終わるまで、ステップS31およびS32の処理が繰り返される。 Thereafter, the process returns to step S31, and the processes of steps S31 and S32 are repeated until the input of the learning speech voice is completed.
図7に戻る。ステップS14において、口形素ラベル付加部28は、唇画像生成部24から入力された学習用発話動画像の各フレームに対応する唇画像に対し、口形素ラベル変換部27から入力された学習用発話音声に付与された口形素ラベルを流用して付加し、口形素ラベルが付加された唇画像を学習サンプル保持部29に出力する。学習サンプル保持部29は、口形素ラベル付唇画像を学習サンプルとして保持する。学習サンプル保持部29に所定の数Mの学習サンプルが保持された後、ステップS15以降の処理が行われる。
Returning to FIG. In step S <b> 14, the viseme
ステップS15において、口形素判別器学習部30は、学習サンプル保持部29に保持されている複数の学習サンプルとしての唇画像の画像特徴量を求め、AdaBoostECOCにより複数の弱判別器を学習し、これら複数の弱判別器からなる口形素判別器31を生成する。
In step S15, the viseme
図10は、ステップS15の処理(AdaBoostECOC学習処理)を詳細に説明するフローチャートである。 FIG. 10 is a flowchart for explaining in detail the process of step S15 (AdaBoostECOC learning process).
ステップS41において、口形素判別器学習部30は、図4に示されたように、M個の学習サンプル(xi,yk)を学習サンプル保持部29から取得する。
In step S41, the viseme
ステップS42において、口形素判別器学習部30は、次式(2)に従い、M行K列で表されるサンプル重みPt(i,k)を初期化する。具体的には、サンプル重みPt(i,k)の初期値P1(i,k)を、実在する学習サンプル(xi,yk)に対応するものは0に、それ以外はそれらの総和が1となるような一様な値に設定する。
P1(i,k)=1/M(K−1) for yk≠k
・・・(2)
In step S42, the viseme
P 1 (i, k) = 1 / M (K−1) for y k ≠ k
... (2)
以下に説明するステップS43乃至ステップS48の処理は任意の数Tだけ繰り返される。なお、任意の繰り返し回数Tは、最大で唇画像上で得られるピクセル差分特徴の数とすることができ、この繰り返し回数Tと同じ数だけ弱判別器が生成される。 The processes in steps S43 to S48 described below are repeated an arbitrary number T. The arbitrary number of repetitions T can be the maximum number of pixel difference features obtained on the lip image, and as many weak discriminators as the number of repetitions T are generated.
ステップS43において、口形素判別器学習部30は、1行K列のECOCテーブルを生成する。なお、ECOCテーブルのk列の値μt(k)は−1または+1であり、−1と+1の数が同数となるようにランダムに割り振られる。
μt(k)={−1,+1}
・・・(3)
In step S43, the viseme
μ t (k) = {− 1, + 1}
... (3)
ステップS44において、口形素判別器学習部30は、次式(4)に従い、M行1列で表される2値判別用重みDt(i)を計算する。なお、式(4)において、[]内は論理式であり、真であれば1、偽であれば0とする。
ステップS45において、口形素判別器学習部30は、ステップS44で得られた2値判別用重みDt(i)の下、次式(5)に示す重み付き誤り率εtを最小とする2値判別弱判別器htを学習する。
図11は、ステップS45の処理を詳細に説明するフローチャートである。 FIG. 11 is a flowchart for explaining the process of step S45 in detail.
ステップS61において、口形素判別器学習部30は、唇画像の全画素からランダムに2画素を選択する。例えば、唇画像を32×32画素とした場合、2画素の選択は、1024×1023通りのうちの1つを選ぶことになる。ここで、選択した2画素の画素位置をS1,S2とし、その画素値(輝度値)をI1,I2とする。
In step S61, the viseme
ステップS62において、口形素判別器学習部30は、全ての学習サンプルについて、ステップS61で選択した2画素の画素値I1,I2を用いたピクセル差分特徴(I1−I2)を算出し、その頻度分布を求める。
In step S62, the viseme
ステップS63において、口形素判別器学習部30は、ピクセル差分特徴の頻度分布に基づき、式(5)に示された重み付き誤り率εtを最小εminにする閾値Thminを求める。
In step S63, the viseme
ステップS64において、口形素判別器学習部30は、ピクセル差分特徴の頻度分布に基づき、式(5)に示された重み付き誤り率εtを最大εmaxにする閾値Thmaxを求める。さらに、口形素判別器学習部30は、次式(6)に従い、閾値Thmaxなどを反転する。
ε’max=1−εmax
S’1=S2
S’2=S1
Th’max=−Thmax
・・・(6)
In step S <b> 64, the viseme
ε ′ max = 1−ε max
S ′ 1 = S 2
S ′ 2 = S 1
Th ' max = -Th max
... (6)
ステップS65において、口形素判別器学習部30は、上述した重み付き誤り率εtの最小εminと最大εmaxの大小関係に基づいて、2値判別弱判別器のパラメータである2画素の位置S1,S2と閾値Thを決定する。
In step S65, the viseme
すなわち、εmin<ε’maxの場合、2画素の位置S1,S2と閾値Thminをパラメータとして採用する。また、εmin≧ε’maxの場合、2画素の位置S’1,S’2と閾値Th’maxをパラメータとして採用する。 That is, when ε min <ε ′ max , the positions S 1 and S 2 of two pixels and the threshold Th min are adopted as parameters. When ε min ≧ ε ′ max , the positions S ′ 1 and S ′ 2 of two pixels and the threshold Th ′ max are employed as parameters.
ステップS66において、口形素判別器学習部30は、上述したステップS61乃至S65の処理を所定の回数繰り返したか否かを判定し、所定の回数繰り返したと判定するまでステップS61に戻り、それ以降を繰り返す。そして、ステップS61乃至S65の処理を所定の回数繰り返したと判定した場合、処理をステップS67に進める。
In step S66, the viseme
ステップS67において、口形素判別器学習部30は、上述したように所定の回数繰り返されるステップS65の処理において決定された2値判別弱判別器(のパラメータ)のうち、重み付き誤り率εtが最小となるものを1つの2値判別弱判別器ht(のパラメータ)として最終的に採用する。
In step S67, the viseme
以上説明したように、1つの2値判別弱判別器htが決定された後、処理は図10のステップS46にリターンする。 As described above, after one binary discrimination weak discriminator ht is determined, the process returns to step S46 in FIG.
ステップS46において、口形素判別器学習部30は、ステップS45の処理で決定した2値判別弱判別器htに対応する重み付き誤り率εtに基づき、次式(7)に従い信頼度αtを計算する。
ステップS47において、口形素判別器学習部30は、次式(8)に示すように、ステップS45の処理で決定した2値判別弱判別器htと、ステップS46の処理で計算した信頼度αtを乗算することにより、信頼度付き2値判別弱判別器ft(xi)を求める。
ft(xi)=αtht
・・・(8)
In step S47, the viseme
f t (x i ) = α t h t
... (8)
ステップS48において、口形素判別器学習部30は、次式(9)に従い、M行K列で表されるサンプル重みPt(i,k)を更新する。
ただし、式(9)のZiは次式(10)に示すとおりである。
ステップS49において、口形素判別器学習部30は、上述したステップS43乃至S48の処理を所定の回数Tだけ繰り返したか否かを判定し、所定の回数Tだけ繰り返したと判定するまでステップS43に戻り、それ以降を繰り返す。そして、ステップS43乃至S48の処理を所定の回数Tだけ繰り返したと判定した場合、処理をステップS50に進める。
In step S49, the viseme
ステップS50において、口形素判別器学習部30は、所定の数Tと同じ数だけ得られた信頼度付き2値判別弱判別器ft(x)、およびそれぞれに対応するECOCテーブルに基づき、次式(11)に従って最終判別器Hk(x)、すなわち口形素判別器31を得る。
なお、得られた口形素判別器31はパラメータとして、クラスの数(口形素の数)K、および弱判別器の数Tを有する。また、各弱判別器はパラメータとして、唇画像上の2画素の位置S1,S2、ピクセル差分特徴の判別用の閾値Th、信頼度α、およびECOCテーブルμを有する。
The obtained
以上説明したように最終判別器Hk(x)、すなわち口形素判別器31を得て、当該AdaBoostECOC学習処理は終了される。
As described above, the final discriminator H k (x), that is, the
以上のように生成された口形素判別器31によれば、入力される唇画像の画像特徴量をK次元スコアベクトルで表現できる。すなわち、登録用発話動画像の各フレームから生成される唇画像がK(いまの場合、19)種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。また、認識用発話動画像の各フレームから生成される唇画像に対しても同様に、K種類の口形素のそれぞれに対してどの程度似ているかを数値化して表すことができる。
According to the
[登録処理の詳細]
図12は、ステップS2の登録処理を詳細に説明するフローチャートである。
[Details of registration process]
FIG. 12 is a flowchart illustrating in detail the registration process in step S2.
ステップS71において、登録系12は、図7を参照して上述した学習系11による学習用発話動画像の処理と同様の処理を実行することにより、登録用発話動画像の各フレームに対応する唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
In step S <b> 71, the
ステップS72において、発話期間検出部44は、登録用発話動画像の各フレームの唇画像に基づき発話期間を特定し、各フレームの唇画像が発話期間に対応するものであるか否かを口形素判別器31および時系列特徴量生成部45に通知する。口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算する。
In step S72, the utterance
図13は、口形素判定器31によるK次元スコアベクトル演算処理を詳細に説明するフローチャートである。
FIG. 13 is a flowchart for explaining in detail the K-dimensional score vector calculation process by the
ステップS81において、口形素判定器31は、クラスを示すパラメータk(k=1,2,・・・,K)を1に初期化する。ステップS82において、口形素判定器31は、各クラスのスコアHkを0に初期化する。
In step S81, the
ステップS83において、口形素判定器31は、弱判別器を特定するためのパラメータt(t=1,2,・・・,T)を1に初期化する。
In step S83, the
ステップS84において、口形素判定器31は、2値判別弱判別器htのパラメータ、すなわち、唇画像x上の2画素の位置S1,S2、ピクセル差分特徴の判別用の閾値Th、信頼度α、およびECOCテーブルμを設定する。
In step S84, the
ステップS85において、口形素判定器31は、唇画像x上の2画素の位置S1,S2から画素値I1,I2を読み出し、ピクセル差分特徴(I1−I2)を算出して閾値Thと比較することにより、2値判別弱判別器htの判別値(−1または+1)を得る。
In step S85, the
ステップS86において、口形素判定器31は、ステップS85で得た2値判別弱判別器htの判別値に信頼度αtを乗算し、さらに1行K列のECOCテーブルの値μt(k)を乗算することにより、パラメータtに対応する1行K列のクラススコアHkを得る。
In step S86, the
ステップS87において、口形素判定器31は、ステップS86で得た、パラメータtに対応する1行K列のクラススコアHkを、前回(すなわち、t−1)までのクラススコアHkの累計値に加算することにより、1行K列のクラススコアHkを更新する。
In step S87, the
ステップS88において、口形素判定器31は、パラメータt=Tであるか否かを判定し、否と判定した場合、処理をステップS89に進めてパラメータtを1だけインクリメントする。そして、処理はステップS84に戻され、それ以降の処理が繰り返される。その後、ステップS88において、パラメータt=Tであると判定された場合、処理はステップS90に進められる。
In step S88, the
ステップS90において、口形素判定器31は、パラメータk=Kであるか否かを判定し、パラメータk=Kではないと判定した場合、処理をステップS91に進めてパラメータkを1だけインクリメントする。そして、処理はステップS83に戻され、それ以降の処理が繰り返される。その後、ステップS90において、パラメータk=Kであると判定された場合、処理はステップS92に進められる。
In step S90, the
ステップS92において、口形素判定器31は、その時点で得られている1行K列のクラススコアHkを口形素判定器31の出力、すなわち、K次元スコアベクトルとして後段(いまの場合、時系列特徴量生成部45)に出力する。以上で、K次元スコアベクトル演算処理は終了される。
In step S92, the
図12に戻る。ステップS73において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、登録用発話動画像の発話期間に対応した時系列特徴量を生成する。
Returning to FIG. In step S73, the time-series feature
ステップS74において、時系列特徴量学習部46は、登録用発話動画像とともに外部から供給された登録用発話単語(登録用発話動画像における話者の発話内容)に対応付けて、時系列特徴量生成部45から入力された時系列特徴量をHMMによりモデル化する。モデル化された時系列特徴量は、発話認識器47に内蔵された学習データベース48に保持される。以上で、登録処理は終了される。
In step S74, the time-series feature
[認識処理の詳細]
図14は、認識処理を詳細に説明するフローチャートである。
[Details of recognition processing]
FIG. 14 is a flowchart for explaining the recognition process in detail.
認識系13は、入力された認識用発話動画像に対し、ステップS101乃至S103の処理として、図12を参照して上述した登録系12による登録処理のステップS71乃至S73と同様の処理を行う。この結果、認識用発話動画像の発話期間に対応した時系列特徴量が生成される。生成された認識用発話動画像の発話期間に対応した時系列特徴量は、発話認識器47に入力される。
The recognition system 13 performs the same processing as steps S71 to S73 of the registration processing by the
ステップS104において、発話認識器47は、時系列特徴量生成部45から入力された時系列特徴量に対して、学習データベース48に保持されているモデルのうちで最も類似しているものを特定する。さらに、発話認識器47は、特定したモデルに対応付けられている登録用発話単語を、認識用発話動画像に対応する発話認識結果として出力する。以上で、認識処理は終了される。
In step S <b> 104, the
[認識実験の結果]
次に、発話認識装置10による認識実験の結果について説明する。
[Results of recognition experiment]
Next, the result of the recognition experiment by the
この認識実験では、学習処理において、216単語を発声する73人の被験者(話者)をそれぞれ個別にビデオ撮影した学習用音声付発話動画像を用いた。また、登録処理においては、学習処理時の216単語のうちの、図15に示す20単語を登録発話単語に選択し、それに対応する学習用発話動画像を登録用発話動画像に流用した。また、HMMを用いたモデル化では、遷移確率をleft-to-rightに制約し、40状態の遷移モデルとした。 In this recognition experiment, 73 learning subjects (speakers) who uttered 216 words were used in the learning process, and utterance moving images with voice for learning were used. In the registration process, 20 words shown in FIG. 15 out of 216 words in the learning process are selected as registered utterance words, and the learning utterance moving images corresponding to the 20 words are used as registration utterance moving images. In the modeling using the HMM, the transition probability is restricted to left-to-right, and a 40-state transition model is used.
そして、認識処理では、学習処理および登録処理と同じ被験者の認識用発話動画像を用いたクローズ評価と、学習処理および登録処理とは異なる被験者の認識用発話動画像を用いたオープン評価を行い、図16に示す認識率を得ることができた。 In the recognition process, a close evaluation using the same subject utterance moving image as the learning process and the registration process, and an open evaluation using the subject utterance moving image different from the learning process and the registration process, The recognition rate shown in FIG. 16 could be obtained.
図16は、ある登録用発話単語Wを発話している認識用発話動画像に対応する時系列特徴量が、20種類の各登録用発話単語にそれぞれ対応する各HMMにどの程度類似しているかを順位付けした際に、正解(登録用発話単語Wに対応するHMM)がM番目(横軸)までに入っている確率(縦軸)を示している。 FIG. 16 shows how similar the time-series feature amount corresponding to the recognition utterance moving image uttering a certain utterance word W for registration is to each HMM corresponding to each of the 20 types of utterance words for registration. The probability (vertical axis) that the correct answer (HMM corresponding to the utterance word W for registration) is included up to the Mth (horizontal axis) is shown.
同図によれば、クローズ評価の場合には96%の識別率を得ることができた。また、オープン評価の場合には80%の識別率を得ることができた。 According to the figure, in the case of close evaluation, an identification rate of 96% could be obtained. In the case of open evaluation, an identification rate of 80% was obtained.
なお、上述した認識実験では、学習処理と登録処理の被験者(話者)を共通とし、登録用発話動画像に学習用発話動画像を流用したが、学習処理と登録処理の被験者(話者)を別人としてもよく、さらに、認識処理の被験者(話者)をさらに別人としてもよい。 In the above-described recognition experiment, the learning process and the registration process subject (speaker) are shared, and the learning utterance moving image is diverted to the registration utterance moving image, but the learning process and registration process subject (speaker). May be another person, and the subject (speaker) of the recognition process may be another person.
以上説明した、第1の実施の形態である発話認識装置10によれば、入力された画像(いまの場合、唇画像)の特徴量を演算するための判別器を学習により生成するので、認識したい対象に対して、その都度、判別器を新たに設計する不要ない。したがって、ラベルの種類を変更することにより、例えば動画像からジェスチャや手書き文字を識別したりする認識装置にも容易に適用できる。
According to the
また、学習処理によって、個人差の大きい部位の画像に対して汎用性のある特徴量を抽出することができる。 In addition, by the learning process, it is possible to extract a versatile feature amount for an image of a part having a large individual difference.
さらに、画像特徴量に比較的演算量が少ないピクセル差分を用いたので、リアルタイムな認識処理が可能になる。 Furthermore, since the pixel difference having a relatively small amount of calculation is used as the image feature amount, real-time recognition processing can be performed.
<2.第2の実施の形態>
[デジタルスチルカメラの構成例]
次に、図17は、第2の実施の形態であるデジタルスチルカメラ60の構成例を示している。このデジタルスチルカメラ60は、読唇技術を応用したオートシャッタ機能を有している。具体的には、被写体となる人物が「ハイ、チーズ」などと所定のキーワード(以下、シャッタキーワードと称する)を発話したことを検出した場合、これに応じてシャッタをきる(静止画像を撮像する)ようにしたものである。
<2. Second Embodiment>
[Configuration example of digital still camera]
Next, FIG. 17 shows a configuration example of a digital
このデジタルスチルカメラ60は、撮像部61、画像処理部62、記録部63、U/I部64、撮像制御部65、およびオートシャッタ制御部66から構成される。
The digital
撮像部61は、レンズ群、CMOS(Complementary Metal-Oxide Semiconductor)等の撮像素子(いずれも図示せず)から構成され、被写体の光学像を取得して電気信号に変換し、その結果得られる画像信号を後段に出力する。
The
すなわち、撮像部61は、撮像制御部65からの制御に従い、撮像前の段階において画像信号を撮像制御部65およびオートシャッタ制御部66に出力する。また、撮像部61は、撮像制御部65からの制御に従って撮像を行い、その結果得られる画像信号を画像処理部62に出力する。
That is, the
以下、撮像前の構図決定用に撮像制御部65に出力されてU/I部64に含まれるディスプレイ(不図示)に表示される動画像をファインダ画像と称する。ファインダ画像は、オートシャッタ制御部66にも出力される。また、撮像の結果として撮像部61から画像処理部62に出力される画像信号を記録画像と称する。
Hereinafter, a moving image that is output to the
画像処理部62は、撮像部61から入力される記録画像に所定の画像処理(例えば、手ぶれ補正、ホワイトバランス補正、画素補間など)を行った後、所定の符号化方式に従って符号化し、その結果得られた画像符号化データを記録部63に出力する。また、画像処理部62は、記録部63から入力される画像符号化データを復号し、その結果得られる画像信号(以下、再生画像と称する)を撮像制御部65に出力する。
The
記録部63は、画像処理部62から入力される画像符号化データを、図示せぬ記録メディアに記録する。また、記録部63は、記録メディアに記録されている画像符号化データを読み出して画像処理部62に出力する。
The
撮像制御部65は、デジタルスチルカメラ60の全体を制御する。特に、撮像処理部65は、U/I部64からのシャッタ操作信号、あるいはオートシャッタ制御部66からのオートシャッタ信号に従い、撮像部61を制御して撮像を実行させる。
The
U/I(user interface)部64は、ユーザによるシャッタ操作を受け付けるシャッタボタンに代表される各種の入力デバイスと、ファインダ画像や再生画像などを表示するディスプレイからなる。特に、U/I部64は、ユーザからのシャッタ操作に応じてシャッタ操作信号を撮像制御部65に出力する。
The U / I (user interface)
オートシャッタ制御部66は、撮像部61から入力されるファインダ画像に基づき、被写体となる人物によるシャッタキーワードの発話を検出した場合、これに応じてオートシャッタ信号を撮像制御部65に出力する。
When the auto
次に、図18は、オートシャッタ制御部66の詳細な構成例を示している。
Next, FIG. 18 shows a detailed configuration example of the auto
同図と図1を比較して明らかなように、オートシャッタ制御部66は、図1の発話認識装置10の登録系12および認識系13と同様の構成に加えて、オートシャッタ信号出力部71が追加されて構成される。オートシャッタ制御部66の、図1の発話認識装置10と共通する構成要素には同一の番号を付しているので、その説明は省略する。
As is clear from comparison between FIG. 1 and FIG. 1, the auto
ただし、オートシャッタ制御部66における口形素判別器31は既に学習済みのものである。
However, the
オートシャッタ信号出力部71は、発話認識器47からの発話認識結果が予め登録されているシャッタキーワードであることを示す場合、オートシャッタ信号を発生して撮像制御部65に出力する。
When the utterance recognition result from the
[動作説明]
次に、デジタルスチルカメラ60の動作について説明する。デジタルスチルカメラ60の動作には、通常撮影モード、通常再生モード、オートシャッタ登録モード、オートシャッタ実行モードなどが設けられている。
[Description of operation]
Next, the operation of the digital
通常撮影モードでは、ユーザによるシャッタ操作に応じて撮影が行われる。通常再生モードでは、ユーザによる再生操作に応じて撮影済みの画像が再生されて表示される。 In the normal shooting mode, shooting is performed according to the shutter operation by the user. In the normal playback mode, captured images are played back and displayed in response to playback operations by the user.
シャッタキーワード登録モードでは、シャッタキーワードとする任意の言葉を発話する被写体(ユーザなど)の唇の動きを示す時系列特徴量のHMMが登録される。なお、デジタルスチルカメラ60を商品として出荷する段階において、予めシャッタキーワードとそれに対応する唇の動きを示す時系列特徴量のHMMを登録しておくようにしてもよい。
In the shutter keyword registration mode, a time-series feature amount HMM indicating the movement of the lips of a subject (such as a user) who speaks an arbitrary word as a shutter keyword is registered. It should be noted that, at the stage of shipping the digital
オートシャッタ実行モードでは、ファインダ画像に基づき、被写体となる人物の唇の動きを示す時系列特徴量が検出され、検出された時系列特徴量に基づいてシャッタキーワードを発話していると認識された場合に撮影が行われる。 In the auto shutter execution mode, a time series feature amount indicating the movement of the lips of the person who is the subject is detected based on the finder image, and it is recognized that the shutter keyword is uttered based on the detected time series feature amount. Shooting is done in case.
[シャッタキーワード登録処理の詳細]
次に、図19は、シャッタキーワード登録処理を説明するフローチャートである。
[Details of shutter keyword registration process]
Next, FIG. 19 is a flowchart for explaining shutter keyword registration processing.
このシャッタキーワード登録処理は、ユーザからの所定の操作に応じてシャッタキーワード登録モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。 The shutter keyword registration process is started when the shutter keyword registration mode is set according to a predetermined operation from the user, and is ended according to a predetermined operation from the user.
なお、このシャッタキーワード登録処理の開始を指示した後にユーザは、ファインダ画像に、シャッタキーワードとして登録したい言葉を発話している話者の顔が写るようにする。この話者には、オートシャッタ実行処理時に被写体となる人物を用いることが望ましいが、それ以外の例えばユーザ自身が話者となってもよい。そして、シャッタキーワードの発話が終了した後に、オートシャッタ学習処理の終了を指示するようにする。 In addition, after instructing the start of the shutter keyword registration process, the user causes the face of the speaker who speaks the word to be registered as the shutter keyword to appear in the finder image. For this speaker, it is desirable to use a person who becomes a subject during the auto-shutter execution process, but other users, for example, may be the speaker. Then, after the utterance of the shutter keyword is finished, the end of the auto shutter learning process is instructed.
ステップS121において、撮像制御部65は、オートシャッタ登録処理の終了が指示されたか否かを判定し、指示されていない場合、処理をステップS122に進める。
In step S121, the
ステップS122において、登録系12の顔領域検出部41は、ファインダ画像を各フレームに分割し、1フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。ステップS123において、顔領域検出部41は、処理対象のフレームから顔領域を1つだけ検出したか否かを判定し、複数の顔領域を検出した場合、または顔領域を1つも検出できなかった場合、処理をステップS124に進める。
In step S122, the face
ステップS124において、U/I部64は、シャッタキーワードとして登録したい言葉を発話する一人の話者だけがファインダ画像に写るようユーザに注意を促す。この後、処理はステップS121に戻り、それ以降が繰り返される。
In step S124, the U /
ステップS123において、処理対象のフレームから顔領域を1つだけ検出した場合、処理はステップS125に進められる。 If only one face area is detected from the processing target frame in step S123, the process proceeds to step S125.
ステップS125において、顔領域検出部41は、処理対象としている1フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部42に出力する。唇領域検出部42は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている1フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部43に出力する。
In step S <b> 125, the face
唇画像生成部43は、処理対象としているファインダ画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部43は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
The lip
ステップS126において、発話期間検出部44は、処理対象としているフレームの唇画像に基づき、当該フレームが発話期間であるか否かを判定し、判定結果を口形素判別器31および時系列特徴量生成部45に通知する。そして、発話期間であると判定された場合、処理はステップS127に進められる。反対に、発話期間ではないと判定された場合、ステップS127はスキップされる。
In step S126, the utterance
ステップS127において、口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。この後、処理はステップS121に戻り、オートシャッタ登録処理の終了が指示されるまで、ステップSS121乃至127の処理が繰り返される。
In step S127, the
そして、ステップS121において、オートシャッタ登録処理の終了が指示されたと判定された場合、処理はステップS128に進められる。 If it is determined in step S121 that the end of the auto shutter registration process has been instructed, the process proceeds to step S128.
ステップS128において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、登録したいシャッタキーワードに対応した時系列特徴量を生成する。
In step S128, the time-series feature
ステップS129において、時系列特徴量学習部46は、U/I部64から入力されるシャッタキーワードのテキストデータに対応付けて、時系列特徴量生成部45から入力された時系列特徴量を、HMMによりモデル化する。モデル化された時系列特徴量は、発話認識器47に内蔵された学習データベース48に保持される。以上で、シャッタキーワード登録処理は終了される。
In step S129, the time-series feature
[オートシャッタ実行処理の詳細]
次に、図20は、オートシャッタ実行処理を説明するフローチャートである。
[Details of auto shutter execution processing]
Next, FIG. 20 is a flowchart for explaining the auto shutter execution process.
このオートシャッタ実行処理は、ユーザからの所定の操作に応じてオートシャッタ実行モードとされたときに開始され、また、ユーザからの所定の操作に応じて終了される。 The auto shutter execution process is started when the auto shutter execution mode is set according to a predetermined operation from the user, and is ended according to a predetermined operation from the user.
ステップS141において、認識系12の顔領域検出部41は、ファインダ画像を各フレームに分割し、1フレームずつ処理対象とする。処理対象のフレームから顔領域を検出する。
In step S <b> 141, the face
ステップS142において、顔領域検出部41は、処理対象のフレームから顔領域を検出できたか否かを判定し、顔領域が検出できるまで、処理をステップS141に戻す。そして、処理対象のフレームから顔領域を検出できた場合、処理はステップS143に進められる。
In step S142, the face
なお、ここでは、シャッタキーワード登録処理時とは異なり、1フレームから複数の顔領域が検出されてもかまわない。1フレームから複数の顔領域が検出された場合、検出された各顔領域に対して並行し、これ以降の処理が実行される。 Here, unlike the shutter keyword registration process, a plurality of face regions may be detected from one frame. When a plurality of face areas are detected from one frame, the subsequent processes are executed in parallel with each detected face area.
ステップS143において、顔領域検出部41は、処理対象としている1フレーム分のファインダ画像とともに顔領域の位置情報を唇領域検出部42に出力する。唇領域検出部42は、処理対象のフレームの顔領域から唇領域を検出し、処理対象としている1フレーム分のファインダ画像とともに唇領域の位置情報を唇画像生成部43に出力する。
In step S143, the face
唇画像生成部43は、処理対象としているファインダ画像の1フレームを、唇の口角の端点を結ぶ線が水平になるように、適宜、回転補正を行う。さらに、唇画像生成部43は、回転補正後の各フレームから唇領域を抽出し、抽出した唇領域を予め定められた画像サイズにリサイズして唇画像を生成する。生成された唇画像は、口形素判定器31および発話期間検出部44に入力される。
The lip
ステップS144において、発話期間検出部44は、処理対象としているフレームの唇画像に基づいて発話期間を判定する。すなわち、処理対象としているフレームが発話期間の始点、または発話期間中であると判定された場合、処理はステップS145に進められる。
In step S144, the speech
ステップS145において、口形素判定器31は、順次入力される唇画像のうち、発話期間に対応するものについて対応するK次元スコアベクトルを演算して時系列特徴量生成部45に出力する。この後、処理はステップS141に戻り、それ以降が繰り返される。
In step S <b> 145, the
ステップS144において、処理対象としているフレームが発話期間の終点であると判定された場合、処理はステップS146に進められる。 If it is determined in step S144 that the frame to be processed is the end point of the speech period, the process proceeds to step S146.
ステップS146において、時系列特徴量生成部45は、発話期間検出部44から通知される発話期間に、口形素判別器31から順次入力されたK次元スコアベクトルを時系列に配置することにより、被写体の唇の動きに対応した時系列特徴量を生成する。
In step S146, the time-series feature
ステップS147において、時系列特徴量生成部45は、生成した時系列特徴量を発話認識器47に入力する。ステップS148において、発話認識器47は、時系列特徴量生成部45から入力された時系列特徴量と、学習データベース48に保持されているシャッタキーワードに対応するHMMを比較して、被写体の唇の動きがシャッタキーワードに対応するものであるか否かを判定する。被写体の唇の動きがシャッタキーワードに対応するものであると判定された場合、処理はステップS149に進められる。なお、否と判定された場合、処理はステップS141に戻り、それ以降が繰り返される。
In step S 147, the time-series feature
ステップS149において、発話認識器47は、被写体の唇の動きがシャッタキーワードに対応するものである旨をオートシャッタ信号出力部71に通知する。この通知の応じ、オートシャッタ信号出力部71は、オートシャッタ信号を発生して撮像制御部65に出力する。このオートシャッタ信号に従い、撮像制御部65は、撮像部61などを制御して撮像を行わせる。なお、この撮像タイミングは、シャッタキーワードの発話の所定時間(例えば1秒間)後などとユーザが任意に設定できる。この後、処理はステップS141に戻り、それ以降が繰り返される。
In step S149, the
なお、上述した説明では、ファインダ画像から複数の顔領域(被写体)が検出された場合、複数の被写体のうちの誰がシャッタキーワードを発話してもよいことになる。 In the above description, when a plurality of face regions (subjects) are detected from the finder image, anyone of the plurality of subjects may speak the shutter keyword.
ただし、このような仕様を変更し、例えば、被写体の過半数がシャッタキーワードを発話したことに応じて撮像を行うようにしてもよい。このような仕様にすれば、集合写真を撮像する際の遊戯性をユーザらに与えることができる。また複数の顔認識を行うので、認識結果が頑健になり、シャッタキーワードの誤検出などを抑止できる効果も期待できる。 However, such a specification may be changed, and for example, imaging may be performed when a majority of subjects speak a shutter keyword. With such a specification, it is possible to give users playability when taking a group photo. In addition, since a plurality of face recognitions are performed, the recognition result is robust, and an effect of suppressing erroneous detection of the shutter keyword can be expected.
さらに、個人の顔を識別する個人識別技術を組み合わせることにより、複数の被写体のうちの特定の人物にだけ注目してシャッタキーワードを検出するようにしてもよい。この特定の人物は複数であってもよい。この特定の人物を被験者(被写体)として、上述したシャッタキーワード登録処理を行えば、より頑健で正確な発話認識が可能となる。 Furthermore, a shutter keyword may be detected by focusing on only a specific person among a plurality of subjects by combining personal identification techniques for identifying a person's face. This specific person may be plural. If this specific person is a subject (subject) and the shutter keyword registration process described above is performed, more robust and accurate speech recognition can be performed.
以上説明したように、第2の実施の形態であるデジタルスチルカメラ60によれば、離れた位置にいる被写体が、リモートコントローラなどを用いることなく、ノイズ環境化においても、シャッタキーワードを発話するだけで撮像タイミングを指示することができる。なお、このシャッタキーワードは、任意に設定することができる。
As described above, according to the digital
なお、本発明は、デジタルスチルカメラに限らず、デジタルビデオカメラにも適用することができる。 Note that the present invention can be applied not only to a digital still camera but also to a digital video camera.
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。 By the way, the above-described series of processing can be executed by hardware or can be executed by software. When a series of processing is executed by software, a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a program recording medium in a general-purpose personal computer or the like.
図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。 FIG. 21 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processing by a program.
このコンピュータ200において、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
In the computer 200, a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, and a RAM (Random Access Memory) 203 are connected to each other via a
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
An input /
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
In the computer configured as described above, the
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
The program executed by the computer (CPU 201) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disk, or a semiconductor. The program is recorded on a
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
The program can be installed in the
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。 The program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。 The program may be processed by a single computer, or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。 The embodiment of the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the gist of the present invention.
10 発話認識装置, 21 画音分離部, 22 顔領域検出部, 23 唇領域検出部, 24 唇画像生成部, 25 音素ラベル付与部, 26 音素辞書, 27 口形素ラベル変換部, 28 口形素ラベル付加部, 29 学習サンプル保持部, 30 口形素判別器学習部, 31 口形素判別器, 41 顔領域検出部, 42 唇領域検出部, 43 唇画像生成部, 44 発話期間検出部, 45 時系列特徴量生成部, 46 時系列特徴量学習部, 47 発話認識器, 48 学習データベース, 60 デジタルスチルカメラ, 61 撮像部, 62 画像処理部, 63 記録メディア, 64 U/I部, 65 撮像制御部, 66 オートシャッタ制御部, 71 オートシャッタ信号出力部, 200 コンピュータ, 201 CPU
DESCRIPTION OF
Claims (7)
唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、
キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースと、
前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成手段と、
生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御手段と
を含む撮像装置。 Imaging means for outputting a finder image at the time of composition determination and outputting a recorded image at the time of imaging;
A multi-class classifier that outputs a multi-dimensional score vector corresponding to the input of the lip image and indicating how similar the lip image is to each of a plurality of types of visemes;
A registration database in which modeled registration time series feature amounts are registered in association with keywords,
The lip image including the lip region of the subject is generated from the finder image and input to the multi-class classifier, and the multi-dimensional score vector corresponding to the lip image based on the finder image obtained as a result is time-series. Generating means for generating a recognition time-series feature amount,
An image pickup apparatus comprising: an auto shutter control unit configured to control the image pickup unit to execute an image pickup process based on a comparison result between the generated time series feature quantity for recognition and a model registered in the registration database. .
請求項1に記載の撮像装置。 The imaging apparatus according to claim 1, wherein the multi-class classifier is generated by AdaBoostECOC (Error Correct Output Coding) learning using an image feature amount of a lip image to which a class label indicating a viseme is added.
請求項2に記載の撮像装置。 The imaging apparatus according to claim 2, wherein the image feature amount is a pixel difference feature.
さらに含む請求項2に記載の撮像装置。 A lip image for registration is generated from a finder image for registration whose subject is a subject who speaks the keyword, the lip image for registration is input to the multi-class classifier, and the registration image obtained as a result The registration time-series feature quantity is generated by arranging the multi-dimensional score vectors corresponding to the lip images in time series, the registration time-series feature quantity is modeled in association with the arbitrary keyword, and the registration is performed. The imaging apparatus according to claim 2, further comprising registration means for registering in the database.
請求項4に記載の撮像装置。 The imaging apparatus according to claim 4, wherein the registration unit models the registration time-series feature amount using an HMM (Hidden Markov Model).
唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、
キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースとを備える撮像装置の撮像方法において、
前記撮像装置による、
前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成ステップと、
生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御ステップと
を含む撮像方法。 Imaging means for outputting a finder image at the time of composition determination and outputting a recorded image at the time of imaging;
A multi-class classifier that outputs a multi-dimensional score vector corresponding to the input of the lip image and indicating how similar the lip image is to each of a plurality of types of visemes;
In an imaging method of an imaging apparatus including a registration database in which registration time-series feature amounts modeled in association with keywords are registered,
According to the imaging device,
The lip image including the lip region of the subject is generated from the finder image and input to the multi-class classifier, and the multi-dimensional score vector corresponding to the lip image based on the finder image obtained as a result is time-series. Generating step for generating a recognition time-series feature value by arranging in
An image capturing method comprising: an auto shutter control step for controlling the image capturing unit to execute an image capturing process based on a comparison result between the generated time series feature amount for recognition and a model registered in the registration database. .
唇画像の入力に対応し、前記唇画像が複数種類の各口形素にどの程度類似しているかを示す多次元スコアベクトルを出力する多クラス判別器と、
キーワードに対応付けて、モデル化された登録時系列特徴得量が登録されている登録データベースとを備える撮像装置のコンピュータに、
前記ファインダ画像から被写体の唇領域を含む前記唇画像を生成して前記多クラス判別器に入力し、その結果得られた前記ファインダ画像に基づく前記唇画像に対応する前記多次元スコアベクトルを時系列に配置して認識用時系列特徴量を生成する生成手段と、
生成された前記認識用時系列特徴量と、前記登録用データベースに登録されているモデルとの比較結果に基づき、前記撮像手段を制御して撮像処理を実行させるオートシャッタ制御手段と
して機能させるプログラム。 Imaging means for outputting a finder image at the time of composition determination and outputting a recorded image at the time of imaging;
A multi-class classifier that outputs a multi-dimensional score vector corresponding to the input of the lip image and indicating how similar the lip image is to each of a plurality of types of visemes;
In a computer of an imaging device provided with a registration database in which modeled registration time-series feature amounts are registered in association with keywords,
The lip image including the lip region of the subject is generated from the finder image and input to the multi-class discriminator, and the multidimensional score vector corresponding to the lip image based on the finder image obtained as a result is time-series. Generating means for generating a recognition time-series feature amount,
Based on the comparison result between the generated time series feature quantity for recognition and the model registered in the registration database, the imaging means is controlled to function as an auto shutter control means for executing an imaging process. program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009154924A JP2011014985A (en) | 2009-06-30 | 2009-06-30 | Imaging apparatus, imaging method and program |
US12/815,478 US20100332229A1 (en) | 2009-06-30 | 2010-06-15 | Apparatus control based on visual lip share recognition |
CN2010102133955A CN101937268A (en) | 2009-06-30 | 2010-06-23 | Device control based on the identification of vision lip |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009154924A JP2011014985A (en) | 2009-06-30 | 2009-06-30 | Imaging apparatus, imaging method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011014985A true JP2011014985A (en) | 2011-01-20 |
Family
ID=43593491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009154924A Withdrawn JP2011014985A (en) | 2009-06-30 | 2009-06-30 | Imaging apparatus, imaging method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011014985A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7388188B2 (en) | 2019-12-26 | 2023-11-29 | 株式会社リコー | Speaker recognition system, speaker recognition method, and speaker recognition program |
-
2009
- 2009-06-30 JP JP2009154924A patent/JP2011014985A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7388188B2 (en) | 2019-12-26 | 2023-11-29 | 株式会社リコー | Speaker recognition system, speaker recognition method, and speaker recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100332229A1 (en) | Apparatus control based on visual lip share recognition | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
Mroueh et al. | Deep multimodal learning for audio-visual speech recognition | |
Wang | Multi-grained spatio-temporal modeling for lip-reading | |
Noda et al. | Lipreading using convolutional neural network. | |
TWI423144B (en) | Combined with the audio and video behavior identification system, identification methods and computer program products | |
JP2012003326A (en) | Information processing device, information processing method, and program | |
JP2001092974A (en) | Speaker recognizing method, device for executing the same, method and device for confirming audio generation | |
JP2011013731A (en) | Information processing device, information processing method, and program | |
Tao et al. | End-to-end audiovisual speech activity detection with bimodal recurrent neural models | |
Nandakumar et al. | A multi-modal gesture recognition system using audio, video, and skeletal joint data | |
WO2024000867A1 (en) | Emotion recognition method and apparatus, device, and storage medium | |
JP2012252447A (en) | Information processing apparatus and method of processing information, storage medium and program | |
US20210281739A1 (en) | Information processing device and method, and program | |
Kalbande et al. | Lip reading using neural networks | |
JP5214679B2 (en) | Learning apparatus, method and program | |
JP2012027572A (en) | Image processing device, method and program | |
Guy et al. | Learning visual voice activity detection with an automatically annotated dataset | |
Besson et al. | Extraction of audio features specific to speech production for multimodal speaker detection | |
Oghbaie et al. | Advances and challenges in deep lip reading | |
Goh et al. | Audio-visual speech recognition system using recurrent neural network | |
Lucey et al. | Continuous pose-invariant lipreading | |
JP2009122829A (en) | Information processing apparatus, information processing method, and program | |
JP2011014985A (en) | Imaging apparatus, imaging method and program | |
Hung et al. | Towards audio-visual on-line diarization of participants in group meetings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120904 |