JP2014150348A

JP2014150348A - 撮影装置

Info

Publication number: JP2014150348A
Application number: JP2013017015A
Authority: JP
Inventors: Kazuaki Shimaoka; 和章嶋岡; Kaiji Nabetani; 海二鍋谷; Hironori Tanaka; 裕紀田中; Kenji Kimura; 賢二木村; Masahito Takeuchi; 雅人竹内; Nami Iiyama; 菜美飯山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-01-31
Filing date: 2013-01-31
Publication date: 2014-08-21

Abstract

【課題】カメラの画像撮影と動作設定とを、手動操作をすることなく、容易かつ構図のズレなく行わせることを課題とする。
【解決手段】撮影者を撮影する第１カメラと、被写体を撮影する第２カメラと、前記第１カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第２カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置。
【選択図】図２

Description

この発明は、撮影装置に関し、特に、被写体と撮影者をそれぞれ撮影するカメラを別々に備えた撮影装置に関する。

今日、静止画像を撮影する専用のカメラの他に、静止画像や動画撮影機能を持つ携帯端末が利用されている。
スマートフォン等の携帯端末では、表示画面に表示されたカメラ画像を確認しながら、所定のシャッターボタンを押し下げたり、画面上に表示された撮影操作メニュー領域に接触したりすることにより、撮影を行っているものが多い。

このような撮影は、ユーザの手動操作により行われるが、携帯端末を保持する手を画面上に移動させる操作を行う必要があり、その撮影操作を行う手で、画面上のカメラ画像の一部分が隠されてしまう場合もあり、撮影時に撮影しようとする被写体画像のズレがあっても気づかない場合もあった。

そこで、撮影操作を容易にし、画像のズレを防止するために、ユーザの手動操作による撮影に代わる撮影方法をすることが望まれている。
たとえば、音声認識技術を用いた撮影、顔画像の認識による撮影、読唇技術を用いた撮影などの手法が提案されている。
たとえば、特許文献１では、撮影しようとする被写体となる人物の動画像から唇領域を抽出し、その被写体の人物が所定のシャッターキーワードを発話したことを検出した場合に、静止画面を撮影する撮影装置が提案されている（段落０１３５から０１８０参照）。

また、特許文献２では、メインカメラとサブカメラとを備え、サブカメラで撮影した撮影者の表情やその変化などの特徴を認識し、その認識した特徴に応じてメインカメラの撮影モード、露出、コントラスト等の設定を自動設定した後、撮影者による手動撮影を行わせる撮影装置が提案されている（段落０００５，０００９，００１１，００４８，００５５，００６０，００６２，図３参照）。

特開２０１１−１４９８５号公報特開２００９−２６７４６８号公報

しかし、音声認識を用いた撮影においては、野外など雑音が多い場合では、発した音声が正確に認識できないために、撮影ができない場合がある。
また、特許文献１のものでは、キーワードを発話する人物が、被写体の中に含まれている必要があり、被写体の人物にキーワードを発話してもらうか、あるいは、撮影者自らも被写体に入る必要がある。

さらに、特許文献２では、撮影者の顔の表情やその変化、特に口角、目尻あるいは唇の動き、瞳の位置によって露出等の設定をすることができるが、顔の表情等によって設定できる設定項目数には限界があり、すべてのカメラ操作項目を顔の表情等によって設定するのは困難であり、また、設定可能な項目数が増加すればするほど、どのような表情等をすればどの項目が設定されるのかを、ユーザが覚えておくのは難しい。
すなわち、ユーザの顔画像の表情の動きを検出することを利用して、多数の操作項目の設定を行うことは難しい。

そこで、この発明は、以上のような事情を考慮してなされたものであり、被写体と撮影者とをそれぞれ撮影するカメラを別々に備えた撮影装置において、ユーザが、多数の操作項目の設定や撮影操作を容易かつ確実に行うことができるようにすることを課題とする。

この発明は、撮影者を撮影する第１カメラと、被写体を撮影する第２カメラと、前記第１カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第２カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置を提供するものである。
これによれば、撮影者が発声した文字列に対応する読取キーワードと予め対応付けられた画像撮影等の内容に基づいて、第２カメラの動作が制御されるので、ユーザは、画像撮影等のための手動による入力操作を行うことなく、容易かつ確実に、撮影動作や設定動作を実行させることができる。

また、前記第２カメラによる画像撮影を開始させるための動作キーワードおよび前記第２カメラの動作設定を行わせるための動作キーワードと、前記各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とからなるキーワードリストを記憶した記憶部と、前記生成された読取キーワードと、前記キーワードリストに記憶された動作キーワードとを比較し、所定の判定基準を満たす動作キーワードを認識キーワードに設定するキーワード比較部とをさらに備え、前記カメラ制御部は、前記設定された認識キーワードに対応付けられた画像撮影および動作設定に基づいて、前記第２カメラの動作を制御することを特徴とする。

また、前記キーワード比較部が、動作キーワードを認識キーワードに設定する所定の判定基準には、前記キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードであること、生成された読取キーワードと最も高い近似度を持つ動作キーワードであること、および生成された読取キーワードと一致する文字数が最も多い動作キーワードであることのいずれかの基準が含まれることを特徴とする。
これによれば、所定の判定基準を満たす動作キーワードを認識キーワードに設定し、その認識キーワードに対応付けられた画像撮影等に基づくカメラ制御を行うので、ユーザは、予め記憶された動作キーワードと完全同一でなくても、上記所定の判定基準を満たすことのできる文字列を発声することにより、カメラの動作制御を実行させることができる。

また、前記第１カメラおよび前記第２カメラは、それぞれ撮影装置の前面および後面に配置され、前記第１カメラによって撮影者の顔画像が撮影されるように支持された場合、
前記第２カメラによって、撮影者とは反対側の方向にある被写体を撮影することができる状態となることを特徴とする。
これによれば、２つのカメラを用いて、容易に撮影者と被写体の画像をそれぞれ撮影することができる。

また、前記第１カメラが配置された位置と同じ前記前面に、表示部をさらに備え、前記表示部に前記第２カメラによって撮影可能な被写体の画像を表示し、かつ同時に、前記第１カメラによって撮影可能な撮影者の画像を前記表示部の端部領域に表示させることを特徴とする。
これによれば、表示部に同時に、撮影者と被写体の画像を表示するので、撮影者は、手動操作をすることなく、表示画面を確認しながら文字列を発声することにより、容易に、画像撮影や動作設定等を実行させることができる。

また、前記キーワードリストに記憶される動作キーワードには、撮影開始を意味する「シャッター」、カメラのレンズをワイド側に移動させる「広角」、カメラのレンズを望遠側に移動させる「ズーム」、露出を開放側に移動させる「明るく」、露出を絞る側に移動させる「暗く」、人物を撮影するのに適切な設定を行わせる「人物」、および風景を撮影するのに適切な設定を行わせる「風景」のいずれか１つ以上の文字列が含まれることを特徴とする。

この発明によれば、撮影者の顔画像を用いて、撮影者の発声した文字列に対応した読取キーワードを生成し、その読取キーワードに予め対応付けられた画像撮影等の内容に基づいて、カメラの動作を制御するので、ユーザ（撮影者）は、手動による入力操作をする必要はなく、所望のキーワードを発声している自己の顔画像をカメラに読み取らせるようにするだけで、容易かつ確実に、撮影開始や動作設定などを実行させることができる。

この発明の撮影装置の一実施例の構成フロック図である。この発明の撮影装置におけるカメラ制御処理の一実施例のフローチャートである。表示部に表示される画像の一実施例の説明図である。この発明で利用されるキーワードリストの一実施例の説明図である。

以下、図に示す実施例に基づいて、この発明を説明する。
なお、これによって、この発明が限定されるものではない。

＜この発明の撮影装置の構成＞
図１に、この発明の撮影装置における一実施例の構成ブロック図を示す。
この発明の撮影装置は、２つのカメラ（第１カメラ１６，第２カメラ１７）を備え、第１カメラを用いて撮影者の唇の動きを撮影し、その唇の動きに対応した撮影開始および動作設定を意味するキーワードを生成して、そのキーワードに対応する撮影開始等の動作を実行するものである。

この発明の撮影装置は、主として、入力部１１，タッチパネル１２，表示制御部１３，表示部１４，撮影部１５，唇領域抽出部２１，読唇解析部２２，読取キーワード生成部２３，キーワード比較部２４，カメラ制御部２５，記憶部３１とから構成される。

また、この撮影装置は、静止画および動画を撮影する単独の装置として利用されるが、スマートフォン、携帯電話、タブレット端末などの携帯端末に、一つの機能を行う装置として備えられてもよい。

入力部１１は、ユーザが種々の情報を入力したり、機能の選択操作をする部分であり、タッチパネル１２や、キーボード、マウス等が用いられる。また、ユーザが手動操作で写真撮影をするためのシャッターボタンを設けてもよい。

表示部１４は、画像、文字、図形等からなる種々の情報を表示する部分であり、ＬＣＤや有機ＥＬディスプレイが用いられる。表示部１４は、後述する第１カメラ１６が配置された位置と同じ面である撮影装置の前面に備えられる。
また、表示部１４には、第２カメラ１７によって撮影可能な被写体の画像を表示し、かつ同時に、第１カメラ１６によって撮影可能な撮影者の画像を、表示部１４の端部領域に表示させるようにする。

表示制御部１３は、表示すべき情報を加工して、表示部１４に与える部分である。この発明では、特に、２つのカメラ（１６，１７）から取得される画像を合成して、表示部１４に表示させる。
たとえば、後述する図３に示すように、撮影しようとする被写体の画像を、表示部１４の全体に表示させ、撮影者（以下、ユーザとも呼ぶ）の画像を、表示部１４の端部領域（図３では表示画面の左下部分）に表示させるように、それぞれの画像の表示位置を調整する。

撮影部１５は、静止画あるいは動画を撮影する部分であり、レンズ、シャッター、撮影素子等からなるカメラに相当する。
この発明では、撮影部１５は、２つのカメラ（１６，１７）からなる。すなわち、撮影者１０１を撮影する第１カメラ１６と、被写体（人物、風景など）１０２を撮影する第２カメラ１７とを備える。第１カメラ１６および第２カメラ１７は、それぞれ撮影装置の前面および後面に配置される。

第１カメラ１６のレンズは、表示部が配置される面と同じ装置本体の前面に備えられ、撮影者が静止画等を撮影するために装置を構えたときに、撮影者の顔画像が取得できるような位置に配置される。
第２カメラ１７のレンズは、装置本体の後面に備えられ、撮影者とは反対側の方向にある物体や風景（被写体）からの反射光が取得できるような位置に配置される。
したがって、第１カメラ１６によって撮影者の顔画像が撮影されるように支持された場合、第２カメラ１７によって、撮影者とは反対側の方向にある被写体を撮影することができる状態となる。

第２カメラ１７では、従来と同様に、撮影者がシャッターボタンを押すかまたは接触することにより被写体の撮影が開始され、被写体画像３３が、記憶部３１に記憶されるようにしてもよい。
また、この発明では、撮影者がシャッターボタンを押す代わりに、撮影者の顔画像全体が表示部１４の画面の端部領域に表示された状態で、撮影者が「シャッター」という文字列を口を動かして発声したとき、第１カメラ１６によって唇の一連の動きを撮影し、撮影した一連の動きを示す画像から、「シャッター」という文字列を読み取り、この読み取られた文字列に予め対応付けられた動作である第２カメラによる撮影開始処理が行われる。読み取られた文字列を、読取キーワードと呼ぶ。

すなわち、撮影者が手動で撮影開始操作をすることなく、撮影開始を意図するキーワードを発声することにより、容易かつ確実に、構図のズレも抑制して、撮影しようとする被写体画像を撮影することができる。

唇領域抽出部２１は、第１カメラ１６によって取得される撮影者の顔画像の中から、撮影者の唇を含む領域（唇領域）の画像を抽出する部分である。この抽出された唇領域の複数枚の画像を用いて、口から発声されたキーワードを認識する。

読唇解析部２２は、第１カメラ１６によって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する撮影者の唇の動きを解析する部分である。
具体的には、唇領域抽出部２１によって抽出された複数の画像を用いて、唇の一連の動きを判定し、対応する文字列を認識する部分である。この読唇解析処理としては、従来から用いられるいずれかの処理を用いればよく、ここでは、その処理内容の説明は省略する。

読取キーワード生成部２３は、読唇解析部２２によって解析された一連の唇の動きに対応する文字列（読取キーワード３５）を生成する部分である。
読取キーワード３５が、撮影者が発声したと認識される撮影開始や設定動作に関係することば（単語）に相当する。

キーワード比較部２４は、読取キーワード生成部２３によって生成された読取キーワード３５と、記憶部３１に予め記憶されているキーワードリスト３４の動作キーワードとを比較する部分である。また、その比較の結果、後述するような所定の判定基準を満たす動作キーワードを、認識キーワード３６に設定する。

キーワードリスト３４は、後述するように、撮影動作や設定動作の内容を意味する文字列を定義したリストであり、キーワード比較部２４は、読取キーワード３５に一致可能な文字列が、キーワードリスト３４の中に存在するか否かをチェックする。
このキーワード比較部２４が、動作キーワードを認識キーワードに設定する所定の判定基準には、たとえば、次のような３つの基準のいずれかが含まれる。

＜基準１＞
キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードがあれば、その動作キーワードを、認識キーワードに設定する。
＜基準２＞
生成された読取キーワードと最も高い近似度を持つ動作キーワードを、認識キーワードに設定する。ここで、近似度とは、たとえば、動作キーワードを構成する文字列のうち、生成された読取キーワードと一致する文字の割合％（（一致文字数／全文字数）×１００）や、唇の動きが似た語（例えば「か」と「は」）に近似率％（一致は１００％）を設定し動作キーワードに対する近似の割合％（各文字の近似率の総和／全文字数）などを意味する。
＜基準３＞
生成された読取キーワードと一致する文字数が最も多い動作キーワードを、認識キーワードに設定する。

どの判定基準を採用するかは、ユーザが設定できるようにしてもよい。あるいは、上記基準１を優先適用するようにし、基準１を満たすキーワードがない場合に、基準２あるいは基準３を採用するようにしてもよい。
たとえば、読取キーワード３５と完全一致する文字列がキーワードリスト３４の中に存在すれば、その読取キーワード３５を、認識キーワード３６に設定する。
また、読取キーワード３５と完全一致する動作キーワードがない場合、所定の近似度を有する１つの動作キーワードＡがキーワードリスト３４の中に存在する場合、その動作キーワードＡを、認識キーワード３６に設定してもよい。

認識キーワード３６は、撮影動作や設定動作を実行する内容として確定されたキーワードであり、この認識キーワード３６に対応付けられた動作が自動的に実行される。
たとえば、認識キーワード３６が、「シャッター」であった場合、その「シャッター」という文字列に対応付けられた撮影開始動作（静止画撮影動作）が実行される。
また、認識キーワード３６が「ズーム」であった場合、その「ズーム」という文字列に対応付けられた設定動作（望遠側にレンズを調整する動作）が実行される。

カメラ制御部２５は、主として、設定された認識キーワードに対応付けられた画像撮影および動作設定の内容に基づいて、被写体を撮影する第２カメラ１７の動作を制御する部分である。
この発明では、ユーザの入力部１１を用いた指示操作に基づく動作に加えて、ユーザが発声したキーワードに対応する唇の動きから読み取った認識キーワードに基づくカメラ制御動作を実行する。
たとえば、静止画あるいは動画のいずれかの画像撮影２６や、レンズの調整や露出等の調整を行う動作設定２７の動作を行う。

以上の機能ブロックのうち、特に、唇領域抽出部２１，読唇解析部２２，読取キーワード生成部２３，キーワード比較部２４，カメラ制御部２５の処理は、主として、ＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏコントローラ、タイマー等からなるマイクロコンピュータにより実現される。
また、ＣＰＵは、ＲＯＭ等に記憶されたプログラムに基づいて、各種ハードウェアを有機的に動作させることにより、この発明の読唇処理や撮影処理などの各種機能を実行させる。

記憶部３１は、この撮影装置の各種機能を実行するときに利用される情報を記憶する部分であり、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体記憶素子や、ＨＤＤ、ＳＳＤなどの記憶装置、その他の記憶媒体が用いられる。
記憶部３１には、たとえば、撮影者画像３２，被写体画像３３，キーワードリスト３４，読取キーワード３５，認識キーワード３６などが記憶される。

撮影者画像３２は、第１カメラ１６によって取得される画像である。
被写体画像３３は、第２カメラ１７によって取得される画像である。
被写体の画像撮影が実行される前は、現在取得されている撮影者画像３２と被写体画像３３の情報が表示制御部１３によって合成されて、例えば、図３（ａ）に示すように表示部１４に表示される。

キーワードリスト３４は、画像撮影および動作設定を意味する動作キーワードを予め記憶したものである。詳しくは、第２カメラによる画像撮影を開始させるための動作キーワードおよび第２カメラの動作設定を行わせるための動作キーワードと、各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とから構成される。
図４に、キーワードリストの一実施例の説明図を示す。ここでは、キーワードリスト３４は、動作キーワードとなる文字列と、その文字列に対応する「実行される動作内容」とを示している。

図４において、動作キーワードの「シャッター」は、撮影開始を意味する。
また、「広角」は、カメラのレンズを、ワイド側に移動（調整）させることを意味し、「ズーム」は、カメラのレンズを、望遠側に移動（調整）させることを意味する。
「明るく」は、露出を開放側に移動させる（絞りの調整）ことを意味し、「暗く」は、露出を絞る側に移動させることを意味する。
「人物」は、人物を撮影するのに適切な設定（たとえば、露出、シャッタースピードの設定）を行わせることを意味し、「風景」は、風景を撮影するのに適切な設定を行わせることを意味する。
また、「終了」は、撮影を停止させることを意味する。

動作キーワードは、キーワード比較部２４によって、読取キーワード３５と対比される部分であり、読取キーワード３５と一致可能な動作キーワードがあれば、その動作キーワードが、認識キーワード３６に設定される。
実行される動作内容は、対応する動作キーワードが認識キーワード３６に確定された場合、カメラ制御部２５によって実行される処理内容を示している。

たとえば、動作キーワードである「シャッター」が撮影者によって発声されたと認識された場合、撮影が開始される。すなわち、第２カメラ１７によって取得される画像が撮影され、記憶部３１に記憶される。

また、動作キーワード「ズーム」が撮影者によって発声されたと認識された場合、第２カメラ１７の動作設定２７として、望遠側にレンズを調整する処理が実行される。
この処理が実行された場合、たとえば、図３（ａ）に示したような第２カメラによる被写体の画面表示が、図３（ｂ）に示したように、被写体の一部分が拡大表示された画面表示となる。

このように、撮影や設定を行うための動作キーワードとしては、たとえば、図４に示すように、「シャッター」、「広角」、「ズーム」、「明るく」、「暗く」、「人物」、「風景」などがあげられるが、これらに限るものではない。

これらの動作キーワードは、予め固定的に設定しておいてもよいが、ユーザが必要に応じて使用するキーワードを新たに登録してもよく、あるいは、予め準備された複数のキーワードのうち、ユーザがよく使用するキーワードを限定し、そのユーザが自ら使用可否の設定をできるようにしてもよい。

読取キーワード３５は、上記したように、読唇解析の結果、読取キーワード生成部２３によって生成されたキーワードである。
認識キーワード３６は、キーワード比較部２４によって抽出された読取キーワード３５と一致可能なキーワードであり、撮影者が発声したと確定されたキーワードであり、キーワードリストの中に予め記憶されているこの認識キーワードに対応づけられた動作の内容が実行される。

また、認識キーワード３６を確定させる場合に、上記したように、読取キーワードと完全一致するものだけを抽出するか、一致する文字数が最も大きいものを抽出するか、および、近似度の最も高いものを抽出するかのいずれの判定基準を使用するかについて、ユーザが予め設定できるようにしてもよい。

また、近似度を判定する基準値（％）についても、ユーザが、その数値の入力や、「高、中、低」などの選択ができるようにしてもよい。
さらに、近似度の最も高いキーワードを抽出する場合、確定した認識キーワード３６に対応する動作をすぐに実行するのではなく、認識キーワードが抽出された後に、たとえば、認識キーワードを表示部に表示したり確認メッセージを音声で通知することにより、認識キーワードがユーザの発声した文字列と一致するか否かをユーザに問い合わせてもよい。

ユーザへの問い合わせをする場合は、問い合わせに対するユーザの肯定的な指示入力があった後に、対応する動作を実行すればよい。
また、認識キーワードがユーザの意図したものではなく、ユーザの否定的な指示入力があった場合は、認識キーワードをキャンセルすればよい。

また、図４では、１つの動作キーワードと１つの動作内容とを対応させたものを示したが、１つの動作内容に対する動作キーワードとして、複数のキーワードを対応させてもよい。
たとえば、撮影開始という動作に対応する動作キーワードとして「シャッター」、「さつえい」、「とります」というような複数のキーワードを設定してもよい。

このように、複数のキーワードを設定する場合は、この機能の使用を容易なものとするために、ユーザがよく使うわかりやすい文字列を、ユーザ自らが設定できるようにすることが好ましい。

また、キーワードを発声したときの口の動きは、個人ごとにかなり異なる場合もあるので、発声したキーワードの認識は、完全一致ではなく、近似度の大きさに加えて、部分一致する文字数などを考慮して行うことが好ましい。

さらに、国語辞書等を予め記憶しておき、生成された読取キーワード３５と同じ意味を持つ同義語を辞書から抽出して、読取キーワードそのものがキーワードリスト３４の中になくても、抽出した同義語と一致する動作キーワードがキーワードリスト３４の中にあれば、その同義語を認識キーワード３６に設定してもよい。

これによれば、ユーザが予め設定されているキーワードを忘れてしまった場合でも、そのキーワードと同じ意味の文字列を発声してみることにより、所望の動作を行わせることができる場合もある。

たとえば、「風景」という動作キーワードを、ユーザが忘れていた場合でも、「風景」と同義語と考えられる「けしき」という発声をすることにより、「けしき」という読取キーワード３５に基づいて、同義語である「風景」が抽出されて、「風景」が認識キーワード３６として確定されれば、ユーザの所望の動作が実行できる。

＜読唇処理を用いたカメラ制御＞
図２に、この発明の撮影装置におけるカメラ制御の一実施例のフローチャートを示す。
ここでは、ユーザの手動による入力操作をすることなく、読唇処理を用いて、撮影装置で実行される種々の機能のうち、撮影開始やカメラの設定動作を行う機能について説明する。

ステップＳ１において、入力部１１を用いたユーザの入力操作により、撮影部１５を起動させる。すなわち、２つのカメラ（１６，１７）を駆動させ、レンズを介して画像を取り込むための準備をする。

ステップＳ２において、第１カメラ１６および第２カメラ１７から、それぞれ撮影可能な画像を取得し、記憶部３１に一時記憶する。
ステップＳ３において、第１カメラ１６および第２カメラ１７によって取得された画像を表示部１４に表示させる。このとき、表示制御部１３は、第１カメラ１６から取得された画像と、第２カメラ１７から取得された画像とを合成し、たとえば、図３（ａ）に示すような画面位置に、それぞれの取得画像を表示させる。

撮影者は、この表示画面を見ながら、第２カメラで撮影する被写体の範囲を調整し、さらに第１カメラで取得された撮影者自らの顔画像（特に唇領域の画像）が、表示画面に表示されるように装置本体の支持する位置を調整する。
さらに、撮影者は、所望の動作に対応するキーワードを発声する。

ステップＳ４において、第１カメラ１６によって取得される一連の画像を用いて、読唇処理を行う。
この一連の画像とは、撮影者がキーワードを発声しているときの顔画像であり、連続的な静止画でもよく、動画像でもよい。また、この一連の画像の最初と最後、すなわち、撮影者がキーワードを発声している期間の画像がどの部分であるかは、たとえば、唇の動きが一定時間静止している箇所を抽出することにより判断することができる。

読唇処理では、一連の画像に対して、唇領域抽出部２１による唇領域の画像部分の抽出処理が行われ、読唇解析部２２が、抽出された複数の唇領域の画像の動き（変化量と変化方向）を順に測定していくことにより、読唇解析を行って、どのようなことば（文字）が発声されているかを検出する。

一連の画像全体にわたって上記解析を行うことにより、発声されたキーワードに相当する文字列が検出されるので、読取キーワード生成部２３が、その文字列を、読取キーワード３５として生成し、記憶部３１に記憶する。

ステップＳ５において、キーワード比較部２４が、生成された読取キーワード３５と、キーワードリスト３４の中の動作キーワードとを比較する。
ここで、完全一致するか否かの判断を行う場合は、読取キーワード３５と完全に一致する動作キーワードを、キーワードリスト３４の中から探し出す。

また、読取キーワード３５に対して所定の近似度以上を持つ動作キーワードを選択する場合や所定の文字数以上の部分一致が可能な動作キーワードを選択する場合は、上記近似度や一致文字数を計算し、所定の判定基準を満たす動作キーワードを探し出す。

ステップＳ６において、キーワードリスト３４の中に、読取キーワード３５に一致するキーワードがあるか否かチェックする。
完全一致する動作キーワードがある場合、近似度あるいは一致文字数の計算によって、所定の判定基準を満たす動作キーワードがある場合は、ステップＳ７に進み、そうでない場合は、ステップＳ２へ戻る。

ステップＳ７において、完全一致した動作キーワードあるいは、所定の判定基準を満たした動作キーワードを、認識キーワード３６に設定し記憶する。

ステップＳ８において、認識キーワード３６が「終了」を意味するキーワードである場合は、ステップＳ９に進み、撮影部の動作を停止させる。
一方、ステップＳ８において、認識キーワード３６が「終了」を意味するキーワードでない場合は、ステップＳ１０へ進む。

ステップＳ１０において、認識キーワード３６が撮影開始を意味する「シャッター」である場合は、ステップＳ１１に進み、画像撮影処理を実行する。
画像撮影処理では、第２カメラ１７による被写体の撮影が行われ、被写体の画像データが記憶部３１に記憶される。その後、ステップＳ２へ戻る。
一方、認識キーワードが「シャッター」でない場合は、ステップＳ１２に進む。

ステップＳ１２において、認識キーワード３６が、「動作設定」を意味するキーワードであるか否かをチェックする。
たとえば、「動作設定」を意味するキーワードとしては、「広角」、「ズーム」、「明るく」、「暗く」、「人物」、「風景」などのキーワードがあり、これらのキーワードのいずれかに該当するか否かを、チェックする。

認識キーワード３６が、「動作設定」を意味するキーワードである場合、ステップＳ１３に進み、その動作キーワードに対応付けられた動作設定を実行する。
たとえば、認識キーワードが「ズーム」であれば、レンズを望遠側に移動させる調整を自動的に実行する。その後、ステップＳ２に戻る。

一方、認識キーワード３６が、「動作設定」を意味するキーワードでない場合、ステップＳ１４に進み、その認識キーワードに対応付けられたその他の処理が存在する場合、その他のカメラ制御を行い、ステップＳ２に戻る。

以上のように、第１カメラの画像として取得された撮影者の唇領域を含む顔画像から撮影者の発声した動作キーワードを認識して、その動作キーワードに予め対応付けられたカメラ制御動作を実行する。

したがって、カメラ制御を行わせるために、ユーザは、手や指を用いた入力操作をする必要はなく、所望のキーワードを発声している画像をカメラに読み取らせるようにするだけでよいので、撮影開始や動作設定の動作を容易に実行させることができる。

また、撮影者を撮影する第１カメラと、被写体を撮影する第２カメラとは別々に設けられるので、被写体の中に撮影者自身が含まれている必要はなく、被写体の中の人物に、キーワードを発声してもらう必要はない。

また、撮影を開始するために手動操作を行わないので、その手動操作によって発生する可能性のあった被写体画像のズレが発生するのを防止でき、手動操作によって表示画面が隠されることもないので、画像のズレが生じたことに気づきやすい。

１１入力部、１２タッチパネル、１３表示制御部、１４表示部、２１唇領域抽出部、２２読唇解析部、２３読取キーワード生成部、２４キーワード比較部、２５カメラ制御部、２６画像撮影、２７動作設定、３１記憶部、３２撮影者画像、３３被写体画像、３４キーワードリスト、３５読取キーワード、３６認識キーワード

Claims

撮影者を撮影する第１カメラと、
被写体を撮影する第２カメラと、
前記第１カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、
解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、
前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第２カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置。
前記第２カメラによる画像撮影を開始させるための動作キーワードおよび前記第２カメラの動作設定を行わせるための動作キーワードと、前記各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とからなるキーワードリストを記憶した記憶部と、
前記生成された読取キーワードと、前記キーワードリストに記憶された動作キーワードとを比較し、所定の判定基準を満たす動作キーワードを認識キーワードに設定するキーワード比較部とをさらに備え、
前記カメラ制御部は、前記設定された認識キーワードに対応付けられた画像撮影および動作設定に基づいて、前記第２カメラの動作を制御することを特徴とする請求項１に記載の撮影装置。
前記キーワード比較部が、動作キーワードを認識キーワードに設定する所定の判定基準には、
前記キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードであること、生成された読取キーワードと最も高い近似度を持つ動作キーワードであること、および生成された読取キーワードと一致する文字数が最も多い動作キーワードであることのいずれかの基準が含まれることを特徴とする請求項２に記載の撮影装置。
前記第１カメラおよび前記第２カメラは、それぞれ撮影装置の前面および後面に配置され、前記第１カメラによって撮影者の顔画像が撮影されるように支持された場合、
前記第２カメラによって、撮影者とは反対側の方向にある被写体を撮影することができる状態となることを特徴とする請求項１ないし３のいずれかに記載の撮影装置。
前記第１カメラが配置された位置と同じ前記前面に、表示部をさらに備え、
前記表示部に前記第２カメラによって撮影可能な被写体の画像を表示し、かつ同時に、前記第１カメラによって撮影可能な撮影者の画像を前記表示部の端部領域に表示させることを特徴とする請求項４に記載の撮影装置。