JP2014150348A - 撮影装置 - Google Patents
撮影装置 Download PDFInfo
- Publication number
- JP2014150348A JP2014150348A JP2013017015A JP2013017015A JP2014150348A JP 2014150348 A JP2014150348 A JP 2014150348A JP 2013017015 A JP2013017015 A JP 2013017015A JP 2013017015 A JP2013017015 A JP 2013017015A JP 2014150348 A JP2014150348 A JP 2014150348A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- camera
- photographer
- image
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Camera Bodies And Camera Details Or Accessories (AREA)
- Studio Devices (AREA)
Abstract
【課題】カメラの画像撮影と動作設定とを、手動操作をすることなく、容易かつ構図のズレなく行わせることを課題とする。
【解決手段】撮影者を撮影する第1カメラと、被写体を撮影する第2カメラと、前記第1カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第2カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置。
【選択図】図2
【解決手段】撮影者を撮影する第1カメラと、被写体を撮影する第2カメラと、前記第1カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第2カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置。
【選択図】図2
Description
この発明は、撮影装置に関し、特に、被写体と撮影者をそれぞれ撮影するカメラを別々に備えた撮影装置に関する。
今日、静止画像を撮影する専用のカメラの他に、静止画像や動画撮影機能を持つ携帯端末が利用されている。
スマートフォン等の携帯端末では、表示画面に表示されたカメラ画像を確認しながら、所定のシャッターボタンを押し下げたり、画面上に表示された撮影操作メニュー領域に接触したりすることにより、撮影を行っているものが多い。
スマートフォン等の携帯端末では、表示画面に表示されたカメラ画像を確認しながら、所定のシャッターボタンを押し下げたり、画面上に表示された撮影操作メニュー領域に接触したりすることにより、撮影を行っているものが多い。
このような撮影は、ユーザの手動操作により行われるが、携帯端末を保持する手を画面上に移動させる操作を行う必要があり、その撮影操作を行う手で、画面上のカメラ画像の一部分が隠されてしまう場合もあり、撮影時に撮影しようとする被写体画像のズレがあっても気づかない場合もあった。
そこで、撮影操作を容易にし、画像のズレを防止するために、ユーザの手動操作による撮影に代わる撮影方法をすることが望まれている。
たとえば、音声認識技術を用いた撮影、顔画像の認識による撮影、読唇技術を用いた撮影などの手法が提案されている。
たとえば、特許文献1では、撮影しようとする被写体となる人物の動画像から唇領域を抽出し、その被写体の人物が所定のシャッターキーワードを発話したことを検出した場合に、静止画面を撮影する撮影装置が提案されている(段落0135から0180参照)。
たとえば、音声認識技術を用いた撮影、顔画像の認識による撮影、読唇技術を用いた撮影などの手法が提案されている。
たとえば、特許文献1では、撮影しようとする被写体となる人物の動画像から唇領域を抽出し、その被写体の人物が所定のシャッターキーワードを発話したことを検出した場合に、静止画面を撮影する撮影装置が提案されている(段落0135から0180参照)。
また、特許文献2では、メインカメラとサブカメラとを備え、サブカメラで撮影した撮影者の表情やその変化などの特徴を認識し、その認識した特徴に応じてメインカメラの撮影モード、露出、コントラスト等の設定を自動設定した後、撮影者による手動撮影を行わせる撮影装置が提案されている(段落0005,0009,0011,0048,0055,0060,0062,図3参照)。
しかし、音声認識を用いた撮影においては、野外など雑音が多い場合では、発した音声が正確に認識できないために、撮影ができない場合がある。
また、特許文献1のものでは、キーワードを発話する人物が、被写体の中に含まれている必要があり、被写体の人物にキーワードを発話してもらうか、あるいは、撮影者自らも被写体に入る必要がある。
また、特許文献1のものでは、キーワードを発話する人物が、被写体の中に含まれている必要があり、被写体の人物にキーワードを発話してもらうか、あるいは、撮影者自らも被写体に入る必要がある。
さらに、特許文献2では、撮影者の顔の表情やその変化、特に口角、目尻あるいは唇の動き、瞳の位置によって露出等の設定をすることができるが、顔の表情等によって設定できる設定項目数には限界があり、すべてのカメラ操作項目を顔の表情等によって設定するのは困難であり、また、設定可能な項目数が増加すればするほど、どのような表情等をすればどの項目が設定されるのかを、ユーザが覚えておくのは難しい。
すなわち、ユーザの顔画像の表情の動きを検出することを利用して、多数の操作項目の設定を行うことは難しい。
すなわち、ユーザの顔画像の表情の動きを検出することを利用して、多数の操作項目の設定を行うことは難しい。
そこで、この発明は、以上のような事情を考慮してなされたものであり、被写体と撮影者とをそれぞれ撮影するカメラを別々に備えた撮影装置において、ユーザが、多数の操作項目の設定や撮影操作を容易かつ確実に行うことができるようにすることを課題とする。
この発明は、撮影者を撮影する第1カメラと、被写体を撮影する第2カメラと、前記第1カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第2カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置を提供するものである。
これによれば、撮影者が発声した文字列に対応する読取キーワードと予め対応付けられた画像撮影等の内容に基づいて、第2カメラの動作が制御されるので、ユーザは、画像撮影等のための手動による入力操作を行うことなく、容易かつ確実に、撮影動作や設定動作を実行させることができる。
これによれば、撮影者が発声した文字列に対応する読取キーワードと予め対応付けられた画像撮影等の内容に基づいて、第2カメラの動作が制御されるので、ユーザは、画像撮影等のための手動による入力操作を行うことなく、容易かつ確実に、撮影動作や設定動作を実行させることができる。
また、前記第2カメラによる画像撮影を開始させるための動作キーワードおよび前記第2カメラの動作設定を行わせるための動作キーワードと、前記各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とからなるキーワードリストを記憶した記憶部と、前記生成された読取キーワードと、前記キーワードリストに記憶された動作キーワードとを比較し、所定の判定基準を満たす動作キーワードを認識キーワードに設定するキーワード比較部とをさらに備え、前記カメラ制御部は、前記設定された認識キーワードに対応付けられた画像撮影および動作設定に基づいて、前記第2カメラの動作を制御することを特徴とする。
また、前記キーワード比較部が、動作キーワードを認識キーワードに設定する所定の判定基準には、前記キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードであること、生成された読取キーワードと最も高い近似度を持つ動作キーワードであること、および生成された読取キーワードと一致する文字数が最も多い動作キーワードであることのいずれかの基準が含まれることを特徴とする。
これによれば、所定の判定基準を満たす動作キーワードを認識キーワードに設定し、その認識キーワードに対応付けられた画像撮影等に基づくカメラ制御を行うので、ユーザは、予め記憶された動作キーワードと完全同一でなくても、上記所定の判定基準を満たすことのできる文字列を発声することにより、カメラの動作制御を実行させることができる。
これによれば、所定の判定基準を満たす動作キーワードを認識キーワードに設定し、その認識キーワードに対応付けられた画像撮影等に基づくカメラ制御を行うので、ユーザは、予め記憶された動作キーワードと完全同一でなくても、上記所定の判定基準を満たすことのできる文字列を発声することにより、カメラの動作制御を実行させることができる。
また、前記第1カメラおよび前記第2カメラは、それぞれ撮影装置の前面および後面に配置され、前記第1カメラによって撮影者の顔画像が撮影されるように支持された場合、
前記第2カメラによって、撮影者とは反対側の方向にある被写体を撮影することができる状態となることを特徴とする。
これによれば、2つのカメラを用いて、容易に撮影者と被写体の画像をそれぞれ撮影することができる。
前記第2カメラによって、撮影者とは反対側の方向にある被写体を撮影することができる状態となることを特徴とする。
これによれば、2つのカメラを用いて、容易に撮影者と被写体の画像をそれぞれ撮影することができる。
また、前記第1カメラが配置された位置と同じ前記前面に、表示部をさらに備え、前記表示部に前記第2カメラによって撮影可能な被写体の画像を表示し、かつ同時に、前記第1カメラによって撮影可能な撮影者の画像を前記表示部の端部領域に表示させることを特徴とする。
これによれば、表示部に同時に、撮影者と被写体の画像を表示するので、撮影者は、手動操作をすることなく、表示画面を確認しながら文字列を発声することにより、容易に、画像撮影や動作設定等を実行させることができる。
これによれば、表示部に同時に、撮影者と被写体の画像を表示するので、撮影者は、手動操作をすることなく、表示画面を確認しながら文字列を発声することにより、容易に、画像撮影や動作設定等を実行させることができる。
また、前記キーワードリストに記憶される動作キーワードには、撮影開始を意味する「シャッター」、カメラのレンズをワイド側に移動させる「広角」、カメラのレンズを望遠側に移動させる「ズーム」、露出を開放側に移動させる「明るく」、露出を絞る側に移動させる「暗く」、人物を撮影するのに適切な設定を行わせる「人物」、および風景を撮影するのに適切な設定を行わせる「風景」のいずれか1つ以上の文字列が含まれることを特徴とする。
この発明によれば、撮影者の顔画像を用いて、撮影者の発声した文字列に対応した読取キーワードを生成し、その読取キーワードに予め対応付けられた画像撮影等の内容に基づいて、カメラの動作を制御するので、ユーザ(撮影者)は、手動による入力操作をする必要はなく、所望のキーワードを発声している自己の顔画像をカメラに読み取らせるようにするだけで、容易かつ確実に、撮影開始や動作設定などを実行させることができる。
以下、図に示す実施例に基づいて、この発明を説明する。
なお、これによって、この発明が限定されるものではない。
なお、これによって、この発明が限定されるものではない。
<この発明の撮影装置の構成>
図1に、この発明の撮影装置における一実施例の構成ブロック図を示す。
この発明の撮影装置は、2つのカメラ(第1カメラ16,第2カメラ17)を備え、第1カメラを用いて撮影者の唇の動きを撮影し、その唇の動きに対応した撮影開始および動作設定を意味するキーワードを生成して、そのキーワードに対応する撮影開始等の動作を実行するものである。
図1に、この発明の撮影装置における一実施例の構成ブロック図を示す。
この発明の撮影装置は、2つのカメラ(第1カメラ16,第2カメラ17)を備え、第1カメラを用いて撮影者の唇の動きを撮影し、その唇の動きに対応した撮影開始および動作設定を意味するキーワードを生成して、そのキーワードに対応する撮影開始等の動作を実行するものである。
この発明の撮影装置は、主として、入力部11,タッチパネル12,表示制御部13,表示部14,撮影部15,唇領域抽出部21,読唇解析部22,読取キーワード生成部23,キーワード比較部24,カメラ制御部25,記憶部31とから構成される。
また、この撮影装置は、静止画および動画を撮影する単独の装置として利用されるが、スマートフォン、携帯電話、タブレット端末などの携帯端末に、一つの機能を行う装置として備えられてもよい。
入力部11は、ユーザが種々の情報を入力したり、機能の選択操作をする部分であり、タッチパネル12や、キーボード、マウス等が用いられる。また、ユーザが手動操作で写真撮影をするためのシャッターボタンを設けてもよい。
表示部14は、画像、文字、図形等からなる種々の情報を表示する部分であり、LCDや有機ELディスプレイが用いられる。表示部14は、後述する第1カメラ16が配置された位置と同じ面である撮影装置の前面に備えられる。
また、表示部14には、第2カメラ17によって撮影可能な被写体の画像を表示し、かつ同時に、第1カメラ16によって撮影可能な撮影者の画像を、表示部14の端部領域に表示させるようにする。
また、表示部14には、第2カメラ17によって撮影可能な被写体の画像を表示し、かつ同時に、第1カメラ16によって撮影可能な撮影者の画像を、表示部14の端部領域に表示させるようにする。
表示制御部13は、表示すべき情報を加工して、表示部14に与える部分である。この発明では、特に、2つのカメラ(16,17)から取得される画像を合成して、表示部14に表示させる。
たとえば、後述する図3に示すように、撮影しようとする被写体の画像を、表示部14の全体に表示させ、撮影者(以下、ユーザとも呼ぶ)の画像を、表示部14の端部領域(図3では表示画面の左下部分)に表示させるように、それぞれの画像の表示位置を調整する。
たとえば、後述する図3に示すように、撮影しようとする被写体の画像を、表示部14の全体に表示させ、撮影者(以下、ユーザとも呼ぶ)の画像を、表示部14の端部領域(図3では表示画面の左下部分)に表示させるように、それぞれの画像の表示位置を調整する。
撮影部15は、静止画あるいは動画を撮影する部分であり、レンズ、シャッター、撮影素子等からなるカメラに相当する。
この発明では、撮影部15は、2つのカメラ(16,17)からなる。すなわち、撮影者101を撮影する第1カメラ16と、被写体(人物、風景など)102を撮影する第2カメラ17とを備える。第1カメラ16および第2カメラ17は、それぞれ撮影装置の前面および後面に配置される。
この発明では、撮影部15は、2つのカメラ(16,17)からなる。すなわち、撮影者101を撮影する第1カメラ16と、被写体(人物、風景など)102を撮影する第2カメラ17とを備える。第1カメラ16および第2カメラ17は、それぞれ撮影装置の前面および後面に配置される。
第1カメラ16のレンズは、表示部が配置される面と同じ装置本体の前面に備えられ、撮影者が静止画等を撮影するために装置を構えたときに、撮影者の顔画像が取得できるような位置に配置される。
第2カメラ17のレンズは、装置本体の後面に備えられ、撮影者とは反対側の方向にある物体や風景(被写体)からの反射光が取得できるような位置に配置される。
したがって、第1カメラ16によって撮影者の顔画像が撮影されるように支持された場合、第2カメラ17によって、撮影者とは反対側の方向にある被写体を撮影することができる状態となる。
第2カメラ17のレンズは、装置本体の後面に備えられ、撮影者とは反対側の方向にある物体や風景(被写体)からの反射光が取得できるような位置に配置される。
したがって、第1カメラ16によって撮影者の顔画像が撮影されるように支持された場合、第2カメラ17によって、撮影者とは反対側の方向にある被写体を撮影することができる状態となる。
第2カメラ17では、従来と同様に、撮影者がシャッターボタンを押すかまたは接触することにより被写体の撮影が開始され、被写体画像33が、記憶部31に記憶されるようにしてもよい。
また、この発明では、撮影者がシャッターボタンを押す代わりに、撮影者の顔画像全体が表示部14の画面の端部領域に表示された状態で、撮影者が「シャッター」という文字列を口を動かして発声したとき、第1カメラ16によって唇の一連の動きを撮影し、撮影した一連の動きを示す画像から、「シャッター」という文字列を読み取り、この読み取られた文字列に予め対応付けられた動作である第2カメラによる撮影開始処理が行われる。読み取られた文字列を、読取キーワードと呼ぶ。
また、この発明では、撮影者がシャッターボタンを押す代わりに、撮影者の顔画像全体が表示部14の画面の端部領域に表示された状態で、撮影者が「シャッター」という文字列を口を動かして発声したとき、第1カメラ16によって唇の一連の動きを撮影し、撮影した一連の動きを示す画像から、「シャッター」という文字列を読み取り、この読み取られた文字列に予め対応付けられた動作である第2カメラによる撮影開始処理が行われる。読み取られた文字列を、読取キーワードと呼ぶ。
すなわち、撮影者が手動で撮影開始操作をすることなく、撮影開始を意図するキーワードを発声することにより、容易かつ確実に、構図のズレも抑制して、撮影しようとする被写体画像を撮影することができる。
唇領域抽出部21は、第1カメラ16によって取得される撮影者の顔画像の中から、撮影者の唇を含む領域(唇領域)の画像を抽出する部分である。この抽出された唇領域の複数枚の画像を用いて、口から発声されたキーワードを認識する。
読唇解析部22は、第1カメラ16によって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する撮影者の唇の動きを解析する部分である。
具体的には、唇領域抽出部21によって抽出された複数の画像を用いて、唇の一連の動きを判定し、対応する文字列を認識する部分である。この読唇解析処理としては、従来から用いられるいずれかの処理を用いればよく、ここでは、その処理内容の説明は省略する。
具体的には、唇領域抽出部21によって抽出された複数の画像を用いて、唇の一連の動きを判定し、対応する文字列を認識する部分である。この読唇解析処理としては、従来から用いられるいずれかの処理を用いればよく、ここでは、その処理内容の説明は省略する。
読取キーワード生成部23は、読唇解析部22によって解析された一連の唇の動きに対応する文字列(読取キーワード35)を生成する部分である。
読取キーワード35が、撮影者が発声したと認識される撮影開始や設定動作に関係することば(単語)に相当する。
読取キーワード35が、撮影者が発声したと認識される撮影開始や設定動作に関係することば(単語)に相当する。
キーワード比較部24は、読取キーワード生成部23によって生成された読取キーワード35と、記憶部31に予め記憶されているキーワードリスト34の動作キーワードとを比較する部分である。また、その比較の結果、後述するような所定の判定基準を満たす動作キーワードを、認識キーワード36に設定する。
キーワードリスト34は、後述するように、撮影動作や設定動作の内容を意味する文字列を定義したリストであり、キーワード比較部24は、読取キーワード35に一致可能な文字列が、キーワードリスト34の中に存在するか否かをチェックする。
このキーワード比較部24が、動作キーワードを認識キーワードに設定する所定の判定基準には、たとえば、次のような3つの基準のいずれかが含まれる。
このキーワード比較部24が、動作キーワードを認識キーワードに設定する所定の判定基準には、たとえば、次のような3つの基準のいずれかが含まれる。
<基準1>
キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードがあれば、その動作キーワードを、認識キーワードに設定する。
<基準2>
生成された読取キーワードと最も高い近似度を持つ動作キーワードを、認識キーワードに設定する。ここで、近似度とは、たとえば、動作キーワードを構成する文字列のうち、生成された読取キーワードと一致する文字の割合%((一致文字数/全文字数)×100)や、唇の動きが似た語(例えば「か」と「は」)に近似率%(一致は100%)を設定し動作キーワードに対する近似の割合%(各文字の近似率の総和/全文字数)などを意味する。
<基準3>
生成された読取キーワードと一致する文字数が最も多い動作キーワードを、認識キーワードに設定する。
キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードがあれば、その動作キーワードを、認識キーワードに設定する。
<基準2>
生成された読取キーワードと最も高い近似度を持つ動作キーワードを、認識キーワードに設定する。ここで、近似度とは、たとえば、動作キーワードを構成する文字列のうち、生成された読取キーワードと一致する文字の割合%((一致文字数/全文字数)×100)や、唇の動きが似た語(例えば「か」と「は」)に近似率%(一致は100%)を設定し動作キーワードに対する近似の割合%(各文字の近似率の総和/全文字数)などを意味する。
<基準3>
生成された読取キーワードと一致する文字数が最も多い動作キーワードを、認識キーワードに設定する。
どの判定基準を採用するかは、ユーザが設定できるようにしてもよい。あるいは、上記基準1を優先適用するようにし、基準1を満たすキーワードがない場合に、基準2あるいは基準3を採用するようにしてもよい。
たとえば、読取キーワード35と完全一致する文字列がキーワードリスト34の中に存在すれば、その読取キーワード35を、認識キーワード36に設定する。
また、読取キーワード35と完全一致する動作キーワードがない場合、所定の近似度を有する1つの動作キーワードAがキーワードリスト34の中に存在する場合、その動作キーワードAを、認識キーワード36に設定してもよい。
たとえば、読取キーワード35と完全一致する文字列がキーワードリスト34の中に存在すれば、その読取キーワード35を、認識キーワード36に設定する。
また、読取キーワード35と完全一致する動作キーワードがない場合、所定の近似度を有する1つの動作キーワードAがキーワードリスト34の中に存在する場合、その動作キーワードAを、認識キーワード36に設定してもよい。
認識キーワード36は、撮影動作や設定動作を実行する内容として確定されたキーワードであり、この認識キーワード36に対応付けられた動作が自動的に実行される。
たとえば、認識キーワード36が、「シャッター」であった場合、その「シャッター」という文字列に対応付けられた撮影開始動作(静止画撮影動作)が実行される。
また、認識キーワード36が「ズーム」であった場合、その「ズーム」という文字列に対応付けられた設定動作(望遠側にレンズを調整する動作)が実行される。
たとえば、認識キーワード36が、「シャッター」であった場合、その「シャッター」という文字列に対応付けられた撮影開始動作(静止画撮影動作)が実行される。
また、認識キーワード36が「ズーム」であった場合、その「ズーム」という文字列に対応付けられた設定動作(望遠側にレンズを調整する動作)が実行される。
カメラ制御部25は、主として、設定された認識キーワードに対応付けられた画像撮影および動作設定の内容に基づいて、被写体を撮影する第2カメラ17の動作を制御する部分である。
この発明では、ユーザの入力部11を用いた指示操作に基づく動作に加えて、ユーザが発声したキーワードに対応する唇の動きから読み取った認識キーワードに基づくカメラ制御動作を実行する。
たとえば、静止画あるいは動画のいずれかの画像撮影26や、レンズの調整や露出等の調整を行う動作設定27の動作を行う。
この発明では、ユーザの入力部11を用いた指示操作に基づく動作に加えて、ユーザが発声したキーワードに対応する唇の動きから読み取った認識キーワードに基づくカメラ制御動作を実行する。
たとえば、静止画あるいは動画のいずれかの画像撮影26や、レンズの調整や露出等の調整を行う動作設定27の動作を行う。
以上の機能ブロックのうち、特に、唇領域抽出部21,読唇解析部22,読取キーワード生成部23,キーワード比較部24,カメラ制御部25の処理は、主として、CPU、ROM、RAM、I/Oコントローラ、タイマー等からなるマイクロコンピュータにより実現される。
また、CPUは、ROM等に記憶されたプログラムに基づいて、各種ハードウェアを有機的に動作させることにより、この発明の読唇処理や撮影処理などの各種機能を実行させる。
また、CPUは、ROM等に記憶されたプログラムに基づいて、各種ハードウェアを有機的に動作させることにより、この発明の読唇処理や撮影処理などの各種機能を実行させる。
記憶部31は、この撮影装置の各種機能を実行するときに利用される情報を記憶する部分であり、RAM、ROM、フラッシュメモリなどの半導体記憶素子や、HDD、SSDなどの記憶装置、その他の記憶媒体が用いられる。
記憶部31には、たとえば、撮影者画像32,被写体画像33,キーワードリスト34,読取キーワード35,認識キーワード36などが記憶される。
記憶部31には、たとえば、撮影者画像32,被写体画像33,キーワードリスト34,読取キーワード35,認識キーワード36などが記憶される。
撮影者画像32は、第1カメラ16によって取得される画像である。
被写体画像33は、第2カメラ17によって取得される画像である。
被写体の画像撮影が実行される前は、現在取得されている撮影者画像32と被写体画像33の情報が表示制御部13によって合成されて、例えば、図3(a)に示すように表示部14に表示される。
被写体画像33は、第2カメラ17によって取得される画像である。
被写体の画像撮影が実行される前は、現在取得されている撮影者画像32と被写体画像33の情報が表示制御部13によって合成されて、例えば、図3(a)に示すように表示部14に表示される。
キーワードリスト34は、画像撮影および動作設定を意味する動作キーワードを予め記憶したものである。詳しくは、第2カメラによる画像撮影を開始させるための動作キーワードおよび第2カメラの動作設定を行わせるための動作キーワードと、各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とから構成される。
図4に、キーワードリストの一実施例の説明図を示す。ここでは、キーワードリスト34は、動作キーワードとなる文字列と、その文字列に対応する「実行される動作内容」とを示している。
図4に、キーワードリストの一実施例の説明図を示す。ここでは、キーワードリスト34は、動作キーワードとなる文字列と、その文字列に対応する「実行される動作内容」とを示している。
図4において、動作キーワードの「シャッター」は、撮影開始を意味する。
また、「広角」は、カメラのレンズを、ワイド側に移動(調整)させることを意味し、「ズーム」は、カメラのレンズを、望遠側に移動(調整)させることを意味する。
「明るく」は、露出を開放側に移動させる(絞りの調整)ことを意味し、「暗く」は、露出を絞る側に移動させることを意味する。
「人物」は、人物を撮影するのに適切な設定(たとえば、露出、シャッタースピードの設定)を行わせることを意味し、「風景」は、風景を撮影するのに適切な設定を行わせることを意味する。
また、「終了」は、撮影を停止させることを意味する。
また、「広角」は、カメラのレンズを、ワイド側に移動(調整)させることを意味し、「ズーム」は、カメラのレンズを、望遠側に移動(調整)させることを意味する。
「明るく」は、露出を開放側に移動させる(絞りの調整)ことを意味し、「暗く」は、露出を絞る側に移動させることを意味する。
「人物」は、人物を撮影するのに適切な設定(たとえば、露出、シャッタースピードの設定)を行わせることを意味し、「風景」は、風景を撮影するのに適切な設定を行わせることを意味する。
また、「終了」は、撮影を停止させることを意味する。
動作キーワードは、キーワード比較部24によって、読取キーワード35と対比される部分であり、読取キーワード35と一致可能な動作キーワードがあれば、その動作キーワードが、認識キーワード36に設定される。
実行される動作内容は、対応する動作キーワードが認識キーワード36に確定された場合、カメラ制御部25によって実行される処理内容を示している。
実行される動作内容は、対応する動作キーワードが認識キーワード36に確定された場合、カメラ制御部25によって実行される処理内容を示している。
たとえば、動作キーワードである「シャッター」が撮影者によって発声されたと認識された場合、撮影が開始される。すなわち、第2カメラ17によって取得される画像が撮影され、記憶部31に記憶される。
また、動作キーワード「ズーム」が撮影者によって発声されたと認識された場合、第2カメラ17の動作設定27として、望遠側にレンズを調整する処理が実行される。
この処理が実行された場合、たとえば、図3(a)に示したような第2カメラによる被写体の画面表示が、図3(b)に示したように、被写体の一部分が拡大表示された画面表示となる。
この処理が実行された場合、たとえば、図3(a)に示したような第2カメラによる被写体の画面表示が、図3(b)に示したように、被写体の一部分が拡大表示された画面表示となる。
このように、撮影や設定を行うための動作キーワードとしては、たとえば、図4に示すように、「シャッター」、「広角」、「ズーム」、「明るく」、「暗く」、「人物」、「風景」などがあげられるが、これらに限るものではない。
これらの動作キーワードは、予め固定的に設定しておいてもよいが、ユーザが必要に応じて使用するキーワードを新たに登録してもよく、あるいは、予め準備された複数のキーワードのうち、ユーザがよく使用するキーワードを限定し、そのユーザが自ら使用可否の設定をできるようにしてもよい。
読取キーワード35は、上記したように、読唇解析の結果、読取キーワード生成部23によって生成されたキーワードである。
認識キーワード36は、キーワード比較部24によって抽出された読取キーワード35と一致可能なキーワードであり、撮影者が発声したと確定されたキーワードであり、キーワードリストの中に予め記憶されているこの認識キーワードに対応づけられた動作の内容が実行される。
認識キーワード36は、キーワード比較部24によって抽出された読取キーワード35と一致可能なキーワードであり、撮影者が発声したと確定されたキーワードであり、キーワードリストの中に予め記憶されているこの認識キーワードに対応づけられた動作の内容が実行される。
また、認識キーワード36を確定させる場合に、上記したように、読取キーワードと完全一致するものだけを抽出するか、一致する文字数が最も大きいものを抽出するか、および、近似度の最も高いものを抽出するかのいずれの判定基準を使用するかについて、ユーザが予め設定できるようにしてもよい。
また、近似度を判定する基準値(%)についても、ユーザが、その数値の入力や、「高、中、低」などの選択ができるようにしてもよい。
さらに、近似度の最も高いキーワードを抽出する場合、確定した認識キーワード36に対応する動作をすぐに実行するのではなく、認識キーワードが抽出された後に、たとえば、認識キーワードを表示部に表示したり確認メッセージを音声で通知することにより、認識キーワードがユーザの発声した文字列と一致するか否かをユーザに問い合わせてもよい。
さらに、近似度の最も高いキーワードを抽出する場合、確定した認識キーワード36に対応する動作をすぐに実行するのではなく、認識キーワードが抽出された後に、たとえば、認識キーワードを表示部に表示したり確認メッセージを音声で通知することにより、認識キーワードがユーザの発声した文字列と一致するか否かをユーザに問い合わせてもよい。
ユーザへの問い合わせをする場合は、問い合わせに対するユーザの肯定的な指示入力があった後に、対応する動作を実行すればよい。
また、認識キーワードがユーザの意図したものではなく、ユーザの否定的な指示入力があった場合は、認識キーワードをキャンセルすればよい。
また、認識キーワードがユーザの意図したものではなく、ユーザの否定的な指示入力があった場合は、認識キーワードをキャンセルすればよい。
また、図4では、1つの動作キーワードと1つの動作内容とを対応させたものを示したが、1つの動作内容に対する動作キーワードとして、複数のキーワードを対応させてもよい。
たとえば、撮影開始という動作に対応する動作キーワードとして「シャッター」、「さつえい」、「とります」というような複数のキーワードを設定してもよい。
たとえば、撮影開始という動作に対応する動作キーワードとして「シャッター」、「さつえい」、「とります」というような複数のキーワードを設定してもよい。
このように、複数のキーワードを設定する場合は、この機能の使用を容易なものとするために、ユーザがよく使うわかりやすい文字列を、ユーザ自らが設定できるようにすることが好ましい。
また、キーワードを発声したときの口の動きは、個人ごとにかなり異なる場合もあるので、発声したキーワードの認識は、完全一致ではなく、近似度の大きさに加えて、部分一致する文字数などを考慮して行うことが好ましい。
さらに、国語辞書等を予め記憶しておき、生成された読取キーワード35と同じ意味を持つ同義語を辞書から抽出して、読取キーワードそのものがキーワードリスト34の中になくても、抽出した同義語と一致する動作キーワードがキーワードリスト34の中にあれば、その同義語を認識キーワード36に設定してもよい。
これによれば、ユーザが予め設定されているキーワードを忘れてしまった場合でも、そのキーワードと同じ意味の文字列を発声してみることにより、所望の動作を行わせることができる場合もある。
たとえば、「風景」という動作キーワードを、ユーザが忘れていた場合でも、「風景」と同義語と考えられる「けしき」という発声をすることにより、「けしき」という読取キーワード35に基づいて、同義語である「風景」が抽出されて、「風景」が認識キーワード36として確定されれば、ユーザの所望の動作が実行できる。
<読唇処理を用いたカメラ制御>
図2に、この発明の撮影装置におけるカメラ制御の一実施例のフローチャートを示す。
ここでは、ユーザの手動による入力操作をすることなく、読唇処理を用いて、撮影装置で実行される種々の機能のうち、撮影開始やカメラの設定動作を行う機能について説明する。
図2に、この発明の撮影装置におけるカメラ制御の一実施例のフローチャートを示す。
ここでは、ユーザの手動による入力操作をすることなく、読唇処理を用いて、撮影装置で実行される種々の機能のうち、撮影開始やカメラの設定動作を行う機能について説明する。
ステップS1において、入力部11を用いたユーザの入力操作により、撮影部15を起動させる。すなわち、2つのカメラ(16,17)を駆動させ、レンズを介して画像を取り込むための準備をする。
ステップS2において、第1カメラ16および第2カメラ17から、それぞれ撮影可能な画像を取得し、記憶部31に一時記憶する。
ステップS3において、第1カメラ16および第2カメラ17によって取得された画像を表示部14に表示させる。このとき、表示制御部13は、第1カメラ16から取得された画像と、第2カメラ17から取得された画像とを合成し、たとえば、図3(a)に示すような画面位置に、それぞれの取得画像を表示させる。
ステップS3において、第1カメラ16および第2カメラ17によって取得された画像を表示部14に表示させる。このとき、表示制御部13は、第1カメラ16から取得された画像と、第2カメラ17から取得された画像とを合成し、たとえば、図3(a)に示すような画面位置に、それぞれの取得画像を表示させる。
撮影者は、この表示画面を見ながら、第2カメラで撮影する被写体の範囲を調整し、さらに第1カメラで取得された撮影者自らの顔画像(特に唇領域の画像)が、表示画面に表示されるように装置本体の支持する位置を調整する。
さらに、撮影者は、所望の動作に対応するキーワードを発声する。
さらに、撮影者は、所望の動作に対応するキーワードを発声する。
ステップS4において、第1カメラ16によって取得される一連の画像を用いて、読唇処理を行う。
この一連の画像とは、撮影者がキーワードを発声しているときの顔画像であり、連続的な静止画でもよく、動画像でもよい。また、この一連の画像の最初と最後、すなわち、撮影者がキーワードを発声している期間の画像がどの部分であるかは、たとえば、唇の動きが一定時間静止している箇所を抽出することにより判断することができる。
この一連の画像とは、撮影者がキーワードを発声しているときの顔画像であり、連続的な静止画でもよく、動画像でもよい。また、この一連の画像の最初と最後、すなわち、撮影者がキーワードを発声している期間の画像がどの部分であるかは、たとえば、唇の動きが一定時間静止している箇所を抽出することにより判断することができる。
読唇処理では、一連の画像に対して、唇領域抽出部21による唇領域の画像部分の抽出処理が行われ、読唇解析部22が、抽出された複数の唇領域の画像の動き(変化量と変化方向)を順に測定していくことにより、読唇解析を行って、どのようなことば(文字)が発声されているかを検出する。
一連の画像全体にわたって上記解析を行うことにより、発声されたキーワードに相当する文字列が検出されるので、読取キーワード生成部23が、その文字列を、読取キーワード35として生成し、記憶部31に記憶する。
ステップS5において、キーワード比較部24が、生成された読取キーワード35と、キーワードリスト34の中の動作キーワードとを比較する。
ここで、完全一致するか否かの判断を行う場合は、読取キーワード35と完全に一致する動作キーワードを、キーワードリスト34の中から探し出す。
ここで、完全一致するか否かの判断を行う場合は、読取キーワード35と完全に一致する動作キーワードを、キーワードリスト34の中から探し出す。
また、読取キーワード35に対して所定の近似度以上を持つ動作キーワードを選択する場合や所定の文字数以上の部分一致が可能な動作キーワードを選択する場合は、上記近似度や一致文字数を計算し、所定の判定基準を満たす動作キーワードを探し出す。
ステップS6において、キーワードリスト34の中に、読取キーワード35に一致するキーワードがあるか否かチェックする。
完全一致する動作キーワードがある場合、近似度あるいは一致文字数の計算によって、所定の判定基準を満たす動作キーワードがある場合は、ステップS7に進み、そうでない場合は、ステップS2へ戻る。
完全一致する動作キーワードがある場合、近似度あるいは一致文字数の計算によって、所定の判定基準を満たす動作キーワードがある場合は、ステップS7に進み、そうでない場合は、ステップS2へ戻る。
ステップS7において、完全一致した動作キーワードあるいは、所定の判定基準を満たした動作キーワードを、認識キーワード36に設定し記憶する。
ステップS8において、認識キーワード36が「終了」を意味するキーワードである場合は、ステップS9に進み、撮影部の動作を停止させる。
一方、ステップS8において、認識キーワード36が「終了」を意味するキーワードでない場合は、ステップS10へ進む。
一方、ステップS8において、認識キーワード36が「終了」を意味するキーワードでない場合は、ステップS10へ進む。
ステップS10において、認識キーワード36が撮影開始を意味する「シャッター」である場合は、ステップS11に進み、画像撮影処理を実行する。
画像撮影処理では、第2カメラ17による被写体の撮影が行われ、被写体の画像データが記憶部31に記憶される。その後、ステップS2へ戻る。
一方、認識キーワードが「シャッター」でない場合は、ステップS12に進む。
画像撮影処理では、第2カメラ17による被写体の撮影が行われ、被写体の画像データが記憶部31に記憶される。その後、ステップS2へ戻る。
一方、認識キーワードが「シャッター」でない場合は、ステップS12に進む。
ステップS12において、認識キーワード36が、「動作設定」を意味するキーワードであるか否かをチェックする。
たとえば、「動作設定」を意味するキーワードとしては、「広角」、「ズーム」、「明るく」、「暗く」、「人物」、「風景」などのキーワードがあり、これらのキーワードのいずれかに該当するか否かを、チェックする。
たとえば、「動作設定」を意味するキーワードとしては、「広角」、「ズーム」、「明るく」、「暗く」、「人物」、「風景」などのキーワードがあり、これらのキーワードのいずれかに該当するか否かを、チェックする。
認識キーワード36が、「動作設定」を意味するキーワードである場合、ステップS13に進み、その動作キーワードに対応付けられた動作設定を実行する。
たとえば、認識キーワードが「ズーム」であれば、レンズを望遠側に移動させる調整を自動的に実行する。その後、ステップS2に戻る。
たとえば、認識キーワードが「ズーム」であれば、レンズを望遠側に移動させる調整を自動的に実行する。その後、ステップS2に戻る。
一方、認識キーワード36が、「動作設定」を意味するキーワードでない場合、ステップS14に進み、その認識キーワードに対応付けられたその他の処理が存在する場合、その他のカメラ制御を行い、ステップS2に戻る。
以上のように、第1カメラの画像として取得された撮影者の唇領域を含む顔画像から撮影者の発声した動作キーワードを認識して、その動作キーワードに予め対応付けられたカメラ制御動作を実行する。
したがって、カメラ制御を行わせるために、ユーザは、手や指を用いた入力操作をする必要はなく、所望のキーワードを発声している画像をカメラに読み取らせるようにするだけでよいので、撮影開始や動作設定の動作を容易に実行させることができる。
また、撮影者を撮影する第1カメラと、被写体を撮影する第2カメラとは別々に設けられるので、被写体の中に撮影者自身が含まれている必要はなく、被写体の中の人物に、キーワードを発声してもらう必要はない。
また、撮影を開始するために手動操作を行わないので、その手動操作によって発生する可能性のあった被写体画像のズレが発生するのを防止でき、手動操作によって表示画面が隠されることもないので、画像のズレが生じたことに気づきやすい。
11 入力部、12 タッチパネル、13 表示制御部、14 表示部、21唇領域抽出部、22 読唇解析部、23 読取キーワード生成部、24 キーワード比較部、25 カメラ制御部、26 画像撮影、27 動作設定、31 記憶部、32 撮影者画像、33 被写体画像、34 キーワードリスト、35読取キーワード、36 認識キーワード
Claims (5)
- 撮影者を撮影する第1カメラと、
被写体を撮影する第2カメラと、
前記第1カメラによって撮影された撮影者の顔画像を用いて、撮影者が発声した文字列に対応する唇の動きを解析する読唇解析部と、
解析された唇の動きに対応する読取キーワードを生成する読取キーワード生成部と、
前記読取キーワードと予め対応付けられた画像撮影および動作設定の内容に基づいて、前記第2カメラの動作を制御するカメラ制御部とを備えたことを特徴とする撮影装置。 - 前記第2カメラによる画像撮影を開始させるための動作キーワードおよび前記第2カメラの動作設定を行わせるための動作キーワードと、前記各動作キーワードに予め対応付けられた画像撮影および動作設定の内容とからなるキーワードリストを記憶した記憶部と、
前記生成された読取キーワードと、前記キーワードリストに記憶された動作キーワードとを比較し、所定の判定基準を満たす動作キーワードを認識キーワードに設定するキーワード比較部とをさらに備え、
前記カメラ制御部は、前記設定された認識キーワードに対応付けられた画像撮影および動作設定に基づいて、前記第2カメラの動作を制御することを特徴とする請求項1に記載の撮影装置。 - 前記キーワード比較部が、動作キーワードを認識キーワードに設定する所定の判定基準には、
前記キーワードリストに記憶された動作キーワードの中で、生成された読取キーワードと完全一致する動作キーワードであること、生成された読取キーワードと最も高い近似度を持つ動作キーワードであること、および生成された読取キーワードと一致する文字数が最も多い動作キーワードであることのいずれかの基準が含まれることを特徴とする請求項2に記載の撮影装置。 - 前記第1カメラおよび前記第2カメラは、それぞれ撮影装置の前面および後面に配置され、前記第1カメラによって撮影者の顔画像が撮影されるように支持された場合、
前記第2カメラによって、撮影者とは反対側の方向にある被写体を撮影することができる状態となることを特徴とする請求項1ないし3のいずれかに記載の撮影装置。 - 前記第1カメラが配置された位置と同じ前記前面に、表示部をさらに備え、
前記表示部に前記第2カメラによって撮影可能な被写体の画像を表示し、かつ同時に、前記第1カメラによって撮影可能な撮影者の画像を前記表示部の端部領域に表示させることを特徴とする請求項4に記載の撮影装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013017015A JP2014150348A (ja) | 2013-01-31 | 2013-01-31 | 撮影装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013017015A JP2014150348A (ja) | 2013-01-31 | 2013-01-31 | 撮影装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014150348A true JP2014150348A (ja) | 2014-08-21 |
Family
ID=51573024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013017015A Pending JP2014150348A (ja) | 2013-01-31 | 2013-01-31 | 撮影装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014150348A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018143585A (ja) * | 2017-03-07 | 2018-09-20 | 株式会社トプコン | 眼科用観察装置及びその作動方法 |
JP2019165999A (ja) * | 2018-03-23 | 2019-10-03 | 株式会社トプコン | 眼科装置 |
JP2023081259A (ja) * | 2021-11-30 | 2023-06-09 | 仁寶電腦工業股▲ふん▼有限公司 | 無人航空機の制御装置およびその制御方法 |
-
2013
- 2013-01-31 JP JP2013017015A patent/JP2014150348A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018143585A (ja) * | 2017-03-07 | 2018-09-20 | 株式会社トプコン | 眼科用観察装置及びその作動方法 |
JP2019165999A (ja) * | 2018-03-23 | 2019-10-03 | 株式会社トプコン | 眼科装置 |
JP7034791B2 (ja) | 2018-03-23 | 2022-03-14 | 株式会社トプコン | 眼科装置 |
JP2023081259A (ja) * | 2021-11-30 | 2023-06-09 | 仁寶電腦工業股▲ふん▼有限公司 | 無人航空機の制御装置およびその制御方法 |
US11921523B2 (en) | 2021-11-30 | 2024-03-05 | Compal Electronics, Inc. | Control device for unmanned aerial vehicle and control method therefor |
JP7482923B2 (ja) | 2021-11-30 | 2024-05-14 | 仁寶電腦工業股▲ふん▼有限公司 | 無人航空機の制御装置およびその制御方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10083710B2 (en) | Voice control system, voice control method, and computer readable medium | |
CN110475069B (zh) | 图像的拍摄方法及装置 | |
JP6374986B2 (ja) | 顔認識方法、装置及び端末 | |
JP6335289B2 (ja) | 画像フィルタを生成する方法及び装置 | |
US9838616B2 (en) | Image processing method and electronic apparatus | |
WO2018120662A1 (zh) | 一种拍照方法,拍照装置和终端 | |
US20100157099A1 (en) | Mobile device with a camera | |
KR102127351B1 (ko) | 사용자 단말 장치 및 그 제어 방법 | |
WO2017096861A1 (zh) | 拍摄照片的方法及装置 | |
KR20100027700A (ko) | 촬영 방법 및 장치 | |
US11076091B1 (en) | Image capturing assistant | |
KR20100055946A (ko) | 동영상 썸네일 생성 방법 및 장치 | |
CN113840070B (zh) | 拍摄方法、装置、电子设备及介质 | |
US11216075B2 (en) | Method, apparatus and device for triggering shooting mode, and storage medium | |
JP2008219449A (ja) | 撮像装置およびその制御方法 | |
JP2011095862A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2009117975A (ja) | 撮影装置および撮影方法 | |
KR20080109519A (ko) | 영상 촬영 장치 및 촬영 방법 | |
JP2014150348A (ja) | 撮影装置 | |
US20170244891A1 (en) | Method for automatically capturing photograph, electronic device and medium | |
CN110913120B (zh) | 图像拍摄方法及装置、电子设备、存储介质 | |
CN108153811B (zh) | 一种搜索内容的输入方法、装置、移动终端及存储介质 | |
WO2019170038A1 (zh) | 一种目标屏幕确定方法、装置及存储介质 | |
JP2008219450A (ja) | 撮像装置およびその制御方法 | |
JP2013190952A (ja) | 文字認識用のプログラムおよび文字認識装置 |