図1は、本発明の第1実施形態に係る画像音声処理装置のブロック図である。図1において、ネットワーク/記録機器3は、動画の画像データと音声データ(いずれか一方のみでもよく、また動画の画像データに限らず静止画の画像データでもよい)を逐次取得し、画像音声処理機器1に出力する。ネットワーク/記録機器3は、画像と音声の少なくとも一つを逐次取得する取得部として機能する。
ネットワーク/操作機器5は、ユーザが興味をもつ対象を指定する操作機器であり、このネットワーク/操作機器5によって指定された対象は、画像音声処理機器1に出力する。このネットワーク/操作機器5は、少なくとも一つの画像内容を指定、または少なくとも一つの音声内容を指定する指定部として機能する。指定の仕方は、図3を用いて後述するように、言葉、画像、音声等のいずれかである。
ネットワーク/記録機器7は、画像音声処理機器1から「指定」または「情報」を入力する。ここで、「指定」はネットワーク/操作機器5によって画像音声処理機器1に出力された言葉、画像、音声そのものである。また「情報」は、例えば、指定された画像に付されているタグ情報等であり、指定された言葉、画像、音声に関連する情報である。
ネットワーク/記録機器7は、入力した「指定」や「情報」を用いて、ネットワーク/記録機器3から画像音声処理機器3が動画(静止画でもよい)や音声を入力した際に、ユーザが興味を持つ対象であるか否かを検出する際に使用する「特定」または「類似画像」もしくは「類似音声」を生成する。ここで、「特定」は、ユーザが興味を持つ対象を特定するための特徴点等の補助情報である。すなわち、ネットワーク/記録機器3から入力した動画や音声そのものを分析して、ユーザが興味を持つ対象を検出するにあたって、迅速に処理するために、画像および音声の特徴点に関する情報である。
また、「類似画像」もしくは「類似音声」は、ネットワーク/操作機器5によって指定された画像や音声そのもの以外にも類似した画像や音声である。指定された画像や音声と一致する画像や音声以外にも、類似の画像や類似の音声を検出することにより、幅広くユーザの興味を持つ対象を検出するためである。
画像音声処理機器1は、ネットワーク/記録機器7から「特定」または「類似画像」もしくは「類似音声」を入力し、この入力した「特定」または「類似画像」もしくは「類似音声」を用いて、ネットワーク/記録機器3から入力した動画(静止画でもよい)や音声の中からユーザが興味を持つ画像や音声を検出する。画像音声処理機器1はユーザが興味を持つ画像や音声を検出した場合には、ネットワーク/記録機器3から入力した動画や音声に重畳して、ユーザが興味を持つ画像や音声があることを知らせるように画像処理や音声処理を施す。
この画像音声処理機器1は、指定部(図1の例ではネットワーク/操作機器5が機能する)によって指定された画像内容または音声内容を、取得部(図1の例では、ネットワーク/記録機器3が機能する)によって取得された画像または音声の中から検出する検出部としての機能を果たす。また、画像音声処理機器1は、検出部によって検出された画像の少なくとも一部に画像処理を施し、または検出部によって検出された音声の少なくとも一部に音声処理を施す処理部としての機能も果たす。
画像音声処理機器1によって処理された動画(静止画でもよい)や音声は、ネットワーク/記録機器/表示再生機器9に出力され、このネットワーク/記録機器/表示再生機器9によって画像や音声の再生表示がなされる。ネットワーク/記録機器/表示再生機器9は、取得部(図1の例では、ネットワーク/記録機器3が機能する)によって取得された画像および/または音声と、指定部(図1の例ではネットワーク/操作機器5が機能する)によって指定された画像内容および/または音声と、処理部(図1の例では、画像音声処理機器1が機能する)によって画像処理された画像および/または処理部によって音声処理された音声のうちの少なくとも一つを出力する出力部として機能する。
なお、図1に示すネットワーク/記録機器3、ネットワーク/操作機器5、ネットワーク/記録機器7、およびネットワーク/記録機器/表示再生機器9と、画像音声処理機器1は、1つの装置内に設けられていてもよく、また全てもしくはいずれかの機器をネットワークで結ぶようにしてもよい。ネットワークでの結び方としては、例えば、画像音声処理機器1をパーソナルコンピュータとし、他の機器をインターネットやブルートゥース等で結んでもよい。また、画像音声処理機器1をスマートフォン等の携帯機器とし、他の機器を通信で結ぶようにしてもよい。いずれにしても、画像音声処理機器1はパーソナルコンピュータ等に限られず、他の機器であってもよい。また、図1に示す機器の全てまたは一部をデジタルカメラ等の機器に配置するようにしてもよい。例えば、図1に示す機器の全てをデジタルカメラとした場合には、ネットワーク/記録機器3は撮像部等が対応し、ネットワーク/操作機器5はタッチパネルや操作釦等の操作部等が対応し、画像音声処理機器1およびネットワーク/記録機器7はCPU等の制御部等が相当し、ネットワーク/記録機器/表示再生機器9は表示パネル等が相当する。
次に、図2を用いて、指定部として機能するネットワーク/操作機器5における指定の際の優先順位の付け方について説明する。画像音声処理機器1の内部には、画像1〜画像5・・・を記憶するための画像メモリ1a、音声1、音声2、・・・を記憶するための音声メモリ1b、優先順位1〜優先順位7、・・・を記憶するための優先順位記憶メモリ1cが設けられている。画像メモリ1aに記憶される画像は、ネットワーク/操作機器5によって指定された画像について、ネットワーク/記録機器7によって処理された画像である。ネットワーク/記録機器7によって画像の特徴点が解析されている場合には、この画像の特徴点を記憶する。また、音声についても、同様に、ネットワーク/記録機器7によって音声の特徴点が解析されている場合には、この音声の特徴点を記憶する。また、ネットワーク/記録機器7によって「言葉」で指定されている場合には、この指定された言葉に対応する画像または音声に関連するデータを記憶する。
優先順位記憶メモリ1cには、前述したように、優先順位を記憶する。ネットワーク/操作機器5によって、ユーザの興味のある対象が多数、指定されると、指定された画像や音声を検出する毎に、ネットワーク/記録機器/表示再生機器9に、画像表示や音声表示がなされる。頻繁に表示がなされると、ユーザとしても煩わしいことから、優先順位を入力できるようにし、優先順位の高い指定のみ表示を行うようにしている。なお、上から何位まで表示するかは、画像音声処理機器の設計値として決めてもよく、またユーザが適宜変更できるようにしてもよい。また、図2においては、画像音声処理機器1、ネットワーク/記録機器3、ネットワーク/操作機器5、ネットワーク/記録機器/表示再生機器9が別体に構成されている場合について説明したが、これらの全部または一部を一体に構成しても勿論かまわず、その場合には、画像メモリ1a、音声メモリ1b、優先順位記憶メモリ1cは、一体に構成した機器の間で共通に使用すればよい。
次に、図3を用いて、第1実施形態に係る画像音声処理装置の一例の使用方法を説明する。図3に示す例では、画像音声処理機器としてパーソナルコンピュータ2を用いている。パーソナルコンピュータ2には、音声付動画3aが入力され、また指定内容として、言葉5a(図3の例では、「人物」という言葉)、または画像5b、または音声5cが入力される。画像音声処理機器1としてのパーソナルコンピュータ2は、音声付き動画を入力すると、音声付き動画の中に、指定された言葉5a、画像5b、または音声5cがあるか否かを検出する。この検出の結果、指定された言葉5a等が含まれる場合には、音声付動画9aを表示するにあたって、その旨を認識できるように表示する。なお、図3ではパーソナルコンピュータ2を使用する例を示したが、パーソナルコンピュータ2以外にも、例えば、カメラ、スマートフォン等、他の機器であっても構わない。
次に、図4を用いて、ユーザの興味の対象を検出し、その旨を認識できるような表示を出力するための構成について説明する。画像音声処理機器1内には、画像取得部11、音声取得部13、検出部15、指定部17、画像処理部19、音声処理部21、画像出力部23、音声出力部25がバス29に接続されている。
画像取得部11はネットワーク/記録機器3から被写体像等の画像を取得し、音声取得部13はネットワーク/記録機器3から周囲の音声を取得する。指定部17は、ネットワーク/操作機器5から指定を取得し記憶する。検出部15は、画像取得部11によって取得した画像、または音声取得部13によって取得した音声の中に、指定部17による指定された画像または音声があるか否かを検出する。
画像処理部19は、画像取得部11によって取得した画像を出力用に処理し、また検出部15によって指定された画像があると検出された場合には、その旨を認識できるような画像に処理する。画像出力部23は、画像処理部19によって処理された画像を出力する。音声処理部21は、音声取得部13によって取得した音声を出力用に処理し、また検出部15によって指定された音声があると検出された場合には、その旨を認識できるような音声に処理する。なお、指定された画像を検出した場合に音声で表示してもよく、また指定された音声を検出した場合に画像で表示するようにしてもよい。
次に、図5を用いて、ユーザの興味の対象を検出し、その旨を認識できるような表示を出力するための構成の変形例について説明する。図5に示す例は、画像音声処理機器1と、他の機器の間を通信で結ぶ場合の構成を示す。図4と比較し、画像通信部10、音声通信部12、指定通信部14、特定部16を更に追加している点で相違する。この相違点について説明する。
画像通信部10は、ネットワーク/記録機器3から動画(静止画でもよい)を受信し、ネットワーク/記録機器/再生表示機器9に動画を送信する。音声通信部12は、ネットワーク/記録機器3から音声を受信し、ネットワーク/記録機器/再生表示機器9に音声を送信する。送受信経路としては、インターネット、無線、赤外線通信等を利用することができる。
指定通信部14は、ネットワーク/操作機器5からの指定を受信する。受信経路としては、インターネット、無線、赤外線通信等を利用することができる。特定部16は、ネットワーク/記録機器7からの「指定」や「情報」を入力し、記憶する。図4に示した例においても、特定部16を設けてもよく、また、ネットワーク/記録機器7の機能を画像音声処理機器1内に設けても構わない。
次に、図6に示すフローチャートを用いて、本実施形態における動作について説明する。このフローチャートは、画像音声処理機器内の図示しないメモリに記憶されたプログラムに従って、CPU(Central Processing Unit)等の処理装置が、画像音声処理機器内の各部を制御することにより、実行する。
図6に示すフローに入ると、まず、電源オンか否かの判定を行う(S1)。ここでは、画像音声処理機器1の電源スイッチ等、電源をオンにするための操作部材の操作状態に基づいて判定する。この判定の結果、電源オンでなかった場合には、終了する。なお、終了すると、CPU等の処理装置はスリープ状態等となり、電源スイッチ等の操作部材が操作されると、ステップS1から動作を開始する。
ステップS1における判定の結果、電源オンであった場合には、次に、指定を取得する(S3)。このステップでは、ネットワーク/操作機器5によって「言葉」「画像」「音声」による指定を取得する。前述したように、ユーザは興味のある対象を「言葉」(例えば、人物、花等)、「画像」(例えば、ネットワーク/操作機器5等に記憶されている画像の中から指定)、「音声」(例えば、ネットワーク/操作機器5等に記憶されている音声の中から指定)によって、指定するので、この指定された「言葉」「画像」「音声」等をネットワーク/操作機器5から取得する。
指定を取得すると、次に、画像の取得を行う(S5)。このステップでは、ネットワーク/記録機器3から動画の画像を取得する。動画の画像としては、撮像素子からリアルタイムに出力される動画画像(スルー画像(ライブビュー画像ともいう))でもよく、また撮像素子からの動画画像を一旦記録し、この記録された画像を読み出したものであってもよい。
画像を取得すると、次に、音声の取得を行う(S7)。このステップでは、ネットワーク/記録機器3から音声を取得する。音声としては、マイクからリアルタイムに集音された音声でもよく、またマイクによって集音した音声を一旦記録し、この記録された音声を読み出したものであってもよい。
音声取得を行うと、次に、画像出力を行う(S9)。このステップでは、ステップS5において取得した画像を、ネットワーク/記録機器/表示再生機器9に出力する。例えば、ネットワーク/記録機器/表示再生機器9が記録機能を有している場合には、画像の記録動作を行い、また再生表示機能を有している場合には、画像の再生表示を行う。
画像出力を行うと、次に、音声出力を行う(S11)。このステップでは、ステップS7において取得した音声を、ネットワーク/記録機器/表示再生機器9に出力する。例えば、ネットワーク/記録機器/表示再生機器9が記録機能を有している場合には、音声の記録動作を行い、また再生表示機能を有している場合には、音声の再生表示(すなわち、スピーカから音声を再生)を行う。
音声出力を行うと、次に、指定ありか否かの判定を行う(S13)。このステップでは、ステップS3において指定を取得したか否かを判定する。すなわち、ユーザが、ネットワーク/操作機器3から「言葉」「画像」「音声」を指定したか否かを判定する。この判定の結果、指定がない場合には、ステップS3に戻る。
一方、ステップS13における判定の結果、指定があった場合には、次に、画像内容の指定を行う(S15)。このステップでは、画像音声処理機器1は、ステップS3で取得した「言葉」「画像」による指定をネットワーク/記録機器7に出力し、このネットワーク/記録機器7によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、画像の特徴点等がある。
画像内容の指定を行うと、次に、音声内容の指定を行う(S17)。このステップでは、画像音声処理機器1は、ステップS3で取得した「音声」による指定をネットワーク/記録機器7に出力し、このネットワーク/記録機器7によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、音声の特徴点、また音声等に記録されているタグ情報等がある。
音声内容の指定を行うと、次に、画像検出を行う(S19)。このステップでは、ステップS5において取得した画像の中に、ステップS15において取得した画像内容指定を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ画像が含まれているか否かを検出する。
画像検出を行うと、次に、音声検出を行う(S21)。このステップでは、ステップS7において取得した音声の中に、ステップS17において取得した音声内容指定を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ音声が含まれているか否かを検出する。
音声検出を行うと、次に、画像処理を行う(S23)。このステップでは、ステップS19における画像検出の結果、ユーザが興味を持つ画像が含まれていた場合には、その旨をユーザが認識できるように画像処理を施す。例えば、ユーザが興味を持つ画像の部分の色を強調したり、色を変えたり、画像を拡大および縮小する画像エフェクトを施す等の画像処理を行ってもよい。また表示画面に文字・記号等による注意表示を行う画像処理を行ったり、またブザー音等、注意音を発生したりする等の音声処理を行ってもよい。
画像処理を行うと、次に、音声処理を行う(S25)。このステップでは、ステップS21における音声検出の結果、ユーザが興味を持つ音声が含まれていた場合には、その旨をユーザが認識できるように音声処理を施す。例えば、ユーザが興味を持つ音声の音量を増加させてもよい。また、表示画面に注意表示等を行うような画像処理を行ってもよい。
音声処理を行うと、次に、処理済み画像・音声があるか否かを判定する(S27)。このステップでは、ステップS23、S25において、画像処理または音声処理を行ったか否かを判定する。この判定の結果、処理済みの画像・音声がない場合には、ステップS1に戻る。
ステップS27における判定の結果、処理済みの画像・音声がある場合には、処理済み画像を出力する(S29)。ここでは、ステップS23において処理された画像をネットワーク/記録機器/表示再生機器9に出力する。これによって、ユーザは興味の対象が画面内にあることを認識することができる。
処理済み画像を出力すると、次に、処理済み音声出力を行う(S31)。ここでは、ステップS25において処理された音声をネットワーク/記録機器/表示再生機器9に出力する。これによって、ユーザは動画またはスルー画に興味の対象があることを認識することができる。ステップS31において処理済み音声出力を行うと、ステップS1に戻る。
次に、図7ないし図10を用いて、本発明の第2実施形態について説明する。この第2実施形態は、画像音声処理機器1およびその周辺機器(ネットワーク/記録機器3、ネットワーク/操作機器5、ネットワーク/記録機器7、ネットワーク/記録機器/表示再生機器9)を一体にし、カメラに適用したものである。
まず、図7および図8を用いて、ユーザが興味を持つ対象をカメラ100でどのように表示するかについて説明する。カメラ100の背面には表示モニタ101が設けられている。図7の左上に示す画像110は、ユーザが見ている被写体である。また、カメラ100の表示モニタ101には、スルー画像120が表示される。このスルー画像120は、カメラ100内の撮像部131(図9参照)から逐次出力される画像データに基づいて表示される。この撮像部131は、図1のネットワーク/記録機器3に相当する。
スルー画像120の左側には、第1指定121として「人」という言葉(文字)が、また第2指定123として「花」という言葉(文字)が表示されている。第1指定121と第2指定123は、ユーザがカメラ100の操作部材を操作して入力される。なお、この操作部材は、図1のネットワーク/操作機器5に相当する。
カメラ100は、第1指定121と第2指定123によって指定されている「人」や「花」が被写体110の中に含まれていることを検出すると、表示モニタ101にそのことが認識できるように、例えば、第1指定121や第2指定123の色を変えたり、またスルー画像中の対応する部分の色等を変えたり、画像を拡大および縮小する画像エフェクトを施す画像処理を行ったり、文字等により注意表示を行ったりする。なお、図7に示す例では、第1指定121および第2指定123の2つの言葉で指定したが、これに限らず、1つでもよく、また3つ以上の言葉でもよい。
図8に示す例は、第1特定画像125と第2特定画像127によって、ユーザの興味ある対象を指定している。すなわち、カメラ100内に記録されている画像の中から、ユーザが特定画像として指定したものである。なお、特定画像の数は、図8に示す例では、2つであるが、1つでもよく、また3以上でもよい。また、特定画像はカメラ100内に記録されている画像以外にも、インターネット等によって外部から画像を入力するようにしても構わない。また、第1指定等や特定画像等を表示するにあたって、別の領域で表示しているが、スルー画が重畳して表示するようにしても構わない。
次に、図9を用いて、画像音声処理機器1として使用されるカメラ100の構成について説明する。カメラ100内には、バス167が設けられ、このバス167に、撮像部131、集音部133、画像取得部135、音声取得部137、指定部139、指定通信部141、特定部143、検出部145、付属情報特定部147、優先順位設定部149、類似画像特定部151、類似音声特定部153、画像処理部155、音声処理部157、画像出力部159、音声出力部161、画像表示部163、音声再生部165が接続している。
撮像部131は、撮影レンズや撮像素子等を含み、被写体像を光電変換し、画像データを出力する。集音部133は、マイクや音声処理回路等を含み、周囲の音声を集音し、音声データを出力する。画像取得部135は、撮像部131からの画像データや他の機器からの画像データを取得し記憶する。音声取得部137は、集音部133からの音声データや他の機器からの音声データを取得し記憶する。
指定部139は、ユーザが興味を持つ対象を指定するための入力部であり、「言葉」「画像」「音声」によって指定可能である。画像や音声の場合には、カメラ内に記憶されている画像ファイルや音声ファイルをタッチパネルや十字ボタン等によって指定してもよい。指定通信部141は、カメラ外部の機器、例えば、パーソナルコンピュータやスマートフォン等の機器によって指定する場合の通信部である。外部の機器で、「言葉」「画像」「音声」を指定した場合には、この指定通信部141を介して入力し、記憶する。
特定部143は、図1のネットワーク/記録機器7に相当し、指定部139や指定通信部141による指定に基づいて、検出部145によって検出しやすいようなデータに変換する。例えば、画像で指定された場合には、画像の特徴点を検出し、音声で指定された場合には、音声の特徴点を検出する。また、「言葉」で指定された場合には、検索を容易にするために、言葉に対応する画像を抽出し、この画像の特徴点を検出する。もちろん、言葉に対応する特徴点を予め記憶しておき、これを検索するようにしても構わない。付属情報特定部147は、画像や音声にタグ情報等があれば、この情報を抽出する。
検出部145は、画像取得部135で取得した画像と、音声取得部137で取得した音声の中から、指定部139によって指定されたユーザの興味のある対象が存在するか否かを検出する。この検出にあたっては、特定部143や付属情報特定部147からの出力を用いる。
優先順位設定部149は、指定部139や指定通信部141による「指定」が複数ある場合に、優先順位を設定する。優先順位は、ユーザが表示モニタ101上でタッチパネルや操作部材によって設定する。デフォルトとしては、最新の「指定」を優先順位が高くなるようにしてもよい。
類似画像特定部151は、指定部139や指定通信部141によって指定された「画像」と類似の画像を特定する。ユーザが指定した画像は、代表的な画像であり、類似画像特定部151は、指定画像と類似し、ユーザが興味を持つ類似画像を特定する。類似音声特定部153は、指定部139や指定通信部141によって指定された「音声」と類似の音声を特定する。ユーザが指定した音声は、代表的な音声であり、類似音声特定部153は、指定音声と類似し、ユーザが興味を持つ類似音声を特定する。なお、指定された「画像」「言葉」から類似音声を検索してもよく、また指定された「音声」「言葉」から類似画像を検索してもよい。
画像処理部155は、画像取得部135によって取得した画像を出力用に処理し、また検出部145によってユーザが興味を持つ画像を含むことを検出した場合には、その旨を認識できるような画像に処理する。画像出力部159は、画像処理部155によって処理された画像を出力する。画像表示部163は、画像出力部159からの画像を表示モニタ101等に表示する。
音声処理部157は、音声取得部137によって取得した音声を出力用に処理し、また検出部145によって指定された音声があると検出された場合には、その旨を認識できるような音声に処理する(例えば、音量を増大させる)。音声再生部165は、音声出力部161からの音声をスピーカ等によって再生する。なお、指定された画像を検出した場合に音声で表示してもよく、また指定された音声を検出した場合に画像で表示するようにしてもよい。
次に、図10に示すフローチャートを用いて、本実施形態における動作について説明する。図6に示したフローチャートと同様に、図10に示すフローチャートも、カメラ100内の図示しないメモリに記憶されたプログラムに従って、CPU(Central Processing Unit)等の処理装置が、カメラ100内の各部を制御することにより、実行する。
図10に示すフローに入ると、まず、ステップS1と同様に、電源オンか否かの判定を行う(S51)。この判定の結果、電源オンでなかった場合には、終了する。
ステップS51における判定の結果、電源オンであった場合には、次に、指定を取得する(S53)。このステップでは、指定部139等によって「言葉」「画像」「音声」による指定を取得する。前述したように、ユーザは興味のある対象を「言葉」、「画像」、「音声」によって、指定するので、この指定された「言葉」「画像」「音声」等を取得する。
指定を取得すると、次に、撮像する(S55)。このステップでは、撮像部131が被写体像を光電変換し、画像データを取得する。撮像すると、次に、集音する(S57)。このステップでは、音声取得部137が、マイク等によってカメラ100の周囲の音声を取得する。
集音すると、次に、画像表示を行う(S57)。このステップでは、ステップS55における撮像によって取得した画像データを画像処理部155において画像処理した後、画像表示部163(表示モニタ101)にスルー画像を表示する。
画像表示を行うと、次に、音声再生を行う(S59)。このステップでは、ステップS57における集音によって取得した音声データを音声処理部157において音声処理した後、音声再生部165のスピーカから音声再生を行う。
音声再生を行うと、次に、ステップS13と同様に、指定ありか否かの判定を行う(S63)。このステップでは、ステップS53において指定を取得したか否かを判定する。すなわち、ユーザが、指定部139から「言葉」「画像」「音声」でユーザの興味のある対象を指定したか否かを判定する。この判定の結果、指定がない場合には、ステップS53に戻る。
一方、ステップS63における判定の結果、指定があった場合には、次に、画像内容の指定を行う(S65)。このステップでは、カメラ100は、ステップS53で取得した「言葉」「画像」による指定を特定部143によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、画像の特徴点等がある。
画像内容の指定を行うと、次に、音声内容の指定を行う(S67)。このステップでは、カメラ100は、ステップS57で取得した「音声」による指定に基づいて、特定部143によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、音声の特徴点等がある。
音声内容の指定を行うと、次に、画像の優先順位を特定する(S69)。図2を用いて説明したように、多数の指定がなされると、カメラ100の表示モニタ101等にユーザの興味のある対象が存在することが頻繁に表示され煩わしくなる。そこで、本実施形態においては、画像の優先順位をつけ、優先順位の高い画像のみ表示するようにしている。この優先順位は、表示モニタ101等においてユーザが適宜設定してもよく、デフォルトで最初に指定したものを優先するようにしてもよい。
画像の優先順位を特定すると、次に、音声の優先順位を特定する(S71)。画像の優先順位の特定と同様に、多数の指定がなされると、カメラ100の表示モニタ101やスピーカ等にユーザの興味のある対象が存在することが頻繁に表示され煩わしくなる。そこで、本実施形態においては、音声の優先順位をつけ、優先順位の高い音声のみ表示するようにしている。この優先順位は、表示モニタ101等においてユーザが適宜設定してもよく、デフォルトで最初に指定したものを優先するようにしてもよい。
音声の優先順位を特定すると、次に、付属情報を特定する(S73)。このステップでは、カメラ100は、ステップS53で取得した「画像」「音声」による指定に基づいて、付属情報特定部147によって検出しやすい「情報」を取得する。情報としては、画像ファイルや音声ファイルに添付されているタグ情報等がある。
付属情報を特定すると、次に、類似画像を特定する(S75)。このステップでは、ステップS53で取得した「画像」による指定に基づいて、類似画像特定部151によって、類似画像を特定する。前述したように、ユーザが指定した画像は、代表的な画像であり、類似画像特定部151は、指定画像と類似し、ユーザが興味を持つ類似画像を特定する。
類似画像を特定すると、次に、類似音声を特定する(S77)。このステップでは、ステップS57で取得した「音声」による指定に基づいて、類似音声特定部153によって、類似音声を特定する。前述したように、ユーザが指定した音声は、代表的な音声であり、類似音声特定部153は、指定音声と類似し、ユーザが興味を持つ類似音声を特定する。
類似音声を特定すると、次に、画像検出を行う(S79)。このステップでは、ステップS75において取得した画像の中に、ステップS65において取得した画像内容指定、ステップS73の付属情報、ステップS75において取得した類似画像を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ画像が含まれているか否かを検出する。なお、この判定にあたっては、ステップS69において特定した画像の優先順位に従って行う。
画像検出を行うと、次に、音声検出を行う(S79)。このステップでは、ステップS57において取得した音声の中に、ステップS67において取得した音声内容指定、ステップS73の付属情報、ステップS77で取得した類似音声を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ音声が含まれているか否かを検出する。この判定にあたっては、ステップS69において特定した画像の優先順位に従って行う。
音声検出を行うと、次に、画像処理を行う(S83)。このステップでは、ステップS79における画像検出の結果、ユーザが興味を持つ画像が含まれていた場合には、その旨をユーザが認識できるように画像処理を施す。例えば、ユーザが興味を持つ画像の部分の色を強調したり、色を変えたり、画像を拡大および縮小する画像エフェクトを施す等の画像処理を行ってもよい。また表示画面に文字・記号等による注意表示を行う画像処理を行ったり、またブザー音等、注意音を発生したりする等の音声処理を行ってもよい。
画像処理を行うと、次に、音声処理を行う(S85)。このステップでは、ステップS81における音声検出の結果、ユーザが興味を持つ音声が含まれていた場合には、その旨をユーザが認識できるように音声処理を施す。例えば、ユーザが興味を持つ音声の音量を増加させてもよい。また、表示画面に注意表示等を行うような画像処理を行ってもよい。
音声処理を行うと、次に、処理済み画像・音声があるか否かを判定する(S87)。このステップでは、ステップS83、S85において、画像処理または音声処理を行ったか否かを判定する。
ステップS87における判定の結果、処理済みの画像・音声がある場合には、処理済み画像を表示する(S89)。ここでは、ステップS83において処理された画像を画像表示部163(表示モニタ101)で表示する。これによって、ユーザは興味の対象が画面内にあることを認識することができる。
処理済み画像を表示すると、次に、処理済み音声再生を行う(S91)。ここでは、ステップS85において処理された音声を音声再生部165で再生する。これによって、ユーザは興味の対象がカメラ100の近傍にあることを認識することができる。
ステップS91において処理済み音声の再生を行うと、またはステップS87における判定の結果、処理済み画像・音声がない場合には、次に、指定された画像内容・音声内容があるか否かを判定する(S93)。ステップS53において取得した指定に基づく指定された画像内容や音声内容が有るか否かを判定する。
ステップS93における判定の結果、指定された画像内容・音声内容が有る場合には、指定された画像内容の表示を行う(S95)。このステップでは、図7に示す第1指定121や第2指定123、また図8に示す第1特定画像125や第2特定画像127のように、指定された画像内容を表示する。
指定された画像内容の表示を行うと、次に、指定された音声内容の再生を行う(S97)。このステップでは、ステップS67等において指定された音声を再生表示する。ステップS97において音声内容の再生を行うと、またはステップS93における判定の結果、指定された画像内容・音声内容がない場合には、ステップS51に戻る。
次に、図11ないし図17を用いて、本発明の第3実施形態について説明する。この第3実施形態も第2実施形態と同様に、画像音声処理機器1およびその周辺機器(ネットワーク/記録機器3、ネットワーク/操作機器5、ネットワーク/記録機器7、ネットワーク/記録機器/表示再生機器9)を一体にし、カメラに適用したものである。
まず、図11を用いて、本実施形態に係るカメラ200の構成について説明する。図11において、画像処理及び制御部211に、撮像部201、マイク203a、マイク203b、通信部205、表示部207、タッチパネル209、時計部213、操作判定部215、記録部217が接続されている。
撮像部201は、ズームレンズや撮像素子等を含み、被写体像を光電変換し、画像データを出力する。マイク203aおよびマイク203bは、ステレオマイクであり、カメラ200の近傍の音声を集音し、音声データを出力する。通信部205は、外部機器とデータ通信等を行うための送受信部であり、有線通信、無線通信、光通信のいずれでもよい。
表示部207は、カメラ200の背面等に設けられた表示モニタ207a(図11(b)参照)、または電子ファインダ(EVFともいう)を含み、スルー画像、記録済み画像の再生表示、メニュー画像等の表示を行う。タッチパネルは、表示モニタ等の前面、または表示モニタ等と一体に構成され、ユーザのタッチ操作等の操作を検出し、タッチ信号を出力する。
時計部213は、日時情報を出力する。また、時計部213は計時動作を行うためのタイマとしても機能する。操作判定部215は、電源釦に連動する電源スイッチ、レリーズ釦215s(図11(b)参照)に連動するシャッタスイッチ、動画釦215m(図11(b)参照)に連動する動画スイッチ、十字釦215cに連動する十字スイッチ、再生釦に連動する再生スイッチ等を含み、これらの操作部材の操作状態に応じた検知信号を画像処理及び制御部1に出力する。
記録部217は、画像処理及び制御部1で画像処理された画像データおよび音声処理された音声データ等の記録を行う。メモリ219は、フラッシュメモリ等の電気的に書き換え可能な不揮発性メモリであり、カメラ200の調整用データや、カメラ200の制御用のプログラム等を記憶する。
画像処理及び制御部211は、撮像部201によって取得した画像データの画像処理や、マイク203a、203bによって取得した音声データの音声処理を行う。また、メモリ219に記憶されたプログラムに従って、カメラ全体の制御を行う。画像処理及び制御部211内には、画角制御部211a、音声処理部211b、姓が処理部211c、動画処理部211d、スルー画処理部211e、スルー画分析部211fを有する。
画角制御部201は、撮影部201内のズームレンズの焦点距離を調節し、画角を制御する。音声処理部211bは、マイク203a、203bからの音声データを入力し、音声処理を施す。静止画処理部211cは、レリーズ釦215sが操作された際に、撮像部201から静止画の画像データを入力し、静止画の画像処理を施す。動画処理部211dは、動画釦215mが操作されると画像データを入力し、動画の画像処理を施す。
スルー画処理部211eは、撮像部201から画像データを入力し、スルー画表示のための画像処理を行う。スルー画分析部211fは、図4の検出部15、図9の検出部145と同様に、ユーザが興味を持つ対象が画像または音声中にあるか否かを検出する。
次に、図12を用いて、本実施形態に係るカメラ200において、ユーザの興味の対象の表示の仕方について説明する。図12(a)(b)は、カメラ200の背面であり、カメラ200の背面には、表示モニタ207aが配置され、この表示モニタ207aの右側には、動画釦215mと十字釦215cが配置されている。
表示モニタ207aの画面は、複数分割され(本実施形態においては、3分割)、スルー画面231aを大面積で表示し、スルー画面231aの脇に指定内容を表示するための指定画面231b、231cを配置する。図12(a)に示した例では、指定画面231bには「人」が指定されており、また指定画面231cには「花」が指定されている。
通常のスルー画を確認中に、画角内に人や花が画角内に入ってくると、スルー画面231aの表示画像からスルー画分析部211fによって、人や花の部分が検出される。この検出された人が指定画面231bに表示され、また検出された花が指定画面231cに表示される(図12(b)参照)。この場合、指定画面231b、231cには、スルー画よりも拡大表示してもよく、また指定画面の色彩を異ならせてもよく、種々の特殊効果を施してもよい。さらに、スルー画面231aの画像中において、検出された人や花と他の部分との色彩等を異ならせて、ユーザに気付かせるようにしてもよい。
図12(b)に示す例のように、ユーザが興味を持つ対象が画角内に入ると、その旨がわかるような表示を行っている(図示の例では、指定画面231b、231cを表示している)。これによって、ユーザが興味を持つ対象を認識すると、ユーザは撮影機会を逃すことなく、人と花が入った写真を撮影することができる。図12(c)は花を主要被写体とし、花と人を撮影した写真であり、また図12(d)は人を主要被写体とし、人と花を撮影した写真である。なお、図12(c)(d)において、実線はピントが合っていることを示し、破線はピントがぼけていることを示す。
次に、図13ないし図17に示すフローチャートを用いて、本実施形態における動作について説明する。図6および図10に示したフローチャートと同様に、図10に示すフローチャートも、カメラ200内のメモリ219に記憶されたプログラムに従って、画像処理及び制御部211が、カメラ200内の各部を制御することにより、実行する。
図13に示すフローに入ると、まず、ステップS1、S51と同様に、電源オンか否かの判定を行う(S101)。この判定の結果、電源オンでなかった場合には、終了する。
ステップS101における判定の結果、電源オンであった場合には、次に、撮影モードか否かを判定する(S103)。カメラ200のデフォルトのモードは、撮影モードである。この判定の結果、撮影モードでなかった場合には、再生処理か否かを判定する(S105)。このステップでは、操作判定部215内の再生スイッチの操作状態に基づいて判定する。この判定の結果、再生処理でない場合には、ステップS101に戻る。一方、判定の結果、再生処理であれば、再生を行う(S107)。
ステップS103における判定の結果、撮影モードであった場合には、撮像を行う(S111)。このステップでは、撮像部201が被写体像を光電変換し、画像データを取得する。
撮像を行うと、次に、スルー画複数モードか否かを判定する(S113)。ユーザが興味のある対象が画角内に入った場合に、その旨の表示を行わせるには、スルー画複数モードをメニュー画面等によって設定する。このステップでは、この設定状態に基づいて判定する。
ステップS113における判定の結果、スルー画複数モードであった場合には、スルー画分析を行う(S115)。このステップでは、スルー画分析部211fが、ステップS111において取得した画像内に、ユーザが興味を持つ対象があるかいなか分析する。このスルー画分析の詳細については、図14を用いて後述する。
スルー画分析を行うと、次に、特殊スルー画処理を行う(S117)。このステップでは、被写体の変化量を算出し、変化量が閾値より大きい場合に特殊スルー画処理を行う。この特殊スルー画処理の詳細については、図16を用いて後述する。
ステップS117において特殊スルー画処理を行うと、またはステップS113におけるスルー画複数モードが設定されていない場合には、次に、スルー画処理を行う(S119)。このステップでは、スルー画処理部211eがステップS111において取得した画像データを用いて、スルー画表示用の画像処理を行う。
スルー画処理を行うと、表示を行う(S121)。このステップでは、スルー画処理された画像データに基づいて、表示部207の表示モニタ207aにスルー画を表示する。この表示の詳しい動作については、図17を用いて後述する。
表示を行うと、次に、静止画レリーズか否かを判定する(S123)。ユーザが構図を決め、シャッタチャンスが訪れると静止画撮影用のレリーズ釦215sを操作する。このステップでは、レリーズ釦215sに連動するシャッタスイッチの操作状態に基づいて判定する。
ステップS123における判定の結果、静止画レリーズであった場合には、撮影を行う(S125)。このステップでは、撮像部201からの画像データを静止画処理部211cが静止画処理を行う。撮影を行うと、次に、記録を行う(S127)。このステップでは、静止画処理部211cによって処理された静止画の画像データを記録部217に記録する。画像データの記録を行うと、ステップS101に戻る。
ステップS123における判定の結果、静止画レリーズでなかった場合には、次に、動画レリーズか否かを判定する(S129)。ユーザが構図を決め、動画撮影開始のタイミングと判断すると、動画撮影用の動画釦215mを操作する。このステップでは、動画釦215mに連動する動画スイッチの操作状態に基づいて判定する。
ステップs129における判定の結果、動画レリーズであった場合には、動画撮影を行う(S131)。このステップでは、撮像部201からの画像データを動画処理部211dが動画処理を行い、動画ファイルが生成されると、動画の記録を行う。ステップS131において動画撮影を行うと、またはステップS129における判定の結果、動画レリーズがなされていない場合には、ステップS101に戻る。
次に、ステップS115(図13参照)におけるスルー画分析の詳しい動作について、図14を用いて説明する。スルー画分析のフローに入ると、まず、スルー画表示数の設定を行う(S141)。スルー画表示数は、図12(a)(b)を用いて説明したように、表示モニタ207aの分割数である。通常のスルー画面231aと、指定画面の数をメニュー画面等において設定する。
スルー画表示数設定を行うと、次に、スルー画注目被写体設定を行う(S143)。ここでは、ユーザが興味を持つ対象の設定を行う。この設定は、メニュー画面や、再生表示画面において、対象をタッチパネル209のタッチ操作等によって行う。
スルー画注目被写体設定を行うと、次に、注目被写体予測検索を行う(S145)。このステップでは、注目被写体の優先順位処理と、画像の特徴点の抽出等を行う。この注目被写体予測検索の詳しい動作については、図15を用いて後述する。
注目被写体予測検索を行うと、次に、注目被写体検出を行う(S147)。このステップでは、スルー画分析部211fが、スルー画像の中に注目被写体(すなわち、ユーザが興味を持つ対象)が存在するかを検出する。
注目被写体検出を行うと、次に、被写体の検出がなされか否かを判定する(S149)。このステップでは、ステップ147における注目被写体検出の検出結果に基づいて判定する。
ステップS149における判定の結果、被写体検出がなかった場合、すなわちスルー画の中に注目被写体がなかった場合には、前述のステップS119(図13)に進み、スルー画処理を行う。
ステップS149における判定の結果、被写体検出があった場合、すなわちスルー画の中に注目被写体がある場合には、ステップS117に進み、特殊スルー画処理を施す。
次に、図15を用いて、ステップS145(図14)における注目被写体予測検索の詳しい動作について説明する。注目被写体予測検索のフローに入ると、まず、優先順位処理を行う(S161)。優先順位は、ステップS143において注目被写体設定を行う際等に、予め注目被写体ごとに優先順位が設定されるので、この設定された優先順位に従って、いずれの注目被写体を優先的に検索し、表示するかを設定する。なお、これ以外にも、デフォルトで最初に指定したものを優先する等、他の方法により優先順位を設定するようにしてもよい。
優先順位処理を行うと、次に、特徴情報の抽出を行う(S163)。このステップでは、ステップS143で設定されたスルー画注目被写体の画像等に基づいて、スルー画分析部211fが、特徴点等の特徴情報を抽出する。特徴点は、画像の中で識別する際に、使用される特徴である。特徴情報を抽出すると、元のフローに戻り、ステップS147の注目被写体検出を行う。
次に、図16を用いて、ステップS117(図13参照)における特殊スルー画処理の詳しい動作について説明する。特殊スルー画処理のフローに入ると、まず、被写体変化量算出オン設定か否かを判定する(S171)。特殊スルー画処理にあたって、ユーザは、被写体の変化量に応じた処理を行うか否かを設定でき、このステップでは、この設定がなされているか否かについて判定する。
ステップS171における判定の結果、被写体変化量算出がオン設定の場合には、次に、被写体変化量の算出を行う(S173)。このステップでは、撮像部201において取得したスルー画の中で被写体の距離、被写体輝度、移動量(追尾等の評価値)、AF評価値、シーン認識におけるシーンの切り替わりに関する評価値、顔等の器官検出の評価値、GPS等のデータの評価値等の変化量を算出する。
被写体変化量を算出すると、次に、変化量があるか否かを判定する(S175)。このステップでは、ステップS173における算出結果に基づき、変化量が閾値を超えた否かについて基づいて判定する。なお、閾値はシーンや被写体によって異なるようにしてもよい。
ステップS175における判定の結果、変化量があった場合には、次に、変化量特殊スルー画処理を行う(S177)。注目被写体であって、変化量の大きい被写体の場合には、変化していることが一目でわかるように、例えば、注目被写体の色彩を変化させたり、またスローモーション表示する等の特殊効果の画像処理を施す。
ステップS177において変化量特殊スルー画処理を行うと、またステップS175における判定の結果、変化量がなかった場合、またはステップS171における判定の結果、被写体変化量算出オンの設定がなされていなかった場合には、次に、カメラ設定特殊スルー画処理を行う(S179)。このステップでは、予め設定されている特殊効果の画像処理を施す。この特殊スルー画処理を行うと、ステップS121(図13参照)の表示に進む。
次に、図17を用いて、ステップS121(図13参照)の表示の詳しい動作について説明する。表示のフローに入ると、まず、スルー画複数モードか否かを判定する(S181)。このステップでは、ステップS113と同様に、ユーザが興味のある対象が画角内に入った場合に、その旨の表示を行わせるには、スルー画複数モードをメニュー画面等によって設定する。このステップでは、この設定状態に基づいて判定する。
ステップS181における判定の結果、スルー画複数モードでなかった場合には、通常スルー画処理データ使用でスルー画処理を行う(S183)。このステップでは、注目被写体を表示することのない、通常スルー画表示を行う。
ステップS181における判定の結果、スルー画複数モードの場合には、複数表示部スルー画設定を行う(S185)。このステップでは、例えば、図12(a)(b)に示したように、表示モニタ207aを複数に分割し、表示領域の設定を行う。
複数表示部スルー画設定を行うと、次に、スルー画処理データ選択を行う(S187)。このステップでは、複数の表示領域について、それぞれ表示するための処理された画像データの選択を行う。
ステップS187においてスルー画処理データ選択を行うと、またはステップS183において通常スルー画処理データを選択すると、次に、表示を行う(S189)。このステップでは、ステップS187、S183において選択された画像データを用いて、表示モニタ207aにスルー画表示を行う。ユーザは、注目被写体が画角内に現れると、その旨がわかるような表示がなされることから、注目被写体に気付き、これを考慮した撮影を行うことができる。
以上説明したように、本発明の各実施形態においては、画像と音声の少なくとも一つを逐次取得し(例えば、図6のS5、図7)、少なくとも一つの画像内容を指定、または少なくとも一つの音声内容を指定し(例えば、図6のS3)、指定された画像内容または音声内容を、取得された画像または音声の中から検出し(例えば、図6のS19、S21)、検出された画像の少なくとも一部に画像処理を施し(例えば、図6のS23)、または検出された音声の少なくとも一部に音声処理を施し(例えば、図6のS25)、取得された画像および/または音声と、指定された画像内容および/または音声と、画像処理された画像および/または音声処理された音声のうちの少なくとも一つを出力している(図6のS29、S31)。このため、撮影者が興味のある対象が画面内に入ってきたときに、気づかせることが可能となる。すなわち、指定された画像および/または音声が逐次取得した画像および/または音声の中に含まれている場合には、このことを撮影者に気付かせるように、画像および/または音声を処理し出力している。
また、本発明の各実施形態においては、指定された画像内容または音声内容の優先順位を設定するようにしている(例えば、図9の優先順位設定部153、図10のS69、S71)。このため、多数指定がなされている場合であっても、表示が煩雑になることがない。
また、本発明の各実施形態においては、指定された画像内容または音声内容にかかわる画像または音声を特定し(例えば、図9の特定部143、図10のS73、S75、S77)、特定された画像または音声に基づいて画像または音声の中から検出するようにしている。指定された画像および/または音声から画像および/または音声を特定(例えば、特徴点等によって)しているので、画像または/および音声の中に指定された画像および/または音声が含まれているかを迅速、簡単に検出することが可能となる。なお、特定の仕方として、画像内容または音声内容に付随する情報に基づいてもよく(図9の付属情報特定部147、図10のS73)、また指定された画像内容または音声内容に類似する画像または音声を特定するようにしてもよい(図9の類似画像特定部151、類似音声特定部153、図10のS75、S77)。
また、本発明の各実施形態においては、外部機器と通信し(例えば、図5の画像通信部10、音声通信部12)、画像と音声の少なくとも一つを逐次取得するにあたって、通信を介して実行し、画像と音声の出力は、通信を介して実行している。このため、外部のサーバーやスマートフォン等の外部機器と連携して画像や音声を有効に活用することができる。また、画像や音声等の指定にあたって、通信を介して実行している(例えば、図9の指定通信部141)。このため、ユーザが興味を持つ対象の指定を外部機器から行うことが可能となる。
また、本発明の各実施形態においては、出力する画像または音声を受けて、画像表示と音声再生の少なくとも一方を行っている(例えば、図9の画像表示部163、音声再生部165、図10のS95、S97)。このため、ユーザが興味を持つ対象を画像や音声で確認することができる。なお、画像表示を行う場合には、画像と、指定された画像内容と、画像処理を施した画像の少なくとも二つを、別々および/または重ねて再生表示するようにしている(例えば、図7、図8)。
また、本発明の各実施形態においては、被写体像を結像し、画像として取得するようにしている(例えば、図9の撮像部131、図10のS55)。このため、カメラ等で取得した被写体像について、ユーザの興味を持つ対象を知らせることができる。また、被写体の音声を集音し、音声として取得するようにしている(例えば、図9の集音部133、図10のS57)。このため、ICレコーダや録音機能付きのカメラ等で取得した音声について、ユーザの興味を持つ対象を知らせることができる。
また、本発明の各実施形態においては、画像処理を施す場合には、指定された画像内容または検出された画像の色と形と動きと合焦状態の少なくとも一つを強調する処理を施すようにしている(例えば、図13のS117)。このため、ユーザが興味を持つ画像対象であることが容易にわかる。なお、音声処理を施す場合には、指定された音声内容または検出された音声を強調する処理を施すようにしてもよい。この場合には、ユーザが興味を持つ音声対象であることが容易にわかる。
なお、本発明の各実施形態においては、画像と音声の両方について、ユーザの興味のある対象を検出するようにしていたが、これに限らず、画像のみまたは音声のみについて検出するようにしても構わない。
なお、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話、スマートフォン、携帯情報端末(PDA:Personal Digital Assist)、パーソナルコンピュータ(PC)、タブレット型コンピュータ、ゲーム機器等に内蔵されるカメラでも構わない。
また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。
また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。
本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。