JP6296833B2

JP6296833B2 - 画像音声処理装置、画像音声処理方法、およびプログラム

Info

Publication number: JP6296833B2
Application number: JP2014043647A
Authority: JP
Inventors: 厚石原
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2018-03-20
Anticipated expiration: 2034-03-06
Also published as: JP2015170941A

Description

本発明は、撮影時等において、撮影者が興味をもつ対象が画面内に入ってきた際に、気づかせることが可能な画像音声処理、画像音声処理方法、およびプログラムに関する。

通常のスルー画像と、撮影者が選択した撮影モードの撮影条件を反映させたプレビュー画像を表示することにより、撮影待機状態における使い勝手を向上させたカメラが提案されている（例えば、特許文献１参照）。

特開２０１２−２５３７９７号公報

特許文献１に開示の技術によれば、撮影待機状態において撮影時の仕上がりの画像を予測することができる。しかし、撮影待機状態においてスルーを観察しているときは、種被写体に興味が注がれ、画面内に撮影者の興味のある対象が入ってきても気づかないことがある。このため、折角、撮影者の興味のある対象が画面内にありながら、この対象に適した構図や撮影条件で撮影できないことがある。

本発明は、このような事情を鑑みてなされたものであり、撮影者が興味のある対象が画面内に入ってきたときに、気づかせることが可能な画像音声処理装置、画像音声処理方法、およびプログラムを提供することを目的とする。

上記目的を達成するため第１の発明に係る画像音声処理装置は、画像と音声の少なくとも一つを逐次取得する取得部と、複数の画像内容を指定、または複数の音声内容を指定する指定部と、上記指定部によって指定された画像内容または音声内容を、上記取得部によって取得された画像または音声の中から検出する検出部と、上記検出部によって検出された画像の少なくとも一部に画像処理を施し、または上記検出部によって検出された音声の少なくとも一部に音声処理を施す処理部と、上記取得部によって取得された画像および／または音声と、上記指定部によって指定された画像内容および／または音声と、上記処理部によって画像処理された画像および／または上記処理部によって音声処理された音声のうちの少なくとも一つを出力する出力部と、を有し、上記指定部において指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できる。

第２の発明に係る画像音声処理方法は、画像と音声の少なくとも一つを逐次取得する取得ステップと、複数の画像内容を指定、または複数の音声内容を指定する指定ステップと、上記指定ステップによって指定された画像内容または音声内容を、上記取得ステップによって取得された画像または音声の中から検出する検出ステップと、上記検出ステップによって検出された画像の少なくとも一部に画像処理を施し、または上記検出ステップによって検出された音声の少なくとも一部に音声処理を施す処理ステップと、上記取得ステップによって取得された画像および／または音声と、上記指定ステップによって指定された画像内容および／または音声と、上記処理ステップによって画像処理された画像および／または上記処理ステップによって音声処理された音声のうちの少なくとも一つを出力する出力ステップと、を有し、さらに、上記指定ステップにおいて指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できるようにする優先順位設定ステップと、を有する。

第３の発明に係る画像音声処理方法は、上記第２の発明において、上記出力ステップは、上記優先順位設定ステップにおいて設定された画像内容または音声内容の優先順位に従い、予め決められた高順位までの画像および／または音声を出力する。
第４の発明に係る画像音声処理方法は、上記第２または第３の発明において、上記指定ステップにおいて指定された画像内容または音声内容にかかわる画像または音声を特定する特定ステップをさらに有し、上記検出ステップは、上記特定ステップにおいて特定された画像または音声に基づいて上記画像または音声の中から検出する。

第５の発明に係る画像音声処理方法は、上記第４の発明において、上記特定ステップは、上記指定された画像内容または音声内容に付随する情報に基づく画像または音声を特定する。
第６の発明に係る画像音声処理方法は、上記第４の発明において、上記特定ステップは、上記指定された画像内容または音声内容に類似する画像または音声を特定する。

第７の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、外部機器と通信する通信ステップをさらに有し、上記画像と音声の少なくとも一つを逐次取得する逐次ステップは、上記通信ステップを介して実行し、上記出力ステップは、上記通信ステップを介して実行する。
第８の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、外部機器と通信する通信ステップをさらに有し、上記指定ステップは、上記通信ステップを介して実行する。
第９の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、上記出力ステップにおいて出力する画像または音声を受けて、画像表示と音声再生の少なくとも一方を行う再生表示ステップを有する。
第１０の発明に係る画像音声処理方法は、上記第９の発明において、上記再生表示ステップにおいて、画像表示を行う場合には、上記画像と、上記指定された画像内容と、上記画像処理を施した画像の少なくとも二つを、別々および／または重ねて再生表示する。

第１１の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、被写体像を結像し、画像として取得する画像取得ステップを有する。
第１２の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、被写体の音声を集音し、音声として取得する音声取得ステップを有する。
第１３の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、上記処理ステップにおいて、画像処理を施す場合には、上記指定された画像内容または上記検出された画像の色と形と動きと合焦状態の少なくとも一つを強調する処理を施す。
第１４の発明に係る画像音声処理方法は、上記第２ないし第６の発明において、上記処理ステップにおいて、音声処理を施す場合には、上記指定された音声内容または上記検出された音声を強調する処理を施す。

第１５の発明に係わるプログラムは、画像と音声の少なくとも一つを逐次取得する取得ステップと、複数の画像内容を指定、または複数の音声内容を指定する指定ステップと、上記指定ステップによって指定された画像内容または音声内容を、上記取得ステップによって取得された画像または音声の中から検出する検出ステップと、上記検出ステップによって検出された画像の少なくとも一部に画像処理を施し、または上記検出ステップによって検出された音声の少なくとも一部に音声処理を施す処理ステップと、上記取得ステップによって取得された画像および／または音声と、上記指定ステップによって指定された画像内容および／または音声と、上記処理ステップによって画像処理された画像および／または上記処理ステップによって音声処理された音声のうちの少なくとも一つを出力する出力ステップと、を有し、さらに、上記指定ステップにおいて指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できるようにする優先順位設定ステップと、
をコンピュータに実行させる。

本発明によれば、撮影者が興味のある対象が画面内に入ってきたときに、気づかせることが可能な画像音声処理装置、画像音声処理方法、およびプログラムを提供することができる。

本発明の第１実施形態に係る画像音声処理装置の全体構成の概略を示すブロック図である。本発明の第１実施形態に係る画像音声処理装置内の画像音声処理機器の内部構成を示すブロック図である。本発明の第１実施形態に係る画像音声処理装置の使用状態を示す図である。本発明の第１実施形態に係る画像音声処理装置内の画像音声処理機器の内部構成を示すブロック図である。本発明の第１実施形態に係る画像音声処理装置内の画像音声処理機器の内部構成の変形例を示すブロック図である。本発明の第１実施形態に係る画像音声処理装置の動作を示すフローチャートである。本発明の第２実施形態に係るカメラの使用状態を示す図である。本発明の第２実施形態に係るカメラの使用状態を示す図である。本発明の第２実施形態に係る画像音声処理装置内の画像音声処理機器の内部構成を示すブロック図である。本発明の第２実施形態に係る画像音声処理装置の動作を示すフローチャートである。本発明の第３実施形態に係るカメラを示す図であり、（ａ）はカメラの構成を示すブロック図であり、（ｂ）はカメラの外観斜視図である。本発明の第３実施形態に係るカメラの使用状態を示す図である。本発明の第３実施形態に係るカメラのメイン動作を示すフローチャートである。本発明の第３実施形態に係るカメラのスルー画分析の動作を示すフローチャートである。本発明の第３実施形態に係るカメラの注目被写体予測検索の動作を示すフローチャートである。本発明の第３実施形態に係るカメラの特殊スルー画処理の動作を示すフローチャートである。本発明の第３実施形態に係るカメラの表示処理の動作を示すフローチャートである。

図１は、本発明の第１実施形態に係る画像音声処理装置のブロック図である。図１において、ネットワーク／記録機器３は、動画の画像データと音声データ（いずれか一方のみでもよく、また動画の画像データに限らず静止画の画像データでもよい）を逐次取得し、画像音声処理機器１に出力する。ネットワーク／記録機器３は、画像と音声の少なくとも一つを逐次取得する取得部として機能する。

ネットワーク／操作機器５は、ユーザが興味をもつ対象を指定する操作機器であり、このネットワーク／操作機器５によって指定された対象は、画像音声処理機器１に出力する。このネットワーク／操作機器５は、少なくとも一つの画像内容を指定、または少なくとも一つの音声内容を指定する指定部として機能する。指定の仕方は、図３を用いて後述するように、言葉、画像、音声等のいずれかである。

ネットワーク／記録機器７は、画像音声処理機器１から「指定」または「情報」を入力する。ここで、「指定」はネットワーク／操作機器５によって画像音声処理機器１に出力された言葉、画像、音声そのものである。また「情報」は、例えば、指定された画像に付されているタグ情報等であり、指定された言葉、画像、音声に関連する情報である。

ネットワーク／記録機器７は、入力した「指定」や「情報」を用いて、ネットワーク／記録機器３から画像音声処理機器３が動画（静止画でもよい）や音声を入力した際に、ユーザが興味を持つ対象であるか否かを検出する際に使用する「特定」または「類似画像」もしくは「類似音声」を生成する。ここで、「特定」は、ユーザが興味を持つ対象を特定するための特徴点等の補助情報である。すなわち、ネットワーク／記録機器３から入力した動画や音声そのものを分析して、ユーザが興味を持つ対象を検出するにあたって、迅速に処理するために、画像および音声の特徴点に関する情報である。

また、「類似画像」もしくは「類似音声」は、ネットワーク／操作機器５によって指定された画像や音声そのもの以外にも類似した画像や音声である。指定された画像や音声と一致する画像や音声以外にも、類似の画像や類似の音声を検出することにより、幅広くユーザの興味を持つ対象を検出するためである。

画像音声処理機器１は、ネットワーク／記録機器７から「特定」または「類似画像」もしくは「類似音声」を入力し、この入力した「特定」または「類似画像」もしくは「類似音声」を用いて、ネットワーク／記録機器３から入力した動画（静止画でもよい）や音声の中からユーザが興味を持つ画像や音声を検出する。画像音声処理機器１はユーザが興味を持つ画像や音声を検出した場合には、ネットワーク／記録機器３から入力した動画や音声に重畳して、ユーザが興味を持つ画像や音声があることを知らせるように画像処理や音声処理を施す。

この画像音声処理機器１は、指定部（図１の例ではネットワーク／操作機器５が機能する）によって指定された画像内容または音声内容を、取得部（図１の例では、ネットワーク／記録機器３が機能する）によって取得された画像または音声の中から検出する検出部としての機能を果たす。また、画像音声処理機器１は、検出部によって検出された画像の少なくとも一部に画像処理を施し、または検出部によって検出された音声の少なくとも一部に音声処理を施す処理部としての機能も果たす。

画像音声処理機器１によって処理された動画（静止画でもよい）や音声は、ネットワーク／記録機器／表示再生機器９に出力され、このネットワーク／記録機器／表示再生機器９によって画像や音声の再生表示がなされる。ネットワーク／記録機器／表示再生機器９は、取得部（図１の例では、ネットワーク／記録機器３が機能する）によって取得された画像および／または音声と、指定部（図１の例ではネットワーク／操作機器５が機能する）によって指定された画像内容および／または音声と、処理部（図１の例では、画像音声処理機器１が機能する）によって画像処理された画像および／または処理部によって音声処理された音声のうちの少なくとも一つを出力する出力部として機能する。

なお、図１に示すネットワーク／記録機器３、ネットワーク／操作機器５、ネットワーク／記録機器７、およびネットワーク／記録機器／表示再生機器９と、画像音声処理機器１は、１つの装置内に設けられていてもよく、また全てもしくはいずれかの機器をネットワークで結ぶようにしてもよい。ネットワークでの結び方としては、例えば、画像音声処理機器１をパーソナルコンピュータとし、他の機器をインターネットやブルートゥース等で結んでもよい。また、画像音声処理機器１をスマートフォン等の携帯機器とし、他の機器を通信で結ぶようにしてもよい。いずれにしても、画像音声処理機器１はパーソナルコンピュータ等に限られず、他の機器であってもよい。また、図１に示す機器の全てまたは一部をデジタルカメラ等の機器に配置するようにしてもよい。例えば、図１に示す機器の全てをデジタルカメラとした場合には、ネットワーク／記録機器３は撮像部等が対応し、ネットワーク／操作機器５はタッチパネルや操作釦等の操作部等が対応し、画像音声処理機器１およびネットワーク／記録機器７はＣＰＵ等の制御部等が相当し、ネットワーク／記録機器／表示再生機器９は表示パネル等が相当する。

次に、図２を用いて、指定部として機能するネットワーク／操作機器５における指定の際の優先順位の付け方について説明する。画像音声処理機器１の内部には、画像１〜画像５・・・を記憶するための画像メモリ１ａ、音声１、音声２、・・・を記憶するための音声メモリ１ｂ、優先順位１〜優先順位７、・・・を記憶するための優先順位記憶メモリ１ｃが設けられている。画像メモリ１ａに記憶される画像は、ネットワーク／操作機器５によって指定された画像について、ネットワーク／記録機器７によって処理された画像である。ネットワーク／記録機器７によって画像の特徴点が解析されている場合には、この画像の特徴点を記憶する。また、音声についても、同様に、ネットワーク／記録機器７によって音声の特徴点が解析されている場合には、この音声の特徴点を記憶する。また、ネットワーク／記録機器７によって「言葉」で指定されている場合には、この指定された言葉に対応する画像または音声に関連するデータを記憶する。

優先順位記憶メモリ１ｃには、前述したように、優先順位を記憶する。ネットワーク／操作機器５によって、ユーザの興味のある対象が多数、指定されると、指定された画像や音声を検出する毎に、ネットワーク／記録機器／表示再生機器９に、画像表示や音声表示がなされる。頻繁に表示がなされると、ユーザとしても煩わしいことから、優先順位を入力できるようにし、優先順位の高い指定のみ表示を行うようにしている。なお、上から何位まで表示するかは、画像音声処理機器の設計値として決めてもよく、またユーザが適宜変更できるようにしてもよい。また、図２においては、画像音声処理機器１、ネットワーク／記録機器３、ネットワーク／操作機器５、ネットワーク／記録機器／表示再生機器９が別体に構成されている場合について説明したが、これらの全部または一部を一体に構成しても勿論かまわず、その場合には、画像メモリ１ａ、音声メモリ１ｂ、優先順位記憶メモリ１ｃは、一体に構成した機器の間で共通に使用すればよい。

次に、図３を用いて、第１実施形態に係る画像音声処理装置の一例の使用方法を説明する。図３に示す例では、画像音声処理機器としてパーソナルコンピュータ２を用いている。パーソナルコンピュータ２には、音声付動画３ａが入力され、また指定内容として、言葉５ａ（図３の例では、「人物」という言葉）、または画像５ｂ、または音声５ｃが入力される。画像音声処理機器１としてのパーソナルコンピュータ２は、音声付き動画を入力すると、音声付き動画の中に、指定された言葉５ａ、画像５ｂ、または音声５ｃがあるか否かを検出する。この検出の結果、指定された言葉５ａ等が含まれる場合には、音声付動画９ａを表示するにあたって、その旨を認識できるように表示する。なお、図３ではパーソナルコンピュータ２を使用する例を示したが、パーソナルコンピュータ２以外にも、例えば、カメラ、スマートフォン等、他の機器であっても構わない。

次に、図４を用いて、ユーザの興味の対象を検出し、その旨を認識できるような表示を出力するための構成について説明する。画像音声処理機器１内には、画像取得部１１、音声取得部１３、検出部１５、指定部１７、画像処理部１９、音声処理部２１、画像出力部２３、音声出力部２５がバス２９に接続されている。

画像取得部１１はネットワーク／記録機器３から被写体像等の画像を取得し、音声取得部１３はネットワーク／記録機器３から周囲の音声を取得する。指定部１７は、ネットワーク／操作機器５から指定を取得し記憶する。検出部１５は、画像取得部１１によって取得した画像、または音声取得部１３によって取得した音声の中に、指定部１７による指定された画像または音声があるか否かを検出する。

画像処理部１９は、画像取得部１１によって取得した画像を出力用に処理し、また検出部１５によって指定された画像があると検出された場合には、その旨を認識できるような画像に処理する。画像出力部２３は、画像処理部１９によって処理された画像を出力する。音声処理部２１は、音声取得部１３によって取得した音声を出力用に処理し、また検出部１５によって指定された音声があると検出された場合には、その旨を認識できるような音声に処理する。なお、指定された画像を検出した場合に音声で表示してもよく、また指定された音声を検出した場合に画像で表示するようにしてもよい。

次に、図５を用いて、ユーザの興味の対象を検出し、その旨を認識できるような表示を出力するための構成の変形例について説明する。図５に示す例は、画像音声処理機器１と、他の機器の間を通信で結ぶ場合の構成を示す。図４と比較し、画像通信部１０、音声通信部１２、指定通信部１４、特定部１６を更に追加している点で相違する。この相違点について説明する。

画像通信部１０は、ネットワーク／記録機器３から動画（静止画でもよい）を受信し、ネットワーク／記録機器／再生表示機器９に動画を送信する。音声通信部１２は、ネットワーク／記録機器３から音声を受信し、ネットワーク／記録機器／再生表示機器９に音声を送信する。送受信経路としては、インターネット、無線、赤外線通信等を利用することができる。

指定通信部１４は、ネットワーク／操作機器５からの指定を受信する。受信経路としては、インターネット、無線、赤外線通信等を利用することができる。特定部１６は、ネットワーク／記録機器７からの「指定」や「情報」を入力し、記憶する。図４に示した例においても、特定部１６を設けてもよく、また、ネットワーク／記録機器７の機能を画像音声処理機器１内に設けても構わない。

次に、図６に示すフローチャートを用いて、本実施形態における動作について説明する。このフローチャートは、画像音声処理機器内の図示しないメモリに記憶されたプログラムに従って、ＣＰＵ（Central Processing Unit）等の処理装置が、画像音声処理機器内の各部を制御することにより、実行する。

図６に示すフローに入ると、まず、電源オンか否かの判定を行う（Ｓ１）。ここでは、画像音声処理機器１の電源スイッチ等、電源をオンにするための操作部材の操作状態に基づいて判定する。この判定の結果、電源オンでなかった場合には、終了する。なお、終了すると、ＣＰＵ等の処理装置はスリープ状態等となり、電源スイッチ等の操作部材が操作されると、ステップＳ１から動作を開始する。

ステップＳ１における判定の結果、電源オンであった場合には、次に、指定を取得する（Ｓ３）。このステップでは、ネットワーク／操作機器５によって「言葉」「画像」「音声」による指定を取得する。前述したように、ユーザは興味のある対象を「言葉」（例えば、人物、花等）、「画像」（例えば、ネットワーク／操作機器５等に記憶されている画像の中から指定）、「音声」（例えば、ネットワーク／操作機器５等に記憶されている音声の中から指定）によって、指定するので、この指定された「言葉」「画像」「音声」等をネットワーク／操作機器５から取得する。

指定を取得すると、次に、画像の取得を行う（Ｓ５）。このステップでは、ネットワーク／記録機器３から動画の画像を取得する。動画の画像としては、撮像素子からリアルタイムに出力される動画画像（スルー画像（ライブビュー画像ともいう））でもよく、また撮像素子からの動画画像を一旦記録し、この記録された画像を読み出したものであってもよい。

画像を取得すると、次に、音声の取得を行う（Ｓ７）。このステップでは、ネットワーク／記録機器３から音声を取得する。音声としては、マイクからリアルタイムに集音された音声でもよく、またマイクによって集音した音声を一旦記録し、この記録された音声を読み出したものであってもよい。

音声取得を行うと、次に、画像出力を行う（Ｓ９）。このステップでは、ステップＳ５において取得した画像を、ネットワーク／記録機器／表示再生機器９に出力する。例えば、ネットワーク／記録機器／表示再生機器９が記録機能を有している場合には、画像の記録動作を行い、また再生表示機能を有している場合には、画像の再生表示を行う。

画像出力を行うと、次に、音声出力を行う（Ｓ１１）。このステップでは、ステップＳ７において取得した音声を、ネットワーク／記録機器／表示再生機器９に出力する。例えば、ネットワーク／記録機器／表示再生機器９が記録機能を有している場合には、音声の記録動作を行い、また再生表示機能を有している場合には、音声の再生表示（すなわち、スピーカから音声を再生）を行う。

音声出力を行うと、次に、指定ありか否かの判定を行う（Ｓ１３）。このステップでは、ステップＳ３において指定を取得したか否かを判定する。すなわち、ユーザが、ネットワーク／操作機器３から「言葉」「画像」「音声」を指定したか否かを判定する。この判定の結果、指定がない場合には、ステップＳ３に戻る。

一方、ステップＳ１３における判定の結果、指定があった場合には、次に、画像内容の指定を行う（Ｓ１５）。このステップでは、画像音声処理機器１は、ステップＳ３で取得した「言葉」「画像」による指定をネットワーク／記録機器７に出力し、このネットワーク／記録機器７によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、画像の特徴点等がある。

画像内容の指定を行うと、次に、音声内容の指定を行う（Ｓ１７）。このステップでは、画像音声処理機器１は、ステップＳ３で取得した「音声」による指定をネットワーク／記録機器７に出力し、このネットワーク／記録機器７によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、音声の特徴点、また音声等に記録されているタグ情報等がある。

音声内容の指定を行うと、次に、画像検出を行う（Ｓ１９）。このステップでは、ステップＳ５において取得した画像の中に、ステップＳ１５において取得した画像内容指定を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ画像が含まれているか否かを検出する。

画像検出を行うと、次に、音声検出を行う（Ｓ２１）。このステップでは、ステップＳ７において取得した音声の中に、ステップＳ１７において取得した音声内容指定を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ音声が含まれているか否かを検出する。

音声検出を行うと、次に、画像処理を行う（Ｓ２３）。このステップでは、ステップＳ１９における画像検出の結果、ユーザが興味を持つ画像が含まれていた場合には、その旨をユーザが認識できるように画像処理を施す。例えば、ユーザが興味を持つ画像の部分の色を強調したり、色を変えたり、画像を拡大および縮小する画像エフェクトを施す等の画像処理を行ってもよい。また表示画面に文字・記号等による注意表示を行う画像処理を行ったり、またブザー音等、注意音を発生したりする等の音声処理を行ってもよい。

画像処理を行うと、次に、音声処理を行う（Ｓ２５）。このステップでは、ステップＳ２１における音声検出の結果、ユーザが興味を持つ音声が含まれていた場合には、その旨をユーザが認識できるように音声処理を施す。例えば、ユーザが興味を持つ音声の音量を増加させてもよい。また、表示画面に注意表示等を行うような画像処理を行ってもよい。

音声処理を行うと、次に、処理済み画像・音声があるか否かを判定する（Ｓ２７）。このステップでは、ステップＳ２３、Ｓ２５において、画像処理または音声処理を行ったか否かを判定する。この判定の結果、処理済みの画像・音声がない場合には、ステップＳ１に戻る。

ステップＳ２７における判定の結果、処理済みの画像・音声がある場合には、処理済み画像を出力する（Ｓ２９）。ここでは、ステップＳ２３において処理された画像をネットワーク／記録機器／表示再生機器９に出力する。これによって、ユーザは興味の対象が画面内にあることを認識することができる。

処理済み画像を出力すると、次に、処理済み音声出力を行う（Ｓ３１）。ここでは、ステップＳ２５において処理された音声をネットワーク／記録機器／表示再生機器９に出力する。これによって、ユーザは動画またはスルー画に興味の対象があることを認識することができる。ステップＳ３１において処理済み音声出力を行うと、ステップＳ１に戻る。

次に、図７ないし図１０を用いて、本発明の第２実施形態について説明する。この第２実施形態は、画像音声処理機器１およびその周辺機器（ネットワーク／記録機器３、ネットワーク／操作機器５、ネットワーク／記録機器７、ネットワーク／記録機器／表示再生機器９）を一体にし、カメラに適用したものである。

まず、図７および図８を用いて、ユーザが興味を持つ対象をカメラ１００でどのように表示するかについて説明する。カメラ１００の背面には表示モニタ１０１が設けられている。図７の左上に示す画像１１０は、ユーザが見ている被写体である。また、カメラ１００の表示モニタ１０１には、スルー画像１２０が表示される。このスルー画像１２０は、カメラ１００内の撮像部１３１（図９参照）から逐次出力される画像データに基づいて表示される。この撮像部１３１は、図１のネットワーク／記録機器３に相当する。

スルー画像１２０の左側には、第１指定１２１として「人」という言葉（文字）が、また第２指定１２３として「花」という言葉（文字）が表示されている。第１指定１２１と第２指定１２３は、ユーザがカメラ１００の操作部材を操作して入力される。なお、この操作部材は、図１のネットワーク／操作機器５に相当する。

カメラ１００は、第１指定１２１と第２指定１２３によって指定されている「人」や「花」が被写体１１０の中に含まれていることを検出すると、表示モニタ１０１にそのことが認識できるように、例えば、第１指定１２１や第２指定１２３の色を変えたり、またスルー画像中の対応する部分の色等を変えたり、画像を拡大および縮小する画像エフェクトを施す画像処理を行ったり、文字等により注意表示を行ったりする。なお、図７に示す例では、第１指定１２１および第２指定１２３の２つの言葉で指定したが、これに限らず、１つでもよく、また３つ以上の言葉でもよい。

図８に示す例は、第１特定画像１２５と第２特定画像１２７によって、ユーザの興味ある対象を指定している。すなわち、カメラ１００内に記録されている画像の中から、ユーザが特定画像として指定したものである。なお、特定画像の数は、図８に示す例では、２つであるが、１つでもよく、また３以上でもよい。また、特定画像はカメラ１００内に記録されている画像以外にも、インターネット等によって外部から画像を入力するようにしても構わない。また、第１指定等や特定画像等を表示するにあたって、別の領域で表示しているが、スルー画が重畳して表示するようにしても構わない。

次に、図９を用いて、画像音声処理機器１として使用されるカメラ１００の構成について説明する。カメラ１００内には、バス１６７が設けられ、このバス１６７に、撮像部１３１、集音部１３３、画像取得部１３５、音声取得部１３７、指定部１３９、指定通信部１４１、特定部１４３、検出部１４５、付属情報特定部１４７、優先順位設定部１４９、類似画像特定部１５１、類似音声特定部１５３、画像処理部１５５、音声処理部１５７、画像出力部１５９、音声出力部１６１、画像表示部１６３、音声再生部１６５が接続している。

撮像部１３１は、撮影レンズや撮像素子等を含み、被写体像を光電変換し、画像データを出力する。集音部１３３は、マイクや音声処理回路等を含み、周囲の音声を集音し、音声データを出力する。画像取得部１３５は、撮像部１３１からの画像データや他の機器からの画像データを取得し記憶する。音声取得部１３７は、集音部１３３からの音声データや他の機器からの音声データを取得し記憶する。

指定部１３９は、ユーザが興味を持つ対象を指定するための入力部であり、「言葉」「画像」「音声」によって指定可能である。画像や音声の場合には、カメラ内に記憶されている画像ファイルや音声ファイルをタッチパネルや十字ボタン等によって指定してもよい。指定通信部１４１は、カメラ外部の機器、例えば、パーソナルコンピュータやスマートフォン等の機器によって指定する場合の通信部である。外部の機器で、「言葉」「画像」「音声」を指定した場合には、この指定通信部１４１を介して入力し、記憶する。

特定部１４３は、図１のネットワーク／記録機器７に相当し、指定部１３９や指定通信部１４１による指定に基づいて、検出部１４５によって検出しやすいようなデータに変換する。例えば、画像で指定された場合には、画像の特徴点を検出し、音声で指定された場合には、音声の特徴点を検出する。また、「言葉」で指定された場合には、検索を容易にするために、言葉に対応する画像を抽出し、この画像の特徴点を検出する。もちろん、言葉に対応する特徴点を予め記憶しておき、これを検索するようにしても構わない。付属情報特定部１４７は、画像や音声にタグ情報等があれば、この情報を抽出する。

検出部１４５は、画像取得部１３５で取得した画像と、音声取得部１３７で取得した音声の中から、指定部１３９によって指定されたユーザの興味のある対象が存在するか否かを検出する。この検出にあたっては、特定部１４３や付属情報特定部１４７からの出力を用いる。

優先順位設定部１４９は、指定部１３９や指定通信部１４１による「指定」が複数ある場合に、優先順位を設定する。優先順位は、ユーザが表示モニタ１０１上でタッチパネルや操作部材によって設定する。デフォルトとしては、最新の「指定」を優先順位が高くなるようにしてもよい。

類似画像特定部１５１は、指定部１３９や指定通信部１４１によって指定された「画像」と類似の画像を特定する。ユーザが指定した画像は、代表的な画像であり、類似画像特定部１５１は、指定画像と類似し、ユーザが興味を持つ類似画像を特定する。類似音声特定部１５３は、指定部１３９や指定通信部１４１によって指定された「音声」と類似の音声を特定する。ユーザが指定した音声は、代表的な音声であり、類似音声特定部１５３は、指定音声と類似し、ユーザが興味を持つ類似音声を特定する。なお、指定された「画像」「言葉」から類似音声を検索してもよく、また指定された「音声」「言葉」から類似画像を検索してもよい。

画像処理部１５５は、画像取得部１３５によって取得した画像を出力用に処理し、また検出部１４５によってユーザが興味を持つ画像を含むことを検出した場合には、その旨を認識できるような画像に処理する。画像出力部１５９は、画像処理部１５５によって処理された画像を出力する。画像表示部１６３は、画像出力部１５９からの画像を表示モニタ１０１等に表示する。

音声処理部１５７は、音声取得部１３７によって取得した音声を出力用に処理し、また検出部１４５によって指定された音声があると検出された場合には、その旨を認識できるような音声に処理する（例えば、音量を増大させる）。音声再生部１６５は、音声出力部１６１からの音声をスピーカ等によって再生する。なお、指定された画像を検出した場合に音声で表示してもよく、また指定された音声を検出した場合に画像で表示するようにしてもよい。

次に、図１０に示すフローチャートを用いて、本実施形態における動作について説明する。図６に示したフローチャートと同様に、図１０に示すフローチャートも、カメラ１００内の図示しないメモリに記憶されたプログラムに従って、ＣＰＵ（Central Processing Unit）等の処理装置が、カメラ１００内の各部を制御することにより、実行する。

図１０に示すフローに入ると、まず、ステップＳ１と同様に、電源オンか否かの判定を行う（Ｓ５１）。この判定の結果、電源オンでなかった場合には、終了する。

ステップＳ５１における判定の結果、電源オンであった場合には、次に、指定を取得する（Ｓ５３）。このステップでは、指定部１３９等によって「言葉」「画像」「音声」による指定を取得する。前述したように、ユーザは興味のある対象を「言葉」、「画像」、「音声」によって、指定するので、この指定された「言葉」「画像」「音声」等を取得する。

指定を取得すると、次に、撮像する（Ｓ５５）。このステップでは、撮像部１３１が被写体像を光電変換し、画像データを取得する。撮像すると、次に、集音する（Ｓ５７）。このステップでは、音声取得部１３７が、マイク等によってカメラ１００の周囲の音声を取得する。

集音すると、次に、画像表示を行う（Ｓ５７）。このステップでは、ステップＳ５５における撮像によって取得した画像データを画像処理部１５５において画像処理した後、画像表示部１６３（表示モニタ１０１）にスルー画像を表示する。

画像表示を行うと、次に、音声再生を行う（Ｓ５９）。このステップでは、ステップＳ５７における集音によって取得した音声データを音声処理部１５７において音声処理した後、音声再生部１６５のスピーカから音声再生を行う。

音声再生を行うと、次に、ステップＳ１３と同様に、指定ありか否かの判定を行う（Ｓ６３）。このステップでは、ステップＳ５３において指定を取得したか否かを判定する。すなわち、ユーザが、指定部１３９から「言葉」「画像」「音声」でユーザの興味のある対象を指定したか否かを判定する。この判定の結果、指定がない場合には、ステップＳ５３に戻る。

一方、ステップＳ６３における判定の結果、指定があった場合には、次に、画像内容の指定を行う（Ｓ６５）。このステップでは、カメラ１００は、ステップＳ５３で取得した「言葉」「画像」による指定を特定部１４３によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、画像の特徴点等がある。

画像内容の指定を行うと、次に、音声内容の指定を行う（Ｓ６７）。このステップでは、カメラ１００は、ステップＳ５７で取得した「音声」による指定に基づいて、特定部１４３によって検出しやすいように処理された「指定」「情報」を取得する。この処理された「指定」としては、例えば、音声の特徴点等がある。

音声内容の指定を行うと、次に、画像の優先順位を特定する（Ｓ６９）。図２を用いて説明したように、多数の指定がなされると、カメラ１００の表示モニタ１０１等にユーザの興味のある対象が存在することが頻繁に表示され煩わしくなる。そこで、本実施形態においては、画像の優先順位をつけ、優先順位の高い画像のみ表示するようにしている。この優先順位は、表示モニタ１０１等においてユーザが適宜設定してもよく、デフォルトで最初に指定したものを優先するようにしてもよい。

画像の優先順位を特定すると、次に、音声の優先順位を特定する（Ｓ７１）。画像の優先順位の特定と同様に、多数の指定がなされると、カメラ１００の表示モニタ１０１やスピーカ等にユーザの興味のある対象が存在することが頻繁に表示され煩わしくなる。そこで、本実施形態においては、音声の優先順位をつけ、優先順位の高い音声のみ表示するようにしている。この優先順位は、表示モニタ１０１等においてユーザが適宜設定してもよく、デフォルトで最初に指定したものを優先するようにしてもよい。

音声の優先順位を特定すると、次に、付属情報を特定する（Ｓ７３）。このステップでは、カメラ１００は、ステップＳ５３で取得した「画像」「音声」による指定に基づいて、付属情報特定部１４７によって検出しやすい「情報」を取得する。情報としては、画像ファイルや音声ファイルに添付されているタグ情報等がある。

付属情報を特定すると、次に、類似画像を特定する（Ｓ７５）。このステップでは、ステップＳ５３で取得した「画像」による指定に基づいて、類似画像特定部１５１によって、類似画像を特定する。前述したように、ユーザが指定した画像は、代表的な画像であり、類似画像特定部１５１は、指定画像と類似し、ユーザが興味を持つ類似画像を特定する。

類似画像を特定すると、次に、類似音声を特定する（Ｓ７７）。このステップでは、ステップＳ５７で取得した「音声」による指定に基づいて、類似音声特定部１５３によって、類似音声を特定する。前述したように、ユーザが指定した音声は、代表的な音声であり、類似音声特定部１５３は、指定音声と類似し、ユーザが興味を持つ類似音声を特定する。

類似音声を特定すると、次に、画像検出を行う（Ｓ７９）。このステップでは、ステップＳ７５において取得した画像の中に、ステップＳ６５において取得した画像内容指定、ステップＳ７３の付属情報、ステップＳ７５において取得した類似画像を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ画像が含まれているか否かを検出する。なお、この判定にあたっては、ステップＳ６９において特定した画像の優先順位に従って行う。

画像検出を行うと、次に、音声検出を行う（Ｓ７９）。このステップでは、ステップＳ５７において取得した音声の中に、ステップＳ６７において取得した音声内容指定、ステップＳ７３の付属情報、ステップＳ７７で取得した類似音声を含んでいるか否かを判定する。すなわち、ユーザが興味を持つ音声が含まれているか否かを検出する。この判定にあたっては、ステップＳ６９において特定した画像の優先順位に従って行う。

音声検出を行うと、次に、画像処理を行う（Ｓ８３）。このステップでは、ステップＳ７９における画像検出の結果、ユーザが興味を持つ画像が含まれていた場合には、その旨をユーザが認識できるように画像処理を施す。例えば、ユーザが興味を持つ画像の部分の色を強調したり、色を変えたり、画像を拡大および縮小する画像エフェクトを施す等の画像処理を行ってもよい。また表示画面に文字・記号等による注意表示を行う画像処理を行ったり、またブザー音等、注意音を発生したりする等の音声処理を行ってもよい。

画像処理を行うと、次に、音声処理を行う（Ｓ８５）。このステップでは、ステップＳ８１における音声検出の結果、ユーザが興味を持つ音声が含まれていた場合には、その旨をユーザが認識できるように音声処理を施す。例えば、ユーザが興味を持つ音声の音量を増加させてもよい。また、表示画面に注意表示等を行うような画像処理を行ってもよい。

音声処理を行うと、次に、処理済み画像・音声があるか否かを判定する（Ｓ８７）。このステップでは、ステップＳ８３、Ｓ８５において、画像処理または音声処理を行ったか否かを判定する。

ステップＳ８７における判定の結果、処理済みの画像・音声がある場合には、処理済み画像を表示する（Ｓ８９）。ここでは、ステップＳ８３において処理された画像を画像表示部１６３（表示モニタ１０１）で表示する。これによって、ユーザは興味の対象が画面内にあることを認識することができる。

処理済み画像を表示すると、次に、処理済み音声再生を行う（Ｓ９１）。ここでは、ステップＳ８５において処理された音声を音声再生部１６５で再生する。これによって、ユーザは興味の対象がカメラ１００の近傍にあることを認識することができる。

ステップＳ９１において処理済み音声の再生を行うと、またはステップＳ８７における判定の結果、処理済み画像・音声がない場合には、次に、指定された画像内容・音声内容があるか否かを判定する（Ｓ９３）。ステップＳ５３において取得した指定に基づく指定された画像内容や音声内容が有るか否かを判定する。

ステップＳ９３における判定の結果、指定された画像内容・音声内容が有る場合には、指定された画像内容の表示を行う（Ｓ９５）。このステップでは、図７に示す第１指定１２１や第２指定１２３、また図８に示す第１特定画像１２５や第２特定画像１２７のように、指定された画像内容を表示する。

指定された画像内容の表示を行うと、次に、指定された音声内容の再生を行う（Ｓ９７）。このステップでは、ステップＳ６７等において指定された音声を再生表示する。ステップＳ９７において音声内容の再生を行うと、またはステップＳ９３における判定の結果、指定された画像内容・音声内容がない場合には、ステップＳ５１に戻る。

次に、図１１ないし図１７を用いて、本発明の第３実施形態について説明する。この第３実施形態も第２実施形態と同様に、画像音声処理機器１およびその周辺機器（ネットワーク／記録機器３、ネットワーク／操作機器５、ネットワーク／記録機器７、ネットワーク／記録機器／表示再生機器９）を一体にし、カメラに適用したものである。

まず、図１１を用いて、本実施形態に係るカメラ２００の構成について説明する。図１１において、画像処理及び制御部２１１に、撮像部２０１、マイク２０３ａ、マイク２０３ｂ、通信部２０５、表示部２０７、タッチパネル２０９、時計部２１３、操作判定部２１５、記録部２１７が接続されている。

撮像部２０１は、ズームレンズや撮像素子等を含み、被写体像を光電変換し、画像データを出力する。マイク２０３ａおよびマイク２０３ｂは、ステレオマイクであり、カメラ２００の近傍の音声を集音し、音声データを出力する。通信部２０５は、外部機器とデータ通信等を行うための送受信部であり、有線通信、無線通信、光通信のいずれでもよい。

表示部２０７は、カメラ２００の背面等に設けられた表示モニタ２０７ａ（図１１（ｂ）参照）、または電子ファインダ（ＥＶＦともいう）を含み、スルー画像、記録済み画像の再生表示、メニュー画像等の表示を行う。タッチパネルは、表示モニタ等の前面、または表示モニタ等と一体に構成され、ユーザのタッチ操作等の操作を検出し、タッチ信号を出力する。

時計部２１３は、日時情報を出力する。また、時計部２１３は計時動作を行うためのタイマとしても機能する。操作判定部２１５は、電源釦に連動する電源スイッチ、レリーズ釦２１５ｓ（図１１（ｂ）参照）に連動するシャッタスイッチ、動画釦２１５ｍ（図１１（ｂ）参照）に連動する動画スイッチ、十字釦２１５ｃに連動する十字スイッチ、再生釦に連動する再生スイッチ等を含み、これらの操作部材の操作状態に応じた検知信号を画像処理及び制御部１に出力する。

記録部２１７は、画像処理及び制御部１で画像処理された画像データおよび音声処理された音声データ等の記録を行う。メモリ２１９は、フラッシュメモリ等の電気的に書き換え可能な不揮発性メモリであり、カメラ２００の調整用データや、カメラ２００の制御用のプログラム等を記憶する。

画像処理及び制御部２１１は、撮像部２０１によって取得した画像データの画像処理や、マイク２０３ａ、２０３ｂによって取得した音声データの音声処理を行う。また、メモリ２１９に記憶されたプログラムに従って、カメラ全体の制御を行う。画像処理及び制御部２１１内には、画角制御部２１１ａ、音声処理部２１１ｂ、姓が処理部２１１ｃ、動画処理部２１１ｄ、スルー画処理部２１１ｅ、スルー画分析部２１１ｆを有する。

画角制御部２０１は、撮影部２０１内のズームレンズの焦点距離を調節し、画角を制御する。音声処理部２１１ｂは、マイク２０３ａ、２０３ｂからの音声データを入力し、音声処理を施す。静止画処理部２１１ｃは、レリーズ釦２１５ｓが操作された際に、撮像部２０１から静止画の画像データを入力し、静止画の画像処理を施す。動画処理部２１１ｄは、動画釦２１５ｍが操作されると画像データを入力し、動画の画像処理を施す。

スルー画処理部２１１ｅは、撮像部２０１から画像データを入力し、スルー画表示のための画像処理を行う。スルー画分析部２１１ｆは、図４の検出部１５、図９の検出部１４５と同様に、ユーザが興味を持つ対象が画像または音声中にあるか否かを検出する。

次に、図１２を用いて、本実施形態に係るカメラ２００において、ユーザの興味の対象の表示の仕方について説明する。図１２（ａ）（ｂ）は、カメラ２００の背面であり、カメラ２００の背面には、表示モニタ２０７ａが配置され、この表示モニタ２０７ａの右側には、動画釦２１５ｍと十字釦２１５ｃが配置されている。

表示モニタ２０７ａの画面は、複数分割され（本実施形態においては、３分割）、スルー画面２３１ａを大面積で表示し、スルー画面２３１ａの脇に指定内容を表示するための指定画面２３１ｂ、２３１ｃを配置する。図１２（ａ）に示した例では、指定画面２３１ｂには「人」が指定されており、また指定画面２３１ｃには「花」が指定されている。

通常のスルー画を確認中に、画角内に人や花が画角内に入ってくると、スルー画面２３１ａの表示画像からスルー画分析部２１１ｆによって、人や花の部分が検出される。この検出された人が指定画面２３１ｂに表示され、また検出された花が指定画面２３１ｃに表示される（図１２（ｂ）参照）。この場合、指定画面２３１ｂ、２３１ｃには、スルー画よりも拡大表示してもよく、また指定画面の色彩を異ならせてもよく、種々の特殊効果を施してもよい。さらに、スルー画面２３１ａの画像中において、検出された人や花と他の部分との色彩等を異ならせて、ユーザに気付かせるようにしてもよい。

図１２（ｂ）に示す例のように、ユーザが興味を持つ対象が画角内に入ると、その旨がわかるような表示を行っている（図示の例では、指定画面２３１ｂ、２３１ｃを表示している）。これによって、ユーザが興味を持つ対象を認識すると、ユーザは撮影機会を逃すことなく、人と花が入った写真を撮影することができる。図１２（ｃ）は花を主要被写体とし、花と人を撮影した写真であり、また図１２（ｄ）は人を主要被写体とし、人と花を撮影した写真である。なお、図１２（ｃ）（ｄ）において、実線はピントが合っていることを示し、破線はピントがぼけていることを示す。

次に、図１３ないし図１７に示すフローチャートを用いて、本実施形態における動作について説明する。図６および図１０に示したフローチャートと同様に、図１０に示すフローチャートも、カメラ２００内のメモリ２１９に記憶されたプログラムに従って、画像処理及び制御部２１１が、カメラ２００内の各部を制御することにより、実行する。

図１３に示すフローに入ると、まず、ステップＳ１、Ｓ５１と同様に、電源オンか否かの判定を行う（Ｓ１０１）。この判定の結果、電源オンでなかった場合には、終了する。

ステップＳ１０１における判定の結果、電源オンであった場合には、次に、撮影モードか否かを判定する（Ｓ１０３）。カメラ２００のデフォルトのモードは、撮影モードである。この判定の結果、撮影モードでなかった場合には、再生処理か否かを判定する（Ｓ１０５）。このステップでは、操作判定部２１５内の再生スイッチの操作状態に基づいて判定する。この判定の結果、再生処理でない場合には、ステップＳ１０１に戻る。一方、判定の結果、再生処理であれば、再生を行う（Ｓ１０７）。

ステップＳ１０３における判定の結果、撮影モードであった場合には、撮像を行う（Ｓ１１１）。このステップでは、撮像部２０１が被写体像を光電変換し、画像データを取得する。

撮像を行うと、次に、スルー画複数モードか否かを判定する（Ｓ１１３）。ユーザが興味のある対象が画角内に入った場合に、その旨の表示を行わせるには、スルー画複数モードをメニュー画面等によって設定する。このステップでは、この設定状態に基づいて判定する。

ステップＳ１１３における判定の結果、スルー画複数モードであった場合には、スルー画分析を行う（Ｓ１１５）。このステップでは、スルー画分析部２１１ｆが、ステップＳ１１１において取得した画像内に、ユーザが興味を持つ対象があるかいなか分析する。このスルー画分析の詳細については、図１４を用いて後述する。

スルー画分析を行うと、次に、特殊スルー画処理を行う（Ｓ１１７）。このステップでは、被写体の変化量を算出し、変化量が閾値より大きい場合に特殊スルー画処理を行う。この特殊スルー画処理の詳細については、図１６を用いて後述する。

ステップＳ１１７において特殊スルー画処理を行うと、またはステップＳ１１３におけるスルー画複数モードが設定されていない場合には、次に、スルー画処理を行う（Ｓ１１９）。このステップでは、スルー画処理部２１１ｅがステップＳ１１１において取得した画像データを用いて、スルー画表示用の画像処理を行う。

スルー画処理を行うと、表示を行う（Ｓ１２１）。このステップでは、スルー画処理された画像データに基づいて、表示部２０７の表示モニタ２０７ａにスルー画を表示する。この表示の詳しい動作については、図１７を用いて後述する。

表示を行うと、次に、静止画レリーズか否かを判定する（Ｓ１２３）。ユーザが構図を決め、シャッタチャンスが訪れると静止画撮影用のレリーズ釦２１５ｓを操作する。このステップでは、レリーズ釦２１５ｓに連動するシャッタスイッチの操作状態に基づいて判定する。

ステップＳ１２３における判定の結果、静止画レリーズであった場合には、撮影を行う（Ｓ１２５）。このステップでは、撮像部２０１からの画像データを静止画処理部２１１ｃが静止画処理を行う。撮影を行うと、次に、記録を行う（Ｓ１２７）。このステップでは、静止画処理部２１１ｃによって処理された静止画の画像データを記録部２１７に記録する。画像データの記録を行うと、ステップＳ１０１に戻る。

ステップＳ１２３における判定の結果、静止画レリーズでなかった場合には、次に、動画レリーズか否かを判定する（Ｓ１２９）。ユーザが構図を決め、動画撮影開始のタイミングと判断すると、動画撮影用の動画釦２１５ｍを操作する。このステップでは、動画釦２１５ｍに連動する動画スイッチの操作状態に基づいて判定する。

ステップｓ１２９における判定の結果、動画レリーズであった場合には、動画撮影を行う（Ｓ１３１）。このステップでは、撮像部２０１からの画像データを動画処理部２１１ｄが動画処理を行い、動画ファイルが生成されると、動画の記録を行う。ステップＳ１３１において動画撮影を行うと、またはステップＳ１２９における判定の結果、動画レリーズがなされていない場合には、ステップＳ１０１に戻る。

次に、ステップＳ１１５（図１３参照）におけるスルー画分析の詳しい動作について、図１４を用いて説明する。スルー画分析のフローに入ると、まず、スルー画表示数の設定を行う（Ｓ１４１）。スルー画表示数は、図１２（ａ）（ｂ）を用いて説明したように、表示モニタ２０７ａの分割数である。通常のスルー画面２３１ａと、指定画面の数をメニュー画面等において設定する。

スルー画表示数設定を行うと、次に、スルー画注目被写体設定を行う（Ｓ１４３）。ここでは、ユーザが興味を持つ対象の設定を行う。この設定は、メニュー画面や、再生表示画面において、対象をタッチパネル２０９のタッチ操作等によって行う。

スルー画注目被写体設定を行うと、次に、注目被写体予測検索を行う（Ｓ１４５）。このステップでは、注目被写体の優先順位処理と、画像の特徴点の抽出等を行う。この注目被写体予測検索の詳しい動作については、図１５を用いて後述する。

注目被写体予測検索を行うと、次に、注目被写体検出を行う（Ｓ１４７）。このステップでは、スルー画分析部２１１ｆが、スルー画像の中に注目被写体（すなわち、ユーザが興味を持つ対象）が存在するかを検出する。

注目被写体検出を行うと、次に、被写体の検出がなされか否かを判定する（Ｓ１４９）。このステップでは、ステップ１４７における注目被写体検出の検出結果に基づいて判定する。

ステップＳ１４９における判定の結果、被写体検出がなかった場合、すなわちスルー画の中に注目被写体がなかった場合には、前述のステップＳ１１９（図１３）に進み、スルー画処理を行う。

ステップＳ１４９における判定の結果、被写体検出があった場合、すなわちスルー画の中に注目被写体がある場合には、ステップＳ１１７に進み、特殊スルー画処理を施す。

次に、図１５を用いて、ステップＳ１４５（図１４）における注目被写体予測検索の詳しい動作について説明する。注目被写体予測検索のフローに入ると、まず、優先順位処理を行う（Ｓ１６１）。優先順位は、ステップＳ１４３において注目被写体設定を行う際等に、予め注目被写体ごとに優先順位が設定されるので、この設定された優先順位に従って、いずれの注目被写体を優先的に検索し、表示するかを設定する。なお、これ以外にも、デフォルトで最初に指定したものを優先する等、他の方法により優先順位を設定するようにしてもよい。

優先順位処理を行うと、次に、特徴情報の抽出を行う（Ｓ１６３）。このステップでは、ステップＳ１４３で設定されたスルー画注目被写体の画像等に基づいて、スルー画分析部２１１ｆが、特徴点等の特徴情報を抽出する。特徴点は、画像の中で識別する際に、使用される特徴である。特徴情報を抽出すると、元のフローに戻り、ステップＳ１４７の注目被写体検出を行う。

次に、図１６を用いて、ステップＳ１１７（図１３参照）における特殊スルー画処理の詳しい動作について説明する。特殊スルー画処理のフローに入ると、まず、被写体変化量算出オン設定か否かを判定する（Ｓ１７１）。特殊スルー画処理にあたって、ユーザは、被写体の変化量に応じた処理を行うか否かを設定でき、このステップでは、この設定がなされているか否かについて判定する。

ステップＳ１７１における判定の結果、被写体変化量算出がオン設定の場合には、次に、被写体変化量の算出を行う（Ｓ１７３）。このステップでは、撮像部２０１において取得したスルー画の中で被写体の距離、被写体輝度、移動量（追尾等の評価値）、ＡＦ評価値、シーン認識におけるシーンの切り替わりに関する評価値、顔等の器官検出の評価値、ＧＰＳ等のデータの評価値等の変化量を算出する。

被写体変化量を算出すると、次に、変化量があるか否かを判定する（Ｓ１７５）。このステップでは、ステップＳ１７３における算出結果に基づき、変化量が閾値を超えた否かについて基づいて判定する。なお、閾値はシーンや被写体によって異なるようにしてもよい。

ステップＳ１７５における判定の結果、変化量があった場合には、次に、変化量特殊スルー画処理を行う（Ｓ１７７）。注目被写体であって、変化量の大きい被写体の場合には、変化していることが一目でわかるように、例えば、注目被写体の色彩を変化させたり、またスローモーション表示する等の特殊効果の画像処理を施す。

ステップＳ１７７において変化量特殊スルー画処理を行うと、またステップＳ１７５における判定の結果、変化量がなかった場合、またはステップＳ１７１における判定の結果、被写体変化量算出オンの設定がなされていなかった場合には、次に、カメラ設定特殊スルー画処理を行う（Ｓ１７９）。このステップでは、予め設定されている特殊効果の画像処理を施す。この特殊スルー画処理を行うと、ステップＳ１２１（図１３参照）の表示に進む。

次に、図１７を用いて、ステップＳ１２１（図１３参照）の表示の詳しい動作について説明する。表示のフローに入ると、まず、スルー画複数モードか否かを判定する（Ｓ１８１）。このステップでは、ステップＳ１１３と同様に、ユーザが興味のある対象が画角内に入った場合に、その旨の表示を行わせるには、スルー画複数モードをメニュー画面等によって設定する。このステップでは、この設定状態に基づいて判定する。

ステップＳ１８１における判定の結果、スルー画複数モードでなかった場合には、通常スルー画処理データ使用でスルー画処理を行う（Ｓ１８３）。このステップでは、注目被写体を表示することのない、通常スルー画表示を行う。

ステップＳ１８１における判定の結果、スルー画複数モードの場合には、複数表示部スルー画設定を行う（Ｓ１８５）。このステップでは、例えば、図１２（ａ）（ｂ）に示したように、表示モニタ２０７ａを複数に分割し、表示領域の設定を行う。

複数表示部スルー画設定を行うと、次に、スルー画処理データ選択を行う（Ｓ１８７）。このステップでは、複数の表示領域について、それぞれ表示するための処理された画像データの選択を行う。

ステップＳ１８７においてスルー画処理データ選択を行うと、またはステップＳ１８３において通常スルー画処理データを選択すると、次に、表示を行う（Ｓ１８９）。このステップでは、ステップＳ１８７、Ｓ１８３において選択された画像データを用いて、表示モニタ２０７ａにスルー画表示を行う。ユーザは、注目被写体が画角内に現れると、その旨がわかるような表示がなされることから、注目被写体に気付き、これを考慮した撮影を行うことができる。

以上説明したように、本発明の各実施形態においては、画像と音声の少なくとも一つを逐次取得し（例えば、図６のＳ５、図７）、少なくとも一つの画像内容を指定、または少なくとも一つの音声内容を指定し（例えば、図６のＳ３）、指定された画像内容または音声内容を、取得された画像または音声の中から検出し（例えば、図６のＳ１９、Ｓ２１）、検出された画像の少なくとも一部に画像処理を施し（例えば、図６のＳ２３）、または検出された音声の少なくとも一部に音声処理を施し（例えば、図６のＳ２５）、取得された画像および／または音声と、指定された画像内容および／または音声と、画像処理された画像および／または音声処理された音声のうちの少なくとも一つを出力している（図６のＳ２９、Ｓ３１）。このため、撮影者が興味のある対象が画面内に入ってきたときに、気づかせることが可能となる。すなわち、指定された画像および／または音声が逐次取得した画像および／または音声の中に含まれている場合には、このことを撮影者に気付かせるように、画像および／または音声を処理し出力している。

また、本発明の各実施形態においては、指定された画像内容または音声内容の優先順位を設定するようにしている（例えば、図９の優先順位設定部１５３、図１０のＳ６９、Ｓ７１）。このため、多数指定がなされている場合であっても、表示が煩雑になることがない。

また、本発明の各実施形態においては、指定された画像内容または音声内容にかかわる画像または音声を特定し（例えば、図９の特定部１４３、図１０のＳ７３、Ｓ７５、Ｓ７７）、特定された画像または音声に基づいて画像または音声の中から検出するようにしている。指定された画像および／または音声から画像および／または音声を特定（例えば、特徴点等によって）しているので、画像または／および音声の中に指定された画像および／または音声が含まれているかを迅速、簡単に検出することが可能となる。なお、特定の仕方として、画像内容または音声内容に付随する情報に基づいてもよく（図９の付属情報特定部１４７、図１０のＳ７３）、また指定された画像内容または音声内容に類似する画像または音声を特定するようにしてもよい（図９の類似画像特定部１５１、類似音声特定部１５３、図１０のＳ７５、Ｓ７７）。

また、本発明の各実施形態においては、外部機器と通信し（例えば、図５の画像通信部１０、音声通信部１２）、画像と音声の少なくとも一つを逐次取得するにあたって、通信を介して実行し、画像と音声の出力は、通信を介して実行している。このため、外部のサーバーやスマートフォン等の外部機器と連携して画像や音声を有効に活用することができる。また、画像や音声等の指定にあたって、通信を介して実行している（例えば、図９の指定通信部１４１）。このため、ユーザが興味を持つ対象の指定を外部機器から行うことが可能となる。

また、本発明の各実施形態においては、出力する画像または音声を受けて、画像表示と音声再生の少なくとも一方を行っている（例えば、図９の画像表示部１６３、音声再生部１６５、図１０のＳ９５、Ｓ９７）。このため、ユーザが興味を持つ対象を画像や音声で確認することができる。なお、画像表示を行う場合には、画像と、指定された画像内容と、画像処理を施した画像の少なくとも二つを、別々および／または重ねて再生表示するようにしている（例えば、図７、図８）。

また、本発明の各実施形態においては、被写体像を結像し、画像として取得するようにしている（例えば、図９の撮像部１３１、図１０のＳ５５）。このため、カメラ等で取得した被写体像について、ユーザの興味を持つ対象を知らせることができる。また、被写体の音声を集音し、音声として取得するようにしている（例えば、図９の集音部１３３、図１０のＳ５７）。このため、ＩＣレコーダや録音機能付きのカメラ等で取得した音声について、ユーザの興味を持つ対象を知らせることができる。

また、本発明の各実施形態においては、画像処理を施す場合には、指定された画像内容または検出された画像の色と形と動きと合焦状態の少なくとも一つを強調する処理を施すようにしている（例えば、図１３のＳ１１７）。このため、ユーザが興味を持つ画像対象であることが容易にわかる。なお、音声処理を施す場合には、指定された音声内容または検出された音声を強調する処理を施すようにしてもよい。この場合には、ユーザが興味を持つ音声対象であることが容易にわかる。

なお、本発明の各実施形態においては、画像と音声の両方について、ユーザの興味のある対象を検出するようにしていたが、これに限らず、画像のみまたは音声のみについて検出するようにしても構わない。

なお、本発明の各実施形態においては、撮影のための機器として、デジタルカメラを用いて説明したが、カメラとしては、デジタル一眼レフカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話、スマートフォン、携帯情報端末（ＰＤＡ：Personal Digital Assist）、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、ゲーム機器等に内蔵されるカメラでも構わない。

また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。

また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１・・・画像音声処理機器、１ａ・・・画像メモリ、１ｂ・・・音声メモリ、１ｃ・・・優先順位メモリ、３・・・ネットワーク／記録機器、３ａ・・・音声付動画、５・・・ネットワーク／操作機器、５ａ・・・言葉、５ｂ・・・画像、５ｃ・・・音声、７・・・ネットワーク／記録機器、９・・・ネットワーク／記録機器／表示再生機器、９ａ・・・音声付動画、１０・・・画像通信部、１１・・・画像取得部、１２・・・音声通信部、１３・・・音声取得部、１４・・・指定通信部、１５・・・検出部、１６・・・特定部、１７・・・指定部、１９・・・画像処理部、２１・・・音声処理部、２３・・・画像出力部、２５・・・音声出力部、１００・・・カメラ、１０１・・・表示モニタ、１１０・・・被写体、１２０・・・スルー画、１２１・・・第１指定、１２３・・・第２指定、１２５・・・第１特定画像、１２７・・・第２特定画像、１３１・・・撮像部、１３３・・・集音部、１３５・・・画像取得部、１３７・・・音声取得部、１３９・・・指定部、１４１・・・指定通信部、１４３・・・特定部、１４５・・・検出部、１４７・・・付属情報特定部、１４９・・・優先順位設定部、１５１・・・類似画像特定部、１５３・・・類似音声特定部、１５５・・・画像処理部、１５７・・・音声処理部、１５９・・・画像出力部、１６１・・・音声出力部、１６３・・・画像表示部、１６５・・・音声再生部、２００・・・カメラ、２０１・・・撮像部、２０３ａ・・・マイク、２０３ｂ・・・マイク、２０５・・・通信部、２０７・・・表示部、２０７ａ・・・表示モニタ、２０９・・・タッチパネル、２１１・・・画像処理及び制御部、２１１ａ・・・画角制御部、２１１ｂ・・・音声処理部、２１１ｃ・・・静止画処理部、２１１ｄ・・・動画処理部、２１１ｅ・・・スルー画処理部、２１１ｆ・・・スルー画分析部、２１３・・・時計部、２１５・・・操作判定部、２１５ｃ・・・十字釦、２１５ｍ・・・動画釦、２１５ｓ・・・レリーズ釦、２１７・・・記録部、２１９・・・メモリ、２３１ａ・・・スルー画面、２３１ｂ・・・指定画面、２３１ｃ・・・指定画面

Claims

画像と音声の少なくとも一つを逐次取得する取得部と、
複数の画像内容を指定、または複数の音声内容を指定する指定部と、
上記指定部によって指定された画像内容または音声内容を、上記取得部によって取得された画像または音声の中から検出する検出部と、
上記検出部によって検出された画像の少なくとも一部に画像処理を施し、または上記検出部によって検出された音声の少なくとも一部に音声処理を施す処理部と、
上記取得部によって取得された画像および／または音声と、上記指定部によって指定された画像内容および／または音声と、上記処理部によって画像処理された画像および／または上記処理部によって音声処理された音声のうちの少なくとも一つを出力する出力部と、
を有し、
上記指定部において指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できることを特徴とする画像音声処理装置。
画像と音声の少なくとも一つを逐次取得する取得ステップと、
複数の画像内容を指定、または複数の音声内容を指定する指定ステップと、
上記指定ステップによって指定された画像内容または音声内容を、上記取得ステップによって取得された画像または音声の中から検出する検出ステップと、
上記検出ステップによって検出された画像の少なくとも一部に画像処理を施し、または上記検出ステップによって検出された音声の少なくとも一部に音声処理を施す処理ステップと、
上記取得ステップによって取得された画像および／または音声と、上記指定ステップによって指定された画像内容および／または音声と、上記処理ステップによって画像処理された画像および／または上記処理ステップによって音声処理された音声のうちの少なくとも一つを出力する出力ステップと、
を有し、
さらに、上記指定ステップにおいて指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できるようにする優先順位設定ステップと、
を有することを特徴とする画像音声処理方法。
上記出力ステップは、上記優先順位設定ステップにおいて設定された画像内容または音声内容の優先順位に従い、予め決められた高順位までの画像および／または音声を出力することを特徴とする請求項２に記載の画像音声処理方法。
上記指定ステップにおいて指定された画像内容または音声内容にかかわる画像または音声を特定する特定ステップをさらに有し、
上記検出ステップは、上記特定ステップにおいて特定された画像または音声に基づいて上記画像または音声の中から検出する、
ことを特徴とする請求項２または３に記載の画像音声処理方法。
上記特定ステップは、上記指定された画像内容または音声内容に付随する情報に基づく画像または音声を特定することを特徴とする請求項４に記載の画像音声処理方法。
上記特定ステップは、上記指定された画像内容または音声内容に類似する画像または音声を特定することを特徴とする請求項４に記載の画像音声処理方法。
外部機器と通信する通信ステップをさらに有し、
上記画像と音声の少なくとも一つを逐次取得する逐次ステップは、上記通信ステップを介して実行し、
上記出力ステップは、上記通信ステップを介して実行する、
ことを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
外部機器と通信する通信ステップをさらに有し、
上記指定ステップは、上記通信ステップを介して実行する、
ことを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
上記出力ステップにおいて出力する画像または音声を受けて、画像表示と音声再生の少なくとも一方を行う再生表示ステップを有することを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
上記再生表示ステップにおいて、画像表示を行う場合には、上記画像と、上記指定された画像内容と、上記画像処理を施した画像の少なくとも二つを、別々および／または重ねて再生表示することを特徴とする請求項９に記載の画像音声処理方法。
被写体像を結像し、画像として取得する画像取得ステップを有することを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
被写体の音声を集音し、音声として取得する音声取得ステップを有することを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
上記処理ステップにおいて、画像処理を施す場合には、上記指定された画像内容または上記検出された画像の色と形と動きと合焦状態の少なくとも一つを強調する処理を施すことを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
上記処理ステップにおいて、音声処理を施す場合には、上記指定された音声内容または上記検出された音声を強調する処理を施すことを特徴とする請求項２ないし６のいずれか一項に記載の画像音声処理方法。
画像と音声の少なくとも一つを逐次取得する取得ステップと、
複数の画像内容を指定、または複数の音声内容を指定する指定ステップと、
上記指定ステップによって指定された画像内容または音声内容を、上記取得ステップによって取得された画像または音声の中から検出する検出ステップと、
上記検出ステップによって検出された画像の少なくとも一部に画像処理を施し、または上記検出ステップによって検出された音声の少なくとも一部に音声処理を施す処理ステップと、
上記取得ステップによって取得された画像および／または音声と、上記指定ステップによって指定された画像内容および／または音声と、上記処理ステップによって画像処理された画像および／または上記処理ステップによって音声処理された音声のうちの少なくとも一つを出力する出力ステップと、
を有し、
さらに、上記指定ステップにおいて指定された複数の画像内容または複数の音声内容の優先順位を任意に設定できるようにする優先順位設定ステップと、
をコンピュータに実行させることを特徴とするプログラム。