JP2016131329A

JP2016131329A - 画像音声記録装置、画像音声記録方法、画像音声記録プログラム

Info

Publication number: JP2016131329A
Application number: JP2015005278A
Authority: JP
Inventors: 堀内　忠; Tadashi Horiuchi; 忠堀内
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2015-01-14
Filing date: 2015-01-14
Publication date: 2016-07-21

Abstract

【課題】撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置を提供する。
【解決手段】画像音声記録装置を備えた撮像装置１０は、撮影画像データを取得する撮像部２と、撮影画像データを取得する際に音声データを取得する集音部４と、音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、撮影画像データと前記ショート音声データとを関連付ける制御部１とを備える。
【選択図】図１

Description

本発明は画像音声記録装置、画像音声記録方法、画像音声記録プログラムに関する。

一般的に、音声が付与された動画データを取得するための装置が知られている。例えば、特許文献１に記載のオーディオ処理装置は、動画に対して別の音声（ＢＧＭ）を重畳する際に、次のような処理を行う。すなわち、動画の音声が所定の区間に分割される。分割された複数の区間のうち、例えば人の会話音が含まれる区間が特定される。特定された区間について、動画の音声の特徴を表現する特徴表現ベクトルを用いて帯域フィルタが作成される。動画の音声にＢＧＭを重畳する際に、特定された区間については、ＢＧＭに対して前記帯域フィルタを用いたフィルタリング処理が施された後の音声が動画の音声に重畳される。このような処理が行われることで、単純に音声のボリュームの上げ下げを行って音声を重畳するよりも、盛り上がり効果の高い合成動画ファイルが生成され得ることが特許文献１には開示されている。

また、特許文献２には、次のようなデジタルカメラに係る技術が開示されている。すなわち、このデジタルカメラでは、音声付きの動画データから、静止画が切り出される。また、当該動画データから音声が切り出される。切り出された静止画と切り出された音声とによって、音声付静止画データが生成される。

動画又は静止画の撮影時に取得された特徴的な音声は、撮影状況をよく表す。したがって、動画又は静止画と撮影時に取得された特徴的な音声とが関連付けて記録されると、魅力的なコンテンツを作成することに貢献し得る。

特開２０１４−９５８０６公報特開２００６−２９５５７５公報

本発明は、撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置、画像音声記録方法、及び画像音声記録プログラムを提供することを目的とする。

本発明の一態様によれば、画像音声記録装置は、撮影画像データを取得する撮像部と、前記撮影画像データを取得する際に音声データを取得する集音部と、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、前記撮影画像データと前記ショート音声データとを関連付ける制御部とを備える。

本発明の一態様によれば、画像音声記録方法は、撮影画像データを取得することと、前記撮影画像データを取得する際に音声データを取得することと、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、前記撮影画像データと前記ショート音声データとを関連付けることとを含む。

本発明の一態様によれば、画像音声記録プログラムは、撮影画像データを取得することと、前記撮影画像データを取得する際に音声データを取得することと、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、前記撮影画像データと前記ショート音声データとを関連付けることとをコンピュータに実行させる。

本発明は、撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置、画像音声記録方法、画像音声記録プログラムを提供できる。

図１は、第１実施形態に係る画像音声記録装置を備える撮像装置の構成例の概略を示すブロック図である。図２Ａは、撮影状況の一例を説明するための図である。図２Ｂは、得られる撮影画像について説明するための図である。図２Ｃは、得られる音声データについて説明するための図である。図２Ｄは、音声付画像の作成について説明するための模式図である。図２Ｅは、音声付画像の構造について説明するための模式図である。図３は、カメラ制御処理の一例を示すフローチャートである。図４は、ショート音声判定処理の一例を示すフローチャートである。図５は、ショート音声記録処理の一例を示すフローチャートである。図６は、第２の実施形態に係る画像音声記録システムの構成例の概略を示す図である。図７は、画像音声記録システムにおいて、撮影画像に関連付けられたショート音声について説明するための図である。

［第１の実施形態］
第１の実施形態に係る画像音声記録装置を備える撮像装置の構成について説明する。図１は、本実施形態に係る撮像装置１０の構成の概略を示すブロック図である。

撮像装置１０は、制御部１と、撮像部２と、一時記憶部３と、集音部４と、表示部５ａと、音声再生部５ｂと、加速度センサ６と、操作部７と、記録部８と、位置検出部９と、タッチパネル１１と、時計１２とを備える。

撮像部２は、レンズ２ａと、撮像素子２ｂとを有する。レンズ２ａは、被写体からの光を収束させて被写体像を撮像素子２ｂの撮像面に結像させる。撮像素子２ｂは、撮像面に結像した被写体像に基づいて電気信号である撮影画像データを生成する。

集音部４は、音声を電気信号である音声データに変換する。集音部４は、例えばダイナミック型マイクロホン、コンデンサ型マイクロホン等である。また、集音部４は、モノラルマイクロホンでもステレオマイクロホンでもよい。本実施形態において、集音部４によって取得される音声は、例えば人の声、メロディ、波の音、川のせせらぎの音、鉄道の音、飛行機の音、又は人の声とメロディ等との混合音等、種々の音を含む。

表示部５ａは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ（ＬＣＤ）又は有機ＥＬディスプレイ等を含む。表示部５ａは、例えば撮影画像データに基づく画像を表示する。表示部５ａは、撮像装置１０に係る各種情報や、撮像装置１０の操作のための情報等を表示してもよい。音声再生部５ｂは、例えばスピーカであり、音声データに基づく音波を放射する。

タッチパネル１１は、表示部５ａの表示面に重ねて設けられている。タッチパネル１１は、抵抗膜方式、静電容量方式、光学方式、電磁誘導方式等、種々の方式のうち何れの方式によるものでもよい。タッチパネル１１は、ユーザが指先又はペン先等で触れたパネル上の位置情報を検出する。タッチパネル１１は、検出した位置情報を制御部１へと伝達する。

記録部８は、電源を切っても内容が保存される記録媒体、例えばＦＬＡＳＨメモリを含む。記録部８は、プログラムデータ８ａ、ＢａｃｋｇｒｏｕｎｄＭｕｓｉｃ（ＢＧＭ）データ８ｂ、撮影画像データ８ｃ、ショート音声データ８ｄ、関連付けデータ８ｅ等を記録する。プログラムデータ８ａは、撮像装置１０を動作させるためのプログラムである。ＢＧＭデータ８ｂは、撮影画像データに付加されるＢＧＭのデータである。撮影画像データ８ｃは、撮影により得られる撮影画像のデータと、それと関連付けられたサムネイル画像のデータとを含む。ショート音声データ８ｄは、後述するショート音声と、ショート音声の特徴の情報とを含む。関連付けデータ８ｅは、撮影画像データ８ｃと、ショート音声データ８ｄとを関連付ける関連付け情報を含む。なお、ＢＧＭデータ８ｂ、撮影画像データ８ｃ、ショート音声データ８ｄ、関連付けデータ８ｅ等は、着脱自在な他の記録媒体に記録されてもよい。

前述のショート音声は、撮影時に取得された音声データから抽出された特徴的な音声である。ショート音声は、音声データから例えば音量の変化が特に大きい部分を抽出することで得られる。ショート音声は、所定の長さを有する。この長さは、例えば２〜５秒程度である。このようなショート音声は、撮影画像の再生時に再生されるＢＧＭの途中に挿入される。

一時記憶部３は、各種演算結果や、撮影画像データや、音声データ等を一時記憶する。操作部７は、例えば釦又はダイヤル等を含む。操作部７は、例えばユーザによるレリーズ操作を受け付けるためのレリーズ釦７ａを有する。ユーザの操作部７への操作に係る情報は、制御部１によって取得される。

姿勢検出部として機能する加速度センサ６は、撮像装置１０の姿勢情報を取得するために加速度を検出する。加速度センサ６によって検出された加速度情報は、制御部１に伝達される。位置検出部９は、例えばＧＰＳの受信機等を含み、撮像装置１０の現在位置に係る情報を取得する。位置検出部９によって取得された位置情報は、制御部１に伝達される。時計１２は、時刻情報を取得する。時刻情報は、制御部１に伝達される。

制御部１は、状況判定部１ａと、構え判定部１ｂと、操作判定部１ｃと、ショート音声抽出部１ｄと、記録制御部１ｅ、顔検出回路１ｆと、音声付画像作成部１ｇとを有する。

構え判定部１ｂは、加速度センサ６から取得した加速度情報に基づいて、撮像装置１０の姿勢を判定する。構え判定部１ｂは、例えば撮像装置１０の姿勢やその変化に基づいて、ユーザにより撮像装置１０が構えられたか否かを判定する。例えば撮像装置１０が水平に固定されたとき、ユーザによって撮像装置１０が構えられたと判定される。

操作判定部１ｃは、ユーザによる操作部７に対して行われた操作を検出し、その情報を各部に伝達する。

ショート音声抽出部１ｄは、音声データに基づいて、状況判定部１ａによって判定された撮影状況に応じたショート音声を抽出する。より具体的には、ショート音声抽出部１ｄは、音声データを周波数成分に分解する。音声データの分解は、例えば帯域フィルタを用いて行われる。また、ショート音声抽出部１ｄは、周波数分解された音声データからショート音声を抽出する。さらに、ショート音声抽出部１ｄは、抽出されたショート音声から状況判定部１ａにより判定された撮影状況に応じたショート音声を選択する。

記録制御部１ｅは、記録部８へのデータの記録を制御する。より具体的には、記録制御部１ｅは、撮影画像データ８ｃと、ショート音声データ８ｄと、関連付けデータ８ｅとの記録部８への記録を制御する。

顔検出回路１ｆは、顔の特徴、例えば目、鼻、口等を用いたパターンマッチングによって、画像に含まれている顔を特定する。

音声付画像作成部１ｇは、撮影画像データ８ｃとＢＧＭデータ８ｂと、ショート音声データ８ｄとに基づいて、後述する本実施形態に係る音声付画像を作成する。

状況判定部１ａは、撮影状況の判定を行う。状況判定部１ａは、顔判定部１ａａと、音声判定部１ａｂと、位置判定部１ａｃと、時刻判定部１ａｄとを有する。顔判定部１ａａは、画像に含まれている被写体（顔）の数、被写体の性別、被写体の年齢等、顔検出回路１ｆによって特定された顔の情報を判定する。音声判定部は、取得された音声に基づいて、現在の状況に係る情報を判定する。位置判定部１ａｃは、位置検出部９により取得された位置情報に基づいて、撮像装置１０の現在位置を判定する。時刻判定部１ａｄは、時計１２より伝達された時刻情報に基づいて、現在時刻を例えば朝、夜、又は特定の日付あるいは特定の季節等と判定する。状況判定部１ａは、顔判定部１ａａにより判定された被写体の数、被写体の性別及び被写体の年齢、音声判定部１ａｂにより判定された状況、位置判定部１ａｃにより判定された現在位置、及び時刻判定部１ａｄにより検出された現在時刻等に基づいて、撮像装置１０の撮影状況を判断する。撮影状況は、例えば運動会、宴会、結婚式等として判定される。

なお、制御部１やその各部は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）、又はＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＡＳＩＣ）等を含み、各種演算を行う。

図２Ａ乃至図２Ｅを参照して、撮像装置１０の動作の概要について説明する。図２Ａは、本実施形態に係る撮影状況の一例を説明するための図である。図２Ａに示す撮影状況は、学校の運動会の徒競走の場面である。図２Ａにおいて、被写体Ｏは走っている選手であり、ユーザＵが撮像装置１０で被写体Ｏを撮影している。このとき、図２Ｂに示すように、撮像装置１０の表示部５ａには、ライブビュー表示として、被写体Ｏの様子が表示される。ユーザＵは、ライブビュー表示を確認しながら、撮影操作を行う。その結果、撮影画像データが取得される。

図２Ａに示すように、このような場面で生じている音としては、ユーザＵの声援を含めて観客たちの歓声や、被写体Ｏである選手たちの足音や、ＢＧＭとして会場に流れる音楽等が挙げられる。撮像装置１０は、画像を取得するとともに、集音部４によって、このような音声のデータも取得する。

図２Ｃは、上述の場面で取得される音声データを模式的に示す図である。撮像装置１０では、取得された音声データについて周波数帯域毎に分離される。図２Ｃの上から１番目のグラフは、会場に流れる音楽に相当する周波数帯域についての時間に対する音量を示している。図２Ｃの上から２番目のグラフは、人の歓声に相当する周波数帯域についての時間に対する音量を示している。この場面では、１番目のグラフに示すように、会場の音楽に係る音量は、比較的安定しており変化が小さい。これに対して、２番目のグラフに示すように、人の歓声に係る音量は、大きくなったり小さくなったり変化が大きい。撮像装置１０は、例えば人の歓声が大きくなった期間、すなわち、平均的な音量よりも音量が大きくなり始めた開始時刻から平均的な音量に戻った終了時刻までの期間の音声データを、ショート音声データとして抽出する。ショート音声の長さは、例えば所定時間範囲内、例えば２〜５秒である。

人が発する声の音声パターンは、周囲の雑音と異なり、単語や音節の感情表現や言い回しに従って、周波数特性が大きく変わると言われている。一方、環境音や雑音では、周波数特性の差異よりも音の大きさ（振幅）等が変化しており、音の大きさがあまり変わらない人の声とは明らかに特徴が異なる。このような特性の差異を検出することによって、雑音を分離して、声を聞き取りやすくする技術が知られている。雑音スペクトルの大きさだけでなく、雑音スペクトルの時間変化も推定し、雑音の変化を全体の音から差し引けば、明瞭に人の声を抜き出すことができる。

雑音の時間変化に応じて雑音の減算量を調整するこの技術を使って、ノイズを除去した信号を用いて音声を判定してもよい。また、人の声を重視する場合、音声認識の技術を使って特定の単語などを抜き出す技術を利用しても、ショート音声を抜き出す事が可能である。こうした技術で分離された周囲音と人の声との割合を特定の時間ごとに判定し、対象となった範囲でこの割合の変化を分析して平均的な音声を求め、それとは異なる突発的な音声をショート音声として特定して抽出してもよい。これは、人の声に限る必要はなく、運動会の場面において、平均的な音声が歓声である場合には、競技者が立てる足音や衣擦れ音などを抽出してショート音声の候補にすることが可能となる。

また、音声や画像から「運動会」や「結婚式」など、シーン分析ができれば、それにふさわしい音を選べる。このため、ふさわしい音の候補をデータベースの情報と照合して選べるようにしてもよい。音声認識ができる場合、「がんばれ」とか、「おめでとう」とか、特定の単語がデータベースに記録されているようにすればよい。

また、静寂の中で浮かび上がる鳥の声や鐘の音や汽笛など、風景シーンにふさわしい音もある。これらの音についても、上記周波数解析の手法を使って解析して分類し、平均的な環境音からショート音声として抜き出すことが可能である。

以上のような方法だと、定期的に大きな音を発するリズミカルなＢＧＭであっても、その個々の拍子での大音響の繰り返しに惑わされることなく、それを平均的な環境音として判定することが可能となり、より瞬間的な音であってそのシーンをより端的に表す喚声や滑り込み音などを特徴的、決定的なショート音声として抜き出す事が可能となる。

ショート音声だとされると、それが発せられるタイミングを記録してこのタイミング情報を用いて後から検索できるようにしたり、このタイミングのみ別の音声ファイルで記録したりする等、このような情報については、後に効果的に使えるようにする工夫の仕方は様々ある。

本実施形態に係る音声付画像の作成について表す模式図を図２Ｄに示す。この図に示すように、撮影画像データ８ｃとショート音声データ８ｄとは、関連付けデータ８ｅによって関連付けられている。また、これとは別に、ＢＧＭデータ８ｂが用意されている。音声付画像作成部１ｇは、撮影画像データ８ｃと、ショート音声データ８ｄと、ＢＧＭデータ８ｂとに基づいて、音声付画像を作成する。

本実施形態に係る音声付画像の構造について、図２Ｅに示す模式図を参照して説明する。図２Ｅに示すように、本実施形態に係る音声付画像は、画像と音声とを含んでいる。画像は、撮影画像データ８ｃに基づく画像である。この画像は、静止画でもよいし動画でもよい。音声は、ＢＧＭデータ８ｂとショート音声データ８ｄとに基づく音声である。ここでは、ＢＧＭとＢＧＭとの間に特徴的な音声であるショート音声が挿入される場合を例として示した。この場合、音声は、ＢＧＭ、ショート音声、ＢＧＭの順に遷移する。音声についてＢＧＭとショート音声との順序や組み合わせはこれに限らず種々の態様が用いられ得る。

次に、本実施形態に係る撮像装置１０の動作について説明する。図３は、本実施形態に係る撮像装置１０のカメラ制御処理を示すフローチャートである。例えば撮像装置１０の電源が入れられたときに、制御部１は、記録部８に記録されているプログラムを読み込み、カメラ制御処理を開始する。

ステップＳ１０１において、制御部１は、撮影モードが選択されているか否かを判定する。動作のモードは、例えば操作部７のモード選択ダイヤルに応じて変更される。撮影モードが選択されているとき、処理はステップＳ１０２に進む。

ステップＳ１０２において、制御部１は、撮像部２に撮像を開始させる。撮像により撮像部２は撮影画像データを取得する。ステップＳ１０３において、制御部１は、得られた撮影画像データに対して画像処理を施し、ライブビュー画像を作成する。制御部１は、作成したライブビュー画像を表示部５ａに表示させる。ステップＳ１０４において、制御部１は、集音部４を用いて、周囲の音声に係る音声データを取得する。制御部１は、得られた音声データを一時記憶部３に一時記憶する。

ステップＳ１０５において、制御部１は、撮像装置１０が正しく構えられたか否かを判定する。例えば加速度センサ６によって検出された撮像装置１０の傾きが水平であるときに、ユーザによって撮像装置１０が正しく構えられたと判定される。正しく構えられたとき、処理はステップＳ１０６に進む。

ステップＳ１０６において、制御部１は、顔判定部１ａａにより判定された顔の数、顔の性別及び顔の年齢、音声判定部１ａｂにより判定された状況、位置判定部１ａｃにより判定された現在位置、及び時刻判定部１ａｄにより検出された現在時刻等に基づいて、撮影状況を判断する。撮影状況は、例えば運動会、宴会、又は結婚式等と判断される。撮影状況の情報は、関連付けデータ８ｅとして記録部８に記録される。その後、処理はステップＳ１０７に進む。

ステップＳ１０５において、ユーザによって撮像装置１０が正しく構えられていないと判定されたとき、処理はステップＳ１０７に進む。このように、撮像装置１０が正しく構えられていないとき、撮影状況を判断するためのステップＳ１０６の処理はスキップされる。撮像装置１０が正しく構えられていない場合、制御部１は、状況判断を誤る恐れがあるからである。

ステップＳ１０７において、制御部１は、ユーザにより撮影操作、すなわち、例えばレリーズ釦７ａの押圧操作が行われたか否かを判定する。撮影操作が行われていないとき、処理はステップＳ１１３に進む。一方、撮影操作が行われたとき、処理はステップＳ１０８に進む。ステップＳ１０８において、制御部１は、撮影を行う。すなわち、撮像部２は、撮影画像データを取得する。制御部１は、この撮影画像データに対して画像処理を行い、処理後の画像を、当該画像のサムネイル画像のデータとともに記録部８に記録する。

ステップＳ１０９において、制御部１は、ショート音声判定処理を行う。ショート音声判定処理は、音声データからショート音声を抽出するための処理である。図４に示すフローチャートを参照して、ショート音声判定処理について説明する。

ステップＳ２０１において、制御部１は、集音部４を用いて取得された音声データを周波数成分毎に分解する。ステップＳ２０２において、制御部１は、周波数成分毎に全ての周波数成分の音声データに対して変化判定を開始する。制御部１は、以下の動作によって、各々の周波数成分について開始時刻から終了時刻までの間における平均的な音量よりも大きな音量を示す期間の情報、すなわち音量が変化している期間の開始時刻と終了時刻とを探索する。この期間の音声データがショート音声データとして取得されることになる。なお、ノイズがショート音声として取得されないように、ショート音声として抽出された音声の音量が所定の閾値を下回るときは、その音声をショート音声から除外してもよい。変化判定は、経過時間に沿って行われる。ステップＳ２０３乃至ステップＳ２０７の処理は、周波数成分毎に行われる。

ステップＳ２０３において、制御部１は、変化が開始したか否かを判定する。変化が開始していないとき、処理はステップＳ２０７に進む。一方、変化が開始したとき、処理はステップＳ２０４に進む。ステップＳ２０４において、制御部１は、変化開始時刻を記録する。

ステップＳ２０５において、制御部１は、変化が終了したか否かを判定する。変化が終了していないとき、処理はステップＳ２０７に進む。一方、変化が終了したとき、処理はステップＳ２０６に進む。ステップＳ２０６において、制御部１は、変化終了時刻を記録する。その後、処理はステップＳ２０７に進む。

ステップＳ２０７において、制御部１は、音声データが終了したか否か、すなわち、音量が変化している期間の探索が終了したか否かを判定する。音声データが終了していないとき、経過時間を進めて処理はステップＳ２０３に戻る。一方、音声データが終了したとき、処理はステップＳ２０８に進む。

ステップＳ２０８において、制御部１は、変化開始時刻が記録済みか否かを判定する。変化開始時刻が記録済みであるとき、処理はステップＳ２０９に進む。ステップＳ２０９において、制御部１は、ショート音声が有る旨を記録する。その後、処理は、ショート音声判定処理を終了し、カメラ制御処理に戻る。

一方、ステップＳ２０８において変化開始時刻が記録済みでないと判定されたとき、処理はステップＳ２１０に進む。ステップＳ２１０において、制御部１は、ショート音声が無い旨を記録する。その後、処理は、ショート音声判定処理を終了し、カメラ制御処理に戻る。

ここでは、音量を基準としてショート音声を抽出する例を示した。しかしながら、基準となるのは音量に限らない。他の特性を利用してショート音声を抽出してもよい。例えば人の言葉に限って抽出されてもよいし、特定のリズムが検出されたときにその音声が抽出されてもよい。

図３に戻ってカメラ制御処理の説明を続ける。ステップＳ１０９のショート音声判定処理の後、処理はステップＳ１１０に進む。ステップＳ１１０において、制御部１は、ショート音声が有るか否かを判定する。ショート音声が無いとき、処理はステップＳ１１３に進む。一方、ショート音声が有るとき、処理はステップＳ１１１に進む。

ステップＳ１１１において、制御部１は、ショート音声記録処理を行う。ショート音声記録処理は、ステップＳ１０９のショート音声判定処理で抽出された複数のショート音声から最適なショート音声を選択して記録する処理である。ショート音声記録処理について、図５に示すフローチャートを参照して説明する。

ステップＳ３０１乃至ステップＳ３０４の処理は、ショート音声判定処理で抽出された複数のショート音声の各々に対して行われる。ステップＳ３０１において、制御部１は、ショート音声の終了時刻が記録されているか否かを判定する。記録されているとき、処理はステップＳ３０３に進む。一方、記録されていないとき、処理はステップＳ３０２に進む。ステップＳ３０２において、制御部１は、ショート音声の終了時刻を、当該ショート音声の抽出元である音声の終了時刻と同一とする。その後、処理はステップＳ３０３に進む。

ステップＳ３０３において、制御部１は、ショート音声の長さが所定の範囲内であるか否かを判定する。ここで、所定の範囲とは、例えば２〜５秒である。ショート音声の長さが所定の範囲内であるとき、処理はステップＳ３０４に進む。ステップＳ３０４において、制御部１は、当該ショート音声を記録する候補とする。その後、処理はステップＳ３０６に進む。

ステップＳ３０３において、ショート音声の長さが所定の範囲内でないとき、処理はステップＳ３０５に進む。ステップＳ３０５において、制御部１は、当該ショート音声を記録する候補としない。その後、処理はステップＳ３０６に進む。このようにして、所定の範囲内の長さを有するショート音声のみが、記録されるショート音声の候補とされる。したがって、極めて短い音声や、非常に長い音声は、ショート音声として記録されないことになる。また、撮像装置１０の構えが正しくないときにもショート音声を記録する候補としないものとしてもよい。こうすることによって、撮像装置１０が正しく構えられ、撮像装置１０が所定の姿勢にあるときのみショート音声の候補とされることになる。

ステップＳ３０６において、制御部１は、記録候補となっている複数のショート音声の中から、記録するショート音声を選択する。記録するショート音声として、平均音量との音量差が大きいものが選択されてもよい。また、記録されるショート音声として、撮影者の声や被写体の声が優先的に選択されてもよい。また、ショート音声として、状況判定部１ａにより判断された撮影状況に応じて選択されてもよい。例えば状況判定部１ａが撮影状況を運動会と判断したとき、人の声の周波数帯域から抽出したショート音声が優先的に選択されてもよい。また、記録するショート音声として、例えば撮影画像が取得されたタイミングに近いショート音声が選択されてもよい。ただし、撮影画像の最良のタイミングと、音声の最良のタイミングとは必ずしも一致しないことに注意を要する。また、記録するショート音声は、ユーザによって選択されてもよい。ショート音声の選択の後、処理はステップＳ３０７に進む。

ステップＳ３０７において、記録するショート音声について音声の種類を特定する音声判定が可能であるか否かを判定する。ここで音声判定では、例えばショート音声の周波数、音色、音量、言葉等から、例えば、音声に含まれる言葉や、メロディの曲名や、波の音又は川のせせらぎ等といった音の種類や、運動会、宴会又は結婚式といった撮影の状況など、ショート音声に係る情報が取得される。音声判定が可能であるとき、処理はステップＳ３０８に進む。ステップＳ３０８において、制御部１は、ショート音声データと共に音声判定の結果に係る情報を、記録部８に記録する。この際、ショート音声データは、撮影画像データと関連付けられて記録される。その後、ショート音声記録処理は終了し、処理はカメラ制御処理に戻る。

ステップＳ３０７において、音声判定が可能でないと判定されたとき、処理はステップＳ３０９に進む。ステップＳ３０９において、制御部１は、ショート音声データを記録部８に記録する。この際、ショート音声データは、撮影画像データと関連付けられて記録される。その後、ショート音声記録処理は終了し、処理はカメラ制御処理に戻る。

図３に戻って説明を続ける。ステップＳ１１１のショート音声記録処理の後、処理はステップＳ１１２に進む。ステップＳ１１２において、制御部１は、ステップＳ１０８で記録された撮影画像データと、ステップＳ１１１で記録されたショート音声データとを関連付けて記録部８に記録する。例えば、撮影画像データに音声データを含ませたり、撮影画像データと音声データとの関係を別のファイルに記録したりする。その後、処理はステップＳ１１３に進む。

ステップＳ１１３において、撮影モードを終了するか否かを判定する。撮影モードを終了しないとき、処理はステップＳ１０２に戻る。一方、撮影モードを終了するとき、処理はステップＳ１１４に進む。ステップＳ１１４において、制御部１は、電源をオフにするか否かを判定する。例えば電源釦が押圧されたとき、電源をオフにする。電源をオフにしないとき、処理はステップＳ１０１に戻る。一方、電源をオフにするとき、制御部１は、撮像装置１０の電源をＯＦＦにし、カメラ制御処理を終了する。

ステップＳ１０１において、撮影モードが選択されていないと判定されたとき、処理はステップＳ１１５に進む。ステップＳ１１５において、制御部１は、撮影画像データを再生する再生モードであるか否かを判定する。再生モードでないとき、処理はステップＳ１０１に戻る。一方、再生モードであるとき、処理はステップＳ１１６に進む。ステップＳ１１６において、制御部１は、撮影画像データのサムネイル画像を表示部５ａに一覧表示させる。

ステップＳ１１７において、制御部１は、ユーザによって画像が選択されたか否かを判定する。制御部１は、例えばタッチパネル１１を用いて、ユーザがサムネイル画像上をタッチしたことを検出したとき、当該サムネイル画像に対応した画像が選択されたと判定する。画像が選択されなかったとき、処理はステップＳ１１８に進む。ステップＳ１１８おいて、制御部１は、再生モードを終了させるか否かを判定する。例えばサムネイルが選択されないまま所定時間が経過したとき、再生モードは終了させられる。再生モードを終了させるとき、処理はステップＳ１０１に戻る。一方、再生モードを終了しないとき、処理はステップＳ１１６に戻る。

ステップＳ１１７において、画像が選択されたと判定されたとき、処理はステップＳ１１９に進む。ステップＳ１１９において、制御部１は、ユーザにより選択されたサムネイル画像に対応する撮影画像データを記録部８から読み出して、撮影画像データに基づく画像を表示部５ａに表示させる。

ステップＳ１２０において、制御部１は、表示部５ａに表示されている撮影画像に対応する関連付け情報を読み出して、撮影画像にショート音声が関連付けられているか否かを判定する。ショート音声が関連付けられているとき、処理はステップＳ１２１に進む。ステップＳ１２１において、制御部１は、画像の表示と共に、記録部８に記録されているデータに基づいて、ショート音声が挿入されたＢＧＭを再生する。その後、処理はステップＳ１２３に進む。なお、ショート音声に音声判定によって特定された曲名や音の種類や撮影の状況などの情報が含まれているとき、この情報が例えば表示部５ａに表示される等、種々の方法のうち何れかの方法でユーザに提示されてもよい。

ステップＳ１２０において、ショート音声が関連付けられていないと判定されたとき、処理はステップＳ１２２に進む。ステップＳ１２２において、制御部１は、画像の表示と共に、記録部８に記録されているデータに基づいて、ショート音声が挿入されていないＢＧＭを再生する。その後、処理はステップＳ１２３に進む。

ステップＳ１２３において、制御部１は、再生を終了するか否かを判定する。再生を終了しないとき、処理はステップＳ１２０に戻り、再生動作を継続する。一方、再生を終了するとき、処理はステップＳ１１５に戻る。

このように、本実施形態に係る撮像装置１０は、撮影時の特徴的な音声をショート音声として抽出し、撮影画像と抽出されたショート音声とを関連付けて記録することができる。本実施形態では、ショート音声の抽出に際して、音の情報が周波数帯域毎に分解して解析されるので、周波数帯域毎に存在する特徴的な音声が容易に抽出され得る。ショート音声は、ＢＧＭに挿入される形式で再生されるので、視聴者に対して魅力的な演出が可能である。

近年、気軽なコミュニケーションに用いられる得る再生時間が短い画像コンテンツが好まれる傾向がある。本実施形態の撮像装置１０では、好まれる傾向にある短い意味のある音声が選択的に抽出される。

また、撮影を行っているユーザは、画像に注目して撮影を行っているのが一般的である。ここで、最良な画像と最良な音声とは生じるタイミングが異なることがある。本実施形態によれば、撮像装置１０によって最適な音声が選択的に抽出されるので、ユーザは画像に注力して音声に注力していなくても、最良なショート音声が取得され得る。

動画コンテンツの場合、例えば単純な繰り返し音がＢＧＭとして挿入されることがある。ショート音声は、このような単純な繰り返し音であるＢＧＭの間に挿し込まれ得る。この場合、例えばＢＧＭの再生を一旦途切れさせて、その後にショート音声を再生し、さらにその後にＢＧＭを再生することができる。このような再生方法は、ユーザの興味をひくものとなり得る。また、短いＢＧＭの繰り返しによれば、途中で停止しても違和感はほとんどない。このため、様々な長さのコンテンツであり得る音声付画像において、長さの調整が容易に行われ得る。

なお、第１の実施形態では、画像を撮像し、また再生するデジタルカメラを例に挙げて説明した。しかしながら、これに限らず、本実施形態のコンテンツの再生には、撮影機能を持たない画像再生装置が用いられてもよい。この画像再生装置では、撮影画像データとＢＧＭデータとショート音声データとを読込み、これらを組み合わせて本実施形態に係る音声付画像の再生を行う。なお、再生に用いられる撮影画像データとＢＧＭデータとショート音声データとは、必ずしも当該画像再生装置に記録されている必要はなく、これらのうち一部又は全部が装置の外部に記録されていてもよい。画像再生装置は、装置の外部から読み込んだデータを用いて再生動作を行うことができる。ただし、撮影画像データとショート音声データとは、関連付けられている。画像再生装置は、例えば画像を４秒ごとに次々と切り替えながらスライドショーとして表示する。画像の表示時間が４秒であるとき、ショート音声は４秒以内であることが必要である。当該画像再生装置の動作は、基本的に図３を参照して説明した処理のステップＳ１１５乃至ステップＳ１２３と同様である。

［第２の実施形態］
第２の実施形態について説明する。ここでは、第１の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態は、画像音声記録装置を備える撮像装置１０を含む画像音声記録システム１００に係るものである。図６は、画像音声記録システム１００の構成の概略を示す図である。

画像音声記録システム１００は、撮像装置１０と、サーバ２０と、携帯端末３０とを有する。撮像装置１０は、第１の実施形態に係る撮像装置１０である。携帯端末３０は、例えばスマートフォン等である。撮像装置１０は、基地局２１０とインターネット２００とを介して、サーバ２０と通信可能である。同様に、携帯端末３０は、基地局２２０とインターネット２００とを介して、サーバ２０と通信可能である。

本実施形態では、撮像装置１０で取得された撮影画像データとショート音声データとが関連付けられてサーバ２０に記録されており、例えば他のユーザは、携帯端末３０を用いてサーバ２０にアクセスすることで、撮影画像に基づいて、ショート音声を選択してダウンロードすることができる。

サーバ２０は、記録部２１と、アクセス判定部２２とを有する。記録部２１は、画像記録部２１ａと、ショート音声記録部２１ｂとを有する。画像記録部２１ａは、画像データを記録している。画像データは、例えば運動会、宴会、又は結婚式といった撮影状況すなわちカテゴリ毎に分類されて記録されている。ショート音声記録部２１ｂは、ショート音声と、ショート音声の特徴の情報とを記録する。ショート音声は、画像記録部２１ａに記録されている画像データに関連付けられている。

アクセス判定部２２は、サーバ２０にアクセスする端末を判定する。例えば撮像装置１０によりアクセスされたとき、アクセス判定部２２は、撮像装置１０を認証し、撮像装置１０のサーバ２０へのアクセスを許可する。その結果、撮像装置１０とサーバ２０との間の通信が開始する。

画像音声記録システム１００の動作の概要を説明する。撮像装置１０は、撮影画像データと、撮影画像データに関連付けられたショート音声とショート音声の特徴の情報とを取得する。撮像装置１０は、サーバ２０にアクセスして、サーバ２０にアクセスを許可されたときに、基地局２２０とインターネット２００とを介して、撮影画像データとショート音声とショート音声の特徴の情報とをサーバ２０へ送信する。

サーバ２０は、撮影画像データとショート音声とショート音声の特徴の情報とを撮像装置１０から受信し、これらデータを記録部２１に記録する。このようにして、サーバ２０には、撮影画像とショート音声とを収集したライブラリが作成される。

所望のショート音声を取得したいユーザは、携帯端末３０を用いてサーバ２０にアクセスする。例えば運動会というカテゴリの画像を読込むと、図７の上段に示すような画像の一覧が携帯端末３０の表示部には表示される。ユーザは、このような画像を選択することで、図７の下段に模式的に示すようなショート音声を取得することができる。このようにして、携帯端末３０のユーザは、画像に基づいて所望のショート音声を取得することができる。

上述した技術のうち、主にフローチャートで説明した制御に関しては、プログラムを用いて実現され得る。このプログラムは、記録媒体や記録部に収められ得る。この記録媒体又は記録部への記録の方法は様々であり、製品出荷時に記録されてもよく、配布された記録媒体が利用されて記録されてもよく、インターネットを介したダウンロードが利用されて記録されてもよい。

また、撮像装置１０のような構成は、例えばスマートフォンやタブレットＰＣといった情報携帯端末にも適用され得る。情報携帯端末には、ウェアラブル端末も含まれる。また、コンシューマ用のカメラ等に限らず、監視カメラや、顕微鏡用のカメラや、検査用等の産業用機器や、各種医療用の観察装置にも適用され得る。

１…制御部、１ａ…状況判定部、１ａａ…顔判定部、１ａｂ…音声判定部、１ａｃ…位置判定部、１ａｄ…時刻判定部、１ｂ…構え判定部、１ｃ…操作判定部、１ｄ…ショート音声抽出部、１ｅ…記録制御部、１ｆ…顔検出回路、２…撮像部、２ａ…レンズ、２ｂ…撮像素子、３…一時記憶部、４…集音部、５…再生部、５ａ…表示部、５ｂ…音声再生部、６…加速度センサ、７…操作部、７ａ…レリーズ釦、８…記録部、８ａ…プログラムデータ、８ｂ…ＢＧＭデータ、８ｃ…撮影画像データ、８ｄ…ショート音声データ、８ｅ…関連付けデータ、９…位置検出部、１０…撮像装置、１１…タッチパネル、１２…時計、２０…サーバ、２１…記録部、２１ａ…画像記録部、２１ｂ…ショート音声記録部、２２…アクセス判定部、３０…携帯端末、１００…画像音声記録システム、２００…インターネット、２１０，２２０…基地局。

Claims

撮影画像データを取得する撮像部と、
前記撮影画像データを取得する際に音声データを取得する集音部と、
前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、前記撮影画像データと前記ショート音声データとを関連付ける制御部と
を備える画像音声記録装置。
前記制御部は、前記ショート音声データを、前記音声データが表す音量の変化に基づいて抽出する、請求項１に記載の画像音声記録装置。
前記制御部は、前記ショート音声データを、前記音声データが表す音を周波数成分に分解された音のデータから抽出する、請求項１に記載の画像音声記録装置。
前記制御部は、特定の時間ごとに音声を分類して平均的な音声を判定し、前記平均的な音声とは異なる突発的な音声を前記ショート音声データとして抽出する、請求項１に記載の画像音声記録装置。
前記制御部は、シーンを判定し、データベースに収められた音声情報のうち前記シーンに応じて選択された前記音声情報に合致した音声を前記ショート音声データとして抽出する、請求項１に記載の画像音声記録装置。
当該画像音声記録装置の姿勢を検出する姿勢検出部をさらに備え、
前記制御部は、前記姿勢検出部の出力に基づいて当該画像音声記録装置が所定の姿勢にあると判定したときに、前記ショート音声データを抽出する、
請求項１に記載の画像音声記録装置。
ＢＧＭデータを記録する記録部と、
音声を出力する音声再生部と、
画像を表示する表示部と
をさらに備え、
前記制御部は、前記撮影画像データに基づく画像を前記表示部に表示させるとともに、前記ＢＧＭデータが表すＢＧＭに前記ショート音声データが表すショート音声を挿入した音声を前記音声再生部に出力させる、
請求項１に記載の画像音声記録装置。
前記所定の時間は、前記表示部に表示される前記画像の表示時間よりも短い、請求項７に記載の画像音声記録装置。
撮影画像データを取得することと、
前記撮影画像データを取得する際に音声データを取得することと、
前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、
前記撮影画像データと前記ショート音声データとを関連付けることと
を含む画像音声記録方法。
撮影画像データを取得することと、
前記撮影画像データを取得する際に音声データを取得することと、
前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、
前記撮影画像データと前記ショート音声データとを関連付けることと
をコンピュータに実行させるための画像音声記録プログラム。