JP2016131329A - 画像音声記録装置、画像音声記録方法、画像音声記録プログラム - Google Patents

画像音声記録装置、画像音声記録方法、画像音声記録プログラム Download PDF

Info

Publication number
JP2016131329A
JP2016131329A JP2015005278A JP2015005278A JP2016131329A JP 2016131329 A JP2016131329 A JP 2016131329A JP 2015005278 A JP2015005278 A JP 2015005278A JP 2015005278 A JP2015005278 A JP 2015005278A JP 2016131329 A JP2016131329 A JP 2016131329A
Authority
JP
Japan
Prior art keywords
data
audio
short
sound
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015005278A
Other languages
English (en)
Inventor
堀内 忠
Tadashi Horiuchi
忠 堀内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2015005278A priority Critical patent/JP2016131329A/ja
Publication of JP2016131329A publication Critical patent/JP2016131329A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置を提供する。
【解決手段】画像音声記録装置を備えた撮像装置10は、撮影画像データを取得する撮像部2と、撮影画像データを取得する際に音声データを取得する集音部4と、音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、撮影画像データと前記ショート音声データとを関連付ける制御部1とを備える。
【選択図】図1

Description

本発明は画像音声記録装置、画像音声記録方法、画像音声記録プログラムに関する。
一般的に、音声が付与された動画データを取得するための装置が知られている。例えば、特許文献1に記載のオーディオ処理装置は、動画に対して別の音声(BGM)を重畳する際に、次のような処理を行う。すなわち、動画の音声が所定の区間に分割される。分割された複数の区間のうち、例えば人の会話音が含まれる区間が特定される。特定された区間について、動画の音声の特徴を表現する特徴表現ベクトルを用いて帯域フィルタが作成される。動画の音声にBGMを重畳する際に、特定された区間については、BGMに対して前記帯域フィルタを用いたフィルタリング処理が施された後の音声が動画の音声に重畳される。このような処理が行われることで、単純に音声のボリュームの上げ下げを行って音声を重畳するよりも、盛り上がり効果の高い合成動画ファイルが生成され得ることが特許文献1には開示されている。
また、特許文献2には、次のようなデジタルカメラに係る技術が開示されている。すなわち、このデジタルカメラでは、音声付きの動画データから、静止画が切り出される。また、当該動画データから音声が切り出される。切り出された静止画と切り出された音声とによって、音声付静止画データが生成される。
動画又は静止画の撮影時に取得された特徴的な音声は、撮影状況をよく表す。したがって、動画又は静止画と撮影時に取得された特徴的な音声とが関連付けて記録されると、魅力的なコンテンツを作成することに貢献し得る。
特開2014−95806公報 特開2006−295575公報
本発明は、撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置、画像音声記録方法、及び画像音声記録プログラムを提供することを目的とする。
本発明の一態様によれば、画像音声記録装置は、撮影画像データを取得する撮像部と、前記撮影画像データを取得する際に音声データを取得する集音部と、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、前記撮影画像データと前記ショート音声データとを関連付ける制御部とを備える。
本発明の一態様によれば、画像音声記録方法は、撮影画像データを取得することと、前記撮影画像データを取得する際に音声データを取得することと、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、前記撮影画像データと前記ショート音声データとを関連付けることとを含む。
本発明の一態様によれば、画像音声記録プログラムは、撮影画像データを取得することと、前記撮影画像データを取得する際に音声データを取得することと、前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、前記撮影画像データと前記ショート音声データとを関連付けることとをコンピュータに実行させる。
本発明は、撮影時の特徴的な音声を抽出し、撮影画像と抽出された音声とを関連付けて記録することができる画像音声記録装置、画像音声記録方法、画像音声記録プログラムを提供できる。
図1は、第1実施形態に係る画像音声記録装置を備える撮像装置の構成例の概略を示すブロック図である。 図2Aは、撮影状況の一例を説明するための図である。 図2Bは、得られる撮影画像について説明するための図である。 図2Cは、得られる音声データについて説明するための図である。 図2Dは、音声付画像の作成について説明するための模式図である。 図2Eは、音声付画像の構造について説明するための模式図である。 図3は、カメラ制御処理の一例を示すフローチャートである。 図4は、ショート音声判定処理の一例を示すフローチャートである。 図5は、ショート音声記録処理の一例を示すフローチャートである。 図6は、第2の実施形態に係る画像音声記録システムの構成例の概略を示す図である。 図7は、画像音声記録システムにおいて、撮影画像に関連付けられたショート音声について説明するための図である。
[第1の実施形態]
第1の実施形態に係る画像音声記録装置を備える撮像装置の構成について説明する。図1は、本実施形態に係る撮像装置10の構成の概略を示すブロック図である。
撮像装置10は、制御部1と、撮像部2と、一時記憶部3と、集音部4と、表示部5aと、音声再生部5bと、加速度センサ6と、操作部7と、記録部8と、位置検出部9と、タッチパネル11と、時計12とを備える。
撮像部2は、レンズ2aと、撮像素子2bとを有する。レンズ2aは、被写体からの光を収束させて被写体像を撮像素子2bの撮像面に結像させる。撮像素子2bは、撮像面に結像した被写体像に基づいて電気信号である撮影画像データを生成する。
集音部4は、音声を電気信号である音声データに変換する。集音部4は、例えばダイナミック型マイクロホン、コンデンサ型マイクロホン等である。また、集音部4は、モノラルマイクロホンでもステレオマイクロホンでもよい。本実施形態において、集音部4によって取得される音声は、例えば人の声、メロディ、波の音、川のせせらぎの音、鉄道の音、飛行機の音、又は人の声とメロディ等との混合音等、種々の音を含む。
表示部5aは、Liquid Crystal Display(LCD)又は有機ELディスプレイ等を含む。表示部5aは、例えば撮影画像データに基づく画像を表示する。表示部5aは、撮像装置10に係る各種情報や、撮像装置10の操作のための情報等を表示してもよい。音声再生部5bは、例えばスピーカであり、音声データに基づく音波を放射する。
タッチパネル11は、表示部5aの表示面に重ねて設けられている。タッチパネル11は、抵抗膜方式、静電容量方式、光学方式、電磁誘導方式等、種々の方式のうち何れの方式によるものでもよい。タッチパネル11は、ユーザが指先又はペン先等で触れたパネル上の位置情報を検出する。タッチパネル11は、検出した位置情報を制御部1へと伝達する。
記録部8は、電源を切っても内容が保存される記録媒体、例えばFLASHメモリを含む。記録部8は、プログラムデータ8a、Background Music(BGM)データ8b、撮影画像データ8c、ショート音声データ8d、関連付けデータ8e等を記録する。プログラムデータ8aは、撮像装置10を動作させるためのプログラムである。BGMデータ8bは、撮影画像データに付加されるBGMのデータである。撮影画像データ8cは、撮影により得られる撮影画像のデータと、それと関連付けられたサムネイル画像のデータとを含む。ショート音声データ8dは、後述するショート音声と、ショート音声の特徴の情報とを含む。関連付けデータ8eは、撮影画像データ8cと、ショート音声データ8dとを関連付ける関連付け情報を含む。なお、BGMデータ8b、撮影画像データ8c、ショート音声データ8d、関連付けデータ8e等は、着脱自在な他の記録媒体に記録されてもよい。
前述のショート音声は、撮影時に取得された音声データから抽出された特徴的な音声である。ショート音声は、音声データから例えば音量の変化が特に大きい部分を抽出することで得られる。ショート音声は、所定の長さを有する。この長さは、例えば2〜5秒程度である。このようなショート音声は、撮影画像の再生時に再生されるBGMの途中に挿入される。
一時記憶部3は、各種演算結果や、撮影画像データや、音声データ等を一時記憶する。操作部7は、例えば釦又はダイヤル等を含む。操作部7は、例えばユーザによるレリーズ操作を受け付けるためのレリーズ釦7aを有する。ユーザの操作部7への操作に係る情報は、制御部1によって取得される。
姿勢検出部として機能する加速度センサ6は、撮像装置10の姿勢情報を取得するために加速度を検出する。加速度センサ6によって検出された加速度情報は、制御部1に伝達される。位置検出部9は、例えばGPSの受信機等を含み、撮像装置10の現在位置に係る情報を取得する。位置検出部9によって取得された位置情報は、制御部1に伝達される。時計12は、時刻情報を取得する。時刻情報は、制御部1に伝達される。
制御部1は、状況判定部1aと、構え判定部1bと、操作判定部1cと、ショート音声抽出部1dと、記録制御部1e、顔検出回路1fと、音声付画像作成部1gとを有する。
構え判定部1bは、加速度センサ6から取得した加速度情報に基づいて、撮像装置10の姿勢を判定する。構え判定部1bは、例えば撮像装置10の姿勢やその変化に基づいて、ユーザにより撮像装置10が構えられたか否かを判定する。例えば撮像装置10が水平に固定されたとき、ユーザによって撮像装置10が構えられたと判定される。
操作判定部1cは、ユーザによる操作部7に対して行われた操作を検出し、その情報を各部に伝達する。
ショート音声抽出部1dは、音声データに基づいて、状況判定部1aによって判定された撮影状況に応じたショート音声を抽出する。より具体的には、ショート音声抽出部1dは、音声データを周波数成分に分解する。音声データの分解は、例えば帯域フィルタを用いて行われる。また、ショート音声抽出部1dは、周波数分解された音声データからショート音声を抽出する。さらに、ショート音声抽出部1dは、抽出されたショート音声から状況判定部1aにより判定された撮影状況に応じたショート音声を選択する。
記録制御部1eは、記録部8へのデータの記録を制御する。より具体的には、記録制御部1eは、撮影画像データ8cと、ショート音声データ8dと、関連付けデータ8eとの記録部8への記録を制御する。
顔検出回路1fは、顔の特徴、例えば目、鼻、口等を用いたパターンマッチングによって、画像に含まれている顔を特定する。
音声付画像作成部1gは、撮影画像データ8cとBGMデータ8bと、ショート音声データ8dとに基づいて、後述する本実施形態に係る音声付画像を作成する。
状況判定部1aは、撮影状況の判定を行う。状況判定部1aは、顔判定部1aaと、音声判定部1abと、位置判定部1acと、時刻判定部1adとを有する。顔判定部1aaは、画像に含まれている被写体(顔)の数、被写体の性別、被写体の年齢等、顔検出回路1fによって特定された顔の情報を判定する。音声判定部は、取得された音声に基づいて、現在の状況に係る情報を判定する。位置判定部1acは、位置検出部9により取得された位置情報に基づいて、撮像装置10の現在位置を判定する。時刻判定部1adは、時計12より伝達された時刻情報に基づいて、現在時刻を例えば朝、夜、又は特定の日付あるいは特定の季節等と判定する。状況判定部1aは、顔判定部1aaにより判定された被写体の数、被写体の性別及び被写体の年齢、音声判定部1abにより判定された状況、位置判定部1acにより判定された現在位置、及び時刻判定部1adにより検出された現在時刻等に基づいて、撮像装置10の撮影状況を判断する。撮影状況は、例えば運動会、宴会、結婚式等として判定される。
なお、制御部1やその各部は、Central Processing Unit(CPU)、又はApplication Specific Integrated Circuit(ASIC)等を含み、各種演算を行う。
図2A乃至図2Eを参照して、撮像装置10の動作の概要について説明する。図2Aは、本実施形態に係る撮影状況の一例を説明するための図である。図2Aに示す撮影状況は、学校の運動会の徒競走の場面である。図2Aにおいて、被写体Oは走っている選手であり、ユーザUが撮像装置10で被写体Oを撮影している。このとき、図2Bに示すように、撮像装置10の表示部5aには、ライブビュー表示として、被写体Oの様子が表示される。ユーザUは、ライブビュー表示を確認しながら、撮影操作を行う。その結果、撮影画像データが取得される。
図2Aに示すように、このような場面で生じている音としては、ユーザUの声援を含めて観客たちの歓声や、被写体Oである選手たちの足音や、BGMとして会場に流れる音楽等が挙げられる。撮像装置10は、画像を取得するとともに、集音部4によって、このような音声のデータも取得する。
図2Cは、上述の場面で取得される音声データを模式的に示す図である。撮像装置10では、取得された音声データについて周波数帯域毎に分離される。図2Cの上から1番目のグラフは、会場に流れる音楽に相当する周波数帯域についての時間に対する音量を示している。図2Cの上から2番目のグラフは、人の歓声に相当する周波数帯域についての時間に対する音量を示している。この場面では、1番目のグラフに示すように、会場の音楽に係る音量は、比較的安定しており変化が小さい。これに対して、2番目のグラフに示すように、人の歓声に係る音量は、大きくなったり小さくなったり変化が大きい。撮像装置10は、例えば人の歓声が大きくなった期間、すなわち、平均的な音量よりも音量が大きくなり始めた開始時刻から平均的な音量に戻った終了時刻までの期間の音声データを、ショート音声データとして抽出する。ショート音声の長さは、例えば所定時間範囲内、例えば2〜5秒である。
人が発する声の音声パターンは、周囲の雑音と異なり、単語や音節の感情表現や言い回しに従って、周波数特性が大きく変わると言われている。一方、環境音や雑音では、周波数特性の差異よりも音の大きさ(振幅)等が変化しており、音の大きさがあまり変わらない人の声とは明らかに特徴が異なる。このような特性の差異を検出することによって、雑音を分離して、声を聞き取りやすくする技術が知られている。雑音スペクトルの大きさだけでなく、雑音スペクトルの時間変化も推定し、雑音の変化を全体の音から差し引けば、明瞭に人の声を抜き出すことができる。
雑音の時間変化に応じて雑音の減算量を調整するこの技術を使って、ノイズを除去した信号を用いて音声を判定してもよい。また、人の声を重視する場合、音声認識の技術を使って特定の単語などを抜き出す技術を利用しても、ショート音声を抜き出す事が可能である。こうした技術で分離された周囲音と人の声との割合を特定の時間ごとに判定し、対象となった範囲でこの割合の変化を分析して平均的な音声を求め、それとは異なる突発的な音声をショート音声として特定して抽出してもよい。これは、人の声に限る必要はなく、運動会の場面において、平均的な音声が歓声である場合には、競技者が立てる足音や衣擦れ音などを抽出してショート音声の候補にすることが可能となる。
また、音声や画像から「運動会」や「結婚式」など、シーン分析ができれば、それにふさわしい音を選べる。このため、ふさわしい音の候補をデータベースの情報と照合して選べるようにしてもよい。音声認識ができる場合、「がんばれ」とか、「おめでとう」とか、特定の単語がデータベースに記録されているようにすればよい。
また、静寂の中で浮かび上がる鳥の声や鐘の音や汽笛など、風景シーンにふさわしい音もある。これらの音についても、上記周波数解析の手法を使って解析して分類し、平均的な環境音からショート音声として抜き出すことが可能である。
以上のような方法だと、定期的に大きな音を発するリズミカルなBGMであっても、その個々の拍子での大音響の繰り返しに惑わされることなく、それを平均的な環境音として判定することが可能となり、より瞬間的な音であってそのシーンをより端的に表す喚声や滑り込み音などを特徴的、決定的なショート音声として抜き出す事が可能となる。
ショート音声だとされると、それが発せられるタイミングを記録してこのタイミング情報を用いて後から検索できるようにしたり、このタイミングのみ別の音声ファイルで記録したりする等、このような情報については、後に効果的に使えるようにする工夫の仕方は様々ある。
本実施形態に係る音声付画像の作成について表す模式図を図2Dに示す。この図に示すように、撮影画像データ8cとショート音声データ8dとは、関連付けデータ8eによって関連付けられている。また、これとは別に、BGMデータ8bが用意されている。音声付画像作成部1gは、撮影画像データ8cと、ショート音声データ8dと、BGMデータ8bとに基づいて、音声付画像を作成する。
本実施形態に係る音声付画像の構造について、図2Eに示す模式図を参照して説明する。図2Eに示すように、本実施形態に係る音声付画像は、画像と音声とを含んでいる。画像は、撮影画像データ8cに基づく画像である。この画像は、静止画でもよいし動画でもよい。音声は、BGMデータ8bとショート音声データ8dとに基づく音声である。ここでは、BGMとBGMとの間に特徴的な音声であるショート音声が挿入される場合を例として示した。この場合、音声は、BGM、ショート音声、BGMの順に遷移する。音声についてBGMとショート音声との順序や組み合わせはこれに限らず種々の態様が用いられ得る。
次に、本実施形態に係る撮像装置10の動作について説明する。図3は、本実施形態に係る撮像装置10のカメラ制御処理を示すフローチャートである。例えば撮像装置10の電源が入れられたときに、制御部1は、記録部8に記録されているプログラムを読み込み、カメラ制御処理を開始する。
ステップS101において、制御部1は、撮影モードが選択されているか否かを判定する。動作のモードは、例えば操作部7のモード選択ダイヤルに応じて変更される。撮影モードが選択されているとき、処理はステップS102に進む。
ステップS102において、制御部1は、撮像部2に撮像を開始させる。撮像により撮像部2は撮影画像データを取得する。ステップS103において、制御部1は、得られた撮影画像データに対して画像処理を施し、ライブビュー画像を作成する。制御部1は、作成したライブビュー画像を表示部5aに表示させる。ステップS104において、制御部1は、集音部4を用いて、周囲の音声に係る音声データを取得する。制御部1は、得られた音声データを一時記憶部3に一時記憶する。
ステップS105において、制御部1は、撮像装置10が正しく構えられたか否かを判定する。例えば加速度センサ6によって検出された撮像装置10の傾きが水平であるときに、ユーザによって撮像装置10が正しく構えられたと判定される。正しく構えられたとき、処理はステップS106に進む。
ステップS106において、制御部1は、顔判定部1aaにより判定された顔の数、顔の性別及び顔の年齢、音声判定部1abにより判定された状況、位置判定部1acにより判定された現在位置、及び時刻判定部1adにより検出された現在時刻等に基づいて、撮影状況を判断する。撮影状況は、例えば運動会、宴会、又は結婚式等と判断される。撮影状況の情報は、関連付けデータ8eとして記録部8に記録される。その後、処理はステップS107に進む。
ステップS105において、ユーザによって撮像装置10が正しく構えられていないと判定されたとき、処理はステップS107に進む。このように、撮像装置10が正しく構えられていないとき、撮影状況を判断するためのステップS106の処理はスキップされる。撮像装置10が正しく構えられていない場合、制御部1は、状況判断を誤る恐れがあるからである。
ステップS107において、制御部1は、ユーザにより撮影操作、すなわち、例えばレリーズ釦7aの押圧操作が行われたか否かを判定する。撮影操作が行われていないとき、処理はステップS113に進む。一方、撮影操作が行われたとき、処理はステップS108に進む。ステップS108において、制御部1は、撮影を行う。すなわち、撮像部2は、撮影画像データを取得する。制御部1は、この撮影画像データに対して画像処理を行い、処理後の画像を、当該画像のサムネイル画像のデータとともに記録部8に記録する。
ステップS109において、制御部1は、ショート音声判定処理を行う。ショート音声判定処理は、音声データからショート音声を抽出するための処理である。図4に示すフローチャートを参照して、ショート音声判定処理について説明する。
ステップS201において、制御部1は、集音部4を用いて取得された音声データを周波数成分毎に分解する。ステップS202において、制御部1は、周波数成分毎に全ての周波数成分の音声データに対して変化判定を開始する。制御部1は、以下の動作によって、各々の周波数成分について開始時刻から終了時刻までの間における平均的な音量よりも大きな音量を示す期間の情報、すなわち音量が変化している期間の開始時刻と終了時刻とを探索する。この期間の音声データがショート音声データとして取得されることになる。なお、ノイズがショート音声として取得されないように、ショート音声として抽出された音声の音量が所定の閾値を下回るときは、その音声をショート音声から除外してもよい。変化判定は、経過時間に沿って行われる。ステップS203乃至ステップS207の処理は、周波数成分毎に行われる。
ステップS203において、制御部1は、変化が開始したか否かを判定する。変化が開始していないとき、処理はステップS207に進む。一方、変化が開始したとき、処理はステップS204に進む。ステップS204において、制御部1は、変化開始時刻を記録する。
ステップS205において、制御部1は、変化が終了したか否かを判定する。変化が終了していないとき、処理はステップS207に進む。一方、変化が終了したとき、処理はステップS206に進む。ステップS206において、制御部1は、変化終了時刻を記録する。その後、処理はステップS207に進む。
ステップS207において、制御部1は、音声データが終了したか否か、すなわち、音量が変化している期間の探索が終了したか否かを判定する。音声データが終了していないとき、経過時間を進めて処理はステップS203に戻る。一方、音声データが終了したとき、処理はステップS208に進む。
ステップS208において、制御部1は、変化開始時刻が記録済みか否かを判定する。変化開始時刻が記録済みであるとき、処理はステップS209に進む。ステップS209において、制御部1は、ショート音声が有る旨を記録する。その後、処理は、ショート音声判定処理を終了し、カメラ制御処理に戻る。
一方、ステップS208において変化開始時刻が記録済みでないと判定されたとき、処理はステップS210に進む。ステップS210において、制御部1は、ショート音声が無い旨を記録する。その後、処理は、ショート音声判定処理を終了し、カメラ制御処理に戻る。
ここでは、音量を基準としてショート音声を抽出する例を示した。しかしながら、基準となるのは音量に限らない。他の特性を利用してショート音声を抽出してもよい。例えば人の言葉に限って抽出されてもよいし、特定のリズムが検出されたときにその音声が抽出されてもよい。
図3に戻ってカメラ制御処理の説明を続ける。ステップS109のショート音声判定処理の後、処理はステップS110に進む。ステップS110において、制御部1は、ショート音声が有るか否かを判定する。ショート音声が無いとき、処理はステップS113に進む。一方、ショート音声が有るとき、処理はステップS111に進む。
ステップS111において、制御部1は、ショート音声記録処理を行う。ショート音声記録処理は、ステップS109のショート音声判定処理で抽出された複数のショート音声から最適なショート音声を選択して記録する処理である。ショート音声記録処理について、図5に示すフローチャートを参照して説明する。
ステップS301乃至ステップS304の処理は、ショート音声判定処理で抽出された複数のショート音声の各々に対して行われる。ステップS301において、制御部1は、ショート音声の終了時刻が記録されているか否かを判定する。記録されているとき、処理はステップS303に進む。一方、記録されていないとき、処理はステップS302に進む。ステップS302において、制御部1は、ショート音声の終了時刻を、当該ショート音声の抽出元である音声の終了時刻と同一とする。その後、処理はステップS303に進む。
ステップS303において、制御部1は、ショート音声の長さが所定の範囲内であるか否かを判定する。ここで、所定の範囲とは、例えば2〜5秒である。ショート音声の長さが所定の範囲内であるとき、処理はステップS304に進む。ステップS304において、制御部1は、当該ショート音声を記録する候補とする。その後、処理はステップS306に進む。
ステップS303において、ショート音声の長さが所定の範囲内でないとき、処理はステップS305に進む。ステップS305において、制御部1は、当該ショート音声を記録する候補としない。その後、処理はステップS306に進む。このようにして、所定の範囲内の長さを有するショート音声のみが、記録されるショート音声の候補とされる。したがって、極めて短い音声や、非常に長い音声は、ショート音声として記録されないことになる。また、撮像装置10の構えが正しくないときにもショート音声を記録する候補としないものとしてもよい。こうすることによって、撮像装置10が正しく構えられ、撮像装置10が所定の姿勢にあるときのみショート音声の候補とされることになる。
ステップS306において、制御部1は、記録候補となっている複数のショート音声の中から、記録するショート音声を選択する。記録するショート音声として、平均音量との音量差が大きいものが選択されてもよい。また、記録されるショート音声として、撮影者の声や被写体の声が優先的に選択されてもよい。また、ショート音声として、状況判定部1aにより判断された撮影状況に応じて選択されてもよい。例えば状況判定部1aが撮影状況を運動会と判断したとき、人の声の周波数帯域から抽出したショート音声が優先的に選択されてもよい。また、記録するショート音声として、例えば撮影画像が取得されたタイミングに近いショート音声が選択されてもよい。ただし、撮影画像の最良のタイミングと、音声の最良のタイミングとは必ずしも一致しないことに注意を要する。また、記録するショート音声は、ユーザによって選択されてもよい。ショート音声の選択の後、処理はステップS307に進む。
ステップS307において、記録するショート音声について音声の種類を特定する音声判定が可能であるか否かを判定する。ここで音声判定では、例えばショート音声の周波数、音色、音量、言葉等から、例えば、音声に含まれる言葉や、メロディの曲名や、波の音又は川のせせらぎ等といった音の種類や、運動会、宴会又は結婚式といった撮影の状況など、ショート音声に係る情報が取得される。音声判定が可能であるとき、処理はステップS308に進む。ステップS308において、制御部1は、ショート音声データと共に音声判定の結果に係る情報を、記録部8に記録する。この際、ショート音声データは、撮影画像データと関連付けられて記録される。その後、ショート音声記録処理は終了し、処理はカメラ制御処理に戻る。
ステップS307において、音声判定が可能でないと判定されたとき、処理はステップS309に進む。ステップS309において、制御部1は、ショート音声データを記録部8に記録する。この際、ショート音声データは、撮影画像データと関連付けられて記録される。その後、ショート音声記録処理は終了し、処理はカメラ制御処理に戻る。
図3に戻って説明を続ける。ステップS111のショート音声記録処理の後、処理はステップS112に進む。ステップS112において、制御部1は、ステップS108で記録された撮影画像データと、ステップS111で記録されたショート音声データとを関連付けて記録部8に記録する。例えば、撮影画像データに音声データを含ませたり、撮影画像データと音声データとの関係を別のファイルに記録したりする。その後、処理はステップS113に進む。
ステップS113において、撮影モードを終了するか否かを判定する。撮影モードを終了しないとき、処理はステップS102に戻る。一方、撮影モードを終了するとき、処理はステップS114に進む。ステップS114において、制御部1は、電源をオフにするか否かを判定する。例えば電源釦が押圧されたとき、電源をオフにする。電源をオフにしないとき、処理はステップS101に戻る。一方、電源をオフにするとき、制御部1は、撮像装置10の電源をOFFにし、カメラ制御処理を終了する。
ステップS101において、撮影モードが選択されていないと判定されたとき、処理はステップS115に進む。ステップS115において、制御部1は、撮影画像データを再生する再生モードであるか否かを判定する。再生モードでないとき、処理はステップS101に戻る。一方、再生モードであるとき、処理はステップS116に進む。ステップS116において、制御部1は、撮影画像データのサムネイル画像を表示部5aに一覧表示させる。
ステップS117において、制御部1は、ユーザによって画像が選択されたか否かを判定する。制御部1は、例えばタッチパネル11を用いて、ユーザがサムネイル画像上をタッチしたことを検出したとき、当該サムネイル画像に対応した画像が選択されたと判定する。画像が選択されなかったとき、処理はステップS118に進む。ステップS118おいて、制御部1は、再生モードを終了させるか否かを判定する。例えばサムネイルが選択されないまま所定時間が経過したとき、再生モードは終了させられる。再生モードを終了させるとき、処理はステップS101に戻る。一方、再生モードを終了しないとき、処理はステップS116に戻る。
ステップS117において、画像が選択されたと判定されたとき、処理はステップS119に進む。ステップS119において、制御部1は、ユーザにより選択されたサムネイル画像に対応する撮影画像データを記録部8から読み出して、撮影画像データに基づく画像を表示部5aに表示させる。
ステップS120において、制御部1は、表示部5aに表示されている撮影画像に対応する関連付け情報を読み出して、撮影画像にショート音声が関連付けられているか否かを判定する。ショート音声が関連付けられているとき、処理はステップS121に進む。ステップS121において、制御部1は、画像の表示と共に、記録部8に記録されているデータに基づいて、ショート音声が挿入されたBGMを再生する。その後、処理はステップS123に進む。なお、ショート音声に音声判定によって特定された曲名や音の種類や撮影の状況などの情報が含まれているとき、この情報が例えば表示部5aに表示される等、種々の方法のうち何れかの方法でユーザに提示されてもよい。
ステップS120において、ショート音声が関連付けられていないと判定されたとき、処理はステップS122に進む。ステップS122において、制御部1は、画像の表示と共に、記録部8に記録されているデータに基づいて、ショート音声が挿入されていないBGMを再生する。その後、処理はステップS123に進む。
ステップS123において、制御部1は、再生を終了するか否かを判定する。再生を終了しないとき、処理はステップS120に戻り、再生動作を継続する。一方、再生を終了するとき、処理はステップS115に戻る。
このように、本実施形態に係る撮像装置10は、撮影時の特徴的な音声をショート音声として抽出し、撮影画像と抽出されたショート音声とを関連付けて記録することができる。本実施形態では、ショート音声の抽出に際して、音の情報が周波数帯域毎に分解して解析されるので、周波数帯域毎に存在する特徴的な音声が容易に抽出され得る。ショート音声は、BGMに挿入される形式で再生されるので、視聴者に対して魅力的な演出が可能である。
近年、気軽なコミュニケーションに用いられる得る再生時間が短い画像コンテンツが好まれる傾向がある。本実施形態の撮像装置10では、好まれる傾向にある短い意味のある音声が選択的に抽出される。
また、撮影を行っているユーザは、画像に注目して撮影を行っているのが一般的である。ここで、最良な画像と最良な音声とは生じるタイミングが異なることがある。本実施形態によれば、撮像装置10によって最適な音声が選択的に抽出されるので、ユーザは画像に注力して音声に注力していなくても、最良なショート音声が取得され得る。
動画コンテンツの場合、例えば単純な繰り返し音がBGMとして挿入されることがある。ショート音声は、このような単純な繰り返し音であるBGMの間に挿し込まれ得る。この場合、例えばBGMの再生を一旦途切れさせて、その後にショート音声を再生し、さらにその後にBGMを再生することができる。このような再生方法は、ユーザの興味をひくものとなり得る。また、短いBGMの繰り返しによれば、途中で停止しても違和感はほとんどない。このため、様々な長さのコンテンツであり得る音声付画像において、長さの調整が容易に行われ得る。
なお、第1の実施形態では、画像を撮像し、また再生するデジタルカメラを例に挙げて説明した。しかしながら、これに限らず、本実施形態のコンテンツの再生には、撮影機能を持たない画像再生装置が用いられてもよい。この画像再生装置では、撮影画像データとBGMデータとショート音声データとを読込み、これらを組み合わせて本実施形態に係る音声付画像の再生を行う。なお、再生に用いられる撮影画像データとBGMデータとショート音声データとは、必ずしも当該画像再生装置に記録されている必要はなく、これらのうち一部又は全部が装置の外部に記録されていてもよい。画像再生装置は、装置の外部から読み込んだデータを用いて再生動作を行うことができる。ただし、撮影画像データとショート音声データとは、関連付けられている。画像再生装置は、例えば画像を4秒ごとに次々と切り替えながらスライドショーとして表示する。画像の表示時間が4秒であるとき、ショート音声は4秒以内であることが必要である。当該画像再生装置の動作は、基本的に図3を参照して説明した処理のステップS115乃至ステップS123と同様である。
[第2の実施形態]
第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態は、画像音声記録装置を備える撮像装置10を含む画像音声記録システム100に係るものである。図6は、画像音声記録システム100の構成の概略を示す図である。
画像音声記録システム100は、撮像装置10と、サーバ20と、携帯端末30とを有する。撮像装置10は、第1の実施形態に係る撮像装置10である。携帯端末30は、例えばスマートフォン等である。撮像装置10は、基地局210とインターネット200とを介して、サーバ20と通信可能である。同様に、携帯端末30は、基地局220とインターネット200とを介して、サーバ20と通信可能である。
本実施形態では、撮像装置10で取得された撮影画像データとショート音声データとが関連付けられてサーバ20に記録されており、例えば他のユーザは、携帯端末30を用いてサーバ20にアクセスすることで、撮影画像に基づいて、ショート音声を選択してダウンロードすることができる。
サーバ20は、記録部21と、アクセス判定部22とを有する。記録部21は、画像記録部21aと、ショート音声記録部21bとを有する。画像記録部21aは、画像データを記録している。画像データは、例えば運動会、宴会、又は結婚式といった撮影状況すなわちカテゴリ毎に分類されて記録されている。ショート音声記録部21bは、ショート音声と、ショート音声の特徴の情報とを記録する。ショート音声は、画像記録部21aに記録されている画像データに関連付けられている。
アクセス判定部22は、サーバ20にアクセスする端末を判定する。例えば撮像装置10によりアクセスされたとき、アクセス判定部22は、撮像装置10を認証し、撮像装置10のサーバ20へのアクセスを許可する。その結果、撮像装置10とサーバ20との間の通信が開始する。
画像音声記録システム100の動作の概要を説明する。撮像装置10は、撮影画像データと、撮影画像データに関連付けられたショート音声とショート音声の特徴の情報とを取得する。撮像装置10は、サーバ20にアクセスして、サーバ20にアクセスを許可されたときに、基地局220とインターネット200とを介して、撮影画像データとショート音声とショート音声の特徴の情報とをサーバ20へ送信する。
サーバ20は、撮影画像データとショート音声とショート音声の特徴の情報とを撮像装置10から受信し、これらデータを記録部21に記録する。このようにして、サーバ20には、撮影画像とショート音声とを収集したライブラリが作成される。
所望のショート音声を取得したいユーザは、携帯端末30を用いてサーバ20にアクセスする。例えば運動会というカテゴリの画像を読込むと、図7の上段に示すような画像の一覧が携帯端末30の表示部には表示される。ユーザは、このような画像を選択することで、図7の下段に模式的に示すようなショート音声を取得することができる。このようにして、携帯端末30のユーザは、画像に基づいて所望のショート音声を取得することができる。
上述した技術のうち、主にフローチャートで説明した制御に関しては、プログラムを用いて実現され得る。このプログラムは、記録媒体や記録部に収められ得る。この記録媒体又は記録部への記録の方法は様々であり、製品出荷時に記録されてもよく、配布された記録媒体が利用されて記録されてもよく、インターネットを介したダウンロードが利用されて記録されてもよい。
また、撮像装置10のような構成は、例えばスマートフォンやタブレットPCといった情報携帯端末にも適用され得る。情報携帯端末には、ウェアラブル端末も含まれる。また、コンシューマ用のカメラ等に限らず、監視カメラや、顕微鏡用のカメラや、検査用等の産業用機器や、各種医療用の観察装置にも適用され得る。
1…制御部、1a…状況判定部、1aa…顔判定部、1ab…音声判定部、1ac…位置判定部、1ad…時刻判定部、1b…構え判定部、1c…操作判定部、1d…ショート音声抽出部、1e…記録制御部、1f…顔検出回路、2…撮像部、2a…レンズ、2b…撮像素子、3…一時記憶部、4…集音部、5…再生部、5a…表示部、5b…音声再生部、6…加速度センサ、7…操作部、7a…レリーズ釦、8…記録部、8a…プログラムデータ、8b…BGMデータ、8c…撮影画像データ、8d…ショート音声データ、8e…関連付けデータ、9…位置検出部、10…撮像装置、11…タッチパネル、12…時計、20…サーバ、21…記録部、21a…画像記録部、21b…ショート音声記録部、22…アクセス判定部、30…携帯端末、100…画像音声記録システム、200…インターネット、210,220…基地局。

Claims (10)

  1. 撮影画像データを取得する撮像部と、
    前記撮影画像データを取得する際に音声データを取得する集音部と、
    前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出し、前記撮影画像データと前記ショート音声データとを関連付ける制御部と
    を備える画像音声記録装置。
  2. 前記制御部は、前記ショート音声データを、前記音声データが表す音量の変化に基づいて抽出する、請求項1に記載の画像音声記録装置。
  3. 前記制御部は、前記ショート音声データを、前記音声データが表す音を周波数成分に分解された音のデータから抽出する、請求項1に記載の画像音声記録装置。
  4. 前記制御部は、特定の時間ごとに音声を分類して平均的な音声を判定し、前記平均的な音声とは異なる突発的な音声を前記ショート音声データとして抽出する、請求項1に記載の画像音声記録装置。
  5. 前記制御部は、シーンを判定し、データベースに収められた音声情報のうち前記シーンに応じて選択された前記音声情報に合致した音声を前記ショート音声データとして抽出する、請求項1に記載の画像音声記録装置。
  6. 当該画像音声記録装置の姿勢を検出する姿勢検出部をさらに備え、
    前記制御部は、前記姿勢検出部の出力に基づいて当該画像音声記録装置が所定の姿勢にあると判定したときに、前記ショート音声データを抽出する、
    請求項1に記載の画像音声記録装置。
  7. BGMデータを記録する記録部と、
    音声を出力する音声再生部と、
    画像を表示する表示部と
    をさらに備え、
    前記制御部は、前記撮影画像データに基づく画像を前記表示部に表示させるとともに、前記BGMデータが表すBGMに前記ショート音声データが表すショート音声を挿入した音声を前記音声再生部に出力させる、
    請求項1に記載の画像音声記録装置。
  8. 前記所定の時間は、前記表示部に表示される前記画像の表示時間よりも短い、請求項7に記載の画像音声記録装置。
  9. 撮影画像データを取得することと、
    前記撮影画像データを取得する際に音声データを取得することと、
    前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、
    前記撮影画像データと前記ショート音声データとを関連付けることと
    を含む画像音声記録方法。
  10. 撮影画像データを取得することと、
    前記撮影画像データを取得する際に音声データを取得することと、
    前記音声データから所定の時間よりも短い特徴的な音を含むショート音声データを抽出することと、
    前記撮影画像データと前記ショート音声データとを関連付けることと
    をコンピュータに実行させるための画像音声記録プログラム。
JP2015005278A 2015-01-14 2015-01-14 画像音声記録装置、画像音声記録方法、画像音声記録プログラム Pending JP2016131329A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015005278A JP2016131329A (ja) 2015-01-14 2015-01-14 画像音声記録装置、画像音声記録方法、画像音声記録プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015005278A JP2016131329A (ja) 2015-01-14 2015-01-14 画像音声記録装置、画像音声記録方法、画像音声記録プログラム

Publications (1)

Publication Number Publication Date
JP2016131329A true JP2016131329A (ja) 2016-07-21

Family

ID=56414859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015005278A Pending JP2016131329A (ja) 2015-01-14 2015-01-14 画像音声記録装置、画像音声記録方法、画像音声記録プログラム

Country Status (1)

Country Link
JP (1) JP2016131329A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170980A (ja) * 2019-04-05 2020-10-15 富士通株式会社 映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170980A (ja) * 2019-04-05 2020-10-15 富士通株式会社 映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法
JP7191760B2 (ja) 2019-04-05 2022-12-19 富士通株式会社 映像情報出力装置、映像情報出力システム、映像情報出力プログラム及び映像情報出力方法

Similar Documents

Publication Publication Date Title
JP5474062B2 (ja) コンテンツ再生装置、コンテンツ再生方法、プログラム、及び集積回路
KR20170100007A (ko) 청취 로그 및 음악 라이브러리를 생성하기 위한 시스템 및 방법
US20160336039A1 (en) Systems and methods for creating music videos synchronized with an audio track
JP2011239141A (ja) 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
WO2016098430A1 (ja) 情報処理方法、映像処理装置及びプログラム
WO2018091856A1 (fr) Dispositif à casque audio, perfectionné
JP2007280486A (ja) 記録装置、再生装置、記録再生装置、記録方法、再生方法および記録再生方法並びに記録媒体
JP2007026133A (ja) 情報提供装置および情報提供方法
CN104618446A (zh) 一种实现多媒体推送的方法和装置
JP2007280485A (ja) 記録装置、再生装置、記録再生装置、記録方法、再生方法および記録再生方法並びに記録媒体
CN107994879A (zh) 响度控制方法及装置
JP6314837B2 (ja) 記憶制御装置、再生制御装置および記録媒体
US20230290382A1 (en) Method and apparatus for matching music with video, computer device, and storage medium
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP2006203860A (ja) 撮像装置、撮像方法、再生装置、再生方法、及びプログラム
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
CN110324702B (zh) 视频播放过程中的信息推送方法和装置
KR20140062917A (ko) 표정을 통해 인식된 감정에 기초한 소리 재생 시스템
JP2016131329A (ja) 画像音声記録装置、画像音声記録方法、画像音声記録プログラム
JP5310682B2 (ja) カラオケ装置
JP5550593B2 (ja) カラオケ装置
JP2010200079A (ja) 撮影制御装置
JP2009239349A (ja) 撮影装置
WO2016188304A1 (zh) 拍照的方法及装置
JP2014123085A (ja) カラオケにおいて歌唱に合わせて視聴者が行う身体動作等をより有効に演出し提供する装置、方法、およびプログラム