JP2008131168A - 音声データ編集装置、音声データ編集方法、音声データ編集プログラム - Google Patents

音声データ編集装置、音声データ編集方法、音声データ編集プログラム Download PDF

Info

Publication number
JP2008131168A
JP2008131168A JP2006311579A JP2006311579A JP2008131168A JP 2008131168 A JP2008131168 A JP 2008131168A JP 2006311579 A JP2006311579 A JP 2006311579A JP 2006311579 A JP2006311579 A JP 2006311579A JP 2008131168 A JP2008131168 A JP 2008131168A
Authority
JP
Japan
Prior art keywords
editing
audio data
sound
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006311579A
Other languages
English (en)
Inventor
Tomohisa Ishikawa
智久 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2006311579A priority Critical patent/JP2008131168A/ja
Publication of JP2008131168A publication Critical patent/JP2008131168A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことを可能とする。
【解決手段】動画撮影時に複数チャンネル分の音声を画像と共に記録し、その間、タッチパネルを有するモニタ画面に表示中の画像上で、編集候補とする音の発生位置(被写体部分)を予め複数指定させる。指定位置と記録中の複数チャンネル分の音声信号とに基づき編集候補とする音を特定する音源特定情報を取得し、位置情報と共に記憶する。動画再生時には、編集候補の音の発生位置を示すマークM2を画像上に表示し、所望する発生位置をユーザーに指定させる。指定された位置を発生位置とする音声成分を対象として再生中の動画データと関連付けて記録されている音声データを編集し、編集後の新たな音声データを再生中の動画データと関連付け双方のデータを新たな動画ファイルとして記録する。
【選択図】 図8

Description

本発明は、画像データと共に記録された音声等を編集するための音声データ編集装置、音声データ編集方法、音声データ編集プログラムに関するものである。
従来より監視カメラ等の技術において、単一指向性マイクを複数備えることにより、音源位置を自動的に特定し、その音源を含む画像を撮像する方法が考えられている。
また、下記特許文献1には、ビデオカメラ等での撮影時に、ユーザーに画面上で集音位置を指定させることによって、画面上の任意の被写体部分が発生源となっている音声を明瞭に記録することを容易にする技術が記載されている。
特開2005−159731号公報
しかしながら、上記の技術を用いたとしても、例えば既に記録されている音声については、任意の被写体が発生源となっている音声を強調したり目立たなくさせたりする、つまり編集することができない。また、編集対象となる音声の発生源が録音時に指定できたとしても、その指定を行う時点においては、編集対象となる音声がその既に発生している場合も多く、その場合には、発生源が指定された時点より前の録音部分については、対象となる音声の編集を行うことができないといった問題があった。
本発明は、かかる従来の課題に鑑みてなされたものであり、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能となる音声データ編集装置、音声データ編集方法、音声データ編集プログラムを提供することを目的とする。
前記課題を解決するため請求項1の発明にあっては、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けて記憶する記憶手段と、この記憶手段に記憶されている前記画像データに基づく画像を表示する表示手段と、この表示手段に表示されている表示画像において特定の位置の指示を検出する検出手段と、前記記憶手段に記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段と、 この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力する音声出力手段とを備えたことを特徴とする。
また、請求項2の発明にあっては、前記請求項1記載の発明において、前記記憶手段は、前記音声データの音声成分を特定する音源情報を前記音声データと関連付けて更に記憶し、 前記検出手段により検出された位置に対応する前記音源情報を前記記憶手段から読み出す読出手段を更に備え、前記編集手段は、前記音源情報取得手段により取得された音源情報に基づいて前記音声データを編集することを特徴とする。
また、請求項3の発明にあっては、前記請求項2記載の発明において、前記画像データの取得に際し集音される音声データは、前記撮影画角を基準として設置された複数のマイクロフォンにより個別に集音されると共に、前記音源情報はこれら複数のマイクロフォンにより個別に集音された音声データにおいて、最も集音レベルが高い周波数帯域であることを特徴とする。
また、請求項4の発明にあっては、前記請求項1乃至3の何れか記載の発明において、前記編集手段は、前記検出手段によって検出された位置を発生位置とする音声データを編集する際、所定時間遡って前記音声データを編集することを特徴とする。
また、請求項5の発明にあっては、前記請求項1乃至4の何れか記載の発明において、前記表示手段に前記記憶手段に記憶されている音声データの発生位置を示すマークを前記画像に重ねて表示させる表示制御手段を更に備えたことを特徴とする。
また、請求項6の発明にあっては、前記請求項1乃至5の何れか記載の発明において、前記記憶手段は、前記音声データを複数チャンネル分記憶し、前記編集手段は、前記検出手段によって検出された位置に基づいて、前記複数チャンネルの音声データから新たな音声データを生成することを特徴とする。
また、請求項7の発明にあっては、前記請求項1乃至6の何れか記載の発明において、前記撮影画角を撮像する撮像手段と、前記撮影画角を基準とした位置に設けられた複数のマイクロフォンとを更に備え、前記記憶手段は、前記撮像手段により撮像された撮像画角の画像データと、前記複数のマイクロフォンを用いて集音された音声データとを関連付けて記憶することを特徴とする。
また、請求項8の発明にあっては、前記請求項1乃至7の何れか記載の発明において、前記編集手段によって編集された音声データを、前記画像データに関連付けて前記記憶手段に記憶させる記憶制御手段をさらに備えたことを特徴とする。
また、前記課題を解決するため請求項9の発明にあっては、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶ステップと、この記憶ステップにて前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力ステップと、この表示出力ステップにて表示されている表示画像において特定の位置の指示を検出する検出ステップと、前記メモリに記憶され、且つ、前記検出ステップにて検出された位置を発生位置とする音声データを編集する編集ステップと、この編集ステップにて編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力ステップとからなることを特徴とする。
また、前記課題を解決するため請求項10の発明にあっては、コンピュータを、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶手段、 この記憶手段によって前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力手段、この表示出力手段によって表示されている表示画像において特定の位置の指示を検出する検出手段、前記メモリに記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段、この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力手段として機能させることを特徴とする。
本発明によれば、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能となる。
(実施形態1)
以下、本発明の実施の形態を図にしたがって説明する。図1は、第1の実施形態に係るデジタルカメラ1の外観を示す図であり、同図(a)は正面図、同図(b)は背面図である。
このデジタルカメラ1は、静止画撮影機能に加え、音声付き動画撮影機能を有したものであり、本体正面側に位置する撮影レンズ2の上下左右には、撮影画角を基準として撮影時に周囲の音声を集音する各々が優れた指向性を有する4チャンネル分のマイクロフォン3U,3D,3L,3Rが配置され、図示しない本体内部には後述するスピーカ23が設けられている。なお、前記撮影レンズ2はズーム機能を有しており、複数枚のレンズ群により焦点距離の変更が可能な構成となっている。
また、本体上部にはシャッターキー4が配置される一方、背面側には液晶モニタ(LCD)5が配置されており、液晶モニタ5表面には透明なタッチパネル6が設けられている。液晶モニタ5の側部には各種の操作キー、すなわちデジタルカメラ1の基本動作モードである記録(REC)モード及び再生(PLAY)モードの設定にそれぞれ使用されるRECキー71及びPLAYキー72と、ズームアップ操作及びズームダウン操作に使用されるズームキー73、上記基本動作モードの下位における各種の動作モードの設定や、種々の動作内容の設定及び変更等に使用される方向キー74、セットキー75が配置されている。
図2は、前記デジタルカメラ1の電気的構成の概略を示すブロック図である。デジタルカメラ1は撮像手段としてCCD9を備えている。CCD9は、前記撮影レンズ2、絞り8を通過して結像された被写体の光学像を光電変換し撮像信号としてCDS/AGC回路10へ出力する。CDS/AGC回路10に入力した撮像信号は、そこで固定パターンノイズを除去されるとともに、ゲイン調整を行われて信号処理部11へ出力される。
ゲイン調整後の撮像信号は、信号処理部11においてホワイトバランス調整やカラーバランス調整、輪郭強調等の各種の信号処理を施されるとともに、カラー補間によって画素毎にRGB色差成分毎の階調値を持つデジタル画像データ(RGBデータ)に変換された後、フレームメモリ12に順次格納される。
フレームメモリ12に格納された1フレーム分の画像データは、画素数調整部13において所定の画素数(画像サイズ)に変換される。変換後の画像データは液晶ドライバ17へ送られてビデオ信号に変換されるとともに、前記液晶モニタ5においてスルー画像として画面表示される。なお、フレームメモリ12には、複数フレーム分の画像データを記憶可能なメモリ容量が確保されており、また、後述する音声編集処理に際しては作業用メモリとして使用される。
また、フレームメモリ12に格納された1フレーム分の画像データは、静止画撮影時、すなわち記録モードの下位モードである静止画撮影モードにおいて前記シャッターキー4が押された時には、MPEGコーデック16においてJPEG方式により圧縮符号化され、最終的には静止画データ(静止画ファイル)としてメモリ15に記録される。さらに、記録モードの下位モードである動画撮影モードでの動画撮影時には、MPEGコーデック16においてMPEG形式の動画データ(フレームデータ)として順次圧縮符号化され、最終的には動画ファイルとして、本発明の記憶手段であるメモリ15に記録される。
メモリ15に記録された静止画データや動画データは、再生モードで必要に応じて読み出され、MPEGコーデック16において伸張され、前記フレームメモリ12に展開される。その後、液晶ドライバ17へ送られ、ビデオ信号に変換された後、前記液晶モニタ5において静止画像や動画像として表示(再生)される。
一方、前記マイクロフォン3U,3D,3L,3Rはアンプ18U,18D,18L,18Rにそれぞれ接続されている。動画撮影時にマイクロフォン3U,3D,3L,3Rに入力した音声等の信号は、アンプ18U,18D,18L,18Rによってそれぞれ増幅され、A/D変換器19U,19D,19L,19Rにおいてデジタル信号に変換され、音声データとして個別に(図2では省略)音声コーデック20及び音源判別処理部24に送られる。
音声コーデック20へ送られた各チャンネルの音声データは、そこでモノラルの音声データに合成された状態で圧縮符号化された後、圧縮符号化後の動画データと共に動画ファイルとしてメモリ15に記録される。メモリ15に記録された音声データは、動画再生時に順次読み出されて音声コーデック20により伸張される。伸張後の音声データはD/A変換器21によりアナログの音声信号に変換され、アンプ22によって増幅された後、本体内に内蔵されたスピーカ23により音声として出力される。
また、音源判別処理部24は、制御部14の命令に従い、ユーザーに指定された画角内の特定位置に相当する場所に最も近いマイクロフォンつまり音声チャンネルを判別し、判別した結果をチャンネル情報としてを制御部14へ送る。
前記メモリ15は、必要に応じて記憶データが書き換え可能な不揮発性メモリであり、例えば各種のメモリカード等により構成される。メモリ15の内部には、図3に示すように、前述した静止画ファイルや動画ファイルが記録されるファイル格納領域152が確保されるとともに、動画撮影に際して取得された後述する複数のデータから構成される音声位置記録テーブル151が記録されている。
図4は、上記音声位置記録テーブル151の構成を示した概念図である。この音声位置記録テーブル151は、動画撮影に際してメモリ15のファイル格納領域152に記録された動画像のファイル名151aと、指定時間151b、位置情報151c、周波数帯域及び音量からなる2種類の音源情報151d,151e、編集フラグ151fの各データから構成される。
一方、図2に示したキー操作部7は、前述したシャッターキー4等の各種の操作キーにより構成され、使用者によるキー操作に応じたキー入力信号を制御部14へ送る。
以上の各ブロックは制御部14によって制御されている。制御部14は主としてCPU、及びその周辺回路、ROM、RAMから構成されており、ROM内には制御部14が各ブロックの制御に必要とする各種のプログラムや設定データが格納されている。そして、制御部14は、上記プログラムに基づき前記タッチパネル6による指示位置を検出するとともに、キー操作部7から送られるキー入力信号に応じて動作することにより、タッチパネル6と共に本発明の取得手段として機能するとともに、本発明の編集手段、記憶制御手段、音源情報取得手段、表示制御手段として機能する。
以下、上述したデジタルカメラ1の本発明に係る動作について説明する。本実施形態においてデジタルカメラ1は、動画撮影中に、撮影画角において音声等を発している任意の被写体部分をスルー画像上で予めユーザーに指定させ、その情報を記録しておく一方、撮影後には、ユーザーの要求に応じて動画像と共に記録されている音声に含まれる前記被写体部分を音源とする音声等を編集する。
図5は動画撮影モードにおける主として制御部14の処理手順を示すフローチャートである。まず、同図に従い動画撮影時の動作について説明する。
制御部14は、動画撮影モードの設定とともに記録スタンバイ状態となり、シャッターキーの1度目の押下による記録開始指示の検出に伴い(ステップSA1でYES)、所定のフレームレートによる映像取り込み処理(画像データの圧縮符号化処理)、及び音声取り込み処理(音声データの圧縮符号化処理)、つまりメモリ15への音声付き動画像の記録処理を開始する(ステップSA2)。以後、シャッターキーの2度目の押下、又はメモリ15のファイル格納領域152の記憶領域の残量不足による記録終了が検出できるまで(ステップSA1でYES)、動画像の記録処理を継続する。
そして、動画像の記録処理中においては、ユーザーによるタッチパネル6での位置指定の有無を逐次検出し、いずれかの位置つまり任意の被写体部分が指定されたら(ステップSA3でYES)、まず、動画像の記録を開始してからの時間を取得する(ステップSA4)。次に、タッチパネル6で指定された位置の表示画面上での座標位置を取得した後(ステップSA5)、取得した座標位置を前記音源判別処理部24に送り、音源判別処理部24に、前述した各マイクロフォン3U,3D,3L,3Rの表示画面上における位置を上下左右の各辺の中央としたとき前記座標位置と最も近いマイクロフォンを判定させ、そのチャンネルの情報を取得する(ステップSA6)。
次に、音源判別処理部24によって取得したチャンネルの音声データについて音量(音圧レベル)が相対的に最も高い周波数を確認し、その周波数と音量とをユーザーに指定された被写体部分を発生位置とする音声成分を示す情報であって、後述する音声編集処理で使用される音源情報として取得する(ステップSA7)。しかる後、上述した処理で取得した各情報を前記音源位置記録テーブル151(図4)に記録する(ステップSA8)。その後、動画像の記録終了を検出するまでの間においては(ステップSA9でNO)、ユーザーにより新たな位置指定があれば、それに応じて前述したステップSA4〜SA8までの処理を繰り返すことにより、音源位置記録テーブル151にレコードを追加して指定時間151b、位置情報151c、2種類の音源情報151d,151e、編集フラグ151fの各データを記録する。
やがて、動画像の記録終了を検出したら、それまでメモリ15に記録していた圧縮符号化されている画像データ及び音声データに、ファイル名や撮影日時等の所定のヘッダ情報を付加することにより、動画ファイルとして完成させる(ステップSA10)。そして、今回の動画記録に際して音源位置記録テーブル151に新たなレコードを追加していた場合には(ステップSA11でYES)、音源位置記録テーブル151に追加した1又は複数のレコードに、記録した動画ファイルのファイル名を記録した後(ステップSA12)、今回の記録処理を終了する。また、音源位置記録テーブル151に新たにデータを記録していない場合には(ステップSA11でNO)、そのまま今回の記録処理を終了する。
次に、動画再生時の動作について説明する。図6は、再生モードでの動画再生時における制御部14の処理手順を示したフローチャートである。なお、ここでは、ユーザーがメモリ15に記録されているいずれかの動画像を再生するものとして説明する。
図6に示したように、制御部14は再生モードの設定とともに再生スタンバイ状態となり、ユーザーにより再生対象として任意の動画ファイルが選択され、それを検出すると(ステップSB1でYES)、まず、選択された動画ファイルのファイル名をキーとして前述した音源位置記録テーブル151のデータを検索する(ステップSB2)。なお、この時には編集フラグ151fがセット状態(「1」)となっているデータは除外する。
ここで、選択された動画ファイルについてのデータ(以下、音源特定データという。)が音源位置記録テーブル151に存在していない場合には(ステップSB3でNO)、当該動画像の先頭フレームの画像を液晶モニタ5に表示する(ステップSB4)。次に、再生指示待ちを行うとともに、ユーザーによる再生指示を検出した時点で(ステップSB5でYES)、通常の動画再生処理を開始する(ステップSB6)。そして、再生処理が終了した時点で再生スタンバイ状態へ戻る。
一方、前記音源特定データが音源位置記録テーブル151に存在する場合には(ステップSB3でYES)、例えば図8(a)に示したように、当該動画像の先頭フレームの画像を液晶モニタ5に表示すると同時に、音源位置が記録されている旨を明示するメッセージM1を上記表示画像に重ねて表示する(ステップSB7)。
次に、再生指示待ちを行うとともに、再生指示を検出したら(ステップSB8でYES)、動画像の再生、及び再生時間(再生後の経過時間)と、当該動画像に関し音源位置記録テーブル151における指定時間151bとの照合処理を開始する(ステップSB9)。以後、再生時間が指定時間151bよりも所定時間前の時間となるまでは動画像を再生表示のみを行い、やがて所定時間前となったら(ステップSB10でYES)、音源位置記録テーブル151の位置情報151cによって示される画面内の位置に、例えば図8(b)に示したように、再生中の動画像に重ねて、それを撮影していた間にユーザーに指定されていた位置、つまり特定の音源の位置を示す位置情報マークM2を表示し、同時に再生時間が指定時間データ151bに達するまでの時間を知らせるカウントダウンメッセージM3と、編集の開始を促すガイダンスM4とを所定位置にそれぞれ表示する(ステップSB11)。
以後、前記再生時間が指定時間151bに達するまで(ステップSB13でNO)、セットキーの操作による編集開始指示の有無を逐次確認しながら(ステップSB12)、前記カウントダウンメッセージM3を逐次更新する。また、その間に、編集開始指示がないまま、前記再生時間が指定時間151bとなったら(ステップSB12がNO、ステップSB13でYES)、前記ガイダンスM4を表示したまま、その時点で、カウントダウンメッセージM3を消して、音源の位置を示す位置情報マークM2の色を変更する(ステップSB14)。図8(b)〜同図(d)がその間の画面変化を示した図である。また、位置情報マークM2の色を変更した後には、動画像の再生が終了するまでの間(ステップSB16でNO)、編集開始指示の有無のみを逐次確認する(ステップSB15)。そして、編集開始指示が無いまま動画像の再生が終了した場合には(ステップSB16)、そのまま再生スタンバイ状態へ戻る。
なお、図6には省略したが、現在再生中の動画像(動画ファイル)の音源特定データが音源位置記録テーブル151に複数存在している場合には、各々の音源特定データについて前述したステップSB9〜SB11,SB13,SB14の処理を繰り返し行う。
一方、前記再生時間が指定時間151bとなる以前(カウントダウンメッセージM3の表示中)又は指定時間151bとなった後に、編集開始指示を検出した場合には(ステップSB12、又はステップSB15がYES)、その時点で動画像の再生を停止し(ステップSB17)、音声編集処理へ移行する(ステップSB18)。
図7は、音声編集処理の処理手順を示したフローチャートである。係る処理においては、タッチパネル6からの位置情報の入力が検出できか否か、つまりユーザーによって表示画面上のいずれかの位置が指定されたか否かを検出する(ステップSB101)。ここで、位置情報の入力が検出できなければ(ステップSB101でNO)、直ちに図6のメインフローへ戻り、所定のキー操作による編集終了指示の有無を確認し、編集終了指示があれば(ステップSB19でYES)、その時点で再生スタンバイ状態へ戻る。また、編集終了指示がなければ(ステップSB19でNO)、音声編集処理へ移行する(ステップSB18)。
一方、音声編集処理へ移行した後、タッチパネル6からの位置情報の入力を検出したら(ステップSB101でYES)、入力された位置情報と、音源位置記録テーブル151に格納されている位置情報151cとを照合する(ステップSB102)。ここで、入力された位置情報と対応する位置情報151cが存在しない場合、つまり撮影時に音源としては指定されていなかった被写体部分がユーザーにより指定された場合には(ステップSB103でNO)、その旨をユーザーに知らせるためのエラー表示を行った後(ステップSB104)、図6のメインフローへ戻り、所定のキー操作による編集終了指示の有無を確認する。
また、入力された位置情報と対応する位置情報151cが存在する場合、つまり図8(b)〜(d)に示したような位置情報マークM2の表示部分や、その時点で位置情報マークM2が表示されていなくとも、撮影時に音源としては指定されていた被写体部分がユーザーにより指定された場合には(ステップSB103でYES)、動画ファイルから音声データ部分をのみを読み出して音声コーデック20によってデコードし、デコードした音声データを前記フレームメモリ12に一時的に格納する(ステップSB105)。
次に、音源位置記録テーブル151から周波数帯域151dを読み出し(ステップSB106)、前記指定時間151bに基づいて、音声データの対応する周波数帯部分を遡って編集する(ステップSB107)。すなわちフレームメモリ12に格納されている音声データにおける、前記指定時間151bよりも所定時間(例えば数秒ないし数十秒)だけ遡った時間位置以降の部分について、読み出した周波数帯域151dにより示される特定の周波数帯部分を加工し新たな音声データを生成する。加工(編集)内容については、この時点でユーザーに選択させたり、ユーザーに予め選択させておいた内容であり、例えば前記特定の周波数帯域の音圧レベルの低減や増大である。
引き続き、上記編集が終了した後には、ユーザーによる所定のキー操作待ちの状態となり、所定のキー操作による再生指示、保存指示、キャンセル指示の有無をそれぞれ確認する(ステップSB108,SB110,SB113)。そして、再生指示を検出したら(ステップSB108でYES)、動画ファイルの動画データ部分のデコードをMPEGコーデック16に開始させるとともに、編集後の音声データとデコード後の動画データとをタイミングを合わせて再生する(ステップSB109)。つまり前述したステップSB107の編集結果が反映された状態の動画像を再生する。
また、係る再生動作の終了後に所定のキー操作による保存指示を検出した場合(ステップSB110でYES)、及び再生動作を行うことなく直ちに保存指示を検出した場合には(ステップSB108でNO、ステップSB110でYES)、音源位置記録テーブル151の編集フラグ151fをセット状態(「1」)とした後(ステップSB111)、編集後の音声データを音声コーデック20によってエンコードするとともに、元の動画データと共に新たな動画ファイルとしてメモリ15に記録する(ステップSB112)。これにより、音声編集処理をいったん終了して図6のメインフローへ戻る。所定のキー操作による編集終了指示の有無を確認する。
また、ステップSB109の再生動作の有無に関係なく、保存指示でなくキャンセル指示を検出した場合には(ステップSB113でYES)、その時点で音声編集処理をいったん終了して図6のメインフローへ戻る。
以上のように本実施形態においては、動画撮影中に、音声等を発している任意の被写体部分をスルー画像上で予めユーザーに指定させ、被写体部分を発生位置とする音声を特定する周波数帯域151dを記録しておく一方、動画撮影後には、予め指定しておいた複数の被写体部分の中から所望の被写体部分を選択させ、それに対応する周波数帯域の音声成分を適宜編集するようにした。よって、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能である。
また、動画再生時に前述した音声編集処理を行うことにより、ユーザーに指定された被写体部分を音源とする音声を、ユーザーが被写体部分を指定した時点より前の録音部分についても編集することができる。さらに、撮影時に記録された動画ファイルを保存しておけば、異なる被写体部分を発生位置とした音声成分を対象とした編集作業を必要に応じていつでも行うことができる。
また、本実施形態では、前述したステップSB107において、デコード後の音声データのうち、前記指定時間151bよりも所定時間(例えば数秒ないし数十秒)だけ遡った時間位置以降の部分の音声データを対象として特定の周波数帯部分を加工するようにしたことから、音声データの加工処理を必要最小限とすることができる。したがって、ユーザーが被写体部分を指定した時点より前の録音部分を含む効率的な編集が可能となる。なお、本実施形態とは異なり、デコード後の全フレーム分の音声データを対象として特定の周波数帯部分を加工するようにしても構わない。
また、動画再生時には、再生中の動画上に表示する位置情報マークM2によって、編集対象として選択可能な音声の発生位置となる被写体部分をユーザーに知らせることができるため、ユーザーによる編集作業が容易となる。
また、前述したステップSB107において特定の周波数帯部分を加工するとき、例えばその加工内容が特定の周波数帯域の音圧レベルの低減である場合、つまりユーザーに指定された被写体部分を音源とする音声の音圧レベルの低減である場合においては、予め全フレーム分の音声データについて特定の周波数帯域のレベルが最も高くなるフレームが存在するか否かを確認し、係るフレームが存在するときには、所定のエラー表示をして加工を中止するとよい。それにより、例えば特定の周波数帯域が車のエンジン音の相当しており、かつエンジン音が非常に大きなフレームが存在しており、その音圧レベルの低減させてしまうと、そのフレーム等がほぼ無音状態となってしまう場合に、無音に近い状態のフレームをなくすことができる。
なお、本実施形態においては、動画撮影時に制御部14の命令に従い、ユーザーに指定された画角内の特定位置に相当する場所に最も近いマイクロフォンつまり音声チャンネルを判別する音源判別処理部24を設けられた構成を示したが、音源判別処理部24を廃止し、上記判別を例えば制御部14に行わせるようにしても構わない。
また、動画撮影時に周囲の音声を集音するために4チャンネル分のマイクロフォン3U,3D,3L,3Rを設けたものについて説明したが、マイクロフォンの数は複数であればよい。例えば撮影レンズ2の光軸を中心として右側に指向性を有するものと左側に指向性を有するものとの2チャンネル分でもよく、さらに、4チャンネルを超えるチャンネル分を設けてもよい。なお、マイクロフォン数(音声チャンネル数)が多い方が、ユーザーに指定された被写体部分を音源とする音声成分を高精度で編集することができる。
その場合、本実施形態においては、被写体部分を発生位置とする音声(編集候補となる音声)を特定する周波数帯域151dを動画撮影中に予め取得して記録しておくため、動画ファイルとして記録する音声データは必要最小限でよい。したがって、動画ファイルの記録サイズを増大させることなく、被写体部分を音源とする音声成分を高精度で編集することができる。
また、声チャンネル数を増やす場合には、各々が独立した複数のマイクロフォンではなく、異なる指向性を有する多数のマイクロフォンがモジュール化されたものを用いるようにしてもよい。その場合、音波を光学的に検出する公知の各種音響センサ等を用いても構わない。その場合、筐体内におけるマイクロフォンの設置スペースを節約することができる。
(実施形態2)
次に、本発明の第2の実施形態について説明する。本実施形態は、音声付き動画撮影機能を有したデジタルカメラにおいて、第1の実施形態と異なり、通常の音声付き動画撮影機能により既に記録されている動画像の再生時に、任意の被写体部分を発生位置とする音声の音圧レベルを必要に応じて低減するものである。
すなわち本実施の形態におけるデジタルカメラ101は、図2において説明した構成を基本とするとともに、図9に示したように前述した音源判別処理部24に代えて音声減衰部51が設けられ、さらに音声の入力系統が左右2チャンネルのみとなっている。
前記音声減衰部51は、動画像の再生時に音声コーデック20によりデコードされるデジタルの音声信号の右チャンネル側を所定時間だけ遅延させる右チャンネル用遅延回路52Rと、左チャンネル側を所定時間だけ遅延させる左チャンネル用遅延回路52Lと、遅延後の左右の音声信号が入力するとともに、遅延により同相化された左右の音声信号に含まれる特定の音声成分を減算してモノラルの音声信号として出力する減算回路53とから構成されている。
また、前記右チャンネル用遅延回路52Rと前記左チャンネル用遅延回路52Lとにおける音声信号の遅延時間は制御部14によって制御されるよう構成されており、本実施形態においては、制御部14と音声減衰部51とによって本発明の編集手段が実現されている。なお、これ以外の図9に示した部分の構成については図2に示したものと同一であるため、同一部分に同一符号を付すことにより説明を省略する。
図10は、再生モードでの動画再生時における制御部14の処理手順を示したフローチャートである。なお、ここでも、ユーザーがメモリ15に記録されているいずれかの動画像を再生するものとして説明する。
すなわち本実施形態においても制御部14は再生モードの設定とともに再生スタンバイ状態となり、ユーザーにより再生対象として任意の動画ファイルが選択されたか否かを逐次確認し、いずれかの動画ファイルが選択されたことが検出できたら(ステップSC1でYES)、選択された動画ファイルをメモリ15から読み出し、MPEGコーデック16及び音声コーデック20に動画データ及び音声データのデーコードを開始させ、通常の動画再生処理を開始する(ステップSC2)。
以後、動画再生が終了するまでの間には(ステップSC3でNO)、タッチパネル6からの位置情報の入力の有無を逐次検出する(ステップSC4)。そして、位置情報の入力を検出する以前に動画再生が終了したときには(ステップSC3でYES)、その時点で、全ての処理を終了する。つまり、通常の動画再生を行う。
一方、動画再生中に、タッチパネル6からの位置情報の入力を検出したら、つまりユーザーによって表示画面上のいずれかの位置つまり任意の被写体部分が指定されたら(ステップSC4でYES)、引き続き、再生中の動画像に対して以下の編集処理を行う。
まず、タッチパネル6で指定された位置の表示画面上での座標位置を取得した後(ステップSC5)、その座標位置に、ユーザーに指定位置を確認させるための所定のマーカーを再生中の動画像に重ねて表示する(ステップSC6)。なお、ここで表示するマーカーの形態は任意であり、例えば第1の実施形態で図8に示した位置情報マークM2と同様のものが使用できる。
次に、上記の指定位置に対応する音声の減衰方向を演算し(ステップSC7)、さらに演算した減衰方向に基づき、左右の各チャンネルの音声信号の遅延量を演算し、その演算結果を一時記憶する(ステップSC8)。
そして、その時点で動画像の再生を停止した後(ステップSC9)、動画ファイルから音声データ部分をのみを読み出して音声コーデック20によってデコードし、デコードした音声データを前記フレームメモリ12に一時的に格納し(ステップSC10)、さらに前述した右チャンネル用遅延回路52Rと左チャンネル用遅延回路52Lとに、各チャンネルの音声信号の遅延時間としてステップSC8で記憶しておいた遅延時間をそれぞれ設定する(ステップSC11)。
しかる後、デコード後の全期間分の音声信号を対象として、前記音声減衰部51に、左右チャンネルの音声信号の遅延、及び遅延された左右チャンネルの音声信号同士の減算処理を行わせる(ステップSC12)。つまり、音声信号に含まれる指向性を有する音声成分のうちで、ユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分の音圧レベルを低減させる。
引き続き、係る処理が終了した後には、ユーザーによる所定のキー操作待ちの状態となり、ここでキー操作に応じて再生指示を検出した場合には(ステップSC13でYES)、動画ファイルの動画データ部分のデコードをMPEGコーデック16に開始させるとともに、上述した合成後の音声データ、すなわちユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分が低減されたモノラルの音声データとデコード後の動画データとをタイミングを合わせて再生する(ステップSC14)。つまりステップSC12の処理が反映された状態の動画像を再生する。
そして、上記動画像の再生後、また前述した再生指示がなかった場合には直ちにユーザーによる保存指示又はキャンセル指示のキー操作待ちの状態となり、ここで保存指示を検出した場合には(ステップSC15で「保存」)、合成後の音声データを音声コーデック20によってエンコードするとともに、合成後の音声データを元の動画データと共に新たな動画ファイルとしてメモリ15に記録して(ステップSC16)、処理を終了する。また、キャンセル指示を検出した場合には(ステップSC15で「保存」)、そのまま処理を終了する。
以上のように本実施形態においては、既に記録されている動画像の再生時に、ユーザーが、画面上で任意の被写体部分を指定すれば、指定された被写体部分を発生位置とする音声のレベルを必要に応じて低減することができる。すなわち撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能である。
また、撮影時に記録された動画ファイルを保存しておけば、異なる被写体部分を発生位置とした音声成分を対象とした編集作業を必要に応じて行うことができる。
しかも、動画再生時においてユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分を低減することにより、第1の実施形態と同様、ユーザーに指定された被写体部分を音源とする音声を、ユーザーが被写体部分を指定した時点より前の録音部分についても編集することができる。
また、前述した第1の実施形態で説明したものにと比べると、動画撮影中において、被写体部分を発生位置とする音声(編集候補となる音声)を特定する音源情報(周波数帯域151d等)を予め取得して記録しておく必要がないため、再生時には、任意の被写体部分を発生位置とする音声を対象とする編集が可能である点において有利である。また、動画ファイルとして記録する音声データは最低限2チャンネルあればよい。したがって、一般的構成を有する他のデジタルカメラ等によって記録された動画ファィルにも対応することができる。
なお、本実施形態においては、音声編集時には、音声減衰部51によって左右の音声信号を所定時間だけ遅延させ、遅延後の左右の音声信号の一方から他方を減算してモノラルの音声信号を生成する構成としたが、音声減衰部51を廃止し、上記処理を例えば制御部14に行わせるようにしても構わない。
また、動画撮影時に周囲の音声を集音するマイクロフォンが左右2チャンネル分のみ設けられ、再生時における音声の編集処理に際しては2チャンネル分の左右チャンネルの音声信号の遅延、及び遅延された左右チャンネルの音声信号同士の減算処理を行うものについて説明したが、マイクロフォンの数(編集処理に際して使用される音声チャンネル数)は、これに限らず、第1の実施形態のように上下左右の4チャンネル分としたり、さらにそれ以上の数としてもよい。なお、マイクロフォン数(音声チャンネル数)が多い方が、ユーザーに指定された被写体部分を音源とする音声成分を高精度で編集することができる。
また、以上説明した第1及び第2の実施形態では、動画撮影時に動画像と共に記録された音声に対して、画像内に発生位置が存在する特定の音を対象とした編集を行う場合について述べたが、編集対象の音声は動画像に限らず、例えば音声付き静止画撮影機能を有する構成であれば、静止画像の撮影時に記録された音声であっても構わない。
また、ここでは本発明を音声付き動画撮影機能を有したデジタルカメラ1,101に適用する場合について説明したが、これ以外にも、本発明は動画像や静止画像の撮影時に音声を記録することができるデジタルビデオカメラやカメラ付き携帯電話端末等の他の装置にも適用可能である。さらに、撮影時に画像と共に記録された音声を撮影された画像と共に再生することができる構成であれば、撮影機能を有していない装置、パーソナルコンピュータ等においても本発明を実現することができる。
第1の実施形態を示すデジタルカメラの正面及び背面を示す図である。 同デジタルカメラの電気的構成の概略を示すブロック図である。 メモリ内の記憶領域を示す概念図である。 音声位置記録テーブルの構成を示す概念図である。 動画撮影モードにおける制御部の処理手順を示すフローチャートである。 再生モードでの動画再生時における制御部の処理手順を示すフローチャートである。 制御部による音声編集処理を示すフローチャートである。 再生モードにおける表示画面の遷移図である。 第2の実施形態を示すデジタルカメラの電気的構成の要部を示すブロック図である。 再生モードでの動画再生時における制御部の処理手順を示すフローチャートである。
符号の説明
1,101 デジタルカメラ
3U,3D,3L,3R マイクロフォン
5 液晶モニタ
6 タッチパネル
9 CCD
11 信号処理部
12 フレームメモリ
14 制御部
15 メモリ
16 MPEGコーデック
20 音声コーデック
24 音源判別処理部
51 音声減衰部
52L 左チャンネル用遅延回路
52R 右チャンネル用遅延回路
53 減算回路
151 音声位置記録テーブル
151a ファイル名
151b 指定時間
151c 位置情報
151d 音源情報(周波数帯域)
151e 音源情報(音量)
151f 編集フラグ
152 ファイル格納領域
M1 メッセージ
M2 位置情報マーク
M3 カウントダウンメッセージ
M4 ガイダンス

Claims (10)

  1. 撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けて記憶する記憶手段と、
    この記憶手段に記憶されている前記画像データに基づく画像を表示する表示手段と、
    この表示手段に表示されている表示画像において特定の位置の指示を検出する検出手段と、
    前記記憶手段に記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段と、
    この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力する音声出力手段と
    を備えたことを特徴とする音声データ編集装置。
  2. 前記記憶手段は、前記音声データの音声成分を特定する音源情報を前記音声データと関連付けて更に記憶し、
    前記検出手段により検出された位置に対応する前記音源情報を前記記憶手段から読み出す読出手段を更に備え、
    前記編集手段は、前記音源情報取得手段により取得された音源情報に基づいて前記音声データを編集する
    ことを特徴とする請求項1記載の音声データ編集装置。
  3. 前記画像データの取得に際し集音される音声データは、前記撮影画角を基準として設置された複数のマイクロフォンにより個別に集音されると共に、前記音源情報はこれら複数のマイクロフォンにより個別に集音された音声データにおいて、最も集音レベルが高い周波数帯域であることを特徴とする請求項2記載の音声データ編集装置。
  4. 前記編集手段は、前記検出手段によって検出された位置を発生位置とする音声データを編集する際、所定時間遡って前記音声データを編集する
    ことを特徴とする請求項1乃至3の何れか記載の音声データ編集装置。
  5. 前記表示手段に前記記憶手段に記憶されている音声データの発生位置を示すマークを前記画像に重ねて表示させる表示制御手段を更に備えたことを特徴とする請求項1乃至4の何れか記載の音声データ編集装置。
  6. 前記記憶手段は、前記音声データを複数チャンネル分記憶し、
    前記編集手段は、前記検出手段によって検出された位置に基づいて、前記複数チャンネルの音声データから新たな音声データを生成する
    ことを特徴とする請求項1乃至5の何れか記載の音声データ編集装置。
  7. 前記撮影画角を撮像する撮像手段と、
    前記撮影画角を基準とした位置に設けられた複数のマイクロフォンと
    を更に備え、
    前記記憶手段は、前記撮像手段により撮像された撮像画角の画像データと、前記複数のマイクロフォンを用いて集音された音声データとを関連付けて記憶する
    ことを特徴とする請求項1乃至6何れか記載の音声データ編集装置。
  8. 前記編集手段によって編集された音声データを、前記画像データに関連付けて前記記憶手段に記憶させる記憶制御手段をさらに備えたことを特徴とする請求項1乃至7の何れかに記載の音声データ編集装置。
  9. 撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶ステップと、
    この記憶ステップにて前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力ステップと、
    この表示出力ステップにて表示されている表示画像において特定の位置の指示を検出する検出ステップと、
    前記メモリに記憶され、且つ、前記検出ステップにて検出された位置を発生位置とする音声データを編集する編集ステップと、
    この編集ステップにて編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力ステップと
    からなることを特徴とする音声データ編集方法。
  10. コンピュータを、
    撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶手段、
    この記憶手段によって前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力手段、
    この表示出力手段によって表示されている表示画像において特定の位置の指示を検出する検出手段、
    前記メモリに記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段、
    この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力手段
    として機能させることを特徴とする音声データ編集プログラム。

JP2006311579A 2006-11-17 2006-11-17 音声データ編集装置、音声データ編集方法、音声データ編集プログラム Pending JP2008131168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006311579A JP2008131168A (ja) 2006-11-17 2006-11-17 音声データ編集装置、音声データ編集方法、音声データ編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006311579A JP2008131168A (ja) 2006-11-17 2006-11-17 音声データ編集装置、音声データ編集方法、音声データ編集プログラム

Publications (1)

Publication Number Publication Date
JP2008131168A true JP2008131168A (ja) 2008-06-05

Family

ID=39556619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006311579A Pending JP2008131168A (ja) 2006-11-17 2006-11-17 音声データ編集装置、音声データ編集方法、音声データ編集プログラム

Country Status (1)

Country Link
JP (1) JP2008131168A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010074298A (ja) * 2008-09-16 2010-04-02 Konica Minolta Business Technologies Inc 動画記録再生装置、動画記録再生方法および動画記録再生プログラム
US9012186B2 (en) 2009-04-27 2015-04-21 The Board Of Trustees Of The University Of Illinois Hemicellulose-degrading enzymes
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
JP2016178652A (ja) * 2013-07-09 2016-10-06 ノキア テクノロジーズ オーユー オーディオ処理装置
WO2024111301A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 作成方法及び作成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010074298A (ja) * 2008-09-16 2010-04-02 Konica Minolta Business Technologies Inc 動画記録再生装置、動画記録再生方法および動画記録再生プログラム
US9012186B2 (en) 2009-04-27 2015-04-21 The Board Of Trustees Of The University Of Illinois Hemicellulose-degrading enzymes
JP2016178652A (ja) * 2013-07-09 2016-10-06 ノキア テクノロジーズ オーユー オーディオ処理装置
JP2015198413A (ja) * 2014-04-03 2015-11-09 日本電信電話株式会社 収音システム及び放音システム
WO2024111301A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 作成方法及び作成装置

Similar Documents

Publication Publication Date Title
JP4777180B2 (ja) 撮像装置及びその制御方法
US7535495B2 (en) Digital camera, control method thereof and portable terminal
KR20120065758A (ko) 촬영장치 및 이를 이용한 촬영방법
JP4407549B2 (ja) 撮影装置、動画再生装置、動画記録再生プログラム
JP2011250340A (ja) 撮像装置およびその制御方法
JP4958758B2 (ja) 記録装置、再生装置、記録方法、再生方法及びプログラム
JP6603897B2 (ja) 撮像装置
JP2008131168A (ja) 音声データ編集装置、音声データ編集方法、音声データ編集プログラム
JP2002057930A (ja) ディジタル・スチル・カメラおよびその動作制御方法
JP5600405B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2005228400A (ja) 音声記録装置及び音声記録方法
JP3881168B2 (ja) ディジタル・カメラおよびその動作制御方法ならびに画像再生装置および方法
JP5424300B2 (ja) 再生装置及びプログラム
JP4973497B2 (ja) 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
JP2006229329A (ja) 撮像装置
JP3900812B2 (ja) 画像記録装置
JP2004312218A (ja) デジタルカメラおよび画像再生装置
JP5171369B2 (ja) 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
KR100247595B1 (ko) 복합 디지털 스틸 카메라
JP2006217111A (ja) 動画撮影装置、及び動画撮影方法
KR20060057748A (ko) 영상과 음성이 연동되어 가변되는 장치 및 방법
JP2003110991A (ja) 電子カメラ
JP6332963B2 (ja) 画像処理装置及び画像処理装置の制御方法
JP5506471B2 (ja) 撮像装置
JP5206253B2 (ja) 電子カメラ