JP2008131168A

JP2008131168A - 音声データ編集装置、音声データ編集方法、音声データ編集プログラム

Info

Publication number: JP2008131168A
Application number: JP2006311579A
Authority: JP
Inventors: Tomohisa Ishikawa; 智久石川
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-11-17
Filing date: 2006-11-17
Publication date: 2008-06-05

Abstract

【課題】撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことを可能とする。
【解決手段】動画撮影時に複数チャンネル分の音声を画像と共に記録し、その間、タッチパネルを有するモニタ画面に表示中の画像上で、編集候補とする音の発生位置（被写体部分）を予め複数指定させる。指定位置と記録中の複数チャンネル分の音声信号とに基づき編集候補とする音を特定する音源特定情報を取得し、位置情報と共に記憶する。動画再生時には、編集候補の音の発生位置を示すマークＭ２を画像上に表示し、所望する発生位置をユーザーに指定させる。指定された位置を発生位置とする音声成分を対象として再生中の動画データと関連付けて記録されている音声データを編集し、編集後の新たな音声データを再生中の動画データと関連付け双方のデータを新たな動画ファイルとして記録する。
【選択図】図８

Description

本発明は、画像データと共に記録された音声等を編集するための音声データ編集装置、音声データ編集方法、音声データ編集プログラムに関するものである。

従来より監視カメラ等の技術において、単一指向性マイクを複数備えることにより、音源位置を自動的に特定し、その音源を含む画像を撮像する方法が考えられている。

また、下記特許文献１には、ビデオカメラ等での撮影時に、ユーザーに画面上で集音位置を指定させることによって、画面上の任意の被写体部分が発生源となっている音声を明瞭に記録することを容易にする技術が記載されている。
特開２００５−１５９７３１号公報

しかしながら、上記の技術を用いたとしても、例えば既に記録されている音声については、任意の被写体が発生源となっている音声を強調したり目立たなくさせたりする、つまり編集することができない。また、編集対象となる音声の発生源が録音時に指定できたとしても、その指定を行う時点においては、編集対象となる音声がその既に発生している場合も多く、その場合には、発生源が指定された時点より前の録音部分については、対象となる音声の編集を行うことができないといった問題があった。

本発明は、かかる従来の課題に鑑みてなされたものであり、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能となる音声データ編集装置、音声データ編集方法、音声データ編集プログラムを提供することを目的とする。

前記課題を解決するため請求項１の発明にあっては、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けて記憶する記憶手段と、この記憶手段に記憶されている前記画像データに基づく画像を表示する表示手段と、この表示手段に表示されている表示画像において特定の位置の指示を検出する検出手段と、前記記憶手段に記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段と、この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力する音声出力手段とを備えたことを特徴とする。

また、請求項２の発明にあっては、前記請求項１記載の発明において、前記記憶手段は、前記音声データの音声成分を特定する音源情報を前記音声データと関連付けて更に記憶し、前記検出手段により検出された位置に対応する前記音源情報を前記記憶手段から読み出す読出手段を更に備え、前記編集手段は、前記音源情報取得手段により取得された音源情報に基づいて前記音声データを編集することを特徴とする。

また、請求項３の発明にあっては、前記請求項２記載の発明において、前記画像データの取得に際し集音される音声データは、前記撮影画角を基準として設置された複数のマイクロフォンにより個別に集音されると共に、前記音源情報はこれら複数のマイクロフォンにより個別に集音された音声データにおいて、最も集音レベルが高い周波数帯域であることを特徴とする。

また、請求項４の発明にあっては、前記請求項１乃至３の何れか記載の発明において、前記編集手段は、前記検出手段によって検出された位置を発生位置とする音声データを編集する際、所定時間遡って前記音声データを編集することを特徴とする。

また、請求項５の発明にあっては、前記請求項１乃至４の何れか記載の発明において、前記表示手段に前記記憶手段に記憶されている音声データの発生位置を示すマークを前記画像に重ねて表示させる表示制御手段を更に備えたことを特徴とする。

また、請求項６の発明にあっては、前記請求項１乃至５の何れか記載の発明において、前記記憶手段は、前記音声データを複数チャンネル分記憶し、前記編集手段は、前記検出手段によって検出された位置に基づいて、前記複数チャンネルの音声データから新たな音声データを生成することを特徴とする。

また、請求項７の発明にあっては、前記請求項１乃至６の何れか記載の発明において、前記撮影画角を撮像する撮像手段と、前記撮影画角を基準とした位置に設けられた複数のマイクロフォンとを更に備え、前記記憶手段は、前記撮像手段により撮像された撮像画角の画像データと、前記複数のマイクロフォンを用いて集音された音声データとを関連付けて記憶することを特徴とする。

また、請求項８の発明にあっては、前記請求項１乃至７の何れか記載の発明において、前記編集手段によって編集された音声データを、前記画像データに関連付けて前記記憶手段に記憶させる記憶制御手段をさらに備えたことを特徴とする。

また、前記課題を解決するため請求項９の発明にあっては、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶ステップと、この記憶ステップにて前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力ステップと、この表示出力ステップにて表示されている表示画像において特定の位置の指示を検出する検出ステップと、前記メモリに記憶され、且つ、前記検出ステップにて検出された位置を発生位置とする音声データを編集する編集ステップと、この編集ステップにて編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力ステップとからなることを特徴とする。

また、前記課題を解決するため請求項１０の発明にあっては、コンピュータを、撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶手段、この記憶手段によって前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力手段、この表示出力手段によって表示されている表示画像において特定の位置の指示を検出する検出手段、前記メモリに記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段、この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力手段として機能させることを特徴とする。

本発明によれば、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能となる。

（実施形態１）
以下、本発明の実施の形態を図にしたがって説明する。図１は、第１の実施形態に係るデジタルカメラ１の外観を示す図であり、同図（ａ）は正面図、同図（ｂ）は背面図である。

このデジタルカメラ１は、静止画撮影機能に加え、音声付き動画撮影機能を有したものであり、本体正面側に位置する撮影レンズ２の上下左右には、撮影画角を基準として撮影時に周囲の音声を集音する各々が優れた指向性を有する４チャンネル分のマイクロフォン３Ｕ，３Ｄ，３Ｌ，３Ｒが配置され、図示しない本体内部には後述するスピーカ２３が設けられている。なお、前記撮影レンズ２はズーム機能を有しており、複数枚のレンズ群により焦点距離の変更が可能な構成となっている。

また、本体上部にはシャッターキー４が配置される一方、背面側には液晶モニタ（ＬＣＤ）５が配置されており、液晶モニタ５表面には透明なタッチパネル６が設けられている。液晶モニタ５の側部には各種の操作キー、すなわちデジタルカメラ１の基本動作モードである記録（ＲＥＣ）モード及び再生（ＰＬＡＹ）モードの設定にそれぞれ使用されるＲＥＣキー７１及びＰＬＡＹキー７２と、ズームアップ操作及びズームダウン操作に使用されるズームキー７３、上記基本動作モードの下位における各種の動作モードの設定や、種々の動作内容の設定及び変更等に使用される方向キー７４、セットキー７５が配置されている。

図２は、前記デジタルカメラ１の電気的構成の概略を示すブロック図である。デジタルカメラ１は撮像手段としてＣＣＤ９を備えている。ＣＣＤ９は、前記撮影レンズ２、絞り８を通過して結像された被写体の光学像を光電変換し撮像信号としてＣＤＳ／ＡＧＣ回路１０へ出力する。ＣＤＳ／ＡＧＣ回路１０に入力した撮像信号は、そこで固定パターンノイズを除去されるとともに、ゲイン調整を行われて信号処理部１１へ出力される。

ゲイン調整後の撮像信号は、信号処理部１１においてホワイトバランス調整やカラーバランス調整、輪郭強調等の各種の信号処理を施されるとともに、カラー補間によって画素毎にＲＧＢ色差成分毎の階調値を持つデジタル画像データ（ＲＧＢデータ）に変換された後、フレームメモリ１２に順次格納される。

フレームメモリ１２に格納された１フレーム分の画像データは、画素数調整部１３において所定の画素数（画像サイズ）に変換される。変換後の画像データは液晶ドライバ１７へ送られてビデオ信号に変換されるとともに、前記液晶モニタ５においてスルー画像として画面表示される。なお、フレームメモリ１２には、複数フレーム分の画像データを記憶可能なメモリ容量が確保されており、また、後述する音声編集処理に際しては作業用メモリとして使用される。

また、フレームメモリ１２に格納された１フレーム分の画像データは、静止画撮影時、すなわち記録モードの下位モードである静止画撮影モードにおいて前記シャッターキー４が押された時には、ＭＰＥＧコーデック１６においてＪＰＥＧ方式により圧縮符号化され、最終的には静止画データ（静止画ファイル）としてメモリ１５に記録される。さらに、記録モードの下位モードである動画撮影モードでの動画撮影時には、ＭＰＥＧコーデック１６においてＭＰＥＧ形式の動画データ（フレームデータ）として順次圧縮符号化され、最終的には動画ファイルとして、本発明の記憶手段であるメモリ１５に記録される。

メモリ１５に記録された静止画データや動画データは、再生モードで必要に応じて読み出され、ＭＰＥＧコーデック１６において伸張され、前記フレームメモリ１２に展開される。その後、液晶ドライバ１７へ送られ、ビデオ信号に変換された後、前記液晶モニタ５において静止画像や動画像として表示（再生）される。

一方、前記マイクロフォン３Ｕ，３Ｄ，３Ｌ，３Ｒはアンプ１８Ｕ，１８Ｄ，１８Ｌ，１８Ｒにそれぞれ接続されている。動画撮影時にマイクロフォン３Ｕ，３Ｄ，３Ｌ，３Ｒに入力した音声等の信号は、アンプ１８Ｕ，１８Ｄ，１８Ｌ，１８Ｒによってそれぞれ増幅され、Ａ／Ｄ変換器１９Ｕ，１９Ｄ，１９Ｌ，１９Ｒにおいてデジタル信号に変換され、音声データとして個別に（図２では省略）音声コーデック２０及び音源判別処理部２４に送られる。

音声コーデック２０へ送られた各チャンネルの音声データは、そこでモノラルの音声データに合成された状態で圧縮符号化された後、圧縮符号化後の動画データと共に動画ファイルとしてメモリ１５に記録される。メモリ１５に記録された音声データは、動画再生時に順次読み出されて音声コーデック２０により伸張される。伸張後の音声データはＤ／Ａ変換器２１によりアナログの音声信号に変換され、アンプ２２によって増幅された後、本体内に内蔵されたスピーカ２３により音声として出力される。

また、音源判別処理部２４は、制御部１４の命令に従い、ユーザーに指定された画角内の特定位置に相当する場所に最も近いマイクロフォンつまり音声チャンネルを判別し、判別した結果をチャンネル情報としてを制御部１４へ送る。

前記メモリ１５は、必要に応じて記憶データが書き換え可能な不揮発性メモリであり、例えば各種のメモリカード等により構成される。メモリ１５の内部には、図３に示すように、前述した静止画ファイルや動画ファイルが記録されるファイル格納領域１５２が確保されるとともに、動画撮影に際して取得された後述する複数のデータから構成される音声位置記録テーブル１５１が記録されている。

図４は、上記音声位置記録テーブル１５１の構成を示した概念図である。この音声位置記録テーブル１５１は、動画撮影に際してメモリ１５のファイル格納領域１５２に記録された動画像のファイル名１５１ａと、指定時間１５１ｂ、位置情報１５１ｃ、周波数帯域及び音量からなる２種類の音源情報１５１ｄ，１５１ｅ、編集フラグ１５１ｆの各データから構成される。

一方、図２に示したキー操作部７は、前述したシャッターキー４等の各種の操作キーにより構成され、使用者によるキー操作に応じたキー入力信号を制御部１４へ送る。

以上の各ブロックは制御部１４によって制御されている。制御部１４は主としてＣＰＵ、及びその周辺回路、ＲＯＭ、ＲＡＭから構成されており、ＲＯＭ内には制御部１４が各ブロックの制御に必要とする各種のプログラムや設定データが格納されている。そして、制御部１４は、上記プログラムに基づき前記タッチパネル６による指示位置を検出するとともに、キー操作部７から送られるキー入力信号に応じて動作することにより、タッチパネル６と共に本発明の取得手段として機能するとともに、本発明の編集手段、記憶制御手段、音源情報取得手段、表示制御手段として機能する。

以下、上述したデジタルカメラ１の本発明に係る動作について説明する。本実施形態においてデジタルカメラ１は、動画撮影中に、撮影画角において音声等を発している任意の被写体部分をスルー画像上で予めユーザーに指定させ、その情報を記録しておく一方、撮影後には、ユーザーの要求に応じて動画像と共に記録されている音声に含まれる前記被写体部分を音源とする音声等を編集する。

図５は動画撮影モードにおける主として制御部１４の処理手順を示すフローチャートである。まず、同図に従い動画撮影時の動作について説明する。

制御部１４は、動画撮影モードの設定とともに記録スタンバイ状態となり、シャッターキーの１度目の押下による記録開始指示の検出に伴い（ステップＳＡ１でＹＥＳ）、所定のフレームレートによる映像取り込み処理（画像データの圧縮符号化処理）、及び音声取り込み処理（音声データの圧縮符号化処理）、つまりメモリ１５への音声付き動画像の記録処理を開始する（ステップＳＡ２）。以後、シャッターキーの２度目の押下、又はメモリ１５のファイル格納領域１５２の記憶領域の残量不足による記録終了が検出できるまで（ステップＳＡ１でＹＥＳ）、動画像の記録処理を継続する。

そして、動画像の記録処理中においては、ユーザーによるタッチパネル６での位置指定の有無を逐次検出し、いずれかの位置つまり任意の被写体部分が指定されたら（ステップＳＡ３でＹＥＳ）、まず、動画像の記録を開始してからの時間を取得する（ステップＳＡ４）。次に、タッチパネル６で指定された位置の表示画面上での座標位置を取得した後（ステップＳＡ５）、取得した座標位置を前記音源判別処理部２４に送り、音源判別処理部２４に、前述した各マイクロフォン３Ｕ，３Ｄ，３Ｌ，３Ｒの表示画面上における位置を上下左右の各辺の中央としたとき前記座標位置と最も近いマイクロフォンを判定させ、そのチャンネルの情報を取得する（ステップＳＡ６）。

次に、音源判別処理部２４によって取得したチャンネルの音声データについて音量（音圧レベル）が相対的に最も高い周波数を確認し、その周波数と音量とをユーザーに指定された被写体部分を発生位置とする音声成分を示す情報であって、後述する音声編集処理で使用される音源情報として取得する（ステップＳＡ７）。しかる後、上述した処理で取得した各情報を前記音源位置記録テーブル１５１（図４）に記録する（ステップＳＡ８）。その後、動画像の記録終了を検出するまでの間においては（ステップＳＡ９でＮＯ）、ユーザーにより新たな位置指定があれば、それに応じて前述したステップＳＡ４〜ＳＡ８までの処理を繰り返すことにより、音源位置記録テーブル１５１にレコードを追加して指定時間１５１ｂ、位置情報１５１ｃ、２種類の音源情報１５１ｄ，１５１ｅ、編集フラグ１５１ｆの各データを記録する。

やがて、動画像の記録終了を検出したら、それまでメモリ１５に記録していた圧縮符号化されている画像データ及び音声データに、ファイル名や撮影日時等の所定のヘッダ情報を付加することにより、動画ファイルとして完成させる（ステップＳＡ１０）。そして、今回の動画記録に際して音源位置記録テーブル１５１に新たなレコードを追加していた場合には（ステップＳＡ１１でＹＥＳ）、音源位置記録テーブル１５１に追加した１又は複数のレコードに、記録した動画ファイルのファイル名を記録した後（ステップＳＡ１２）、今回の記録処理を終了する。また、音源位置記録テーブル１５１に新たにデータを記録していない場合には（ステップＳＡ１１でＮＯ）、そのまま今回の記録処理を終了する。

次に、動画再生時の動作について説明する。図６は、再生モードでの動画再生時における制御部１４の処理手順を示したフローチャートである。なお、ここでは、ユーザーがメモリ１５に記録されているいずれかの動画像を再生するものとして説明する。

図６に示したように、制御部１４は再生モードの設定とともに再生スタンバイ状態となり、ユーザーにより再生対象として任意の動画ファイルが選択され、それを検出すると（ステップＳＢ１でＹＥＳ）、まず、選択された動画ファイルのファイル名をキーとして前述した音源位置記録テーブル１５１のデータを検索する（ステップＳＢ２）。なお、この時には編集フラグ１５１ｆがセット状態（「１」）となっているデータは除外する。

ここで、選択された動画ファイルについてのデータ（以下、音源特定データという。）が音源位置記録テーブル１５１に存在していない場合には（ステップＳＢ３でＮＯ）、当該動画像の先頭フレームの画像を液晶モニタ５に表示する（ステップＳＢ４）。次に、再生指示待ちを行うとともに、ユーザーによる再生指示を検出した時点で（ステップＳＢ５でＹＥＳ）、通常の動画再生処理を開始する（ステップＳＢ６）。そして、再生処理が終了した時点で再生スタンバイ状態へ戻る。

一方、前記音源特定データが音源位置記録テーブル１５１に存在する場合には（ステップＳＢ３でＹＥＳ）、例えば図８（ａ）に示したように、当該動画像の先頭フレームの画像を液晶モニタ５に表示すると同時に、音源位置が記録されている旨を明示するメッセージＭ１を上記表示画像に重ねて表示する（ステップＳＢ７）。

次に、再生指示待ちを行うとともに、再生指示を検出したら（ステップＳＢ８でＹＥＳ）、動画像の再生、及び再生時間（再生後の経過時間）と、当該動画像に関し音源位置記録テーブル１５１における指定時間１５１ｂとの照合処理を開始する（ステップＳＢ９）。以後、再生時間が指定時間１５１ｂよりも所定時間前の時間となるまでは動画像を再生表示のみを行い、やがて所定時間前となったら（ステップＳＢ１０でＹＥＳ）、音源位置記録テーブル１５１の位置情報１５１ｃによって示される画面内の位置に、例えば図８（ｂ）に示したように、再生中の動画像に重ねて、それを撮影していた間にユーザーに指定されていた位置、つまり特定の音源の位置を示す位置情報マークＭ２を表示し、同時に再生時間が指定時間データ１５１ｂに達するまでの時間を知らせるカウントダウンメッセージＭ３と、編集の開始を促すガイダンスＭ４とを所定位置にそれぞれ表示する（ステップＳＢ１１）。

以後、前記再生時間が指定時間１５１ｂに達するまで（ステップＳＢ１３でＮＯ）、セットキーの操作による編集開始指示の有無を逐次確認しながら（ステップＳＢ１２）、前記カウントダウンメッセージＭ３を逐次更新する。また、その間に、編集開始指示がないまま、前記再生時間が指定時間１５１ｂとなったら（ステップＳＢ１２がＮＯ、ステップＳＢ１３でＹＥＳ）、前記ガイダンスＭ４を表示したまま、その時点で、カウントダウンメッセージＭ３を消して、音源の位置を示す位置情報マークＭ２の色を変更する（ステップＳＢ１４）。図８（ｂ）〜同図（ｄ）がその間の画面変化を示した図である。また、位置情報マークＭ２の色を変更した後には、動画像の再生が終了するまでの間（ステップＳＢ１６でＮＯ）、編集開始指示の有無のみを逐次確認する（ステップＳＢ１５）。そして、編集開始指示が無いまま動画像の再生が終了した場合には（ステップＳＢ１６）、そのまま再生スタンバイ状態へ戻る。

なお、図６には省略したが、現在再生中の動画像（動画ファイル）の音源特定データが音源位置記録テーブル１５１に複数存在している場合には、各々の音源特定データについて前述したステップＳＢ９〜ＳＢ１１，ＳＢ１３，ＳＢ１４の処理を繰り返し行う。

一方、前記再生時間が指定時間１５１ｂとなる以前（カウントダウンメッセージＭ３の表示中）又は指定時間１５１ｂとなった後に、編集開始指示を検出した場合には（ステップＳＢ１２、又はステップＳＢ１５がＹＥＳ）、その時点で動画像の再生を停止し（ステップＳＢ１７）、音声編集処理へ移行する（ステップＳＢ１８）。

図７は、音声編集処理の処理手順を示したフローチャートである。係る処理においては、タッチパネル６からの位置情報の入力が検出できか否か、つまりユーザーによって表示画面上のいずれかの位置が指定されたか否かを検出する（ステップＳＢ１０１）。ここで、位置情報の入力が検出できなければ（ステップＳＢ１０１でＮＯ）、直ちに図６のメインフローへ戻り、所定のキー操作による編集終了指示の有無を確認し、編集終了指示があれば（ステップＳＢ１９でＹＥＳ）、その時点で再生スタンバイ状態へ戻る。また、編集終了指示がなければ（ステップＳＢ１９でＮＯ）、音声編集処理へ移行する（ステップＳＢ１８）。

一方、音声編集処理へ移行した後、タッチパネル６からの位置情報の入力を検出したら（ステップＳＢ１０１でＹＥＳ）、入力された位置情報と、音源位置記録テーブル１５１に格納されている位置情報１５１ｃとを照合する（ステップＳＢ１０２）。ここで、入力された位置情報と対応する位置情報１５１ｃが存在しない場合、つまり撮影時に音源としては指定されていなかった被写体部分がユーザーにより指定された場合には（ステップＳＢ１０３でＮＯ）、その旨をユーザーに知らせるためのエラー表示を行った後（ステップＳＢ１０４）、図６のメインフローへ戻り、所定のキー操作による編集終了指示の有無を確認する。

また、入力された位置情報と対応する位置情報１５１ｃが存在する場合、つまり図８（ｂ）〜（ｄ）に示したような位置情報マークＭ２の表示部分や、その時点で位置情報マークＭ２が表示されていなくとも、撮影時に音源としては指定されていた被写体部分がユーザーにより指定された場合には（ステップＳＢ１０３でＹＥＳ）、動画ファイルから音声データ部分をのみを読み出して音声コーデック２０によってデコードし、デコードした音声データを前記フレームメモリ１２に一時的に格納する（ステップＳＢ１０５）。

次に、音源位置記録テーブル１５１から周波数帯域１５１ｄを読み出し（ステップＳＢ１０６）、前記指定時間１５１ｂに基づいて、音声データの対応する周波数帯部分を遡って編集する（ステップＳＢ１０７）。すなわちフレームメモリ１２に格納されている音声データにおける、前記指定時間１５１ｂよりも所定時間（例えば数秒ないし数十秒）だけ遡った時間位置以降の部分について、読み出した周波数帯域１５１ｄにより示される特定の周波数帯部分を加工し新たな音声データを生成する。加工（編集）内容については、この時点でユーザーに選択させたり、ユーザーに予め選択させておいた内容であり、例えば前記特定の周波数帯域の音圧レベルの低減や増大である。

引き続き、上記編集が終了した後には、ユーザーによる所定のキー操作待ちの状態となり、所定のキー操作による再生指示、保存指示、キャンセル指示の有無をそれぞれ確認する（ステップＳＢ１０８，ＳＢ１１０，ＳＢ１１３）。そして、再生指示を検出したら（ステップＳＢ１０８でＹＥＳ）、動画ファイルの動画データ部分のデコードをＭＰＥＧコーデック１６に開始させるとともに、編集後の音声データとデコード後の動画データとをタイミングを合わせて再生する（ステップＳＢ１０９）。つまり前述したステップＳＢ１０７の編集結果が反映された状態の動画像を再生する。

また、係る再生動作の終了後に所定のキー操作による保存指示を検出した場合（ステップＳＢ１１０でＹＥＳ）、及び再生動作を行うことなく直ちに保存指示を検出した場合には（ステップＳＢ１０８でＮＯ、ステップＳＢ１１０でＹＥＳ）、音源位置記録テーブル１５１の編集フラグ１５１ｆをセット状態（「１」）とした後（ステップＳＢ１１１）、編集後の音声データを音声コーデック２０によってエンコードするとともに、元の動画データと共に新たな動画ファイルとしてメモリ１５に記録する（ステップＳＢ１１２）。これにより、音声編集処理をいったん終了して図６のメインフローへ戻る。所定のキー操作による編集終了指示の有無を確認する。

また、ステップＳＢ１０９の再生動作の有無に関係なく、保存指示でなくキャンセル指示を検出した場合には（ステップＳＢ１１３でＹＥＳ）、その時点で音声編集処理をいったん終了して図６のメインフローへ戻る。

以上のように本実施形態においては、動画撮影中に、音声等を発している任意の被写体部分をスルー画像上で予めユーザーに指定させ、被写体部分を発生位置とする音声を特定する周波数帯域１５１ｄを記録しておく一方、動画撮影後には、予め指定しておいた複数の被写体部分の中から所望の被写体部分を選択させ、それに対応する周波数帯域の音声成分を適宜編集するようにした。よって、撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能である。

また、動画再生時に前述した音声編集処理を行うことにより、ユーザーに指定された被写体部分を音源とする音声を、ユーザーが被写体部分を指定した時点より前の録音部分についても編集することができる。さらに、撮影時に記録された動画ファイルを保存しておけば、異なる被写体部分を発生位置とした音声成分を対象とした編集作業を必要に応じていつでも行うことができる。

また、本実施形態では、前述したステップＳＢ１０７において、デコード後の音声データのうち、前記指定時間１５１ｂよりも所定時間（例えば数秒ないし数十秒）だけ遡った時間位置以降の部分の音声データを対象として特定の周波数帯部分を加工するようにしたことから、音声データの加工処理を必要最小限とすることができる。したがって、ユーザーが被写体部分を指定した時点より前の録音部分を含む効率的な編集が可能となる。なお、本実施形態とは異なり、デコード後の全フレーム分の音声データを対象として特定の周波数帯部分を加工するようにしても構わない。

また、動画再生時には、再生中の動画上に表示する位置情報マークＭ２によって、編集対象として選択可能な音声の発生位置となる被写体部分をユーザーに知らせることができるため、ユーザーによる編集作業が容易となる。

また、前述したステップＳＢ１０７において特定の周波数帯部分を加工するとき、例えばその加工内容が特定の周波数帯域の音圧レベルの低減である場合、つまりユーザーに指定された被写体部分を音源とする音声の音圧レベルの低減である場合においては、予め全フレーム分の音声データについて特定の周波数帯域のレベルが最も高くなるフレームが存在するか否かを確認し、係るフレームが存在するときには、所定のエラー表示をして加工を中止するとよい。それにより、例えば特定の周波数帯域が車のエンジン音の相当しており、かつエンジン音が非常に大きなフレームが存在しており、その音圧レベルの低減させてしまうと、そのフレーム等がほぼ無音状態となってしまう場合に、無音に近い状態のフレームをなくすことができる。

なお、本実施形態においては、動画撮影時に制御部１４の命令に従い、ユーザーに指定された画角内の特定位置に相当する場所に最も近いマイクロフォンつまり音声チャンネルを判別する音源判別処理部２４を設けられた構成を示したが、音源判別処理部２４を廃止し、上記判別を例えば制御部１４に行わせるようにしても構わない。

また、動画撮影時に周囲の音声を集音するために４チャンネル分のマイクロフォン３Ｕ，３Ｄ，３Ｌ，３Ｒを設けたものについて説明したが、マイクロフォンの数は複数であればよい。例えば撮影レンズ２の光軸を中心として右側に指向性を有するものと左側に指向性を有するものとの２チャンネル分でもよく、さらに、４チャンネルを超えるチャンネル分を設けてもよい。なお、マイクロフォン数（音声チャンネル数）が多い方が、ユーザーに指定された被写体部分を音源とする音声成分を高精度で編集することができる。

その場合、本実施形態においては、被写体部分を発生位置とする音声（編集候補となる音声）を特定する周波数帯域１５１ｄを動画撮影中に予め取得して記録しておくため、動画ファイルとして記録する音声データは必要最小限でよい。したがって、動画ファイルの記録サイズを増大させることなく、被写体部分を音源とする音声成分を高精度で編集することができる。

また、声チャンネル数を増やす場合には、各々が独立した複数のマイクロフォンではなく、異なる指向性を有する多数のマイクロフォンがモジュール化されたものを用いるようにしてもよい。その場合、音波を光学的に検出する公知の各種音響センサ等を用いても構わない。その場合、筐体内におけるマイクロフォンの設置スペースを節約することができる。

（実施形態２）
次に、本発明の第２の実施形態について説明する。本実施形態は、音声付き動画撮影機能を有したデジタルカメラにおいて、第１の実施形態と異なり、通常の音声付き動画撮影機能により既に記録されている動画像の再生時に、任意の被写体部分を発生位置とする音声の音圧レベルを必要に応じて低減するものである。

すなわち本実施の形態におけるデジタルカメラ１０１は、図２において説明した構成を基本とするとともに、図９に示したように前述した音源判別処理部２４に代えて音声減衰部５１が設けられ、さらに音声の入力系統が左右２チャンネルのみとなっている。

前記音声減衰部５１は、動画像の再生時に音声コーデック２０によりデコードされるデジタルの音声信号の右チャンネル側を所定時間だけ遅延させる右チャンネル用遅延回路５２Ｒと、左チャンネル側を所定時間だけ遅延させる左チャンネル用遅延回路５２Ｌと、遅延後の左右の音声信号が入力するとともに、遅延により同相化された左右の音声信号に含まれる特定の音声成分を減算してモノラルの音声信号として出力する減算回路５３とから構成されている。

また、前記右チャンネル用遅延回路５２Ｒと前記左チャンネル用遅延回路５２Ｌとにおける音声信号の遅延時間は制御部１４によって制御されるよう構成されており、本実施形態においては、制御部１４と音声減衰部５１とによって本発明の編集手段が実現されている。なお、これ以外の図９に示した部分の構成については図２に示したものと同一であるため、同一部分に同一符号を付すことにより説明を省略する。

図１０は、再生モードでの動画再生時における制御部１４の処理手順を示したフローチャートである。なお、ここでも、ユーザーがメモリ１５に記録されているいずれかの動画像を再生するものとして説明する。

すなわち本実施形態においても制御部１４は再生モードの設定とともに再生スタンバイ状態となり、ユーザーにより再生対象として任意の動画ファイルが選択されたか否かを逐次確認し、いずれかの動画ファイルが選択されたことが検出できたら（ステップＳＣ１でＹＥＳ）、選択された動画ファイルをメモリ１５から読み出し、ＭＰＥＧコーデック１６及び音声コーデック２０に動画データ及び音声データのデーコードを開始させ、通常の動画再生処理を開始する（ステップＳＣ２）。

以後、動画再生が終了するまでの間には（ステップＳＣ３でＮＯ）、タッチパネル６からの位置情報の入力の有無を逐次検出する（ステップＳＣ４）。そして、位置情報の入力を検出する以前に動画再生が終了したときには（ステップＳＣ３でＹＥＳ）、その時点で、全ての処理を終了する。つまり、通常の動画再生を行う。

一方、動画再生中に、タッチパネル６からの位置情報の入力を検出したら、つまりユーザーによって表示画面上のいずれかの位置つまり任意の被写体部分が指定されたら（ステップＳＣ４でＹＥＳ）、引き続き、再生中の動画像に対して以下の編集処理を行う。

まず、タッチパネル６で指定された位置の表示画面上での座標位置を取得した後（ステップＳＣ５）、その座標位置に、ユーザーに指定位置を確認させるための所定のマーカーを再生中の動画像に重ねて表示する（ステップＳＣ６）。なお、ここで表示するマーカーの形態は任意であり、例えば第１の実施形態で図８に示した位置情報マークＭ２と同様のものが使用できる。

次に、上記の指定位置に対応する音声の減衰方向を演算し（ステップＳＣ７）、さらに演算した減衰方向に基づき、左右の各チャンネルの音声信号の遅延量を演算し、その演算結果を一時記憶する（ステップＳＣ８）。

そして、その時点で動画像の再生を停止した後（ステップＳＣ９）、動画ファイルから音声データ部分をのみを読み出して音声コーデック２０によってデコードし、デコードした音声データを前記フレームメモリ１２に一時的に格納し（ステップＳＣ１０）、さらに前述した右チャンネル用遅延回路５２Ｒと左チャンネル用遅延回路５２Ｌとに、各チャンネルの音声信号の遅延時間としてステップＳＣ８で記憶しておいた遅延時間をそれぞれ設定する（ステップＳＣ１１）。

しかる後、デコード後の全期間分の音声信号を対象として、前記音声減衰部５１に、左右チャンネルの音声信号の遅延、及び遅延された左右チャンネルの音声信号同士の減算処理を行わせる（ステップＳＣ１２）。つまり、音声信号に含まれる指向性を有する音声成分のうちで、ユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分の音圧レベルを低減させる。

引き続き、係る処理が終了した後には、ユーザーによる所定のキー操作待ちの状態となり、ここでキー操作に応じて再生指示を検出した場合には（ステップＳＣ１３でＹＥＳ）、動画ファイルの動画データ部分のデコードをＭＰＥＧコーデック１６に開始させるとともに、上述した合成後の音声データ、すなわちユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分が低減されたモノラルの音声データとデコード後の動画データとをタイミングを合わせて再生する（ステップＳＣ１４）。つまりステップＳＣ１２の処理が反映された状態の動画像を再生する。

そして、上記動画像の再生後、また前述した再生指示がなかった場合には直ちにユーザーによる保存指示又はキャンセル指示のキー操作待ちの状態となり、ここで保存指示を検出した場合には（ステップＳＣ１５で「保存」）、合成後の音声データを音声コーデック２０によってエンコードするとともに、合成後の音声データを元の動画データと共に新たな動画ファイルとしてメモリ１５に記録して（ステップＳＣ１６）、処理を終了する。また、キャンセル指示を検出した場合には（ステップＳＣ１５で「保存」）、そのまま処理を終了する。

以上のように本実施形態においては、既に記録されている動画像の再生時に、ユーザーが、画面上で任意の被写体部分を指定すれば、指定された被写体部分を発生位置とする音声のレベルを必要に応じて低減することができる。すなわち撮影時に被写体の画像と共に記録された音声について、画像内に発生位置が存在する特定の音を対象とした編集を撮影後であっても必要に応じて行うことが可能である。

また、撮影時に記録された動画ファイルを保存しておけば、異なる被写体部分を発生位置とした音声成分を対象とした編集作業を必要に応じて行うことができる。

しかも、動画再生時においてユーザーが表示画面で指定した任意の被写体部分を発生位置とする音声と同様の指向性をする音声成分を低減することにより、第１の実施形態と同様、ユーザーに指定された被写体部分を音源とする音声を、ユーザーが被写体部分を指定した時点より前の録音部分についても編集することができる。

また、前述した第１の実施形態で説明したものにと比べると、動画撮影中において、被写体部分を発生位置とする音声（編集候補となる音声）を特定する音源情報（周波数帯域１５１ｄ等）を予め取得して記録しておく必要がないため、再生時には、任意の被写体部分を発生位置とする音声を対象とする編集が可能である点において有利である。また、動画ファイルとして記録する音声データは最低限２チャンネルあればよい。したがって、一般的構成を有する他のデジタルカメラ等によって記録された動画ファィルにも対応することができる。

なお、本実施形態においては、音声編集時には、音声減衰部５１によって左右の音声信号を所定時間だけ遅延させ、遅延後の左右の音声信号の一方から他方を減算してモノラルの音声信号を生成する構成としたが、音声減衰部５１を廃止し、上記処理を例えば制御部１４に行わせるようにしても構わない。

また、動画撮影時に周囲の音声を集音するマイクロフォンが左右２チャンネル分のみ設けられ、再生時における音声の編集処理に際しては２チャンネル分の左右チャンネルの音声信号の遅延、及び遅延された左右チャンネルの音声信号同士の減算処理を行うものについて説明したが、マイクロフォンの数（編集処理に際して使用される音声チャンネル数）は、これに限らず、第１の実施形態のように上下左右の４チャンネル分としたり、さらにそれ以上の数としてもよい。なお、マイクロフォン数（音声チャンネル数）が多い方が、ユーザーに指定された被写体部分を音源とする音声成分を高精度で編集することができる。

また、以上説明した第１及び第２の実施形態では、動画撮影時に動画像と共に記録された音声に対して、画像内に発生位置が存在する特定の音を対象とした編集を行う場合について述べたが、編集対象の音声は動画像に限らず、例えば音声付き静止画撮影機能を有する構成であれば、静止画像の撮影時に記録された音声であっても構わない。

また、ここでは本発明を音声付き動画撮影機能を有したデジタルカメラ１，１０１に適用する場合について説明したが、これ以外にも、本発明は動画像や静止画像の撮影時に音声を記録することができるデジタルビデオカメラやカメラ付き携帯電話端末等の他の装置にも適用可能である。さらに、撮影時に画像と共に記録された音声を撮影された画像と共に再生することができる構成であれば、撮影機能を有していない装置、パーソナルコンピュータ等においても本発明を実現することができる。

第１の実施形態を示すデジタルカメラの正面及び背面を示す図である。同デジタルカメラの電気的構成の概略を示すブロック図である。メモリ内の記憶領域を示す概念図である。音声位置記録テーブルの構成を示す概念図である。動画撮影モードにおける制御部の処理手順を示すフローチャートである。再生モードでの動画再生時における制御部の処理手順を示すフローチャートである。制御部による音声編集処理を示すフローチャートである。再生モードにおける表示画面の遷移図である。第２の実施形態を示すデジタルカメラの電気的構成の要部を示すブロック図である。再生モードでの動画再生時における制御部の処理手順を示すフローチャートである。

符号の説明

１，１０１デジタルカメラ
３Ｕ，３Ｄ，３Ｌ，３Ｒマイクロフォン
５液晶モニタ
６タッチパネル
９ＣＣＤ
１１信号処理部
１２フレームメモリ
１４制御部
１５メモリ
１６ＭＰＥＧコーデック
２０音声コーデック
２４音源判別処理部
５１音声減衰部
５２Ｌ左チャンネル用遅延回路
５２Ｒ右チャンネル用遅延回路
５３減算回路
１５１音声位置記録テーブル
１５１ａファイル名
１５１ｂ指定時間
１５１ｃ位置情報
１５１ｄ音源情報（周波数帯域）
１５１ｅ音源情報（音量）
１５１ｆ編集フラグ
１５２ファイル格納領域
Ｍ１メッセージ
Ｍ２位置情報マーク
Ｍ３カウントダウンメッセージ
Ｍ４ガイダンス

Claims

撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けて記憶する記憶手段と、
この記憶手段に記憶されている前記画像データに基づく画像を表示する表示手段と、
この表示手段に表示されている表示画像において特定の位置の指示を検出する検出手段と、
前記記憶手段に記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段と、
この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力する音声出力手段と
を備えたことを特徴とする音声データ編集装置。
前記記憶手段は、前記音声データの音声成分を特定する音源情報を前記音声データと関連付けて更に記憶し、
前記検出手段により検出された位置に対応する前記音源情報を前記記憶手段から読み出す読出手段を更に備え、
前記編集手段は、前記音源情報取得手段により取得された音源情報に基づいて前記音声データを編集する
ことを特徴とする請求項１記載の音声データ編集装置。
前記画像データの取得に際し集音される音声データは、前記撮影画角を基準として設置された複数のマイクロフォンにより個別に集音されると共に、前記音源情報はこれら複数のマイクロフォンにより個別に集音された音声データにおいて、最も集音レベルが高い周波数帯域であることを特徴とする請求項２記載の音声データ編集装置。
前記編集手段は、前記検出手段によって検出された位置を発生位置とする音声データを編集する際、所定時間遡って前記音声データを編集する
ことを特徴とする請求項１乃至３の何れか記載の音声データ編集装置。
前記表示手段に前記記憶手段に記憶されている音声データの発生位置を示すマークを前記画像に重ねて表示させる表示制御手段を更に備えたことを特徴とする請求項１乃至４の何れか記載の音声データ編集装置。
前記記憶手段は、前記音声データを複数チャンネル分記憶し、
前記編集手段は、前記検出手段によって検出された位置に基づいて、前記複数チャンネルの音声データから新たな音声データを生成する
ことを特徴とする請求項１乃至５の何れか記載の音声データ編集装置。
前記撮影画角を撮像する撮像手段と、
前記撮影画角を基準とした位置に設けられた複数のマイクロフォンと
を更に備え、
前記記憶手段は、前記撮像手段により撮像された撮像画角の画像データと、前記複数のマイクロフォンを用いて集音された音声データとを関連付けて記憶する
ことを特徴とする請求項１乃至６何れか記載の音声データ編集装置。
前記編集手段によって編集された音声データを、前記画像データに関連付けて前記記憶手段に記憶させる記憶制御手段をさらに備えたことを特徴とする請求項１乃至７の何れかに記載の音声データ編集装置。
撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶ステップと、
この記憶ステップにて前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力ステップと、
この表示出力ステップにて表示されている表示画像において特定の位置の指示を検出する検出ステップと、
前記メモリに記憶され、且つ、前記検出ステップにて検出された位置を発生位置とする音声データを編集する編集ステップと、
この編集ステップにて編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力ステップと
からなることを特徴とする音声データ編集方法。
コンピュータを、
撮影により取得された画像データ、この画像データの取得に際し集音された音声データ、及び、撮影画角におけるこの音声データの発生位置を関連付けてメモリに記憶させる記憶手段、
この記憶手段によって前記メモリ記憶された前記画像データに基づく画像を表示出力させる表示出力手段、
この表示出力手段によって表示されている表示画像において特定の位置の指示を検出する検出手段、
前記メモリに記憶され、且つ、前記検出手段によって検出された位置を発生位置とする音声データを編集する編集手段、
この編集手段によって編集された音声データに基づく音声を、前記画像データに基づく画像の表示に対応させて再生出力させる音声出力手段
として機能させることを特徴とする音声データ編集プログラム。