JP5815956B2

JP5815956B2 - 音声処理装置及びプログラム

Info

Publication number: JP5815956B2
Application number: JP2011027844A
Authority: JP
Inventors: 中川　浩一; 浩一中川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-02-10
Filing date: 2011-02-10
Publication date: 2015-11-17
Anticipated expiration: 2031-02-10
Also published as: JP2012169783A

Description

本発明は音声処理装置及び方法に関する。

近年、音声情報に音源の位置を示す位置情報を付加し、それを利用するシステムが知られている（以下、位置情報の付加された音声情報を「位置指定音声情報」と表記する）。例えば、機器の現在位置から一定範囲内の位置情報を持った位置指定音声情報を、位置指定音声情報が多数登録されているサーバからネットワーク経由でダウンロードすることのできる機器が存在する。例えば、位置指定音声情報をダウンロードした機器は、位置指定音声情報が持つ位置情報から、機器の現在位置からの音源の方向及び距離を算出し、その方向、距離から音声が聞こえるように音声のボリュームを決定し、再生する（例えば、非特許文献１参照。）。

ITmedia記事、「ARは視覚だけではない――"音のAR"を疑似体験」、［online］、平成２２年３月２日、インターネット(http://plusd.itmedia.co.jp/mobile/articles/1003/02/news051.html)

上記従来例では位置指定音声情報の音声ボリュームを、機器の位置に対する、位置指定音声情報の持つ位置情報の示す方向と距離のみを用いて決定している。ここで、機器に搭載あるいは接続されたマイクロホンによって集音された音声と、位置指定音声情報の音声とを重畳する場合を考える。マイクロホンによって集音された音声はマイクロホンの指向性等の性能の影響を受けるのに対し、位置指定音声情報の音声はその影響を受けない。そうすると、例えば前方に指向性を持つマイクロホンを使用している場合には、マイクロホンから集音される機器の後方の音はほとんど聞こえないのに対し、機器の後方の位置指定音声情報に関してははっきり聞こえてしまうことになる。そのため、この２つが重畳された音声は、不自然な、臨場感のないものとなってしまう。

そこで、本発明は、マイクロホンによって集音された音声と位置指定音声情報に対応する音声とが重畳された音声の自然性或いは臨場感を向上させることを目的とする。

本発明に係る音声処理装置は、音声処理装置であって、前記音声処理装置の位置に対応する第１の位置情報を生成する位置情報生成手段と、前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、前記音声処理装置の位置に対応する第１の位置情報と第２の位置情報とに基づいて決定される距離が所定値以下となる前記第２の位置情報と、前記第２の位置情報に対応する音声情報とを取得する取得手段と、前記音声処理装置の位置に対応する第１の位置情報と前記第２の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段とを有することを特徴とする音声処理装置である。
本発明に係るプログラムは、コンピュータを音声処理装置として機能させるためのプログラムであって、前記コンピュータを、前記音声処理装置の位置に対応する第１の位置情報を生成する位置情報生成手段と、前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、前記音声処理装置の位置に対応する第１の位置情報と第２の位置情報とに基づいて決定される距離が所定値以下となる前記第２の位置情報と、前記第２の位置情報に対応する音声情報とを取得する取得手段と、前記音声処理装置の位置に対応する第１の位置情報と前記第２の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段として機能させるためのプログラムである。

本発明によれば、マイクロホンによって集音された音声と位置指定音声情報に対応する音声とが重畳された音声の自然性或いは臨場感を向上させることができる。

実施形態に係る音声情報配信システムの概略構成図。位置指定音声情報の構造例を示す図。実施形態におけるビデオカメラのブロック図。第１の実施形態における制御部によって実行されるビデオカメラの制御を示すフローチャート。第１の実施形態における制御部によって実行されるマイク指向設定処理のフローチャート。第１の実施形態における制御部によって実行される位置指定音声情報取得処理のフローチャート。第１の実施形態における制御部によって実行される音声信号生成記録処理のフローチャート。（ａ）は前方指向設定時のマイクロホンの指向性を表す図、（ｂ）は双指向設定時のマイクロホンの指向性を表す図。（ａ）は前方指向設定に対応した音量補正テーブルの例を表す図、（ｂ）は双指向設定に対応した音量補正テーブルの例を表す図。第２の実施形態における制御部によって実行されるビデオカメラの制御を示すフローチャート。第２の実施形態における制御部によって実行される位置指定音声情報取得処理のフローチャート。第２の実施形態における制御部によって実行される音声信号生成記録処理のフローチャート。（ａ）は全指向性外付マイクロホンの指向性を表す図、（ｂ）は全指向性外付マイクロホンの指向性に対応した音量補正テーブルの例を表す図。第３の実施形態における全指向設定時のマイクロホンの指向性を表す図。（ａ）は第３の実施形態における全指向設定に対応したＬチャンネル用の音量補正テーブルの例を表す図、（ｂ）は全指向設定に対応したＲチャンネル用の音量補正テーブルの例を表す図。第３の実施形態における前方指向設定時のマイクロホンの指向性を表す図。（ａ）は第３の実施形態における前方指向設定に対応したＬチャンネル用の音量補正テーブルの例を表す図、（ｂ）は前方指向設定に対応したＲチャンネル用の音量補正テーブルの例を表す図。第３の実施形態における制御部１０１によって実行されるマイク指向設定処理のフローチャート。第３の実施形態における制御部１０１によって実行される音声信号生成記録処理のフローチャート。

以下、本発明の実施形態について、図面を参照して説明する。以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。
＜第１の実施形態＞
図１は、本実施形態に係る音声情報配信システムの概略構成図である。図１において、ＧＰＳ衛星群５００は、ＧＰＳ（Global Positioning System）に対応した人工衛星であり、地上に向けて衛星信号を発信している。この衛星信号には衛星の位置、信号を発信した時間等が含まれており、地上の機器は、複数の衛星からの衛星信号を受信することにより、機器自身の位置を測定することができる。

通信網３００は、広範囲に存在する機器同士が通信を行うための各種装置を含んだネットワークであり、複数の無線アクセスポイント４００が接続されている。ネットワーク上のサーバ２００は、通信網３００及び無線アクセスポイント４００を介して、位置指定音声情報をビデオカメラ１００に提供する。本明細書において、「位置指定音声情報」とは、音声と、その仮想的な音源位置の情報とが互いに関連付けられた音声情報をいう。位置情報は例えば２次元座標で表現される。

本実施形態の音声処理装置であるビデオカメラ１００は、ＧＰＳによる測位機能及び無線通信機能を備え、ＧＰＳ衛星群５００からの衛星信号を受信することにより、自身の位置を測定することができる。また、ビデオカメラ１００は近傍の無線アクセスポイント４００を介してサーバ２００と通信することにより、位置指定音声情報を受信することができる。

図２は、サーバ２００に格納される位置指定音声情報の構造例を示す図である。この図の通り、位置指定音声情報は、第１の音声に係る音声データと、その音声データに対応付けられた音源位置の情報とを含む。音源位置の情報は、例えば緯度及び経度からなる２次元座標の情報であり、対応する音声情報の仮想の音源位置を表す。音声データは、ＭＰ３（MPEG Audio Layer-3）のような圧縮音声データであってもよいし、リニアＰＣＭのような非圧縮音声データであってもよい。サーバ２００は、ビデオカメラ１００からビデオカメラ１００の現在位置を示す位置情報を受信し、その位置情報と各々の位置指定音声情報が持つ位置情報との距離を計算し、その距離が所定値以下である位置指定音声情報をビデオカメラ１００に送信する。

図３は、ビデオカメラ１００の構成を示すブロック図である。制御部１０１はＲＯＭ１２１からプログラムを読み込み、そのプログラムに従って各部を制御する。また、サーバ２００から受信した位置指定音声情報は、ＲＡＭ１２２に格納される。位置情報検出部１０２は、ＧＰＳ衛星群５００から衛星信号を受信し、その衛星信号に含まれる信号の送出時刻、信号の送出位置の情報を利用して、ビデオカメラ１００の現在位置を測定する。測定した位置情報は制御部１０１に送られる。方向情報検出部１０３は地磁気を検出し、その情報を利用してビデオカメラ１００の現在向いている方向を測定する電子コンパスである。測定した方向情報は、例えば北から右回りに何度傾いているかという情報で出力され、制御部１０１に送られる。無線通信部１０４は、制御部１０１により制御されて、無線アクセスポイント４００と無線接続を行い、さらに通信網３００を介してサーバから位置指定音声情報を受信する。

制御部１０１は、位置情報検出部１０２及び方向情報検出部１０３でそれぞれ測定された位置情報及び方向情報を利用して、ビデオカメラ１００の現在の位置と方向から位置指定音声情報の相対位置を計算する。制御部１０１は、さらにその相対位置と、後述する集音特性としてのマイク指向性による音量補正テーブルを使用して、位置指定音声情報の音量を決定する。

音声再生部１０５は、位置指定音声情報を、制御部１０１によって決定された音量で再生する。再生された音声信号は音声信号重畳部１０７に送られる。マイクロホン１０６は、複数の集音特性のうちのいずれか１つの集音特性に切り替えることが可能に構成される。例えば、マイクロホン１０６は、指向性を変更可能に構成され、指向性は制御部１０１によって設定される。本実施形態では、マイクロホン１０６は、前方指向設定、双指向設定の二種類の指向設定を持つものとする。

図８（ａ）は前方指向設定時の指向性を表した図である。図中のＰｏはマイクロホン１０６の位置を、図中の０°、９０°、１８０°、２７０°はマイクロホンの前方向に対する角度を表す。図中の太線Ｌｓで表される枠内がマイクロホン１０６の感度の高い範囲であり、マイクロホン１０６の前方向に集中して感度が高いことを表している。一方、図８（ｂ）は双指向設定時の指向性を表した図である。図８（ａ）と同様に、Ｐｏはマイクロホン１０６の位置を、太線Ｌｓで表される枠内はマイクロホン１０６の感度の高い範囲を表している。前方指向設定と違い、双指向設定ではマイクロホン１０６の後方に関しても感度が高くなっている。

図９（ａ）は、前方指向設定に対応した音量補正テーブルの例である。音量補正テーブルは、マイクロホン１０６の指向設定ごとに用意され、位置指定音声情報の音声ボリュームの補正値を、その指定位置のマイクロホン１０６の位置を基準（原点）とする相対位置によって決定するためのテーブルである。このテーブルには、一定の範囲で区画される各位置ごとに音声のボリュームの補正値が規定されている。Ｐｏはマイクロホン１０６の位置を表し、Ｘ軸はビデオカメラの右方向を正とする軸を表し、Ｙ軸はビデオカメラの前方向を正とする軸を表している。図中の各マス内の数字はその位置における位置指定音声情報の音声ボリュームの補正値であり、この値が小さいほど音声ボリュームは小さく補正される。つまり、ビデオカメラ１００の位置に対する位置指定音声情報の相対位置をこの図のＸ，Ｙ座標で表現すれば、その位置における補正値を参照できる。図９（ａ）ではマイクロホン１０６の位置Ｐｏの前方に集中して値が大きく設定されており、前方以外は値が小さく設定されている。つまり、マイクロホン１０６の前方指向設定を模したテーブルとなっている。図９（ｂ）は双指向設定に対応した音量補正テーブルである。図９（ａ）と違い、マイクロホン１０６の位置Ｐｏの前方だけでなく後方の値も大きく設定されている。つまり、マイクロホン１０６の双指向設定を模したテーブルとなっている。なお、音量補正テーブルは、あらかじめ測定したマイクロホンの指向性能に基づいて作成され、ＲＯＭ１２１にデータとして格納されており、制御部１０１により必要なときに読み出されて使用される。

マイクロホン１０６で収集された音は音声信号として音声信号重畳部１０７に送られる。なお、マイクロホン１０６は位置情報検出部１０２、方向情報検出部１０３に対して位置や向きを変更することができない構造となっている。したがって、位置情報検出部１０２、方向情報検出部１０３で取得した位置、方向はマイクロホン１０６の位置、方向を表すことになる。

合成手段としての音声信号重畳部１０７は、位置指定音声情報から取り出される第１の音声とマイクロホン１０６により収集された第２の音声とを重畳して得られる音声信号を生成する。生成された音声信号は映像信号処理部１１０へ送られる。

操作部１０８はスイッチ等により構成され、ユーザの入力操作を受け付け、映像や音声の記録開始を指示する記録開始信号などを制御部１０１に入力する。制御部１０１は操作部１０８から与えられるユーザの指示に従ってビデオカメラ１００を制御する。

撮像部１０９は、光学レンズ、撮像素子等によって構成される撮像部であり、光学レンズによって集光された光が撮像素子によって電気信号へと変換され、映像信号として映像信号処理部１１０に送られる。映像信号処理部１１０は、音声信号重畳部１０７から入力された音声信号と撮像部１０９から入力された映像信号とを組み合わせ、ＡＶＣＨＤ等の動画フォーマットへと変換し、動画データとしてメモリカード１１３に記録する。また、映像信号は液晶パネル１１１に、音声信号はスピーカ１１２に出力することができる。液晶パネル１１１は入力された映像信号を映像として表示する。スピーカ１１２は入力された音声信号を音として出力する。メモリカード１１３は、ビデオカメラに内蔵されもしくは取り付けられた記憶媒体であり、映像信号処理部１１０によって生成された動画データを記録する。また、図２で示したような位置指定音声情報のリストを格納することもでき、サーバ２００から位置指定音声情報を受信する代わりに、メモリカード１１３から位置指定音声情報のリストを読み込み、使用することもできる。

マイク取り付け部１１４はビデオカメラ１００に外付マイクロホンを取り付けるための端子である。マイク取り付け部１１４に取り付けられた外付マイクロホンによって収集される音声は音声信号として音声信号重畳部１０７へと送られる。その後、音声信号重畳部１０７は、マイクロホン１０６からの音声信号と同様に位置指定音声情報の音声信号と重畳した音声信号を生成することが可能である。ここで、マイクロホン１０６からの音声信号、マイク取り付け部１１４に取り付けられた外付マイクロホンからの音声信号のどちらを位置指定音声情報の音声信号と重畳するのかは、制御部１０１によって制御される。またマイク取り付け部１１４は、制御部１０１に対してどのような外付マイクロホンが取り付けられたかの情報を送信可能である。制御部１０１はその情報によって、取り付けられた外付マイクロホンに対応した音量補正テーブルを読み出し、位置指定音声情報の音声のボリュームの補正値を決定することができる。また、マイク取り付け部１１４に取り付け可能なマイクロホンは、マイク取り付け部１１４によってその位置および方向が固定される。したがって、位置情報検出部１０２、方向情報検出部１０３で取得した位置、方向は、マイク取り付け部１１４に取り付けられたマイクロホンの位置、方向を表すことになる。なお、ビデオカメラ１００は不図示のバッテリによって電力が供給されて動作する。

図４は本実施形態におけるビデオカメラ１００を制御する制御部１０１の動作を表すフローチャートである。Ｓ４０１ではユーザが電源オン操作を行った場合に操作部１０８から入力される電源オン信号の有無を確認する。電源オン信号が入力された場合にはＳ４０２へと進む。入力がない場合には一定時間後に再度Ｓ４０１を実行する。Ｓ４０２ではビデオカメラ１００の各部に電力を供給し、動作可能な状態とするための電源オン処理が行われる。各部が動作可能となった後、Ｓ４０３へと進む。

Ｓ４０３ではビデオカメラに内蔵されたマイクロホン１０６の指向性の設定処理を行う。この処理については後で図５を用いて詳しく説明する。この処理が終了すると、Ｓ４０４へと進む。Ｓ４０４では位置指定音声情報をサーバ２００から取得する。この処理については後で図６を用いて詳しく説明する。この処理が終了すると、Ｓ４０５へと進む。Ｓ４０５では、Ｓ４０４で取得した位置指定音声情報を、マイクロホン１０６で集音した音声と重畳し、記録する。この処理については後で図７を用いて詳しく説明する。この処理が終了すると、Ｓ４０６へと進む。Ｓ４０６では、ユーザが電源オフ操作を行った場合に操作部１０８から入力される電源オフ信号の有無を確認する。電源オフ信号が入力された場合にはＳ４０７へと進む。入力がない場合にはＳ４０３に戻る。Ｓ４０７ではビデオカメラ１００の各部に動作停止命令を出し、各部の動作が停止後、供給している電力を停止する。このステップでビデオカメラ１００は動作を停止する。

次に、図５を用いて、Ｓ４０３における、マイクロホン１０６の指向性を設定する処理について詳しく説明する。Ｓ５０１では、ユーザがマイク指向性切替操作を行った場合に操作部１０８から入力されるマイク指向性切替信号の有無を確認する。マイク指向性切替信号が入力された場合にはＳ５０２へと進む。マイク指向性切替信号が入力されなかった場合には、マイク指向性は変更されず、この処理はここで終了となる。Ｓ５０２では、マイクロホン１０６の指向設定が前方指向設定になっているか双指向設定になっているかを判定し、前方指向設定になっている場合にはＳ５０３へと進む。双指向設定になっている場合にはＳ５０４へと進む。Ｓ５０３では、マイクロホン１０６に指示し、マイクロホン１０６の指向性を双指向設定へと変更する。ここで、この処理は終了となる。Ｓ５０４では、マイクロホン１０６に指示し、マイクロホン１０６の指向性を前方指向設定へと変更する。ここで、この処理は終了となる。

次に、図６を用いて、Ｓ４０４における、位置指定音声情報をサーバ２００から取得する処理について詳しく説明する。Ｓ６０１では位置情報検出部１０２に指示を出し、ＧＰＳ衛星群５００からの衛星信号を受信してビデオカメラ１００の現在位置（緯度、経度）を測定する。測定後、Ｓ６０２へと進む。Ｓ６０２では、測定したビデオカメラ１００の現在位置を無線通信部１０４を介してサーバ２００に送信し、Ｓ６０３へと進む。Ｓ６０３では、Ｓ６０２で送信したビデオカメラの位置情報に対する応答として、サーバ２００から送信されるビデオカメラ１００の近傍に位置する位置指定音声情報を取得する。取得した位置指定音声情報は制御部１０１へ送られる。ここで、位置指定音声情報取得処理は終了する。

次に、図７を用いて、Ｓ４０５における、取得した位置指定音声情報をマイクロホン１０６で集音した音声と重畳し記録する処理について詳しく説明する。Ｓ７０１では、ユーザが記録開始操作を行った場合に操作部１０８から入力される記録開始信号の有無を確認する。記録開始信号が入力された場合にはＳ７０２へと進む。記録開始信号が入力されなかった場合には、処理はここで終了となる。Ｓ７０２では、位置情報検出部１０２に指示を出し、ＧＰＳ衛星群５００からの衛星信号を受信してビデオカメラ１００の現在の位置（緯度、経度）を測定する。測定後、Ｓ７０３へと進む。Ｓ７０３では、方向情報検出部１０３に指示を出し、ビデオカメラ１００の現在の方向を測定する。測定した方向は北から右回りに何度傾いているかという情報で出力され、制御部１０１に出力される。測定後、Ｓ７０４に進む。

Ｓ７０４では、図６のＳ６０３で取得した位置指定音声情報の、マイクロホン１０６の位置を原点とした相対位置を計算する。ここで、位置指定音声情報の位置を経度をＸｓ、緯度をＹｓで表した座標（Ｘｓ、Ｙｓ）、ビデオカメラ１００の現在位置を経度をＸｖ、緯度をＹｖで表した座標（Ｘｖ、Ｙｖ）、ビデオカメラ１００の方向をθとする。このとき、相対位置（Ｘｒ、Ｙｒ）は次のように計算することができる。なお、Ｘｒ、Ｙｒはビデオカメラ１００を原点とする直交座標系で表される座標であり、Ｘｒはビデオカメラ１００の前方向を正とする座標、Ｙｒはビデオカメラ１００の右方向を正とする座標として現される。
Ｘｒ＝（Ｘｓ−Ｘｖ）ｃｏｓθ ― （Ｙｓ−Ｙｖ）ｓｉｎθ、
Ｙｒ＝（Ｘｓ−Ｘｖ）ｓｉｎθ ＋（Ｙｓ−Ｙｖ）ｃｏｓθ

位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。ここで計算された相対位置（Ｘｒ、Ｙｒ）は、このまま音量補正テーブル上の座標として扱うことのできる値となる。相対位置を計算後、Ｓ７０５へと進む。Ｓ７０５では、マイクロホン１０６の指向設定が前方指向設定になっているか双指向設定になっているかを判定し、前方指向設定になっている場合にはＳ７０６へと進む。双指向設定になっている場合にはＳ７０７へと進む。Ｓ７０６では、前方指向設定用の音量補正テーブルをＲＯＭ１２１から読み出し、Ｓ７０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声のボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、前方指向設定用の音量補正テーブルは図９（ａ）に示したようなものである。補正値を決定後、Ｓ７０８へと進む。

Ｓ７０７では、双指向設定用の音量補正テーブルをＲＯＭ１２１から読み出し、Ｓ７０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声のボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、双指向設定用の音量補正テーブルは図９（ｂ）に示したようなものである。補正値を決定後、Ｓ７０８へと進む。

Ｓ７０８では、Ｓ７０６あるいはＳ７０７で決定された補正値により、位置指定音声情報の音声のボリュームを決定する。ここでは、位置指定音声情報の元の音声ボリュームをＶｏ、補正値をＡとすると、変更後の音声ボリュームＶｃを次式により計算する。
Ｖｃ＝（Ａ／１００） × Ｖｏ
位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。音声ボリュームを決定した後、Ｓ７０９へと進む。

Ｓ７０９では、音声再生部１０５に指示し、位置指定音声情報の音声ボリュームをＳ７０８で決定された値に変更する。音声再生部１０５は指定された音声ボリュームで位置指定音声情報を再生し、生成された音声信号を音声信号重畳部１０７へと出力する。これにより、位置指定音声情報が、あたかもマイクロホン１０６によって集音されたかのように調整される。位置指定音声情報を複数取得している場合には、それぞれについてこの処理を行う。その後、Ｓ７１０へと進む。

Ｓ７１０では、音声信号重畳部１０７に指示し、音声再生部１０５から入力された位置指定音声情報の音声信号と、マイクロホン１０６から入力された音声信号を重畳し、生成された音声信号を映像信号処理部１１０に出力する。Ｓ７０９で位置指定音声情報の音声ボリュームが調整されているため、マイクロホン１０６から入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、Ｓ７１１へと進む。

Ｓ７１１では、映像信号処理部１１０に指示し、音声信号重畳部１０７から入力される音声信号と、撮像部１０９から入力される映像信号を組み合わせてＡＶＣＨＤフォーマットのデータへとエンコードし、メモリカード１１３へと記録する。その後、Ｓ７１２へと進む。Ｓ７１２では、ユーザが記録停止操作を行った場合に操作部１０８から入力される記録停止信号の有無を確認する。記録停止信号が入力された場合にはＳ７１３へと進む。記録停止信号が入力されなかった場合にはここで処理は終了となる。Ｓ７１３では、音声再生部１０５に指示し、位置指定音声情報の音声の再生を停止する。その後、Ｓ７１４へと進む。Ｓ７１４では、映像信号処理部１１０に指示し、Ｓ７１４で行われたＡＶＣＨＤフォーマットのデータのメモリカード１１３への記録処理を停止する。

以上説明したように、本実施形態によれば、ビデオカメラ１００の位置及び方向に応じて、サーバ２００から提供される位置指定音声情報の音声のボリュームを決定する。これにより、あたかもビデオカメラ１００に内蔵されたマイクロホン１０６で集音されたかのように位置指定音声情報の音声を調整することができる。したがって、マイクロホン１０６で集音された音声と重畳した場合に、自然で、臨場感のある音声を、ユーザは楽しむことができる。なお、本実施形態では、マイクロホン１０６の指向性を変化させた場合について説明したが、マイク取り付け部１１４に異なる指向性のマイクを装着させた場合に、本実施形態の指向性を変化させた場合と同じように動作させてもよい。

＜第２の実施形態＞
第２の実施形態では、マイク取り付け部１１４に外付マイクロホンが取り付けられた場合に、位置指定音声情報の音声とマイクで集音された音声を重畳した場合でも自然で、臨場感のある音声を提供するビデオカメラについて説明する。なお、本実施形態では、ビデオカメラに内蔵されたマイクロホン１０６の指向性は、前方指向設定に固定されているものとする。また、本実施形態では、マイク取り付け部１１４には双指向性外付マイクロホンと全指向性マイクロホンの２種類の外付マイクロホンを取り付け可能であるとする。ここで、全指向性外付マイクロホンとは、全ての方向に対して均等な感度を持つマイクロホンをいう。

図１３（ａ）は全指向性外付マイクロホンの指向性を表した図である。図中の太線Ｌｓで表される枠内が全指向性外付マイクロホンの感度の高い範囲であり、マイクロホンのどの方向に対しても均等に感度が高いことを表している。図１３（ｂ）は、全指向性外付マイクロホンに対応した音量補正テーブルの例である。図１３（ｂ）では、全ての方向において、全指向性外付マイクロホンの位置Ｐｏから距離が離れるにつれて小さくなる値が設定されている。つまり、全指向性外付マイクロホンの全指向性を模したテーブルとなっている。

また、本実施形態では、サーバ２００から位置指定音声情報を受信する代わりに、メモリカード１１３から位置指定音声情報のリストを読み込み、使用する方法について説明する。メモリカード１１３にはあらかじめ、位置指定音声情報のリストが格納されているものとする。なお、本実施形態におけるビデオカメラの構成は、第１の実施形態と同じであるため、説明は省略する。

図１０は、本実施形態におけるビデオカメラ１００を制御する制御部１０１の動作を表すフローチャートである。このフローチャートは、図４のフローチャートからＳ４０３を省いたものであり、Ｓ１２０１、Ｓ１２０２はそれぞれＳ４０１、Ｓ４０２と同じであるため、説明を省略する。Ｓ１２０３では、位置指定音声情報をメモリカード１１３から取得する。この処理については後で図１１を用いて詳しく説明する。この処理が終了すると、Ｓ１２０４へと進む。Ｓ１２０４からＳ１２０６までの処理はＳ４０５からＳ４０７までの処理と同じであるため、説明を省略する。

次に、図１１を用いて、Ｓ１２０３における、位置指定音声情報をメモリカード１１３から取得する処理について詳しく説明する。Ｓ１３０１では、位置情報検出部１０２に指示を出し、ＧＰＳ衛星群５００からの衛星信号を受信してビデオカメラ１００の現在の位置（緯度、経度）を測定する。測定後、Ｓ１３０２へと進む。Ｓ１３０２では、メモリカード１１３から位置指定音声情報のリストの位置情報を読み出し、これをＲＡＭ１２２に書き込み、Ｓ１３０３へと進む。Ｓ１３０３では、読み出した位置指定音声情報のリスト内の各位置指定音声情報について、現在のビデオカメラの位置からの距離を計算し、結果が一定距離以内となった位置指定音声情報を、使用する位置指定音声情報として確定する。後で説明する図１２での処理では、この使用を確定された位置指定音声情報のみが処理される。

次に、図１２を用いて、Ｓ１２０４における、使用の確定した位置指定音声情報を、マイクロホン１０６あるいはマイク取り付け部１１４に取り付けられた外付マイクロホンで収集した音声と重畳し、記録する処理について詳しく説明する。Ｓ１４０１からＳ１４０４までの処理については、それぞれ図７のＳ７０１からＳ７０４までの処理と同様であるため、説明を省略する。Ｓ１４０５では、マイク取り付け部１１４に外付マイクロホンが取り付けられているかどうかを確認する。取り付けられている場合にはＳ１４０７へ、取り付けられていない場合にはＳ１４０６へと進む。Ｓ１４０６では、内蔵マイクロホン用の音量補正テーブルをＲＯＭ１２１から読み出し、Ｓ１４０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。なお、本実施形態では内蔵マイクロホンの指向設定は前方指向性に固定されているため、図９（ａ）の前方指向設定用の音量補正テーブルが使用される。補正値を決定後、Ｓ１４１０へと進む。Ｓ１４０７では、取り付けられた外付マイクロホンが双指向性外付マイクロホンであるかどうかを判定する。双指向性外付マイクロホンである場合にはＳ１４０８へと進み、そうでなければＳ１４０９へと進む。

Ｓ１４０８では、双指向性外付マイクロホン用の音量補正テーブルをＲＯＭ１２１から読み出し、Ｓ１４０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。双指向性外付マイクロホン用の音量補正テーブルについては、図１０（ｂ）の双指向設定用の音量補正テーブルが使用されるものとする。補正値を決定後、Ｓ１４１０へと進む。

Ｓ１４０９では、全指向性外付マイク用の音量補正テーブルをＲＯＭ１２１から読み出し、Ｓ１４０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、全指向性外付マイクロホン用の音量補正テーブルは図１３（ｂ）に示したようなものである。補正値を決定後、Ｓ１４１０へと進む。Ｓ１４１０、Ｓ１４１１については、それぞれ図７のＳ７０８、Ｓ７０９と同様の処理であるため、説明を省略する。

Ｓ１４１２では、音声信号重畳部１０７に指示し、音声再生部１０５から入力された位置指定音声情報の音声信号とマイク入力された音声信号を重畳し、生成された音声信号を映像信号処理部１１０に出力する。このとき、マイク取り付け部１１４に双指向性外付マイクロホンまたは全指向性外付マイクロホンが取り付けられていれば、それらで集音した音声が重畳され、取り付けられていなければマイクロホン１０６で集音した音声が重畳される。Ｓ１４１０で位置指定音声情報の音声ボリュームが調整されているため、どのマイクロホンから入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、Ｓ１４１３へと進む。Ｓ１４１３からＳ１４１６までの処理については、それぞれ図７のＳ７１１からＳ７１４までの処理と同様であるため、説明を省略する。

＜第３の実施形態＞
第３の実施形態では、複数のチャンネルのマイクロホンを備える場合、例えば、マイクロホン１０６が指向性を変更可能なステレオマイクである場合の例について説明する。本実施形態におけるビデオカメラの構成は第１の実施形態と同じであるため、説明は省略する。

本実施形態におけるマイクロホン１０６は左側を主に集音するＬチャンネルと右側を主に集音するＲチャンネルとの２チャンネルを持つステレオマイクである。このステレオマイクは指向性を変更可能であり、指向性は制御部１０１によって設定される。本実施形態では、マイクロホン１０６は全指向設定、前方指向設定の二種類の指向設定を持つものとする。

図１４は全指向設定時の指向性を表した図である。Ｌｓ−Ｌで表される枠内がＬチャンネルの感度の高い範囲、Ｌｓ−Ｒで表される枠内がＲチャンネルの感度の高い範囲である。二つのチャンネルを合わせることにより、全方向に対してマイク感度が高いことを表している。一方、図１６は前方指向設定時の指向性を表した図である。図１４に示した全指向設定の場合と違い、前方指向設定ではマイクロホン１０６の前方に対してマイク感度が高くなっている。

図１５（ａ）は、全指向設定時のＬチャンネルに対応した音量補正テーブルの例、図１５（ｂ）は全指向設定時のＲチャンネルに対応した音量補正テーブルの例である。図１７（ａ）は全指向設定時のＬチャンネルに対応した音量補正テーブルの例、図１７（ｂ）は全指向設定時のＲチャンネルに対応した音量補正テーブルの例である。本実施形態では、マイクロホン１０６の複数のチャンネルのそれぞれに対応する音量補正テーブルを指向性設定毎に用意し、ＲＯＭ１２１にデータとして格納しておく。なお、音量補正テーブル自体の説明については、第１の実施形態と同じであるため省略する。また、本実施形態におけるビデオカメラ１００を制御する制御部１０１の動作を表すフローチャートは、図４と同じであるため、説明を省略する。

次に、図１８を用いて、Ｓ４０３における、マイクロホン１０６の指向性を設定する処理について詳しく説明する。Ｓ２３０１では、ユーザがマイク指向性切替操作を行った場合に操作部１０８から入力されるマイク指向性切替信号の有無を確認する。マイク指向性切替信号が入力された場合にはＳ２３０２へと進む。マイク指向性切替信号が入力されなかった場合には、マイク指向性は変更されず、この処理はここで終了となる。Ｓ２３０２では、マイクロホン１０６の指向設定が前方指向設定になっているか全指向設定になっているかを判定し、前方指向設定になっている場合にはＳ２３０３へと進む。全指向設定になっている場合にはステップ２３０４へと進む。Ｓ２３０３では、マイクロホン１０６に指示し、マイクロホン１０６の指向性を全指向設定へと変更する。本実施形態ではマイクロホン１０６はＬ，Ｒの２チャンネルを持つマイクロホンであるため、それぞれのチャンネルに対して、全指向設定への変更が行われる。ここで、この処理は終了となる。Ｓ２３０４では、マイクロホン１０６に指示し、マイクロホン１０６の指向性を前方指向設定へと変更する。Ｓ２３０３同様、Ｌ，Ｒのそれぞれのチャンネルに対して、前方指向設定への変更が行われる。ここで、この処理は終了となる。位置指定音声情報を位置指定情報提供サーバから取得する処理については、図６と同じであるため、説明を省略する。

次に、図１９を用いて、Ｓ４０５における、取得した位置指定音声情報をマイクロホン１０６で集音した音声と重畳し記録する処理について説明する。Ｓ２４０１からＳ２４０４までの処理については、それぞれ図７のＳ７０１からＳ７０４までの処理と同じであるため、説明を省略する。

Ｓ２４０５では、マイクロホン１０６の指向設定が全指向設定になっているか前方指向設定になっているかを判定し、全指向設定になっている場合にはＳ２４０６へと進む。前方指向設定になっている場合にはＳ２４０７へと進む。Ｓ２４０６では、全指向設定用のＬチャンネル、Ｒチャンネルそれぞれに対応した音量補正テーブルをＲＯＭ１２１から読み出す。そしてＳ２４０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値をＬチャンネル、Ｒチャンネルそれぞれにおいて決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、全指向設定用のＬチャンネルに対応する音量補正テーブルは図１５（ａ）に示したようなものであり、全指向設定用のＲチャンネルに対応する音量補正テーブルは図１５（ｂ）に示したようなものである。補正値を決定後、Ｓ２４０８へと進む。

Ｓ２４０７では、前方指向設定用のＬチャンネル、Ｒチャンネルそれぞれに対応した音量補正テーブルをＲＯＭ１２１から読み出す。そしてＳ２４０４で計算した位置指定音声情報の相対位置（Ｘｒ，Ｙｒ）に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値をＬチャンネル、Ｒチャンネルそれぞれにおいて決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、前方指向設定用のＬチャンネルに対応する音量補正テーブルは図１７（ａ）に示したようなものであり、前方指向設定用のＲチャンネルに対応する音量補正テーブルは図１７（ｂ）に示したようなものである。補正値を決定後、Ｓ２４０８へと進む。

Ｓ２４０８では、Ｓ２４０６あるいはＳ２４０７で決定された補正値により、マイクロホン１０６から集音された音声に重畳する位置指定音声情報の音声ボリュームを決定する。

ここでは、位置指定音声情報の元の音声ボリュームをＶｏ、マイクロホン１０６のＬチャンネルに対応する補正値をＡＬとすると、集音された音声のＬチャンネルに重畳される位置指定音声情報の音声ボリュームＶｃＬを次式により計算する。
ＶｃＬ＝（ＡＬ／１００） × Ｖｏ

また、マイクロホン１０６のＲチャンネルに対応する補正値をＡＲとすると、集音された音声のＲチャンネルに重畳される位置指定音声情報の音声ボリュームＶｃＲは次式により計算する。
ＶｃＲ＝（ＡＲ／１００） × Ｖｏ

位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。音声ボリュームを決定した後、Ｓ２４０９へと進む。Ｓ２４０９では、音声再生部１０５に指示し、位置指定音声情報のＬ，Ｒチャンネルの音声ボリュームをＳ２４０８でそれぞれ決定された値に変更する。音声再生部１０５は指定された音声ボリュームで位置指定音声情報を再生し、生成された音声信号を音声信号重畳部１０７へと出力する。

Ｓ２４１０では、音声信号重畳部１０７に指示し次の処理を行う。すなわち、音声再生部１０５から入力されたマイクロホン１０６のＬチャンネルに対応する補正値により音量が補正された位置指定音声情報の音声信号と、マイクロホン１０６のＬチャンネルから入力された音声信号とを重畳する。また、音声再生部１０５から入力されたマイクロホン１０６のＲチャンネルに対応する補正値によって音量が補正された位置指定音声情報の音声信号と、マイクロホン１０６のＲチャンネルから入力された音声信号を重畳する。そして、生成された音声信号を映像信号処理部１１０に出力する。Ｓ２４０９で位置指定音声情報の音声ボリュームがマイクロホン１０６のＬチャンネル、Ｒチャンネルそれぞれに対応して調整されている。このため、位置指定音声情報の音声があたかもビデオカメラ１００からの相対位置で鳴っているように聞こえ、また、マイクロホン１０６から入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、Ｓ２４１１へと進む。Ｓ２４１１からＳ２４１４までの処理は、図７のＳ７１１からＳ７１４までの処理と同じであるため、説明を省略する。

以上説明したように、本実施形態によれば、ビデオカメラ１００の位置及び方向、並びに使用するマイクの種別に応じて、メモリカード１１３から読み出された位置指定音声情報の音声のボリュームが決定される。これにより、あたかも使用しているマイクで集音されたかのように位置指定音声情報の音声を調整することができ、使用しているマイクで集音された音声と重畳した場合でも、自然で、臨場感のある音声をユーザは楽しむことができる。

なお、本実施形態では、テーブルを利用して補正値を決定し、位置指定音声情報の音声ボリュームを決定したが、音声ボリュームの決定方法はこの限りではない。双指向性マイクの場合、位置指定音声情報のマイクの前方からの角度をθとし、距離をｄとすると、補正値Ａは、例えば次式で表すことができる。
Ａ＝（１−ｄ）× cosθ (ただし 0 ≦ ｄ ≦ 1 とする)
このような式により補正値を決定し、位置指定音声情報の音声ボリュームを決定する方法による形態も本発明に含まれる。

（他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

また、上述の第１乃至第３の実施形態において、位置指定音声情報の音声ボリュームの調整は、記録時に行わなくてもよい。例えば、ビデオカメラ１００の周囲の所定数（例えば５個以内）の位置指定音声情報の音声と、仮想的な音源位置の情報とを、音声データや動画データとともに記録し、そのときのビデオカメラの位置、撮影方向の情報も記録する。さらに、マイクロホンの指向性に関する情報を記録する。そして、ビデオカメラや、コンピュータ等の外部装置で、記録した音声データや動画データを再生する時に、記録したこれらの情報を用いて、記録中と同様に、マイクロホンの指向性に基づいて、各位置指定音声情報の音声ボリュームを制御してもよい。

Claims

音声処理装置であって、
前記音声処理装置の位置に対応する第１の位置情報を生成する位置情報生成手段と、
前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、
前記音声処理装置の位置に対応する第１の位置情報と第２の位置情報とに基づいて決定される距離が所定値以下となる前記第２の位置情報と、前記第２の位置情報に対応する音声情報とを取得する取得手段と、
前記音声処理装置の位置に対応する第１の位置情報と前記第２の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、
前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、
前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段と
を有することを特徴とする音声処理装置。
前記音声信号生成手段によって生成された音声信号を記憶媒体に記録する記録手段を有することを特徴とする請求項１に記載の音声処理装置。
前記取得手段は、前記第２の位置情報と前記音声情報とを前記音声処理装置以外の装置から無線通信によって取得することを特徴とする請求項１または２に記載の音声処理装置。
前記取得手段は、前記第２の位置情報と前記音声情報とを前記音声処理装置が有する記憶媒体から取得することを特徴とする請求項１または２に記載の音声処理装置。
前記取得手段は、前記第２の位置情報と前記音声情報とを前記音声処理装置に取り付けられた記憶媒体から取得することを特徴とする請求項１または２に記載の音声処理装置。
前記集音手段は、前記音声処理装置が有するマイクロホンであることを特徴とする請求項１または２に記載の音声処理装置。
前記集音手段は、前記音声処理装置に取り付けられるマイクロホンであることを特徴とする請求項１または２に記載の音声処理装置。
前記集音手段は、前記音声処理装置が有するステレオマイクであることを特徴とする請求項１または２に記載の音声処理装置。
前記集音手段の集音特性は、前方指向、双指向または全指向であることを特徴とする請求項１から８のいずれか１項に記載の音声処理装置。
コンピュータを音声処理装置として機能させるためのプログラムであって、
前記コンピュータを、
前記音声処理装置の位置に対応する第１の位置情報を生成する位置情報生成手段と、
前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、
前記音声処理装置の位置に対応する第１の位置情報と第２の位置情報とに基づいて決定される距離が所定値以下となる前記第２の位置情報と、前記第２の位置情報に対応する音声情報とを取得する取得手段と、
前記音声処理装置の位置に対応する第１の位置情報と前記第２の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、
前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、
前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段
として機能させるためのプログラム。