JP5815956B2 - 音声処理装置及びプログラム - Google Patents

音声処理装置及びプログラム Download PDF

Info

Publication number
JP5815956B2
JP5815956B2 JP2011027844A JP2011027844A JP5815956B2 JP 5815956 B2 JP5815956 B2 JP 5815956B2 JP 2011027844 A JP2011027844 A JP 2011027844A JP 2011027844 A JP2011027844 A JP 2011027844A JP 5815956 B2 JP5815956 B2 JP 5815956B2
Authority
JP
Japan
Prior art keywords
information
sound
audio
microphone
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011027844A
Other languages
English (en)
Other versions
JP2012169783A (ja
Inventor
中川 浩一
浩一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011027844A priority Critical patent/JP5815956B2/ja
Publication of JP2012169783A publication Critical patent/JP2012169783A/ja
Application granted granted Critical
Publication of JP5815956B2 publication Critical patent/JP5815956B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は音声処理装置及び方法に関する。
近年、音声情報に音源の位置を示す位置情報を付加し、それを利用するシステムが知られている(以下、位置情報の付加された音声情報を「位置指定音声情報」と表記する)。例えば、機器の現在位置から一定範囲内の位置情報を持った位置指定音声情報を、位置指定音声情報が多数登録されているサーバからネットワーク経由でダウンロードすることのできる機器が存在する。例えば、位置指定音声情報をダウンロードした機器は、位置指定音声情報が持つ位置情報から、機器の現在位置からの音源の方向及び距離を算出し、その方向、距離から音声が聞こえるように音声のボリュームを決定し、再生する(例えば、非特許文献1参照。)。
ITmedia記事、「ARは視覚だけではない――"音のAR"を疑似体験」、[online]、平成22年3月2日、インターネット(http://plusd.itmedia.co.jp/mobile/articles/1003/02/news051.html)
上記従来例では位置指定音声情報の音声ボリュームを、機器の位置に対する、位置指定音声情報の持つ位置情報の示す方向と距離のみを用いて決定している。ここで、機器に搭載あるいは接続されたマイクロホンによって集音された音声と、位置指定音声情報の音声とを重畳する場合を考える。マイクロホンによって集音された音声はマイクロホンの指向性等の性能の影響を受けるのに対し、位置指定音声情報の音声はその影響を受けない。そうすると、例えば前方に指向性を持つマイクロホンを使用している場合には、マイクロホンから集音される機器の後方の音はほとんど聞こえないのに対し、機器の後方の位置指定音声情報に関してははっきり聞こえてしまうことになる。そのため、この2つが重畳された音声は、不自然な、臨場感のないものとなってしまう。
そこで、本発明は、マイクロホンによって集音された音声と位置指定音声情報に対応する音声重畳された音声の自然性或いは臨場感を向上させることを目的とする。
本発明に係る音声処理装置は音声処理装置であって、前記音声処理装置の位置に対応する第1の位置情報を生成する位置情報生成手段と、前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、前記音声処理装置の位置に対応する第1の位置情報と第2の位置情報とに基づいて決定される距離が所定値以下となる前記第2の位置情報と、前記第2の位置情報に対応する音声情報とを取得する取得手段と、前記音声処理装置の位置に対応する第1の位置情報と前記第2の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段とを有することを特徴とする音声処理装置である。
本発明に係るプログラムは、コンピュータを音声処理装置として機能させるためのプログラムであって、前記コンピュータを、前記音声処理装置の位置に対応する第1の位置情報を生成する位置情報生成手段と、前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、前記音声処理装置の位置に対応する第1の位置情報と第2の位置情報とに基づいて決定される距離が所定値以下となる前記第2の位置情報と、前記第2の位置情報に対応する音声情報とを取得する取得手段と、前記音声処理装置の位置に対応する第1の位置情報と前記第2の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性とに基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段として機能させるためのプログラムである。
本発明によれば、マイクロホンによって集音された音声と位置指定音声情報に対応する音声重畳された音声の自然性或いは臨場感を向上させることができる。
実施形態に係る音声情報配信システムの概略構成図。 位置指定音声情報の構造例を示す図。 実施形態におけるビデオカメラのブロック図。 第1の実施形態における制御部によって実行されるビデオカメラの制御を示すフローチャート。 第1の実施形態における制御部によって実行されるマイク指向設定処理のフローチャート。 第1の実施形態における制御部によって実行される位置指定音声情報取得処理のフローチャート。 第1の実施形態における制御部によって実行される音声信号生成記録処理のフローチャート。 (a)は前方指向設定時のマイクロホンの指向性を表す図、(b)は双指向設定時のマイクロホンの指向性を表す図。 (a)は前方指向設定に対応した音量補正テーブルの例を表す図、(b)は双指向設定に対応した音量補正テーブルの例を表す図。 第2の実施形態における制御部によって実行されるビデオカメラの制御を示すフローチャート。 第2の実施形態における制御部によって実行される位置指定音声情報取得処理のフローチャート。 第2の実施形態における制御部によって実行される音声信号生成記録処理のフローチャート。 (a)は全指向性外付マイクロホンの指向性を表す図、(b)は全指向性外付マイクロホンの指向性に対応した音量補正テーブルの例を表す図。 第3の実施形態における全指向設定時のマイクロホンの指向性を表す図。 (a)は第3の実施形態における全指向設定に対応したLチャンネル用の音量補正テーブルの例を表す図、(b)は全指向設定に対応したRチャンネル用の音量補正テーブルの例を表す図。 第3の実施形態における前方指向設定時のマイクロホンの指向性を表す図。 (a)は第3の実施形態における前方指向設定に対応したLチャンネル用の音量補正テーブルの例を表す図、(b)は前方指向設定に対応したRチャンネル用の音量補正テーブルの例を表す図。 第3の実施形態における制御部101によって実行されるマイク指向設定処理のフローチャート。 第3の実施形態における制御部101によって実行される音声信号生成記録処理のフローチャート。
以下、本発明の実施形態について、図面を参照して説明する。以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。
<第1の実施形態>
図1は、本実施形態に係る音声情報配信システムの概略構成図である。図1において、GPS衛星群500は、GPS(Global Positioning System)に対応した人工衛星であり、地上に向けて衛星信号を発信している。この衛星信号には衛星の位置、信号を発信した時間等が含まれており、地上の機器は、複数の衛星からの衛星信号を受信することにより、機器自身の位置を測定することができる。
通信網300は、広範囲に存在する機器同士が通信を行うための各種装置を含んだネットワークであり、複数の無線アクセスポイント400が接続されている。ネットワーク上のサーバ200は、通信網300及び無線アクセスポイント400を介して、位置指定音声情報をビデオカメラ100に提供する。本明細書において、「位置指定音声情報」とは、音声と、その仮想的な音源位置の情報とが互いに関連付けられた音声情報をいう。位置情報は例えば2次元座標で表現される。
本実施形態の音声処理装置であるビデオカメラ100は、GPSによる測位機能及び無線通信機能を備え、GPS衛星群500からの衛星信号を受信することにより、自身の位置を測定することができる。また、ビデオカメラ100は近傍の無線アクセスポイント400を介してサーバ200と通信することにより、位置指定音声情報を受信することができる。
図2は、サーバ200に格納される位置指定音声情報の構造例を示す図である。この図の通り、位置指定音声情報は、第1の音声に係る音声データと、その音声データに対応付けられた音源位置の情報とを含む。音源位置の情報は、例えば緯度及び経度からなる2次元座標の情報であり、対応する音声情報の仮想の音源位置を表す。音声データは、MP3(MPEG Audio Layer-3)のような圧縮音声データであってもよいし、リニアPCMのような非圧縮音声データであってもよい。サーバ200は、ビデオカメラ100からビデオカメラ100の現在位置を示す位置情報を受信し、その位置情報と各々の位置指定音声情報が持つ位置情報との距離を計算し、その距離が所定値以下である位置指定音声情報をビデオカメラ100に送信する。
図3は、ビデオカメラ100の構成を示すブロック図である。制御部101はROM121からプログラムを読み込み、そのプログラムに従って各部を制御する。また、サーバ200から受信した位置指定音声情報は、RAM122に格納される。位置情報検出部102は、GPS衛星群500から衛星信号を受信し、その衛星信号に含まれる信号の送出時刻、信号の送出位置の情報を利用して、ビデオカメラ100の現在位置を測定する。測定した位置情報は制御部101に送られる。方向情報検出部103は地磁気を検出し、その情報を利用してビデオカメラ100の現在向いている方向を測定する電子コンパスである。測定した方向情報は、例えば北から右回りに何度傾いているかという情報で出力され、制御部101に送られる。無線通信部104は、制御部101により制御されて、無線アクセスポイント400と無線接続を行い、さらに通信網300を介してサーバから位置指定音声情報を受信する。
制御部101は、位置情報検出部102及び方向情報検出部103でそれぞれ測定された位置情報及び方向情報を利用して、ビデオカメラ100の現在の位置と方向から位置指定音声情報の相対位置を計算する。制御部101は、さらにその相対位置と、後述する集音特性としてのマイク指向性による音量補正テーブルを使用して、位置指定音声情報の音量を決定する。
音声再生部105は、位置指定音声情報を、制御部101によって決定された音量で再生する。再生された音声信号は音声信号重畳部107に送られる。マイクロホン106は、複数の集音特性のうちのいずれか1つの集音特性に切り替えることが可能に構成される。例えば、マイクロホン106は、指向性を変更可能に構成され、指向性は制御部101によって設定される。本実施形態では、マイクロホン106は、前方指向設定、双指向設定の二種類の指向設定を持つものとする。
図8(a)は前方指向設定時の指向性を表した図である。図中のPoはマイクロホン106の位置を、図中の0°、90°、180°、270°はマイクロホンの前方向に対する角度を表す。図中の太線Lsで表される枠内がマイクロホン106の感度の高い範囲であり、マイクロホン106の前方向に集中して感度が高いことを表している。一方、図8(b)は双指向設定時の指向性を表した図である。図8(a)と同様に、Poはマイクロホン106の位置を、太線Lsで表される枠内はマイクロホン106の感度の高い範囲を表している。前方指向設定と違い、双指向設定ではマイクロホン106の後方に関しても感度が高くなっている。
図9(a)は、前方指向設定に対応した音量補正テーブルの例である。音量補正テーブルは、マイクロホン106の指向設定ごとに用意され、位置指定音声情報の音声ボリュームの補正値を、その指定位置のマイクロホン106の位置を基準(原点)とする相対位置によって決定するためのテーブルである。このテーブルには、一定の範囲で区画される各位置ごとに音声のボリュームの補正値が規定されている。Poはマイクロホン106の位置を表し、X軸はビデオカメラの右方向を正とする軸を表し、Y軸はビデオカメラの前方向を正とする軸を表している。図中の各マス内の数字はその位置における位置指定音声情報の音声ボリュームの補正値であり、この値が小さいほど音声ボリュームは小さく補正される。つまり、ビデオカメラ100の位置に対する位置指定音声情報の相対位置をこの図のX,Y座標で表現すれば、その位置における補正値を参照できる。図9(a)ではマイクロホン106の位置Poの前方に集中して値が大きく設定されており、前方以外は値が小さく設定されている。つまり、マイクロホン106の前方指向設定を模したテーブルとなっている。図9(b)は双指向設定に対応した音量補正テーブルである。図9(a)と違い、マイクロホン106の位置Poの前方だけでなく後方の値も大きく設定されている。つまり、マイクロホン106の双指向設定を模したテーブルとなっている。なお、音量補正テーブルは、あらかじめ測定したマイクロホンの指向性能に基づいて作成され、ROM121にデータとして格納されており、制御部101により必要なときに読み出されて使用される。
マイクロホン106で収集された音は音声信号として音声信号重畳部107に送られる。なお、マイクロホン106は位置情報検出部102、方向情報検出部103に対して位置や向きを変更することができない構造となっている。したがって、位置情報検出部102、方向情報検出部103で取得した位置、方向はマイクロホン106の位置、方向を表すことになる。
合成手段としての音声信号重畳部107は、位置指定音声情報から取り出される第1の音声とマイクロホン106により収集された第2の音声とを重畳して得られる音声信号を生成する。生成された音声信号は映像信号処理部110へ送られる。
操作部108はスイッチ等により構成され、ユーザの入力操作を受け付け、映像や音声の記録開始を指示する記録開始信号などを制御部101に入力する。制御部101は操作部108から与えられるユーザの指示に従ってビデオカメラ100を制御する。
撮像部109は、光学レンズ、撮像素子等によって構成される撮像部であり、光学レンズによって集光された光が撮像素子によって電気信号へと変換され、映像信号として映像信号処理部110に送られる。映像信号処理部110は、音声信号重畳部107から入力された音声信号と撮像部109から入力された映像信号とを組み合わせ、AVCHD等の動画フォーマットへと変換し、動画データとしてメモリカード113に記録する。また、映像信号は液晶パネル111に、音声信号はスピーカ112に出力することができる。液晶パネル111は入力された映像信号を映像として表示する。スピーカ112は入力された音声信号を音として出力する。メモリカード113は、ビデオカメラに内蔵されもしくは取り付けられた記憶媒体であり、映像信号処理部110によって生成された動画データを記録する。また、図2で示したような位置指定音声情報のリストを格納することもでき、サーバ200から位置指定音声情報を受信する代わりに、メモリカード113から位置指定音声情報のリストを読み込み、使用することもできる。
マイク取り付け部114はビデオカメラ100に外付マイクロホンを取り付けるための端子である。マイク取り付け部114に取り付けられた外付マイクロホンによって収集される音声は音声信号として音声信号重畳部107へと送られる。その後、音声信号重畳部107は、マイクロホン106からの音声信号と同様に位置指定音声情報の音声信号と重畳した音声信号を生成することが可能である。ここで、マイクロホン106からの音声信号、マイク取り付け部114に取り付けられた外付マイクロホンからの音声信号のどちらを位置指定音声情報の音声信号と重畳するのかは、制御部101によって制御される。またマイク取り付け部114は、制御部101に対してどのような外付マイクロホンが取り付けられたかの情報を送信可能である。制御部101はその情報によって、取り付けられた外付マイクロホンに対応した音量補正テーブルを読み出し、位置指定音声情報の音声のボリュームの補正値を決定することができる。また、マイク取り付け部114に取り付け可能なマイクロホンは、マイク取り付け部114によってその位置および方向が固定される。したがって、位置情報検出部102、方向情報検出部103で取得した位置、方向は、マイク取り付け部114に取り付けられたマイクロホンの位置、方向を表すことになる。なお、ビデオカメラ100は不図示のバッテリによって電力が供給されて動作する。
図4は本実施形態におけるビデオカメラ100を制御する制御部101の動作を表すフローチャートである。S401ではユーザが電源オン操作を行った場合に操作部108から入力される電源オン信号の有無を確認する。電源オン信号が入力された場合にはS402へと進む。入力がない場合には一定時間後に再度S401を実行する。S402ではビデオカメラ100の各部に電力を供給し、動作可能な状態とするための電源オン処理が行われる。各部が動作可能となった後、S403へと進む。
S403ではビデオカメラに内蔵されたマイクロホン106の指向性の設定処理を行う。この処理については後で図5を用いて詳しく説明する。この処理が終了すると、S404へと進む。S404では位置指定音声情報をサーバ200から取得する。この処理については後で図6を用いて詳しく説明する。この処理が終了すると、S405へと進む。S405では、S404で取得した位置指定音声情報を、マイクロホン106で集音した音声と重畳し、記録する。この処理については後で図7を用いて詳しく説明する。この処理が終了すると、S406へと進む。S406では、ユーザが電源オフ操作を行った場合に操作部108から入力される電源オフ信号の有無を確認する。電源オフ信号が入力された場合にはS407へと進む。入力がない場合にはS403に戻る。S407ではビデオカメラ100の各部に動作停止命令を出し、各部の動作が停止後、供給している電力を停止する。このステップでビデオカメラ100は動作を停止する。
次に、図5を用いて、S403における、マイクロホン106の指向性を設定する処理について詳しく説明する。S501では、ユーザがマイク指向性切替操作を行った場合に操作部108から入力されるマイク指向性切替信号の有無を確認する。マイク指向性切替信号が入力された場合にはS502へと進む。マイク指向性切替信号が入力されなかった場合には、マイク指向性は変更されず、この処理はここで終了となる。S502では、マイクロホン106の指向設定が前方指向設定になっているか双指向設定になっているかを判定し、前方指向設定になっている場合にはS503へと進む。双指向設定になっている場合にはS504へと進む。S503では、マイクロホン106に指示し、マイクロホン106の指向性を双指向設定へと変更する。ここで、この処理は終了となる。S504では、マイクロホン106に指示し、マイクロホン106の指向性を前方指向設定へと変更する。ここで、この処理は終了となる。
次に、図6を用いて、S404における、位置指定音声情報をサーバ200から取得する処理について詳しく説明する。S601では位置情報検出部102に指示を出し、GPS衛星群500からの衛星信号を受信してビデオカメラ100の現在位置(緯度、経度)を測定する。測定後、S602へと進む。S602では、測定したビデオカメラ100の現在位置を無線通信部104を介してサーバ200に送信し、S603へと進む。S603では、S602で送信したビデオカメラの位置情報に対する応答として、サーバ200から送信されるビデオカメラ100の近傍に位置する位置指定音声情報を取得する。取得した位置指定音声情報は制御部101へ送られる。ここで、位置指定音声情報取得処理は終了する。
次に、図7を用いて、S405における、取得した位置指定音声情報をマイクロホン106で集音した音声と重畳し記録する処理について詳しく説明する。S701では、ユーザが記録開始操作を行った場合に操作部108から入力される記録開始信号の有無を確認する。記録開始信号が入力された場合にはS702へと進む。記録開始信号が入力されなかった場合には、処理はここで終了となる。S702では、位置情報検出部102に指示を出し、GPS衛星群500からの衛星信号を受信してビデオカメラ100の現在の位置(緯度、経度)を測定する。測定後、S703へと進む。S703では、方向情報検出部103に指示を出し、ビデオカメラ100の現在の方向を測定する。測定した方向は北から右回りに何度傾いているかという情報で出力され、制御部101に出力される。測定後、S704に進む。
S704では、図6のS603で取得した位置指定音声情報の、マイクロホン106の位置を原点とした相対位置を計算する。ここで、位置指定音声情報の位置を経度をXs、緯度をYsで表した座標(Xs、Ys)、ビデオカメラ100の現在位置を経度をXv、緯度をYvで表した座標(Xv、Yv)、ビデオカメラ100の方向をθとする。このとき、相対位置(Xr、Yr)は次のように計算することができる。なお、Xr、Yrはビデオカメラ100を原点とする直交座標系で表される座標であり、Xrはビデオカメラ100の前方向を正とする座標、Yrはビデオカメラ100の右方向を正とする座標として現される。
Xr =(Xs−Xv)cosθ ― (Ys−Yv)sinθ、
Yr =(Xs−Xv)sinθ +(Ys−Yv)cosθ
位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。ここで計算された相対位置(Xr、Yr)は、このまま音量補正テーブル上の座標として扱うことのできる値となる。相対位置を計算後、S705へと進む。S705では、マイクロホン106の指向設定が前方指向設定になっているか双指向設定になっているかを判定し、前方指向設定になっている場合にはS706へと進む。双指向設定になっている場合にはS707へと進む。S706では、前方指向設定用の音量補正テーブルをROM121から読み出し、S704で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声のボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、前方指向設定用の音量補正テーブルは図9(a)に示したようなものである。補正値を決定後、S708へと進む。
S707では、双指向設定用の音量補正テーブルをROM121から読み出し、S704で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声のボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、双指向設定用の音量補正テーブルは図9(b)に示したようなものである。補正値を決定後、S708へと進む。
S708では、S706あるいはS707で決定された補正値により、位置指定音声情報の音声のボリュームを決定する。ここでは、位置指定音声情報の元の音声ボリュームをVo、補正値をAとすると、変更後の音声ボリュームVcを次式により計算する。
Vc=(A/100) × Vo
位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。音声ボリュームを決定した後、S709へと進む。
S709では、音声再生部105に指示し、位置指定音声情報の音声ボリュームをS708で決定された値に変更する。音声再生部105は指定された音声ボリュームで位置指定音声情報を再生し、生成された音声信号を音声信号重畳部107へと出力する。これにより、位置指定音声情報が、あたかもマイクロホン106によって集音されたかのように調整される。位置指定音声情報を複数取得している場合には、それぞれについてこの処理を行う。その後、S710へと進む。
S710では、音声信号重畳部107に指示し、音声再生部105から入力された位置指定音声情報の音声信号と、マイクロホン106から入力された音声信号を重畳し、生成された音声信号を映像信号処理部110に出力する。S709で位置指定音声情報の音声ボリュームが調整されているため、マイクロホン106から入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、S711へと進む。
S711では、映像信号処理部110に指示し、音声信号重畳部107から入力される音声信号と、撮像部109から入力される映像信号を組み合わせてAVCHDフォーマットのデータへとエンコードし、メモリカード113へと記録する。その後、S712へと進む。S712では、ユーザが記録停止操作を行った場合に操作部108から入力される記録停止信号の有無を確認する。記録停止信号が入力された場合にはS713へと進む。記録停止信号が入力されなかった場合にはここで処理は終了となる。S713では、音声再生部105に指示し、位置指定音声情報の音声の再生を停止する。その後、S714へと進む。S714では、映像信号処理部110に指示し、S714で行われたAVCHDフォーマットのデータのメモリカード113への記録処理を停止する。
以上説明したように、本実施形態によれば、ビデオカメラ100の位置及び方向に応じて、サーバ200から提供される位置指定音声情報の音声のボリュームを決定する。これにより、あたかもビデオカメラ100に内蔵されたマイクロホン106で集音されたかのように位置指定音声情報の音声を調整することができる。したがって、マイクロホン106で集音された音声と重畳した場合に、自然で、臨場感のある音声を、ユーザは楽しむことができる。なお、本実施形態では、マイクロホン106の指向性を変化させた場合について説明したが、マイク取り付け部114に異なる指向性のマイクを装着させた場合に、本実施形態の指向性を変化させた場合と同じように動作させてもよい。
<第2の実施形態>
第2の実施形態では、マイク取り付け部114に外付マイクロホンが取り付けられた場合に、位置指定音声情報の音声とマイクで集音された音声を重畳した場合でも自然で、臨場感のある音声を提供するビデオカメラについて説明する。なお、本実施形態では、ビデオカメラに内蔵されたマイクロホン106の指向性は、前方指向設定に固定されているものとする。また、本実施形態では、マイク取り付け部114には双指向性外付マイクロホンと全指向性マイクロホンの2種類の外付マイクロホンを取り付け可能であるとする。ここで、全指向性外付マイクロホンとは、全ての方向に対して均等な感度を持つマイクロホンをいう。
図13(a)は全指向性外付マイクロホンの指向性を表した図である。図中の太線Lsで表される枠内が全指向性外付マイクロホンの感度の高い範囲であり、マイクロホンのどの方向に対しても均等に感度が高いことを表している。図13(b)は、全指向性外付マイクロホンに対応した音量補正テーブルの例である。図13(b)では、全ての方向において、全指向性外付マイクロホンの位置Poから距離が離れるにつれて小さくなる値が設定されている。つまり、全指向性外付マイクロホンの全指向性を模したテーブルとなっている。
また、本実施形態では、サーバ200から位置指定音声情報を受信する代わりに、メモリカード113から位置指定音声情報のリストを読み込み、使用する方法について説明する。メモリカード113にはあらかじめ、位置指定音声情報のリストが格納されているものとする。なお、本実施形態におけるビデオカメラの構成は、第1の実施形態と同じであるため、説明は省略する。
図10は、本実施形態におけるビデオカメラ100を制御する制御部101の動作を表すフローチャートである。このフローチャートは、図4のフローチャートからS403を省いたものであり、S1201、S1202はそれぞれS401、S402と同じであるため、説明を省略する。S1203では、位置指定音声情報をメモリカード113から取得する。この処理については後で図11を用いて詳しく説明する。この処理が終了すると、S1204へと進む。S1204からS1206までの処理はS405からS407までの処理と同じであるため、説明を省略する。
次に、図11を用いて、S1203における、位置指定音声情報をメモリカード113から取得する処理について詳しく説明する。S1301では、位置情報検出部102に指示を出し、GPS衛星群500からの衛星信号を受信してビデオカメラ100の現在の位置(緯度、経度)を測定する。測定後、S1302へと進む。S1302では、メモリカード113から位置指定音声情報のリストの位置情報を読み出し、これをRAM122に書き込み、S1303へと進む。S1303では、読み出した位置指定音声情報のリスト内の各位置指定音声情報について、現在のビデオカメラの位置からの距離を計算し、結果が一定距離以内となった位置指定音声情報を、使用する位置指定音声情報として確定する。後で説明する図12での処理では、この使用を確定された位置指定音声情報のみが処理される。
次に、図12を用いて、S1204における、使用の確定した位置指定音声情報を、マイクロホン106あるいはマイク取り付け部114に取り付けられた外付マイクロホンで収集した音声と重畳し、記録する処理について詳しく説明する。S1401からS1404までの処理については、それぞれ図7のS701からS704までの処理と同様であるため、説明を省略する。S1405では、マイク取り付け部114に外付マイクロホンが取り付けられているかどうかを確認する。取り付けられている場合にはS1407へ、取り付けられていない場合にはS1406へと進む。S1406では、内蔵マイクロホン用の音量補正テーブルをROM121から読み出し、S1404で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。なお、本実施形態では内蔵マイクロホンの指向設定は前方指向性に固定されているため、図9(a)の前方指向設定用の音量補正テーブルが使用される。補正値を決定後、S1410へと進む。S1407では、取り付けられた外付マイクロホンが双指向性外付マイクロホンであるかどうかを判定する。双指向性外付マイクロホンである場合にはS1408へと進み、そうでなければS1409へと進む。
S1408では、双指向性外付マイクロホン用の音量補正テーブルをROM121から読み出し、S1404で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。双指向性外付マイクロホン用の音量補正テーブルについては、図10(b)の双指向設定用の音量補正テーブルが使用されるものとする。補正値を決定後、S1410へと進む。
S1409では、全指向性外付マイク用の音量補正テーブルをROM121から読み出し、S1404で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値を決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、全指向性外付マイクロホン用の音量補正テーブルは図13(b)に示したようなものである。補正値を決定後、S1410へと進む。S1410、S1411については、それぞれ図7のS708、S709と同様の処理であるため、説明を省略する。
S1412では、音声信号重畳部107に指示し、音声再生部105から入力された位置指定音声情報の音声信号とマイク入力された音声信号を重畳し、生成された音声信号を映像信号処理部110に出力する。このとき、マイク取り付け部114に双指向性外付マイクロホンまたは全指向性外付マイクロホンが取り付けられていれば、それらで集音した音声が重畳され、取り付けられていなければマイクロホン106で集音した音声が重畳される。S1410で位置指定音声情報の音声ボリュームが調整されているため、どのマイクロホンから入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、S1413へと進む。S1413からS1416までの処理については、それぞれ図7のS711からS714までの処理と同様であるため、説明を省略する。
<第3の実施形態>
第3の実施形態では、複数のチャンネルのマイクロホンを備える場合、例えば、マイクロホン106が指向性を変更可能なステレオマイクである場合の例について説明する。本実施形態におけるビデオカメラの構成は第1の実施形態と同じであるため、説明は省略する。
本実施形態におけるマイクロホン106は左側を主に集音するLチャンネルと右側を主に集音するRチャンネルとの2チャンネルを持つステレオマイクである。このステレオマイクは指向性を変更可能であり、指向性は制御部101によって設定される。本実施形態では、マイクロホン106は全指向設定、前方指向設定の二種類の指向設定を持つものとする。
図14は全指向設定時の指向性を表した図である。Ls−Lで表される枠内がLチャンネルの感度の高い範囲、Ls−Rで表される枠内がRチャンネルの感度の高い範囲である。二つのチャンネルを合わせることにより、全方向に対してマイク感度が高いことを表している。一方、図16は前方指向設定時の指向性を表した図である。図14に示した全指向設定の場合と違い、前方指向設定ではマイクロホン106の前方に対してマイク感度が高くなっている。
図15(a)は、全指向設定時のLチャンネルに対応した音量補正テーブルの例、図15(b)は全指向設定時のRチャンネルに対応した音量補正テーブルの例である。図17(a)は全指向設定時のLチャンネルに対応した音量補正テーブルの例、図17(b)は全指向設定時のRチャンネルに対応した音量補正テーブルの例である。本実施形態では、マイクロホン106の複数のチャンネルのそれぞれに対応する音量補正テーブルを指向性設定毎に用意し、ROM121にデータとして格納しておく。なお、音量補正テーブル自体の説明については、第1の実施形態と同じであるため省略する。また、本実施形態におけるビデオカメラ100を制御する制御部101の動作を表すフローチャートは、図4と同じであるため、説明を省略する。
次に、図18を用いて、S403における、マイクロホン106の指向性を設定する処理について詳しく説明する。S2301では、ユーザがマイク指向性切替操作を行った場合に操作部108から入力されるマイク指向性切替信号の有無を確認する。マイク指向性切替信号が入力された場合にはS2302へと進む。マイク指向性切替信号が入力されなかった場合には、マイク指向性は変更されず、この処理はここで終了となる。S2302では、マイクロホン106の指向設定が前方指向設定になっているか全指向設定になっているかを判定し、前方指向設定になっている場合にはS2303へと進む。全指向設定になっている場合にはステップ2304へと進む。S2303では、マイクロホン106に指示し、マイクロホン106の指向性を全指向設定へと変更する。本実施形態ではマイクロホン106はL,Rの2チャンネルを持つマイクロホンであるため、それぞれのチャンネルに対して、全指向設定への変更が行われる。ここで、この処理は終了となる。S2304では、マイクロホン106に指示し、マイクロホン106の指向性を前方指向設定へと変更する。S2303同様、L,Rのそれぞれのチャンネルに対して、前方指向設定への変更が行われる。ここで、この処理は終了となる。位置指定音声情報を位置指定情報提供サーバから取得する処理については、図6と同じであるため、説明を省略する。
次に、図19を用いて、S405における、取得した位置指定音声情報をマイクロホン106で集音した音声と重畳し記録する処理について説明する。S2401からS2404までの処理については、それぞれ図7のS701からS704までの処理と同じであるため、説明を省略する。
S2405では、マイクロホン106の指向設定が全指向設定になっているか前方指向設定になっているかを判定し、全指向設定になっている場合にはS2406へと進む。前方指向設定になっている場合にはS2407へと進む。S2406では、全指向設定用のLチャンネル、Rチャンネルそれぞれに対応した音量補正テーブルをROM121から読み出す。そしてS2404で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値をLチャンネル、Rチャンネルそれぞれにおいて決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、全指向設定用のLチャンネルに対応する音量補正テーブルは図15(a)に示したようなものであり、全指向設定用のRチャンネルに対応する音量補正テーブルは図15(b)に示したようなものである。補正値を決定後、S2408へと進む。
S2407では、前方指向設定用のLチャンネル、Rチャンネルそれぞれに対応した音量補正テーブルをROM121から読み出す。そしてS2404で計算した位置指定音声情報の相対位置(Xr,Yr)に対応する範囲を参照し、位置指定音声情報の音声ボリュームの補正値をLチャンネル、Rチャンネルそれぞれにおいて決定する。位置指定音声情報を複数取得している場合には、それぞれについてこの補正値を決定する。先に説明したように、前方指向設定用のLチャンネルに対応する音量補正テーブルは図17(a)に示したようなものであり、前方指向設定用のRチャンネルに対応する音量補正テーブルは図17(b)に示したようなものである。補正値を決定後、S2408へと進む。
S2408では、S2406あるいはS2407で決定された補正値により、マイクロホン106から集音された音声に重畳する位置指定音声情報の音声ボリュームを決定する。
ここでは、位置指定音声情報の元の音声ボリュームをVo、マイクロホン106のLチャンネルに対応する補正値をALとすると、集音された音声のLチャンネルに重畳される位置指定音声情報の音声ボリュームVcLを次式により計算する。
VcL=(AL/100) × Vo
また、マイクロホン106のRチャンネルに対応する補正値をARとすると、集音された音声のRチャンネルに重畳される位置指定音声情報の音声ボリュームVcRは次式により計算する。
VcR=(AR/100) × Vo
位置指定音声情報を複数取得している場合には、それぞれについてこの計算を行う。音声ボリュームを決定した後、S2409へと進む。S2409では、音声再生部105に指示し、位置指定音声情報のL,Rチャンネルの音声ボリュームをS2408でそれぞれ決定された値に変更する。音声再生部105は指定された音声ボリュームで位置指定音声情報を再生し、生成された音声信号を音声信号重畳部107へと出力する。
S2410では、音声信号重畳部107に指示し次の処理を行う。すなわち、音声再生部105から入力されたマイクロホン106のLチャンネルに対応する補正値により音量が補正された位置指定音声情報の音声信号と、マイクロホン106のLチャンネルから入力された音声信号とを重畳する。また、音声再生部105から入力されたマイクロホン106のRチャンネルに対応する補正値によって音量が補正された位置指定音声情報の音声信号と、マイクロホン106のRチャンネルから入力された音声信号を重畳する。そして、生成された音声信号を映像信号処理部110に出力する。S2409で位置指定音声情報の音声ボリュームがマイクロホン106のLチャンネル、Rチャンネルそれぞれに対応して調整されている。このため、位置指定音声情報の音声があたかもビデオカメラ100からの相対位置で鳴っているように聞こえ、また、マイクロホン106から入力された音声信号と重畳しても、自然な音声として音声信号を生成できる。その後、S2411へと進む。S2411からS2414までの処理は、図7のS711からS714までの処理と同じであるため、説明を省略する。
以上説明したように、本実施形態によれば、ビデオカメラ100の位置及び方向、並びに使用するマイクの種別に応じて、メモリカード113から読み出された位置指定音声情報の音声のボリュームが決定される。これにより、あたかも使用しているマイクで集音されたかのように位置指定音声情報の音声を調整することができ、使用しているマイクで集音された音声と重畳した場合でも、自然で、臨場感のある音声をユーザは楽しむことができる。
なお、本実施形態では、テーブルを利用して補正値を決定し、位置指定音声情報の音声ボリュームを決定したが、音声ボリュームの決定方法はこの限りではない。双指向性マイクの場合、位置指定音声情報のマイクの前方からの角度をθとし、距離をdとすると、補正値Aは、例えば次式で表すことができる。
A=(1−d)× cosθ (ただし 0 ≦ d ≦ 1 とする)
このような式により補正値を決定し、位置指定音声情報の音声ボリュームを決定する方法による形態も本発明に含まれる。
(他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。
また、上述の第1乃至第3の実施形態において、位置指定音声情報の音声ボリュームの調整は、記録時に行わなくてもよい。例えば、ビデオカメラ100の周囲の所定数(例えば5個以内)の位置指定音声情報の音声と、仮想的な音源位置の情報とを、音声データや動画データとともに記録し、そのときのビデオカメラの位置、撮影方向の情報も記録する。さらに、マイクロホンの指向性に関する情報を記録する。そして、ビデオカメラや、コンピュータ等の外部装置で、記録した音声データや動画データを再生する時に、記録したこれらの情報を用いて、記録中と同様に、マイクロホンの指向性に基づいて、各位置指定音声情報の音声ボリュームを制御してもよい。

Claims (10)

  1. 声処理装置であって、
    前記音声処理装置の位置に対応する第1の位置情報を生成する位置情報生成手段と、
    前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、
    前記音声処理装置の位置に対応する第1の位置情報と第2の位置情報とに基づいて決定される距離が所定値以下となる前記第2の位置情報と、前記第2の位置情報に対応する音声情報とを取得する取得手段と、
    前記音声処理装置の位置に対応する第1の位置情報と前記第2の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性に基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、
    前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、
    前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段と
    有することを特徴とする音声処理装置。
  2. 前記音声信号生成手段によって生成された音声信号記憶媒体に記録する記録手段を有することを特徴とする請求項1に記載の音声処理装置。
  3. 前記取得手段は、前記第2の位置情報と前記音声情報とを前記音声処理装置以外の装置から無線通信によって取得することを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記取得手段は、前記第2の位置情報と前記音声情報とを前記音声処理装置が有する記憶媒体から取得することを特徴とする請求項1または2に記載の音声処理装置。
  5. 前記取得手段は、前記第2の位置情報と前記音声情報とを前記音声処理装置に取り付けられた記憶媒体から取得することを特徴とする請求項1または2に記載の音声処理装置。
  6. 前記集音手段は、前記音声処理装置が有するマイクロホンであることを特徴とする請求項1または2に記載の音声処理装置。
  7. 前記集音手段は、前記音声処理装置に取り付けられるマイクロホンであることを特徴とする請求項1または2に記載の音声処理装置。
  8. 前記集音手段は、前記音声処理装置が有するステレオマイクであることを特徴とする請求項1または2に記載の音声処理装置。
  9. 前記集音手段の集音特性は、前方指向、双指向または全指向であることを特徴とする請求項1から8のいずれか1項に記載の音声処理装置。
  10. コンピュータを音声処理装置として機能させるためのプログラムであって、
    前記コンピュータを、
    前記音声処理装置の位置に対応する第1の位置情報を生成する位置情報生成手段と、
    前記音声処理装置が向いている方向に対応する方向情報を生成する方向情報生成手段と、
    前記音声処理装置の位置に対応する第1の位置情報と第2の位置情報とに基づいて決定される距離が所定値以下となる前記第2の位置情報と、前記第2の位置情報に対応する音声情報とを取得する取得手段と、
    前記音声処理装置の位置に対応する第1の位置情報と前記第2の位置情報とに基づいて決定される相対位置と、前記音声処理装置が用いる集音手段の集音特性に基づいて、前記音声情報に対応する音声のボリュームを補正するための補正値を決定する決定手段と、
    前記補正値に基づいて、前記音声情報に対応する音声のボリュームを補正する補正手段と、
    前記音声情報に対応する音声のボリュームが補正された後、前記音声情報に対応する音声と前記集音手段によって集音された音声とが重畳された音声信号を生成する音声信号生成手段
    として機能させるためのプログラム。
JP2011027844A 2011-02-10 2011-02-10 音声処理装置及びプログラム Expired - Fee Related JP5815956B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011027844A JP5815956B2 (ja) 2011-02-10 2011-02-10 音声処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011027844A JP5815956B2 (ja) 2011-02-10 2011-02-10 音声処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012169783A JP2012169783A (ja) 2012-09-06
JP5815956B2 true JP5815956B2 (ja) 2015-11-17

Family

ID=46973512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011027844A Expired - Fee Related JP5815956B2 (ja) 2011-02-10 2011-02-10 音声処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5815956B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006314078A (ja) * 2005-04-06 2006-11-16 Sony Corp 撮像装置、音声記録装置および音声記録方法
JP4701944B2 (ja) * 2005-09-14 2011-06-15 ヤマハ株式会社 音場制御機器
JP2008085408A (ja) * 2006-09-26 2008-04-10 Funai Electric Co Ltd 撮影画像への情報付加システム

Also Published As

Publication number Publication date
JP2012169783A (ja) 2012-09-06

Similar Documents

Publication Publication Date Title
US20160088417A1 (en) Head mounted display and method for providing audio content by using same
JP5992210B2 (ja) 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
KR101812862B1 (ko) 오디오 장치
EP3624463B1 (en) Audio signal processing method and device, terminal and storage medium
US20150326963A1 (en) Real-time Control Of An Acoustic Environment
JP4926916B2 (ja) 情報処理装置、情報処理方法、およびコンピュータプログラム
KR20190091474A (ko) 가상 현실(vr), 증강 현실(ar), 및 혼합 현실(mr) 시스템들을 위한 분산형 오디오 캡처링 기술들
JP6323505B2 (ja) 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム
US9769585B1 (en) Positioning surround sound for virtual acoustic presence
US20140221017A1 (en) Geographical point of interest filtering and selecting method; and system
KR20120053006A (ko) 개선된 오디오/비디오 방법들 및 시스템들
US20140219485A1 (en) Personal communications unit for observing from a point of view and team communications system comprising multiple personal communications units for observing from a point of view
KR20060059866A (ko) 음상 제어 장치의 설계 툴 및 음상 제어 장치
CN101873522A (zh) 声音处理设备、声像定位方法和声像定位程序
US20240223692A1 (en) Voice call method and apparatus, electronic device, and computer-readable storage medium
CN111970626B (zh) 录音方法和装置、录音系统和存储介质
JP5815956B2 (ja) 音声処理装置及びプログラム
CN103916734A (zh) 一种声音信号处理方法及终端
US9088723B2 (en) Server, client terminal, and program
CN111492342A (zh) 音频场景处理
JP5647595B2 (ja) 移動通信端末、移動通信方法及び移動通信プログラム
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
KR20140129654A (ko) 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
CN105719682A (zh) 一种立体音录制回放的方法及系统
CN112368768A (zh) 信息处理设备、信息处理方法以及声学系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150925

LAPS Cancellation because of no payment of annual fees