JP3572849B2 - Sound source position measuring device and camera photographing control device - Google Patents
Sound source position measuring device and camera photographing control device Download PDFInfo
- Publication number
- JP3572849B2 JP3572849B2 JP3029297A JP3029297A JP3572849B2 JP 3572849 B2 JP3572849 B2 JP 3572849B2 JP 3029297 A JP3029297 A JP 3029297A JP 3029297 A JP3029297 A JP 3029297A JP 3572849 B2 JP3572849 B2 JP 3572849B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- microphone
- camera
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Focusing (AREA)
- Automatic Focus Adjustment (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は音源からの音情報によって音源位置を計算する音源位置計測装置、及び音源位置の情報に基づいてカメラの撮影位置を制御するカメラ撮影制御装置に関し、特に同一音源からの音が複数のマイクに到達するときの時間差を利用して音源位置を計算する音源位置計測装置、及びその計算結果に基づいてカメラの撮影位置を制御するカメラ撮影制御装置に関する。
【0002】
【従来の技術】
会議の映像記録や遠隔会議システムにおいては、会議の場全体を撮影したり、個々の発言者をズームアップして捉えることが重要である。これによって、発言者の表情や会議の雰囲気をよりよく捉え、会議の臨場感を高めることができるからである。しかも、このような撮影は自動的に行われることが望まれている。
【0003】
そこで、発言者を撮影できる会議システムとして特開平4−122184号公報や特開平4−297196号公報のような発明がなされている。前者は、個々の音源すなわち各発言者それぞれにマイクを割り当て、そのマイクからの信号によって発言者の検出を行うもので、発言者の撮影は1台のカメラによって行われる。一方後者の発明は、各話者ごとにカメラとマイクを割り当て、それぞれの話者の発言を各話者の声紋によって判別するという方法を採っている。また、特開平6−217304号公報では、話者ごとに固有の無線信号を発信する発信機を各マイクに取り付け、この無線信号を受信する受信機によって計測された受信信号をもとに発信機の座標位置を求める方法を採っている。
【0004】
ところが、これらのシステムでは、参加者全員に対してマイクを用意しなければならないため煩雑な設置作業が必要になると共に、カメラで撮影する位置はあらかじめ設定された場所のみであるため、柔軟性にかけていた。
【0005】
それに対し、特開平7−140527号公報に見られるカメラ撮影制御装置では、同一音源からの音を2本のマイクが捉えたときに、マイク間の音の位相差を利用して音源の方向を知るという方法をとることによって、少ないマイクで多くの音源方向にカメラを向けることができるように工夫している。
【0006】
また、同一音源からの音が複数のマイクに到達するときの時間差を利用して、音源の方向を知ること、すなわち音源定位が可能であることは広く知られている。この場合、2本のマイクでは、それらを結ぶ線の中点に垂直な面を対称面とした対称性が残るため、前後の判定ができなくなる。このため、特開平7−140527号公報に開示された発明では、カメラの脇にマイクを取り付け、カメラ前方の音のみを捉えるようにしている。
【0007】
また、会議の映像記録を行う際に各話者の発話時刻の情報を取得できると、後に映像の編集に場合に便利である。そこで従来は、各話者に割り当てられたマイクへの音声入力を検知することによって、発話時刻の情報を取得することも行われていた。
【0008】
【発明が解決しようとする課題】
しかし、話者をカメラで撮影する場合には、従来の方法によって求められるのはあくまで音源の方向であって、音源位置を求めるには至っていないという問題点があった。すなわち、求められる音源の方向はマイクの位置が基準となっていることから、マイクとカメラが一体でなくてはならない。その結果、マイクとカメラとを分離することができず、各話者からの発声を捉えやすい位置にマイクを配置することができないという制約があった。しかも、カメラで撮影する場合には、カメラから音源までの位置によってズームの度合いが変わるため、音源からの距離が分からないと、ズーム量を調節することはできない。
【0009】
また、発話時刻の情報を取得する場合に、話者ごとにマイクを割り当てるのでは、マイクの設置やケーブルの取り回し等のために煩雑な作業が必要となる。従って、もっと簡単な構成で、マイクの捉えた音声と話者とを対応づけられることが望まれている。
【0010】
本発明はこのような点に鑑みてなされたものであり、同一音源からの音が複数のマイクに到達するときの時間差を利用して、音源位置を求めることができる音源位置計測装置を提供することを目的とする。
【0011】
また、本発明の別の目的は、カメラとマイクとを異なる位置に配置しても、音源の方向へカメラを向けることができるカメラ撮影制御置を提供することである。
【0013】
【課題を解決するための手段】
本発明では上記課題を解決するために、音情報によって音源位置を計算する音源位置計測装置において、正三角形の3つの頂点に設置されたマイクと、1つの音源の発した音が前記マイクのそれぞれで捉えられた時刻を音検出時刻として検出する音信号検出手段と、前記マイクごとの音検出時刻に基づいて、前記マイクの2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する時間差測定手段と、前記各マイクペアを結ぶ線から±60度の範囲を前記各マイクペアの音源計測範囲とし、前記各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲を限定し、それぞれの前記マイクの位置と前記マイクペアごとの音の到達時間差とから、音源位置を計算する音源位置計算手段と、を有することを特徴とする音源位置計測装置が提供される。
【0014】
このような音源位置計測装置によれば、ある音源から音が発せられると、各マイクにより、その音源からの距離に応じた時刻にその音が捉えられる。次いで、マイクが音を捉えた時刻が音信号検出手段で検出され、音検出時刻とされる。すると、その音検出時刻に基づいて、時間差測定手段により、マイクペアごとの音の到達時間差が測定される。そして、音源位置計算手段により、各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲が限定され、マイクペアごとの音の到達時間差に基づいて音源位置が計算される。
【0015】
また、回転台の上に設置されたカメラの向きを制御しながら撮影を行うカメラ撮影装置において、正三角形の3つの頂点に設置されたマイクと、1つの音源の発した音が前記マイクのそれぞれで捉えられた時刻を音検出時刻として検出する音信号検出手段と、前記マイクごとの音検出時刻に基づいて、前記マイクの2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する時間差測定手段と、前記各マイクペアを結ぶ線から±60度の範囲を前記各マイクペアの音源計測範囲とし、前記各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲を限定し、それぞれの前記マイクの位置、前記マイクペアごとの音の到達時間差及び前記カメラの位置の情報に基づき、前記カメラに対する音源の相対的な位置を計算する音源位置計算手段と、前記音源位置計算手段が算出した音源の位置情報に基づき、音源の方向へカメラの向きを制御するカメラ制御手段と、を有することを特徴とするカメラ撮影制御装置が提供される。
【0016】
このようなカメラ撮影装置によれば、ある音源から音が発せられると、各マイクが、その音源からの距離に応じた時刻にその音を捉える。マイクが音を捉えた時刻が音信号検出手段により音検出時刻とされ、その音検出時刻に基づいて、時間差測定手段によりマイクペアごとの音の到達時間差が測定され、音源位置計算手段により、各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲が限定され、マイクペアごとの音の到達時間差に基づいて音源位置が計算される。そして、カメラ制御手段により、音源の方向へカメラの向きが制御される。これにより、常に話者に対してカメラを向けておくことができる。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本発明のカメラ撮影制御装置の原理構成図である。まず、所定の形状の三角形の3つの頂点にマイク1〜3が配置されている。音信号検出手段4は、1つの音源の発した音がマイク1〜3のそれぞれで捉えられた時刻を音検出時刻として検出するとともに、マイク1〜3の捉えた音声信号を映像・音声記録再生手段12に送る。時間差測定手段5は、マイクごとの音検出時刻に基づいて、マイク1〜3の2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する。音源位置計算手段6は、それぞれのマイク1〜3の位置とマイクペアごとの音の到達時間差とから、音源位置を計算する。計算された音源位置の情報は、カメラ制御手段7と発話情報記録手段11とに渡される。
【0022】
カメラ制御手段7は、カメラ本体9が載せられてた回転台を回転させるカメラ駆動手段8と、カメラ本体9のズーム量を調整するための電動レンズ10とを制御している。そして、カメラ制御手段7は、音源位置情報に基づき、カメラが音源を所定の大きさで捉えるようにカメラの向きとズーム量を制御する。カメラ本体9で撮影された映像信号は、映像・音声記録再生手段12に送られる。
【0023】
発話情報記録手段11は、マイクが音を捉えた際の音源位置情報と、発話時刻とを記録する。映像・音声記録再生手段12は、カメラ本体9から送られた映像情報を記録再生する。再生指示手段13は、発話情報記録手段11に格納された情報を用いて、映像・音声記録再生手段12に対して再生指示を与える。
【0024】
このようなカメラ撮影制御装置によれば、ある場所で発言をした者がいると、その声は3本のマイク1〜3で捉えられる。すると、音信号検出手段4により、各マイク1〜3が音を捉えた時刻が検出され、音検出時刻とされる。この際、話者のいる位置から各マイク1〜3までの距離の違いにより、各マイク1〜3が音を捉える時刻には時間差が生じている。そこで、時間差測定手段5によりマイク1〜3の2個ずつを組合わせることにより3組のマイクペアが作られ、そのマイクぺアごとの音の到達時間差が測定される。そして、各マイクペアの音の到達時間差を用いて、音源位置計算手段6によって音源位置が計算される。この際、カメラ本体9の位置を基準とした座標系における音源位置が算出される。
【0025】
音源位置が求まると、カメラ制御手段7によりカメラ本体9から見た音源の方向と距離とが計算され、カメラ駆動手段8を制御することによりカメラ本体9が音源の方向に向けられるるとともに、電動レンズ10を制御することによりズーム量が調節される。
【0026】
一方、音信号検出手段4が検出した音声情報と、カメラ本体9が撮影した映像情報とが映像・音声記録再生手段12に記録されるとともに、音源ごとの発話時刻が発話情報記録手段11に格納される。そして、この装置のオペレータは、発話情報記録手段11に格納された情報により任意の話者の発話時刻を知ることができ、特定の話者の発言のみを映像・音声記録再生手段12から抽出して再生することもできる。
【0027】
このようにして、3本のマイクのみで音源位置を測定できるため、マイクとカメラとを離しておいてもカメラを音源に向けることができるとともに、カメラから音源までの距離に応じてズーム量を調整することもできる。さらに、音源位置と発話時刻とを対応づけて記録しておくことができるため、各話者の発話時刻と映像・音声記録再生手段12に記録された情報とを対応づけることにより、映像のインデックスを作成することができる。
【0028】
ところで、本発明のカメラ撮影制御装置は、テレビ会議システムや重要な会議のビデオ撮影として有効に利用できる。そこで、本発明のカメラ撮影制御装置を用いて会議の内容を撮影する場合を例にとり実施の形態を説明する。
【0029】
図2は、第1の実施の形態に係るカメラ撮影制御装置の配置図である。この例では、司会者21と向き合って、複数の参加者22a〜22kがコの字形のテーブル23に着いている。会議室の中央には、正三角形の頂点に配置された3本のマイク1〜3が置かれている。これらのマイク1〜3は、カメラ撮影制御装置の装置本体100に接続されている。装置本体100には、カメラ200が接続されている。
【0030】
発言者の声をマイク1〜3が捉えると、装置本体100によって音源位置が計算され、カメラが発言者の方向に向けられるとともに、カメラから発言者までの距離に応じてズーム・インやズーム・アウトが行われる。
【0031】
なお、3本のマイク1〜3の作る正三角形の辺の長さ、すなわちマイク間の距離は任意に設定可能であるが、ここでは会議の場で設置しやすく、常温での音速値340m/ sから計算しやすい値である68cmとしている。
【0032】
図3は、第1の実施の形態に係るカメラ撮影制御装置の内部構成図である。音声入力手段である正三角形の頂点に配置された3本のマイク1〜3は音信号検出器110に接続されている。音信号検出器110は、マイク1〜3の捉えた音を音声信号として出力するとともに、各マイク1〜3が音を捉えた時刻に応じた信号を出力する。その信号は、時間差測定器120に入力される。時間差測定器120は、各マイク1〜3が音を捉えた時刻の時間差を計算して、時間差データを出力する。その時間差データは音源位置計算器130に入力される。音源位置計算器130は、時間差データから音源位置を計算して出力する。
【0033】
基準信号発生器101は、同一音源からの音を各マイクが捉えた時刻の時間差を計測するため基準クロックを発生し、その基準クロックを時間差測定器120と音源位置計算器130とに供給する。ここでは周期0.5μsの方形波を生成している。この周期によって音の時間差計測の分解能が決まる。この実施の形態ではマイク間の距離が68cmであるため、マイク間の最大の時間差は68cmを音速(340m/ s)で割った値、すなわち2msとなる。0.5μsという値はこの4000分の1の値であるため、会議における話者位置計算には十分な分解能である。
【0034】
カメラ制御装置140は、音源位置計算器130から音源位置データを受け取り、カメラ本体203の方向およびズーム量を制御する。カメラ本体203は回転台201の上に固定されており、回転台201を回転させることによりカメラ本体203の方向を変えることができる。また、カメラ本体203には、撮影範囲を変える電動レンズ202を備えており、この電動レンズ202の調整によりズーム量が調整できる。カメラ本体203の撮影した画像は、映像出力103として出力される。
【0035】
このような構成のカメラ撮影制御装置によれば、図2の司会者21若しくは参加者22a〜22kが発言すると、その音声は3つのマイク1〜3で捉えられ音信号検出器110に入力される。以下に、音信号検出器110の詳細を説明する。
【0036】
図4は、音信号検出器110の内部構成を示す図である。音信号検出器110は、基本的に、アンプ111a〜111c、信号・電力変換器112a〜112c、レベル判定器113a〜113c、及び微分器114a〜114cの4つの要素を1組とした、3つの組から構成されている。
【0037】
各マイク1〜3からの信号103a〜103cは、信号を増幅するアンプ111a〜111cに入力される。アンプ111a〜111cの出力は、それぞれに対応して設けられた信号・電力変換器112a〜112cに入力されるとともに、ミキサー115にも入力される。ミキサー115は、アンプによって増幅された音声信号をステレオ信号に変換し、音声出力102として出力する。
【0038】
各信号・電力変換器112a〜112cは、アンプ111a〜111cの出力信号から音信号のパワーを求め、パワー信号をそれぞれに対応して設けられたレベル判定器113a〜113cに入力する。各レベル判定器113a〜113cは、パワー信号を特定のしきい値によって2値化したのちTTL(Transistor-Transistor-Logic )レベルの信号を、それぞれに対応して設けられた微分器114a〜114cに入力する。各微分器114a〜114cは、入力された信号の出力の立ち上がりを検出し、立ち上がりを示すトリガ信号104a〜104cを出力する。
【0039】
なお、微分器114a〜114cの出力の前には、ダイオードの働きにより、正の微分結果のみを出力するようにしてある。また、アンプ111a〜111cの増幅度とレベル判定器113a〜113cのしきい値は、各組ごとにボリュームによって任意に設定することができる。
【0040】
このような音信号検出器110における信号の変化を、マイク1からの信号103aを例にとり以下に説明する。
図5は、音信号検出器110における信号の変化を示す図である。なお、この図では全て横軸が時間であり、縦軸が電圧である。
【0041】
(A)はマイク1から入力された信号の波形を示す図である。マイク1からは比較的弱い波形の信号103aが入力されている。この信号103aがアンプ111aで増幅される。
【0042】
(B)はアンプ111aで増幅後の信号の波形を示す図である。アンプ111aにより増幅されることにより、(A)に示した波形に比べ振幅の大きい波形となっている。この信号は、信号・電圧変換器112aにより、パワー信号に変換される。
【0043】
(C)は、パワー信号の波形を示す図である。パワー信号は、正の値だけの信号である。この信号は、レベル判別器113aでしきい値116によってレベル判定がなされる。
【0044】
(D)は、レベル判定後の信号の波形を示す図である。レベル判定により2値化された信号が得られる。この信号が微分器114aを通過することにより、トリガ状の信号となる。
【0045】
(E)は、微分器114aから出力される信号の波形を示す図である。微分器114aから出力されるトリガ信号状の波形は、微分器114aに入力された信号の立ち上がり時を示している。
【0046】
このようにして、マイク1が捉えた音から、その音を捉えた時点を示すトリガ信号状の波形が得られる。この処理は、他の2つのマイク2,3の捉えた音に対しても同様に行われ、それぞれのマイク2,3に対応するトリガ信号104b〜104cが音信号検出器110の出力信号となる。
【0047】
各音信号検出器110から出力された3つのトリガ信号104a〜104cは、基準信号発生器101からのクロック信号とともに時間差測定器120に入力される。
【0048】
図6は、時間差測定器120の内部構成を示す図である。時間差測定器120は、3つのトリガ信号変換器121a〜121cと、3つの遅延器122a〜122cとから構成される。トリガ信号変換器121a〜121cは、入力されたトリガ信号104a〜104cを基準信号発生器101が生成する方形波のH(ハイ)レベルと同じ時間幅の方形波に変換する。また、各遅延器122a〜122cは、2つの方形波の時間差を測定する。
【0049】
このような構成の時間差測定器120によれば、入力されたトリガ信号104a〜104cは、トリガ信号変換器121a〜121cにより、基準信号である方形波のHレベルと同じ時間幅の方形波に変換される。
【0050】
図7は、トリガ信号から得られる方形波を示す図である。(A)はトリガ信号を表しており、(B)は方形波を表している。すなわち、ある時刻から160.8μs後にトリガ信号104aがあったとすると、そのトリガ信号104aはつぎの基準クロックがHレベルとなっている161.0μsから161.25μsの間がHレベルであるような方形波120aに変換される。
【0051】
基準クロックの周期に量子化された信号は、次に2つずつの信号をペアにして、遅延器122a〜122cに入力される。すなわち、マイク1とマイク2とによる信号のペア、マイク2とマイク3とによる信号のペア、そしてマイク3とマイク1とによる信号のペアの3つの組が遅延器122a〜122cに入力される。
【0052】
図8は、遅延器122aの内部構成を示す図である。遅延器122aは、実際にディレイ回路によって構成することも可能であるが、この例では信号がクロックの周期に合わせて量子化されていることを利用して、順序判定器122aa、カウンタ122abおよびデータ変換器122acによって構成している。
【0053】
順序判定器122aaはどちらの入力が先にあったかを判定するもので、マイク1による信号123a、マイク2による信号123b、およびクリア信号122adの3つの入力を持つ。そして、順序判定器122aaは、順序を判定するための出力である順序判定ビット122ae,122afをデータ変換器122acに対して出力するとともに、時間差計測のための信号122agをカウンタ122abへ出力する。
【0054】
カウンタ122abには、順序判定器122aaの出力122ag以外に、基準信号発生器101からのクロック信号122ahが入力されている。カウンタ122abは、順序判定器122aaの出力した信号122agがHレベルである間だけ、入力されているクロック信号122ahのHレベルの回数を計数するものであり、計数結果である計数出力122aiをデータ変換器122acに対して出力する。また、カウンタ122abは、順序判定器122aaに対するクリア信号122adも出力する。
【0055】
データ変換器122acは、順序判定器122aaの2つの順序判定ビット122ae,122afと、2バイトの符号無し2進数のカウンタ122abの計数出力122aiを、2バイトの符号付き2進数に変換するものである。そして、変換結果を出力データ105aとするとともにデータ変換終了信号106aを1パルスのHレベルとして出力する。
【0056】
このような構成の遅延器122aは、次のように動作する。
2つの信号123a,123bが入力されると、順序判定器122aaにより、どちらの信号の入力が早かったかが判定される。信号123aの入力のほうが早くHレベルになれば順序判定ビット122aeがHレベルに保たれ、逆に信号123bの入力のほうが早くHレベルになれば順序判定ビット122afがHレベルに保たれる。そして、カウンタ122abへ出力される信号122agは、2つの信号123a,123b入力のどちらかがHレベルになった時点から他方の信号がHレベルになるまでHレベルが保たれる。これらの順序判定器122aaの状態は、クリア信号122adがHレベルになることによってクリアされる。したがって、順序判定ビット122aeおよび順序判定ビット122afの出力がこの順序で(1,0)ならば信号123aの入力が早く、また(0,1)ならば信号123bの入力が早いことが判定できる。
【0057】
カウンタ122abは、信号122agがHレベルになると、入力されているクロック信号122ahのHレベルの回数の計数を開始する。信号122agがL(ロー)レベルになると、カウンタ122abは計数を停止し、計数した情報を16ビットの符号なし2進数として計数出力122aiとする。したがって、クロックの周期0.5μsにこの計数結果を乗じた値が計測された時間差となるが、ここではカウンタ122abの計数した値をそのまま用いる。カウンタ122abは、計数出力122aiが出力されると同時にクリア信号122adにも1パルスのHレベルの信号を送り出す。このクリア信号122adによって、順序判定器122aaの状態がクリアされ、次の入力に備える。
【0058】
2つの順序判定ビット122ae,122afの出力と2バイトの符号無し2進数のカウンタ122abの計数出力122aiとは、データ変換器122acにより2バイトの符号付き2進数に変換され、出力データ105aとなる。データ変換が終了すると、データ変換終了信号106aを1パルスのHレベルとして出力する。出力データ105aとデータ変換終了信号106aとは、次の音源位置計算器130に送られる。なお、3つの遅延器122a〜122cのそれぞれのデータ変換器は、マイクペアの順序を(1、2)、(2、3)および(3、1)とし、それぞれ第1列のマイクの音のほうが先であると、符号をプラスにし、逆の場合は符号をマイナスにする。
【0059】
ここで、音源位置計算器130の機能の詳細を説明する前に、音源位置の計算方法について述べる。音源位置計算の基本は、2つのマイクにおける音源方向の計算にある。
【0060】
図9は、音源方向の計算のためのマイクの座標系を示す図である。図に示すように、2つのマイク1,2を通る直線をu軸とし、2つのマイク1,2の中点を原点としたu−v座標系を考える。そして原点から−aだけ離れた位置(−a,0)にマイク1が、またaだけ離れた位置(a,0)にマイク2が置かれており、音源Pの位置が原点から(r,Θ)の位置にあるとすると、音源Pからの音がそれぞれのマイクに到達するときの時間差dtは、
【0061】
【数1】
dt=〔(r2 +2racos Θ+a2 )1/2 −(r2 −2racos Θ+a2 )1/2 〕/V0 ・・・(1)
となる。ただし、V0 は音速の値(常温で340m/ s)である。これをrをパラメータとしてプロットしてみる。
【0062】
図10は、マイク間の時間差と音源方向との関係式を示すグラフである。ただし、ここではa=1mで計算している。このように、dtに対するrの効果はΘに比べて十分小さく、rの値を変化させたとしても角度誤差は5度程度であることと、いずれのrをとってもΘが約25度より小さくなる領域ではそれまでの領域に比べてdtに対する角度感度が高くなっていることが分かる。このことから、マイクペアへの音の到達時間差を知ることによって、その音の音源の方向、すなわちu−v座標の原点と音源とを結ぶ直線を求めることができる。別のマイクペアによってもうひとつの直線を求めれば、それらの直線の交点から音源位置が求められる。
【0063】
本実施の形態では、マイクペアの組み合わせによって音源位置の計算を行うため、X軸から±60度の範囲を各マイクペアの計測範囲として音源位置計算を行う。
【0064】
図11は、1組のマイクペアの計測範囲を示す図である。2本のマイク1,2がu軸上に原点を挟んで配置されているとすれば、このマイクペアの計測範囲は、原点から見て、u軸を中心に正の方向に±60°、負の方向に±60°である。このように計測範囲を定め、3組のマイクペアのうち、音源位置が計測範囲内にある2つのマイクペアを使って音源位置の計算を行う。3本のマイクは正三角形の頂点に配置されているため、任意の音源位置に対して必ず2つのマイクペアがこの範囲に収まる。したがって、音源位置計算に利用するデータは、3つの時間差計数データから最も時間差の小さいデータを除外したものとなる。
【0065】
そこで、音源位置の計算には、まず、それぞれのマイクペアにおいて個別に図11に示したような座標系をとって音源方向を求める。音源方向は、計測された時間差データを角度−時間差情報テーブルと比較することによって求める。
【0066】
図12は角度−時間差情報テーブルを示す図である。この例ではマイク間の距離が68cmであるので、図のテーブルではrの値を3mに設定して、上の式でΘが0度から60度まで5度ごと2つのマイクの時間差情報を入力してある。テーブルの第1列目は、上から順に60度から5度ごとに0度までの角度が与えられており、第2列目にはその角度での2つのマイクの時間差データが格納されている。時間差データは、上の式で計算した時間差を基準クロックの周期である0.5μsで割った値の2バイトの符号付き整数表現にしてある。これによって、時間差測定器120で求めた時間差データとの比較が直接行える。時間差データから方向を知るには、このテーブルの第2列目を参照し、時間差データの絶対値がテーブル内の値を超えない最大のセルを見出せば、そのテーブルの第1列から角度データを得ることができる。このとき、図11のv軸の両側で線対称になっているが、時間差データの値がマイナスならばマイク1側に発話位置があり、またプラスならばマイク2側に発話位置があることになる。
【0067】
また、ここで求められた角度データは、2つのマイクを結ぶ軸(図11のu軸)を対称軸としてその軸から両側の2つの直線が解として成り立つが、この対称性の問題は、時間差データとマイクペアの組み合わせ情報とによって解決することができる。
【0068】
図13は、2つの時間差情報から音源位置を求めるための方法を説明する図である。この例では、マイク3,1のマイクペアとマイク2,3のマイクペアにより音源位置を求める。なお、各マイク1〜3を頂点とする正三角形の重心(各頂点と対辺の中点とを結ぶ線分の交点)が原点となるようにx−y座標が定義されている。マイク3,1のマイクペアからは2本の直線31a,31bが求められ、マイク2,3のマイクペアからも2本の直線32a,32bが求められる。また、音源Pからの音はマイク3に達するよりも速くマイク1およびマイク2に達するため、マイク2とマイク3とのペアからはプラスの角度情報(マイク2側に音源があることを示す)が得られ、またマイク3とマイク1のペアからはマイナスの角度情報(マイク1側に音源があることを示す)が得られる。しかも、図11に示したように、各マイクペアの計測範囲は制限されている。したがって、時間差情報の組み合わせにより、音源の範囲が限定できる。図13の例における音源位置は、第1象限のx軸からの角度が0〜60度の範囲に限定される。すなわち、直線31bおよび直線32bの可能性はないことになり、結局直線31aおよび直線32aの2つが残ることになる。
【0069】
このように、マイクペアの組み合わせと各マイクペアにおける時間差データの符号によって音源位置の範囲が特定される。その全部の組み合わせを以下に示す。
【0070】
図14は、マイクペアの組み合わせと時間差データの符号によって決まる音源の範囲を示す図である。図中での1、2、3はそれぞれマイク1,2,3の位置を示している。また、マイク1,2のマイクペアの時間差データを(1,2)、マイク2,3のマイクペアの時間差データを(2,3)、マイク3,1のマイクペアの時間差データを(3,1)としている。したがって、マイクペアの時間差データの符号と音源の範囲との関係は以下のようになる。なお、以下の説明における角度は、正のx軸からの角度(反時計回り)で表す。
【0071】
(2,3)>0、(3,1)<0であれば、音源は正のx軸からの角度が0〜60度の範囲内に限定される。
(1,2)>0、(3,1)<0であれば、音源は正のx軸からの角度が60〜120度の範囲内に限定される。
【0072】
(1,2)>0、(2,3)<0であれば、音源は正のx軸からの角度が120〜180度の範囲内に限定される。
(2,3)<0、(3,1)>0であれば、音源は正のx軸からの角度が180〜240度の範囲内に限定される。
【0073】
(1,2)<0、(3,1)>0であれば、音源は正のx軸からの角度が240〜300度の範囲内に限定される。
(1,2)<0、(2,3)>0であれば、音源は正のx軸からの角度が300〜360度の範囲内に限定される。
【0074】
なお、この図に示したマイクペアの時間差データの符号と音源の範囲との関係は、音源位置領域テーブルとして音源位置計算器130内に予め保持しておく。以上のようにして特定された2つの直線を図11のu−v座標系から図13のようなx−y座標系に座標変換すれば、それらの交点から音源位置P(x,y)が求められる。図13の例では、マイク3,1のペアの場合は点(−a/ 2,a/ 2√3)を通り、x軸と「60度+上記の方法で求めたu−v座標系での角度」の角度をなす直線31aを、またマイク2,3のペアの場合は点(0,−a/ 2√3)を通りx軸と「上記の方法で求めたu−v座標系での角度」の角度をなす直線32aを得て、それら直線の交点を求めればよい。
【0075】
位置の計算は、時間差測定器120で得られた3つの符号付き2進数情報を用いて、音源位置計算器130で行われる。音源位置計算器130はコンピュータ上に構築されている。
【0076】
図15は、音源位置測定器の内部構成を示す図である。図に示すように、音源位置測定器130は、CPU(Central Processing Unit )133を中心に構成されている。
【0077】
3つのポート131a〜131cは、時間差測定器120で計測されたデータを取り込みCPU133に供給する。ANDゲート132は、データをCPU133に取り込むタイミングを与える。CPU133は、各ポート131a〜131cからのデータを蓄えるためのレジスタ133a〜133cを有している。また、CPU133は、バス134を介して各種周辺機器との間のデータ転送を行う。
【0078】
バス134には、入力装置135、出力ポート136、メモリ137、およびハードディスク138が接続されている。入力装置135は、カメラとマイクとの位置関係を入力するためのものである。出力ポート136は、計算結果をカメラ制御装置140へ出力するための通信ポートである。メモリ137は、CPU133が実行するプログラムを一時的に保持するためのものである。ハードディスク138は、プログラム、角度−時間差情報テーブル、音源位置領域テーブルおよび座標変換テーブルを保持している。なお、音源位置計算器130で行われる音源位置の計算処理は、ハードディスク138に格納されたプログラムをメモリ137にロードし、そのプログラムをCPU133が実行することにより実施される処理である。
【0079】
このような音源位置計算器130に入力される時間差測定器120からの3つのデータ出力105a〜105cは、まず3つのポート131a〜131cに伝えられ、時間差測定器120からの出力106a〜106cがすべてHレベルになってANDゲート132の出力がHレベルになった時点で、CPU133の中の3つのレジスタ133a〜133cに取り込まれる。3つのレジスタ133a〜133cに取り込まれた3つの時間差データの内、最も時間差の少ないデータを除いた2つの時間差データが、あらかじめメモリ上に確保されている変数領域t1およびt2に書き込まれる。そして、この2つの時間差データに基づいて、前述の音源位置の計算が行われる。これにより、図13のx−y座標系での音源位置が求められる。その後、カメラ位置を原点にとったX−Y座標系へ座標変換し、X−Y座標系での音源位置P(X,Y)を求める。
図16は、マイクの座標系とカメラの座標系の関係を示す図である。マイク1〜3の中心(三角形の重心)がx−y座標の原点であり、カメラ200(図2に示す)の回転中心が、X−Y座標の原点である。
【0080】
実際には、マイク2およびマイク3を結ぶ線と平行なx軸と回転台201の0度の方向が平行となるようにマイク1〜3とカメラ200とが設置される。したがってこの際の座標変換は平行移動のみである。平行移動量のデータは、装置を設置した時点で測定し、入力装置135によって音源位置計算器130に入力する。音源位置計算器130は、このデータを用いて座標変換を行う。座標変換は平行移動だけでなく、両方の座標系がある角度をなしていた場合でも、この回転による座標変換を行うだけでよい。ただし、その際にはx−y座標系とX−Y座標系のなす角度を測定しておく必要がある。このようにして求められた音源位置P(X,Y)は、2バイトの浮動小数点データとして出力ポート136から送り出され、カメラ制御装置140に入力される。
【0081】
図17は、カメラ制御装置140の内部構成を示す図である。この図に示すように、カメラ制御装置140は、角度計算部141、ズーム量計算部142、データ出力部143、キャリブレーション部144、ボリューム145、及びキャリブレーション設定ボタン146から構成される。
【0082】
角度計算部141には、音源位置データP(X,Y)と回転台201の動作を知らせる信号204とが入力されている。角度計算部141は、信号204がLレベルのときに、音源位置データP(X,Y)を極座標系のデータ(R,Θ)に変換する。Rはカメラから音源位置までの距離、Θは音源位置PとX−Y座標系の原点とを結んだ線がX軸となす角度である。さらに、Θの値はロータリーエンコーダのデータフォーマットに変換され、データ出力部143に送られる。ここでは、角度Θを1.4で割った値の整数値を8ビットの符号無し2進数に変換する。この1.4という値は、360度を8ビットのデータの最大値256で割ったものである。角度計算部141で計算された音源までの距離Rは、ズーム量計算部142とキャリブレーション部144に送られる。キャリブレーション部144は、カメラと人物との距離が変化すると、それに合わせてカメラのズーム量も変化するため、基準距離と基準ズーム量の値という2つの基準情報をズーム量計算部142に設定するために設けている。キャリブレーション部144にはズーム量を手動で設定できるボリューム145およびキャリブレーション設定ボタン146が接続されている。キャリブレーション部144は、角度計算部141が出力する距離データを用い、その時点でのズーム量をボリューム145によって設定する。ボリューム145を回すとカメラ200の電動レンズが駆動され、ズーム量が変化するようになっている。ボリューム145を操作してちょうどよいズーム量となった時点でキャリブレーション設定ボタン146を押すと、その時点での距離データRoとズーム量データZoが基準情報としてズーム量計算部142に出力される。これらのデータを受け取ったズーム量計算部142は、それらの値をメモリに保持し、それ以後のズーム量の計算に用いる。ただし、本装置のように撮影対象が人物であるような場合には撮影対象の大きさが決まっているとみて差し支えないため、あらかじめ上の2つの基準情報のデフォルト値を設定してあってもよい。
【0083】
さて、角度計算部141で計算された音源までの距離Rはズーム量計算部142に送られ、ズーム量が計算される。ズーム量の計算は、距離Rを基準距離Roで割り、その値に基準ズーム量Zoを乗じることによって行う。計算された角度データとズーム量は、データ出力部143を経てそれぞれ回転台201および電動レンズ202に送られ、カメラ撮影装置が駆動される。このとき、回転台201の動作が終了しない間に次の撮影位置情報が出力されないよう、回転台201の動作を知らせる信号204が回転台201からカメラ制御装置140に送り出される。この信号はHレベルならば回転台201が動作中であることを示し、その間はカメラ制御装置140における計算は行われない。具体的には、この信号は角度計算部141に送られ、この信号がHレベルの間は音源位置計算器130から送られてくるデータを内部に取り込まない。
【0084】
このようにしてカメラ撮影が行われた会議は、映像出力103および音声出力102を通して記録したり遠隔地に電送することができる。この際、各会議場においては参加者全員のためにマイクを用意する必要がないとともに、3本のマイクとカメラとが同じ場所にある必要もない。したがって、マイクは全員の会話を捉えやすい位置に配置し、カメラは全員の表情を捉えやすい位置に配置できる。
【0085】
なお、上記の説明では、2本のマイクが捉えた音の到達時間差と音源方向との関係が、音源までの距離に依存しないことを利用して音源位置の計算を行っているが、3つのマイクが捉えた音の時間差から幾何学的に音源位置を計算することもできる。以下にその計算方法について説明する。
【0086】
まず、簡単のために、x−y座標系の(0,a)、(0,0)、(a,0)の3個所に3本のマイク1〜3が設置されているものとする。音源P(x,y)から発せられた音がそれぞれのマイク1〜3に達した時間を、それぞれt1、t2、t3とする。音源Pと各マイクとの距離をそれぞれl1,l2
,l3とすると、
【0087】
【数2】
である。各マイク間の時間差すなわちt1−t2をdt1 、t2−t3をdt2 、t3−t1をdt3 とし、音速の値をvsとすると、各マイク間の音の到達時間差は音源から各マイクまでの距離によって次のように与えられる。
【0088】
【数3】
これらの、式(2)、式(3)から
【0089】
【数4】
となり、この連立方程式を解けば音源位置P(x,y)を求めることができる。このような音源位置の求め方は、三角測量の原理と同様のものであって、広く知られている。この計算方法を用いるか、あるいは前述の第1の実施の形態で用いた方法で計算するのかは、音源位置計算器の性能や、要求される音の時間差計測の分解能によって判断する。例えば、高い分解能が要求される場合には、簡単な計算で高速に演算できる第1の実施の形態で説明した方法を用い、分解能が低くてよい場合には、角度−時間差情報テーブルなどの事前の準備が省ける幾何学的な音源位置計算方法を用いることができる。
【0090】
また、上記の第1の実施の形態では、マイクの床からの高さとカメラの床からの高さが同じ高さであるようなシステムであったが、カメラの位置を高くすることも可能である。この場合、マイクの床からの高さからカメラの床からの高さを引いた値をZ軸方向へのオフセット量dとして、カメラ制御装置内の計算において鉛直方向のカメラの向きを計算すればよい。ただし、上の座標系においては、鉛直下向きをZ軸の正の方向としている。すなわち、音源位置計算器130で求めてカメラ位置のオフセットを加えた音源位置P(X,Y)をP(X,Y,d)とし、床と垂直な方向の角度Φを
【0091】
【数5】
d/(X2+Y2)1/2 =tan Φ・・・(5)
によって求めればよい。Z軸方向にも回転可能な回転機構を実施例1の回転台に付加すれば、Z軸方向にオフセットがあった場合でも正しく話者を捉えることが可能となる。この回転機構は、第1の実施の形態と全く同様の構成で実現することができる。
【0092】
さらに、第1の実施の形態においては2次元平面内での音源位置計算を行っていたが、マイクを正三角錐の4つの頂点に配置することによって、3次元空間内の音源位置を知ることが可能である。正三角錐では4つの正三角形があり、それぞれの三角形で実施例1のような計算を行って各三角形の平面上での音源方向を示す三角形面に垂直な面を割り出すことができる。各正三角形ごとに音源方向を示す平面を見出せば、あとは各平面の交点を求めることで3次元空間内の音源位置を知ることができる。
【0093】
ところで、上記の第1の実施の形態では算出された音源位置情報をカメラの制御に利用する場合のみを説明したが、音源位置情報を映像信号のインデックス情報として利用することもできる。そのようなインデックス機能を有する音源位置記録装置を第2の実施の形態として以下に説明する。
【0094】
図18は、音源位置記録装置の内部構成図である。この音源位置記録装置は、3本のマイク1〜3、音信号検出器110、時間差測定器120、音源位置計算器130及び基準信号発生器101の構成は、図3に示した第1の実施の形態の構成と同じであるため、同一の番号を付して説明を省略する。また、この図には示していないが、音源位置計算器130には図3に示したものと同様のカメラ制御装置140が接続されており、そのカメラ制御装置140はカメラ本体203が設置された回転台201と電動レンズ202とを制御している。
【0095】
この実施の形態では、音源位置計算器130の出力は、カメラ制御装置140とともにコンピュータ151にも入力されている。コンピュータ151には、入力装置152、表示装置153、記憶装置154及び制御装置155が接続されていている。制御装置155には、さらに記録再生装置156が接続されている。
【0096】
コンピュータ151は、音源位置テーブルと時刻テーブルとを有しており、音源位置計算器130が出力した音源位置情報を音源位置テーブルに、またその情報を受け取った時刻を時刻テーブルに登録する。なお、コンピュータ151が実行する処理内容、及び音源位置テーブルと時刻テーブルとの詳細は後述する。
【0097】
入力装置152は、音源位置計算終了の合図やコメントデータなどの入力を行うためのものである。表示装置153は、音源位置データ、時刻データおよびコメントデータを表示するためのものである。記憶装置154は、音源位置データと時刻データおよびコメントデータを記憶するためのものであり、ハードディスク装置等を使用する。
【0098】
制御装置155は、記録再生装置156を制御するためものもである。記録再生装置156には音源位置記録と同時に、第1の実施の形態によって記録された映像記録が収められる。この第2の実施の形態では、ハードディスク上にディジタル記録された映像記録を用いている。ハードディスクは通常のテープ記録と異なり、ランダムアクセスが素早く行えるため、映像の検索作業を短時間に済ませることができる。利用者は、すでに記憶装置154に保存されている音源位置データと時刻データおよびコメントデータを表示装置153上に表示し、ここで再生の指示を作成する。例えば、司会者の発言部分だけを通して再生すれば、会議の議題リストを作成するといった作業が効率よく行える。制御装置155は、コンピュータが作成した再生時刻リストを元に再生装置の早送りや再生の指示を行う。再生が開始されると、入力装置から早送りの指示があるまで再生を続ける。
【0099】
図19は、音源位置テーブルの例を示す図である。音源位置テーブル41は2列36行のマトリックスであり、第1列目および第2列目にはそれぞれx座標値及びy座標値が格納される。このマトリックスには初期値として「nul」が入力されている。なお、36行という行数は、角度分解能が5度程度であることと、会場における参加者の数として高々この程度を想定していることによる。
【0100】
そして、マトリックスに格納されていない新しい音源位置データが音源位置計算器130から送られてくると、その座標値を次の行に追加して格納していく。このとき、すでに登録済みのデータと比較して角度誤差が5度以内で、かつ距離の誤差がx方向、y方向ともに±25cm以内であれば同じ位置とみなし、追加処理は行わない。その理由は、話者は着座姿勢を保っているとしても常に固定しているわけではなく、椅子を動かしたり頭をゆすったりすることが考えられるためである。
【0101】
図20は、時刻テーブルの例を示す図である。時刻テーブル42は初期状態で36列1024行のマトリックスであり、各行のインデックスが音源位置テーブル41の各行のインデックスに対応している。このマトリックスは、第1列以外には初期値として「nul」が入力されているが、第1列目には初期値として1が格納されている。この第1列目はポインタ情報を格納するために利用する。すなわち、この例では音源P1の時刻データがすでに3つ記録されているので、P1のポインタを与える第1行目には4が設定される。この情報により、音源P1からの次の時刻データがあった場合、このポインタを参照することによってどのアドレスにその時刻データを記入すればよいかをたやすく知ることができる。時刻データの記入が終わると、ポインタの値はインクリメントされる。
【0102】
時刻の表現形式は、ここでは計測開始時からの経過時間を0.1秒単位で計り、その値を2バイトの符号無し2進数によって表現している。したがって、1.3秒後の場合の時刻表現は「13」となる。もちろん、計測開始時からの経過時間が分かればよいので、別の表現をとっても構わない。この時、受け取った音源位置がすでに音源位置テーブル41に登録されているものであれば、その音源位置を示す行インデックスを求め、時刻テーブル42の対応する列インデックスのすでに記録されている時刻情報の後に新しい時刻情報が追加される。受け取った音源位置が音源位置テーブル41に未登録であれば、この音源位置を新たに音源位置テーブル41に時刻とともに登録する。
【0103】
音源位置テーブル41は2×36の大きさの2次元マトリックスであり、コンピュータのメモリ上に確保される。また時刻テーブル42は記録開始時は36×1024の大きさの2次元マトリックスがコンピュータのメモリ上に確保され、同一位置の時刻情報が満杯になると自動的にメモリアロケーション機能によって新たに1024行が追加される。
【0104】
図21は、音源位置記録の処理手順を示すフローチャートである。これはコンピュータ151によって行われる処理である。以下、処理手順をステップ番号に沿って説明する。
〔S1〕音源位置テーブルT1 と時刻テーブルT2 との領域をメモリ上に確保する。
〔S2〕位置格納変数Pと時刻格納変数xを確保する。
〔S3〕音源位置テーブルT1 と時刻テーブルT2 とを初期化する。
〔S4〕時刻tのカウントを開始する
〔S5〕音源位置計算器からの出力があるか否かを判断する。出力があればステップS6に進み、出力がなければこの処理を繰り返す。
〔S6〕現在の時刻tを時刻格納変数xに入力する。
〔S7〕音源位置(x、y)を位置格納変数Pに入力する。
〔S8〕位置格納変数Pが既に音源位置テーブルT1 に登録されているが否かを判断する。登録済みであればステップS10に進み、未登録であればステップS9に進む。
〔S9〕音源位置テーブルT1 に位置格納変数Pの値を新たに格納し、ステップS10に進む。
〔S10〕音源位置テーブルT1 での位置格納変数Pの行インデックスkを求める。
〔S11〕時刻テーブルT2 の列kの第1行目に格納されているポインタ値aを求め、時刻テーブルT2 のa行k列にxの値を格納する。
〔S12〕時刻テーブルT2 の列kの第1行目に格納されているポインタ値aをインクリメントする。
〔S13〕音源位置の計算が終了かいなかを判断する。終了であればステップS14に進み、終了でなければステップ5に進む。
〔S14〕記憶装置上に音源位置テーブルT1 および時刻テーブルT2 のデータを保存する。
〔S15〕必要に応じてコメントを付加し、処理を終了する。
【0105】
このようにして、音源位置と発話時刻の情報を映像のインデックスとして利用することができる。
【0106】
【発明の効果】
以上説明したように本発明の音源位置計測装置では、3本のマイクを所定の三角形の頂点に配置し、同一音源からの音が3本のマイクに到達する時間差を測定するようにしたため、各マイクの位置とマイクペアごとの音の到達時間差とから、音源の方向のみならず音源位置を算出することができる。
【0107】
また、本発明のカメラ撮影制御装置では、各マイクの位置、マイクペアごとの音の到達時間差及びカメラの位置から、カメラに対する音源の相対的な位置を計算するようにしたため、カメラとマイクとが離れた位置にあっても、カメラが音源の方向を向くように制御することができる。
【図面の簡単な説明】
【図1】本発明のカメラ撮影制御装置の原理構成図である。
【図2】第1の実施の形態に係るカメラ撮影制御装置の配置図である。
【図3】第1の実施の形態に係るカメラ撮影制御装置の内部構成図である。
【図4】音信号検出装置の内部構成を示す図である。
【図5】音信号検出器における信号の変化を示す図である。(A)はマイクから入力された信号の波形を示す図であり、(B)はアンプで増幅後の信号の波形を示す図であり、(C)は、パワー信号の波形を示す図であり、(D)は、レベル判定後の信号の波形を示す図であり、(E)は、微分器から出力される信号の波形を示す図である。
【図6】時間差測定器の内部構成を示す図である。
【図7】トリガ信号から得られる方形波を示す図である。(A)はトリガ信号を表しており、(B)は方形波を表している。
【図8】遅延器の内部構成を示す図である。
【図9】音源方向の計算のためのマイクの座標系を示す図である。
【図10】マイク間の時間差と音源方向との関係式を示すグラフである。
【図11】1組のマイクペアの計測範囲を示す図である。
【図12】角度−時間差情報テーブルを示す図である。
【図13】2つの時間差情報から音源位置を求めるための方法を説明する図である。
【図14】マイクペアの組み合わせと時間差データの符号によって決まる音源の範囲を示す図である。
【図15】音源位置測定器の内部構成を示す図である。
【図16】マイクの座標系とカメラの座標系の関係を示す図である。
【図17】カメラ制御装置の内部構成を示す図である。
【図18】音源位置記録装置の内部構成図である。
【図19】音源位置テーブルの例を示す図である。
【図20】時刻テーブルの例を示す図である。
【図21】音源位置記録の処理手順を示すフローチャートである。
【符号の説明】
1〜3 マイク
4 音信号検出手段
5 時間差測定手段
6 音源位置計算手段
7 カメラ制御手段
8 カメラ駆動手段
9 カメラ本体
10 電動レンズ
11 発話情報記録手段
12 映像・音声記録再生手段
13 再生指示手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention is a sound source position measuring device that calculates a sound source position based on sound information from a sound source, as well as Camera shooting control device that controls the shooting position of the camera based on information on the sound source position In place In particular, a sound source position measurement device that calculates a sound source position using a time difference when a sound from the same sound source reaches a plurality of microphones, as well as Camera photographing control device that controls the photographing position of the camera based on the calculation result In place Related.
[0002]
[Prior art]
2. Description of the Related Art In recording video of a conference or a remote conference system, it is important to photograph the entire conference venue or to capture individual speakers in a zoom-in manner. Thereby, the expression of the speaker and the atmosphere of the meeting can be better grasped, and the presence of the meeting can be enhanced. Moreover, it is desired that such photographing be performed automatically.
[0003]
Therefore, inventions such as Japanese Patent Application Laid-Open Nos. 4-122184 and 4-297196 have been made as conference systems capable of photographing a speaker. In the former, a microphone is assigned to each sound source, that is, each speaker, and the speaker is detected by a signal from the microphone. The photographing of the speaker is performed by one camera. On the other hand, the latter invention employs a method in which a camera and a microphone are assigned to each speaker, and the utterance of each speaker is determined based on the voiceprint of each speaker. In Japanese Patent Application Laid-Open No. Hei 6-217304, a transmitter for transmitting a radio signal unique to each speaker is attached to each microphone, and the transmitter is transmitted based on a reception signal measured by a receiver for receiving the radio signal. The method of obtaining the coordinate position of is adopted.
[0004]
However, in these systems, microphones must be prepared for all participants, which requires cumbersome installation work, and the camera shoots only at preset locations, so flexibility is limited. Was.
[0005]
On the other hand, in the camera photographing control device disclosed in Japanese Patent Laid-Open No. Hei 7-140527, when two microphones capture sound from the same sound source, the direction of the sound source is changed by utilizing the phase difference of the sound between the microphones. By taking the method of knowing, we have devised so that the camera can be aimed at many sound source directions with a small number of microphones.
[0006]
It is widely known that it is possible to know the direction of a sound source, that is, to perform sound source localization by using a time difference when sounds from the same sound source reach a plurality of microphones. In this case, with the two microphones, the symmetry with the plane perpendicular to the midpoint of the line connecting them remaining as the symmetry plane remains, so that it is not possible to determine the front and rear. For this reason, in the invention disclosed in Japanese Patent Application Laid-Open No. Hei 7-140527, a microphone is attached to the side of the camera so that only the sound in front of the camera is captured.
[0007]
In addition, if the information of the utterance time of each speaker can be acquired when the video of the conference is recorded, it is convenient for editing the video later. Therefore, conventionally, the information of the utterance time has been obtained by detecting a voice input to a microphone assigned to each speaker.
[0008]
[Problems to be solved by the invention]
However, when a speaker is photographed by a camera, there is a problem that the direction obtained by the conventional method is only the direction of the sound source, and the position of the sound source has not yet been obtained. That is, the direction of the sound source to be obtained is based on the position of the microphone, so that the microphone and the camera must be integrated. As a result, the microphone and the camera cannot be separated, and there is a restriction that the microphone cannot be arranged at a position where the utterance from each speaker can be easily captured. In addition, when photographing with a camera, the degree of zoom varies depending on the position from the camera to the sound source. Therefore, the zoom amount cannot be adjusted unless the distance from the sound source is known.
[0009]
In addition, when utterance time information is acquired, allocating a microphone to each speaker requires cumbersome work for installation of the microphone, routing of cables, and the like. Therefore, it is desired that the voice captured by the microphone and the speaker can be associated with a simpler configuration.
[0010]
The present invention has been made in view of such a point, and provides a sound source position measuring device capable of determining a sound source position by using a time difference when sounds from the same sound source reach a plurality of microphones. The purpose is to:
[0011]
Another object of the present invention is to provide a camera photographing control device that can point a camera toward a sound source even when a camera and a microphone are arranged at different positions.
[0013]
[Means for Solving the Problems]
In the present invention, in order to solve the above-described problems, in a sound source position measurement device that calculates a sound source position based on sound information, Correct Microphones installed at three vertices of a triangle, sound signal detecting means for detecting a time at which a sound emitted from one sound source is captured by each of the microphones as a sound detection time, and a sound detection time for each microphone. Time difference measuring means for measuring the arrival time difference of the sound for each of the three microphone pairs obtained by combining two of the microphones on the basis of The range of ± 60 degrees from the line connecting the microphone pairs is taken as the sound source measurement range of each microphone pair, and the possible range of the sound source is limited by the sign of the arrival time difference of the sound captured by each microphone pair, The position of each microphone Said And a sound source position calculating means for calculating a sound source position from a sound arrival time difference for each microphone pair.
[0014]
According to such a sound source position measuring device, when a sound is emitted from a certain sound source, each microphone captures the sound at a time corresponding to a distance from the sound source. Next, the time at which the microphone captures the sound is detected by the sound signal detecting means, and is set as the sound detection time. Then, based on the sound detection time, the time difference measuring means measures the arrival time difference of the sound for each microphone pair. And The sound source position calculation means limits the possible range of the sound source by the sign of the arrival time difference of the sound captured by each microphone pair, and based on the arrival time difference of the sound for each microphone pair. The sound source position is calculated.
[0015]
Further, in a camera photographing apparatus that performs photographing while controlling the direction of a camera installed on a turntable, Correct Microphones installed at three vertices of a triangle, sound signal detecting means for detecting a time at which a sound emitted from one sound source is captured by each of the microphones as a sound detection time, and a sound detection time for each microphone. Time difference measuring means for measuring the arrival time difference of the sound for each of the three microphone pairs obtained by combining two of the microphones on the basis of The range of ± 60 degrees from the line connecting the microphone pairs is taken as the sound source measurement range of each microphone pair, and the possible range of the sound source is limited by the sign of the arrival time difference of the sound captured by each microphone pair, The position of each said microphone, Said Sound source position calculation means for calculating the relative position of the sound source with respect to the camera, based on the arrival time difference of the sound for each microphone pair and information on the position of the camera, based on the position information of the sound source calculated by the sound source position calculation means, Camera control means for controlling the direction of the camera in the direction of the sound source.
[0016]
According to such a camera photographing apparatus, when a sound is emitted from a certain sound source, each microphone captures the sound at a time corresponding to a distance from the sound source. The time at which the microphone captures the sound is taken as the sound detection time by the sound signal detection means, and based on the sound detection time, the time difference measurement means measures the arrival time difference of the sound for each microphone pair, The sound source position calculation means limits the possible range of the sound source by the sign of the arrival time difference of the sound captured by each microphone pair, and based on the arrival time difference of the sound for each microphone pair. The sound source position is calculated. The camera control means controls the direction of the camera in the direction of the sound source. As a result, the camera can always be pointed at the speaker.
[0021]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a principle configuration diagram of a camera photographing control device of the present invention. First,
[0022]
The camera control means 7 controls a camera driving means 8 for rotating a turntable on which the
[0023]
The utterance information recording means 11 records sound source position information when the microphone captures sound and the utterance time. The video / audio recording / reproducing
[0024]
According to such a camera photographing control device, when there is a person speaking at a certain place, the voice is captured by the three
[0025]
When the position of the sound source is determined, the direction and distance of the sound source viewed from the
[0026]
On the other hand, the audio information detected by the audio
[0027]
In this way, since the sound source position can be measured with only three microphones, the camera can be pointed at the sound source even when the microphone is separated from the camera, and the zoom amount can be adjusted according to the distance from the camera to the sound source. It can also be adjusted. Furthermore, since the sound source position and the utterance time can be recorded in association with each other, the utterance time of each speaker is associated with the information recorded in the video / audio recording / reproducing
[0028]
By the way, the camera photographing control device of the present invention can be effectively used as a videoconferencing system or video photographing of important meetings. Therefore, an embodiment will be described by taking as an example a case where the contents of a meeting are photographed using the camera photographing control device of the present invention.
[0029]
FIG. 2 is a layout diagram of the camera photographing control device according to the first embodiment. In this example, facing the moderator 21, a plurality of
[0030]
When the
[0031]
The length of the sides of the equilateral triangle formed by the three
[0032]
FIG. 3 is an internal configuration diagram of the camera photographing control device according to the first embodiment. Three
[0033]
The
[0034]
The
[0035]
According to the camera photographing control device having such a configuration, when the moderator 21 or the
[0036]
FIG. 4 is a diagram showing the internal configuration of the
[0037]
The
[0038]
Each of the signal /
[0039]
Prior to the outputs of the
[0040]
The change of the signal in the
FIG. 5 is a diagram illustrating a change in a signal in the
[0041]
FIG. 3A is a diagram illustrating a waveform of a signal input from the
[0042]
(B) is a diagram showing a waveform of a signal amplified by the amplifier 111a. By being amplified by the amplifier 111a, the waveform becomes larger in amplitude than the waveform shown in FIG. This signal is converted into a power signal by the signal /
[0043]
(C) is a diagram showing a waveform of a power signal. The power signal is a signal having only a positive value. The level of this signal is determined by the
[0044]
(D) is a diagram showing the waveform of the signal after the level determination. A binary signal is obtained by the level determination. When this signal passes through the
[0045]
(E) is a diagram showing a waveform of a signal output from the
[0046]
In this way, from the sound captured by the
[0047]
The three
[0048]
FIG. 6 is a diagram showing the internal configuration of the time
[0049]
According to the time
[0050]
FIG. 7 is a diagram illustrating a square wave obtained from the trigger signal. (A) shows a trigger signal, and (B) shows a square wave. That is, if there is a
[0051]
The signal quantized in the cycle of the reference clock is then input to the
[0052]
FIG. 8 is a diagram showing an internal configuration of the
[0053]
The order determiner 122aa determines which input comes first, and has three inputs: a
[0054]
The clock signal 122ah from the
[0055]
The data converter 122ac converts the two order determination bits 122ae and 122af of the order determiner 122aa and the count output 122ai of the 2-byte unsigned binary counter 122ab into a 2-byte signed binary number. . The conversion result is output as the
[0056]
The
When the two
[0057]
When the signal 122ag goes high, the counter 122ab starts counting the number of times the input clock signal 122ah goes high. When the signal 122ag goes to the L (low) level, the counter 122ab stops counting, and uses the counted information as a 16-bit unsigned binary number as the count output 122ai. Therefore, a value obtained by multiplying the clock cycle of 0.5 μs by this counting result is the measured time difference. Here, the value counted by the counter 122ab is used as it is. The counter 122ab sends out a one-pulse H-level signal to the clear signal 122ad at the same time that the count output 122ai is output. The clear signal 122ad clears the state of the order determiner 122aa and prepares for the next input.
[0058]
The output of the two order determination bits 122ae and 122af and the count output 122ai of the 2-byte unsigned binary counter 122ab are converted into a 2-byte signed binary number by the data converter 122ac to become
[0059]
Before describing the details of the function of the sound
[0060]
FIG. 9 is a diagram showing a microphone coordinate system for calculating a sound source direction. As shown in the figure, a uv coordinate system in which a straight line passing through the two
[0061]
(Equation 1)
dt = [(r 2 + 2racos Θ + a 2 ) 1/2 − (R 2 -2racos Θ + a 2 ) 1/2 ] / V 0 ... (1)
It becomes. Where V 0 Is the value of sound speed (340 m / s at room temperature). This is plotted using r as a parameter.
[0062]
FIG. 10 is a graph showing a relational expression between a time difference between microphones and a sound source direction. Here, the calculation is performed with a = 1 m. As described above, the effect of r on dt is sufficiently smaller than 、, and the angle error is about 5 degrees even if the value of r is changed, and Θ becomes smaller than about 25 degrees regardless of any r. It can be seen that the angle sensitivity to dt is higher in the region than in the previous regions. From this, knowing the arrival time difference of the sound to the microphone pair, it is possible to determine the direction of the sound source of the sound, that is, a straight line connecting the origin of the uv coordinates and the sound source. If another straight line is obtained by another microphone pair, the sound source position is obtained from the intersection of those straight lines.
[0063]
In the present embodiment, since the sound source position is calculated by the combination of the microphone pairs, the sound source position is calculated by setting the range of ± 60 degrees from the X axis as the measurement range of each microphone pair.
[0064]
FIG. 11 is a diagram illustrating a measurement range of one microphone pair. Assuming that the two
[0065]
Therefore, in the calculation of the sound source position, first, the sound source direction is obtained by individually using the coordinate system shown in FIG. 11 for each microphone pair. The sound source direction is obtained by comparing the measured time difference data with the angle-time difference information table.
[0066]
FIG. 12 is a diagram showing an angle-time difference information table. In this example, since the distance between the microphones is 68 cm, the value of r is set to 3 m in the table in the figure, and in the above equation, Θ is 0 degree to 60 degrees. I have. The first column of the table is given an angle of 0 degree every 60 degrees to 5 degrees from the top, and the second column stores the time difference data of the two microphones at that angle. . The time difference data is a 2-byte signed integer representation of a value obtained by dividing the time difference calculated by the above equation by the reference clock cycle of 0.5 μs. Thus, the comparison with the time difference data obtained by the time
[0067]
In addition, the angle data obtained here is based on the axis connecting the two microphones (the u-axis in FIG. 11) as a symmetric axis, and two straight lines on both sides from the axis are formed as solutions. This can be solved by the data and the combination information of the microphone pair.
[0068]
FIG. 13 is a diagram illustrating a method for obtaining a sound source position from two pieces of time difference information. In this example, the sound source position is obtained from the microphone pair of the
[0069]
As described above, the range of the sound source position is specified by the combination of the microphone pairs and the sign of the time difference data in each microphone pair. All combinations are shown below.
[0070]
FIG. 14 is a diagram illustrating a range of the sound source determined by the combination of the microphone pair and the sign of the time difference data. 1, 2 and 3 in the figure indicate the positions of the
[0071]
If (2,3)> 0 and (3,1) <0, the sound source is limited to an angle from the positive x-axis within the range of 0 to 60 degrees.
If (1,2)> 0 and (3,1) <0, the sound source is limited to an angle from the positive x-axis within the range of 60 to 120 degrees.
[0072]
If (1,2)> 0 and (2,3) <0, the sound source is limited to an angle of 120 to 180 degrees from the positive x-axis.
If (2,3) <0 and (3,1)> 0, the angle of the sound source from the positive x-axis is limited to a range of 180 to 240 degrees.
[0073]
If (1,2) <0, (3,1)> 0, the sound source is limited to an angle of 240 to 300 degrees from the positive x-axis.
If (1,2) <0, (2,3)> 0, the sound source is limited to an angle from the positive x-axis within a range of 300 to 360 degrees.
[0074]
Note that the relationship between the code of the time difference data of the microphone pair and the range of the sound source shown in this figure is held in the sound
[0075]
The calculation of the position is performed by the sound
[0076]
FIG. 15 is a diagram showing an internal configuration of the sound source position measuring device. As shown in the figure, the sound source
[0077]
The three
[0078]
The
[0079]
The three
FIG. 16 is a diagram illustrating the relationship between the coordinate system of the microphone and the coordinate system of the camera. The centers of the
[0080]
Actually, the
[0081]
FIG. 17 is a diagram showing the internal configuration of the
[0082]
The
[0083]
The distance R to the sound source calculated by the
[0084]
The conference in which the camera shooting is performed can be recorded through the
[0085]
In the above description, the sound source position is calculated using the fact that the relationship between the arrival time difference between the sounds captured by the two microphones and the sound source direction does not depend on the distance to the sound source. The sound source position can also be calculated geometrically from the time difference between the sounds captured by the microphone. The calculation method will be described below.
[0086]
First, for the sake of simplicity, it is assumed that three
, L3,
[0087]
(Equation 2)
It is. Assuming that the time difference between the microphones, i.e., t1-t2 is dt1, t2-t3 is dt2, t3-t1 is dt3, and the sound velocity value is vs, the arrival time difference of the sound between the microphones depends on the distance from the sound source to each microphone. It is given as:
[0088]
(Equation 3)
From these equations (2) and (3),
[0089]
(Equation 4)
By solving this simultaneous equation, the sound source position P (x, y) can be obtained. Such a method of obtaining the sound source position is similar to the principle of triangulation and is widely known. Whether to use this calculation method or to use the method used in the first embodiment is determined based on the performance of the sound source position calculator and the required resolution of the time difference measurement of the sound. For example, when a high resolution is required, the method described in the first embodiment, which can calculate at high speed with a simple calculation, is used. When the resolution may be low, a method such as an angle-time difference information table is used. Can be used.
[0090]
Further, in the first embodiment, the system is such that the height of the microphone from the floor is the same as the height of the camera from the floor. However, the position of the camera can be increased. is there. In this case, a value obtained by subtracting the height of the camera from the floor from the height of the microphone from the floor is set as the offset amount d in the Z-axis direction, and the vertical camera direction is calculated in the calculation in the camera control device. Good. However, in the upper coordinate system, the vertically downward direction is the positive direction of the Z axis. That is, the sound source position P (X, Y) obtained by adding the camera position offset obtained by the sound
[0091]
(Equation 5)
d / (X2 + Y2) 1/2 = Tan Φ (5)
Can be obtained by If a rotation mechanism that can also rotate in the Z-axis direction is added to the turntable of the first embodiment, it is possible to correctly catch a speaker even when there is an offset in the Z-axis direction. This rotation mechanism can be realized with the same configuration as in the first embodiment.
[0092]
Further, in the first embodiment, the sound source position is calculated in the two-dimensional plane. However, by arranging the microphones at the four vertices of the regular triangular pyramid, it is possible to know the sound source position in the three-dimensional space. It is possible. There are four equilateral triangles in a regular triangular pyramid, and a calculation as in the first embodiment can be performed on each of the triangles to determine a plane perpendicular to the triangle plane indicating the sound source direction on the plane of each triangle. Once a plane indicating the sound source direction is found for each equilateral triangle, the position of the sound source in the three-dimensional space can be known by finding the intersection of each plane.
[0093]
By the way, in the above-described first embodiment, only the case where the calculated sound source position information is used for controlling the camera has been described. However, the sound source position information can be used as index information of a video signal. A sound source position recording apparatus having such an index function will be described below as a second embodiment.
[0094]
FIG. 18 is an internal configuration diagram of the sound source position recording device. In this sound source position recording device, the structures of three
[0095]
In this embodiment, the output of the sound
[0096]
The
[0097]
The
[0098]
The
[0099]
FIG. 19 is a diagram illustrating an example of the sound source position table. The sound source position table 41 is a matrix of 2 columns and 36 rows, and an x coordinate value and a y coordinate value are stored in a first column and a second column, respectively. "Null" is input to this matrix as an initial value. The number of lines of 36 is based on the assumption that the angular resolution is about 5 degrees and the number of participants in the venue is at most this degree.
[0100]
Then, when new sound source position data not stored in the matrix is sent from the sound
[0101]
FIG. 20 is a diagram illustrating an example of the time table. The time table 42 is a matrix of 1024 rows and 36 columns in the initial state, and the index of each row corresponds to the index of each row of the sound source position table 41. In this matrix, "null" is input as an initial value in columns other than the first column, but "1" is stored in the first column as an initial value. This first column is used to store pointer information. That is, in this example, since three pieces of time data of the sound source P1 have already been recorded, 4 is set in the first line giving the pointer of P1. With this information, when there is next time data from the sound source P1, by referring to this pointer, it is possible to easily know at which address the time data should be written. When the entry of the time data is completed, the value of the pointer is incremented.
[0102]
In the expression format of the time, the elapsed time from the start of the measurement is measured in units of 0.1 second, and the value is represented by a 2-byte unsigned binary number. Therefore, the time expression after 1.3 seconds is “13”. Of course, it is sufficient to know the elapsed time from the start of the measurement, so another expression may be used. At this time, if the received sound source position is already registered in the sound source position table 41, a row index indicating the sound source position is obtained, and the time index of the already recorded time information of the corresponding column index of the time table 42 is obtained. Later, new time information will be added. If the received sound source position is not registered in the sound source position table 41, the sound source position is newly registered in the sound source position table 41 together with the time.
[0103]
The sound source position table 41 is a two-dimensional matrix having a size of 2 × 36, and is secured on a memory of the computer. In the time table 42, at the start of recording, a two-dimensional matrix of 36 × 1024 is secured in the memory of the computer, and when the time information at the same position becomes full, 1024 new rows are automatically added by the memory allocation function. Is done.
[0104]
FIG. 21 is a flowchart showing the processing procedure of sound source position recording. This is a process performed by the
[S1] Sound source position table T 1 And time table T 2 Is secured in the memory.
[S2] A position storage variable P and a time storage variable x are secured.
[S3] Sound source position table T 1 And time table T 2 And are initialized.
[S4] Start counting at time t.
[S5] It is determined whether there is an output from the sound source position calculator. If there is an output, the process proceeds to step S6, and if there is no output, this process is repeated.
[S6] The current time t is input to the time storage variable x.
[S7] The sound source position (x, y) is input to the position storage variable P.
[S8] The position storage variable P is already in the sound source position table T 1 It is determined whether or not it has been registered. If registered, the process proceeds to step S10, and if not registered, the process proceeds to step S9.
[S9] Sound source position table T 1 , The value of the position storage variable P is newly stored, and the process proceeds to step S10.
[S10] Sound source position table T 1 , The row index k of the position storage variable P is obtained.
[S11] Time table T 2 Of the pointer k stored in the first row of the column k of the 2 The value of x is stored in the row a and the column k.
[S12] Time table T 2 The pointer value a stored in the first row of column k is incremented.
[S13] It is determined whether the calculation of the sound source position is completed. If it is completed, the process proceeds to step S14, and if not, the process proceeds to step S5.
[S14] The sound source position table T is stored in the storage device. 1 And time table T 2 Save the data.
[S15] A comment is added if necessary, and the process ends.
[0105]
In this way, the information on the sound source position and the utterance time can be used as the index of the video.
[0106]
【The invention's effect】
As described above, in the sound source position measuring device of the present invention, three microphones are arranged at the vertices of a predetermined triangle, and the time difference between the sounds from the same sound source reaching the three microphones is measured. From the position of the microphone and the arrival time difference of the sound for each microphone pair, not only the direction of the sound source but also the position of the sound source can be calculated.
[0107]
Further, in the camera photographing control device of the present invention, the relative position of the sound source with respect to the camera is calculated from the position of each microphone, the arrival time difference of sound for each microphone pair, and the position of the camera. The camera can be controlled so that it faces the sound source even if the camera is in a different position.
[Brief description of the drawings]
FIG. 1 is a principle configuration diagram of a camera photographing control device of the present invention.
FIG. 2 is a layout diagram of the camera photographing control device according to the first embodiment.
FIG. 3 is an internal configuration diagram of the camera photographing control device according to the first embodiment.
FIG. 4 is a diagram showing an internal configuration of a sound signal detection device.
FIG. 5 is a diagram illustrating a change in a signal in a sound signal detector. (A) is a diagram showing a waveform of a signal input from a microphone, (B) is a diagram showing a waveform of a signal amplified by an amplifier, and (C) is a diagram showing a waveform of a power signal. (D) is a diagram showing the waveform of the signal after the level determination, and (E) is a diagram showing the waveform of the signal output from the differentiator.
FIG. 6 is a diagram showing an internal configuration of a time difference measuring device.
FIG. 7 is a diagram illustrating a square wave obtained from a trigger signal. (A) shows a trigger signal, and (B) shows a square wave.
FIG. 8 is a diagram showing an internal configuration of a delay unit.
FIG. 9 is a diagram showing a coordinate system of a microphone for calculating a sound source direction.
FIG. 10 is a graph showing a relational expression between a time difference between microphones and a sound source direction.
FIG. 11 is a diagram showing a measurement range of one microphone pair.
FIG. 12 is a diagram showing an angle-time difference information table.
FIG. 13 is a diagram illustrating a method for determining a sound source position from two pieces of time difference information.
FIG. 14 is a diagram illustrating a range of a sound source determined by a combination of microphone pairs and a sign of time difference data.
FIG. 15 is a diagram showing an internal configuration of a sound source position measuring device.
FIG. 16 is a diagram illustrating a relationship between a microphone coordinate system and a camera coordinate system.
FIG. 17 is a diagram showing an internal configuration of a camera control device.
FIG. 18 is an internal configuration diagram of a sound source position recording device.
FIG. 19 is a diagram illustrating an example of a sound source position table.
FIG. 20 is a diagram illustrating an example of a time table.
FIG. 21 is a flowchart showing a processing procedure of sound source position recording.
[Explanation of symbols]
1-3 microphone
4 Sound signal detection means
5 Time difference measuring means
6 Sound source position calculation means
7 Camera control means
8 Camera driving means
9 Camera body
10 Electric lens
11 Utterance information recording means
12 Video and audio recording and playback means
13 Playback instruction means
Claims (3)
正三角形の3つの頂点に設置されたマイクと、
1つの音源の発した音が前記マイクのそれぞれで捉えられた時刻を音検出時刻として検出する音信号検出手段と、
前記マイクごとの音検出時刻に基づいて、前記マイクの2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する時間差測定手段と、
前記各マイクペアを結ぶ線から±60度の範囲を前記各マイクペアの音源計測範囲とし、前記各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲を限定し、それぞれの前記マイクの位置と前記マイクペアごとの音の到達時間差とから、音源位置を計算する音源位置計算手段と、
を有することを特徴とする音源位置計測装置。In a sound source position measuring device that calculates a sound source position based on sound information,
A microphone installed in the three vertices of the positive triangle,
Sound signal detection means for detecting, as sound detection time, the time at which the sound emitted by one sound source is captured by each of the microphones;
A time difference measuring unit configured to measure a sound arrival time difference of each of three microphone pairs obtained by combining two of the microphones based on a sound detection time of each of the microphones;
The range of ± 60 degrees from the line connecting the microphone pairs is defined as the sound source measurement range of each microphone pair. from the arrival time difference of the sound of each of the microphone pair and a sound source position calculation means for calculating a sound source position,
A sound source position measuring device comprising:
正三角形の3つの頂点に設置されたマイクと、 Microphones installed at three vertices of an equilateral triangle,
1つの音源の発した音が前記マイクのそれぞれで捉えられた時刻を音検出時刻として検出する音信号検出手段と、 Sound signal detection means for detecting, as sound detection time, the time at which the sound emitted by one sound source is captured by each of the microphones;
前記マイクごとの音検出時刻に基づいて、前記マイクの2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する時間差測定手段と、 A time difference measuring means for measuring a difference in arrival time of sound for each of three microphone pairs obtained by combining two of the microphones based on the sound detection time for each microphone;
前記各マイクペアを結ぶ線から±60度の範囲を前記各マイクペアの音源計測範囲とし、前記各マイクペアが捉えた音の到達時間差の符号によって音源の存在可能範囲を限定し、それぞれの前記マイクの位置、前記マイクペアごとの音の到達時間差及び前記カメラの位置の情報に基づき、前記カメラに対する音源の相対的な位置情報を計算する音源位置計算手段と、 The range of ± 60 degrees from the line connecting the microphone pairs is defined as the sound source measurement range of each microphone pair, the possible range of the sound source is limited by the sign of the arrival time difference of the sound captured by each microphone pair, and the position of each microphone Sound source position calculation means for calculating relative position information of a sound source with respect to the camera based on arrival time difference of sound and position information of the camera for each microphone pair,
前記音源位置計算手段が算出した音源の位置情報に基づき、音源の方向へカメラの向きを制御するカメラ制御手段と、 Camera control means for controlling the direction of the camera in the direction of the sound source, based on the position information of the sound source calculated by the sound source position calculation means,
を有することを特徴とするカメラ撮影制御装置。 A camera photographing control device comprising:
所定の形状の三角形の3つの頂点に設置されたマイクと、 Microphones installed at three vertices of a triangle of a predetermined shape,
1つの音源の発した音が前記マイクのそれぞれで捉えられた時刻を音検出時刻として検出する音信号検出手段と、 Sound signal detection means for detecting, as sound detection time, the time at which the sound emitted by one sound source is captured by each of the microphones;
前記マイクごとの音検出時刻に基づいて、前記マイクの2個ずつを組合わせることにより得られる3組のマイクペアごとの音の到達時間差を測定する時間差測定手段と、 A time difference measuring means for measuring a difference in arrival time of sound for each of three microphone pairs obtained by combining two of the microphones based on the sound detection time for each microphone;
それぞれの前記マイクの位置、マイクペアごとの音の到達時間差及び前記カメラの位置の情報に基づき、前記カメラに対する音源の相対的な位置情報を計算する音源位置計算手段と、 Sound source position calculating means for calculating relative position information of a sound source with respect to the camera, based on information on the position of each microphone, the arrival time difference of sound for each microphone pair and the position of the camera,
前記音源位置計算手段が算出した音源の前記位置情報に基づき、音源の方向へカメラの向きを制御するカメラ制御手段と、 Camera control means for controlling the direction of the camera in the direction of the sound source, based on the position information of the sound source calculated by the sound source position calculation means,
前記マイクの捉えた音及び前記カメラの撮影した映像を、記録及び再生する映像・音声記録再生手段と、 A video / audio recording / reproducing unit for recording and reproducing the sound captured by the microphone and the video captured by the camera,
前記音源位置計算手段の計算結果に基づいて、前記映像・音声記録再生手段が記録した映像のインデックスとして、音源位置ごとの発話時刻を記録する発話情報記録手段と、 Based on the calculation result of the sound source position calculation means, as an index of the video recorded by the video and audio recording and reproduction means, utterance information recording means for recording the utterance time for each sound source position,
を有することを特徴とするカメラ撮影制御装置。 A camera photographing control device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3029297A JP3572849B2 (en) | 1997-02-14 | 1997-02-14 | Sound source position measuring device and camera photographing control device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3029297A JP3572849B2 (en) | 1997-02-14 | 1997-02-14 | Sound source position measuring device and camera photographing control device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10227849A JPH10227849A (en) | 1998-08-25 |
JP3572849B2 true JP3572849B2 (en) | 2004-10-06 |
Family
ID=12299664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3029297A Expired - Lifetime JP3572849B2 (en) | 1997-02-14 | 1997-02-14 | Sound source position measuring device and camera photographing control device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3572849B2 (en) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000341658A (en) * | 1999-05-27 | 2000-12-08 | Nec Eng Ltd | Speaker direction detecting system |
DE10035222A1 (en) * | 2000-07-20 | 2002-02-07 | Bosch Gmbh Robert | Acoustic location of persons in detection area, involves deriving signal source position from received signal time displacements and sound detection element positions |
JP4868671B2 (en) * | 2001-09-27 | 2012-02-01 | 中部電力株式会社 | Sound source exploration system |
CA2393094C (en) * | 2000-10-02 | 2009-04-07 | Chubu Electric Power Co., Inc. | Sound source locating system |
JP4722347B2 (en) * | 2000-10-02 | 2011-07-13 | 中部電力株式会社 | Sound source exploration system |
JP2004257877A (en) * | 2003-02-26 | 2004-09-16 | Seiko Epson Corp | Sound source detection method, sound source detection device and robot |
NO318096B1 (en) | 2003-05-08 | 2005-01-31 | Tandberg Telecom As | Audio source location and method |
JP4812302B2 (en) * | 2005-01-12 | 2011-11-09 | 学校法人鶴学園 | Sound source direction estimation system, sound source direction estimation method, and sound source direction estimation program |
JP2007263614A (en) * | 2006-03-27 | 2007-10-11 | Oki Electric Ind Co Ltd | Device and method for calibrating echo sounder receiver position |
JPWO2007122729A1 (en) * | 2006-04-18 | 2009-08-27 | 株式会社日立製作所 | Communication system, communication device, and sound source direction identification device |
JP4660740B2 (en) * | 2006-09-13 | 2011-03-30 | 独立行政法人産業技術総合研究所 | Voice input device for electric wheelchair |
JP4451892B2 (en) * | 2007-03-19 | 2010-04-14 | 株式会社リコー | Video playback device, video playback method, and video playback program |
JP5047882B2 (en) * | 2008-06-04 | 2012-10-10 | 日本電信電話株式会社 | Utterance related information presentation apparatus and method |
KR100958932B1 (en) | 2008-08-19 | 2010-05-19 | 주식회사 에스원 | Apparatus for Detecting Intrusion and Intrusion Detection Method using Measuring the Position of 3D Sound Source Thereof |
JP2011033369A (en) * | 2009-07-30 | 2011-02-17 | Ricoh Co Ltd | Conference device |
CN102033223B (en) * | 2010-12-29 | 2012-10-03 | 北京信息科技大学 | Method for positioning sound source by using microphone array |
JP5647070B2 (en) * | 2011-05-23 | 2014-12-24 | Kddi株式会社 | Pointing system |
WO2013015461A1 (en) * | 2011-07-22 | 2013-01-31 | 엘지전자 주식회사 | Device for detecting the direction of a sound source, and surveillance camera including same |
JP2015161659A (en) * | 2014-02-28 | 2015-09-07 | 株式会社熊谷組 | Sound source direction estimation device and display device of image for sound source estimation |
CN104502893B (en) * | 2014-12-10 | 2017-05-10 | 北京智谷睿拓技术服务有限公司 | positioning method, positioning device and user equipment |
KR101630614B1 (en) * | 2015-03-25 | 2016-06-24 | (주)에어사운드 | System and method for producing lecture contents |
CN106328130A (en) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | Robot voice addressed rotation system and method |
CN105005027A (en) * | 2015-08-05 | 2015-10-28 | 张亚光 | System for positioning target object in regional scope |
JP2017156122A (en) * | 2016-02-29 | 2017-09-07 | 沖電気工業株式会社 | Control device, control method, and detection system |
JP6697982B2 (en) * | 2016-08-29 | 2020-05-27 | Kddi株式会社 | Robot system |
JP6976131B2 (en) * | 2017-10-16 | 2021-12-08 | 三菱重工サーマルシステムズ株式会社 | Air conditioning system and air conditioning control method |
JP2019123055A (en) * | 2018-01-18 | 2019-07-25 | 株式会社ユピテル | apparatus |
CN110389597B (en) * | 2018-04-17 | 2024-05-17 | 北京京东尚科信息技术有限公司 | Camera adjusting method, device and system based on sound source positioning |
JP2019211393A (en) * | 2018-06-07 | 2019-12-12 | 旭化成エレクトロニクス株式会社 | Determining device, determination method, and determination program |
US10565977B1 (en) | 2018-08-20 | 2020-02-18 | Verb Surgical Inc. | Surgical tool having integrated microphones |
JP2021072575A (en) * | 2019-10-31 | 2021-05-06 | パナソニックIpマネジメント株式会社 | Sound source display system and sound source display device |
CN112104928A (en) * | 2020-05-13 | 2020-12-18 | 苏州触达信息技术有限公司 | Intelligent sound box and method and system for controlling intelligent sound box |
CN113453138B (en) * | 2021-06-29 | 2022-06-21 | 四川长虹电器股份有限公司 | Method for detecting microphone sequence in microphone array |
-
1997
- 1997-02-14 JP JP3029297A patent/JP3572849B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10227849A (en) | 1998-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3572849B2 (en) | Sound source position measuring device and camera photographing control device | |
CN101218853B (en) | Audio transmission system and communication conference device | |
CN104240606B (en) | The adjusting method of display device and display device viewing angle | |
US9008320B2 (en) | Apparatus, system, and method of image processing, and recording medium storing image processing control program | |
US20070120971A1 (en) | System and methods for video conferencing | |
JP6977448B2 (en) | Device control device, device control program, device control method, dialogue device, and communication system | |
CN112672251B (en) | Loudspeaker control method and system, storage medium and loudspeaker | |
JP5206151B2 (en) | Voice input robot, remote conference support system, and remote conference support method | |
JP2006304124A (en) | Apparatus and method for confirming direction of sound source | |
JP2005057545A (en) | Sound field controller and sound system | |
JP2004120459A (en) | Sound output device | |
JP2009177480A (en) | Imaging device | |
JP2006270522A (en) | Sound image localization controller | |
WO2016078415A1 (en) | Terminal acoustic pickup control method, terminal and terminal acoustic pickup control system | |
JP3531084B2 (en) | Directional microphone device | |
JP2008061186A (en) | Directional characteristic control apparatus, sound collecting device and sound collecting system | |
JP2006166007A (en) | Method and device for sound source direction detection and imaging device | |
EP4132013A1 (en) | Audio signal processing method, electronic apparatus, and storage medium | |
WO2020102994A1 (en) | 3d sound effect realization method and apparatus, and storage medium and electronic device | |
US11425502B2 (en) | Detection of microphone orientation and location for directional audio pickup | |
Tontiwattnakul et al. | Design and build of a planar acoustic camera using digital microphones | |
CN112099754A (en) | Method for obtaining introduction information and intelligent equipment | |
JP2019186743A (en) | Speaker, speaker system, and television receiver equipped with the same | |
TWI756607B (en) | Automatic positioning speaker device and sound system thereof | |
JPH07140527A (en) | Photographing controller for camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040621 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080709 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090709 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100709 Year of fee payment: 6 |