JP2007228070A - Video conference apparatus - Google Patents
Video conference apparatus Download PDFInfo
- Publication number
- JP2007228070A JP2007228070A JP2006044198A JP2006044198A JP2007228070A JP 2007228070 A JP2007228070 A JP 2007228070A JP 2006044198 A JP2006044198 A JP 2006044198A JP 2006044198 A JP2006044198 A JP 2006044198A JP 2007228070 A JP2007228070 A JP 2007228070A
- Authority
- JP
- Japan
- Prior art keywords
- video data
- speaker
- video
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
この発明は、互いに離れた地点間で話者の音声とともに映像を双方向に通信するテレビ会議装置に関するものである。 The present invention relates to a video conference apparatus that bidirectionally communicates video with a speaker's voice between points distant from each other.
現在、互いに離れた地点間、例えば、遠距離で離れた本店や支店間で会議を行うシステムが多く用いられている。このような遠隔会議システムでは、音声のみを通信する音声会議システムに加え、互いの会議者に、より臨場感を与えるために、音声とともに映像を通信するテレビ会議システムがある。 Currently, many systems are used to hold a conference between points that are distant from each other, for example, a head office or a branch that are far away. In such a remote conference system, in addition to the audio conference system that communicates only audio, there is a video conference system that communicates video together with audio in order to give each other a more realistic feeling.
例えば、特許文献1に記載のテレビ会議システムでは、それぞれの話者に設置した複数のマイクと、別途設置したカメラとを用いたテレビ会議装置を用いている。このテレビ会議装置は、各話者に設置したマイクの出力音声信号の大きさから話者を特定し、話者特定情報を電磁波でカメラ側に送信する。カメラは、この話者特定情報に基づいて回動し、話者を撮像する。
しかしながら、特許文献1に示すようなテレビ会議装置では、各話者にマイクを設置しなければならず、会議の準備に非常な手間がかかってしまう。また、各マイクが手持ちマイクであれば、話者は、移動の度にマイクを持って移動しなければならなかった。さらに、カメラは機構的に回動することで撮像範囲を切り替えるため、話者の切り替わり速度に、カメラの回動速度が追随できない場合があり、話者の音声と同時に該当する話者の映像を送信できない場合がある。 However, in the video conference apparatus as shown in Patent Document 1, it is necessary to install a microphone for each speaker, and it takes much time to prepare for the conference. In addition, if each microphone is a handheld microphone, the speaker has to move with the microphone each time it moves. In addition, since the camera rotates mechanically to switch the imaging range, the camera's rotation speed may not be able to follow the switching speed of the speaker. You may not be able to send.
したがって、この発明の目的は、設置の手間がかからず、話者の音声と映像とを同時に送信できるテレビ会議装置を構成することにある。 Accordingly, an object of the present invention is to configure a video conference apparatus that can transmit a speaker's voice and video at the same time without requiring installation.
(1) この発明のテレビ会議装置は、所定パターンで配列された複数のマイクを備えたマイクアレイと、マイクアレイの各マイクの収音信号を用いて複数方向の収音ビーム信号を形成する収音ビーム形成手段と、複数の収音ビーム信号に基づいて話者方向を検出する話者方向検出手段と、検出した話者方向の収音ビーム信号を送信音声信号として選択する送信音声信号選択手段と、各収音ビーム信号に対応する領域を撮像して映像データを形成し、話者方向の収音ビーム信号に対応する所定範囲の話者方向映像データを出力する映像データ形成手段と、送信音声信号および話者方向映像データを同時に送信する通信手段と、を備えたことを特徴としている。 (1) A video conference apparatus according to the present invention includes a microphone array including a plurality of microphones arranged in a predetermined pattern, and a sound collecting beam signal in a plurality of directions using a sound collecting signal of each microphone of the microphone array. Sound beam forming means, speaker direction detecting means for detecting a speaker direction based on a plurality of sound collecting beam signals, and transmission voice signal selecting means for selecting a detected sound beam signal in the speaker direction as a transmission voice signal Image data forming means for imaging a region corresponding to each sound collecting beam signal to form video data, and outputting a speaker direction video data in a predetermined range corresponding to the sound collecting beam signal in the speaker direction, and transmission And a communication means for simultaneously transmitting the audio signal and the speaker direction video data.
この構成では、マイクアレイの各マイクで話者音声を収音すると、収音ビーム形成手段が各マイクの収音信号を用いて、それぞれに異なる方向を指向性の中心とする収音ビーム信号を形成する。話者方向検出手段は、各収音ビーム信号を比較して、最も高い信号レベルの収音ビーム信号に対応する方向を話者方向として検出する。送信音声信号選択手段は、全ての収音ビーム信号から、検出した話者方向の収音ビーム信号を選択して、送信音声信号として出力する。映像データ形成手段は、各収音ビーム信号に対応する領域を撮像して、検出された話者方向を含む所定範囲の映像データである話者方向映像データを生成する。通信手段は、送信音声信号と話者方向映像データとを同時に、例えばネットワークを介して相手側装置に送信する。これにより、実際に話している話者の音声と映像とが一致した状態で通信が行われる。 In this configuration, when the speaker voice is picked up by each microphone of the microphone array, the sound collecting beam forming means uses the sound collecting signal of each microphone to generate a sound collecting beam signal centered in a different direction. Form. The speaker direction detecting means compares the sound collecting beam signals and detects the direction corresponding to the sound collecting beam signal having the highest signal level as the speaker direction. The transmission voice signal selection means selects the detected sound pickup beam signal in the speaker direction from all the sound pickup beam signals, and outputs it as a transmission voice signal. The video data forming means captures an area corresponding to each collected sound beam signal and generates speaker direction video data which is video data in a predetermined range including the detected speaker direction. The communication means transmits the transmission audio signal and the speaker direction video data at the same time to the counterpart device, for example, via a network. As a result, communication is performed in a state where the voice and video of the speaker who is actually speaking match.
(2) また、この発明のテレビ会議装置の映像データ形成手段は、複数のマイクが収音する領域の全方位を撮像して全方位映像データを形成する撮像手段と、全方位映像データから話者方向映像データを切り出して生成する話者方向映像データ形成手段と、を備えたことを特徴としている。 (2) Further, the video data forming means of the video conference apparatus according to the present invention includes an imaging means for forming an omnidirectional video data by imaging omnidirectional video data in a region where a plurality of microphones collect sound, and talking from the omnidirectional video data. Speaker direction video data forming means for cutting out and generating the speaker direction video data.
この構成では、撮像手段は、現在の話者位置に関係なく全方位を撮像し、話者方向映像データ形成手段は、話者方向に対応する部分のみを全方位の映像データから切り出す。これにより、話者が切り替わっても、全方位の映像データに対する切り取り部分が変化するだけであるので、機構的動作で撮像方向を移動させるよりも高速に映像が切り替えられる。 In this configuration, the imaging unit images all directions regardless of the current speaker position, and the speaker direction video data forming unit cuts out only the portion corresponding to the speaker direction from the video data in all directions. As a result, even if the speaker is switched, the cut-out portion for the video data in all directions only changes, so that the video is switched at a higher speed than when the imaging direction is moved by a mechanical operation.
(3) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列される。また、撮像手段は、周面に沿った筐体の中心軸をレンズの光軸として筐体内に設置されたカメラと、円周方向の全方位の映像を光軸の方向に沿ってレンズへ導く曲面反射板と、を備えることを特徴としている。 (3) In the video conference apparatus according to the present invention, the plurality of microphones of the microphone array are arranged circumferentially along the peripheral surface of the substantially cylindrical casing. In addition, the imaging means guides a camera installed in the casing with the central axis of the casing along the peripheral surface as the optical axis of the lens, and images in all directions in the circumferential direction to the lens along the direction of the optical axis. And a curved reflector.
この構成では、具体的に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備える。円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、曲面反射板を介して全方位同時にカメラで撮像される。これにより、随時円周方向の全方位の映像が撮像される。そして、この全方位の映像から必要範囲、すなわち、検出した話者方向に対応する範囲の映像データを切り出し、話者方向映像データを生成することで、機構的な動作をすることなく、高速に映像の切り替えが行われる。 Specifically, in this configuration, the video conference device is formed in a substantially cylindrical shape, and the microphone array and the imaging unit are provided in a substantially cylindrical housing. Sound from the circumferential direction is picked up by each microphone of the microphone array installed circumferentially along the circumferential surface of the housing. On the other hand, the image in the circumferential direction is picked up by the camera in all directions simultaneously through the curved reflector. As a result, images in all directions in the circumferential direction are captured as needed. Then, the necessary range, that is, the video data in the range corresponding to the detected speaker direction is cut out from this omnidirectional video, and the speaker direction video data is generated, so that it can be operated at high speed without mechanical operation. The video is switched.
(4) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列される。また、撮像手段は、互いに撮像範囲が部分的に重複し、且つ全方位を網羅するように、前記筐体の円周方向のそれぞれ異なる方向に向けて設置された複数のカメラを備える。そして、話者方向映像データ形成手段は、検出された話者方向に向けられたカメラの映像データを話者方向映像データとして出力することを特徴としている。 (4) In the video conference apparatus according to the present invention, the plurality of microphones of the microphone array are arranged circumferentially along the peripheral surface of the substantially cylindrical casing. The imaging unit includes a plurality of cameras installed in different directions in the circumferential direction of the casing so that the imaging ranges partially overlap each other and cover all directions. The speaker direction video data forming means outputs the video data of the camera directed to the detected speaker direction as the speaker direction video data.
この構成では、(3)の場合と同様に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備え、円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、それぞれに異なる方向をレンズの光軸方向とする複数のカメラにより、全方位同時に撮像される。そして、この全方位方向の映像から、検出した話者方向に対応する範囲を撮像するカメラの映像データを選択し、話者方向映像データを生成することで、機構的な動作をすることなく、高速に映像の切り替えが行われる。 In this configuration, as in the case of (3), the video conference device is formed in a substantially cylindrical shape, and the microphone array and the image pickup means are provided in the substantially cylindrical housing, and sound from the circumferential direction is received from the housing. Sound is picked up by each microphone of a microphone array arranged circumferentially along the circumference of the body. On the other hand, images in the circumferential direction are simultaneously imaged in all directions by a plurality of cameras having different directions in the optical axis direction of the lens. Then, from this omnidirectional video, select the video data of the camera that captures the range corresponding to the detected speaker direction, and generate the speaker direction video data, without mechanical operation, Video switching is performed at high speed.
(5) この発明のテレビ会議装置は、マイクアレイの複数のマイクが略円柱状の筐体の周面に沿って円周状に配列され、これらマイクで円周方向の音声を収音する。また、映像データ形成手段は、周面に沿った筐体の中心軸をレンズの光軸として筐体内に設置されたカメラと、円周方向の所定範囲の映像を光軸の方向に沿ってレンズへ導く反射板と、この反射板を中心軸に対して回動可能に支持し、検出した話者方向へ反射板を回動させる付勢手段と、を備えたことを特徴としている。 (5) In the video conference apparatus according to the present invention, a plurality of microphones of the microphone array are arranged circumferentially along the peripheral surface of the substantially cylindrical casing, and the microphones collect sound in the circumferential direction. In addition, the video data forming means includes a camera installed in the casing with the central axis of the casing along the peripheral surface as the optical axis of the lens, and a video in a predetermined range in the circumferential direction along the direction of the optical axis. And a biasing means for supporting the reflecting plate so as to be rotatable with respect to the central axis and for rotating the reflecting plate in the detected speaker direction.
この構成では、(3)、(4)の場合と同様に、テレビ会議装置を略円柱状に形成し、略円柱状の筐体に、マイクアレイと撮像手段とを備え、円周方向からの音声は、筐体の周面に沿って円周状に設置されたマイクアレイの各マイクにより収音される。一方、円周方向の映像は、検出された話者方向に応じて回動する反射板を介して、カメラで撮像される。この場合、機構的な動作により映像が切り替えられるが、反射板はカメラよりも軽量であるので、回動を高速に行うことができ、映像の切り替えも高速化される。 In this configuration, as in the case of (3) and (4), the video conference device is formed in a substantially cylindrical shape, and the microphone array and the imaging means are provided in the substantially cylindrical housing, and from the circumferential direction. The sound is collected by each microphone of the microphone array that is circumferentially installed along the peripheral surface of the housing. On the other hand, the image in the circumferential direction is picked up by a camera through a reflecting plate that rotates according to the detected speaker direction. In this case, the image is switched by a mechanical operation. However, since the reflecting plate is lighter than the camera, the image can be rotated at high speed, and the switching of the image is also speeded up.
(6) この発明のテレビ会議装置は、話者方向映像データに応じてスピーカから放音する放音手段を備えたことを特徴としている。 (6) The video conference apparatus according to the present invention is characterized by including sound emitting means for emitting sound from a speaker in accordance with speaker direction video data.
この構成では、話者方向へ主たる放音方向が設定されるので、話者が一人の場合であれば、その話者方向にのみ音声を放音することができる。また、会議者が複数で話者が切り替わる場合であれば、現在発言中の話者方向へ主に音声を放音することができる。(ごめんなさい、この見解で合っていますか?) In this configuration, since the main sound emitting direction is set in the direction of the speaker, if there is only one speaker, the sound can be emitted only in the direction of the speaker. In addition, when there are a plurality of conference persons and the speakers are switched, it is possible to mainly emit sound toward the speaker currently speaking. (I'm sorry, do you agree with this view?)
この発明によれば、マイクアレイで収音した音声から話者方向を検出し、当該検出方向へ映像を高速に切り替えることができ、話者音声と話者映像とを違和感なく同時に送信することができる。 According to the present invention, it is possible to detect the speaker direction from the sound collected by the microphone array, switch the video in the detection direction at high speed, and simultaneously transmit the speaker voice and the speaker video without any sense of incongruity. it can.
本発明の第1の実施形態に係るテレビ会議装置について図1〜図3を参照して説明する。
図1は本実施形態のテレビ会議装置の構成を示す斜視図である。
図2(A)は本実施形態のテレビ会議装置の構成を示す平面図であり、(B)は側面図であり、(C)は底面図である。
A video conference apparatus according to a first embodiment of the present invention will be described with reference to FIGS.
FIG. 1 is a perspective view showing the configuration of the video conference apparatus according to the present embodiment.
2A is a plan view showing the configuration of the video conference apparatus according to the present embodiment, FIG. 2B is a side view, and FIG. 2C is a bottom view.
図1、図2に示すように、テレビ会議装置1は略円柱形状の筐体10を備え、筐体10は、周面を側面とし、対向する円状の2面をそれぞれ天面および底面とする。
As shown in FIG. 1 and FIG. 2, the video conference apparatus 1 includes a substantially
マイク2A〜2Hは、無指向性であっても有指向性であってもよく、略円柱形状の筐体10の周面に沿って、収音方向が周面から外部方向を向くように設置されている。マイク2A〜2Hは、筐体10を形成する円柱における、前記周面に平行な中心軸に対して軸対称に設置される。すなわち、8個のマイク2A〜2Hであれば、それぞれが中心軸上の点を中心点として45°の間隔で配置される。なお、マイクの個数は8個に限るものではなく、仕様に応じて適宜設定すればよい。
The
スピーカ3は、筐体10の底面に、放音方向が底面から外部方向になるように設置されている。この際、スピーカ3の中心軸すなわち放音方向の中心は、筐体の10の中心軸に一致させている。
The
脚部13は、筐体10の底面に、所定角度で等間隔に設置されており、この脚部13により、テレビ会議装置1の筐体10は、机の天面等の接地面から所定距離の高さに配置される。
The
カメラ4は、筐体10の天面に垂直な方向が受光方向となる状態で、筐体10の天面側内部に設置されている。カメラ4はレンズと受光部とからなり、レンズの光軸が筐体10の中心軸に一致し、この光軸上の点が受光領域の中心となるように設置されている。
The
筐体10の天面には、筐体10の周面と同じ寸法からなる円筒形状で透明な窓12が設置されており、外部からの光を窓12により囲まれる内部空間に導く。
A cylindrical
また、筐体10の天面側にはこの窓12を介して、筐体10を平面視した形状と同形状で、所定厚みからなる天蓋11が設置されている。天蓋11における筐体10側の面には双曲面ミラー5が設置されている。
Further, a
双曲面ミラー5は、平面視した中心が筐体10の中心軸上となるように設置されており、窓12から入射する水平方向の全方位からの光、すなわち映像をカメラ4のレンズに導く。なお、本実施形態では双曲面ミラーを示したが、ミラーの形状は水平方向の全方位からの光をレンズに導く構造であればよい。
The
このような構成とすることで、各マイク2A〜2Hで略水平方向の全方位からの音声を収音し、スピーカ3で全方位へ音声を放音し、カメラ4で全方位の映像を撮像する。
With such a configuration, the
また、テレビ会議装置1は、図3に示すような信号処理機能部を筐体10に内蔵している。 Further, the video conference apparatus 1 has a signal processing function unit as shown in FIG.
図3は本実施形態のテレビ会議装置1の信号処理機能部の構成を示すブロック図である。 FIG. 3 is a block diagram illustrating the configuration of the signal processing function unit of the video conference apparatus 1 according to the present embodiment.
マイク2A〜2Hは、テレビ会議装置1の周囲からの音声を収音し、スピーカ3は、他のテレビ会議装置で収音された音声に対応する入力音声信号を放音する。
The
マイクアレイ20は、前述のマイク2A〜2Hにより構成され、各マイク2A〜2Hは音声を収音して電気変換、およびA/D変換してそれぞれに収音信号MA〜MHを生成し、収音ビーム形成部21に出力する。
The
収音ビーム形成部21は、各マイク2A〜2Hから入力された収音信号MA〜MHを用いた遅延和処理等の信号処理を行い、それぞれに所定方向へ高い収音感度を有する指向性の収音ビーム信号MB1〜MB6を生成する。これら収音ビーム信号MB1〜MB6は、水平方向においてそれぞれに指向性の軸方向を異ならせて設定されており、各収音ビーム信号MB1〜MB6の指向性は、水平方向の全方位が話者検知範囲となるように設定されている。例えば、6本の収音ビームであれば、それぞれが水平面において約60°間隔となるように、略均等な角度間隔で設定されている。これにより、テレビ会議装置1の水平方向に対して、異なる複数の方向で高い収音感度が設定される。
The collected sound
話者位置検出部23は、収音ビーム信号MB1〜MB6を取得すると、信号レベル(振幅強度)を比較し、最も高い信号レベルの収音ビーム信号を選択し、この収音ビーム信号に対応する方向、例えば、検出した収音ビーム信号の指向性の軸方向を、話者方向として検出する。話者位置検出部23は、検出した収音ビーム信号の情報を収音ビーム選択部22に与えるとともに、話者方向情報を映像データ処理部41に与える。
When the speaker
収音ビーム選択部22は、話者位置検出部23から得られる収音ビーム信号情報に基づいて、収音ビーム信号MB1〜MB6から該当する収音ビーム信号を選択して、エコーキャンセル部24に出力する。
The sound collection
エコーキャンセル部24は、適応型フィルタ241と、加算器を含むポストプロセッサ242とを備える。適応型フィルタ241は、通信制御部25を介して入力される前記入力音声信号に基づいて、擬似回帰音信号を生成し、ポストプロセッサ242に与える。ポストプロセッサ242は、収音ビーム選択部22からの収音ビーム信号から擬似回帰音信号を差分して、送信音声信号として通信制御部25に出力する。この際、適応型フィルタ241は、ポストプロセッサ242から出力される残差信号を取得してフィルタ係数を最適化して、より適当な擬似回帰音信号を生成する。
The
カメラ4は、双曲面ミラー5を介して入力される水平方向の全方位の映像を一度に撮像して、全方位映像データを映像データ処理部41に出力する。
映像データ処理部41は、話者方向情報を取得すると、該話者方向に対応する話者方向映像データを全方位映像データから切り出す。すなわち、映像データ処理部41は、取得した話者方向に対して、話者の映像が含まれる範囲からなる予め設定した所定角度範囲に亘る映像データを全方位映像データから切り出し、これを話者映像データとして出力する。この際、映像データ処理部41は、話者映像データに対して透視投影変換を行ことにより、あたかも話者方向を平面視したような映像を得られる。
The
When acquiring the speaker direction information, the video
通信制御部25は、エコーキャンセル部24から出力される送信音声信号と、映像データ処理部41から出力される話者映像データとを、自身が接続するネットワークのプロトコルに対応するデータ形式に変換して、これら2つのデータを略同時にネットワークへ出力する。
The
このような構成および処理とすることで、話者からの発生音を高いS/N比で収音して、相手側に送信することができるとともに、この発生音と同時に話者の映像を送信することができるので、双方の会議者にとって分かりやすいテレビ会議を実現することができる。また、話者が切り替わった場合、映像の切り替えは、全方位映像データから切り出す話者映像データの範囲を切り替える処理だけで実現することができるので、映像の切り替えを高速に行うことができる。これにより、話者が切り替わった時に、音声は新たな話者のものであり映像は前の話者であるような、音声と映像との食い違いを防止することができる。この結果、使用勝手の良いテレビ会議を行うことができる。 With this configuration and processing, the sound generated from the speaker can be collected with a high S / N ratio and transmitted to the other party, and the video of the speaker is transmitted simultaneously with the generated sound. Therefore, it is possible to realize an easy-to-understand video conference for both parties. Further, when the speaker is switched, the video switching can be realized only by switching the range of the speaker video data cut out from the omnidirectional video data, so that the video switching can be performed at high speed. Thereby, when the speaker is switched, it is possible to prevent a discrepancy between the audio and the video such that the audio is of the new speaker and the video is the previous speaker. As a result, a user-friendly video conference can be performed.
次に、第2の実施形態に係るテレビ会議装置について図4を参照して説明する。 Next, a video conference apparatus according to the second embodiment will be described with reference to FIG.
図4(A)は本実施形態のテレビ会議装置1Bの構成を示す平面図であり、(B)は側面図である。
FIG. 4A is a plan view showing the configuration of the
本実施形態のテレビ会議装置1Bは、複数のカメラ4A〜4Fを備え、双曲面ミラーを備えないものであり、他の構成は、第1の実施形態のテレビ会議装置1と同じである。
本実施形態のテレビ会議装置1Bは、筐体10の天面側の窓12に囲まれた内部空間の中心に支軸14を設置し、当該支軸14を中心としてカメラ4A〜4Fを設置したものである。なお、カメラ数は6台に限るものでなく、仕様に応じて適宜設定すればよい。各カメラ4A〜4Fは、水平面において等角度間隔で設置され、各カメラの視野はそれぞれの端部で重なり合い、全てのカメラ4A〜4Fで水平方向の全方位の映像を撮像するように設置されている。例えば、図4では、各カメラ4A〜4Fが60°間隔で設置されており、この6個のカメラ4A〜4Fで水平方向の全方位の映像を撮像する。そして、これらカメラ4A〜4Fの光軸は、例えば、収音ビーム信号MB1〜MB6の指向性の軸方向に一致するように設定されている。
The
In the video conference apparatus 1 </ b> B of the present embodiment, the
このような構造の場合、映像データ処理部41は、取得した話者方向に光軸が向くカメラの映像を話者映像データとして選択して出力する。
In the case of such a structure, the video
このような構成および処理を行う場合でも、前述の第1の実施形態と同様に、話者の切り替えに応じて、収音方向と撮像方向とを同時に切り替えることができるので、使用勝手の良いテレビ会議を行うことができる。さらに、本実施形態の構成では、透過投影変換を行うことなく、平面的な話者映像データを取得することができるので、映像データ変換処理を要せず、より高速に映像の切り替えを行うことができる。 Even in such a configuration and processing, as in the first embodiment described above, the sound collection direction and the imaging direction can be switched at the same time in accordance with the switching of the speaker. A meeting can be held. Furthermore, in the configuration of the present embodiment, planar speaker video data can be acquired without performing transmissive projection conversion, so that video data conversion processing is not required and video switching is performed at higher speed. Can do.
次に、第3の実施形態に係るテレビ会議装置について図5、図6を参照して説明する。
図5は本実施形態のテレビ会議装置1Cの構成を示す側面図である。
図6は本実施形態のテレビ会議装置1Cの信号処理機能部の構成を示すブロック図である。
本実施形態のテレビ会議装置1Cは、双曲面ミラーに代わり回動可能に設置された平板ミラー15を備える。なお、ミラーは平板ミラーに限ることなく、凹面ミラー、凸面ミラー等のレンズフォーカスがとれるミラーであればよい。
また、映像データ処理部41を用いず、ミラー制御部42を備える。
Next, a video conference apparatus according to the third embodiment will be described with reference to FIGS.
FIG. 5 is a side view showing the configuration of the
FIG. 6 is a block diagram illustrating a configuration of a signal processing function unit of the
The
In addition, a
当該平板ミラー15は、垂直方向(および水平方向)に対して反射面が略45°で傾くように設置され、水平方向の所定範囲の光(映像)をカメラ4に導く。この平板ミラー15は、天蓋11に対して支軸16で支持され、この支軸16を介して天蓋11に設置されたサーボモータ17に接続している。そして、サーボモータ17が回転すると、この回転量に応じて、平板ミラー15が回動する。この回動により、平板ミラー15は、水平方向の全方位の映像における反射面の向く方向の映像をカメラ4に導く。なお、平板ミラー15の設置角度は、これに限るものではなく、適宜設定することができる。
The
このような構造では、話者位置検出部23は話者位置情報をミラー制御部42に与える。ミラー制御部42は、取得した話者位置情報に基づき、現在の平面ミラー15の正面方向と新たな話者方向との角度差を算出して、この角度差に応じたサーボ制御信号を生成する。サーボモータ17は、このサーボ制御信号に応じて作動し、平面ミラー15を回動させる。この際、回動量は映像を構成するフレームレートに同期させる。
In such a structure, the speaker
平面ミラー15を介してカメラ4に撮像される映像は、新たな話者を含む所定範囲の映像であり、カメラ4は、この話者映像データをそのまま通信制御部25に出力する。
The video imaged by the
このような構造の場合、平面ミラー15の回動という機構的動作を要するが、平面ミラー15は、カメラ4と比較して軽量であるので、回動速度が速くなる。これにより、従来よりも高速に映像の切り替えを行うことができ、前述の各実施形態と同様に使用勝手の良いテレビ会議を行うことができる。
In the case of such a structure, a mechanical operation of rotating the
なお、本実施形態ではサーボモータを用いた例を示したが、原点センサ付モータを用いてもよい。 In the present embodiment, an example using a servo motor has been shown, but a motor with an origin sensor may be used.
また、前述の各実施形態では、収音ビーム信号を6本生成する例を示したが、生成する収音ビーム信号数は、仕様に応じて適宜設定すればよい。 In each of the above-described embodiments, an example in which six sound collecting beam signals are generated has been described. However, the number of sound collecting beam signals to be generated may be set as appropriate according to specifications.
また、前述の第2の実施形態では、カメラ数を収音ビーム信号数に一致させ、カメラ(レンズ)の光軸を収音ビームの指向性軸に一致された例を示したが、これらを一致させないような構成を用いてもよい。 In the second embodiment described above, the number of cameras is matched with the number of collected sound beam signals, and the optical axis of the camera (lens) is matched with the directivity axis of the collected sound beam. A configuration that does not match may be used.
また、前述の各実施形態では、スピーカとして無指向性のスピーカを用いた例を示したが、筐体の底面に複数のスピーカからなるスピーカアレイを配列してもよい。この場合、話者方向映像データに合わせて指向性を設定し、スピーカアレイの各スピーカから放音される放音ビームを形成することで、話者方向を主方向とする等の所望方向への放音を行うことができる。 In each of the above-described embodiments, an example in which an omnidirectional speaker is used as the speaker has been described. However, a speaker array including a plurality of speakers may be arranged on the bottom surface of the housing. In this case, directivity is set in accordance with the speaker direction video data, and a sound emission beam emitted from each speaker of the speaker array is formed, so that the speaker direction is set as a main direction. Sound can be emitted.
1−テレビ会議装置、10−筐体、11−天蓋、12−窓、13−脚部、14,16−支軸、15−平板ミラー、17−サーボモータ、2A〜2H−マイク、3−スピーカ、4,4A〜4F−カメラ、5−双曲面ミラー、20−マイクアレイ、21−収音ビーム形成部、22−収音ビーム選択部、23−話者位置検出部、24−エコーキャンセル部、241−適応型フィルタ、242−ポストプロセッサ、25−通信制御部、41−映像データ処理部、42−ミラー制御部 1-Video conferencing apparatus, 10-case, 11-canopy, 12-window, 13-leg, 14, 16-support shaft, 15-flat mirror, 17-servo motor, 2A-2H-microphone, 3-speaker , 4, 4A to 4F-camera, 5-hyperboloid mirror, 20-microphone array, 21-sound collecting beam forming unit, 22-sound collecting beam selecting unit, 23-speaker position detecting unit, 24-echo canceling unit, 241-adaptive filter, 242-post processor, 25-communication control unit, 41-video data processing unit, 42-mirror control unit
Claims (6)
マイクアレイの各マイクの収音信号を用いて複数方向の収音ビーム信号を形成する収音ビーム形成手段と、
前記複数の収音ビーム信号に基づいて話者方向を検出する話者方向検出手段と、
検出した話者方向の収音ビーム信号を送信音声信号として選択する送信音声信号選択手段と、
各収音ビーム信号に対応する領域を撮像して、話者方向の収音ビーム信号に対応する所定範囲の話者方向映像データを出力する映像データ形成手段と、
前記送信音声信号と前記話者方向映像データとを同時に送信する通信手段と、
を備えたことを特徴とするテレビ会議装置。 A microphone array having a plurality of microphones arranged in a predetermined pattern;
A sound collecting beam forming means for forming a sound collecting beam signal in a plurality of directions using a sound collecting signal of each microphone of the microphone array;
Speaker direction detecting means for detecting a speaker direction based on the plurality of collected sound beam signals;
Transmission voice signal selection means for selecting the detected sound beam signal in the direction of the speaker as a transmission voice signal;
Video data forming means for imaging a region corresponding to each sound collecting beam signal and outputting speaker direction video data in a predetermined range corresponding to the sound collecting beam signal in the speaker direction;
Communication means for simultaneously transmitting the transmission audio signal and the speaker direction video data;
A video conferencing apparatus comprising:
複数のマイクが収音する領域の全方位を撮像して全方位映像データを形成する撮像手段と、
前記全方位映像データから前記話者方向映像データを切り出して生成する話者方向映像データ形成手段と、
を備える請求項1に記載のテレビ会議装置。 The video data forming means includes
Imaging means for imaging omnidirectional images of a region where a plurality of microphones collect sound to form omnidirectional video data;
Speaker direction video data forming means for cutting out and generating the speaker direction video data from the omnidirectional video data;
The video conference apparatus according to claim 1.
前記撮像手段は、
前記周面に沿った筐体の中心軸をレンズの光軸として前記筐体内に設置されたカメラと、
前記円周方向の全方位の映像を前記光軸の方向に沿って前記レンズへ導く曲面反射板と、
を備える請求項2に記載のテレビ会議装置。 The plurality of microphones of the microphone array are arranged circumferentially along the circumferential surface of a substantially cylindrical housing,
The imaging means includes
A camera installed in the housing with the central axis of the housing along the peripheral surface as the optical axis of the lens;
A curved reflector for guiding the image in all directions in the circumferential direction to the lens along the direction of the optical axis;
The video conference apparatus according to claim 2.
前記撮像手段は、互いに撮像範囲が部分的に重複し、且つ前記全方位を網羅するように、前記筐体の円周方向のそれぞれ異なる方向に向けて設置された複数のカメラを備え、
前記話者方向映像データ形成手段は、前記検出された話者方向に向けられたカメラの映像データを前記話者方向映像データとして出力する請求項2に記載のテレビ会議装置。 The plurality of microphones of the microphone array are arranged circumferentially along the circumferential surface of a substantially cylindrical housing,
The imaging means includes a plurality of cameras installed in different directions in the circumferential direction of the housing so that the imaging ranges partially overlap each other and cover all the directions,
3. The video conference apparatus according to claim 2, wherein the speaker direction video data forming unit outputs video data of a camera directed to the detected speaker direction as the speaker direction video data.
前記映像データ形成手段は、
前記周面に沿った筐体の中心軸をレンズの光軸として前記筐体内に設置されたカメラと、
前記円周方向の所定範囲の映像を前記光軸の方向に沿って前記レンズへ導く反射板と、
該反射板を前記中心軸に対して回動可能に支持し、前記検出した話者方向へ前記反射板を回動させる付勢手段と、
を備える請求項1に記載のテレビ会議装置。 The plurality of microphones of the microphone array are arranged circumferentially along the circumferential surface of a substantially cylindrical housing,
The video data forming means includes
A camera installed in the housing with the central axis of the housing along the peripheral surface as the optical axis of the lens;
A reflector for guiding an image in a predetermined range in the circumferential direction to the lens along the direction of the optical axis;
An urging means for rotatably supporting the reflecting plate with respect to the central axis and rotating the reflecting plate in the detected speaker direction;
The video conference apparatus according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006044198A JP2007228070A (en) | 2006-02-21 | 2006-02-21 | Video conference apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006044198A JP2007228070A (en) | 2006-02-21 | 2006-02-21 | Video conference apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007228070A true JP2007228070A (en) | 2007-09-06 |
Family
ID=38549464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006044198A Pending JP2007228070A (en) | 2006-02-21 | 2006-02-21 | Video conference apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007228070A (en) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009278568A (en) * | 2008-05-16 | 2009-11-26 | Sony Corp | Image processing device and image processing method |
WO2011087356A2 (en) * | 2010-01-15 | 2011-07-21 | Mimos Berhad | Video conferencing using single panoramic camera |
US8441515B2 (en) | 2009-09-17 | 2013-05-14 | Sony Corporation | Method and apparatus for minimizing acoustic echo in video conferencing |
WO2015198964A1 (en) * | 2014-06-24 | 2015-12-30 | 日立マクセル株式会社 | Imaging device provided with audio input/output function and videoconferencing system |
KR101855321B1 (en) * | 2016-11-23 | 2018-06-08 | 주식회사 쓰리에이치굿스 | Speaker For Nondirectional Sound And 360°Omnidirectional Image Photographing |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
CN110166898A (en) * | 2019-05-20 | 2019-08-23 | 南京南方电讯有限公司 | A kind of array microphone that high-fidelity teletransmission is defeated |
USD865723S1 (en) | 2015-04-30 | 2019-11-05 | Shure Acquisition Holdings, Inc | Array microphone assembly |
KR102153106B1 (en) * | 2020-02-12 | 2020-09-07 | 한국영상대학교 산학협력단 | Modular Microphone |
KR102153105B1 (en) * | 2020-02-12 | 2020-09-07 | 한국영상대학교 산학협력단 | Modular Microphone |
CN114008999A (en) * | 2019-07-03 | 2022-02-01 | 惠普发展公司,有限责任合伙企业 | Acoustic echo cancellation |
USD944776S1 (en) | 2020-05-05 | 2022-03-01 | Shure Acquisition Holdings, Inc. | Audio device |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11297426B2 (en) | 2019-08-23 | 2022-04-05 | Shure Acquisition Holdings, Inc. | One-dimensional array microphone with improved directivity |
US11302347B2 (en) | 2019-05-31 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US11438691B2 (en) | 2019-03-21 | 2022-09-06 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
US11445294B2 (en) | 2019-05-23 | 2022-09-13 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
US11523212B2 (en) | 2018-06-01 | 2022-12-06 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11678109B2 (en) | 2015-04-30 | 2023-06-13 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
US11785380B2 (en) | 2021-01-28 | 2023-10-10 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
-
2006
- 2006-02-21 JP JP2006044198A patent/JP2007228070A/en active Pending
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009278568A (en) * | 2008-05-16 | 2009-11-26 | Sony Corp | Image processing device and image processing method |
US8441515B2 (en) | 2009-09-17 | 2013-05-14 | Sony Corporation | Method and apparatus for minimizing acoustic echo in video conferencing |
WO2011087356A2 (en) * | 2010-01-15 | 2011-07-21 | Mimos Berhad | Video conferencing using single panoramic camera |
WO2011087356A3 (en) * | 2010-01-15 | 2011-10-06 | Mimos Berhad | Video conferencing using single panoramic camera |
WO2015198964A1 (en) * | 2014-06-24 | 2015-12-30 | 日立マクセル株式会社 | Imaging device provided with audio input/output function and videoconferencing system |
USD865723S1 (en) | 2015-04-30 | 2019-11-05 | Shure Acquisition Holdings, Inc | Array microphone assembly |
US11832053B2 (en) | 2015-04-30 | 2023-11-28 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US11678109B2 (en) | 2015-04-30 | 2023-06-13 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
USD940116S1 (en) | 2015-04-30 | 2022-01-04 | Shure Acquisition Holdings, Inc. | Array microphone assembly |
US11310592B2 (en) | 2015-04-30 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
KR101855321B1 (en) * | 2016-11-23 | 2018-06-08 | 주식회사 쓰리에이치굿스 | Speaker For Nondirectional Sound And 360°Omnidirectional Image Photographing |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US11477327B2 (en) | 2017-01-13 | 2022-10-18 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US11800281B2 (en) | 2018-06-01 | 2023-10-24 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11523212B2 (en) | 2018-06-01 | 2022-12-06 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11770650B2 (en) | 2018-06-15 | 2023-09-26 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11778368B2 (en) | 2019-03-21 | 2023-10-03 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
US11438691B2 (en) | 2019-03-21 | 2022-09-06 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
CN110166898A (en) * | 2019-05-20 | 2019-08-23 | 南京南方电讯有限公司 | A kind of array microphone that high-fidelity teletransmission is defeated |
CN110166898B (en) * | 2019-05-20 | 2021-03-30 | 南京南方电讯有限公司 | High-fidelity remote transmission array microphone |
US11445294B2 (en) | 2019-05-23 | 2022-09-13 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
US11800280B2 (en) | 2019-05-23 | 2023-10-24 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system and method for the same |
US11688418B2 (en) | 2019-05-31 | 2023-06-27 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
US11302347B2 (en) | 2019-05-31 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
CN114008999A (en) * | 2019-07-03 | 2022-02-01 | 惠普发展公司,有限责任合伙企业 | Acoustic echo cancellation |
US11937076B2 (en) | 2019-07-03 | 2024-03-19 | Hewlett-Packard Development Copmany, L.P. | Acoustic echo cancellation |
US11750972B2 (en) | 2019-08-23 | 2023-09-05 | Shure Acquisition Holdings, Inc. | One-dimensional array microphone with improved directivity |
US11297426B2 (en) | 2019-08-23 | 2022-04-05 | Shure Acquisition Holdings, Inc. | One-dimensional array microphone with improved directivity |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
KR102153105B1 (en) * | 2020-02-12 | 2020-09-07 | 한국영상대학교 산학협력단 | Modular Microphone |
KR102153106B1 (en) * | 2020-02-12 | 2020-09-07 | 한국영상대학교 산학협력단 | Modular Microphone |
USD944776S1 (en) | 2020-05-05 | 2022-03-01 | Shure Acquisition Holdings, Inc. | Audio device |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
US11785380B2 (en) | 2021-01-28 | 2023-10-10 | Shure Acquisition Holdings, Inc. | Hybrid audio beamforming system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007228070A (en) | Video conference apparatus | |
JP4862645B2 (en) | Video conferencing equipment | |
US8189807B2 (en) | Satellite microphone array for video conferencing | |
JP5323069B2 (en) | Microphone array for camera speakerphone | |
JP5606543B2 (en) | Automatic operation type directional loudspeaker and method of operating the same | |
EP1965603B1 (en) | Sound emission and collection device | |
JP5028944B2 (en) | Audio conference device and audio conference system | |
JP4932836B2 (en) | Determination of the position of the sound source | |
JP4797330B2 (en) | robot | |
US9084057B2 (en) | Compact acoustic mirror array system and method | |
US20120327115A1 (en) | Signal-enhancing Beamforming in an Augmented Reality Environment | |
JP2008288785A (en) | Video conference apparatus | |
JPH11331827A (en) | Television camera | |
CN205621437U (en) | Remote voice acquisition device that audio -video was jointly fixed a position | |
CN106887236A (en) | A kind of remote speech harvester of sound image combined positioning | |
WO2019049494A1 (en) | Sound pickup device, sound pickup system, sound pickup method, program, and calibration method | |
JP2019197550A (en) | Sound input/output device | |
WO2015198964A1 (en) | Imaging device provided with audio input/output function and videoconferencing system | |
JPH08221081A (en) | Sound transmission device | |
JP2011087218A (en) | Loud speaker system | |
JP2007214753A (en) | Control method and controller | |
CN111133745B (en) | Camera and image display apparatus including the same | |
JP2011163776A (en) | Device for monitoring sound source | |
JP2018006822A (en) | Voice output system and voice output method | |
KR20180003384A (en) | System and method for capturing 3d sound |