JP7070910B2 - Video conference system - Google Patents
Video conference system Download PDFInfo
- Publication number
- JP7070910B2 JP7070910B2 JP2018217701A JP2018217701A JP7070910B2 JP 7070910 B2 JP7070910 B2 JP 7070910B2 JP 2018217701 A JP2018217701 A JP 2018217701A JP 2018217701 A JP2018217701 A JP 2018217701A JP 7070910 B2 JP7070910 B2 JP 7070910B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speakers
- video
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
Description
本発明は、テレビ会議システム、特に高い臨場感を備えたテレビ会議システムに関する。 The present invention relates to a video conference system, particularly a video conference system with a high sense of presence.
従来、会議システムにおける臨場感の向上を課題とした文献として、例えば特許文献1が知られている。特許文献1に開示された電話会議システムは、複数の拠点間で遠隔通話により会議を実施する電話会議システムであって、ステレオヘッドホンあるいはステレオイヤホンとマイクを利用して相互に通話を行う手段と、発言者の音像位置を任意に設定するためのレンダリング処理手段とを会議参加者側それぞれに設けたことを特徴とする。すなわち、予め発言者の位置を自動的に決めておき、あるいは設定者が任意に決めておき、その発言者の方向に近い、予め測定してある頭部伝達関数を発言者のマイクロホン信号に畳み込むことによって発言者の方向から音声が聞こえるようにするものである。会議参加者は各々マイクロホンとヘッドホンとが一体となったヘッドセットを装着する。 Conventionally, for example, Patent Document 1 is known as a document for improving the sense of presence in a conference system. The telephone conference system disclosed in Patent Document 1 is a telephone conference system that conducts a conference by remote communication between a plurality of bases, and is a means for communicating with each other using stereo headphones or a stereo earphone and a microphone. It is characterized in that each of the conference participants is provided with a rendering processing means for arbitrarily setting the sound image position of the speaker. That is, the position of the speaker is automatically determined in advance, or the setter arbitrarily determines the head-related transfer function, which is close to the direction of the speaker and is measured in advance, and is convoluted into the microphone signal of the speaker. By doing so, the voice can be heard from the direction of the speaker. Each conference participant wears a headset that integrates a microphone and headphones.
ここで、会議システムにおける音像定位方法の従来例について説明する。例えば会議システムにおける収音として、会議テーブルの上に配置した1個の無指向性のマイクロホン、あるいは単一/無指向性マイクロホンを用いて、あらゆる方向の音声を同時に、または、1マイクロホンずつ個別に収音する方法がある。収音した音声を圧縮(エンコード)して、ISDN、社内のLAN回線、インターネットなどのネットワークを通じて遠隔地の会議室に伝送し、該収音した音声を復元(デコード)し音声データに戻した信号を必要に応じてアンプ(増幅器)で増幅し、相手側の会議室内のテーブルや会議室の壁、天井に配置したスピーカから拡声する。 Here, a conventional example of a sound image localization method in a conference system will be described. For example, as sound collection in a conference system, one omnidirectional microphone placed on a conference table or a single / omnidirectional microphone can be used to simultaneously or individually listen to sound in all directions. There is a way to pick up the sound. A signal that compresses (encodes) the collected sound, transmits it to a remote conference room through a network such as ISDN, an in-house LAN line, or the Internet, restores (decodes) the collected sound, and returns it to audio data. Is amplified by an amplifier (amplifier) as needed, and the sound is loudened from the speaker placed on the table in the other party's conference room, the wall of the conference room, or the ceiling.
また他の会議システムにおける音像定位方法では、ある音場を別の空間に再現する方法として、原空間の中の受音領域と再生空間とで、音響物理量を一致させる方式(キルヒホッフ・ヘルムホルツ積分定理に基づく方式)を用いている。本方法はすなわち境界音場制御法を用いた例である。再生空間において受音領域境界上の音響物理信号を再現するスピーカ信号を求めることを特徴としている。基本的には、原空間の受音領域境界にマイクロホンを多数配置して音圧と音圧傾度を測定し、これを再生空間境界に配置したスピーカで再生すれば、そのまま再生空間で音場が再現できる。 In the sound image localization method in other conference systems, as a method of reproducing one sound field in another space, a method of matching acoustic physical quantities between the sound receiving region and the reproduction space in the original space (Kirchhof-Helmholtz integral theorem). Method based on) is used. This method is an example using the boundary sound field control method. It is characterized by obtaining a speaker signal that reproduces an acoustic physical signal on the boundary of a sound receiving region in a reproduction space. Basically, if a large number of microphones are placed at the boundary of the sound receiving area in the original space to measure the sound pressure and the sound pressure gradient, and this is played back by the speaker placed at the boundary of the playback space, the sound field is directly generated in the playback space. Can be reproduced.
さらに、臨場感再生方式の一例として、WFS(Wave Field Synthesis:波面合成法)と称される方式もある。WFSは、音声の伝わり方やその音声を受け取る右耳と左耳との間の遅延、音場の空間サイズ等に応じてリアルタイムで計算/レンダリングして、スピーカーアレイシステムに出力するという3D音響システムをいう。WFS方式ではスイートスポットがないため視聴場所に制約されずリアルなサラウンド効果が楽しめ、限りなく現実同様の音場空間を生成することができるとされている。 Further, as an example of the immersive reproduction method, there is also a method called WFS (Wave Field Synthesis: wave field synthesis method). WFS is a 3D sound system that calculates / renders in real time according to how the sound is transmitted, the delay between the right and left ears that receive the sound, the space size of the sound field, etc., and outputs it to the speaker array system. To say. Since there is no sweet spot in the WFS method, it is said that a realistic surround effect can be enjoyed without being restricted by the viewing place, and a sound field space similar to the reality can be generated as much as possible.
ここで、テレビ会議システムのように音声が発言者と不可分の関係にあるシステムにおいて会議の臨場感を高めるためには、聴取(受聴)側で当該発言者の識別が容易であることが必要である。つまり、例えば遠隔地との間でのテレビ会議システムにおいて会議の臨場感を向上させるためには、発言者(発話者)の音声の方向と聴取者の視覚の方向とを一致させるための音像定位拡声システムが必要となる。 Here, in order to enhance the presence of the conference in a system such as a video conference system in which the voice is inseparably related to the speaker, it is necessary for the listening side to easily identify the speaker. be. That is, for example, in order to improve the presence of a conference in a video conference system with a remote location, sound image localization for matching the direction of the voice of the speaker (speaker) with the direction of the listener's vision. A loudspeaker system is required.
この点、特許文献1に開示された電話会議システムでは、予め発言者の方向の頭部伝達関数を用意しておくが、発言者が位置を移動しても音像の位置が変わらないため、発言者の視覚上の位置と音像の位置とが異なる場合が生じ違和感を感じる場合がある。しかも、ヘッドセットを用いなければならないので利用者が煩わしさを感ずる場合があるという問題もある。 In this regard, in the telephone conference system disclosed in Patent Document 1, a head-related transfer function in the direction of the speaker is prepared in advance, but since the position of the sound image does not change even if the speaker moves the position, the speech is made. The visual position of the person and the position of the sound image may differ, which may cause a sense of discomfort. Moreover, since the headset must be used, there is a problem that the user may feel annoyed.
また、上記の単一のマイクロホンを用いる方式では、拡声された音声に当該音声の方向の情報が含まれていないため、音声はスピーカの方向から聞こえることになる。テレビに映された映像を見ることで誰が発言しているかはおおよそわかるが、発言者の方向と音声の聞こえる方向が一致しないため違和感がある。 Further, in the above-mentioned method using a single microphone, since the loudened voice does not include information on the direction of the voice, the voice can be heard from the direction of the speaker. You can roughly tell who is speaking by watching the video on the TV, but it feels strange because the direction of the speaker and the direction of hearing the sound do not match.
一方、上記の境界音場制御法を用いる方式を実現するには、原音場に多数のモノポールマイクロホン、ダイポールマイクロホン、および再生音場に多数のスピーカを配置する必要があり、たとえば、水平方向の音場を周波数8kHzまで再現するためには、約2cmごとにマイクロホンとスピーカを配置することが必要となる。そのため、コストが高くなるという問題がある。 On the other hand, in order to realize the method using the above boundary sound field control method, it is necessary to arrange a large number of monopole microphones and dipole microphones in the original sound field, and a large number of speakers in the reproduced sound field, for example, in the horizontal direction. In order to reproduce the sound field up to a frequency of 8 kHz, it is necessary to arrange microphones and speakers every about 2 cm. Therefore, there is a problem that the cost becomes high.
さらにWFSシステムでは数多くのマイクロホン、スピーカ、DSP(Digital Signal Processor)等を使用するために、コストが高く、システムが大規模、複雑になるという課題がある。 Further, since the WFS system uses a large number of microphones, speakers, DSPs (Digital Signal Processors) and the like, there is a problem that the cost is high and the system becomes large-scale and complicated.
本発明は上記問題点を解決するためになされたものであり、高い臨場感を備えたテレビ会議システムを、簡易な構成で、しかも低コストで実現することを目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to realize a video conference system having a high sense of presence with a simple configuration and at low cost.
上記目的を達成するために、第1の態様のテレビ会議システムは、発言者の音声を収音する複数のマイクロホンと、前記複数のマイクロホンで収音した音声信号に基づいてアンビソニックス信号を生成する生成部と、前記生成部から受け取った前記アンビソニックス信号から音声信号を再生する再生部と、前記再生部から受け取った音声信号を拡声する複数のスピーカと、前記発言者を含む映像を撮像した撮像信号を出力する撮像部と、前記撮像部から受け取った撮像信号を表示する表示部と、を含み、前記表示部の映像および前記複数のスピーカからの音声を視聴しつつ会議に参加する参加者が知覚する前記複数のスピーカからの音声の方向が、前記映像に表示された前記発言者の方向と一致するものである。 In order to achieve the above object, the video conferencing system of the first aspect generates an ambisonic signal based on a plurality of microphones that pick up the sound of the speaker and a voice signal picked up by the plurality of microphones. An image capture of an image including a generation unit, a reproduction unit that reproduces an audio signal from the ambisonic signal received from the generation unit, a plurality of speakers that enhance the audio signal received from the reproduction unit, and a speaker. Participants who participate in the conference while viewing the video of the display unit and the sound from the plurality of speakers, including the image pickup unit that outputs a signal and the display unit that displays the image pickup signal received from the image pickup unit. The direction of the perceived sound from the plurality of speakers coincides with the direction of the speaker displayed in the video.
第1の態様のテレビ会議システムでは、複数のマイクロホンで収音した音声信号に基づいて生成部によりアンビソニックス信号を生成し、再生部により生成部から受け取ったアンビソニックス信号から音声信号を再生し、再生部から受け取った音声信号を複数のスピーカで拡声し、また、撮像部により発言者を含む映像を撮像した撮像信号を出力し、撮像部から受け取った撮像信号を表示部に表示することにより、表示部の映像および複数のスピーカからの音声を視聴しつつ会議に参加する参加者が知覚する複数のスピーカからの音声の方向が映像に表示された発言者の方向と一致する。これにより高い臨場感を備えたテレビ会議システムを、簡易な構成で、しかも低コストで実現することが可能となる。 In the video conferencing system of the first aspect, the ambisonics signal is generated by the generation unit based on the audio signals picked up by the plurality of microphones, and the audio signal is reproduced from the ambisonics signal received from the generation unit by the reproduction unit. The audio signal received from the reproduction unit is amplified by a plurality of speakers, the image pickup signal obtained by capturing the image including the speaker is output by the image pickup unit, and the image pickup signal received from the image pickup unit is displayed on the display unit. The direction of the sound from the plurality of speakers perceived by the participants participating in the conference while watching the image of the display unit and the sound from the plurality of speakers matches the direction of the speaker displayed in the image. This makes it possible to realize a video conference system with a high sense of presence with a simple configuration and at low cost.
第2の態様のテレビ会議システムは、第1の態様のテレビ会議システムにおいて、前記複数のマイクロホンと前記撮像部とを隣接させて配置するものである。 The video conference system of the second aspect is the one in which the plurality of microphones and the image pickup unit are arranged adjacent to each other in the video conference system of the first aspect.
第2の態様のテレビ会議システムでは、複数のマイクロホンと撮像部とを隣接させて配置する。これによりアンビソニックス方式を用いた音声信号と、映像信号との関連付けがより容易となる。 In the video conference system of the second aspect, a plurality of microphones and an image pickup unit are arranged adjacent to each other. This makes it easier to associate the audio signal using the Ambisonics method with the video signal.
第3の態様のテレビ会議システムは、第1の態様または第2の態様のテレビ会議システムにおいて、前記複数のスピーカは、複数の前記発言者の周囲の少なくとも一部を囲むように配置されたものである。 The video conference system of the third aspect is the video conference system of the first aspect or the second aspect, in which the plurality of speakers are arranged so as to surround at least a part of the periphery of the plurality of speakers. Is.
第3の態様のテレビ会議システムでは、複数のスピーカを、複数の発言者の周囲の少なくとも一部を囲むように配置する。これにより、アンビソニックス方式による音像の定位がより容易となる。 In the video conference system of the third aspect, the plurality of speakers are arranged so as to surround at least a part of the periphery of the plurality of speakers. This makes it easier to localize the sound image by the Ambisonics method.
第4の態様のテレビ会議システムは、第3の態様のテレビ会議システムにおいて、前記複数のスピーカは、複数の前記発言者の音声のいずれもが到来しないと予測される位置には配置しないものである。 The video conference system of the fourth aspect is such that in the video conference system of the third aspect, the plurality of speakers are not arranged at a position where it is predicted that none of the voices of the plurality of speakers will arrive. be.
第4の態様のテレビ会議システムでは、複数の発言者の音声のいずれもが到来しないと予測される位置にはスピーカを配置しない。これによりスピーカの個数を削減することが可能となる。 In the video conference system of the fourth aspect, the speaker is not arranged at a position where it is predicted that none of the voices of the plurality of speakers will arrive. This makes it possible to reduce the number of speakers.
第5の態様のテレビ会議システムは、第1の態様から第4の態様のいずれかのテレビ会議システムにおいて、前記生成部は、前記複数のマイクロホンからの前記音声信号を増幅する送信側増幅回路、アナログ信号である前記送信側増幅回路の出力をデジタル信号に変換するアナログデジタル変換回路、および前記アナログデジタル変換回路の出力を前記アンビソニックス信号に符号化する符号化回路を備え、前記再生部は、前記アンビソニックス信号を復号化する復号化回路、デジタル信号である前記復号化回路の出力をアナログ信号に変換するデジタルアナログ変換回路、前記デジタルアナログ変換回路の出力を増幅して前記複数のスピーカに送る受信側増幅回路を備えるものである。 The video conferencing system according to a fifth aspect is the video conferencing system according to any one of the first to fourth aspects, wherein the generator is a transmitter amplifier circuit that amplifies the voice signal from the plurality of microphones. The reproduction unit includes an analog-to-digital conversion circuit that converts the output of the transmission-side amplifier circuit, which is an analog signal, into a digital signal, and a coding circuit that encodes the output of the analog-to-digital conversion circuit into the ambisonics signal. A decoding circuit that decodes the ambisonics signal, a digital-to-analog conversion circuit that converts the output of the decoding circuit that is a digital signal into an analog signal, and an amplifier that amplifies the output of the digital-to-analog conversion circuit and sends it to the plurality of speakers. It is provided with a receiving side amplifier circuit.
第5の態様のテレビ会議システムでは、生成部が、複数のマイクロホンからの音声信号を増幅する送信側増幅回路、アナログ信号である送信側増幅回路の出力をデジタル信号に変換するアナログデジタル変換回路、およびアナログデジタル変換回路の出力をアンビソニックス信号に符号化する符号化回路を備え、再生部が、アンビソニックス信号を復号化する復号化回路、デジタル信号である復号化回路の出力をアナログ信号に変換するデジタルアナログ変換回路、デジタルアナログ変換回路の出力を増幅して複数のスピーカに送る受信側増幅回路を備えている。これにより、会議室の環境に適したアンビソニックス信号の生成、再生を行うことが可能となる。 In the video conferencing system of the fifth aspect, the generator has an amplifier circuit on the transmitting side that amplifies audio signals from a plurality of microphones, and an analog-to-digital conversion circuit that converts the output of the amplifier circuit on the transmitting side, which is an analog signal, into a digital signal. It also has a coding circuit that encodes the output of the analog-to-digital conversion circuit into an ambisonic signal, and the playback unit converts the output of the decoding circuit that decodes the ambisonic signal and the output of the decoding circuit that is a digital signal into an analog signal. It is equipped with a digital-to-analog conversion circuit and a receiving side amplifier circuit that amplifies the output of the digital-to-analog conversion circuit and sends it to a plurality of speakers. This makes it possible to generate and reproduce an Ambisonics signal suitable for the environment of the conference room.
第6の態様のテレビ会議システムは、第5の態様のテレビ会議システムにおいて、前記生成部と前記再生部との間、および前記撮像部と前記表示部との間の各々を伝送回線によって接続するネットワークをさらに備え、前記符号化回路は前記アンビソニックス信号を前記伝送回線に出力する送信回路を備え、前記復号化回路は伝送回線から前記アンビソニックス信号を受信する受信回路を備えるものである。 In the video conference system of the fifth aspect, the video conference system of the sixth aspect connects the generation unit and the reproduction unit, and the image pickup unit and the display unit, respectively, by a transmission line. Further comprising a network, the coding circuit comprises a transmitting circuit that outputs the ambisonics signal to the transmission line, and the decoding circuit comprises a receiving circuit that receives the ambisonics signal from the transmission line.
第6の態様のテレビ会議システムでは、生成部と再生部との間、および撮像部と表示部との間の各々を伝送回線によって接続するネットワークをさらに備え、符号化回路はアンビソニックス信号を伝送回線に出力する送信回路を備え、復号化回路は伝送回線からアンビソニックス信号を受信する受信回路を備えている。これにより、遠隔地同士のテレビ会議システムが構築可能となる。 The video conference system of the sixth aspect further includes a network in which each of the generation unit and the reproduction unit and the image pickup unit and the display unit are connected by a transmission line, and the coding circuit transmits an ambisonics signal. A transmission circuit that outputs to a line is provided, and a decoding circuit includes a reception circuit that receives an ambisonics signal from the transmission line. This makes it possible to construct a video conference system between remote locations.
第7の態様のテレビ会議システムは、第5の態様または第6の態様のテレビ会議システムにおいて、前記復号化回路は、前記複数のスピーカの配列に応じて前記アンビソニックス信号に復号化するものである。 The video conference system of the seventh aspect is the video conference system of the fifth aspect or the sixth aspect, in which the decoding circuit decodes into the ambisonics signal according to the arrangement of the plurality of speakers. be.
第7の態様のテレビ会議システムでは、復号化回路が複数のスピーカの配列に応じてアンビソニックス信号に復号化する。これにより、会議室内の既存のスピーカシステムを用いてアンビソニックス方式を実現することが可能となる。 In the video conference system of the seventh aspect, the decoding circuit decodes into an ambisonics signal according to the arrangement of a plurality of speakers. This makes it possible to realize the Ambisonics method using the existing speaker system in the conference room.
第8の態様のテレビ会議システムは、第1の態様、および第3の態様から第7の態様のいずれかのテレビ会議システムにおいて、前記撮像部は、環状に位置する複数の前記参加者の各々と前記表示部との間に配置され、前記複数のマイクロホンは、環状に位置する複数の前記発言者の中央に配置され、前記生成部は、前記複数のマイクロホンの位置を前記撮像部の位置に座標変換した後、前記アンビソニックス信号を生成するものである。 The video conference system of the eighth aspect is the video conference system of any one of the first aspect and the third to seventh aspects, wherein the image pickup unit is each of the plurality of participants located in a ring shape. And the display unit, the plurality of microphones are arranged in the center of the plurality of speakers located in an annular shape, and the generation unit positions the plurality of microphones at the positions of the imaging unit. After the coordinate conversion, the ambisonics signal is generated.
第8の態様のテレビ会議システムでは、撮像部が、環状に位置する複数の参加者の各々と表示部との間に配置され、複数のマイクロホンが、環状に位置する複数の発言者の中央に配置され、生成部は、複数のマイクロホンの位置を撮像部の位置に座標変換した後、アンビソニックス信号を生成する。これにより、マイクロホンによる収音の条件をよりよい条件としつつ映像に即したアンビソニックス方式の収音が可能となる。 In the video conference system of the eighth aspect, the image pickup unit is arranged between each of the plurality of participants located in the ring and the display unit, and the plurality of microphones are placed in the center of the plurality of speakers located in the ring. Arranged, the generator generates an ambisonics signal after coordinate-converting the positions of the plurality of microphones to the positions of the image pickup unit. This makes it possible to collect sound by the Ambisonics method in line with the image while making the sound collection condition by the microphone better.
本開示によれば、高い臨場感を備えたテレビ会議システムを、簡易な構成で、しかも低コストで実現することができる。 According to the present disclosure, a video conference system with a high sense of presence can be realized with a simple configuration and at low cost.
以下、図面を参照して、本発明を実施するための形態について詳細に説明する。従来技術に係るテレビ会議システムでは映像に映し出された参加者のうちの誰が発言しているのかが分からないことも多く、臨場感に欠けていたが、本発明により遠隔地の会議参加者があたかも同じ会議室で会議をしているような臨場感を得ることができる。本実施の形態では、高い臨場感を備えたテレビ会議システムを、簡易な構成で、しかも低コストで実現するために、音声の伝送系にアンビソニックス方式を用いる。アンビソニックス方式とは、3次元空間の360度全ての方向の音声を記録、ミキシング、再生できる録音技術である。アンビソニックス方式のひとつの特徴は、再生する際のスピーカのレイアウトと独立した方式で音声を記録し、再生環境におけるスピーカのレイアウトに合わせてデコードできることである。さらに、アンビソニックス方式の大きな特徴として、信号処理により再生前に音場を自由にかつ無劣化で回転できることが挙げられる。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In the video conference system according to the prior art, it was often unclear which of the participants displayed in the video was speaking, and it lacked a sense of realism. You can get a sense of realism as if you were having a meeting in the same meeting room. In the present embodiment, an Ambisonics system is used for the audio transmission system in order to realize a video conference system having a high sense of presence with a simple configuration and at low cost. The Ambisonics method is a recording technology that can record, mix, and reproduce audio in all directions of 360 degrees in a three-dimensional space. One of the features of the Ambisonics method is that audio can be recorded by a method independent of the speaker layout during playback, and can be decoded according to the speaker layout in the playback environment. Furthermore, a major feature of the Ambisonics method is that the sound field can be rotated freely and without deterioration by signal processing before reproduction.
[第1の実施の形態]
図1から図4を参照して、本実施の形態に係るテレビ会議システム10について説明する。本実施の形態では、テレビ会議システム10が会議室12Aおよび12B(以下、総称する場合は「会議室12」)に配置され、会議室12Aに居る参加者32A(一人または複数人)と、会議室12Bに居る参加者32B(一人または複数人) との間で音声および映像を媒体とする会議が行われる場合を例示して説明する。以下、参加者32Aと32Bを総称する場合は「参加者32」という。参加者の配置は特に限定されないが、本実施の形態では図1に示すようにテーブル34Aまたは34B(以下、総称する場合は「テーブル34」)の周囲に環状に配置しているものとする。
[First Embodiment]
The
図1に示すように、テレビ会議システム10は、音声伝送装置40A、40B(以下、総称する場合は「音声伝送装置40」)、および映像伝送装置42A、42B(以下、総称する場合は「映像伝送装置42」)を含んで構成されている。音声伝送装置40Aは会議室12A内の音声を会議室12Aから12Bに伝送する装置であり、音声伝送装置40Bは、会議室12B内の音声を会議室12Bから12Aに伝送する装置である。また、映像伝送装置42Aは会議室12A内の映像を会議室12Aから12Bに伝送する装置であり、映像伝送装置42Bは、会議室12B内の映像を会議室12Bから12Aに伝送する装置である。従って、音声伝送装置40、映像伝送装置42は会議室12A、12Bについて対称であるので、以下片側の音声伝送装置40A、映像伝送装置42Aについて説明する。
As shown in FIG. 1, the
図1に示すように、音声伝送装置40Aはマイクロホン24A、音声送信部16A、音声受信部18A、複数(図1では20個の場合を例示している)のスピーカ30B、および制御部80Aを備えている。一方、映像伝送装置42Aはビデオカメラ26A、映像送信部20A、映像受信部22A、およびスクリーン28Bを備えている。
As shown in FIG. 1, the
ここで、本実施の形態では音声送信部16Aと音声受信部18Aとの間、および映像送信部20Aと映像受信部22Aとの間はネットワーク70を介して接続されている。ネットワーク70としては、例えばLAN(Local Area Network)、WAN(Wide Area Network)、インターネット、ISDN(Integrated Services Digital Network)等特に限定されず、また無線、有線の区分も問わない。本実施の形態では会議室12Aと12Bとが互いに遠隔地である形態を例示しているのでネットワーク70が介在する形態を例示して説明するが、会議室12Aと12Bとが隣同士のような近距離に位置する場合はネットワーク70を介在させず、音声送信部16Aと音声受信部18Aとの間、および映像送信部20Aと映像受信部22Aとの間を直結してもよい。
Here, in the present embodiment, the
マイクロホン24Aは会議室12A内の音声を収音する。上記のように、本実施の形態では音声の定位方式にアンビソニックス方式を用いているので、マイクロホン24Aもアンビソニックス対応のマイクロホンを用いている。マイクロホン24Aの詳細については後述する。なお、後述するように、本実施の形態に係るマイクロホン24A(24B)は、複数の個別マイクロホン36を含んで構成されている。
The
スピーカ30Bは会議室12B内の壁面に沿って参加者32Bを囲むように配置され、音声伝送装置40Aを介して送信された会議室12A内の音声を会議室12B内で拡声する。本実施の形態では20個のスピーカ30Bを配置する形態を例示して説明するが、これに限定されず、発話者(発言者)の識別の精度等を勘案して適宜な数を選択してよい。
また、必ずしも壁面に配置する必要もなく例えば天井、テーブル34の上等であってもよい。なお、以下ではスピーカ30Aと30Bを総称する場合は「スピーカ30」という。
The
Further, it does not necessarily have to be arranged on the wall surface, and may be, for example, on the ceiling or the table 34. In the following, when the
音声送信部16Aはマイクロホン24Aで収音された音声信号を受けて予め定められた処理を行い、ネットワーク70に送り出す。一方、音声受信部18Aはネットワーク70から該音声信号を受け取り、予め定められた処理を行ってスピーカ30Bに出力する。
The
ビデオカメラ26Aは会議室12A内の参加者を中心とする映像を撮像するカメラであり、本実施の形態では特に限定されず一般的なビデオカメラを用いることができる。映像送信部20Aはビデオカメラ26Aからの映像信号をネットワーク70に送信する。映像受信部22Aはネットワーク70から映像信号を受信し、スクリーン28Bに表示する。
The
制御部80A、80Bは各々図示を省略するCPU、ROM、RAM等を含んで構成され、制御部80Aは音声伝送装置40Aおよび映像伝送装置42Aを統括制御し、制御部80Bは音声伝送装置40Bおよび映像伝送装置42Bを統括制御する。より具体的には、例えば以下で説明するエンコーダ54、デコーダ60における符号化方式、復号化方式の設定、変更等を行う。
The
図2を参照して、音声送信部16A、16B(以下、総称する場合は「音声送信部16」)、音声受信部18A、18B(以下、総称する場合は「音声受信部18」)、映像送信部20A、20B(以下、総称する場合は「映像送信部20」)、映像受信部22A、22B(以下、総称する場合は「映像受信部22」)についてより詳細に説明する。
With reference to FIG. 2,
図2(a)に示すように音声送信部16Aは増幅器50、A/D(アナログデジタル)変換器52、エンコーダ(図2(a)では「ENC」と表記)54、および送信器56(図2(a)では「TX」と表記)を備えて構成されている。A/D変換器52にはアンチエイリアスフィルタを含ませてもよい。なお、音声送信部16Bの構成は音声送信部16Aと同様なので説明を省略する。
As shown in FIG. 2A, the
増幅器50はマイクロホン24Aからの音声信号を増幅するアンプである。ただし、増幅器50は該音声信号のレベル等に応じて必要な場合に設ければよい。A/D変換器52はアナログ信号であるマイクロホン24Aからの音声信号をデジタル信号に変換する。エンコーダ54はA/D変換器52からのデジタル音声信号をアンビソニックス方式の信号(アンビソニックス信号)に符号化しアンビソニックス信号を生成する。送信器56はエンコーダ54から受け取ったアンビソニックス信号をネットワーク70に送出する。送信器56ではネットワーク70における伝送形式に即した符号に変換してからアンビソニックス信号を送信する場合もある。
The
一方図2(b)に示すように、音声受信部18Aは受信器58(図2(b)では「RX」と表記)、デコーダ60(図2(b)では「DEC」と表記)、D/A(デジタルアナログ)変換器62、および増幅器64を含んで構成されている。デコーダ60にはアンチエイリアスフィルタを含ませてもよい。なお、音声受信部18Bの構成は音声受信部18Aと同様なので説明を省略する。
On the other hand, as shown in FIG. 2 (b), the
受信器58はネットワーク70を介して送信された音声信号(アンビソニックス信号)を受信する。送信器56で音声信号に対し所定の符号化がなされていた場合には復号化する。デコーダ60は受信器58で受信されたアンビソニックス信号を復号化し、音声信号を再生する。本復号化では、会議室12内のスピーカ30の個数、配置等を考慮した復号化が実行される。D/A変換器62はデコーダ60で再生されたデジタル信号である音声信号をアナログ信号に変換する。増幅器64はD/A変換器62からの音声信号を増幅し、後段のスピーカ30Bを該音声信号によって駆動する。ただし、増幅器64は該音声信号のレベル等に応じて必要な場合に設ければよい。スピーカ30Bは会議室12Bの参加者に向けて該音声信号を拡声する。
The
一方、図2(c)に示すように映像送信部20Aは送信器66を含んで構成されている。送信器66はビデオカメラ26Aから受け取った会議室12A内の参加者を含む映像信号をネットワーク70に送信する。送信器66では映像信号をネットワーク70の伝送形式に即した符号に変換する場合もある。映像送信部20Bも映像送信部20Aと同様の構成である。
On the other hand, as shown in FIG. 2C, the
一方、図2(d)に示すように映像受信部22Aは受信器68を含んで構成されている。受信器68はネットワーク70から会議室12A内の参加者を含む映像信号を受信する。送信器66で映像信号に対し所定の符号化がなされていた場合には復号化する。映像受信部22Bも映像受信部22Aと同様の構成である。
On the other hand, as shown in FIG. 2D, the
本実施の形態に係るテレビ会議システム10では、マイクロホン24A、24B(以下、総称する場合は「マイクロホン24」)、およびビデオカメラ26A、26B(以下、総称する場合は「ビデオカメラ26」)の配置位置は特に限定されないが、一例として図1に示すように、環状に配置する参加者の前方(換言すれば、テーブル34とスクリーン28との間)に配置してもよい。その際、マイクロホン24とビデオカメラ26は近接させて配置するのが好ましい。
In the
以上のような音声伝送装置40A、映像伝送装置42Aの動作により、会議室12A内の音声信号と映像信号が会議室12Bに伝送される。同様に、音声伝送装置40B、映像伝送装置42Bの動作により、会議室12B内の音声信号と映像信号が会議室12Aに伝送され、会議室12Aと12Bとの間のテレビ会議が行われる。
By the operation of the
なお、本実施の形態では、会議室12A、12Bで各々1台ずつのビデオカメラ26A、26Bを用いる形態を例示して説明したがこれに限られない。ビデオカメラ26Aおよび26Bとして各々2台のビデオカメラを用いることにより3D映像信号として伝送してもよい。その場合、受け側で3Dエンコーダを用いることにより3D映像として受聴することが可能である。
In this embodiment, a mode in which one
次に図3を参照して、本実施の形態に係るマイクロホン24についてより詳細に説明する。図3(a)は最も基本的なアンビソニックスマイクロホンであり、4つの個別マイクロホン(マイクロホンカプセル)36を含んで構成されている。各々の個別マイクロホン36の方向は正四面体の4つの面の法線方向となっている。これらの4つのマイクロホンカプセルで収音された信号の全体はAフォーマット信号と呼ばれる。アンビソニックス方式では、このAフォーマット信号をさらにBフォーマット信号に変換して使用する。Bフォーマット信号とは、Aフォーマット信号を所定の収音指向特性で収音した場合の信号表現に変換したものである。
Next, the
例えばBフォーマットの0次の収音指向特性は無指向性のマイクロホンで収音した場合の収音信号に対応し、1次の収音指向特性は互いに空間的に直交する双指向性のマイクロホンで収音した場合の収音信号に対応する。つまり、アンビソニックマイクロホンでは、音圧と音圧ベクトルに相当する量が得られる。図3(b)はX、Y、Z方向の1次の指向特性を合成して示している。また、図3(b)中に符号「W」が付された点線で示す円は0次の収音指向特性を示している。 For example, the 0th-order sound collection directivity of B format corresponds to the sound collection signal when sound is picked up by an omnidirectional microphone, and the 1st-order sound collection directivity is a bidirectional microphone that is spatially orthogonal to each other. Corresponds to the sound pick-up signal when sound is picked up. That is, in the Ambisonic microphone, the amount corresponding to the sound pressure and the sound pressure vector can be obtained. FIG. 3B synthesizes and shows first-order directivity characteristics in the X, Y, and Z directions. Further, the circle indicated by the dotted line with the reference numeral “W” in FIG. 3 (b) indicates the 0th-order sound collection directivity.
本実施の形態に係るマイクロホン24としては図3(a)に示すアンビソニックスマイクロホンに限られず、図3(c)に示すような球面上に多数個の個別マイクロホン36が配置されたマルチマイクロホンとしてのマイクロホン24であってもよい。あるいは、図4(a)に示すように、中心からの距離d/2の近傍で任意の位置に配置された多数個(図4(a)では11個の場合を例示している)の個別マイクロホン36から構成されたマイクロホン24であってもよい。
The
さらに、本実施の形態では音像の水平方向の定位だけが再現できればよいので、図4(b)から(d)に示すように、個別マイクロホン36を水平面上に配置させた構成のマイクロホン24でもよい。個別マイクロホン36の個数が増えるほどアンビソニックスの次数が大きくなり、音像の定位精度がよくなる。図4(b)は4個の個別マイクロホン36を用いた1次の例を、図4(c)は14個の個別マイクロホン36を用いた6次の例を、図4(d)は9個の個別マイクロホン36を用いた4次の例を各々示している。なお、図4における個別マイクロホン36は一例として無指向性のマイクロホンとされている。
Further, in the present embodiment, only the horizontal localization of the sound image needs to be reproduced. Therefore, as shown in FIGS. 4B to 4D, the
次に、本実施の形態におけるアンビソニックス信号の生成、再生方法について詳細に説明する。 Next, a method of generating and reproducing an ambisonics signal in the present embodiment will be described in detail.
振幅Qの平面波がψ、φ方向(ψは方位角、φは真上を0°とする仰角)から到来する場合、
で平面波が作る音圧pを球面調和展開すると音圧pは、下記(1)式で表される。
When a plane wave of amplitude Q arrives from the ψ and φ directions (ψ is the azimuth and φ is the elevation angle with 0 ° directly above).
When the sound pressure p created by the plane wave is expanded in spherical harmonics, the sound pressure p is expressed by the following equation (1).
なお、上記(1)式において、
である。
In the above equation (1),
Is.
上記(1)式をn次で打ち切り、行列表現して、音源(本実施の形態では主として発話者からの音声)の平面波に、球面調和関数を乗じると、下記(2)式が得られる。
When the above equation (1) is cut off at the nth order, expressed in a matrix, and the plane wave of the sound source (mainly the voice from the speaker in the present embodiment) is multiplied by the spherical harmonic function, the following equation (2) is obtained.
上記太文字のr(r,θ,φ)で示される受音位置の各列が独立となるように適切な配置をとると擬似逆行列を計算することができる。上記(2)式の両辺に、左側から太文字のX・Yrの擬似逆行列をかけると下記(3)式が得られる。
上記(3)式における左辺は平面波の音場の指向性を表し、中辺は任意の
におけるマイクロホン24の
から導出できる音場の指向性を表す。右辺の太文字のBは平面波のアンビソニックス信号と称され、1次の場合は一般にW、X、Y、Zの4つのアルファベットで表わされる。すなわち、本実施の形態に係る音声伝送装置40のエンコーダ54は、複数位置における個別マイクロホン36により収音したマイクロホン信号(音声信号)からBフォーマット信号を作成する。
The pseudo-inverse matrix can be calculated by appropriately arranging the columns of the sound receiving positions indicated by the bold letters r (r, θ, φ) so that they are independent. By multiplying both sides of the above equation (2) by the pseudo-inverse matrix of XYr in bold letters from the left side, the following equation (3) is obtained.
The left side in the above equation (3) represents the directivity of the sound field of a plane wave, and the middle side is arbitrary.
Of the
Represents the directivity of the sound field that can be derived from. The bold letter B on the right side is called a plane wave ambisonics signal, and in the case of the first order, it is generally represented by four alphabets W, X, Y, and Z. That is, the
次に、上記のようにして生成されたn次アンビソニックス信号による音場の再生について説明する。本実施の形態では、音場の再生は音声伝送装置40のデコーダ60により行われる。デコーダ60は、アンビソニックス信号をデコードしてスピーカ30の駆動信号を生成する。以下、本実施の形態におけるアンビソニックス信号のデコード方法について詳細に説明する。
Next, the reproduction of the sound field by the nth-order ambisonics signal generated as described above will be described. In the present embodiment, the reproduction of the sound field is performed by the
中心から等距離における同一球面上に、L個のスピーカ30を設置し、これらのスピーカ30から放射される音波は平面波であると仮定し、これらが作る音圧を球面調和展開すると、下記(4)式が得られる。
なお、上記(4)式において、(θl,φl)は、原点から見たスピーカ30の方向、alは、各スピーカ30の入力信号(駆動信号)である。
When L speakers 30 are installed on the same spherical surface equidistant from the center, it is assumed that the sound waves radiated from these speakers 30 are plane waves, and the sound pressures produced by these speakers are expanded in spherical harmony, the following (4) ) Is obtained.
In the above equation (4), (θ l , φ l ) is the direction of the speaker 30 as seen from the origin, and a is the input signal (drive signal) of each speaker 30.
ここで、平面波が作る音圧と、L個のスピーカ30が作る音圧が等しい((1)式=(4)式)とし、展開をn次で打ち切り行列表現し、球面調和関数の直交性を利用すると、下記(5)式が得られる。
Here, assuming that the sound pressure created by the plane wave and the sound pressure created by the L speakers 30 are equal (Equation (1) = Eq. (4)), the expansion is expressed as a truncated matrix by the nth order, and the orthogonality of the spherical harmonics is expressed. The following equation (5) can be obtained by using.
従って、上記(5)式により、スピーカ30を駆動する駆動信号が導出される。この際の導出は、会議室12におけるスピーカ30の個数、配置等を考慮して行われる。デコーダ60は、上記(5)式により導出された駆動信号をスピーカ30の各々に出力する。以上のようにして生成された駆動信号によってスピーカ30が駆動され、音声が拡声される。会議の参加者は、このスピーカ30で拡声された音声信号を受聴することにより、あたかもスクリーンに映し出された発話者の位置から音声が発せられたように感じることができ、発話者を違和感なく容易に識別することができる。
Therefore, the drive signal for driving the speaker 30 is derived by the above equation (5). The derivation at this time is performed in consideration of the number, arrangement, and the like of the speakers 30 in the conference room 12. The
さらに、本実施の形態に係るテレビ会議システム10によれば、発話者が移動しても視覚と音声の方向が一致した状態を維持することが可能である。しかも、本実施の形態に係るテレビ会議システム10ではヘッドセット等の付加的な設備を用いる必要もない。なお、上式で定義される逆擬似行列(逆フィルタ)はスピーカ30の配置を決めておくことにより予め算出しておくことが可能であり、こうすることで実時間で再生することが可能となる。
Further, according to the
アンビソニックスマイクロホンであるマイクロホン24から見た発話者の方向、距離と会議参加者が感じる発話者の方向・距離は、実際の方向、距離とは必ずしも一致しない場合があり、定位方向、定位距離にずれが生じる場合があるが、音像の位置に関しては聴覚情報よりも視覚情報が優位であるために、実際には視覚の方向、距離に音像が看取される。これにより、会議室12Bの参加者は、スクリーン28Bに映し出された映像と聴覚的に定位した音像により、あたかも会議室12Aと一体となって会議をしているように感じることができる。会議室12Bから12Aに対しても同様に信号を伝送することで、会議室12Aの参加者も会議室12Bと一体となって会議をしているように感じることができる。
The direction and distance of the speaker as seen from the
[第2の実施の形態]
図5を参照して、本実施の形態に係るテレビ会議システム100について説明する。本実施の形態は、上記実施の形態に係るテレビ会議システム10においてスピーカ30の配置を変えた、より具体的にはスピーカ30の個数を削減した形態である。従って、テレビ会議システム10と同様の構成には同じ符号を付して詳細な説明を省略する。
[Second Embodiment]
The
テレビ会議システム100では、会議室12A内のスピーカ30Aの配置、および会議室12B内のスピーカ30Bの配置を図5に示すように行う。図5では各々8個のスピーカ30を配置する形態を例示して説明するが、この個数は発話者の識別性等を勘案して適宜変更してよいし、また、会議室12Aと12Bとで同じ個数である必要もない。
In the
ここで、本発明に係るテレビ会議システムの特徴は、異なる複数の会議室が一体となってあたかも1つの部屋のように映像と音声が認識されることにある。基本的には相手の会議室の発話者の方向からのみ音声が聞こえることから、図1と図5の差分のスピーカ(以下、「余剰スピーカ」)の方向から音声が届くことは無い。このことを勘案すると、冗長なスピーカ数を削減することが可能である。 Here, a feature of the video conference system according to the present invention is that a plurality of different conference rooms are integrated to recognize video and audio as if they were one room. Basically, since the voice can be heard only from the direction of the speaker in the other conference room, the voice does not reach from the direction of the speaker having the difference between FIGS. 1 and 5 (hereinafter, “surplus speaker”). Taking this into consideration, it is possible to reduce the number of redundant speakers.
式(5)で示されたスピーカ30の入力信号を求める際、アンビソニックスの原理上は受聴者周辺を取り囲むようにスピーカ30を配置しなければならないことから、余剰スピーカの位置を含めて式(5)を計算する。その後システムを実際に構築する際には、発話者の方向に余剰スピーカは設置せずに、図5に示すスピーカ30のみを配置する。これによりスピーカ30の数を削減しつつ、発話者の方向に音像を定位させることが可能となる。換言すると、複数のスピーカ30は、複数の発言者の音声のいずれもが到来しないと予測される位置には配置させない。 When obtaining the input signal of the speaker 30 represented by the formula (5), since the speaker 30 must be arranged so as to surround the listener in principle of Ambisonics, the formula (including the position of the surplus speaker) is included. 5) is calculated. After that, when actually constructing the system, only the speaker 30 shown in FIG. 5 is arranged without installing the surplus speaker in the direction of the speaker. This makes it possible to localize the sound image in the direction of the speaker while reducing the number of speakers 30. In other words, the plurality of speakers 30 are not arranged at positions where it is predicted that none of the voices of the plurality of speakers will arrive.
本実施の形態に係るテレビ会議システム100の信号処理方法について説明する。式(5)までの処理は上記テレビ会議システム10と同様である。各々のスピーカ30の配置(θl,φl)に対して求められたスピーカ入力信号alに対し、受聴者ごとに受聴者から見たスピーカ30の角度において予め取得しておいた両耳への頭部伝達関数HL(θl,φl)、HR(θl,φl)を畳み込み、左右それぞれ加算することにより、受聴者ごとのバイノーラル信号に変換される。用意してある頭部伝達関数の位置と受聴者の位置が異なる場合には、最も近い角度のものを用いる。
The signal processing method of the
なお、上記各実施の形態では、マイクロホン24を会議の参加者が環状に位置するテーブル34とスクリーン28との間に配置する形態を例示して説明したが、これに限られない。例えば、マイクロホン24を環状に配置する参加者の中央(つまち、テーブル34の中央)に配置してもよい。この場合、本来のアンビソニックス信号はビデオカメラ26の位置にマイクロホン24を配置する場合を想定しているので、マイクロホン24で収音した音声信号をビデオカメラ26の位置に座標変換してもよい。その際の座標変換は図2(a)に示すエンコーダ54で符号化する前に行ってもよい。
In each of the above embodiments, the
10、100 テレビ会議システム
12、12A、12B 会議室
16、16A、16B 音声送信部
18、18A、18B 音声受信部
20、20A、20B 映像送信部
22、22A、22B 映像受信部
24、24A、24B マイクロホン
26、26A、26B ビデオカメラ
28、28A、28B スクリーン
30、30A、30B スピーカ
32、32A、32B 参加者
34、34A、34B テーブル
36 個別マイクロホン
40、40A、40B 音声伝送装置
42、42A、42B 映像伝送装置
50 増幅器
52 A/D変換器
54 エンコーダ
56 送信器
58 受信器
60 デコーダ
62 D/A変換器
64 増幅器
66 送信器
68 受信器
70 ネットワーク
80A、80B 制御部
10,100
Claims (6)
前記複数のマイクロホンで収音した音声信号に基づいてアンビソニックス信号を生成する生成部と、
前記生成部から受け取った前記アンビソニックス信号から音声信号を再生する再生部と、
前記再生部から受け取った音声信号を拡声する複数のスピーカと、
前記発言者を含む映像を撮像した撮像信号を出力する撮像部と、
前記撮像部から受け取った撮像信号を表示する表示部と、を含み、
前記表示部の映像および前記複数のスピーカからの音声を視聴しつつ会議に参加する参加者が知覚する前記複数のスピーカからの音声の方向が、前記映像に表示された前記発言者の方向と一致する
テレビ会議システムであって、
前記撮像部は、環状に位置する複数の前記参加者の各々と前記表示部との間に配置され、
前記複数のマイクロホンは、環状に位置する複数の前記発言者の中央に配置され、
前記生成部は、前記複数のマイクロホンの位置で収音した音声信号が、前記撮像部の位置で収音した音声信号となるように座標変換した後、前記アンビソニックス信号を生成する
テレビ会議システム。 Multiple microphones that pick up the speaker's voice,
A generation unit that generates an ambisonics signal based on the audio signals picked up by the plurality of microphones.
A reproduction unit that reproduces an audio signal from the ambisonics signal received from the generation unit, and a reproduction unit.
A plurality of speakers that enhance the audio signal received from the playback unit, and
An image pickup unit that outputs an image pickup signal that captures an image including the speaker, and an image pickup unit.
Includes a display unit that displays an image pickup signal received from the image pickup unit.
The direction of the sound from the plurality of speakers perceived by the participants participating in the conference while watching the video of the display unit and the sound from the plurality of speakers coincides with the direction of the speaker displayed in the video. It is a video conference system that
The imaging unit is arranged between each of the plurality of participants located in a ring shape and the display unit.
The plurality of microphones are arranged in the center of the plurality of speakers located in an annular shape.
The generation unit generates the ambisonics signal after coordinate conversion so that the audio signal picked up at the positions of the plurality of microphones becomes the audio signal picked up at the positions of the imaging unit.
Video conference system .
請求項1に記載のテレビ会議システム。 The video conference system according to claim 1 , wherein the plurality of speakers are arranged so as to surround at least a part of the periphery of the plurality of speakers.
請求項2に記載のテレビ会議システム。 The video conference system according to claim 2 , wherein the plurality of speakers are not arranged at a position where it is predicted that none of the voices of the plurality of speakers will arrive.
前記再生部は、前記アンビソニックス信号を復号化する復号化回路、デジタル信号である前記復号化回路の出力をアナログ信号に変換するデジタルアナログ変換回路、前記デジタルアナログ変換回路の出力を増幅して前記複数のスピーカに送る受信側増幅回路を備える
請求項1から請求項3のいずれか1項に記載のテレビ会議システム。 The generator includes a transmitter amplifier circuit that amplifies the audio signal from the plurality of microphones, an analog-to-digital conversion circuit that converts the output of the transmitter amplifier circuit, which is an analog signal, into a digital signal, and an analog-to-digital conversion circuit. Equipped with a coding circuit that encodes the output of the ambisonics signal.
The reproduction unit amplifies the output of the decoding circuit that decodes the ambisonic signal, the digital-to-analog conversion circuit that converts the output of the decoding circuit that is a digital signal into an analog signal, and the output of the digital-to-analog conversion circuit. The video conferencing system according to any one of claims 1 to 3 , further comprising a receiving side amplifier circuit for sending to a plurality of speakers.
前記符号化回路は前記アンビソニックス信号を前記伝送回線に出力する送信回路を備え、
前記復号化回路は伝送回線から前記アンビソニックス信号を受信する受信回路を備える 請求項4に記載のテレビ会議システム。 Further, a network for connecting between the generation unit and the reproduction unit and between the image pickup unit and the display unit by a transmission line is further provided.
The coding circuit includes a transmission circuit that outputs the ambisonics signal to the transmission line.
The video conference system according to claim 4 , wherein the decoding circuit includes a receiving circuit that receives the ambisonics signal from a transmission line.
請求項4または請求項5に記載のテレビ会議システム。 The video conference system according to claim 4 or 5 , wherein the decoding circuit decodes into the ambisonics signal according to the arrangement of the plurality of speakers.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217701A JP7070910B2 (en) | 2018-11-20 | 2018-11-20 | Video conference system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217701A JP7070910B2 (en) | 2018-11-20 | 2018-11-20 | Video conference system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020088516A JP2020088516A (en) | 2020-06-04 |
JP7070910B2 true JP7070910B2 (en) | 2022-05-18 |
Family
ID=70908999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018217701A Active JP7070910B2 (en) | 2018-11-20 | 2018-11-20 | Video conference system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7070910B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7445975B2 (en) | 2020-10-30 | 2024-03-08 | 株式会社カスクアコースティクス | Microphone array device, sound field control system, sound field recording system, and sound field reproduction system |
US20230419985A1 (en) * | 2020-12-04 | 2023-12-28 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
WO2023238965A1 (en) * | 2022-06-07 | 2023-12-14 | 엘지전자 주식회사 | Far end terminal and voice focusing method therefor |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007274462A (en) | 2006-03-31 | 2007-10-18 | Yamaha Corp | Video conference apparatus and video conference system |
US20160057385A1 (en) | 2014-08-20 | 2016-02-25 | Cisco Technology, Inc. | Automatic Switching Between Different Cameras at a Video Conference Endpoint Based on Audio |
US20170324931A1 (en) | 2014-11-19 | 2017-11-09 | Dolby Laboratories Licensing Corporation | Adjusting Spatial Congruency in a Video Conferencing System |
JP2018157314A (en) | 2017-03-16 | 2018-10-04 | 株式会社リコー | Information processing system, information processing method and program |
-
2018
- 2018-11-20 JP JP2018217701A patent/JP7070910B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007274462A (en) | 2006-03-31 | 2007-10-18 | Yamaha Corp | Video conference apparatus and video conference system |
US20160057385A1 (en) | 2014-08-20 | 2016-02-25 | Cisco Technology, Inc. | Automatic Switching Between Different Cameras at a Video Conference Endpoint Based on Audio |
US20170324931A1 (en) | 2014-11-19 | 2017-11-09 | Dolby Laboratories Licensing Corporation | Adjusting Spatial Congruency in a Video Conferencing System |
JP2018157314A (en) | 2017-03-16 | 2018-10-04 | 株式会社リコー | Information processing system, information processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2020088516A (en) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8340315B2 (en) | Assembly, system and method for acoustic transducers | |
US9113034B2 (en) | Method and apparatus for processing audio in video communication | |
US7333622B2 (en) | Dynamic binaural sound capture and reproduction | |
JP3435156B2 (en) | Sound image localization device | |
CA2765116C (en) | Method and apparatus for processing audio signals | |
US20080219485A1 (en) | Apparatus, System and Method for Acoustic Signals | |
JP2975687B2 (en) | Method for transmitting audio signal and video signal between first and second stations, station, video conference system, method for transmitting audio signal between first and second stations | |
CN101384105B (en) | Three dimensional sound reproducing method, device and system | |
US20080056517A1 (en) | Dynamic binaural sound capture and reproduction in focued or frontal applications | |
US20070009120A1 (en) | Dynamic binaural sound capture and reproduction in focused or frontal applications | |
US20150189455A1 (en) | Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields | |
JP2016025469A (en) | Sound collection/reproduction system, sound collection/reproduction device, sound collection/reproduction method, sound collection/reproduction program, sound collection system and reproduction system | |
JP7070910B2 (en) | Video conference system | |
EP2351384A1 (en) | Method of rendering binaural stereo in a hearing aid system and a hearing aid system | |
US20130243201A1 (en) | Efficient control of sound field rotation in binaural spatial sound | |
CN110620982A (en) | Method for audio playback in a hearing aid | |
US10659902B2 (en) | Method and system of broadcasting a 360° audio signal | |
AU2002325063B2 (en) | Recording a three dimensional auditory scene and reproducing it for the individual listener | |
Devallez et al. | Method and system of broadcasting a 360 audio signal | |
TW202143747A (en) | System and method for generating a 3d spatial sound field | |
Kimura et al. | Subjective effect of synthesis conditions in 3D sound field reproduction system using a few transducers and wave field synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7070910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |