JP5550019B2 - Sound field sharing system and optimization method - Google Patents

Sound field sharing system and optimization method Download PDF

Info

Publication number
JP5550019B2
JP5550019B2 JP2010228392A JP2010228392A JP5550019B2 JP 5550019 B2 JP5550019 B2 JP 5550019B2 JP 2010228392 A JP2010228392 A JP 2010228392A JP 2010228392 A JP2010228392 A JP 2010228392A JP 5550019 B2 JP5550019 B2 JP 5550019B2
Authority
JP
Japan
Prior art keywords
microphone
predetermined number
sound field
loudspeaker
loudspeakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010228392A
Other languages
Japanese (ja)
Other versions
JP2012085035A (en
Inventor
成悟 榎本
雄介 池田
哲 中村
史郎 伊勢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010228392A priority Critical patent/JP5550019B2/en
Publication of JP2012085035A publication Critical patent/JP2012085035A/en
Application granted granted Critical
Publication of JP5550019B2 publication Critical patent/JP5550019B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

この発明は音場共有システムおよび最適化方法に関し、特にたとえば、原音場を物理的に忠実に記録・再現する音場制御再生システムを用いた、音場共有システムおよび最適化方法に関する。   The present invention relates to a sound field sharing system and an optimization method, and more particularly to a sound field sharing system and an optimization method using a sound field control reproduction system that records and reproduces an original sound field physically and faithfully.

この種の従来の音場共有システムの一例が非特許文献1に開示されている。この非特許文献1に開示される3次元音場通信システムでは、70ch(チャネル)のマイクロホンアレイで収録した音響データを62chのラウドスピーカで再現する音場制御(Boundary Surface Control:BoSC)再生システムを用いて、遠隔地に存在する利用者が音響空間を共有しながら会話を行うことが可能である。具体的には、予め収録し逆フィルタが畳み込まれた62chの音場データがサーバに記憶される。このサーバには、インターネットおよびLANのようなネットワークを介して、2台のクライアントマシン(PC)が異なる場所に配置される。各クライアントマシンには、3次元の音場再現システムが接続されている。サーバは、利用者が選択した再現音場を双方の音場再現システムに同時に伝送する。各音場再現システムの利用者の音声に対応する音声データは、ネットワークを介して、それぞれ他方のクライアントマシンに伝送される。各クライアントマシンでは、他方の利用者の音声に対応する音声データ(1ch)が、実時間で畳み込まれた後に、音場データ(62ch)に重ね合わせて出力される。したがって、異なる場所に存在する利用者は、サーバから出力される音場データを共有するとともに、会話することができる。   An example of this type of conventional sound field sharing system is disclosed in Non-Patent Document 1. In the three-dimensional sound field communication system disclosed in Non-Patent Document 1, a sound field control (Bond Surface Control: BoSC) reproduction system that reproduces sound data recorded by a microphone array of 70 ch (channel) with a 62 ch loudspeaker is provided. It is possible for users in remote locations to have a conversation while sharing an acoustic space. Specifically, 62ch sound field data recorded in advance and convoluted with an inverse filter is stored in the server. In this server, two client machines (PCs) are arranged at different locations via a network such as the Internet and a LAN. A three-dimensional sound field reproduction system is connected to each client machine. The server simultaneously transmits the reproduction sound field selected by the user to both sound field reproduction systems. Voice data corresponding to the voice of the user of each sound field reproduction system is transmitted to the other client machine via the network. In each client machine, voice data (1ch) corresponding to the voice of the other user is convoluted in real time and then superimposed on the sound field data (62ch) and output. Therefore, users existing in different places can share the sound field data output from the server and have a conversation.

「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42"1. Numerical analysis technology and visualization / audibility 1.7 Three-dimensional sound field communication system" Seigo Enomoto Acoustic Technology No.148 / Dec.2009 pp37-42

しかし、非特許文献1の3次元音場通信システムでは、70chのマイクロホンアレイで収録した音場データを、62chのスピーカアレイ(音場再現システム)で再現するため、その音場データのデータ量が膨大である。また、チャネル数が多いため、畳み込みの処理も負荷が大きい。このため、予め収録するとともに、予め畳み込み処理を行った音場データを各クライアントマシンに伝送するようにしてある。したがって、リアルタイムに収録した音場データを共有することは困難であった。   However, in the three-dimensional sound field communication system of Non-Patent Document 1, the sound field data recorded by the 70ch microphone array is reproduced by the 62ch speaker array (sound field reproduction system). It is enormous. In addition, since the number of channels is large, the load of convolution processing is heavy. For this reason, sound field data that have been recorded in advance and subjected to convolution processing in advance are transmitted to each client machine. Therefore, it is difficult to share sound field data recorded in real time.

それゆえに、この発明の主たる目的は、新規な、音場共有システムおよび最適化方法を提供することである。   Therefore, the main object of the present invention is to provide a novel sound field sharing system and optimization method.

また、この発明の他の目的は、リアルタイムに収録された音場データを異なる場所に存在する利用者によって共有することができる、音場共有システムおよび最適化方法を提供することである。   Another object of the present invention is to provide a sound field sharing system and an optimization method capable of sharing sound field data recorded in real time by users existing in different places.

本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。   The present invention employs the following configuration in order to solve the above problems. The reference numerals in parentheses, supplementary explanations, and the like indicate correspondence relationships with embodiments described later to help understanding of the present invention, and do not limit the present invention in any way.

第1の発明は、音場共有システムは、或る音場に配置され、第1所定数のマイクホンを有するマイクロホンアレイ(14)、マイクロホンアレイによって検出された音場データを収録し、当該音場データを複数の再現システムに伝送するサーバ(12)、およびサーバからの音場データを第2所定数のラウドスピーカを有するスピーカアレイによって再生する再現システム(22、26)を備える。この音場共有システムは、初期スピーカ選択手段、第1評価値算出手段、基準スピーカ選択手段、第1実行手段、初期マイク選択手段、第2評価値算出手段、基準マイク選択手段および第2実行手段を備える。たとえば、これらの手段は、コンピュータ(12、18、20など)によって実現される。   According to a first aspect of the present invention, a sound field sharing system is arranged in a certain sound field, includes a microphone array (14) having a first predetermined number of microphones, sound field data detected by the microphone array, and records the sound field. A server (12) for transmitting data to a plurality of reproduction systems, and a reproduction system (22, 26) for reproducing sound field data from the server by a speaker array having a second predetermined number of loudspeakers. The sound field sharing system includes an initial speaker selection unit, a first evaluation value calculation unit, a reference speaker selection unit, a first execution unit, an initial microphone selection unit, a second evaluation value calculation unit, a reference microphone selection unit, and a second execution unit. Is provided. For example, these means are realized by a computer (12, 18, 20, etc.).

初期スピーカ選択手段は、スピーカアレイのうちの1個のラウドスピーカを最初の基準ラウドスピーカとして選択する。第1評価値算出手段は、スピーカアレイのうち、選択された基準ラウドスピーカと当該基準ラウドスピーカ以外のすべての評価対象ラウドスピーカのそれぞれとの間のグラムシュミット直交化評価値を算出する。基準スピーカ選択手段は、第1評価値算出手段によって算出されたグラムシュミット直交化評価値が最も高い評価対象ラウドスピーカを基準ラウドスピーカとして選択する。第1実行手段は、基準スピーカ選択手段による選択の結果、基準ラウドスピーカの数が第2所定数よりも少ない第3所定数になるまで、第1評価値算出手段および基準スピーカ選択手段を繰り返し実行させる。   The initial speaker selection means selects one loudspeaker in the speaker array as the first reference loudspeaker. The first evaluation value calculation means calculates Gram Schmidt orthogonalization evaluation values between the selected reference loudspeaker and each of the evaluation target loudspeakers other than the reference loudspeaker in the speaker array. The reference speaker selection means selects the evaluation target loudspeaker having the highest Gram Schmidt orthogonalization evaluation value calculated by the first evaluation value calculation means as the reference loudspeaker. The first executing means repeatedly executes the first evaluation value calculating means and the reference speaker selecting means until the number of reference loudspeakers becomes a third predetermined number smaller than the second predetermined number as a result of selection by the reference speaker selecting means. Let

初期マイク選択手段は、マイクロホンアレイのうちの1個のマイクロホンを最初の基準マイクロホンとして選択する。第2評価値算出手段は、マイクロホンアレイのうち、選択された基準マイクロホンと当該基準マイクロホン以外のすべての評価対象マイクロホンのそれぞれとの間のグラムシュミット直交化評価値を算出する。基準マイク選択手段は、第2評価値算出手段によって算出されたグラムシュミット直交化評価値が最も高い評価対象マイクロホンを基準マイクロホンとして選択する。第2実行手段は、基準マイク選択手段による選択の結果、基準マイクロホンの数が第1所定数よりも少ない第4所定数になるまで、第2評価値算出手段および基準マイク選択手段を繰り返し実行させる。そして、サーバは、第4所定数の基準マイクロホンによって検出された音場データを複数の再現システムに伝送する。したがって、複数の再現システムの各々は、第3所定数の基準ラウドスピーカを用いて、サーバから伝送された音場データを再生する。   The initial microphone selection means selects one microphone of the microphone array as the first reference microphone. The second evaluation value calculation means calculates a Gramschmitt orthogonalization evaluation value between the selected reference microphone and all the evaluation target microphones other than the reference microphone in the microphone array. The reference microphone selection unit selects the evaluation target microphone having the highest Gram Schmitt orthogonalization evaluation value calculated by the second evaluation value calculation unit as the reference microphone. The second execution means repeatedly executes the second evaluation value calculation means and the reference microphone selection means until the number of reference microphones becomes a fourth predetermined number smaller than the first predetermined number as a result of selection by the reference microphone selection means. . Then, the server transmits the sound field data detected by the fourth predetermined number of reference microphones to the plurality of reproduction systems. Accordingly, each of the plurality of reproduction systems reproduces the sound field data transmitted from the server using the third predetermined number of reference loudspeakers.

第1の発明によれば、第2所定数のラウドスピーカを第3所定数に低減するとともに、第1所定数のマイクロホンを第4所定数に低減するので、畳み込み処理の負荷およびデータ量を低減することができる。したがって、リアルタイムに、畳み込み処理およびデータの伝送を行うことができ、音場を共有することができる。   According to the first aspect, the second predetermined number of loudspeakers is reduced to the third predetermined number and the first predetermined number of microphones is reduced to the fourth predetermined number, so that the load and data amount of the convolution process are reduced. can do. Therefore, convolution processing and data transmission can be performed in real time, and a sound field can be shared.

第2の発明は、第1の発明に従属し、音場共有システムは、初期スピーカ変化手段、第1組記憶手段および第1組選択手段をさらに備える。これらの手段もまた、コンピュータ(12、18、20など)によって実現される。初期スピーカ変化手段は、初期スピーカ選択手段によって選択される最初の基準ラウドスピーカを順次変化させる。したがって、最初に選択される基準ラウドスピーカ毎に、第1実行手段によって、第1評価値算出手段および基準スピーカ選択手段を繰り返し実行することにより、第3所定数の基準ラウドスピーカの組が複数(ラウドスピーカの総数)得られる。第1組記憶手段は、初期スピーカ変化手段によって最初の基準ラウドスピーカを順次変化させたとき、それぞれの場合について、選択された第3所定数の基準ラウドスピーカの複数の組を記憶する。たとえば、複数の組は、コンピュータのメモリ(ハードディスクやRAM)などに記憶される。第1組選択手段は、第1組記憶手段によって記憶された複数の組のうち、第1評価値算出手段によって算出されたグラムシュミット直交化評価値が所定の条件を満たす一組の第3所定数の基準ラウドスピーカを選択する。具体的には、グラムシュミット直交化法による評価指標の平均値が最大である組が選択される。ただし、評価指標の平均値が最大である組についての評価指標の最小値が極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の平均値が最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の平均値が大きい組が選択される。ただし、次に評価指標の平均値が大きい組についての評価指標の最小値が極端に低い場合には、その次に評価指標の平均値が大きい組が選択される。それ以降も同様である。このようにして、最適と考えられる組の第3所定数の基準ラウドスピーカが選択される。したがって、複数の再現システムの各々は、第1組選択手段によって選択された一組の第3所定数の基準ラウドスピーカを用いて、サーバから伝送された音場データを再生する。   A second invention is dependent on the first invention, and the sound field sharing system further includes an initial speaker changing unit, a first group storage unit, and a first group selection unit. These means are also realized by a computer (12, 18, 20, etc.). The initial speaker changing means sequentially changes the first reference loudspeaker selected by the initial speaker selecting means. Therefore, by repeatedly executing the first evaluation value calculating means and the reference speaker selecting means by the first execution means for each reference loudspeaker selected first, a plurality of sets of the third predetermined number of reference loudspeakers ( Total number of loudspeakers). The first set storage means stores a plurality of sets of the selected third predetermined number of reference loudspeakers for each case when the initial reference loudspeaker is sequentially changed by the initial speaker changing means. For example, the plurality of sets are stored in a computer memory (hard disk or RAM). The first set selection unit is a set of third predetermined groups in which the Gram Schmitt orthogonalization evaluation value calculated by the first evaluation value calculation unit satisfies a predetermined condition among the plurality of groups stored by the first group storage unit. Select a number of reference loudspeakers. Specifically, a set having the maximum average value of evaluation indices by the Gram-Schmidt orthogonalization method is selected. However, when the minimum value of the evaluation index for the group having the maximum average value of the evaluation index is extremely low, since there is a frequency with low linear independence, even if the average value of the evaluation index is maximum, It is not appropriate to choose. This is because it is considered that the sound field cannot be reproduced correctly. In such a case, the group with the next highest average value of the evaluation index is selected. However, if the minimum value of the evaluation index for the group having the next highest average value of the evaluation index is extremely low, the group having the next highest average value of the evaluation index is selected. The same applies thereafter. In this way, the third predetermined number of reference loudspeakers in the set considered optimal are selected. Therefore, each of the plurality of reproduction systems reproduces the sound field data transmitted from the server by using a set of the third predetermined number of reference loudspeakers selected by the first set selection unit.

第2の発明によれば、最適と考えられるラウドスピーカを選択することができるので、正しく音場を再現することができる。   According to the second aspect, the loudspeaker considered to be optimal can be selected, so that the sound field can be correctly reproduced.

第3の発明は、第2の発明に従属し、音場共有システムは、初期マイク変化手段、第2組記憶手段および第2組選択手段をさらに備える。これらの手段もまた、コンピュータ(12、18、20など)によって実現される。初期マイク変化手段は、初期マイク選択手段によって選択される最初の基準マイクロホンを順次変化させる。第2組記憶手段は、初期マイク変化手段によって最初の基準マイクロホンを順次変化させたとき、それぞれの場合について、選択された第4所定数の基準マイクロホンの複数の組を記憶する。そして、第2組選択手段は、第2組記憶手段によって記憶された複数の組のうち、グラムシュミット直交化評価値が所定の条件を満たす一組の第4所定数の基準マイクロホンを選択する。したがって、ラウドスピーカの場合と同様に、最適と考えられる組の第4所定数のマイクロホンが選択される。そして、サーバは、第2組選択手段によって選択された一組の第4所定数のマイクロホンによって検出された音場データを複数の再現システムに伝送する。   A third invention is dependent on the second invention, and the sound field sharing system further includes an initial microphone changing means, a second set storage means, and a second set selection means. These means are also realized by a computer (12, 18, 20, etc.). The initial microphone changing means sequentially changes the first reference microphone selected by the initial microphone selecting means. The second set storage means stores a plurality of sets of the selected fourth predetermined number of reference microphones in each case when the initial reference microphone is sequentially changed by the initial microphone changing means. Then, the second set selecting unit selects a set of a fourth predetermined number of reference microphones, out of the plurality of sets stored by the second set storing unit, whose Gram Schmitt orthogonalization evaluation value satisfies a predetermined condition. Therefore, as in the case of the loudspeaker, a fourth predetermined number of microphones considered to be optimal are selected. Then, the server transmits the sound field data detected by the set of the fourth predetermined number of microphones selected by the second set selection means to the plurality of reproduction systems.

第3の発明によれば、最適と考えられるマイクロホンが選択されるため、第2の発明と同様に、音場を正しく再現することができる。   According to the third aspect, since the optimum microphone is selected, the sound field can be correctly reproduced as in the second aspect.

第4の発明は、第1ないし第3の発明に従属し、第4所定数は、第3所定数に応じて決定される。具体的には、逆システムの行列の全要素数は決定されており、したがって、ラウドスピーカを第4所定数に決定すると、全要素数を第4所定数で割った値に第3所定数が決定される。   The fourth invention is dependent on the first to third inventions, and the fourth predetermined number is determined according to the third predetermined number. Specifically, the total number of elements of the matrix of the inverse system has been determined. Therefore, when the loudspeaker is determined to be the fourth predetermined number, the third predetermined number is obtained by dividing the total number of elements by the fourth predetermined number. It is determined.

第4の発明によれば、第4所定数に応じて第3所定数を決定するので、第3所定数を簡単に決定することができる。   According to the fourth aspect, since the third predetermined number is determined according to the fourth predetermined number, the third predetermined number can be easily determined.

第5の発明は、第1ないし第4の発明に従属し、第3所定数および第4所定数は、少なくともサーバおよび再現システムの処理能力に応じて決定される。つまり、逆システムの行列の全要素数は、サーバおよび再現システムの処理能力によって決定されるのである。   The fifth invention is dependent on the first to fourth inventions, and the third predetermined number and the fourth predetermined number are determined according to at least the processing capability of the server and the reproduction system. In other words, the total number of elements in the inverse system matrix is determined by the processing capabilities of the server and the reproduction system.

第5の発明によれば、第3所定数および第4所定数は、サーバおよび再現システムの処理能力に応じて決定されるため、確実に、音場データの畳み込み処理、伝送および再現を、リアルタイムに実行させることができる。   According to the fifth invention, since the third predetermined number and the fourth predetermined number are determined according to the processing capability of the server and the reproduction system, the convolution processing, transmission, and reproduction of the sound field data are surely performed in real time. Can be executed.

第6の発明は、第1ないし第5の発明に従属し、第2所定数は62であり、第3所定数は24を超えない値である。つまり、ラウドスピーカは、最大で24個選択される。   A sixth invention is dependent on the first to fifth inventions, the second predetermined number is 62, and the third predetermined number is a value not exceeding 24. That is, a maximum of 24 loudspeakers are selected.

第6の発明によれば、62個のラウドスピーカを24個に低減できるため、畳み込み処理およびデータ量を低減することができる。   According to the sixth aspect, since 62 loudspeakers can be reduced to 24, the convolution process and the data amount can be reduced.

第7の発明は、第6の発明に従属し、第1所定数は70であり、第3所定数は8を超えない値である。   A seventh invention is dependent on the sixth invention, wherein the first predetermined number is 70 and the third predetermined number is a value not exceeding 8.

第7の発明によれば、たとえば、逆行列の要素数は192に設定され、ラウドスピーカを24個にした場合には、マイクロホンを最大で8個選択することができる。   According to the seventh invention, for example, when the number of elements of the inverse matrix is set to 192 and 24 loudspeakers are used, a maximum of 8 microphones can be selected.

第8の発明は、或る音場に配置され、第1所定数のマイクホンを有するマイクロホンアレイ、マイクロホンアレイによって検出された音場データを収録し、当該音場データを複数の再現システムに伝送するサーバ、およびサーバからの音場データを第2所定数のラウドスピーカを有するスピーカアレイによって再生する再現システムを備える、音場共有システムのマイクロホンアレイおよびスピーカアレイの個数および配置を最適化する最適化方法であって、(a)スピーカアレイのうちの1個のラウドスピーカを最初の基準ラウドスピーカとして選択し、(b)スピーカアレイのうち、選択された基準ラウドスピーカと当該基準ラウドスピーカ以外のすべての評価対象ラウドスピーカのそれぞれとの間のグラムシュミット直交化評価値を算出し、(c)ステップ(b)によって算出されたグラムシュミット直交化評価値が最も高い評価対象ラウドスピーカを基準ラウドスピーカとして選択し、(d)ステップ(c)による選択の結果、基準ラウドスピーカの数が第2所定数よりも少ない第3所定数になるまで、ステップ(b)およびステップ(c)を繰り返し実行させ、(e)マイクロホンアレイのうちの1個のマイクロホンを最初の基準マイクロホンとして選択し、(f)マイクロホンアレイのうち、選択された基準マイクロホンと当該基準マイクロホン以外のすべての評価対象マイクロホンのそれぞれとの間のグラムシュミット直交化評価値を算出し、(g)ステップ(f)によって算出されたグラムシュミット直交化評価値が最も高い評価対象マイクロホンを基準マイクロホンとして選択し、そして(h)ステップ(g)による選択の結果、基準マイクロホンの数が第1所定数よりも少ない第4所定数になるまで、ステップ(f)およびステップ(g)を繰り返し実行させる、最適化方法である。   In an eighth aspect, a microphone array having a first predetermined number of microphones arranged in a certain sound field, sound field data detected by the microphone array is recorded, and the sound field data is transmitted to a plurality of reproduction systems. Optimization method for optimizing the number and arrangement of microphone arrays and speaker arrays in a sound field sharing system, including a server and a reproduction system that reproduces sound field data from the server by a speaker array having a second predetermined number of loudspeakers (A) selecting one loudspeaker of the speaker array as the first reference loudspeaker, and (b) selecting all of the speaker arrays other than the selected reference loudspeaker and the reference loudspeaker. Calculate the Gram Schmidt orthogonalization evaluation value with each of the target loudspeakers (C) selecting the evaluation target loudspeaker having the highest Gram Schmidt orthogonalization evaluation value calculated in step (b) as the reference loudspeaker; (d) selecting the reference loudspeaker as a result of the selection in step (c); Steps (b) and (c) are repeatedly executed until the number reaches a third predetermined number less than the second predetermined number, and (e) one microphone of the microphone array is selected as the first reference microphone (F) calculating a Gram-Schmidt orthogonalization evaluation value between the selected reference microphone and each of all the evaluation target microphones other than the reference microphone in the microphone array, and (g) by step (f) The evaluation target microphone with the highest calculated Gramschmitt orthogonalization evaluation value is the reference microphone. (H) Step (f) and step (g) are repeatedly executed until the number of reference microphones becomes a fourth predetermined number smaller than the first predetermined number as a result of selection in step (g). This is an optimization method.

第8の発明によれば、ラウドスピーカの数およびマイクロホンの数を低減することにより、リアルタイムに畳み込み処理およびデータを伝送できる、音場共有システムを提供することができる。   According to the eighth aspect of the invention, it is possible to provide a sound field sharing system capable of transmitting convolution processing and data in real time by reducing the number of loudspeakers and the number of microphones.

この発明によれば、第2所定数のラウドスピーカを第3所定数に低減するとともに、第1所定数のマイクロホンを第4所定数に低減するので、畳み込み処理の負荷およびデータ量を低減することができる。したがって、リアルタイムに、畳み込み処理およびデータの伝送を行うことができ、音場を共有することができる。   According to the present invention, the second predetermined number of loudspeakers is reduced to the third predetermined number, and the first predetermined number of microphones is reduced to the fourth predetermined number, so that the load of convolution processing and the amount of data are reduced. Can do. Therefore, convolution processing and data transmission can be performed in real time, and a sound field can be shared.

この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。   The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.

図1はこの発明の音場共有システムの一例を示す図解図である。FIG. 1 is an illustrative view showing one example of a sound field sharing system of the present invention. 図2は図1に示すマイクロホンアレイの例を示す図解図である。FIG. 2 is an illustrative view showing an example of the microphone array shown in FIG. 図3は図1に示すスピーカアレイシステムの例を示す図解図である。FIG. 3 is an illustrative view showing an example of the speaker array system shown in FIG. 図4は音場再現の原理を説明するための図解図である。FIG. 4 is an illustrative view for explaining the principle of sound field reproduction. 図5はグラムシュミットの直交化法を説明するための図解図である。FIG. 5 is an illustrative view for explaining the Gramschmitt orthogonalization method. 図6は各ラウドスピーカを最初に選択した場合に、62個のマイクロホンに対して24個のラウドスピーカを選択したときの評価指標の平均値および最小値の変化を示すグラフである。FIG. 6 is a graph showing changes in the average value and the minimum value of the evaluation index when 24 loudspeakers are selected for 62 microphones when each loudspeaker is first selected. 図7は60番のラウドスピーカを最初に選択した場合における選択処理に従う評価指数の平均値および最小値の変化を示すグラフである。FIG. 7 is a graph showing changes in the average value and the minimum value of the evaluation index according to the selection process when the 60th loudspeaker is first selected. 図8は各マイクロホンを最初に選択した場合に、24個のラウドスピーカに対して8個のマイクロホンを選択したときの評価指数の平均値および最小値の変化を示すグラフである。FIG. 8 is a graph showing changes in the average value and the minimum value of the evaluation index when eight microphones are selected for 24 loudspeakers when each microphone is first selected. 図9は最初に65番のマイクロホンを選択し、選択処理の回数を増加させた場合における評価指標の値の変化を示すグラフである。FIG. 9 is a graph showing changes in the value of the evaluation index when the 65th microphone is first selected and the number of selection processes is increased. 図10は60番のラウドスピーカを最初に選択した場合において、選択された24個のスピーカ位置の分布を示す図解図である。FIG. 10 is an illustrative view showing a distribution of 24 selected speaker positions when the 60th loudspeaker is first selected. 図11は65番のマイクロホンを最初に選択した場合において、選択された8個のマイクロホンの位置の分布を示す図解図である。FIG. 11 is an illustrative view showing a distribution of positions of eight selected microphones when the 65th microphone is first selected. 図12は実験条件のテーブルを示す図解図である。FIG. 12 is an illustrative view showing a table of experimental conditions. 図13は提示された音源定位について被験者が認識した角度の差についてのRMS値および提示された音源定位について被験者が認識した角度の正解率を示すグラフである。FIG. 13 is a graph showing the RMS value for the difference in angle recognized by the subject for the presented sound source localization and the accuracy rate of the angle recognized by the subject for the presented sound source localization. 図14は差のRMS値についてのテューキーの多重比較試験の結果を示すテーブルおよび正解率についてのテューキーの多重比較試験の結果を示すテーブルである。FIG. 14 is a table showing the results of Tukey's multiple comparison test for the difference RMS value and the table showing the results of Tukey's multiple comparison test for the correct answer rate.

図1を参照して、この実施例の音場共有システム10はサーバ12を含み、サーバ12には、マイクロホンアレイ14が接続される。サーバ12は、汎用のサーバであり、インターネットまたはLAN或いはその両方のようなネットワーク16を介して、コンピュータ18およびコンピュータ20に接続される。コンピュータ18、20は、汎用のPCまたはワークステーションである。コンピュータ18には、スピーカアレイシステム22およびマイク24が接続され、同様に、コンピュータ20には、スピーカアレイシステム26およびマイク28が接続される。   Referring to FIG. 1, the sound field sharing system 10 of this embodiment includes a server 12, and a microphone array 14 is connected to the server 12. The server 12 is a general-purpose server, and is connected to the computer 18 and the computer 20 via a network 16 such as the Internet and / or a LAN. The computers 18 and 20 are general-purpose PCs or workstations. A speaker array system 22 and a microphone 24 are connected to the computer 18. Similarly, a speaker array system 26 and a microphone 28 are connected to the computer 20.

この図1に示す音場共有システム10は、2つの音場制御(BoSC)再生システム10aおよび10bを含む。図1の点線枠で囲むように、BoSC再生システム10aは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ18、スピーカアレイシステム22およびマイク24によって構成される。また、図1の一点鎖線枠で囲むように、BoSC再生システム10bは、サーバ12、マイクロホンアレイ14、ネットワーク16、コンピュータ20、スピーカアレイシステム26およびマイク28によって構成される。   The sound field sharing system 10 shown in FIG. 1 includes two sound field control (BoSC) reproduction systems 10a and 10b. The BoSC playback system 10 a is configured by a server 12, a microphone array 14, a network 16, a computer 18, a speaker array system 22 and a microphone 24 so as to be surrounded by a dotted line frame in FIG. 1. In addition, the BoSC playback system 10b includes a server 12, a microphone array 14, a network 16, a computer 20, a speaker array system 26, and a microphone 28 so as to be surrounded by a one-dot chain line frame in FIG.

図2に示すように、マイクロホンアレイ14は、球形に近い形状の骨格14aおよびこの骨格14aを支持するスタンド14bを含む。骨格14aは、C80 フラーレン(Fullerene)の構造を基に、底部の10個の頂点を切り取った70個の頂点を有している。図示は省略するが、骨格14aの表面(外面)であり、70個の頂点の各々には1個の無指向性のマイクロホンが取り付けられる。たとえば、マイクロホンとしては、DPA 4060−BMを用いることができる。スタンド14bは、支持軸140および三脚142によって構成され、支持軸140は、骨格14aの切り取った底部を通ってこの骨格14aの天井をその内側から支持している。 As shown in FIG. 2, the microphone array 14 includes a skeleton 14a having a nearly spherical shape and a stand 14b that supports the skeleton 14a. Skeleton 14a, based on the structure of the C 80 fullerene (Fullerene), has 70 vertices taken ten vertices of the bottom. Although not shown, it is the surface (outer surface) of the skeleton 14a, and one omnidirectional microphone is attached to each of the 70 apexes. For example, DPA 4060-BM can be used as the microphone. The stand 14b is constituted by a support shaft 140 and a tripod 142, and the support shaft 140 supports the ceiling of the skeleton 14a from the inside through the bottom portion cut out of the skeleton 14a.

なお、骨格14aは、前面側と重なる部分以外は、背面側であっても正面から見えるが、分かり易く示すために、図2では、背面側に相当する部分を点線で示してある。   The skeleton 14a can be seen from the front even if it is on the back side except for the part that overlaps the front side, but for the sake of easy understanding, the part corresponding to the back side is shown by dotted lines in FIG.

また、図3に示すように、スピーカアレイシステム22、26は、楕円形のドーム部220およびこれを支える4本の柱部222を含む。この楕円形のドーム部220は、たとえば木製の4層の架台220a、220b、220c、220dによって構成される。ただし、図3では、ドーム部220の内部をその斜め下方から見た図であり、架台220dおよび柱部222についてはその一部を示してある。図示は省略するが、ドーム部220および柱部222の内部は空洞にされ、架台(220a−220d)自体が密室型エンクロージャの役割を果たす。   As shown in FIG. 3, the speaker array system 22, 26 includes an elliptical dome portion 220 and four pillar portions 222 that support the dome portion 220. The elliptical dome portion 220 is constituted by, for example, wooden four-layer mounts 220a, 220b, 220c, and 220d. However, in FIG. 3, the inside of the dome portion 220 is viewed from an obliquely lower side, and a part of the gantry 220 d and the column portion 222 is shown. Although illustration is omitted, the inside of the dome part 220 and the pillar part 222 is made hollow, and the gantry (220a-220d) itself serves as a closed-chamber enclosure.

また、スピーカアレイシステム22、26の各々には、70個のラウドスピーカ230が設置される。具体的には、架台220aには6個のフルレンジユニット(Fostex FE83E)すなわちラウドスピーカ230が設置され、架台220bには16個のラウドスピーカ230が設置され、架台220cには24個のラウドスピーカ230が設置され、そして、架台220dには16個のラウドスピーカ230が設置される。さらに、4本の柱部222の各々には、低域を補うため、2個のサブウーファーユニット(Fostex FW108N)すなわちラウドスピーカ230が設置される。   In addition, 70 loudspeakers 230 are installed in each of the speaker array systems 22 and 26. Specifically, six full-range units (Fostex FE83E), that is, loudspeakers 230 are installed on the gantry 220a, 16 loudspeakers 230 are installed on the gantry 220b, and 24 loudspeakers 230 are installed on the gantry 220c. And 16 loudspeakers 230 are installed on the frame 220d. Further, in each of the four pillars 222, two subwoofer units (Fostex FW108N), that is, loudspeakers 230 are installed to compensate for the low frequency range.

このようなスピーカアレイシステム22、26は、それぞれ、音場再現ルーム(図示せず)内に設置される。音場再現ルームは、1.5帖の防音室であり、YAMAHAウッディボックス(遮音性能Dr−30)が用いられる。また、音場再現ルーム内には、リフト付きの椅子(図示せず)が設けられる。これは、スピーカアレイシステム22、26のドーム部220内であり、ラウドスピーカ230の数が最大となる架台220cの高さに、椅子に座ったユーザの耳の位置(高さ)を設定するためである。   Such speaker array systems 22 and 26 are each installed in a sound field reproduction room (not shown). The sound field reproduction room is a 1.5-cm soundproof room, and a YAMAHA woody box (sound insulation performance Dr-30) is used. In addition, a chair with a lift (not shown) is provided in the sound field reproduction room. This is in the dome portion 220 of the speaker array system 22, 26, in order to set the position (height) of the ear of the user sitting on the chair to the height of the mount 220 c where the number of loudspeakers 230 is maximum. It is.

なお、マイクロホンアレイ14、およびコンピュータ(18、20)とスピーカアレイシステム(26、28)とを含む音場再現ルーム(音場再現システム)については、「1.数値解析技術と可視化・可聴化 1.7三次元音場通信システム」 榎本成悟 音響技術 No.148/Dec.2009 pp37-42に開示されているため、さらなる詳細な説明は省略することにする。   For the sound field reproduction room (sound field reproduction system) including the microphone array 14 and the computers (18, 20) and the speaker array system (26, 28), refer to “1. Numerical analysis technology and visualization / audibility 1. .7 Three-Dimensional Sound Field Communication System ”Seigo Enomoto Acoustic Technology No.148 / Dec.2009 pp37-42, and will not be described in further detail.

たとえば、図1に示した音場共有システム10では、マイクロホンアレイ14は、オーケストラの演奏会場などの音場に配置される。サーバ12は、マイクロホンアレイ14からアンプ(図示せず)を介して入力される音声信号(音場信号)をディジタルの音声データ(音場データ)に変換し、この音場データに対して逆システムの畳み込み処理を実行する。サーバ12は、畳み込み処理を実行した音場データを、ネットワーク16を介して、コンピュータ18および20に送信する。   For example, in the sound field sharing system 10 shown in FIG. 1, the microphone array 14 is arranged in a sound field such as an orchestra performance hall. The server 12 converts a sound signal (sound field signal) input from the microphone array 14 via an amplifier (not shown) into digital sound data (sound field data), and performs an inverse system on the sound field data. The convolution process is executed. The server 12 transmits the sound field data subjected to the convolution process to the computers 18 and 20 via the network 16.

コンピュータ18、20は、それぞれ、サーバ12からの音場データをアナログの音場信号に変換し、スピーカアレイシステム22、26に出力する。したがって、スピーカアレイシステム22、26では、上述の音場が再現される。このため、スピーカアレイシステム22、26を使用する各ユーザ(図示せず)は、遠隔地に存在している場合であっても、スピーカアレイシステム22、26を介して、たとえば演奏会場で収録した生のオーケストラを楽しむことができる。   The computers 18 and 20 convert the sound field data from the server 12 into analog sound field signals and output them to the speaker array systems 22 and 26, respectively. Therefore, in the speaker array systems 22 and 26, the above-described sound field is reproduced. For this reason, each user (not shown) who uses the speaker array systems 22 and 26 is recorded at the performance hall, for example, via the speaker array systems 22 and 26 even when they are located in a remote place. You can enjoy a raw orchestra.

また、各ユーザは、マイク24、28を通して音声を入力することができる。マイク24で検出された音声信号はコンピュータ18でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ20に送信される。コンピュータ20は、受信した音声データと音声フィルタを畳み込み演算し、音場データに重ね合わせて、スピーカアレイシステム26に出力する。したがって、音場が再現されるとともに、他のユーザの音声が再現される。同様に、マイク28で検出された音声信号はコンピュータ20でディジタルの音声データに変換され、ネットワーク16を介してコンピュータ18に送信される。コンピュータ18は、受信した音声データと音声フィルタを畳み込み演算し、音場データに重ね合わせて、スピーカアレイシステム24に出力する。   Each user can input voice through the microphones 24 and 28. The audio signal detected by the microphone 24 is converted into digital audio data by the computer 18 and transmitted to the computer 20 via the network 16. The computer 20 performs a convolution operation on the received audio data and the audio filter, superimposes the audio data on the audio field data, and outputs the result to the speaker array system 26. Therefore, the sound field is reproduced and the voices of other users are reproduced. Similarly, the audio signal detected by the microphone 28 is converted into digital audio data by the computer 20 and transmitted to the computer 18 via the network 16. The computer 18 performs a convolution operation on the received sound data and the sound filter, superimposes the sound data on the sound field data, and outputs it to the speaker array system 24.

したがって、スピーカアレイシステム22のユーザと、スピーカアレイシステム26のユーザとは、音場を共有するとともに、会話することが可能である。   Therefore, the user of the speaker array system 22 and the user of the speaker array system 26 can share a sound field and have a conversation.

なお、詳細な説明は省略するが、たとえば、マイク24、28はヘッドセットマイクを用いることができる。   In addition, although detailed description is abbreviate | omitted, the microphone 24,28 can use a headset microphone, for example.

ここで、境界音場制御(BoSC)の原理およびBoSCを用いた音場再現システムについて簡単に説明する。境界音場制御では、キルヒホッフ・ヘルムホルツ積分方程式(KHIE)に基づき、図4の左側に示す原音場内の領域V内の音場が、図4の右側に示す際現音場内の領域V´において再現される。ただし、領域Vを囲む境界S上の収録点rと、領域V’を囲む境界S’上の制御点r’との相対的な位置は等しいものとする。つまり、数1が成立すると仮定する。ただし、点sおよび点s’は各領域内部の任意の点である。   Here, the principle of boundary sound field control (BoSC) and a sound field reproduction system using BoSC will be briefly described. In the boundary sound field control, based on the Kirchhoff-Helmholtz integral equation (KHIE), the sound field in the region V in the original sound field shown on the left side of FIG. 4 is reproduced in the region V ′ in the current sound field shown on the right side of FIG. Is done. However, the relative positions of the recording point r on the boundary S surrounding the region V and the control point r ′ on the boundary S ′ surrounding the region V ′ are equal. That is, it is assumed that Equation 1 holds. However, the point s and the point s ′ are arbitrary points inside each region.

[数1]
|r−s|=|r’−s’|,s∈V,s’∈V’
このとき、内部に音源を含まない領域内の音圧p(s),p(s’)はKHIEより、数2および数3のそれぞれで示される。
[Equation 1]
| R−s | = | r′−s ′ |, s∈V, s′∈V ′
At this time, the sound pressures p (s) and p (s ′) in the region that does not include the sound source are expressed by Equations 2 and 3 from KHIE.

Figure 0005550019
Figure 0005550019

Figure 0005550019
Figure 0005550019

ただし、ωは角周波数であり、ρは媒質の密度であり、p(r),v(r)はそれぞれ境界上の点rにおける音圧と法線nの方向の粒子速度であり、G(r|s)は自由空間グリーン関数である。 Where ω is the angular frequency, ρ 0 is the density of the medium, p (r) and v n (r) are the sound pressure at the point r on the boundary and the particle velocity in the direction of the normal n, respectively. G (r | s) is a free space Green's function.

ここで、数1より、数4に示す関係が成立する。さらに、数4に従って、数5が成立する。   Here, from Equation 1, the relationship shown in Equation 4 is established. Further, according to Equation 4, Equation 5 is established.

Figure 0005550019
Figure 0005550019

Figure 0005550019
Figure 0005550019

この数5から、原音原で収音された境界面S上の音圧と粒子速度が再現音場において等しくなるように、2次音源から信号を出力すれば、領域V内の音場が領域V’において再現されることが分かる。   From Equation 5, if a signal is output from the secondary sound source so that the sound pressure on the boundary surface S collected by the original sound source and the particle velocity are equal in the reproduced sound field, the sound field in the region V will be the region. It can be seen that it is reproduced at V ′.

ただし、2次音源の出力は、すべての2次音源からすべての制御点までの伝達特性を打ち消す逆フィルタと収録点で観測された信号を畳み込むことにより決定される。したがって、図4に示すような、BoSC音場再現システムを実現するためには、安定であり、かつ頑健な逆フィルタ(pinv(H))を設計することが重要になる。   However, the output of the secondary sound source is determined by convolving the inverse filter that cancels the transfer characteristics from all secondary sound sources to all control points and the signal observed at the recording point. Therefore, in order to realize a BoSC sound field reproduction system as shown in FIG. 4, it is important to design a stable and robust inverse filter (pinv (H)).

なお、逆フィルタの設計方法は、文献(S.Enomoto et al., "Three-dimensional sound field reproduction and recording systems based on boundary surface control principle", Proc. of 14th ICAD, Presentation o 16, 2008 Jun.)に詳細に開示されているため、ここでは、簡単に説明することにする。   The inverse filter design method is described in the literature (S. Enomoto et al., “Three-dimensional sound field reproduction and recording systems based on boundary surface control principle”, Proc. Of 14th ICAD, Presentation o 16, 2008 Jun.). Will be described briefly here.

図4に示すような、2次音源数M、制御点数Nの多チャネル−多点制御逆システム(以下、単に「逆システム」という)を周波数領域で設計する方法について簡単に説明する。ただし、逆システムとは、M×N個の逆フィルタ群の総称である。   A method for designing a multichannel-multipoint control inverse system (hereinafter simply referred to as “inverse system”) having the number M of secondary sound sources and the number N of control points as shown in FIG. 4 will be briefly described. However, the inverse system is a general term for M × N inverse filter groups.

2次音源iから制御点jまでの伝達関数をHji(ω)とし、入力信号をXj(ω)とし、そして、観測信号をPj(ω)とすると、これらの関係は、数6で表すことができる。ただし、iは2次音源番号(1、2、…、M)であり、jは制御点番号(1、2、…、N)であり、そして、W(ω)は逆システムである。   When the transfer function from the secondary sound source i to the control point j is Hji (ω), the input signal is Xj (ω), and the observation signal is Pj (ω), these relations are expressed by Equation 6. Can do. Where i is the secondary sound source number (1, 2,..., M), j is the control point number (1, 2,..., N), and W (ω) is the inverse system.

[数6]

Figure 0005550019
[Equation 6]

Figure 0005550019

このとき、P(ω)=X(ω)とするためには、数7を満たす必要がある。ただし、+は疑似逆行列を意味する。これによって、[W(ω)]は、[H(ω)]の逆システムとして定義される。   At this time, in order to satisfy P (ω) = X (ω), Equation 7 must be satisfied. However, + means a pseudo inverse matrix. Thus, [W (ω)] is defined as the inverse system of [H (ω)].

[数7]
[W(ω)] = [H(ω)]+
ここで、正則化法が逆問題を解決する合理的な方法であることは良く知られている。これは既に音再生システムに適用されている(TOKUNO et al., "Inverse Filter of Sound Reproduction Systems Using Regularization" EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997など)。正則化法を用いることにより、ランク([H(ω)])=Nについての算出された逆行列[W^(ω)](表記の都合上、“^”をWの横に示してあるが、実際には数8に示すように、Wの上に記載される。以下、同じ。)は数8で与えられる。ただし、数8において、#は共役転置を意味し、β(ω)は正則化パラメータであり、IはM×Mの単位行列である。以下、同様である。
[Equation 7]
[W (ω)] = [H (ω)] +
Here, it is well known that the regularization method is a rational method for solving the inverse problem. This has already been applied to sound reproduction systems (TOKUNO et al., “Inverse Filter of Sound Reproduction Systems Using Regularization” EIEIC TRANS. FUNDAMENTALS, Vol.E80-A, NO.5 MAY 1997, etc.). By using the regularization method, the calculated inverse matrix [W ^ (ω)] for rank ([H (ω)]) = N (“^” is shown next to W for convenience of description. Is actually written on W as shown in Equation 8. The same applies hereinafter.) Is given by Equation 8. In Equation 8, # means conjugate transpose, β (ω) is a regularization parameter, and IM is an M × M unit matrix. The same applies hereinafter.

[数8]

Figure 0005550019
[Equation 8]

Figure 0005550019

一方、数7の右辺に示される、ランク([H(ω)])=Mについての逆行列[H(ω)]は、数9として導かれる。 On the other hand, the inverse matrix [H (ω)] + for rank ([H (ω)]) = M shown on the right side of Equation 7 is derived as Equation 9.

[数9]

Figure 0005550019
[Equation 9]

Figure 0005550019

数8および数9は、それぞれ、最小二乗解および最小ノルム解(ノルム最小型一般逆行列)として解釈される。ただし、ランク([H(ω)])=N=Mであり、[H(ω)]は特異行列(非正則行列)では無く、そして[W(ω)]=[H(ω)]−1で与えられる。また、−1は逆行列を意味する。最後に、時間領域逆フィルタ係数は、[W^(ω)]の逆離散フーリエ変換から得られる。 Equations 8 and 9 are interpreted as a least square solution and a minimum norm solution (norm minimum general inverse matrix), respectively. However, rank ([H (ω)]) = N = M, [H (ω)] is not a singular matrix (non-regular matrix), and [W (ω)] = [H (ω)] Given by 1 . Moreover, -1 means an inverse matrix. Finally, the time domain inverse filter coefficients are obtained from the inverse discrete Fourier transform of [W ^ (ω)].

なお、BoSC再生システムにおいては、ラウドスピーカ230およびマイクロホンの配置は、空間サンプリングに影響を及ぼす。   In the BoSC playback system, the arrangement of the loudspeaker 230 and the microphone affects spatial sampling.

数8および数9においては、適切な正則化パラメータβ(ω)が選択されることにより、逆システムの不安定性を緩和する(取り除く)ことができる。この実施例では、正則化パラメータβ(ω)は、発見的に、各オブターブの周波数帯域で定義される。さらに、逆フィルタは、予め防音室でそれぞれのラウドスピーカ230とマイクロホンとの組の間で測定されたインパルス応答を使用することによって、計算された。測定されたインパルス応答を使用したため、環境の変化によって引き起こされた変動には追従しなかった。ただし、変動する実際の環境においては、MIMO(Multiple-Input Multiple-Output)の適応型の逆フィルタをBoSC再生システムに適用することができる。   In the equations (8) and (9), the instability of the inverse system can be reduced (removed) by selecting an appropriate regularization parameter β (ω). In this embodiment, the regularization parameter β (ω) is heuristically defined in the frequency band of each object. Furthermore, the inverse filter was calculated by using the impulse response measured in advance between each loudspeaker 230 and microphone pair in a soundproof room. Because the measured impulse response was used, it did not follow the fluctuations caused by environmental changes. However, in an actual environment that fluctuates, an adaptive inverse filter of MIMO (Multiple-Input Multiple-Output) can be applied to the BoSC reproduction system.

ここで、図1−図3に示したマイクロホンアレイ14およびスピーカアレイシステム22、26をそのまま使用する場合には、サーバ12における処理負荷がかなり大きい。具体的には、マイクロホンアレイ14が70chであり、スピーカアレイシステム22が62chであるため、サーバ12は、マイクロホン70chの音声信号(音場データ)と、逆システムとの畳み込み処理を62×70回行う必要があり、また、各回の畳み込み処理は、逆システム(逆フィルタ)のタップ数(この実施例では、4096)分実行する必要がある。   Here, when the microphone array 14 and the speaker array systems 22 and 26 shown in FIGS. 1 to 3 are used as they are, the processing load on the server 12 is considerably large. Specifically, since the microphone array 14 is 70 ch and the speaker array system 22 is 62 ch, the server 12 performs the convolution process of the audio signal (sound field data) of the microphone 70 ch and the inverse system 62 × 70 times. It is necessary to perform the convolution process for each round, and it is necessary to execute the number of taps of the inverse system (inverse filter) (4096 in this embodiment).

また、伝送する音場データの量(データ量)が膨大であるため、各クライアント(コンピュータ18、20)において、約45Mbpsの帯域を必要とする。   Further, since the amount of sound field data to be transmitted (data amount) is enormous, each client (computer 18, 20) requires a bandwidth of about 45 Mbps.

さらに、コンピュータ18、20によって、ユーザの音声に対応する音声データと音声フィルタを畳み込み演算する場合にも、70chをフルに使用する場合には、処理負荷が比較的大きくなってしまう。   Furthermore, even when the computer 18 or 20 performs convolution calculation of the audio data corresponding to the user's voice and the audio filter, the processing load becomes relatively large when 70 ch is fully used.

したがって、サーバ12からコンピュータ18、20に音場データをリアルタイムに送信するのは困難であり、当然のことながら、スピーカアレイシステム22、26を使用するユーザがリアルタイムにオーケストラ等を楽しむことも困難である。つまり、リアルタイムに音場を共有することができない。   Therefore, it is difficult to transmit the sound field data from the server 12 to the computers 18 and 20 in real time, and naturally, it is difficult for the user using the speaker array systems 22 and 26 to enjoy the orchestra and the like in real time. is there. That is, the sound field cannot be shared in real time.

これを回避するため、たとえば、マイクロホンアレイ14のマイクロホンの数やスピーカアレイシステム22、26のラウドスピーカ230の数を減らすことにより、畳み込み処理の処理負荷および伝送するデータ量を低減することが考えられる。しかし、マイクロホンおよびラウドスピーカ230の数を単に減らせば良いということでは無く、再現される音場の臨場感を損なわない必要がある。   In order to avoid this, for example, by reducing the number of microphones of the microphone array 14 and the number of loudspeakers 230 of the speaker array systems 22 and 26, it is conceivable to reduce the processing load of the convolution process and the amount of data to be transmitted. . However, it is not just that the number of microphones and loudspeakers 230 is reduced, and it is necessary not to impair the realism of the reproduced sound field.

そこで、この実施例では、臨場感を損なうことなく、マイクロホンおよびラウドスピーカ230を低減するとともに、マイクロホンおよびラウドスピーカ230の妥当な個数を決定することにする。   In this embodiment, therefore, the number of microphones and loudspeakers 230 is reduced and the appropriate number of microphones and loudspeakers 230 is determined without impairing the sense of reality.

この実施例では、まず、グラムシュミットの直交化法を用いて、70chのマイクロホンアレイ14を用いた場合に、スピーカアレイシステム22で使用するラウドスピーカ230が抽出(選出)される。そして、選出されたラウドスピーカ230を用いる場合に、グラムシュミットの直交化法を用いて、マイクロホンアレイ14で使用するマイクロホンが抽出(選出)される。   In this embodiment, first, the loudspeaker 230 used in the speaker array system 22 is extracted (selected) when the 70ch microphone array 14 is used, using the Gramschmitt orthogonalization method. When the selected loudspeaker 230 is used, microphones used in the microphone array 14 are extracted (selected) using the Gramschmitt orthogonalization method.

詳細な説明は省略するが、使用するラウドスピーカ230およびマイクロホンの抽出(選出)は、サーバ12、コンピュータ18、20または図示しない別のコンピュータを用いて実行することができる。   Although detailed description is omitted, extraction (selection) of the loudspeaker 230 and the microphone to be used can be performed using the server 12, the computers 18, 20 or another computer (not shown).

ここでは、単一の周波数について、グラムシュミットの直交化法を使用することでラウドスピーカ230を選択する場合の基本的なアルゴリズムを説明する。N×Mに含まれるN次元の縦ベクトルからの線形独立性が低ければ、行列式は悪い状態であると言われる。[H(ω)]において線形独立性の劣化は、BoSC再生システムの不安定性を引き起こす。ここで、数6に示した[H(ω)]は、数10のように書くことができる。   Here, a basic algorithm in the case of selecting the loudspeaker 230 by using the Gram Schmidt orthogonalization method for a single frequency will be described. If the linear independence from the N-dimensional vertical vector contained in N × M is low, the determinant is said to be in a bad state. The degradation of linear independence in [H (ω)] causes instability of the BoSC playback system. Here, [H (ω)] shown in Equation 6 can be written as in Equation 10.

[数10]
P(ω) = [H(ω)]Y(ω)
= {h1(ω),…,hM(ω)}Y(ω)
ただし、Y(ω)=[W(ω)]X(ω)およびh(ω)は、[H(ω)]に含まれるN次元の縦ベクトルである。この縦ベクトルh(ω)は、周波数ωにおける、或るラウドスピーカ230と各々のマイクロホンとの間の伝達関数である。それゆえに、グラムシュミットの直交化法を用いたラウドスピーカ230の選択は、[H(ω)]から高い線形独立を有する縦ベクトルh(ω)の組を選択することを意味する。以下、グラムシュミットの直交化法のアルゴリズムについて簡単に説明することにする。
[Equation 10]
P (ω) = [H (ω)] Y (ω)
= {h 1 (ω),…, h M (ω)} Y (ω)
However, Y (ω) = [W (ω)] X (ω) and h i (ω) are N-dimensional vertical vectors included in [H (ω)]. This vertical vector h (ω) is a transfer function between a certain loudspeaker 230 and each microphone at a frequency ω. Therefore, the selection of the loudspeaker 230 using the Gramschmitt orthogonalization means selecting a set of longitudinal vectors h (ω) having high linear independence from [H (ω)]. Hereinafter, the algorithm of the Gramschmitt orthogonalization method will be briefly described.

ラウドスピーカ230を選択するn番目のステップにおいては、既にn−1個のラウドスピーカ230が選択されている。[H]に含まれる縦ベクトルの集合は、τ={h,…,h}で示される。Sn−1は、n−1番目のステップまでに選択されたベクトルの部分集合を示し、τn−1は、n−1番目のステップまでに未使用のベクトルの部分集合を示す。vn−1={v,…,vn−1}は、部分集合Sn−1によって張られる平面の正規直交基底を示す。 In the n-th step of selecting the loudspeakers 230, n-1 loudspeakers 230 have already been selected. A set of vertical vectors included in [H] is represented by τ = {h 1 ,..., H M }. S n−1 indicates a subset of vectors selected up to the (n−1) th step, and τ n−1 indicates a subset of unused vectors until the (n−1) th step. v n−1 = {v 1 ,..., v n−1 } represents an orthonormal basis of a plane stretched by the subset S n−1 .

たとえば、最初のステップでは、すべてのラウドスピーカ230のうちの1つのラウドスピーカ230が基準ラウドスピーカ230として選択され、基準ラウドスピーカ230以外のすべてのラウドスピーカ230が評価対象のラウドスピーカ230(評価対象ラウドスピーカ230)として選択される。後述するように、グラムシュミットの直交化法により、基準ラウドスピーカ230との関係において、複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。次のステップでは、同じくグラムシュミットの直交化法により、最初に選択された基準ラウドスピーカ230および先のステップで選択された評価対象ラウドスピーカ230との関係において、残りの複数の評価対象ラウドスピーカ230から1の評価対象ラウドスピーカ230が選択される。つまり、このステップでは、先のステップで選択された評価対象ラウドスピーカ230は、基準ラウドスピーカ230と言える。これが繰り返されるのである。
ただし、低域を補う8個のラウドスピーカ230は、基準ラウドスピーカ230や評価対象ラウドスピーカ230の対象外である。
For example, in the first step, one of the loudspeakers 230 is selected as the reference loudspeaker 230, and all the loudspeakers 230 other than the reference loudspeaker 230 are evaluated. Selected as loudspeaker 230). As will be described later, one evaluation target loudspeaker 230 is selected from the plurality of evaluation target loudspeakers 230 in relation to the reference loudspeaker 230 by the Gram Schmidt orthogonalization method. In the next step, the remaining plurality of evaluation target loudspeakers 230 in relation to the reference loudspeaker 230 initially selected and the evaluation target loudspeaker 230 selected in the previous step, also using the Gram Schmidt orthogonalization method. To 1 of the evaluation target loudspeakers 230 is selected. That is, in this step, the evaluation target loudspeaker 230 selected in the previous step can be said to be the reference loudspeaker 230. This is repeated.
However, the eight loudspeakers 230 that compensate for the low frequency band are outside the scope of the reference loudspeaker 230 and the evaluation target loudspeaker 230.

図5は、部分集合Sn−1によって張られた平面の一例である。n番目のステップでは、部分集合Sn−1によって張られた平面に対するh^(数11に示すように、実際には“^”はhの上に表記される。以下、同じ。)の垂直成分が最大となるように、h^が選択される。部分集合τn−1に含まれる任意のベクトルhの垂直成分rは数11で表される。 FIG. 5 is an example of a plane spanned by the subset S n−1 . In the n-th step, h n ^ for the plane stretched by the subset S n−1 (in fact, “^” is written on h as shown in Equation 11. The same applies hereinafter). H n ^ is selected so that the vertical component is maximized. A vertical component r i of an arbitrary vector h i included in the subset τ n−1 is expressed by Equation 11.

[数11]
ri = zi - p
ただし、pは部分集合Sn−1によって張られた平面上の投影(射影)を示す。n番目のラウドスピーカ230は、たとえば数12で示される、垂直成分rのノルムが最大となるように決定される。
[Equation 11]
r i = z i -p
Here, p represents a projection (projection) on a plane stretched by the subset S n−1 . The n-th loudspeaker 230 is determined so that the norm of the vertical component r i shown in, for example, Equation 12 is maximized.

[数12]

Figure 0005550019
[Equation 12]

Figure 0005550019

ただし、評価指標の値であるJ(h)は数13で定義される。 However, J (h i ), which is the value of the evaluation index, is defined by Equation 13.

[数13]
J(hi) = ||ri||
^の垂直成分がr^(実際には“^”の記号はrの上に表記される。以下、同じ。)として示される場合には、n番目の正規直交ベクトルvは数14に従って決定される。
[Equation 13]
J (h i ) = || r i ||
If the vertical component of h i ^ is indicated as r n ^ (actually, the symbol “^” is written on r. The same applies hereinafter), the nth orthonormal vector v n is a number. 14 is determined.

[数14]

Figure 0005550019
[Formula 14]

Figure 0005550019

n番目のステップで最大化された評価指標の値J^(実際には“^”の記号はJの上に表記される。以下、同じ。)は数15で示される。 The evaluation index value J n ^ maximized in the n-th step (actually, the symbol “^” is written on J. The same applies hereinafter) is expressed by Equation 15.

[数15]

Figure 0005550019
[Equation 15]

Figure 0005550019

このような数11−数15に従う処理は、評価指標の値J^が予め設定された閾値Jthr^よりも小さくなるまで繰り返される。ただし、周波数帯域[ω,ω]について、2つの評価指標の値が数16に従って求められる。 Such processing according to Equation 11 to Equation 15 is repeated until the evaluation index value J n ^ becomes smaller than a preset threshold value J thr ^. However, for the frequency band [ω l , ω h ], two evaluation index values are obtained according to Equation 16.

[数16]

Figure 0005550019
[Equation 16]

Figure 0005550019

ただし、h ̄={h(ω),…,h(ω)}であり(実際には、数16に示すように、“ ̄”はhの上に表記される。)、Kは離散周波数ωの数であり、aは離散周波数ωに対する任意の重み係数を示す。垂直成分r(ω)と正規直交ベクトルv(ω)は、単一の周波数の場合と同様に、離散周波数毎に分離して求められる。最適化処理では、評価指標の値Javgは最大化される。一方、評価指標の値Jminは最適化処理の終了判定に用いられる。つまり、Jmin^<Jthr^となったときにラウドスピーカ230の選択を終了する。 However, h i  ̄ = {h il ),..., H ih )} (in practice, “ ̄” is written on h as shown in Equation 16). , K is the number of discrete frequencies ω k and a k is an arbitrary weighting factor for the discrete frequency ω k . The vertical component r ik ) and the orthonormal vector v ik ) are obtained separately for each discrete frequency as in the case of a single frequency. In the optimization process, the evaluation index value J avg is maximized. On the other hand, the evaluation index value J min is used to determine the end of the optimization process. That is, selection of the loudspeaker 230 ends when J min ^ <J thr ^.

ただし、最適化処理については、文献(Asano, Suzuki, and Swanson " Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999)に開示されている。   However, optimization processing is disclosed in the literature (Asano, Suzuki, and Swanson "Optimization of control source configuration in active control systems using Gram-Schmidt orthogonalization", Speech and Audio Processing, IEEE Transactions on, Mar. 1999). Yes.

この文献においては、評価指標の値が閾値以上(Jmin^≧Jthr^)である場合には、ラウドスピーカ230の選択は継続される。しかし、適切な閾値を決定する方法は確認されていない。したがって、この実施例では、音場共有システム10において、リアルタイムに音場を共有することができるラウドスピーカ230の最大数とマイクロホンの最大数とを検証した。そして、グラムシュミットの直交化法を使用することで、最大数までのラウドスピーカ230の番号(配置位置)を決定した。 In this document, when the value of the evaluation index is equal to or greater than the threshold (J min ^ ≧ J thr ^), the selection of the loudspeaker 230 is continued. However, a method for determining an appropriate threshold has not been confirmed. Therefore, in this embodiment, the maximum number of loudspeakers 230 and the maximum number of microphones that can share a sound field in real time in the sound field sharing system 10 are verified. And the number (arrangement position) of the loudspeakers 230 up to the maximum number was determined by using the Gramschmitt orthogonalization method.

ここで、上述したように、グラムシュミットの直交化法では、スピーカ位置は、それ以前に選択されたスピーカ位置に基づいて決定されるため、その選択結果は、1番目に選択されるスピーカ位置に強い影響を及ぼされる。   Here, as described above, in the Gram Schmidt orthogonalization method, the speaker position is determined based on the speaker position previously selected, and therefore, the selection result is the first selected speaker position. Has a strong influence.

たとえば、使用するラウドスピーカ230の個数を、半数程度(32個)、3分の1程度(24個)、4分の1程度(16個)に削減する場合について検討した。図6は、24個のラウドスピーカ230が選択された(24ステップの選択処理を実行した)場合の評価指標の値Javg,Jminの変化である。図6において、横軸は最初に選択されたラウドスピーカ230(基準ラウドスピーカ230)のスピーカ位置(図10参照)を示し、縦軸は評価値(dB)を示す。ただし、2本の実線のうち、細い実線が評価指標の値Javgを示し、細い実線が評価指標の値Jminの変化を示す。 For example, the case where the number of the loudspeakers 230 to be used is reduced to about half (32), about one third (24), or about one fourth (16) was examined. FIG. 6 shows changes in the evaluation index values J avg and J min when 24 loudspeakers 230 are selected (a selection process of 24 steps is executed). In FIG. 6, the horizontal axis indicates the speaker position (see FIG. 10) of the first selected loudspeaker 230 (reference loudspeaker 230), and the vertical axis indicates the evaluation value (dB). However, of the two solid lines, the thin solid line indicates the value J avg of the evaluation index, and the thin solid line indicates the change in the value J min of the evaluation index.

詳細な説明は省略するが、たとえば、最初に選択される基準ラウドスピーカ230は「1」番(図10参照)から順次変化(2、3、…、62)され、それぞれの場合について、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組が選択されるとともに、各組について評価指標の値Javg,Jminが算出される。ただし、選択された24個のスピーカ位置(ラウドスピーカ230の番号)の組と、各組について算出された評価指標の値Javg,Jminは、上述したコンピュータのメモリ(図示は省略するが、ハードディスクやRAM)に記憶される。そして、後述するように、複数の組のうち、評価指標の値Javg,Jminが所定の条件を満たす一組が選択される。したがって、選択された一組の24個のラウドスピーカ230を用いて音場が再現されるのである。 Although the detailed description is omitted, for example, the reference loudspeaker 230 selected first is sequentially changed (2, 3,..., 62) from “1” (see FIG. 10), and is selected for each case. In addition, a set of 24 speaker positions (numbers of loudspeakers 230) is selected, and evaluation index values J avg and J min are calculated for each set. However, the set of 24 selected speaker positions (numbers of the loudspeakers 230) and the evaluation index values J avg and J min calculated for each set are the memory of the computer (not shown). Stored in a hard disk or RAM). As will be described later, one set of evaluation index values J avg and J min satisfying a predetermined condition is selected from the plurality of sets. Therefore, the sound field is reproduced using the selected set of 24 loudspeakers 230.

また、自由空間グリーン関数は、各ラウドスピーカ230とマイクロホンとの間の伝達関数を得るのに使用された。後述する刺激のための上限周波数は、ここでは制限されなかった。しかし、ラウドスピーカ230の構成(設定)は、20Hzから1kHzまでの範囲を、20Hz毎の周波数で決定された。図示は省略するが、上限周波数が制限されない場合には、上側の層(架台220a、架台220b)に配置されたラウドスピーカ230が、多く選択された。ラウドスピーカ230が全く無い方向から来る波面を統合するのは立体音の再生系においては困難である。したがって、ラウドスピーカ230は、マイクロホンアレイに囲まれるあらゆる可能な方向に位置されるべきである。   The free space Green function was also used to obtain the transfer function between each loudspeaker 230 and the microphone. The upper limit frequency for stimulation described below was not limited here. However, the configuration (setting) of the loudspeaker 230 was determined in the range from 20 Hz to 1 kHz at a frequency of 20 Hz. Although illustration is omitted, when the upper limit frequency is not limited, many loudspeakers 230 arranged on the upper layer (the gantry 220a and the gantry 220b) are selected. It is difficult to integrate a wavefront coming from a direction where there is no loudspeaker 230 in a three-dimensional sound reproduction system. Accordingly, the loudspeaker 230 should be positioned in every possible direction surrounded by the microphone array.

上述したように、図6には、ラウドスピーカ230について、24ステップ(回)の選択処理を実行した場合の評価指標の値Javg,Jminを折れ線で示したグラフである。この図6からも分かるように、スピーカ位置が「60」(図10参照)であるラウドスピーカ230を最初に選択し、全部で24個のラウドスピーカ230を選択した場合の評価指標の値Javg,Jminが最大である。 As described above, FIG. 6 is a graph showing the evaluation index values J avg and J min in a broken line when the selection process of 24 steps (times) is performed for the loudspeaker 230. As can be seen from FIG. 6, the evaluation index value J avg when the loudspeaker 230 whose speaker position is “60” (see FIG. 10) is first selected and all 24 loudspeakers 230 are selected. , J min is the maximum.

この実施例では、複数の組(この実施例では、62個の組)のうち、評価指標の値Javg,Jminが所定の条件を満たす一組の24個のラウドスピーカ230が選択される。具体的には、評価指標の値Javgが最大である組が選択される。ただし、評価指標の値Javgが最大である組についての評価指標の値Jminが極端に低い場合には、線形独立性の低い周波数が存在するため、評価指標の値Javgが最大であっても、選択するのは適切ではない。正しく音場を再現できないと考えられるからである。かかる場合には、次に評価指標の値Javgが大きい組が選択される。ただし、次に評価指標の値Javgが大きい組についての評価指標の値Jminが極端に低い場合には、その次に評価指標の値Javgが大きい組が選択される。それ以降も同様である。たとえば、評価指標の値Jminが極端に低いかどうかについては、予め設定された閾値によってコンピュータは判断する。この閾値は、音場共有システム10の開発者ないし使用者が設定する値である。ただし、後述の図7に示すように、選択するラウドスピーカ230の個数が増えるに従って、評価指標の値Javg,Jminは次第に低下するため、選択するラウドスピーカ230の個数に応じて、閾値も可変的に設定する必要がある。 In this embodiment, among a plurality of sets (62 sets in this embodiment), a set of 24 loudspeakers 230 in which evaluation index values J avg and J min satisfy a predetermined condition are selected. . Specifically, the pair having the maximum evaluation index value J avg is selected. However, when the evaluation index value J min for the pair having the maximum evaluation index value J avg is extremely low, a frequency with low linear independence exists, and therefore the evaluation index value J avg is the maximum. However, it is not appropriate to choose. This is because it is considered that the sound field cannot be reproduced correctly. In such a case, a group having the next largest evaluation index value J avg is selected. However, if the next value J min of metrics for the value J avg large set of metrics is extremely low, the set value J avg metric the next larger is selected. The same applies thereafter. For example, the computer determines whether or not the value J min of the evaluation index is extremely low based on a preset threshold value. This threshold is a value set by the developer or user of the sound field sharing system 10. However, as shown in FIG. 7 to be described later, as the number of loudspeakers 230 to be selected increases, the evaluation index values J avg and J min gradually decrease, so that the threshold value also depends on the number of loudspeakers 230 to be selected. Must be set variably.

また、図7は、スピーカ位置が「60」であるラウドスピーカ230を最初に選択し、その後、選択処理を繰り返した場合の評価指標の値Javg,Jminの変化を示すグラフである。図7から分かるように、評価指標の値Javg,Jminは次第に低下している。 FIG. 7 is a graph showing changes in the evaluation index values J avg and J min when the loudspeaker 230 whose speaker position is “60” is first selected and then the selection process is repeated. As can be seen from FIG. 7, the evaluation index values J avg and J min gradually decrease.

簡単のため、図示は省略するが、上述したように、ラウドスピーカ230の個数を16個や32個に低減した場合についても、図6に示すような評価指標の値Javg,Jminの変化を示した。ただし、後述するように、音源定位テストの結果に基づいて、ラウドスピーカ230の最大数を24個に決定した。 Although not shown for simplicity, as described above, even when the number of loudspeakers 230 is reduced to 16 or 32, changes in evaluation index values J avg and J min as shown in FIG. showed that. However, as described later, the maximum number of loudspeakers 230 was determined to be 24 based on the result of the sound source localization test.

予備試験の結果では、サーバ12およびコンピュータ18、20の性能およびネットワーク16を含む通信速度の制約から、[W(ω)]における要素の数がM×N=192以内で、ラウドスピーカ230の数(M)およびマイクロホンの数(N)が決定されるべきであることが示された。ただし、この実施例では、サーバ12およびコンピュータ18、20のCPU(図示せず)はXeon(登録商標) QuadCore×2であり、メモリ(図示せず)は4GBである。また、サーバ12には、オペレーティングシステムとして、Windows(登録商標) XP 64bitが採用された。また、サーバ12とコンピュータ18、20とを結ぶネットワーク16としては、超高速・高機能研究開発テストベッドネットワーク(JGN2plus:1Gbps)およびLAN(100Mbps)が用いられた。   As a result of the preliminary test, the number of elements in [W (ω)] is within M × N = 192 and the number of loudspeakers 230 due to the performance of the server 12 and the computers 18 and 20 and the communication speed limitation including the network 16. It was shown that (M) and the number of microphones (N) should be determined. However, in this embodiment, the CPU (not shown) of the server 12 and the computers 18 and 20 is Xeon (registered trademark) QuadCore × 2, and the memory (not shown) is 4 GB. The server 12 employs Windows (registered trademark) XP 64 bits as an operating system. Further, as the network 16 connecting the server 12 and the computers 18 and 20, an ultrahigh-speed, high-function R & D test bed network (JGN2 plus: 1 Gbps) and a LAN (100 Mbps) were used.

なお、図示は省略するが、予備実験においては、サーバ12とコンピュータ18とは、上述のLANを用いて接続され、サーバ12とコンピュータ20とは、上述のJGN2plusおよびLANを用いて接続される。   In addition, although illustration is abbreviate | omitted, in a preliminary experiment, the server 12 and the computer 18 are connected using the above-mentioned LAN, and the server 12 and the computer 20 are connected using the above-mentioned JGN2plus and LAN.

したがって、上述したように、ラウドスピーカ230の数(M)を「24」に決定したため、選択されるマイクロホンの数(N)は最大で「8」である。図8は、マイクロホンについて、8ステップの選択処理を実行した場合の評価指標の値Javg,Jminの変化が示される。この図8からも分かるように、マイクロホン位置が「65」であるマイクロホン(基準のマイクロホン)を最初に選択した場合に、全部で8個のマイクロホンを選択したときの評価指標の値Javg,Jminが最大である。 Therefore, as described above, since the number (M) of the loudspeakers 230 is determined to be “24”, the number (N) of the selected microphones is “8” at the maximum. FIG. 8 shows changes in the evaluation index values J avg and J min when an 8-step selection process is executed for the microphone. As can be seen from FIG. 8, when a microphone having a microphone position of “65” (reference microphone) is first selected, the evaluation index values J avg , J when a total of eight microphones are selected. min is the maximum.

また、図9は、マイクロホン位置が「65」であるマイクロホンを最初に選択し、その後、選択処理を繰り返した場合の評価値J,Jminの変化が示される。図9に示すように、評価指標の値J,Jminは選択処理を繰り返すと次第に小さくなり、繰り返し回数が「25」である場合に、つまりマイクロホンが25個選択された場合に、評価指標の値J,Jminが著しく低下する。したがって、マイクロホンの最大数は、24個以内に決定するのが望ましいと考えられる。上述したように、ここでは、8個のマイクロホンを選択するため、この要件は満たしていると言える。 FIG. 9 shows changes in the evaluation values J n and J min when the microphone whose microphone position is “65” is first selected and then the selection process is repeated. As shown in FIG. 9, the evaluation index values J n and J min gradually decrease when the selection process is repeated, and the evaluation index is obtained when the number of repetitions is “25”, that is, when 25 microphones are selected. The values J n and J min are significantly reduced. Therefore, it is considered desirable to determine the maximum number of microphones within 24. As described above, since eight microphones are selected here, it can be said that this requirement is satisfied.

図10には、上述したように、スピーカ位置が「60」のラウドスピーカ230が最初に選択し、全部で24個のラウドスピーカ230を選択した場合の24個のラウドスピーカ230のスピーカ位置の分布が示される。ただし、図10では省略するが、スピーカ位置が中央に向かうに従って高さ方向(Z方向)の値は大きくなる。したがって、架台220aに設けられたラウドスピーカ230のスピーカ位置は、「1」−「6」である。また、架台220bに設けられたラウドスピーカ230のスピーカ位置は、「7」−「22」である。さらに、架台220cに設けられたラウドスピーカ230のスピーカ位置は、「23」−「46」である。そして、架台220dに設けられたラウドスピーカ230のスピーカ位置は、「47」−「62」である。   In FIG. 10, as described above, the distribution of the speaker positions of the 24 loudspeakers 230 when the loudspeaker 230 whose speaker position is “60” is selected first and 24 loudspeakers 230 are selected in total. Is shown. However, although omitted in FIG. 10, the value in the height direction (Z direction) increases as the speaker position goes toward the center. Accordingly, the loudspeaker positions of the loudspeakers 230 provided on the mount 220a are “1”-“6”. The loudspeaker positions of the loudspeakers 230 provided on the gantry 220b are “7”-“22”. Furthermore, the loudspeaker position of the loudspeaker 230 provided on the gantry 220c is “23”-“46”. And the speaker position of the loudspeaker 230 provided in the mount 220d is “47”-“62”.

なお、低域を補うために、4本の柱部222に設けられた8個のラウドスピーカ230は選択の対象では無いため、図10には示されていない。   In order to compensate for the low frequency, the eight loudspeakers 230 provided on the four pillars 222 are not selected and are not shown in FIG.

図10においては、最初に選択されたラウドスピーカ230のスピーカ位置を示す丸印(「60」が記載された丸印)に網掛模様が付される。また、これに続いて、グラムシュミットの直交化法に基づく繰り返しの結果として選ばれたラウドスピーカ230のスピーカ位置を示す丸印(ここでは、「1」−「6」、「7」、「9」、「11」、「13」、「15」、「17」、「19」、「21」、「23」、「31」、「35」、「48」、「51」、「54」、「56」、「58」、「62」が記載された丸印)に斜線模様が付されている。さらに、模様が付されていない丸印は、選択されなかったラウドスピーカ230のスピーカ位置を示す。この図10からは、各方向と高さに分布されたラウドスピーカ230が規則的に観測される。図10のように平面的に見た場合には、上下および左右のそれぞれにおいて、選択されたラウドスピーカ230が略対称に分布していることが分かる。   In FIG. 10, a shaded pattern is added to a circle indicating the speaker position of the first selected loudspeaker 230 (a circle having “60” written therein). Further, following this, a circle indicating the speaker position of the loudspeaker 230 selected as a result of the repetition based on the Gramschmitt orthogonalization method (here, “1”-“6”, “7”, “9”). ”,“ 11 ”,“ 13 ”,“ 15 ”,“ 17 ”,“ 19 ”,“ 21 ”,“ 23 ”,“ 31 ”,“ 35 ”,“ 48 ”,“ 51 ”,“ 54 ”, A hatched pattern is attached to the circles “56”, “58”, and “62”. Further, a circle without a pattern indicates the speaker position of the loudspeaker 230 that has not been selected. From FIG. 10, the loudspeakers 230 distributed in each direction and height are regularly observed. When viewed in a plan view as shown in FIG. 10, it can be seen that the selected loudspeakers 230 are distributed substantially symmetrically in the top, bottom, left and right.

また、ラウドスピーカ230とマイクロホンとの構成を入れ替えることによって、上述したグラムシュミットの直交化法を適用することにより、マイクロホンを選択した。ただし、グラムシュミットの直交化法を用いた選択方法については既に説明したため、重複した説明は省略することにする。   In addition, the microphones were selected by applying the Gramschmitt orthogonalization method described above by switching the configuration of the loudspeaker 230 and the microphones. However, since the selection method using the Gramschmitt orthogonalization method has already been described, redundant description will be omitted.

図11は、図10に示した24個のラウドスピーカ230の配列に対する8個のマイクロホンの配列を示す。図示は省略するが、マイクロホンの位置は、ラウドスピーカ230のスピーカ位置と同様に、番号が割り当てられている。図11では少し分かり難いが、XY平面を真上方向から平面的に見た場合には、選択されたマイクロホンはすべての方向に均等に分布している。   FIG. 11 shows an array of eight microphones relative to the array of 24 loudspeakers 230 shown in FIG. Although illustration is omitted, numbers are assigned to the positions of the microphones in the same manner as the speaker positions of the loudspeaker 230. Although it is a little difficult to understand in FIG. 11, when the XY plane is viewed from above, the selected microphones are evenly distributed in all directions.

このように、グラムシュミットの直交化法を使用することによって、マイクロホンおよびラウドスピーカ230の数を低減するようにしたが、この低減による影響を評価するために、水平面の音源定位テストが行われた。   In this way, the number of microphones and loudspeakers 230 was reduced by using the Gramschmitt orthogonalization method, but in order to evaluate the effect of this reduction, a sound source localization test on a horizontal plane was performed. .

音源定位テストにおいては、BoSC再生システムを使用することで再生された刺激は、ピンクノイズとインパルス応答の畳み込みから発生させた。ただし、インパルス応答は、自由空間グリーン関数からシミュレートされた。シミュレーションにおいては、音源の位置は、マイクロホンアレイ14の中心から1メートル離れたところに配置されているものと仮定した。また、BoSC再生システムにおける音場再生(立体音響再生)のための逆フィルタは、あらかじめ48kHzのサンプリング周波数で測定されたインパルス応答を使用することによって計算され、逆フィルタの長さは4096ポイントであった。刺激の音圧レベルは、各実験条件と方向との間のレベル差を排除するように、マイクロホンアレイ14の中心においてLA,Fmax=55dBに調整された。 In the sound source localization test, the stimulus reproduced using the BoSC playback system was generated from convolution of pink noise and impulse response. However, the impulse response was simulated from a free space Green's function. In the simulation, it was assumed that the position of the sound source was located 1 meter away from the center of the microphone array 14. In addition, the inverse filter for sound field reproduction (stereoscopic sound reproduction) in the BoSC reproduction system is calculated by using an impulse response measured in advance at a sampling frequency of 48 kHz, and the length of the inverse filter is 4096 points. It was. The sound pressure level of the stimulus was adjusted to L A, Fmax = 55 dB at the center of the microphone array 14 to eliminate the level difference between each experimental condition and direction.

ラウドスピーカ230の数とマイクロホンの数に関する実験条件は図12に示す表にまとめた。すべてのラウドスピーカ230とすべてのマイクロホンは、条件5において使用された。条件4においては、すべてのマイクロホンに対して、ラウドスピーカ230の数が24まで低減された。条件1、2および3は、上述したように、ラウドスピーカの数を24、32および16にしており、逆行列[W(ω)]の要素数(192)を一致させるように、マイクロホンの数がそれぞれ8、6、12に決定された。   The experimental conditions regarding the number of loudspeakers 230 and the number of microphones are summarized in the table shown in FIG. All loudspeakers 230 and all microphones were used in condition 5. In condition 4, the number of loudspeakers 230 was reduced to 24 for all microphones. Conditions 1, 2 and 3 have the number of loudspeakers of 24, 32 and 16, as described above, and the number of microphones so that the number of elements (192) of the inverse matrix [W (ω)] matches. Were determined to be 8, 6 and 12, respectively.

また、この音源定位テストにおいては、20歳代から50歳代までの13人の被験者(5人の男性と8人の女性)は、再生された刺激を聞いた後に、知覚した角度を回答した。刺激は、水平面において、0度−330度の間を、30度刻みで提示された。それらは、2秒継続され、各角度について2回繰り返された。ただし、提示順序は、ラテン方格法を用いることにより、決定された。ただし、被験者は刺激を聞いている間、頭と体を動かすことは許容された。   In this sound source localization test, 13 subjects (5 men and 8 women) from the 20s to 50s answered the perceived angles after listening to the regenerated stimuli. . Stimulation was presented in 30 degree increments between 0 and 330 degrees in the horizontal plane. They lasted 2 seconds and were repeated twice for each angle. However, the presentation order was determined by using the Latin square method. However, subjects were allowed to move their heads and bodies while listening to the stimulus.

音源定位テストの結果は、図13(A)および図13(B)に示される。図13(A)は、各条件における、再生した音の角度と知覚された角度の差についてのRMS値(二乗平均値)の被験者間の平均を示す。ただし、図13(A)では、エラーバーは95%の信頼区間(CI)を示す。図13(A)から分かるように、条件5の場合に、最も低いRMS値が得られ、そして、結果として、音源定位の最も高い精度は実現されました。条件4では、上述したように、24個のラウドスピーカ230と70個のマイクロホンとが使用され、RMS値は、条件5の場合よりも約5度大きかった。条件1のRMS値は、条件5の場合よりも約15度大きかった。また、条件2と条件3のRMS値はほとんど同じであるが、それらの値は、条件5の場合よりも約25度大きかった。   The results of the sound source localization test are shown in FIGS. 13 (A) and 13 (B). FIG. 13A shows the average of the RMS values (square mean values) between subjects for the difference between the angle of the reproduced sound and the perceived angle under each condition. However, in FIG. 13A, error bars indicate a 95% confidence interval (CI). As can be seen from FIG. 13A, in the case of condition 5, the lowest RMS value was obtained, and as a result, the highest accuracy of sound source localization was realized. In condition 4, as mentioned above, 24 loudspeakers 230 and 70 microphones were used, and the RMS value was about 5 degrees larger than in condition 5. The RMS value in condition 1 was about 15 degrees greater than in condition 5. Moreover, although the RMS value of condition 2 and condition 3 is almost the same, those values were about 25 degree | times larger than the case of condition 5.

また、図13(B)には、各条件における、被験者の正解率およびエラーバーが95%の信頼区間(CI)を示す。図13(B)から分かるように、条件5においては、図13(A)に示した結果と同様に、最も高い正解率が得られた。また、条件5の正解率は、条件4の場合よりも約5%高く、条件1の場合よりも約10%高い。   FIG. 13B shows a confidence interval (CI) in which the accuracy rate and error bar of the subject are 95% under each condition. As can be seen from FIG. 13 (B), under condition 5, the highest accuracy rate was obtained as in the result shown in FIG. 13 (A). The correct answer rate under condition 5 is about 5% higher than under condition 4 and about 10% higher than under condition 1.

詳細な説明は省略するが、ハートレイ検定では、すべての条件について同様の変化を有することが確認されたため、他のシステム(条件)とは著しく異なるシステム(条件)を見つけるために、テューキーの多重比較法が適用される。この統計的検査法の結果は、図14(A)および(B)に示す表で示される。ただし、図14(A)および(B)に示す表では、“*”が各条件の間における1%の顕著な差を示し、“**”が各条件の間における5%の顕著な差を示している。テューキーの多重比較法では、条件5と条件4との間および条件5と条件1との間には、著しい違いが無いことが確認された。したがって、BoSC再生システムを構成するラウドスピーカ230とマイクロホンの数がグラムシュミットの直交化法を使用することで低減することができると言える。対照的に、条件5と条件2との間および条件5と条件3との間には、著しい違いが有ることが確認された。したがって、条件2や条件3を用いた場合には、BoSC再生システムによる再生は、臨場感を損なうと言える。   Although detailed explanation is omitted, the Hartley test has confirmed that all conditions have the same change, and in order to find a system (condition) that is significantly different from other systems (conditions), multiple comparisons of Tukey The law applies. The results of this statistical test are shown in the tables shown in FIGS. 14 (A) and (B). However, in the tables shown in FIGS. 14A and 14B, “*” indicates a significant difference of 1% between the conditions, and “**” indicates a significant difference of 5% between the conditions. Is shown. In the Tukey multiple comparison method, it was confirmed that there was no significant difference between Condition 5 and Condition 4 and between Condition 5 and Condition 1. Therefore, it can be said that the number of loudspeakers 230 and microphones constituting the BoSC playback system can be reduced by using the Gramschmitt orthogonalization method. In contrast, it was confirmed that there were significant differences between Condition 5 and Condition 2 and between Condition 5 and Condition 3. Therefore, when Condition 2 and Condition 3 are used, it can be said that reproduction by the BoSC reproduction system impairs the sense of reality.

以上のように、この実施例では、グラムシュミットの直交化法を用いて、ラウドスピーカ230とマイクロホンの数を低減する方法が示された。グラムシュミットの直交化法を使用して、高い線形独立性を有する縦ベクトルのグループが各ラウドスピーカ230とマイクロホンの間の伝達関数マトリクスから選択するようにした。選択されたベクトルは、BoSC再生システム10a、10bでのラウドスピーカ230とマイクロホンの構成に対応している。したがって、他の評価基準を使用することで選択されたラウドスピーカ230とマイクロホンとによって構成されたシステムと比べて、そのようなシステムは音響の環境の変化に打ち勝つことができると考えられる。   As described above, in this embodiment, the method of reducing the number of the loudspeakers 230 and the microphones using the Gram Schmidt orthogonalization method is shown. Using the Gramschmitt orthogonalization method, a group of longitudinal vectors with high linear independence was selected from the transfer function matrix between each loudspeaker 230 and microphone. The selected vector corresponds to the configuration of the loudspeaker 230 and the microphone in the BoSC playback systems 10a and 10b. Thus, it is believed that such a system can overcome changes in the acoustic environment as compared to a system comprised of a loudspeaker 230 and a microphone selected using other evaluation criteria.

また、選択手順において、20Hzから1kHzまでの周波数帯域の制限は、シミュレーションにおいて、ラウドスピーカ230が規則的に分散している構成を満たした。また、同様に、グラムシュミットの直交化法を用いて、マイクロホンを選択した結果、すべての水平な方向に規則的に分配され、低減された数のマイクロホンが得られた。このように、マイクロホンは、ラウドスピーカ230と同じ方法で選択されたが、ラウドスピーカ230の数は、グラムシュミットの直交化法により既に低減されていた。   Further, in the selection procedure, the limitation of the frequency band from 20 Hz to 1 kHz satisfied the configuration in which the loudspeakers 230 are regularly dispersed in the simulation. Similarly, the selection of microphones using Gramschmitt's orthogonalization method resulted in a reduced number of microphones that were regularly distributed in all horizontal directions. Thus, the microphones were selected in the same way as the loudspeakers 230, but the number of loudspeakers 230 was already reduced by the Gram Schmidt orthogonalization method.

また、ラウドスピーカ230とマイクロホンの数を低減したことによる劣化を評価するために、水平面の音源定位テストが行われた。主観評価の結果によれば、62個のラウドスピーカ230からなるBoSC再生システムと24個のラウドスピーカ230から成るBoSC再生システムとの間には、統計的に著し違いは存在しなかった。さらに、24個のラウドスピーカ230に対して、8個のマイクロホンを用いたシステムと、70個のマイクロホンを用いたシステムとの間にも、統計的な著しい違いは存在しなかった。   Further, a horizontal plane sound source localization test was performed in order to evaluate deterioration due to the reduction in the number of loudspeakers 230 and microphones. According to the results of the subjective evaluation, there was no statistically significant difference between the BoSC playback system consisting of 62 loudspeakers 230 and the BoSC playback system consisting of 24 loudspeakers 230. Furthermore, for 24 loudspeakers 230, there was no statistically significant difference between a system using 8 microphones and a system using 70 microphones.

したがって、24個のラウドスピーカ230の構成を適用しても良いと考えられる。また、この実施例では、サーバ12、コンピュータ18、20の性能およびネットワーク16の制約から、逆行列[W(ω)]の要素数(192)が決定され、したがって、24個のラウドスピーカ230に対して8個のマイクロホンの構成を適用することに決定された。   Therefore, it is considered that the configuration of 24 loudspeakers 230 may be applied. Further, in this embodiment, the number of elements (192) of the inverse matrix [W (ω)] is determined from the performance of the server 12 and the computers 18 and 20 and the restrictions of the network 16. On the other hand, it was decided to apply the configuration of 8 microphones.

詳細な説明は省略するが、選択されたマイクロホンで検出された音場信号がマイクロホンアレイ14からサーバ12に与えられる。このとき、選択されていないマイクロホンは不能化される。つまり、サーバ12は、選択されていないマイクロホンからの音場信号を検出しない。一方、コンピュータ18および20は、選択されたラウドスピーカ230のみに、音場データや音声データを出力する。   Although a detailed description is omitted, the sound field signal detected by the selected microphone is supplied from the microphone array 14 to the server 12. At this time, unselected microphones are disabled. That is, the server 12 does not detect a sound field signal from a microphone that is not selected. On the other hand, the computers 18 and 20 output sound field data and audio data only to the selected loudspeaker 230.

この実施例によれば、グラムシュミットの直交評価法に従って、2次音源であるラウドスピーカの数を低減するとともに、1次音源の音を収録するためのマイクロホンの数も低減するため、畳み込みの処理負荷を低減することができるとともに、伝送するデータ量を低減することができる。したがって、音場で収録した音に対応する音場データを、リアルタイムに伝送し、クライアント側で再生することができる。つまり、音場に存在する人間と、スピーカシステムを使用するユーザとによって、リアルタイムに音場を共有することができる。   According to this embodiment, the number of microphones for recording the sound of the primary sound source and the number of microphones for recording the sound of the primary sound source are reduced in accordance with the Gram Schmidt orthogonal evaluation method. The load can be reduced and the amount of data to be transmitted can be reduced. Therefore, sound field data corresponding to the sound recorded in the sound field can be transmitted in real time and reproduced on the client side. That is, the sound field can be shared in real time by a person who exists in the sound field and a user who uses the speaker system.

なお、この実施例では、2台のクライアントコンピュータを示したが、3台以上のクライアントコンピュータがネットワークに接続されてもよい。かかる場合には、各クライアントコンピュータは、他の2台以上のクライアントコンピュータからの音声データを個別に畳み込み、音場データに重畳する。   In this embodiment, two client computers are shown, but three or more client computers may be connected to the network. In such a case, each client computer individually folds audio data from two or more other client computers and superimposes the audio data on the sound field data.

10 …音場共有システム
12 …サーバ
14 …マイクロホンアレイ
18,20 …コンピュータ
22,26 …スピーカアレイシステム
DESCRIPTION OF SYMBOLS 10 ... Sound field sharing system 12 ... Server 14 ... Microphone array 18, 20 ... Computer 22, 26 ... Speaker array system

Claims (8)

或る音場に配置され、第1所定数のマイクホンを有するマイクロホンアレイ、
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データを複数の再現システムに伝送するサーバ、および
前記サーバからの音場データを第2所定数のラウドスピーカを有するスピーカアレイによって再生する前記再現システムを備える、音場共有システムであって、
前記スピーカアレイのうちの1個のラウドスピーカを最初の基準ラウドスピーカとして選択する初期スピーカ選択手段、
前記スピーカアレイのうち、選択された基準ラウドスピーカと当該基準ラウドスピーカ以外のすべての評価対象ラウドスピーカのそれぞれとの間のグラムシュミット直交化評価値を算出する第1評価値算出手段、
前記第1評価値算出手段によって算出されたグラムシュミット直交化評価値が最も高い前記評価対象ラウドスピーカを前記基準ラウドスピーカとして選択する基準スピーカ選択手段、
前記基準スピーカ選択手段による選択の結果、前記基準ラウドスピーカの数が前記第2所定数よりも少ない第3所定数になるまで、前記第1評価値算出手段および前記基準スピーカ選択手段を繰り返し実行させる第1実行手段、
前記マイクロホンアレイのうちの1個のマイクロホンを最初の基準マイクロホンとして選択する初期マイク選択手段、
前記マイクロホンアレイのうち、選択された基準マイクロホンと当該基準マイクロホン以外のすべての評価対象マイクロホンのそれぞれとの間のグラムシュミット直交化評価値を算出する第2評価値算出手段、
前記第2評価値算出手段によって算出されたグラムシュミット直交化評価値が最も高い前記評価対象マイクロホンを前記基準マイクロホンとして選択する基準マイク選択手段、および
前記基準マイク選択手段による選択の結果、前記基準マイクロホンの数が前記第1所定数よりも少ない第4所定数になるまで、前記第2評価値算出手段および前記基準マイク選択手段を繰り返し実行させる第2実行手段を備え、
前記サーバは、前記第4所定数の前記基準マイクロホンによって検出された音場データを前記複数の再現システムに伝送し、
前記複数の再現システムの各々は、前記第3所定数の基準ラウドスピーカを用いて、前記サーバから伝送された前記音場データを再生する、音場共有システム。
A microphone array disposed in a certain sound field and having a first predetermined number of microphones;
A sound field data detected by the microphone array is recorded, the sound field data is transmitted to a plurality of reproduction systems, and the sound field data from the server is reproduced by a speaker array having a second predetermined number of loudspeakers. A sound field sharing system comprising the reproduction system
Initial speaker selection means for selecting one loudspeaker of the speaker array as an initial reference loudspeaker;
A first evaluation value calculation means for calculating a Gram Schmidt orthogonalization evaluation value between the selected reference loudspeaker and each of the evaluation target loudspeakers other than the reference loudspeaker in the speaker array;
Reference speaker selection means for selecting, as the reference loudspeaker, the evaluation target loudspeaker having the highest Gram Schmidt orthogonalization evaluation value calculated by the first evaluation value calculation means;
As a result of the selection by the reference speaker selection means, the first evaluation value calculation means and the reference speaker selection means are repeatedly executed until the number of the reference loudspeakers becomes a third predetermined number smaller than the second predetermined number. First execution means,
Initial microphone selection means for selecting one microphone of the microphone array as a first reference microphone;
A second evaluation value calculating means for calculating a Gram Schmitt orthogonalization evaluation value between the selected reference microphone and each of all the evaluation target microphones other than the reference microphone in the microphone array;
Reference microphone selection means for selecting the evaluation target microphone having the highest Gram Schmidt orthogonalization evaluation value calculated by the second evaluation value calculation means as the reference microphone, and the result of selection by the reference microphone selection means, the reference microphone Second execution means for repeatedly executing the second evaluation value calculation means and the reference microphone selection means until the number of the first evaluation number becomes a fourth predetermined number smaller than the first predetermined number,
The server transmits sound field data detected by the fourth predetermined number of the reference microphones to the plurality of reproduction systems;
Each of the plurality of reproduction systems reproduces the sound field data transmitted from the server using the third predetermined number of reference loudspeakers.
前記初期スピーカ選択手段によって選択される前記最初の基準ラウドスピーカを順次変化させる初期スピーカ変化手段、
前記初期スピーカ変化手段によって前記最初の基準ラウドスピーカを順次変化させたとき、それぞれの場合について、選択された前記第3所定数の前記基準ラウドスピーカの複数の組を記憶する第1組記憶手段、および
前記第1組記憶手段によって記憶された複数の組のうち、前記第1評価値算出手段によって算出されたグラムシュミット直交化評価値が所定の条件を満たす一組の前記第3所定数の前記基準ラウドスピーカを選択する第1組選択手段をさらに備え、
前記複数の再現システムの各々は、前記第1組選択手段によって選択された一組の前記第3所定数の前記基準ラウドスピーカを用いて、前記サーバから伝送された前記音場データを再生する、請求項1記載の音場共有システム。
Initial speaker changing means for sequentially changing the first reference loudspeaker selected by the initial speaker selecting means;
First set storage means for storing a plurality of selected sets of the third predetermined number of reference loudspeakers for each case when the initial reference loudspeaker is sequentially changed by the initial speaker changing means; And among the plurality of sets stored by the first set storage means, the third predetermined number of the set of the third predetermined number of sets in which the Gram Schmitt orthogonalization evaluation value calculated by the first evaluation value calculation means satisfies a predetermined condition Further comprising first set selection means for selecting a reference loudspeaker;
Each of the plurality of reproduction systems reproduces the sound field data transmitted from the server using a set of the third predetermined number of the reference loudspeakers selected by the first set selection unit. The sound field sharing system according to claim 1.
前記初期マイク選択手段によって選択される前記最初の基準マイクロホンを順次変化させる初期マイク変化手段、
前記初期マイク変化手段によって前記最初の基準マイクロホンを順次変化させたとき、それぞれの場合について、選択された前記第4所定数の前記基準マイクロホンの複数の組を記憶する第2組記憶手段、および
前記第2組記憶手段によって記憶された複数の組のうち、前記グラムシュミット直交化評価値が所定の条件を満たす一組の前記第4所定数の前記基準マイクロホンを選択する第2組選択手段をさらに備え、
前記サーバは、第2組選択手段によって選択された一組の前記第4所定数の前記マイクロホンによって検出された音場データを前記複数の再現システムに伝送する、請求項2記載の音場共有システム。
Initial microphone changing means for sequentially changing the first reference microphone selected by the initial microphone selecting means;
Second set storage means for storing a plurality of selected sets of the fourth predetermined number of the reference microphones for each case when the initial reference microphones are sequentially changed by the initial microphone changing means; and Second set selection means for selecting one set of the fourth predetermined number of the reference microphones among the plurality of sets stored by the second set storage means, wherein the Gramschmitt orthogonalization evaluation value satisfies a predetermined condition. Prepared,
The sound field sharing system according to claim 2, wherein the server transmits sound field data detected by the set of the fourth predetermined number of the microphones selected by the second set selection unit to the plurality of reproduction systems. .
前記第4所定数は、前記第3所定数に応じて決定される、請求項1ないし3のいずれかに記載の音場共有システム。   4. The sound field sharing system according to claim 1, wherein the fourth predetermined number is determined according to the third predetermined number. 5. 前記第3所定数および前記第4所定数は、少なくとも前記サーバおよび前記再現システムの処理能力に応じて決定される、請求項1ないし4のいずれかに記載の音場共有システム。   5. The sound field sharing system according to claim 1, wherein the third predetermined number and the fourth predetermined number are determined according to at least the processing capability of the server and the reproduction system. 前記第2所定数は62であり、前記第3所定数は24を超えない値である、請求項1ないし5のいずれかに記載の音場共有システム。   The sound field sharing system according to any one of claims 1 to 5, wherein the second predetermined number is 62 and the third predetermined number is a value not exceeding 24. 前記第1所定数は70であり、前記第4所定数は8を超えない値である、請求項6記載の音場共有システム。   The sound field sharing system according to claim 6, wherein the first predetermined number is 70 and the fourth predetermined number is a value not exceeding eight. 或る音場に配置され、第1所定数のマイクホンを有するマイクロホンアレイ、
前記マイクロホンアレイによって検出された音場データを収録し、当該音場データを複数の再現システムに伝送するサーバ、および
前記サーバからの音場データを第2所定数のラウドスピーカを有するスピーカアレイによって再生する前記再現システムを備える、音場共有システムの前記マイクロホンアレイおよび前記スピーカアレイの個数および配置を最適化する最適化方法であって、
(a)前記スピーカアレイのうちの1個のラウドスピーカを最初の基準ラウドスピーカとして選択し、
(b)前記スピーカアレイのうち、選択された基準ラウドスピーカと当該基準ラウドスピーカ以外のすべての評価対象ラウドスピーカのそれぞれとの間のグラムシュミット直交化評価値を算出し、
(c)前記ステップ(b)によって算出されたグラムシュミット直交化評価値が最も高い前記評価対象ラウドスピーカを前記基準ラウドスピーカとして選択し、
(d)前記ステップ(c)による選択の結果、前記基準ラウドスピーカの数が前記第2所定数よりも少ない第3所定数になるまで、前記ステップ(b)および前記ステップ(c)を繰り返し実行させ、
(e)前記マイクロホンアレイのうちの1個のマイクロホンを最初の基準マイクロホンとして選択し、
(f)前記マイクロホンアレイのうち、選択された基準マイクロホンと当該基準マイクロホン以外のすべての評価対象マイクロホンのそれぞれとの間のグラムシュミット直交化評価値を算出し、
(g)前記ステップ(f)によって算出されたグラムシュミット直交化評価値が最も高い前記評価対象マイクロホンを前記基準マイクロホンとして選択し、そして
(h)前記ステップ(g)による選択の結果、前記基準マイクロホンの数が前記第1所定数よりも少ない第4所定数になるまで、前記ステップ(f)および前記ステップ(g)を繰り返し実行させる、最適化方法。
A microphone array disposed in a certain sound field and having a first predetermined number of microphones;
A sound field data detected by the microphone array is recorded, the sound field data is transmitted to a plurality of reproduction systems, and the sound field data from the server is reproduced by a speaker array having a second predetermined number of loudspeakers. An optimization method for optimizing the number and arrangement of the microphone array and the speaker array of a sound field sharing system comprising the reproduction system comprising:
(A) selecting one loudspeaker from the speaker array as a first reference loudspeaker;
(B) calculating a Gramschmitt orthogonalization evaluation value between the selected reference loudspeaker and each of the evaluation target loudspeakers other than the reference loudspeaker in the speaker array;
(C) selecting the evaluation target loudspeaker having the highest Gram Schmidt orthogonalization evaluation value calculated in step (b) as the reference loudspeaker;
(D) Steps (b) and (c) are repeatedly executed until the number of the reference loudspeakers becomes a third predetermined number smaller than the second predetermined number as a result of the selection in step (c). Let
(E) selecting one microphone of the microphone array as the first reference microphone;
(F) calculating a Gram Schmitt orthogonalization evaluation value between the selected reference microphone and each of all evaluation target microphones other than the reference microphone in the microphone array;
(G) selecting the evaluation target microphone having the highest Gram Schmitt orthogonalization evaluation value calculated in step (f) as the reference microphone; and (h) selecting the reference microphone as a result of the selection in step (g). The step (f) and the step (g) are repeatedly executed until the number reaches a fourth predetermined number smaller than the first predetermined number.
JP2010228392A 2010-10-08 2010-10-08 Sound field sharing system and optimization method Expired - Fee Related JP5550019B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010228392A JP5550019B2 (en) 2010-10-08 2010-10-08 Sound field sharing system and optimization method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010228392A JP5550019B2 (en) 2010-10-08 2010-10-08 Sound field sharing system and optimization method

Publications (2)

Publication Number Publication Date
JP2012085035A JP2012085035A (en) 2012-04-26
JP5550019B2 true JP5550019B2 (en) 2014-07-16

Family

ID=46243448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010228392A Expired - Fee Related JP5550019B2 (en) 2010-10-08 2010-10-08 Sound field sharing system and optimization method

Country Status (1)

Country Link
JP (1) JP5550019B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5697079B2 (en) * 2010-11-15 2015-04-08 独立行政法人情報通信研究機構 Sound reproduction system, sound reproduction device, and sound reproduction method
JP6452377B2 (en) * 2014-10-17 2019-01-16 学校法人 中央大学 Speaker arrangement selection device, speaker arrangement selection method, and sound field control system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4465870B2 (en) * 2000-12-11 2010-05-26 ソニー株式会社 Audio signal processing device
JP4873316B2 (en) * 2007-03-09 2012-02-08 株式会社国際電気通信基礎技術研究所 Acoustic space sharing device
JP5235725B2 (en) * 2009-03-03 2013-07-10 日本電信電話株式会社 Utterance direction estimation apparatus, method and program
JP2011182135A (en) * 2010-02-26 2011-09-15 Kyoto Univ Three-dimensional sound field reproduction system

Also Published As

Publication number Publication date
JP2012085035A (en) 2012-04-26

Similar Documents

Publication Publication Date Title
CN109417678A (en) Sound field forms device and method and program
CN107820158B (en) Three-dimensional audio generation device based on head-related impulse response
CN109196884A (en) sound reproduction system
Tylka et al. Fundamentals of a parametric method for virtual navigation within an array of ambisonics microphones
JP7071961B2 (en) Variable acoustic loudspeaker
Masiero Individualized binaural technology: measurement, equalization and perceptual evaluation
JP5697079B2 (en) Sound reproduction system, sound reproduction device, and sound reproduction method
JP2011182135A (en) Three-dimensional sound field reproduction system
WO2017063688A1 (en) Method and device for generating an elevated sound impression
JP5550019B2 (en) Sound field sharing system and optimization method
Masiero et al. Review of the crosstalk cancellation filter technique
US11076257B1 (en) Converting ambisonic audio to binaural audio
US10659903B2 (en) Apparatus and method for weighting stereo audio signals
US11510013B2 (en) Partial HRTF compensation or prediction for in-ear microphone arrays
Enomoto et al. Optimization of loudspeaker and microphone configurations for sound reproduction system based on boundary surface control principle
Enomoto et al. Three-dimensional sound field reproduction and recording systems based on boundary surface control principle
Shabtai et al. Spherical array beamforming for binaural sound reproduction
JP2014045282A (en) Reverberation adding device, reverberation adding program
CN116567477B (en) Partial HRTF compensation or prediction for in-ear microphone arrays
JP7445975B2 (en) Microphone array device, sound field control system, sound field recording system, and sound field reproduction system
JP7440174B2 (en) Sound equipment, sound processing method and program
US20240098441A1 (en) Low frequency automatically calibrating sound system
Nakayama et al. Individual sound image generation for multiple users based on loudspeaker array with NBSFC
JP6892111B2 (en) Direct inverse identification method and device for multi-input multi-output system, program and storage medium, multi-input multi-output reverse filter device and method
Hohnerlein Beamforming-based Acoustic Crosstalk Cancelation for Spatial Audio Presentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140512

R150 Certificate of patent or registration of utility model

Ref document number: 5550019

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees