JP4929685B2 - Remote conference equipment - Google Patents
Remote conference equipment Download PDFInfo
- Publication number
- JP4929685B2 JP4929685B2 JP2005330730A JP2005330730A JP4929685B2 JP 4929685 B2 JP4929685 B2 JP 4929685B2 JP 2005330730 A JP2005330730 A JP 2005330730A JP 2005330730 A JP2005330730 A JP 2005330730A JP 4929685 B2 JP4929685 B2 JP 4929685B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound collection
- signal
- speaker
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
マイクアレイと、スピーカアレイを備え、受信した音声とその音場を再現する装置に関し、特に、マイクアレイから話者または音源の位置を特定することに関する。 The present invention relates to an apparatus that includes a microphone array and a speaker array and reproduces received voice and its sound field, and more particularly to specifying the position of a speaker or a sound source from the microphone array.
従来、送信側の音声を受信して、送信側の音声の音場を再現する手段が提案されている(特許文献1〜3参照。)。このような装置では、複数のマイク等より収音した音声信号等を送信して、受信側では複数のスピーカを用いて、送信側の音場を再現するものである。このようにすれば話者の位置を音声で特定できる利点がある。
Conventionally, a means for receiving a sound on the transmission side and reproducing a sound field of the sound on the transmission side has been proposed (see
特許文献1では、複数のマイクアレイで受け取った音声情報を送信して、これと同数のスピーカアレイで出力することにより、送信元の音場を再現する立体音声情報の創出方法等が開示されている。
この特許文献1の方法によれば、確かに送信元の音場そのものを伝送可能であり、話者の位置を音声で特定することが可能であるが、回線リソースを多く使用する等の問題があり、話者の位置情報を特定し、伝送する手段等が開示されている(例えば、特許文献2参照。)。
According to the method of
特許文献2では、マイクによって話者の音声をとらえ、マイクから得られる話者情報によって話者位置情報を生成し、この話者位置情報を音声情報と共に多重化して伝送させる。受信側では送られて来る話者位置情報により鳴動させるスピーカの位置を切り替え、話者の声と位置を受信側で再現する装置が開示されている。
In
特許文献3では、多人数の会議システムで、各話者にマイクをすべて持たせることが現実的でないことから、マイク制御部を用いて、各マイクに入力された音声信号の位相をシフトさせて合成することにより話者を特定する会議システムについての記載がある。特許文献3では、話者の座席位置に対応した位相シフトのパターンを変化させて、音声が最大となる位相パターンを決定し、この決定された位相シフトのパターンより話者の位置を特定している。
しかしながら、以上の特許文献では、以下の問題があった。 However, the above patent documents have the following problems.
特許文献1の方法では前述のとおり、回線リソースを多く使用する等の問題があった。
As described above, the method of
特許文献2、3の方法では、マイクから得られる話者情報によって話者位置情報を生成することが可能であるが、相手装置から送信される音声を出力するスピーカの音声によってこの位置検出がかく乱され、実際とは異なる方向に音源があると誤認して、マイクアレイ(特許文献3ではカメラ)を指向させてしまう問題があった。
In the methods of
そこで、本発明は、遠隔会議装置において、相手装置から送信される音声を出力するスピーカがマイクに回り込んで収音されても、真の音源を推定できるようにすることを目的とする。 Accordingly, an object of the present invention is to enable a remote conference device to estimate a true sound source even if a speaker that outputs sound transmitted from a partner device wraps around a microphone and collects sound.
本発明は、上述の課題を解決するための手段を以下のように構成している。 In the present invention, means for solving the above-described problems are configured as follows.
(1)本発明は、音声を出力する複数のスピーカからなるスピーカアレイと、前記スピーカアレイの長手方向の両側を収音するように設けた第1、第2のマイクアレイと、前記第1のマイクアレイおよび前記第2のマイクアレイの各マイクが収音した音声信号にディレイ処理をして合成することにより、前記スピーカアレイの長手方向の中心線に関し互いに対称な位置に複数の第1収音エリア、および複数の第2収音エリアをそれぞれ設定する収音エリア設定手段と、前記複数の第1収音エリア、および複数の第2収音エリアからそれぞれ収音した音声信号のうち、前記対称な位置の収音エリア対から収音した音声信号の差分信号をそれぞれ計算する差分信号計算手段と、前記差分信号の信号強度が大きい収音エリア対を選択する第1の音源位置推定手段と、前記第1の音源位置推定手段が選択した収音エリア対のうち、収音した音声信号の強度の大きい方の収音エリアを選択し、この収音エリアに音源位置があると推定する第2の音源位置推定手段と、を備え、前記収音エリア設定手段は、前記第2の音源位置推定手段が選択した収音エリア内にさらに複数の狭収音エリアを設定して、この複数の狭収音エリアにそれぞれ焦点を当てた複数の狭収音ビームを生成する機能を備えるとともに、前記複数の狭収音エリアのうち、収音した音声信号の強度が大きいエリアに音源位置があると推定する第3の音源位置推定手段を備えたことを特徴とする。 (1) The present invention includes a speaker array including a plurality of speakers for outputting audio, and the first and second microphone arrays provided so as to pick up the longitudinal sides of the speaker array, the first By synthesizing the audio signals picked up by the microphones of the microphone array and the second microphone array by delay processing, a plurality of first condensers are symmetric with respect to the longitudinal center line of the speaker array. A sound collection area setting means for setting a sound area and a plurality of second sound collection areas, and a sound signal collected from each of the plurality of first sound collection areas and the plurality of second sound collection areas; first sound source for selecting a difference signal calculating means for calculating respective difference signal of the audio signal picked up from the serial symmetric positions sound-pickup area pairs, the signal strength is greater sound-pickup area pair of the differential signal The sound collection area with the higher intensity of the collected sound signal is selected from the pair of sound collection areas selected by the position estimation means and the first sound source position estimation means, and the sound collection position is in this sound collection area. Second sound source position estimating means for estimating the sound collection area, and the sound collection area setting means further sets a plurality of narrow sound collection areas in the sound collection area selected by the second sound source position estimation means. And a function of generating a plurality of narrow sound collection beams each focused on the plurality of narrow sound collection areas, and a sound source in an area where the intensity of the collected sound signal is large among the plurality of narrow sound collection areas Third sound source position estimating means for estimating that there is a position is provided .
収音エリア設定手段は、対称となる位置を収音エリアとし、その収音エリアに焦点を当てて第1、第2の収音ビームを生成している。また、相手装置から送信され、スピーカアレイから出力される音声は、前記1対のマイクアレイそれぞれのいずれの側にも略対称に音声が出力される。したがって、第1、第2の収音ビームには、スピーカアレイから出力される音声が略等しく入力されると考えられ、差分信号計算手段が第1、第2の収音ビームの差分信号を計算しているので、スピーカアレイから出力される音声をキャンセルできる。また、収音ビームの実効値の差分を計算しても、収音ビームが当てている焦点には、スピーカアレイから出力される音声が略等しく入力されると考えられ、同様にスピーカアレイから出力される音声をキャンセルできる。 The sound collection area setting means sets a symmetrical position as the sound collection area, and generates the first and second sound collection beams by focusing on the sound collection area. Further, the sound transmitted from the counterpart device and output from the speaker array is output substantially symmetrically on either side of each of the pair of microphone arrays. Therefore, it is considered that the sound output from the speaker array is input to the first and second sound collecting beams substantially equally, and the difference signal calculating means calculates the difference signal of the first and second sound collecting beams. Therefore, the sound output from the speaker array can be canceled. In addition, even if the difference between the effective values of the collected sound beam is calculated, it is considered that the sound output from the speaker array is input almost equally to the focal point to which the collected sound beam is applied. Canceled audio can be canceled.
また、このマイクアレイに対して入力されるスピーカアレイから出力される音声以外の音声は、このような差分を取ったとしても、消えてなくなることがない。例えば、典型的には、片側のマイクアレイ側にのみ話者が話した場合であってその話者の方向に向けた収音ビームを生成した場合には、一方の収音ビームには、その話者の音声が入り、逆側には音声が入力されないから、前記差分の計算には、その話者の音声そのものまたはその逆相の音声が残る。また、両側に音源があったとしても、音声が異なるので、ほとんどの場合、1対のマイクアレイに入力される音声は非対称となる。したがって、このような差分を取ったとしても、話者の音声が残る。また、前記実効値を計算しても、同様に、話者の音声の存在を抽出できる。 Further, even if such a difference is taken, the sound other than the sound output from the speaker array input to the microphone array does not disappear. For example, typically, when a speaker speaks only to one microphone array side and a sound collecting beam directed toward the speaker is generated, one sound collecting beam includes Since the voice of the speaker enters and no voice is input to the opposite side, the voice of the speaker itself or the voice of the opposite phase remains in the calculation of the difference. Even if there are sound sources on both sides, the sound is different, and in most cases, the sound input to the pair of microphone arrays is asymmetric. Therefore, even if such a difference is taken, the speaker's voice remains. Further, even if the effective value is calculated, the presence of the speaker's voice can be similarly extracted.
第1の音源位置推定手段は、上記差分信号の大きい収音エリア対のどちらかに音源位置が存在すると推定する。第2の音源位置推定手段は、収音エリア対のそれぞれで収音した音声信号を比較し、どちらに音源位置が存在するかを推定する。このように、この発明によればスピーカから出力される音声がマイクに回り込んで収音される可能性があっても、音源(話者の音声を含む。以下同じ。)の位置を正しく推定することができる。 The first sound source position estimating means estimates that a sound source position exists in one of the sound collection area pairs having a large difference signal. The second sound source position estimating means compares the sound signals picked up in each of the sound pickup area pairs and estimates which sound source position exists. As described above, according to the present invention, the position of the sound source (including the voice of the speaker; the same shall apply hereinafter) is correctly estimated even when the sound output from the speaker may be collected around the microphone. can do.
なお、音声信号の実効値は、特定時間の波高値の2乗の時間平均をリアルタイムで計算することで得られる。差分信号の信号強度は、所定の時間の波高値の2乗の時間平均やFFT変換したゲインの予め定めた複数の周波数ゲインの2乗和等で比較する。実効値の差分信号の信号強度は、実効値の計算よりも長い所定時間分のデータを用いて、実効値の差分信号の時間平均、またはこの差分信号の2乗の時間平均で計算することができる。以下同じである。 The effective value of the audio signal can be obtained by calculating in real time the time average of the square of the peak value at a specific time. The signal intensity of the difference signal is compared with the time average of the square of the peak value of a predetermined time, the square sum of a plurality of predetermined frequency gains of the FFT-transformed gain, or the like. The signal strength of the effective value difference signal can be calculated by using the time average of the effective value difference signal or the squared time average of the difference signal using data for a predetermined time longer than the effective value calculation. it can. The same applies hereinafter.
この発明では、第2の音源位置推定手段により音源位置があると推定された収音エリア内にさらに複数の狭収音エリアを設定し、そのそれぞれに狭収音ビームを生成する。第3の音源位置推定手段は、狭収音エリアのうち信号強度が大きいエリアを選択することにより、段階的に音源の位置を絞り込んで最初から細かく推定するよりも、短期間に音源の位置を推定することができる。 In the present invention, a plurality of narrow sound collection areas are set in the sound collection area estimated by the second sound source position estimation means to have a sound source position, and a narrow sound collection beam is generated in each of the narrow sound collection areas. The third sound source position estimating means selects the area having a high signal intensity from the narrow sound collection areas, thereby narrowing down the position of the sound source in stages and estimating the position of the sound source in a short time rather than starting from the beginning. Can be estimated.
本発明によれば、遠隔会議装置においてスピーカから出力される音声がマイクに回り込んで収音される可能性があっても、音源の位置を正しく推定することができる。 According to the present invention, it is possible to correctly estimate the position of a sound source even when there is a possibility that the sound output from the speaker in the remote conference device may be collected by the microphone.
<第1の実施形態>
図1を用いて、本願発明の第1の実施形態である遠隔会議装置の構成と使用形態について説明する。この第1の実施形態の遠隔会議装置は、相手装置から送信された音声をスピーカアレイを用いて相手装置側における話者の位置を再現して出力するとともに、マイクアレイを用いて話者の音声を収音するとともにその話者の位置を検出し、収音した音声および位置情報を相手装置に送信する装置である。
<First Embodiment>
The configuration and usage of the remote conference apparatus according to the first embodiment of the present invention will be described with reference to FIG. The remote conference apparatus according to the first embodiment reproduces and outputs the voice transmitted from the partner apparatus by reproducing the position of the speaker on the partner apparatus side using the speaker array, and uses the microphone array. , And the position of the speaker is detected, and the collected sound and position information are transmitted to the partner device.
図1は、この遠隔会議装置の外観図と使用形態を示しており、図1(A)は、遠隔会議装置の外観 斜視図、図1(B)は遠隔会議装置の底面図A−A矢視図である。また図1(C)は遠隔会議装置の使用形態を示す図である。 FIG. 1 shows an external view and a usage form of the remote conference device. FIG. 1A is an external perspective view of the remote conference device, and FIG. 1B is a bottom view AA arrow of the remote conference device. FIG. FIG. 1C is a diagram showing a usage pattern of the remote conference apparatus.
図1(A)に示すように、遠隔会議装置1は、長直方体の装置本体と脚11とを備えている。遠隔会議装置1の本体は、脚11により設置面から所定間隔上方に浮かせて支えられている。遠隔会議装置1の底面には、複数のスピーカSP1〜SP4を、長直方体である装置本体の長手方向に直線状に配置したスピーカアレイSPAが下向きに設けられている。このスピーカアレイSPAにより、遠隔会議装置1の底面から下向きに音声が出力され、この音声が会議机等の設置面で反射して会議参加者に到達する(図1(C)参照。)。
As shown in FIG. 1A, the
また、図1(A),(B)に示すように、装置本体の長手方向の両側面(以下、この両側面を右側面(同図(B)の上辺)および左側面(同図(B)の下辺)と呼ぶ。)には、マイクを直線状に配置したマイクアレイが設けられている。すなわち、装置本体の右側面には、マイクMR1〜MR4からなるマイクアレイMRが設けられ、装置本体の左側面には、マイクML1〜ML4からなるマイクアレイMLが設けられている。遠隔会議装置1は、これらのマイクアレイMR,MLを用いて、話者である会議参加者の話し声を収音するとともに、その話者の位置を検出する。
Further, as shown in FIGS. 1A and 1B, both side surfaces of the apparatus main body in the longitudinal direction (hereinafter, both side surfaces are referred to as right side surface (upper side of FIG. 1B) and left side surface (FIG. 1B). In the lower side), a microphone array in which microphones are arranged in a straight line is provided. That is, a microphone array MR including microphones MR1 to MR4 is provided on the right side surface of the apparatus main body, and a microphone array ML including microphones ML1 to ML4 is provided on the left side surface of the apparatus main body. Using the microphone arrays MR and ML, the
なお、図1では図示を省略しているが、遠隔会議装置1の内部には、マイクアレイMR、MLから収音した音声を加工して、話者の位置(人間の声のみならず、物体から出る音声でも良い。以下同じ、)を推定して、この位置とマイクアレイMR、MLから収音した音声とを多重化して送信する送信部2(図4参照)、および、相手装置から受信した音声をスピーカSP1〜SP4からビーム化して出力する受信部3(図6参照)を備えている。
Although not shown in FIG. 1, inside the
なお、図1ではマイクアレイMR、MLをスピーカアレイSPAの中心線101に関して対称位置に設けているが、第1の実施形態の装置では、必ずしも対称に設ける必要はない。マイクアレイMR、MLが左右非対称であっても、左右の収音エリア(図3参照)が左右対称に形成されるように、送信部(図4参照)で信号処理を行うようにすればよい。
In FIG. 1, the microphone arrays MR and ML are provided at symmetrical positions with respect to the
次に、図1(C)を用いて遠隔会議装置1の使用形態を説明する。遠隔会議装置1は、通常、会議机100の中央に置いて使用される。会議机100の左右両側または片側には話者998または/および話者999が着席する。スピーカアレイSPAが出力した音声は、会議机100で反射して左右の話者に到達するが、スピーカアレイSPAが音声をビーム化して出力することにより、左右の話者に対してその音声を特定位置に定位させることができる。スピーカアレイSPAによる音声のビーム化処理についての詳細は後述する。
Next, a usage pattern of the
また、マイクアレイMR,MLは、話者の音声を収音する。マイクアレイMR,MLに接続されている信号処理部(送信部)は、各マイクユニットMR1〜4,ML1〜4に入力される音声のタイミングの違いに基づいて話者の位置を検出する。 Further, the microphone arrays MR and ML pick up the voice of the speaker. A signal processing unit (transmission unit) connected to the microphone arrays MR and ML detects the position of the speaker based on the timing difference of the voices input to the microphone units MR1 to MR4 and ML1 to ML4.
また、図1では、図示の容易のため、スピーカの数、マイクの数を4つとしたが、第1の実施形態の装置を使用するためには4つに限らず、1つまたは多数のスピーカ、マイクを設けても良く、またマイクアレイMR、ML、スピーカアレイSPAは、1列でなく複数列設けても良い。そこで、以下の説明では、例えば、スピーカSP1〜SPNをSPi(i=1〜N)、マイクML1〜MLNをMLi(i=1〜N)という風に添え字iを用いてスピーカアレイ、マイクアレイのそれぞれのスピーカおよびマイクを表現することにする。例えば、SPi(i=1〜N)で、i=1についてはSP1に対応する。 In FIG. 1, for ease of illustration, the number of speakers and the number of microphones are four. However, in order to use the apparatus of the first embodiment, the number of speakers is not limited to four, and one or many speakers are used. Microphones may be provided, and the microphone arrays MR, ML, and speaker array SPA may be provided in a plurality of rows instead of one row. Therefore, in the following description, for example, a speaker array and a microphone array using the suffix i in the manner of SPi (i = 1 to N) for the speakers SP1 to SPN and MLi (i = 1 to N) for the microphones ML1 to MLN. Each speaker and microphone will be expressed. For example, SPi (i = 1 to N) and i = 1 corresponds to SP1.
ここで、図2を参照して、スピーカアレイSPAによる音声のビーム化処理、すなわち音声ビーム、および、マイクアレイML,MRが形成する収音ビームについて説明する。 Here, with reference to FIG. 2, the sound beam conversion processing by the speaker array SPA, that is, the sound beam and the sound collecting beam formed by the microphone arrays ML and MR will be described.
同図(A)は音声ビームを説明する図である。スピーカアレイSPAの各スピーカユニットSP1〜SPNに音声信号を供給する信号処理部(受信部)は、相手側装置から受信した音声信号を、同図に示すような遅延時間DS1〜DSNだけ遅延させて各スピーカユニットSP1〜SPNに供給する。この図では、各スピーカは、仮想音源位置(焦点FS)に最も近いスピーカは遅延時間なしで音声を放音し、仮想音源位置に遠くなるほどその距離に応じた遅延時間を経て音声を放音するような遅延パターンが与えられる。この遅延パターンにより、各スピーカユニットSP1〜SPNから出力される音声は、同図の仮想音源から発せられた音声と同じような波面を形成して広がってゆき、ユーザである会議出席者に対して、あたかも相手側の話者が仮想音源の位置に居るかのように音声を聴かせることができる。 FIG. 3A is a diagram for explaining an audio beam. The signal processing unit (receiving unit) that supplies audio signals to the speaker units SP1 to SPN of the speaker array SPA delays the audio signals received from the counterpart device by delay times DS1 to DSN as shown in FIG. It supplies to each speaker unit SP1-SPN. In this figure, the speakers closest to the virtual sound source position (focal point FS) emit sound without a delay time, and the sound is emitted through a delay time corresponding to the distance as the distance from the virtual sound source position increases. Such a delay pattern is given. Due to this delay pattern, the sound output from each of the speaker units SP1 to SPN spreads to form a wavefront similar to the sound emitted from the virtual sound source of FIG. The voice can be heard as if the other speaker is at the position of the virtual sound source.
同図(B)は、収音ビームを説明する図である。各マイクユニットMR1〜MRNに入力された音声信号を図示のようにそれぞれ遅延時間DM1〜DMNだけ遅延させたのち合成する。この図では、各マイクが収音した音声信号は、収音エリア(焦点FM)に最も遠いマイクが収音した音声は遅延時間なしで加算部に入力され、収音エリアから近くなるほどその近づいた距離に応じた時間遅延させたのち加算部に入力されるような遅延パターンが与えられる。この遅延パターンにより、各音声信号は、収音エリア(焦点FM)から音波伝搬において等距離になり、合成した各音声信号は、この収音エリアの音声信号を同位相で強調するとともに、他のエリアの音声信号を位相ずれで相殺したものになっている。このように、複数のマイクに入力された音声をある収音エリアから音波伝搬上等距離になるように遅延させて合成することにより、その収音エリアの音声のみを収音することができる。 FIG. 5B is a diagram for explaining the sound collection beam. The audio signals input to the microphone units MR1 to MRN are synthesized after being delayed by delay times DM1 to DMN, respectively, as shown. In this figure, the sound signal picked up by each microphone is input to the adder without delay and the sound picked up by the microphone farthest from the sound pickup area (focal point FM) is closer to the sound pickup area. A delay pattern is provided so as to be input to the adder after being delayed for a time corresponding to the distance. Due to this delay pattern, each sound signal is equidistant from the sound collection area (focal point FM) in sound wave propagation, and each synthesized sound signal emphasizes the sound signal in this sound collection area with the same phase, The audio signal in the area is offset by the phase shift. In this way, by synthesizing the sound input to a plurality of microphones by delaying them so as to be equidistant in sound wave propagation from a certain sound collection area, only the sound in the sound collection area can be collected.
本実施形態の遠隔会議装置では、各マイクアレイMR,MLがそれぞれ複数(図3では4つ)の収音エリアに対して同時に収音ビームを形成している。これにより、話者がこの収音エリアのどこにいてもその音声を収音することができるとともに、その音声が収音された収音エリアにより、その話者の位置を検出することができる。 In the remote conference apparatus of the present embodiment, each microphone array MR, ML forms a sound collecting beam simultaneously with respect to a plurality (four in FIG. 3) of sound collecting areas. As a result, the voice can be picked up wherever the speaker is in the sound pickup area, and the position of the speaker can be detected from the sound pickup area where the sound is picked up.
次に図3を参照しつつ、前記収音ビームによる音源位置の検出およびその音源位置からの収音動作について説明する。図3は、遠隔会議装置および話者を上方から見下ろした平面図、すなわち図1(C)のB−B矢視図であり、マイクアレイによる収音ビーム形成の態様を説明する図である。 Next, the detection of the sound source position by the sound collection beam and the sound collection operation from the sound source position will be described with reference to FIG. FIG. 3 is a plan view of the teleconference device and the speaker looking down from above, that is, a view taken along the line BB in FIG.
≪デーモン音源を排除した音源位置検出・収音方式の説明≫
まず、この遠隔会議装置の音源位置検出および収音方式の原理について説明する。この説明では、スピーカアレイSPAから音声ビームが出力されていないものとする。
≪Description of sound source position detection and sound collection method excluding daemon sound source≫
First, the principle of the sound source position detection and sound collection method of the remote conference apparatus will be described. In this description, it is assumed that no sound beam is output from the speaker array SPA.
ここでは、右側面のマイクアレイMRの収音信号に対する処理について説明する。遠隔会議装置1の送信部2(図4参照)は、上述の遅延合成により収音エリア411〜414の4つのエリアを焦点とする収音ビームを形成する。これら複数の収音エリアは、遠隔会議装置1を用いた会議に出席する話者が存在する可能性のある位置を想定して決定されている。
Here, the process for the collected sound signal of the microphone array MR on the right side will be described. The transmission unit 2 (see FIG. 4) of the
この、収音エリア411R〜414Rのうち、収音した音声信号のレベルが最も大きいエリアに話者(音源)が存在すると考えられる。たとえば、図3に示すように音源999が収音エリア414Rに存在する場合には、他の収音エリア411R〜413Rから収音した音声信号に比べて、収音エリア414Rから収音した音声信号のレベルが大きくなる。
Of these
左側面のマイクアレイMLについても同様に、右側面とほぼ線対称に4系統の収音ビームを形成して、収音エリア411L〜414Lのうち、収音した音声信号のレベルが最も大きいエリアを検出する。なお、上記線対称の対称線は、スピーカアレイSPAの軸とほぼ一致するように形成する。
Similarly, for the microphone array ML on the left side surface, four sound collecting beams are formed almost symmetrically with the right side surface, and the area where the level of the collected sound signal is the highest among the
以上が、本実施形態の遠隔会議装置の音源位置検出および収音方式の原理である。 The above is the principle of the sound source position detection and sound collection method of the remote conference apparatus of this embodiment.
スピーカアレイSPAから音声が出力されず、マイクアレイMR、MLが回り込み音を収音しない状態では、この原理どおりで正しい音源位置検出と収音をすることができるが、遠隔会議装置は双方向に音声信号を送受信し、マイクアレイMR、MLによる収音と並行してスピーカアレイSPAから音声が放音される。 In the state where no sound is output from the speaker array SPA and the microphone arrays MR and ML do not collect the sneak sound, the sound source position can be detected and collected in accordance with this principle. Audio signals are transmitted and received, and sound is emitted from the speaker array SPA in parallel with sound collection by the microphone arrays MR and ML.
スピーカアレイSPAの各スピーカに供給される音声信号は、スピーカアレイ後方に設定された仮想音源位置から音声が到来した場合と同じ波面を形成するよう、図2(A)に示すようなパターンの遅延が与えられている。一方、マイクアレイMRが収音した音声信号は、所定の収音エリアから到来する音声信号のタイミングが一致するように、図2(B)に示すようなパターンで遅延させたのち合成される。 The sound signal supplied to each speaker of the speaker array SPA has a pattern delay as shown in FIG. 2A so as to form the same wavefront as when sound comes from the virtual sound source position set behind the speaker array. Is given. On the other hand, the audio signal collected by the microphone array MR is synthesized after being delayed by a pattern as shown in FIG. 2B so that the timing of the audio signal coming from a predetermined sound collection area matches.
ここで、スピーカアレイSPAの仮想音源位置が、マイクアレイMRの複数の収音エリアのうちいずれかと一致した場合には、スピーカアレイSPAの各スピーカSP1〜SPNに付与される遅延パターンとマイクアレイMRが収音した音声信号に対してその収音エリアについて付与される遅延パターンがちょうど裏返しになり、スピーカアレイSPAから放音されマイクアレイMRに回り込んで収音された音声信号が大きなレベルで合成されてしまう。 Here, when the virtual sound source position of the speaker array SPA coincides with any one of the plurality of sound collection areas of the microphone array MR, the delay pattern given to each speaker SP1 to SPN of the speaker array SPA and the microphone array MR. The delay pattern assigned to the sound collection area for the sound signal picked up by the sound is just reversed, and the sound signal that is emitted from the speaker array SPA and wraps around the microphone array MR is synthesized at a high level. Will be.
上に述べた一般の音源位置検出方式で処理した場合、この大きなレベルで合成された回り込み音声信号が、本来はない音源(デーモン音源)として誤認識されてしまうという問題点がある。 In the case of processing by the general sound source position detection method described above, there is a problem that the wraparound audio signal synthesized at this large level is erroneously recognized as an original sound source (daemon sound source).
したがって、このデーモン音源をキャンセルしなければ、相手装置から到来した音声信号をそのまま返信してしまいエコーの原因になるとともに、本来の音源(話者)の音声を検出および収音することができなくなる。 Therefore, if this demon sound source is not canceled, the voice signal arriving from the counterpart device is returned as it is, causing echoes, and the sound of the original sound source (speaker) cannot be detected and collected. .
以上はマイクアレイMRについての説明であるが、マイクアレイMLについても(左右対称であるため)、全く同様である。 The above is the description of the microphone array MR, but the same applies to the microphone array ML (because it is symmetrical).
すなわち、デーモン音源は、音声ビームが、会議机100で反射して左右対称に放射されることから、右側マイクアレイMR,左側マイクアレイMLに同様に、左右対称に生じる。 That is, the demon sound source is generated symmetrically in the same manner in the right microphone array MR and the left microphone array ML because the sound beam is reflected by the conference desk 100 and radiated left and right symmetrically.
そこで、左側収音エリア411L〜414Lと右側収音エリア411R〜414Rの音量を比較し、音量レベルが大きく、音源が存在すると推定されても、左右の対応するエリアで同じように音量レベルが大きい場合には、これは、スピーカアレイSPAの音声ビームが回り込んだデーモン音源であるとして、これを収音対象から外すことで、真の音源の音声の検出および収音を可能にするとともに、回り込み音声によるエコーを防止するようにしている。
Therefore, the sound volume levels of the left
このため、この遠隔会議装置の送信部では、左側マイクアレイMLの収音エリア411L〜414Lから収音した音声信号レベルと、右側マイクアレイMRの収音エリア411R〜414Rから収音した音声信号レベルとを比較し、左右の収音エリアでレベルがほぼ同じ対を排除し、左右の収音エリアでレベルが大きく異なる場合に、その大きい方の収音エリアに音源が存在すると判断するようにしている。
Therefore, in the transmission unit of this teleconference device, the sound signal level collected from the
そして相手装置には、その大きい方の音声信号のみを送信するとともに、その信号(デジタル信号)のサブコード等にその音声信号を検出した収音エリアの位置を表す位置情報を付加する。 Then, only the larger audio signal is transmitted to the counterpart device, and position information indicating the position of the sound collection area where the audio signal is detected is added to the subcode of the signal (digital signal).
以下、上記のデーモン音源排除処理を実行する信号処理部(送信部)の構成について説明する。なお、図3の狭収音ビーム431〜434については、図7の第2実施形態の説明で参照して説明する。
Hereinafter, the configuration of the signal processing unit (transmission unit) that executes the daemon sound source exclusion process will be described. The narrow
≪収音ビームを形成する送信部の構成≫
図4は、遠隔会議装置1の送信部2の構成を示すブロック図である。ここで、太い矢印は、複数系統の音声信号が伝送されていることを示し、細い矢印は、1つの音声信号が伝送されていることを示している。また、破線の矢印は指示入力が伝送されていることを示している。
≪Configuration of transmitter that forms sound collection beam≫
FIG. 4 is a block diagram illustrating a configuration of the
図中の第1ビーム生成部231および第2ビーム生成部232は、図3に示した左右の収音エリア411R〜414R、411L〜414Lを焦点とするそれぞれ4系統の収音ビームを形成する信号処理部である。
The first
第1ビーム生成部231には、A/D変換器211を介して右側マイクアレイMRの各マイクユニットMR1〜MRNが収音した音声信号が入力される。また、同様に、第2ビーム生成部232には、A/D変換器212を介して左側マイクアレイMLの各マイクユニットML1〜MLNが収音した音声信号が入力される。
The
第1ビーム生成部231,第2ビーム生成部232は、それぞれ4つの収音ビームを形成して4つの収音エリア411R〜414R、411L〜414Lから音声を収音し、この収音した音声信号を差分値計算回路22およびセレクタ271,272に出力する。
The first
図5は、第1ビーム形成部231の詳細構成を示す図である。第1ビーム生成部231では、各収音エリア41j(j=1〜K)に対応する複数の遅延処理部45jを有している。各遅延処理部45jでは、各収音エリア41jに焦点を持つ収音ビーム出力MBjを生成するため、ディレイパターンのデータ40jに基づき、各マイク出力毎に音声信号を遅延させる。各遅延処理部45jは、ROM上に記憶したディレイパターンのデータ40jを入力して、ディレイ46ji(j=1〜K、i=1〜N)にディレイ量を設定する。
FIG. 5 is a diagram illustrating a detailed configuration of the first
そして、加算部47jは、これらディレイがかけられたディジタル音声信号を加算して、マイクビーム出力MBj(j=1〜K)として出力する。この収音ビーム出力MBjは、それぞれ、図3に示す収音エリア41jへ焦点を結ぶ収音ビームとなる。そして、各遅延処理部45jが演算した収音ビーム出力MBjは、それぞれ差分値計算回路22等に出力される。
Then, the adder 47j adds these delayed digital audio signals and outputs the result as a microphone beam output MBj (j = 1 to K). Each of the sound collection beam outputs MBj is a sound collection beam that focuses on the sound collection area 41j shown in FIG. The sound collection beam output MBj calculated by each delay processing unit 45j is output to the difference
また、図5では第1ビーム形成部231について説明したが、第2ビーム形成部232も、これと同様の構成である。
In addition, although the first
図4において、差分値計算回路22は、各収音エリアで収音した音声信号のうち左右対称の位置にある収音エリアで収音したもの同士の音量レベルを比較し、その差分値を算出する。すなわち、収音エリアAの信号レベルをP(A)で表すとすると、差分値計算回路22は、
D(411)=|P(411R)−P(411L)|
D(412)=|P(412R)−P(412L)|
D(413)=|P(413R)−P(413L)|
D(414)=|P(414R)−P(414L)|
を計算する。この計算した差分値D(411)〜D(414)を第1推定部251に出力する。
In FIG. 4, the difference
D (411) = | P (411R) −P (411L) |
D (412) = | P (412R) −P (412L) |
D (413) = | P (413R) −P (413L) |
D (414) = | P (414R) −P (414L) |
Calculate The calculated difference values D (411) to D (414) are output to the
なお、差分値計算回路22は、左右の収音エリアで収音した音声信号の信号波形をそのまま引き算して差分値信号を出力するよう構成してもよく、左右の収音エリアで収音した音声信号の実効値を一定時間積分した音量レベル値を引き算した値を前記一定時間毎に出力するよう構成してもよい。
The difference
差分値計算回路22が差分値信号を出力する場合には、第1推定部251の推定を容易にするため、差分値計算回路22と第1推定部251との間にBPF241を挿入すればよい。BPF241は、差分値信号から、会話音声の周波数領域のなかで、収音ビームによって指向性制御を良好に行うことができる1k〜2kHz周辺の周波数帯域を通過させるように設定される。
When the difference
このように、スピーカアレイSPAの中心線を対称軸として左右対称の位置にある左右の収音エリアの収音信号の音量レベル同士を差分することにより、スピーカアレイSPAから左右のマイクアレイMR、MLへ左右対称に回り込んだ音声成分がキャンセルされ、回り込みの音声信号をデーモン音源として誤認識してしまうことがない。 As described above, the left and right microphone arrays MR and ML are differentiated from the speaker array SPA by subtracting the volume levels of the collected sound signals in the left and right sound collection areas at symmetrical positions with the center line of the speaker array SPA as the symmetry axis. The sound component that circulates symmetrically to the left and right is canceled, and the circulated sound signal is not erroneously recognized as a daemon sound source.
第1推定部251は、差分値計算回路22から入力された差分値のうち最大のものを選択し、その最大の差分値が計算された収音エリアのペアを選択する。この収音エリアを第2推定部252に入力すべく、第1推定部251は、この収音エリアの音声信号を第2推定部252に出力する選択信号をセレクタ271,272に出力する。
The
セレクタ271は、この選択信号に基づき、右側ビーム生成部231がビーム化して収音した4つの収音エリアの信号のうち第1推定部251が選択した収音エリアの信号を第2推定部252および信号選択部26に供給すべく信号を選択する。また、セレクタ272は、前記選択信号に基づき、左側ビーム生成部232がビーム化して収音した4つの収音エリアの信号のうち第1推定部251が選択した収音エリアの信号を第2推定部252および信号選択部26に供給すべく信号を選択する。
Based on this selection signal, the
第2推定部252は、第1推定部251で推定され、セレクタ271,272から選択的に出力された収音エリアの音声信号を入力する。第2推定部252は入力された左右の収音エリアの音声信号を比較し、そのレベルの大きい方を真の音源の音声信号であると判断する。第2推定部252は、この真の音源が存在する収音エリアの方向,距離を示す情報を位置情報2522として多重化部28に出力するとともに、信号選択部26にこの真の音源の音声信号を選択的に多重化部28に入力するように指示する。
The
多重化部28は、第2推定部252から入力された位置情報2522と、信号選択部26から選択された真の音源の音声信号261とを多重化し、この多重化した信号を相手装置に対して送信する。
The multiplexing
なお、これらの推定部251、252は、音源位置の推定を一定期間ごとに繰り返して行う。例えば0.5秒ごとに繰り返す。この場合、0.5秒分の信号波形または振幅実効値を比較すればよい。このように所定期間ごとに繰り返し音源位置を推定して収音エリアを切り換えるようにすれば、話者の移動に対応した収音をすることができる。
Note that these
なお、真の音源位置と回り込みによるデーモン音源位置が重なった場合には、左右の信号波形を差分した差分信号を収音信号として相手装置に出力するようにしてもよい。差分信号はデーモン音源波形のみキャンセルして真の音源の信号波形を保存しているからである。 When the true sound source position and the demon sound source position due to wraparound overlap, a difference signal obtained by subtracting the left and right signal waveforms may be output to the counterpart device as a sound collection signal. This is because the difference signal cancels only the daemon sound source waveform and stores the signal waveform of the true sound source.
また、話者が2つの収音エリアに跨がって存在している場合や話者が移動した場合に対応するため、以下のような別形態も考えられる。第1推定部251が差分信号の強度が大きい順に2つの収音エリアを選択するとともに、その強度比を出力する。第2推定部252はこの信号強度の最大のペアまたは2つのペアを比較して真の音源がどちら側にあるかを推定する。信号選択部26は、第1推定部251および第2推定部252によって選択された一方の側の2つの音声信号を、この指示された強度比の重みをかけて合成し、出力信号261として出力する。このように信号強度比の重みつきで常に2つの位置の音声を合成すれば、話者の移動に対して、常に上述と同様のクロスフェードがかかることになり、音像定位が自然に移動する。
Further, in order to cope with the case where the speaker exists over two sound collection areas or the case where the speaker moves, the following other forms are also conceivable. The
≪音声ビームを形成する受信部3の構成≫
次に図6を用いて、受信部3の内部構成について説明する。受信部3は、相手装置から音声信号を受信するとともに、音声信号のサブコードから位置情報を分離する音声信号受信部31と、音声信号受信部31が分離した位置情報からこの音声信号を定位させる位置を決定し、その位置に音像を定位させるための指向性制御パラメータを算出するパラメータ算出部32と、パラメータ算出部32から入力されたパラメータに基づいて、受信した音声信号の指向性を制御する指向性制御部33と、指向性が制御された音声信号をアナログ信号に変換するD/A変換器34i(i=1〜N)と、D/A変換器34i(i=1〜N)から出力されたアナログの音声信号を増幅するアンプ35i(i=1〜N)とを備えている。アンプ35iが出力したアナログの音声信号は、図1で示した外部のスピーカSPi(i=1〜N)に供給される。
<< Configuration of the receiving
Next, the internal configuration of the receiving
音声信号受信部31は、インターネットや公衆電話回線等を介して相手装置と通信をする機能部であり、通信インタフェースやバッファメモリ等を備えている。音声信号受信部31は、相手装置から位置情報2522をサブコードとして含む音声信号30を受信する。受信した音声信号のサブコードから位置情報を分離してパラメータ算出部32に入力するとともに、音声信号を指向性制御部33に入力する。
The audio
パラメータ算出部32は、指向性制御部33で用いるパラメータを算出する計算部であり、パラメータ算出部32は、受信した位置情報に基づく位置に焦点を生成し、音声信号にこの焦点から放音されているような指向性を持たせるための、各スピーカユニットに供給する音声信号に与えるディレイ量を算出する。
The
指向性制御部33は、パラメータ算出部32で設定されたパラメータに基づいて、音声信号受信部31で受信した音声信号を、スピーカSPi(i=1〜N)の出力系統ごとに処理する。即ち、スピーカSPi(i=1〜N)の各々に対応する複数の処理部をパラレルに設ける。各処理部は、パラメータ算出部32が算出したパラメータ(ディレイ量パラメータ等)に基づいて、音声信号に対してディレイ量等を設定してD/A変換器34i(i=1〜N)にそれぞれ出力する。
The
D/A変換器34i(i=1〜N)は、指向性制御部33から出力された各出力系統ごとのデジタル音声信号をアナログ信号に変換して出力する。アンプ35i(i=1〜N)は、D/A変換器34i(i=1〜N)から出力されたアナログの音声信号をそれぞれ増幅して、スピーカSPi(i=1〜N)に出力する。
The D / A converter 34 i (i = 1 to N) converts the digital audio signal for each output system output from the
以上説明した受信部3が、相手装置から受信した音声信号を、相手装置における音源の位置関係を自装置で再現するために、装置本体底面に設置されているスピーカアレイSPAから音声信号を位置情報に基づいてビーム化して出力し、仮想的な音源位置から音声が出力されたような指向性を再現する処理を行う。
In order for the receiving
<第2の実施形態>
次に、図7を参照して、第2の実施形態の遠隔会議装置について説明する。この実施形態は図4で示した第1の実施形態の応用であって、同一部分は、同じ符号を付して説明を準用する。また、図3を収音ビームの説明において、補助的に参照する。
<Second Embodiment>
Next, a remote conference apparatus according to the second embodiment will be described with reference to FIG. This embodiment is an application of the first embodiment shown in FIG. 4, and the same portions are denoted by the same reference numerals, and the description will be applied mutatis mutandis. Further, FIG. 3 is referred to supplementarily in the description of the sound collecting beam.
第1実施形態では、差分信号が大きい収音エリアのペアのどちらかに真の音源が存在するとし、第2推定部252がどちらに真の音源が存在するかを推定しているが、この実施形態では、さらに、第2推定部252が推定した真の音源が存在する収音エリアをさらに詳細に探索して、音源位置を正確に検出するための詳細位置探索用ビーム(狭ビーム)生成機能2313、2323を備えている。
In the first embodiment, it is assumed that a true sound source exists in one of the pairs of sound collection areas where the difference signal is large, and the
第2推定部252が、図3に図示するように、真の音源999が収音エリア414Rに存在すると推定すると、第2推定部252は、この推定結果を第1ビーム生成部231に通知する。このように、第2推定部252では、マイクアレイMR、MLのどちら側に真の音源があるのか推定しているので、推定結果の通知2523、2524は、いずれか一方にしか入力されない。もし、左側エリアに真の音源が存在すると推定した場合には、第2推定部252は、第2ビーム生成部232にその推定結果を通知する。
When the
第1ビーム生成部231は、この通知に基づき、詳細位置探索用ビーム生成機能2313を動作させて、図3の狭収音エリア431〜434を焦点とする狭ビームを生成して、さらに詳細に音源999の位置を探索する。
Based on this notification, the first
また、第2の実施形態の装置では、第3推定部253、第4推定部254を備えている。この詳細位置探索用ビーム生成機能2313、2323の収音ビームから信号強度の高い順に2つ選択する。ただし、推定部253、254のうちで動作するのは、第2推定部252が推定した側のみである。
Further, the apparatus according to the second embodiment includes a
図3の例では、狭収音エリア431〜434へ指向させた収音ビームから音声信号を収音しており、真の音源999は、収音エリア434と収音エリア433に跨がった位置に存在している。この場合、第3推定部253は、信号強度の大きい順に収音エリア434、433から収音した音声信号を選択する。第3推定部253は、選択した2つの音声信号の信号強度に応じて、この選択した収音エリアの焦点位置を比例配分して話者の位置を推定・出力するとともに、選択した2つの音声信号を重みづけ合成して音声信号として出力する。
In the example of FIG. 3, the sound signal is collected from the sound collection beam directed to the narrow
以上は、右側エリアの第1ビーム生成部231(詳細位置探索用ビーム生成機能2313)および第3推定部253について説明したが、左側エリアの第2ビーム形成部232(詳細位置探索用ビーム生成機能2323)および第4推定部254についても同様の構成であるとともに同様の処理動作を実行する。
The first beam generation unit 231 (detail position search beam generation function 2313) and the
なお、以上で示した第2の実施形態の装置の詳細位置探索の機能は、話者が頻繁に移動する場合には、処理が追いつかない場合もある。そこで、第2推定部252から出力される話者の位置が一定時間留まっている場合にのみ、この機能を働かせることも考えられる。この場合、第2推定部252から出力される話者の位置が一定時間以内に移動する場合には、図7に示した構成を備えていても、図4に示した第1実施形態と同様の動作を行うようにすればよい。
Note that the detailed position search function of the apparatus of the second embodiment described above may not be able to catch up when the speaker moves frequently. Therefore, it is also conceivable to use this function only when the position of the speaker output from the
なお、この絞込み推定を行う推定部253、254は、本発明の「第3の音源位置推定手段」に相当する。
Note that the
<第3の実施形態>
次に、図8を用いて、この発明の第3の実施形態の遠隔会議装置の送信部について説明する。図8は、この送信部のブロック図である。この実施形態の装置の送信部2は、差分値計算回路22の入力がA/D変換器211、212の出力である点、差分値計算回路22の出力信号を用いて収音ビームを生成する第3ビーム生成部237を設けている点、第4ビーム生成部238、第5ビーム生成部239を設けている点、セレクタ271、272がない点が異なる。その他の部分は、同様の符号を付して、以上の説明を準用する。以下、この実施形態の装置の相違点、重要点のみ説明する。
<Third Embodiment>
Next, the transmission unit of the remote conference apparatus according to the third embodiment of the present invention will be described with reference to FIG. FIG. 8 is a block diagram of this transmission unit. The
図8に示すように、差分値計算回路22には、直接、A/D変換器211、212の出力を入力する。そのため、第2の実施形態の装置では、マイクMRiとマイクMLiの数Nは同数として、互いに対称の位置に設ける。差分値計算回路22は、「(マイクMRiの音声信号)−(マイクMLiの音声信号)」(i=1〜N)をそれぞれ計算する。これにより、図4で示した実施形態の装置と同様、スピーカアレイSPAから回り込んだ音声がマイクアレイMR、MLに入力される分をキャンセルできる。
As shown in FIG. 8, the outputs of the A /
ここで、この第3の実施形態の装置では、それぞれのマイクMRi、MLiは、スピーカアレイSPAの長手方向の中心線に関して略左右対称である必要がある。差分値計算回路22で各マイク同士で回り込み音声をキャンセルするためである。なお、この差分値計算回路22は、遠隔会議装置1のマイクアレイMR、MLの起動中は、常時計算を行う。
Here, in the apparatus of the third embodiment, each of the microphones MRi and MLi needs to be substantially symmetrical with respect to the center line in the longitudinal direction of the speaker array SPA. This is because the difference
第3ビーム生成部237は、差分値計算回路22の出力信号の束を基にして、第1ビーム生成部231、第2ビーム生成部232と同様に、仮想的な4つの収音エリアを焦点とする収音ビームを出力する。この仮想的な収音エリアは、スピーカアレイSPAの中心線101に関して左右対称に設定した収音エリア対(411Rと411L、412Rと412L、413Rと413L、414Rと414L:図3参照)に対応し、第3ビーム生成部237が出力する音声信号は、第1の実施形態における差分信号D(411)、D(412)、D(413)、D(414)と同様のものである。この差分信号を、BPF241を通して第1推定部251に出力すれば、図4で示した装置の第1推定部251と同様に音源位置の推定を行うことができる。この推定結果2511、2512は、第4ビーム生成部238、第5ビーム生成部239に出力される。
The third beam generation unit 237 focuses four virtual sound collection areas based on the bundle of output signals of the difference
図8の第4ビーム生成部238、第5ビーム生成部239について説明する。第4ビーム生成部238、第5ビーム生成部239には、A/D変換器211、212が出力するデジタル音声信号が直接入力されている。このデジタル音声信号に基づいて、第1推定部251から入力された推定結果2511,2512が指示する収音エリアを焦点とする収音ビームを生成し、その収音エリアの音声信号を取り出す。すなわち、この第4ビーム生成部238、第5ビーム生成部239が生成する収音ビームが、第1実施形態において、セレクタ271,272が選択した収音ビームに対応する。
The fourth beam generation unit 238 and the fifth beam generation unit 239 in FIG. 8 will be described. Digital audio signals output from the A /
このように、この第4ビーム生成部238、第5ビーム生成部239は、第1推定部251から指示された収音ビームで収音した1系統の音声出力のみを出力する。この第4ビーム生成部238、第5ビーム生成部239が、各収音ビームの焦点である収音エリアから収音した音声信号は、第2推定部252に入力される。
As described above, the fourth beam generation unit 238 and the fifth beam generation unit 239 output only one system of sound output collected by the sound collection beam instructed by the
以下の動作は、第1の実施形態と同様である。第2推定部252は、2つの音声信号を比較し、そのレベルの大きい方の収音エリアに音源が存在すると判定する。第2推定部252は、この真の音源が存在する収音エリアの方向,距離を示す情報を位置情報2522として多重化部28に出力するとともに、信号選択部26にこの真の音源の音声信号を選択的に多重化部28に入力するように指示する。多重化部28は、第2推定部252から入力された位置情報2522と、信号選択部26から選択された真の音源の音声信号261とを多重化し、この多重化した信号を相手装置に対して送信する。
The following operations are the same as those in the first embodiment. The
なお、図8に示した第3の実施形態においても、第2の実施形態と同様、多段階に推定を行って、音源の位置を最初は広く、再度狭く絞り込んで探索することも可能である。その場合には、第2推定部252は、1回の探索が終了すると、さらに狭い範囲を探索するよう指示する指示入力2523、2524を第4,第5ビーム生成部238、239に出力する。この動作は音源が存在する側のビーム生成部のみに対して出力する。この指示入力を受けたビーム生成部は、この指示入力を受けると内部のさらに狭い範囲に対応するディレイパターンを読み出し、ROMからディレイパターンのデータ40jを書き換える。
In the third embodiment shown in FIG. 8 as well, as in the second embodiment, it is possible to perform a multi-stage estimation and search by narrowing down the position of the sound source at first wide and narrow again. . In that case, when one search is completed, the
なお、第1,第3の実施形態では、第1推定部251が、左右の収音エリア411R〜414R、411L〜414Lからそれぞれ1つずつの収音エリア(41jR、41jL)を選択し、さらに、第2推定部252が、41jR、41jLのどちらに真の音源が存在するかを推定しているが、必ずしも第2推定部を設ける必要はない。
In the first and third embodiments, the
たとえば、遠隔会議装置を右側または左側片方のみで使用している場合など、真の音源の反対側に雑音源がない場合には、収音エリア41jR、41jLの両方の音声の合成信号(または差分信号)をそのまま収音信号として相手装置に出力しても問題ないからである。 For example, when there is no noise source on the opposite side of the true sound source, such as when the teleconferencing device is used only on the right side or the left side, a synthesized signal (or difference) of both the sound collection areas 41jR and 41jL This is because there is no problem even if the signal is directly output to the counterpart device as a sound collection signal.
また、これらの実施形態で示した数値等は、本発明を限定するものではない。また、以上の図で、機能を発揮するブロックの構成間に信号のやり取りがある場合には、これらのブロックの機能の一部が他方のブロックで処理する構成でも、以上で示した実施形態と同様の効果を奏する場合がありうる。 The numerical values and the like shown in these embodiments do not limit the present invention. Further, in the above diagram, when there is a signal exchange between the configurations of the blocks that exhibit the functions, even in the configuration in which some of the functions of these blocks are processed by the other block, The same effect may be produced.
1…遠隔会議装置、2…送信部、22…差分値計算回路、231…第1ビーム生成部、232…第2ビーム生成部、237…第3ビーム生成部、238…第4ビーム生成部、239…第5ビーム生成部、251…第1推定部、252…第2推定部、253…第3推定部、254…第4推定部、26…信号選択部、271,272…セレクタ、28…多重化部
3…受信部、31…データ受信部、32…パラメータ算出部、33…指向性制御部
45j(j=1〜K)…遅延処理部、40j(j=1〜K)…ディレイパターンメモリ、461i(i=1〜N)…ディレイ、47j(j=1〜K)…マイク入力合成部
SPi(i=1〜M)…スピーカ、SPA…スピーカアレイ
ML,MR…マイクアレイ、MLi(i=1〜N),MRi(i=1〜N)…マイク
100…机、101…中心線
411R〜414R,411L〜414L…収音エリア、999…音源(話者)
DESCRIPTION OF
Claims (1)
前記スピーカアレイの長手方向の両側を収音するように設けた第1、第2のマイクアレイと、
前記第1のマイクアレイおよび前記第2のマイクアレイの各マイクが収音した音声信号にディレイ処理をして合成することにより、前記スピーカアレイの長手方向の中心線に関し互いに対称な位置に複数の第1収音エリア、および複数の第2収音エリアをそれぞれ設定する収音エリア設定手段と、
前記複数の第1収音エリア、および複数の第2収音エリアからそれぞれ収音した音声信号のうち、前記対称な位置の収音エリア対から収音した音声信号の差分信号をそれぞれ計算する差分信号計算手段と、
前記差分信号の信号強度が大きい収音エリア対を選択する第1の音源位置推定手段と、
前記第1の音源位置推定手段が選択した収音エリア対のうち、収音した音声信号の強度の大きい方の収音エリアを選択し、この収音エリアに音源位置があると推定する第2の音源位置推定手段と、
を備え、
前記収音エリア設定手段は、前記第2の音源位置推定手段が選択した収音エリア内にさらに複数の狭収音エリアを設定して、この複数の狭収音エリアにそれぞれ焦点を当てた複数の狭収音ビームを生成する機能を備えるとともに、
前記複数の狭収音エリアのうち、収音した音声信号の強度が大きいエリアに音源位置があると推定する第3の音源位置推定手段を備えたことを特徴とする遠隔会議装置。 A speaker array comprising a plurality of speakers for outputting sound;
First and second microphone arrays provided to pick up sound on both sides in the longitudinal direction of the speaker array;
By synthesizing and synthesizing the audio signals picked up by the microphones of the first microphone array and the second microphone array by delay processing, a plurality of positions are symmetrically located with respect to the longitudinal center line of the speaker array. Sound collection area setting means for setting each of the first sound collection area and the plurality of second sound collection areas;
Differences for calculating differential signals of sound signals collected from the pair of sound collection areas at symmetrical positions among the sound signals collected from the plurality of first sound collection areas and the plurality of second sound collection areas, respectively. Signal calculation means;
First sound source position estimating means for selecting a sound collection area pair having a high signal intensity of the differential signal;
A sound collection area with a higher intensity of the collected sound signal is selected from the sound collection area pair selected by the first sound source position estimating means, and a second sound source position is estimated to be present in the sound collection area. Sound source position estimation means,
Equipped with a,
The sound collection area setting means further sets a plurality of narrow sound collection areas in the sound collection area selected by the second sound source position estimation means, and focuses each of the plurality of narrow sound collection areas. A function to generate a narrow sound collection beam of
A remote conferencing apparatus comprising: a third sound source position estimating means for estimating that a sound source position is in an area where the intensity of the collected sound signal is large among the plurality of narrow sound collection areas .
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330730A JP4929685B2 (en) | 2005-11-15 | 2005-11-15 | Remote conference equipment |
CN2006800423457A CN101310558B (en) | 2005-11-15 | 2006-11-10 | Teleconference device and sound emission/collection device |
CA2629801A CA2629801C (en) | 2005-11-15 | 2006-11-10 | Remote conference apparatus and sound emitting/collecting apparatus |
PCT/JP2006/322488 WO2007058130A1 (en) | 2005-11-15 | 2006-11-10 | Teleconference device and sound emission/collection device |
EP06823310A EP1971183A1 (en) | 2005-11-15 | 2006-11-10 | Teleconference device and sound emission/collection device |
US12/093,849 US8135143B2 (en) | 2005-11-15 | 2006-11-10 | Remote conference apparatus and sound emitting/collecting apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330730A JP4929685B2 (en) | 2005-11-15 | 2005-11-15 | Remote conference equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007142595A JP2007142595A (en) | 2007-06-07 |
JP4929685B2 true JP4929685B2 (en) | 2012-05-09 |
Family
ID=38204974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005330730A Expired - Fee Related JP4929685B2 (en) | 2005-11-15 | 2005-11-15 | Remote conference equipment |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4929685B2 (en) |
CN (1) | CN101310558B (en) |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009010808A (en) * | 2007-06-29 | 2009-01-15 | Yamaha Corp | Loudspeaker device |
JP5293305B2 (en) * | 2008-03-27 | 2013-09-18 | ヤマハ株式会社 | Audio processing device |
JP2010118809A (en) * | 2008-11-12 | 2010-05-27 | Nippon Telegr & Teleph Corp <Ntt> | Telephone conference apparatus |
JP5251473B2 (en) * | 2008-12-09 | 2013-07-31 | ソニー株式会社 | Audio processing apparatus and audio processing method |
JP5227899B2 (en) * | 2009-06-04 | 2013-07-03 | 日本電信電話株式会社 | Telephone conference equipment |
US8767971B2 (en) | 2009-07-24 | 2014-07-01 | Panasonic Corporation | Sound pickup apparatus and sound pickup method |
CN103905483B (en) * | 2012-12-26 | 2019-03-12 | 腾讯科技(深圳)有限公司 | Audio-video sharing method, equipment and system |
US10107676B2 (en) * | 2014-03-18 | 2018-10-23 | Robert Bosch Gmbh | Adaptive acoustic intensity analyzer |
JP6353700B2 (en) * | 2014-05-20 | 2018-07-04 | 三菱電機インフォメーションネットワーク株式会社 | Two-way communication system between long-distance points and two-way communication method between long-distance points |
KR20170035504A (en) * | 2015-09-23 | 2017-03-31 | 삼성전자주식회사 | Electronic device and method of audio processing thereof |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
EP3833044A4 (en) * | 2018-07-30 | 2021-10-13 | Sony Group Corporation | Information processing device, information processing system, information processing method, and program |
US10565977B1 (en) * | 2018-08-20 | 2020-02-18 | Verb Surgical Inc. | Surgical tool having integrated microphones |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
CN109068090B (en) * | 2018-10-12 | 2021-03-16 | 贵阳高新网用软件有限公司 | Wireless video conference system |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN110351633B (en) * | 2018-12-27 | 2022-05-24 | 腾讯科技(深圳)有限公司 | Sound collection device |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111105811B (en) * | 2019-12-31 | 2023-04-07 | 西安讯飞超脑信息科技有限公司 | Sound signal processing method, related equipment and readable storage medium |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN113203988B (en) * | 2021-04-29 | 2023-11-21 | 北京达佳互联信息技术有限公司 | Sound source positioning method and device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03136557A (en) * | 1989-10-23 | 1991-06-11 | Nec Corp | Stereophonic voice conference equipment |
JPH0758859A (en) * | 1993-08-13 | 1995-03-03 | Oki Electric Ind Co Ltd | Information transmitter and information receiver for conference |
JP3483086B2 (en) * | 1996-03-22 | 2004-01-06 | 日本電信電話株式会社 | Audio teleconferencing equipment |
JP3797751B2 (en) * | 1996-11-27 | 2006-07-19 | 富士通株式会社 | Microphone system |
JP2003087890A (en) * | 2001-09-14 | 2003-03-20 | Sony Corp | Voice input device and voice input method |
JP4161685B2 (en) * | 2002-11-11 | 2008-10-08 | 株式会社デンソー | Audio input / output device |
JP2004309536A (en) * | 2003-04-02 | 2004-11-04 | Tokai Rika Co Ltd | Speech processing unit |
-
2005
- 2005-11-15 JP JP2005330730A patent/JP4929685B2/en not_active Expired - Fee Related
-
2006
- 2006-11-10 CN CN2006800423457A patent/CN101310558B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101310558A (en) | 2008-11-19 |
CN101310558B (en) | 2011-12-28 |
JP2007142595A (en) | 2007-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4929685B2 (en) | Remote conference equipment | |
WO2007058130A1 (en) | Teleconference device and sound emission/collection device | |
JP4867579B2 (en) | Remote conference equipment | |
JP4816221B2 (en) | Sound pickup device and audio conference device | |
KR101761312B1 (en) | Directonal sound source filtering apparatus using microphone array and controlling method thereof | |
KR101715779B1 (en) | Apparatus for sound source signal processing and method thereof | |
JP6281493B2 (en) | Signal processing apparatus, signal processing method, measuring method, measuring apparatus | |
JP4984683B2 (en) | Sound emission and collection device | |
JP5855571B2 (en) | Audio zoom | |
JP5581329B2 (en) | Conversation detection device, hearing aid, and conversation detection method | |
JP5003531B2 (en) | Audio conference system | |
JP2008288785A (en) | Video conference apparatus | |
WO2007052726A1 (en) | Teleconference device | |
CN104424953A (en) | Speech signal processing method and device | |
JP5259622B2 (en) | Sound collection device, sound collection method, sound collection program, and integrated circuit | |
JP2007318439A (en) | Audio conference device | |
JP2013512588A (en) | Directional output signal generation system and method | |
JP4894353B2 (en) | Sound emission and collection device | |
JP4670682B2 (en) | Audio apparatus and directional sound generation method | |
JP2007181099A (en) | Voice playing and picking-up apparatus | |
JP4835151B2 (en) | Audio system | |
JP2009141560A (en) | Sound signal processor, and sound signal processing method | |
JP4080987B2 (en) | Echo / noise suppression method and multi-channel loudspeaker communication system | |
JP2009212927A (en) | Sound collecting apparatus | |
JP5028833B2 (en) | Sound emission and collection device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110627 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4929685 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |