JP2011066805A - Sound collection device and sound collection method - Google Patents
Sound collection device and sound collection method Download PDFInfo
- Publication number
- JP2011066805A JP2011066805A JP2009217413A JP2009217413A JP2011066805A JP 2011066805 A JP2011066805 A JP 2011066805A JP 2009217413 A JP2009217413 A JP 2009217413A JP 2009217413 A JP2009217413 A JP 2009217413A JP 2011066805 A JP2011066805 A JP 2011066805A
- Authority
- JP
- Japan
- Prior art keywords
- directions
- sound collection
- detected
- sound
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、収音装置および収音方法に関する。 The present invention relates to a sound collection device and a sound collection method.
テレビ/音声会議、遠隔講義、IP電話等のシステムでは、マイクロホン等の収音装置を用いて音声信号が入力されて遠隔地に送信される。ところで、収音装置として無指向性マイクロホンを用いる場合、受信したい話者の音声とともに、周辺の雑音、反響、雑談等も受信されてしまい、所望の音声が聴取し難くなるという問題がある。 In a system such as a TV / voice conference, a remote lecture, or an IP phone, a voice signal is input using a sound collection device such as a microphone and transmitted to a remote place. By the way, when an omnidirectional microphone is used as a sound collection device, there is a problem that ambient noise, echoes, chats, etc. are received along with the voice of the speaker to be received, making it difficult to hear the desired voice.
上記問題に鑑みて、下記特許文献1、2は、2個以上のマイクロホンを用いて2以上の方向に収音指向性を形成し、2以上の収音ビームのうち最大レベルの信号を伴う収音ビームの方向に所望の音源が存在するとして収音方向を限定する技術を開示している。
In view of the above problems,
特許文献1には、最大レベルの信号を伴う収音ビームの方向を検出し、当該方向に指向性の照準を合わせて収音される音声信号を、話者の音声として入力することが記載されている。
特許文献2には、最大レベルの信号を伴う収音ビームおよび当該ビームに隣接する収音ビームにより収音される音声信号を、話者の音声として入力することが記載されている。
上記方法は、いずれも最大レベルの信号を伴う収音ビームの方向に話者が存在することを想定して、収音方向を限定するものである。しかし、会議システム等の利用状況を想定すると、話者が1人に限定されず、2人以上の話者が同時に発話する場合もしばしば生じる。また、このような利用状況は、会議システム等に限定されず、遠隔講義、IP電話等のシステムでも同様に想定される。 All of the above methods limit the sound collection direction on the assumption that a speaker is present in the direction of the sound collection beam with the maximum level signal. However, assuming the use situation of a conference system or the like, the number of speakers is not limited to one, and two or more speakers often speak at the same time. Moreover, such a use situation is not limited to a conference system or the like, and is similarly assumed in a system such as a remote lecture or an IP phone.
この場合、話者を1人に限定して収音すると、他の話者の音声が入力されず、一方、話者を限定せずに収音すると、複数の話者の音声が混信して所望の音声が聴取し難くなってしまう。 In this case, if only one speaker is picked up, the voices of other speakers are not input. On the other hand, if the voice is picked up without limiting the speakers, the voices of a plurality of speakers are mixed. It becomes difficult to hear the desired sound.
そこで、本発明は、2人以上の話者が同時に発話する場合でも、所望の音声を良好な状態で入力可能な、収音装置および収音方法を提供しようとするものである。 Therefore, the present invention is intended to provide a sound collection device and a sound collection method that can input desired sound in a good state even when two or more speakers speak at the same time.
本発明のある実施形態によれば、2個以上のマイクロホンを用いて2以上の方向に収音指向性を形成する指向性形成部と、2以上の方向から収音される音声信号の有無を検出する音声信号検出部と、2以上の方向から同時に音声信号が検出される場合に、2以上の方向からの音声信号を同時に選択する同時選択機能を実行する発話選択部と、を備える収音装置が提供される。 According to an embodiment of the present invention, a directivity forming unit that forms sound collection directivity in two or more directions using two or more microphones, and presence / absence of an audio signal collected from two or more directions are determined. A sound collection unit comprising: an audio signal detection unit to detect; and an utterance selection unit that executes a simultaneous selection function of simultaneously selecting audio signals from two or more directions when audio signals are detected simultaneously from two or more directions. An apparatus is provided.
かかる構成によれば、2以上の方向から同時に音声信号が検出される場合でも、2以上の方向からの音声信号を選択的に入力することができる。これにより、2人以上の話者が同時に発話する場合でも、所望の音声を良好な状態で入力することができる。 According to this configuration, even when audio signals are detected simultaneously from two or more directions, audio signals from two or more directions can be selectively input. Thereby, even when two or more speakers speak at the same time, a desired voice can be input in a good state.
また、上記発話選択部は、同時選択機能を実行する際に、2以上の方向から同時に検出される音声信号のうち最大レベルで検出される音声信号を基準とする、他の音声信号のレベル比が所定の閾値未満である場合に、所定の閾値未満のレベルで検出される音声信号の方向を選択しなくてもよい。 In addition, when the speech selection unit performs the simultaneous selection function, the level ratio of other audio signals based on the audio signal detected at the maximum level among the audio signals detected simultaneously from two or more directions. Is less than a predetermined threshold, the direction of the audio signal detected at a level less than the predetermined threshold may not be selected.
また、上記発話選択部は、同時選択機能を実行する際に、所定数を超える方向から同時に音声信号が検出される場合に、2個以上のマイクロホンの少なくともいずれか1個を用いて無指向性収音を行ってもよい。 In addition, when the speech selection unit executes the simultaneous selection function and the audio signal is simultaneously detected from directions exceeding a predetermined number, the utterance selection unit uses omnidirectionality by using at least one of two or more microphones. Sound collection may be performed.
また、上記発話選択部は、2以上の方向からの音声信号を同時に選択する同時選択機能、または1の優先方向からの音声信号を選択する優先選択機能のいずれかを選択して実行してもよい。 Further, the utterance selection unit may select and execute either a simultaneous selection function for simultaneously selecting audio signals from two or more directions or a priority selection function for selecting audio signals from one priority direction. Good.
また、上記発話選択部は、優先選択機能を実行する際に、ユーザーの指示に応じて、2以上の方向から同時に検出される音声信号のうち最も先行して検出される音声信号の方向を、1の優先方向として選択してもよい。 In addition, when the speech selection unit executes the priority selection function, the direction of the voice signal detected most first among the voice signals detected simultaneously from two or more directions in accordance with a user instruction, One priority direction may be selected.
また、上記発話選択部は、優先選択機能を実行する際に、ユーザーの指示に応じて、2以上の方向から同時に検出される音声信号のうち最大レベルで検出される音声信号の方向を、1の優先方向として選択してもよい。 In addition, when executing the priority selection function, the utterance selection unit determines the direction of the audio signal detected at the maximum level from among the audio signals detected simultaneously from two or more directions according to a user instruction. May be selected as the preferred direction.
また、上記発話選択部は、ユーザーの指示に応じて、同時選択機能または優先選択機能のいずれかを選択してもよい。 Further, the utterance selection unit may select either the simultaneous selection function or the priority selection function according to a user instruction.
また、本発明の別の実施形態によれば、2個以上のマイクロホンを用いて2以上の方向に収音指向性を形成するステップと、2以上の方向から収音される音声信号の有無を検出するステップと、2以上の方向から同時に音声信号が検出される場合に、2以上の方向からの音声信号を同時に選択する同時選択機能を実行するステップと、を含む収音方法が提供される。 According to another embodiment of the present invention, the step of forming sound collection directivity in two or more directions using two or more microphones and the presence or absence of an audio signal collected from two or more directions are determined. And a step of performing a simultaneous selection function of simultaneously selecting audio signals from two or more directions when audio signals are detected simultaneously from two or more directions. .
本発明によれば、2人以上の話者が同時に発話する場合でも、所望の音声を良好な状態で入力可能な、収音装置および収音方法を提供することができる。 According to the present invention, it is possible to provide a sound collection device and a sound collection method capable of inputting desired sound in a good state even when two or more speakers speak at the same time.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In the present specification and drawings, components having substantially the same functional configuration are denoted by the same reference numerals, and redundant description is omitted.
[1.収音装置]
以下では、図1〜図4を参照しながら、本発明の一実施形態に係る収音装置について説明する。図1は、本発明の一実施形態に係る収音装置の構成を示すブロック図である。図2は、ビームフォーミングの基本原理を示す図である。図3および図4は、収音装置の詳細を説明する図である。
[1. Sound collection device]
Hereinafter, a sound collecting apparatus according to an embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing a configuration of a sound collection device according to an embodiment of the present invention. FIG. 2 is a diagram showing the basic principle of beam forming. 3 and 4 are diagrams for explaining the details of the sound collecting device.
収音装置は、m個のマイクロホン100−1〜100−m(MC1〜MCm)からなるマイクロホンアレイ、指向性形成部101、音声信号検出部102、発話選択部103、操作部104、セレクタ105、ミキサ106を含む。収音装置は、所定の配列で配置された2個以上のマイクロホンMC1〜MCmから入力される信号に、指向性形成部101により所定の信号処理を施し、任意の方向に収音指向性を形成する。
The sound collection device includes a microphone array composed of m microphones 100-1 to 100-m (MC1 to MCm), a
本実施形態では、話者Sの方向を検出するために、ビームフォーミングの原理を用いて収音指向性が形成される。ビームフォーミングの原理を用いると、2個以上の無指向性マイクロホンを用いて任意の方向に収音指向性を形成することができる。なお、以下では、収音方向をJ方向に分割する場合を想定する。 In this embodiment, in order to detect the direction of the speaker S, the sound collection directivity is formed using the principle of beam forming. If the principle of beam forming is used, the sound collection directivity can be formed in an arbitrary direction using two or more omnidirectional microphones. In the following, it is assumed that the sound collection direction is divided in the J direction.
なお、収音指向性は、例えば、J個の指向性マイクロホン100−1〜100−Jを準備し、円周をJ等分した各円弧の中心方向に各マイクロホン100−1〜100−Jの指向性を向けて設置することで形成されてもよい。 Note that the sound collection directivity is obtained by, for example, preparing J directional microphones 100-1 to 100 -J and arranging the microphones 100-1 to 100 -J in the center direction of each arc obtained by equally dividing the circumference into J. You may form by directing and directing.
図2には、θ方向から到来する音波(平面波)を距離lで離間して配置された2個のマイクロホンMC1、MC2により受信する場合が示されている。θ方向から到来する音波は、マイクMC1により受信された後、距離dだけ伝播してマイクMC2により受信される。ここで、距離dは、次式で表される。
d=lsinθ・・・(1)
FIG. 2 shows a case where sound waves (plane waves) arriving from the θ direction are received by two microphones MC1 and MC2 arranged at a distance l. A sound wave coming from the θ direction is received by the microphone MC1, and then propagated by a distance d and received by the microphone MC2. Here, the distance d is expressed by the following equation.
d = lsin θ (1)
よって、マイクMC2の受信信号x2(t)は、マイクMC1の受信信号x1(t)に比して、音波が距離dの伝播に要する時間差(遅延量)τで遅れた信号となる。ここで、受信信号x2(t)および遅延量τは、次式で表される。
x2(t)=x1(t−τ)・・・(2)
τ=d/c (c:音速)・・・(3)
Thus, the received signal x2 of the microphone MC2 (t) is different from the received
x 2 (t) = x 1 (t−τ) (2)
τ = d / c (c: speed of sound) (3)
よって、受信信号x1(t)に遅延量τを付加して受信信号x2(t)に加算すると、同位相の信号同士が加算された加算信号b(t)では、特定方向θから到来する音波(の振幅)が強調される。なお、θの符号が逆であれば、受信信号x2(t)に遅延量τが付加される。
b(t)=x2(t)+x1(t−τ)・・・(4)
Therefore, when the delay amount τ is added to the received signal x 1 (t) and added to the received signal x 2 (t), the added signal b (t) obtained by adding the signals having the same phase comes from the specific direction θ. The sound wave (the amplitude) is emphasized. If the sign of θ is reversed, a delay amount τ is added to the received signal x 2 (t).
b (t) = x 2 (t) + x 1 (t−τ) (4)
上記原理による指向性形成は、時間領域と同様に周波数領域でも行うことができる。時間軸上で遅延量τを付加した信号のフーリエ変換は、元の信号のフーリエ変換にe−jωτを乗じたものとなる。よって、加算信号b(t)、受信信号x1(t)、x2(t)のフーリエ変換をB(ω)、X1(ω)、X2(ω)とすると、時間軸上の加算信号b(t)は、周波数軸上で次式により表される。
B(ω)=X2(ω)+e−jωτX1(ω)・・・(5)
Directivity formation based on the above principle can be performed in the frequency domain as well as in the time domain. The Fourier transform of the signal with the delay amount τ on the time axis is obtained by multiplying the Fourier transform of the original signal by e −jωτ . Therefore, if the Fourier transform of the addition signal b (t) and the reception signals x 1 (t), x 2 (t) is B (ω), X 1 (ω), X 2 (ω), the addition on the time axis The signal b (t) is expressed by the following equation on the frequency axis.
B (ω) = X 2 (ω) + e −jωτ X 1 (ω) (5)
ここで、時間軸上では、デジタル処理を行う場合に遅延量τをサンプリング周期間隔でしか選択することができない。一方、周波数軸上では、遅延量τを任意に選択できるので、遅延量τを変化させて指向方向を任意に設定することができる。 Here, on the time axis, when digital processing is performed, the delay amount τ can be selected only at the sampling cycle interval. On the other hand, since the delay amount τ can be arbitrarily selected on the frequency axis, the pointing direction can be arbitrarily set by changing the delay amount τ.
図3には、周波数領域で指向性形成を行う指向性形成部101の構成が示されている。指向性形成部101は、高速フーリエ変換を用いた時間−周波数変換部301−1〜301−m(FFT(高速フーリエ変換)部とも称する。)、遅延制御部302、乗算部303−1〜303−m、加算部304を含む。
FIG. 3 shows a configuration of the
直線状に距離lで離間して配置されたm個のマイクロホンMC1〜MCmにより収音された音声信号x1(t)〜xm(t)(図4参照)は、不図示のA/D変換器によりデジタル信号に変換され、指向性形成部101に供給される。マイクMC2、MC3、・・・、MCmには、音源の方向θに起因して、マイクMC1を基準として到達時間差τ、2τ、・・・、(m−1)τが生じる。
Audio signals x 1 (t) to x m (t) (see FIG. 4) collected by m microphones MC1 to MCm arranged linearly at a distance of l are A / D (not shown). The signal is converted into a digital signal by the converter and supplied to the
よって、到達時間差τ、2τ、・・・、(m−1)τに相当する遅延量を受信信号xm−1(t)、xm−2(t)、・・・、x1(t)に付加することで、全ての信号が同位相化される。同位相化された信号を加算することで、θ方向から到来する音声のみが強調される。そして、マイクロホンMCの増加に比例して加算される信号が増加すると、指向方向の利得が増加する。 Therefore, the arrival time difference τ, 2τ, ···, (m -1) received signal a delay amount corresponding to τ x m-1 (t) , x m-2 (t), ···, x 1 (t ), All signals are in phase. By adding the in-phase signals, only the voice coming from the θ direction is enhanced. And if the signal added in proportion to the increase in the microphone MC increases, the gain in the directivity direction increases.
指向性形成部101は、上記原理を周波数領域で実現する。受信信号x1(t)、x2(t)、・・・、xm(t)は、FFT部301−1〜301−mによりスペクトルX1(ω)、X2(ω)、・・・、Xm(ω)に変換され、乗算部303−1〜303−mにより遅延係数が乗じられて遅延が付加される。
The
遅延係数は、指向性の方向に応じて、遅延制御部302により乗算部303−1〜303−m−1に供給される。遅延係数は、距離差dにより生じる時間差τを想定すると、e−jω(m−1)τ、e−jω(m−2)τ、・・・、e−jωτとなる。なお、θの符号が逆であれば、マイクMCmが音源に最も近接するので、スペクトルXm(ω)に最大の遅延量(m−1)τが付加される。
The delay coefficient is supplied to the multipliers 303-1 to 303-m-1 by the
遅延制御部302は、マイクアレイの周囲に均等な指向性を形成するように遅延量を制御する。これにより、各方向からの収音信号スペクトルB1(ω)、B2(ω)、・・・、BJ(ω)が得られる。
The
図3に示すB0(ω)は、任意のマイクMCの収音信号スペクトルを直接出力したものであり、指向性を有しない無指向性(全方位)信号である。なお、図3では、B0(ω)として受信信号x1(t)のスペクトルX1(ω)が出力されているが、他のマイクMCの受信信号が出力されてもよい。 B 0 (ω) shown in FIG. 3 is a direct output of a collected signal spectrum of an arbitrary microphone MC, and is a non-directional (omnidirectional) signal having no directivity. In FIG. 3, the spectrum X 1 (ω) of the received signal x 1 (t) is output as B 0 (ω), but the received signal of another microphone MC may be output.
図1に説明を戻すと、音声信号検出部102は、各方向からの収音信号から音声信号の有無を検出する。音声検出は、収音信号中に音声信号の有無を検出可能な公知の方法を用いて行われる。音声検出では、例えば、信号レベルを基準とし、所定レベル以上の受信信号が所定時間以上継続した場合に音声入力の開始が判定され、所定レベル未満の受信信号が所定時間以上継続した場合に音声入力の終了が判定される。音声信号検出部102は、収音した全ての方向の信号について音声信号の有無を検出し、検出結果および信号レベル(レベル情報)を発話選択部103に供給する。
Returning to FIG. 1, the audio
発話選択部103は、2以上の方向から同時に音声信号が検出される場合に、2以上の方向からの音声信号を同時に選択する同時選択動作、または1の優先方向からの音声を選択する優先選択動作を行う。ユーザーは、同時選択動作または優先選択動作を動作モードとして指定することができる。動作モードは、操作部104のディップスイッチ等を介してユーザーにより指定され、発話選択部103に通知される。
The
[2.収音方法]
以下では、図5〜図7を参照しながら、本発明の一実施形態に係る収音方法について説明する。図5は、本発明の一実施形態に係る収音方法を示すフロー図である。図6A〜6Cおよび図7A〜7Cは、優先選択動作時および同時選択動作時の発話選択部103の処理を各々に説明する図である。
[2. Sound collection method]
Hereinafter, a sound collection method according to an embodiment of the present invention will be described with reference to FIGS. FIG. 5 is a flowchart showing a sound collection method according to an embodiment of the present invention. FIGS. 6A to 6C and FIGS. 7A to 7C are diagrams for explaining processing of the
まず、発話選択部103は、音声信号が検出された方向の数(音声検出数n)を評価する(ステップS301)。音声検出数n=0の場合、特定の方向に指向性を有する信号が検出されていないので、無指向性(全方位)信号が選択されて無指向性収録が行われる(S309)。音声検出数n=1の場合、音声信号が検出された方向が選択される(S302)。
First, the
一方、音声検出数n>1の場合、発話選択部103は、動作モードの指定状況を確認し(S303)、同時選択動作または優先選択動作を選択する。そして、優先選択動作が選択されている場合に、優先方向の選択基準が選択される(S304)。選択基準は、動作モードと同様に、操作部104を介してユーザーにより指定され、発話選択部103に通知されるものとする。
On the other hand, when the number of detected voices n> 1, the
第1の選択基準では、2以上の方向から同時に検出されている音声信号のうち最も先行して検出されている音声信号の方向が選択される。この場合、所定レベル以上の音声が収音されている限り、後続話者S´の音声信号のレベルに拘らずに、先行する優先話者Spの音声を継続して収音することができるが、後続話者S´の音声信号を選択することができない。 In the first selection criterion, the direction of the audio signal detected most precedingly is selected from the audio signals detected simultaneously from two or more directions. In this case, as long as the voice of a predetermined level or higher is collected, the voice of the preceding priority speaker Sp can be continuously collected regardless of the level of the voice signal of the subsequent speaker S ′. The voice signal of the subsequent speaker S ′ cannot be selected.
第2の選択基準では、2以上の方向から同時に検出されている音声信号のうち最大レベルで検出されている音声信号の方向が選択される。この場合、先行する優先話者Spの音声信号よりもレベルが高ければ、後続話者S´の音声信号を選択することができるが、先行話者Sの音声を継続して収音することができない。 In the second selection criterion, the direction of the audio signal detected at the maximum level is selected from the audio signals detected simultaneously from two or more directions. In this case, if the level is higher than the voice signal of the preceding priority speaker Sp, the voice signal of the subsequent speaker S ′ can be selected, but the voice of the preceding speaker S can be continuously collected. Can not.
第1の選択基準が選択されている場合に、先行して音声信号が検出されている方向の話者Sを優先話者Spとして、音声検出が行われなくなるまで当該方向が選択される(S305)。一方、第2の選択基準が選択されている場合に、最大レベルで検出されている音声の方向の話者Sを優先話者Spとして、最大レベルで検出されている音声信号の方向が変更されるまで当該方向が選択される(S306)。 When the first selection criterion is selected, the speaker S in the direction in which the voice signal is detected in advance is set as the priority speaker Sp, and the direction is selected until voice detection is not performed (S305). ). On the other hand, when the second selection criterion is selected, the direction of the voice signal detected at the maximum level is changed with the speaker S in the direction of the voice detected at the maximum level as the priority speaker Sp. This direction is selected until it is determined (S306).
図6A〜6Cには、選択基準に基づく優先選択動作時の処理が示されている。図6Aでは、話者S1(優先話者Sp)の音声が収音ビームB1により受信されている。ここで、話者S1よりも大きな音量で話者S2が発話を開始する場合を想定する。図6Bに示すように、第1の選択基準が選択されていれば、話者S1を優先話者Spとして、先行する話者S1の音声信号の収音が優先され、収音ビームB1により話者S1の音声信号の受信が継続される。一方、図6Cに示すように、第2の選択基準が選択されていれば、話者S1の代わりに話者S2を優先話者Spとして、音量の大きな話者S2の音声信号の収音が優先され、収音ビームB1の代わりに収音ビームB2により話者S2の音声信号の受信が開始される。 6A to 6C show processing during the priority selection operation based on the selection criterion. In FIG. 6A, the voice of the speaker S1 (priority speaker Sp) is received by the sound collection beam B1. Here, it is assumed that the speaker S2 starts speaking at a louder volume than the speaker S1. As shown in FIG. 6B, if the first selection criterion is selected, the sound collection of the speech signal of the preceding speaker S1 is given priority with the speaker S1 as the priority speaker Sp, and the speech is collected by the sound collection beam B1. Reception of the voice signal of the person S1 is continued. On the other hand, as shown in FIG. 6C, if the second selection criterion is selected, the voice signal of the louder speaker S2 is picked up with the speaker S2 as the priority speaker Sp instead of the speaker S1. Priority is given and reception of the voice signal of the speaker S2 is started by the sound collection beam B2 instead of the sound collection beam B1.
ステップS303の処理で同時選択動作が選択されている場合に、音声信号が検出される各方向の音声レベルが評価され、所定の基準を満たす方向の数が音声検出数n´として求められる(S307)。ここで、各方向の音声信号は、最大レベルの音声信号に対して所定の比率以上のレベルを伴う場合に、所定の基準を満たすと判断される。 When the simultaneous selection operation is selected in the process of step S303, the sound level in each direction in which the sound signal is detected is evaluated, and the number of directions satisfying a predetermined criterion is obtained as the sound detection number n ′ (S307). ). Here, the audio signal in each direction is determined to satisfy a predetermined criterion when accompanied by a level equal to or higher than a predetermined ratio with respect to the audio signal of the maximum level.
そして、音声検出数n´が所定の閾値nmaxを超えるかが判定される(S308)。多数の方向から同時に音声信号が検出される場合に、該当する全ての方向が選択されてもよいが、方向の数が余り多くなると、指向性形成により特定の方向からの音声信号を収音する意義が薄れてしまう。つまり、収音方向を絞ると発話が聴取し易くなる一方で、収音方向以外の環境音に伴う雰囲気が伝わり難くなる。そして、同時発話数が多くなりすぎると、発話が聴取され難くなるとともに、雰囲気も伝わり難くなる。よって、同時発話数が多くなりすぎた場合は、無指向性マイクに切替えて、雰囲気が伝わり易くなるようにした方が望ましいためである。 Then, it is determined whether the number of detected voices n ′ exceeds a predetermined threshold value n max (S308). When audio signals are detected simultaneously from a large number of directions, all applicable directions may be selected. However, if the number of directions increases, sound signals from a specific direction are collected by directivity formation. The significance will fade. That is, when the sound collection direction is narrowed, it is easy to hear the utterance, but the atmosphere accompanying the environmental sound other than the sound collection direction is difficult to be transmitted. And if the number of simultaneous utterances increases too much, it will be difficult to hear the utterances and the atmosphere will be difficult to convey. Therefore, when the number of simultaneous utterances increases too much, it is desirable to switch to an omnidirectional microphone so that the atmosphere can be easily transmitted.
このため、本実施形態では、同時に選択可能な方向数の閾値nmaxを設定する。そして、音声検出数n´が閾値nmaxを超える場合に、特定の方向が選択されずに無指向性(全方位)信号が選択されて無指向収録が行われる(S309)。 For this reason, in this embodiment, the threshold value n max of the number of directions that can be selected simultaneously is set. When the number of detected voices n ′ exceeds the threshold n max , a non-directional (omnidirectional) signal is selected without selecting a specific direction, and omnidirectional recording is performed (S309).
一方、音声検出数n´が閾値nmax以下である場合には、前述した所定の基準を満たす方向が同時に選択される(S310)。これは、検出された信号間でレベル差が大きい場合には、混信を回避するために、最大レベルの音声信号に対して所定の比率未満のレベルを伴う音声信号の方向を選択しないことが望ましいためである。 On the other hand, when the number of detected voices n ′ is equal to or smaller than the threshold value n max , directions that satisfy the above-described predetermined criterion are simultaneously selected (S310). This is because when the level difference between detected signals is large, it is desirable not to select the direction of an audio signal with a level less than a predetermined ratio with respect to the audio signal at the maximum level in order to avoid interference. Because.
図7A〜7Cには、音声検出数n´に基づく同時選択動作時の処理が示されている。図7Aでは、話者S1〜S4の音声信号が収音ビームB1〜B4により受信されている。なお、音声検出数n´の閾値nmaxが4に設定されている。ここで、図7Bに示すように、話者S1〜S4の音声信号のうち、最大レベルで検出されている話者S1の音声信号を基準として、話者S2〜S3の音声信号が所定未満のレベルを伴う場合、収音ビームB1〜B4の代わりに収音ビームB1により話者S1の音声信号が受信される。 7A to 7C show processing at the time of the simultaneous selection operation based on the number of detected voices n ′. In FIG. 7A, the voice signals of the speakers S1 to S4 are received by the sound collecting beams B1 to B4. Note that the threshold n max for the number of detected voices n ′ is set to 4. Here, as shown in FIG. 7B, the voice signals of the speakers S2 to S3 are less than a predetermined value based on the voice signal of the speaker S1 detected at the maximum level among the voice signals of the speakers S1 to S4. When the level is accompanied, the voice signal of the speaker S1 is received by the sound collection beam B1 instead of the sound collection beams B1 to B4.
また、図7Cに示すように、話者S5が発話を開始すると、音声検出数n´(=5)が閾値nmax(=4)を超えるので、収音ビームB1〜B4の代わりに収音ビームB0により無指向性収録が行われる。なお、図7Cでは、マイクロホンMC1〜MCmの前面にのみ収音ビームB0が示されているが、側面および背面にも形成される。 Also, as shown in FIG. 7C, when the speaker S5 starts speaking, the number of detected voices n ′ (= 5) exceeds the threshold value n max (= 4), so that sound is collected instead of the sound collecting beams B1 to B4. Omnidirectional recording is performed by the beam B0. In FIG. 7C, the sound collection beam B0 is shown only on the front surface of the microphones MC1 to MCm, but it is also formed on the side surface and the back surface.
そして、発話選択部103は、選択された指向方向を指向方向の選択情報としてセレクタ105に通知する(S311)。セレクタ105は、選択情報に基づいて、指向性形成部101の出力信号から選択すべき方向の信号を抽出してミキサ106に供給する。ミキサ106は、供給された信号をミキシングし、送信音声信号として出力する。
Then, the
[3.まとめ]
以上説明したように、上記実施形態に係る収音装置および収音方法によれば、2以上の方向から同時に音声信号が検出される場合でも、2以上の方向からの音声信号を選択的に入力することができる。これにより、2人以上の話者Sが同時に発話する場合でも、所望の音声を良好な状態で入力することができる。
[3. Summary]
As described above, according to the sound collection device and the sound collection method according to the above embodiment, even when audio signals are detected simultaneously from two or more directions, audio signals from two or more directions are selectively input. can do. Thereby, even when two or more speakers S speak at the same time, a desired voice can be input in a good state.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
100 マイクロホン
101 指向性形成部
102 音声信号検出部
103 発話選択部
104 操作部
105 セレクタ
106 ミキサ
301 時間−周波数変換部(FFT部)
302 遅延制御部
303 乗算部
304 加算部
DESCRIPTION OF
302
Claims (8)
前記2以上の方向から収音される音声信号の有無を検出する音声信号検出部と、
前記2以上の方向から同時に音声信号が検出される場合に、前記2以上の方向からの音声信号を同時に選択する同時選択機能を実行する発話選択部と、
を備える収音装置。 A directivity forming unit that forms sound collection directivity in two or more directions using two or more microphones;
An audio signal detector that detects the presence or absence of an audio signal collected from the two or more directions;
An utterance selection unit that executes a simultaneous selection function of simultaneously selecting audio signals from the two or more directions when audio signals are detected simultaneously from the two or more directions;
A sound collecting device.
前記2以上の方向から収音される音声信号の有無を検出するステップと、
前記2以上の方向から同時に音声信号が検出される場合に、前記2以上の方向からの音声信号を同時に選択する同時選択機能を実行するステップと、
を含む収音方法。 Forming sound collection directivity in two or more directions using two or more microphones;
Detecting the presence or absence of an audio signal collected from the two or more directions;
Executing a simultaneous selection function of simultaneously selecting audio signals from the two or more directions when audio signals are detected simultaneously from the two or more directions;
Including sound collection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217413A JP2011066805A (en) | 2009-09-18 | 2009-09-18 | Sound collection device and sound collection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217413A JP2011066805A (en) | 2009-09-18 | 2009-09-18 | Sound collection device and sound collection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011066805A true JP2011066805A (en) | 2011-03-31 |
Family
ID=43952534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009217413A Pending JP2011066805A (en) | 2009-09-18 | 2009-09-18 | Sound collection device and sound collection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011066805A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105199A (en) * | 2010-11-12 | 2012-05-31 | Toshiba Corp | Acoustic signal processing device, television apparatus and program |
JP2016039407A (en) * | 2014-08-05 | 2016-03-22 | パナソニックIpマネジメント株式会社 | Audio processing system and audio processing method |
JP2017521024A (en) * | 2015-05-06 | 2017-07-27 | シャオミ・インコーポレイテッド | Audio signal optimization method and apparatus, program, and recording medium |
CN109859749A (en) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | A kind of voice signal recognition methods and device |
JP7572964B2 (en) | 2019-03-21 | 2024-10-24 | シュアー アクイジッション ホールディングス インコーポレイテッド | Beamforming with rejection Autofocus, autofocus in area, and autoplacement of microphone lobes |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162989A (en) * | 1993-12-13 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Selective processor of voice signal |
JP2009212927A (en) * | 2008-03-05 | 2009-09-17 | Yamaha Corp | Sound collecting apparatus |
-
2009
- 2009-09-18 JP JP2009217413A patent/JP2011066805A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07162989A (en) * | 1993-12-13 | 1995-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Selective processor of voice signal |
JP2009212927A (en) * | 2008-03-05 | 2009-09-17 | Yamaha Corp | Sound collecting apparatus |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105199A (en) * | 2010-11-12 | 2012-05-31 | Toshiba Corp | Acoustic signal processing device, television apparatus and program |
JP2016039407A (en) * | 2014-08-05 | 2016-03-22 | パナソニックIpマネジメント株式会社 | Audio processing system and audio processing method |
JP2017521024A (en) * | 2015-05-06 | 2017-07-27 | シャオミ・インコーポレイテッド | Audio signal optimization method and apparatus, program, and recording medium |
US10499156B2 (en) | 2015-05-06 | 2019-12-03 | Xiaomi Inc. | Method and device of optimizing sound signal |
CN109859749A (en) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | A kind of voice signal recognition methods and device |
JP7572964B2 (en) | 2019-03-21 | 2024-10-24 | シュアー アクイジッション ホールディングス インコーポレイテッド | Beamforming with rejection Autofocus, autofocus in area, and autoplacement of microphone lobes |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11240598B2 (en) | Band-limited beamforming microphone array with acoustic echo cancellation | |
US9820036B1 (en) | Speech processing of reflected sound | |
KR101715779B1 (en) | Apparatus for sound source signal processing and method thereof | |
CN108475511B (en) | Adaptive beamforming for creating reference channels | |
US9818425B1 (en) | Parallel output paths for acoustic echo cancellation | |
US20170332168A1 (en) | Processing Speech from Distributed Microphones | |
EP2772070B1 (en) | Processing audio signals | |
US9269367B2 (en) | Processing audio signals during a communication event | |
JP5003531B2 (en) | Audio conference system | |
JP4986248B2 (en) | Sound source separation apparatus, method and program | |
US8363823B1 (en) | Two microphone uplink communication and stereo audio playback on three wire headset assembly | |
CN101828335A (en) | Robust two microphone noise suppression system | |
US20180070174A1 (en) | Stereo separation and directional suppression with omni-directional microphones | |
KR20120101457A (en) | Audio zoom | |
JP5259622B2 (en) | Sound collection device, sound collection method, sound collection program, and integrated circuit | |
KR20120131826A (en) | Signal separation system using directionality microphone array and providing method thereof | |
JP5246120B2 (en) | Sound collecting device, gain control method, and program | |
JP2011066805A (en) | Sound collection device and sound collection method | |
JP2009141560A (en) | Sound signal processor, and sound signal processing method | |
CN113223544B (en) | Audio direction positioning detection device and method and audio processing system | |
JPH09261792A (en) | Sound receiving method and its device | |
US20150086037A1 (en) | Sound receiving device | |
JPH1118192A (en) | Sound pickup method and its device | |
JP3341815B2 (en) | Receiving state detection method and apparatus | |
JP5105336B2 (en) | Sound source separation apparatus, program and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130321 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A02 | Decision of refusal |
Effective date: 20130806 Free format text: JAPANESE INTERMEDIATE CODE: A02 |