JP7020283B2 - Sound source direction determination device, sound source direction determination method, and sound source direction determination program - Google Patents
Sound source direction determination device, sound source direction determination method, and sound source direction determination program Download PDFInfo
- Publication number
- JP7020283B2 JP7020283B2 JP2018091212A JP2018091212A JP7020283B2 JP 7020283 B2 JP7020283 B2 JP 7020283B2 JP 2018091212 A JP2018091212 A JP 2018091212A JP 2018091212 A JP2018091212 A JP 2018091212A JP 7020283 B2 JP7020283 B2 JP 7020283B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- microphone
- flat surface
- sound pressure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音源方向判定装置、音源方向判定方法、及び音源方向判定プログラムに関する。 The present invention relates to a sound source direction determination device, a sound source direction determination method, and a sound source direction determination program.
第1指向性マイクロフォンを第1方向に沿って伝搬する音を検出するように配置し、第2指向性マイクロフォンを第1方向に交差する第2方向に沿って伝搬する音を検出するように配置することで、音源方向を判定する音源方向判定装置が存在する。この音源方向判定装置では、第1指向性マイクロフォンが検出した音の音圧の大きさが第2指向性マイクロフォンで検出した音の音圧の大きさよりも大きい場合、音が第1方向に沿って伝搬した音であると判定する。一方、第2指向性マイクロフォンが検出した音の音圧の大きさが第1指向性マイクロフォンで検出した音の音圧の大きさよりも大きい場合、音が第2方向に沿って伝搬した音であると判定する。 The first directional microphone is arranged to detect the sound propagating along the first direction, and the second directional microphone is arranged to detect the sound propagating along the second direction intersecting the first direction. By doing so, there is a sound source direction determination device that determines the sound source direction. In this sound source direction determination device, when the sound pressure of the sound detected by the first directional microphone is larger than the sound pressure of the sound detected by the second directional microphone, the sound is along the first direction. It is determined that the sound is propagated. On the other hand, when the sound pressure of the sound detected by the second directional microphone is larger than the sound pressure of the sound detected by the first directional microphone, the sound propagates along the second direction. Is determined.
しかしながら、指向性マイクロフォンは、無指向性マイクロフォンよりもサイズが大きく、価格も高いため、無指向性マイクロフォンを使用した場合よりも、音源方向判定装置のサイズが大きくなり、価格が高くなる、という問題がある。 However, since the directional microphone is larger in size and more expensive than the omnidirectional microphone, the size of the sound source direction determination device is larger and the price is higher than when the omnidirectional microphone is used. There is.
本発明は、1つの側面として、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを目的とする。 One aspect of the present invention is to improve the accuracy of sound source direction determination using an omnidirectional microphone.
1つの実施形態では、マイク設置部は、第1音道及び第2音道が内部に設けられている。第1音道は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬する。第2音道は、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬する第2音道が内部に設けられている。第1マイクロフォンは、第1音道の他端部に設置され、第2マイクロフォンは、第2音道の他端部に設置されている。判定部は、音圧の相違及び位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する。音圧の相違は、第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、第2マイクロフォンで取得された音の第1周波数成分の音圧である第2音圧との相違である。位相の相違は、第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、第2マイクロフォンで取得された音の第2周波数成分の位相である第2位相との相違である。 In one embodiment, the microphone installation portion is provided with a first sound path and a second sound path inside. The first sound path is provided with a first opening opened on the first flat surface at one end, and sound propagates from the first opening. The second sound path is provided at one end with a second opening opened in the second flat surface intersecting with the first flat surface, and a second sound path through which sound propagates from the second opening is provided inside. .. The first microphone is installed at the other end of the first sound path, and the second microphone is installed at the other end of the second sound path. The determination unit determines the direction in which the sound source exists based on at least one of the difference in sound pressure and the difference in phase. The difference in sound pressure is the first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. It is a difference from sound pressure. The difference in phase is the difference between the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the second phase, which is the phase of the second frequency component of the sound acquired by the second microphone. Is.
1つの側面として、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。 As one aspect, it is possible to improve the accuracy of sound source direction determination using an omnidirectional microphone.
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。
[First Embodiment]
Hereinafter, an example of the first embodiment will be described in detail with reference to the drawings.
図1に、情報処理端末1の要部機能を例示する。情報処理端末1は、音源方向判定装置10及び音声翻訳装置14を含む。
FIG. 1 illustrates the main functions of the
音源方向判定装置10は、第1マイクロフォン(以下、「マイクロフォン」を「マイク」ともいう。)11、第2マイクロフォン12、及び、判定部13を含む。音声翻訳装置14は、第1翻訳部14A、第2翻訳部14B、及び、スピーカ14Cを含む。
The sound source
第1マイク11及び第2マイク12の各々は、無指向性マイクロフォンであって、全方位の音を取得する。判定部13は、第1マイク11及び第2マイク12で取得された音の音源が存在する方向を判定する。音声翻訳装置14は、判定部13によって判定された音源方向に基づいて、第1マイク11または第2マイク12で取得された音源方向から伝搬する音に対応する音声信号によって表される言語を所定の言語に翻訳する。
Each of the
詳細には、判定部13によって音源が、例えば、上方である第1方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第1翻訳部14Aが第1言語(例えば、英語)に翻訳する。判定部13によって、音源が、例えば、前方である第2方向に存在すると判定された場合、取得した音に対応する音声信号によって表される言語を、第2翻訳部14Bが第2言語(例えば、日本語)に翻訳する。スピーカ14Cは、第1翻訳部14Aまたは第2翻訳部14Bによって翻訳された言語を音声で出力する。
Specifically, when the
図2A及び図2Bに、音源方向判定装置10の外観を例示する。音源方向判定装置10は、例えば、ユーザのシャツの胸ポケットに入れて、衣服のユーザの胸部付近に該当する部分にクリップまたはピンなどで留めて、または、ストラップでユーザの首に下げて使用することが想定される装置である。図2Aは、音源方向判定装置10の筐体18の上面を例示する。筐体18は、マイク設置部の一例である。第1平坦面の一例である筐体18の上面は、音源方向判定装置10を胸ポケットに入れた際に、上方を向く面、即ち、ユーザの口に最も近い面である。
2A and 2B illustrate the appearance of the sound source
筐体18の上面には、第1音道の一端部に備えられた第1開口部の一例である開口部11Oが存在する。第1音道の他端部には、第1マイク11が設置されている。以下、図において矢印FRは、音源方向判定装置10の前方を表す。筐体18の上面には、スピーカ14Cも配置されている。即ち、図2A及び図2Bの例では、音声翻訳装置14は、音源方向判定装置10の筐体18に含まれている。筐体18の上面の前後方向の長さは、例えば、1[cm]である。
On the upper surface of the
図2Bは、音源方向判定装置10の筐体18の前面を例示する。第2平坦面の一例である前面は、例えば、音源方向判定装置10を胸ポケットに入れた際に、ユーザが対話する対話相手に対向する面である。
FIG. 2B illustrates the front surface of the
筐体18の前面には、第2音道の一端部に備えられた開口部12Oが存在する。第2音道の他端部には、第2マイク12が設置されている。以下、図において矢印UPは、音源方向判定装置10の上方を表す。筐体18の前面の大きさは、例えば、一般的な名刺と同程度の大きさである。
On the front surface of the
音源方向判定装置10は、上方に音源が存在すると判定した音をユーザによって発話された音声であると判定して、第1言語に翻訳してスピーカ14Cから音声で出力するように、音声翻訳装置14の第1翻訳部14Aに当該音に対応する音声信号を送信する。また、音源方向判定装置10は、前方に音源が存在すると判定した音を対話相手によって発話された音声であると判定する。音源方向判定装置10は、第2言語に翻訳してスピーカ14Cから音声で出力するように、音声翻訳装置14の第2翻訳部14Bに当該音に対応する音声信号を送信する。
The sound source
図3は、図2Aの切断線3-3に沿った断面図を表す。第2音道12Rの一端部は、筐体18の前面に開口した開口部12Oを備え、第2マイク12は、第2音道の他端部に設置されている。
FIG. 3 represents a cross-sectional view taken along the cutting line 3-3 of FIG. 2A. One end of the
第1音道11Rの一端部は、筐体18の上面に開口した開口部11Oを備え、第1マイク11は、第1音道11Rの他端部に設置されている。第1音道11Rは途中に屈曲部11Kを有する。屈曲部11Kは第2回折部の一例である。
One end of the first
図4Aに、音源が音源方向判定装置10の前方に存在する場合を例示する。筐体18の前面の面積が第1所定値の一例である所定値より大きい場合、第2マイク12は、開口部12Oを通って、直接届く音に加え、筐体18の前面で反射し、第3回折部の一例である開口部12Oで回折した音を取得する。
FIG. 4A illustrates a case where the sound source is located in front of the sound source
図4Bに、音源が音源方向判定装置10の上方に存在する場合を例示する。音は、第2マイク12に直接には届かず、第2マイク12は、開口部12Oで回折した音を取得する。したがって、第2マイク12で取得される音の音圧は、音源が前方に存在する場合の方が、音源が上方に存在する場合よりも大きい。
FIG. 4B illustrates a case where the sound source is located above the sound source
図5に、音源が音源方向判定装置10の前方に存在する場合、及び、上方に存在する場合の、第2マイク12で取得される音圧を例示する。音源方向判定装置10の前面の面積が所定値以下の大きさの一例である2[平方cm]である場合、音源が音源方向判定装置10の前方に存在する音の音圧は-26[dBov]である。また、音源が音源方向判定装置10の上方に存在する音の音圧は-29[dBov]である。したがって、音源方向判定装置10の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は3[dB]である。
FIG. 5 illustrates the sound pressure acquired by the
一方、音源方向判定装置10の前面の面積が所定値より大きい大きさの一例である63[平方cm]である場合、音源が音源方向判定装置10の前方に存在する音の音圧は-24[dBov]である。また、音源が音源方向判定装置10の上方に存在する音の音圧は-30[dBov]である。したがって、音源方向判定装置10の前方に存在する音源からの音の音圧と、上方に存在する音源からの音の音圧との音圧差は、6[dB]である。
On the other hand, when the area of the front surface of the sound source
即ち、音源方向判定装置10の前面の面積が2[平方cm]の場合よりも、63[平方cm]の場合の方が音源の方向による音圧差が大きく、音源の方向の判定が容易となる。前面の面積が所定値より大きい場合、音源が音源方向判定装置10の前方に存在する音の反射が十分に行われるためである。
That is, when the area of the front surface of the sound source
所定値とは、例えば、音道の断面積の1000倍であってよい。即ち、第2マイク12のマイク穴の直径が、例えば、0.5[mm]であり、第2音道12Rが、第2マイク12のマイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有している場合、約785[平方mm]より大きい面積であってよい。なお、例えば、第2音道12Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。また、第2音道は、例えば、矩形の断面を有していてもよい。
The predetermined value may be, for example, 1000 times the cross-sectional area of the sound path. That is, the diameter of the microphone hole of the
第2音道12Rの一端部から他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第2音道12Rは、筐体18の前面と直交していてもよいし、第2音道12Rと筐体18の前面とは90[度]以外の角度で交差していてもよい。
The length from one end to the other end of the
図6A及び図6Bで、音源が音源方向判定装置10の上方に存在する場合と、前方に存在する場合の、第1マイク11で取得される音圧を説明する。図6Aに、音源が音源方向判定装置10の上方に存在する場合を例示する。
6A and 6B show the sound pressure acquired by the
筐体18の上面の前後方向の長さは短く、上面の面積は所定値以下であるため、音源が音源方向判定装置10の上方にある場合でも、図4Aに例示する音の反射及び回折による音の取得が期待できない。そこで、第1音道11Rには屈曲部11Kを設けている。第1音道11Rは、屈曲部11Kを有するため、上方からの音は、第1マイク11には直接届かず、第1音道11Rの屈曲部11Kで回折し、第1マイク11で取得される。
Since the length of the upper surface of the
図6Bに、音源が音源方向判定装置10の前方に存在する場合を例示する。音は、第1回折部の一例である開口部11Oで回折し、さらに、屈曲部11Kで回折して、第1マイク11で取得される。
FIG. 6B illustrates a case where the sound source is located in front of the sound source
図7に、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を例示する。実線は、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧[dB]を表し、破線は、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧[dB]を表す。
FIG. 7 shows the sound pressure of the sound acquired by the
即ち、実線と破線との間の上下方向の距離が、音源が音源方向判定装置10の上方に存在する場合に第1マイク11で取得される音の音圧と、音源が音源方向判定装置10の前方に存在する場合に第1マイク11で取得される音の音圧との音圧差を表す。図7のグラフの横軸は周波数[Hz]であり、音圧差は、周波数が低いほど小さく、周波数が高いほど大きい傾向を有する。即ち、回折の回数が1回である、音源が音源方向判定装置10の上方に存在する場合と、回折の回数が2回である音源が音源方向判定装置10の前方に存在する場合と、の音圧差は、周波数が高いほど顕著となる。
That is, the vertical distance between the solid line and the broken line is the sound pressure of the sound acquired by the
回折による減音量R[dB]は、例えば、(1)式で表される。
Nは、フレネル数であり、(2)式で表される。
N=δ/(λ/2)
=δ・f/165 …(2)
δは、回折経路と直接経路との経路差[m]であり、λは音の波長[m]であり、fは音の周波数[Hz]であり、音速(=λ×f)を330[m/秒]とした場合である。即ち、図7のグラフにも表されるように、周波数fが高いほど、回折による減音量Rは大きくなる傾向を有する。したがって、本実施形態では、音源の方向を判定する際に、音の高域成分の音圧差を使用する。
The volume reduction R [dB] due to diffraction is expressed by, for example, Eq. (1).
N is a Fresnel number and is expressed by the equation (2).
N = δ / (λ / 2)
= Δ ・ f / 165 ... (2)
δ is the path difference [m] between the diffraction path and the direct path, λ is the wavelength of sound [m], f is the frequency of sound [Hz], and the speed of sound (= λ × f) is 330 [. m / sec]. That is, as shown in the graph of FIG. 7, the higher the frequency f, the larger the volume reduction R due to diffraction tends to be. Therefore, in the present embodiment, the difference in sound pressure of the high frequency component of the sound is used when determining the direction of the sound source.
第1音道11Rは、第1マイク11のマイク穴の直径が0.5[mm]である場合、マイク穴の直径の2倍の長さである直径1[mm]の円形の断面を有していてもよい。なお、例えば、第1音道11Rは、一端部から他端部まで同じ直径を有していてもよいし、一端部から他端部に向かって徐々に直径が小さくなってもよい。
The first
第1音道11Rは、一端部から屈曲部11Kに向かって徐々に直径が小さくなり、屈曲部11Kから他端部まで同じ直径を有していてもよい。また、第1音道11Rは、例えば、矩形の断面を有していてもよい。
The diameter of the first
第1音道11Rの一端部から屈曲部11Kまでの長さ、及び、屈曲部11Kから他端部までの長さは、例えば、3[mm]であってよいが、3[mm]よりも長くてもよいし、短くてもよい。また、第1音道11Rの一端部から屈曲部11Kまでは、筐体18の上面と直交していてもよいし、第1音道11Rと筐体18の上面とは90[度]以外の角度で交差していてもよい。また、第1音道11Rの屈曲部11Kから他端部までは、一端部から屈曲部11Kまでと直交していてもよいし、90[度]以外の角度で交差していてもよい。
The length from one end of the first
また、第1マイク11の周囲は第1音道11Rの他端部と側壁とがつながる部分を除いて側壁で包囲され、他端部と側壁との間に空隙は存在しない。また、第2マイク12の周囲は第2音道12Rの他端部と側壁とがつながる部分を除いて側壁で包囲され、他端部と側壁との間に空隙は存在しない。なお、筐体18の上面と前面とは直交している。しかしながら、本実施形態は筐体18の上面と前面とが直交されている例に限定されず、筐体18の上面と前面とは、90[度]以外の角度で交差していてもよい。
Further, the periphery of the
図8を使用して、第1実施形態の判定部13で行われる音源方向判定処理の概要を例示する。図3に例示するように設置された第1マイク11で取得された音に対応する音信号を、時間周波数変換部13Aが時間周波数変換する。同様に、図3に例示するように設置された第2マイク12で取得された音に対応する音信号を、時間周波数変換部13Bが時間周波数変換する。時間周波数変換には、例えば、FFT(Fast Fourier Transformation)を使用する。
FIG. 8 is used to illustrate an outline of the sound source direction determination process performed by the
上記したように、第1マイク11で取得された音の音圧と、第2マイク12で取得された音の音圧との音圧差は、高域成分で顕著に現れる。したがって、高域音圧差算出部13Cは、所定の周波数より高い周波数における周波数帯域毎の音圧差の平均値を、高域音圧差として算出する。音源方向判定部13Dは、高域音圧差算出部13Cで算出された高域音圧差に基づいて、音源の位置を判定する。
As described above, the sound pressure difference between the sound pressure of the sound acquired by the
詳細には、高域音圧差算出部13Cは、第1マイク11で取得された音に対応する音信号のスペクトルパワーpow1[bin]を(3)式で算出し、第2マイク12で取得された音に対応する音信号のスペクトルパワーpow2[bin]を(4)式で算出する。
pow1[bin]=re1[bin]2+im1[bin]2 …(3)
pow2[bin]=re2[bin]2+im2[bin]2 …(4)
bin=0, …, F-1であり、Fは周波数帯域数であり、例えば、256であってよい。re1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im1[bin]は、第1マイク11で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
Specifically, the high frequency sound pressure
pow1 [bin] = re1 [bin] 2 + im1 [bin] 2 … (3)
pow2 [bin] = re2 [bin] 2 + im2 [bin] 2 … (4)
bin = 0, ..., F-1, where F is the number of frequency bands, for example 256. re1 [bin] is the real part of the frequency spectrum of the frequency band bin acquired when the sound signal of the sound acquired by the
re2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの実部である。また、im2[bin]は、第2マイク12で取得した音の音信号を時間周波数変換した際に取得される、周波数帯域binの周波数スペクトルの虚部である。
re2 [bin] is the real part of the frequency spectrum of the frequency band bin acquired when the sound signal of the sound acquired by the
次に、(5)式で、高域音圧差d_powを算出する。
高域音圧差d_powは、音圧の相違の一例であり、スペクトルパワーpow1[i]の対数から、スペクトルパワーpow2[i]の対数を減算した値の平均値である。sは、高域の下限周波数帯域数であり、例えば、96であってよい。音信号のサンプリング周波数が16[kHz]であり、s=96である場合、高域とは3000[Hz]~8[kHz]である。
Next, the high frequency sound pressure difference d_pow is calculated by the equation (5).
The high-frequency sound pressure difference d_pow is an example of the difference in sound pressure, and is the average value obtained by subtracting the logarithm of the spectral power pow2 [i] from the logarithm of the spectral power pow1 [i]. s is the lower limit frequency band number in the high frequency range, and may be 96, for example. When the sampling frequency of the sound signal is 16 [kHz] and s = 96, the high frequency range is 3000 [Hz] to 8 [kHz].
図9に、音源方向判定部13Dの判定基準及び判定結果を例示する。高域音圧差d_powと正の値である第1閾値とを比較し、高域音圧差d_powが第1閾値よりも大きい場合、音源は筐体18の上面に対向する位置、即ち、上方に存在すると判定される。また、高域音圧差d_powと負の値である第2閾値とを比較し、高域音圧差d_powが第2閾値よりも小さい場合、音源は筐体18の前面に対向する位置、即ち、前方に存在すると判定される。
FIG. 9 illustrates the determination criteria and determination results of the sound source
また、図9に例示されるように、高域音圧差d_powが第2閾値以上であり、第1閾値以下である場合には、音源方向の判定は不可であると判定する。第1閾値は、例えば、1.5[dB]、第2閾値は、例えば、-1.5[dB]であってよい。 Further, as illustrated in FIG. 9, when the high frequency sound pressure difference d_pow is equal to or higher than the second threshold value and equal to or lower than the first threshold value, it is determined that the sound source direction cannot be determined. The first threshold value may be, for example, 1.5 [dB], and the second threshold value may be, for example, −1.5 [dB].
なお、高域音圧差d_powを取得する際に、(5)式において、筐体18の前面に開口部12Oを有する第2マイク12のスペクトルパワーを基準にしているため、図9に例示するような判定結果となる。しかしながら、(6)式に例示するように、筐体18の上面に開口部11Oを有する第1マイク11のスペクトルパワーを基準として高域音圧差d_powを取得する場合、判定結果は異なる。
高域音圧差d_powと正の値である第1閾値とを比較し、高域音圧差d_powが第1閾値よりも大きい場合、音源は筐体18の前面に対向する位置、即ち、前方に存在すると判定される。また、高域音圧差d_powと負の値である第2閾値とを比較し、高域音圧差d_powが第2閾値よりも小さい場合、音源は筐体18の上面に対向する位置、即ち、上方に存在すると判定される。
Comparing the high-frequency sound pressure difference d_pow with the first threshold value, which is a positive value, if the high-frequency sound pressure difference d_pow is larger than the first threshold value, the sound source is located at a position facing the front surface of the
なお、高域音圧差を取得する(5)式及び(6)式は例示であり、本実施形態はこれに限定されない。また、第1マイク11で取得された音の高域成分の音圧、及び、第2マイク12で取得された音の高域成分の音圧の相違である高域音圧差を使用する例について説明したが、本実施形態はこの例に限定されない。
It should be noted that the equations (5) and (6) for acquiring the high frequency sound pressure difference are examples, and the present embodiment is not limited thereto. Further, regarding an example of using a high-frequency sound pressure difference, which is a difference between the sound pressure of the high-frequency component of the sound acquired by the
第1マイク11で取得された音の所定の周波数成分の音圧、及び、第2マイク12で取得された音の所定の周波数成分の音圧の相違を、高域音圧差に代えて使用してもよい。所定の周波数成分とは、第1周波数成分の一例であり、高域成分であってよいが、音源の方向によって、第1マイク11と第2マイク12との間で音圧差が顕著に現れる周波数成分であればよい。また、図9の判定基準及び判定結果も例示であり、本実施形態はこの例に限定されない。
The difference between the sound pressure of the predetermined frequency component of the sound acquired by the
図10に、情報処理端末1のハードウェア構成を例示する。情報処理端末1は、ハードウェアであるプロセッサの一例であるCPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、及び、外部インターフェイス54を含む。情報処理端末1は、また、第1マイク11、第2マイク12、及びスピーカ14Cを含む。
FIG. 10 illustrates the hardware configuration of the
CPU51、一次記憶部52、二次記憶部53、外部インターフェイス54、第1マイク11、第2マイク12、及びスピーカ14Cは、バス59を介して相互に接続されている。
The
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。
The
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、音源方向判定処理をCPU51に実行させるための音源方向判定プログラム、音源方向判定処理の判定結果に基づいて、音声翻訳処理をCPU51に実行させるための音声翻訳プログラムなどのプログラムを記憶している。データ格納領域53Bは、第1マイク11及び第2マイク12から取得された音に対応する音信号、音源方向判定処理及び音声翻訳処理において一時的に生成される中間データ、などを記憶する。
The
CPU51は、プログラム格納領域53Aから音源方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、音源方向判定プログラムを実行することで、図1の判定部13として動作する。CPU51は、プログラム格納領域53Aから音声翻訳プログラムを読み出して一次記憶部52に展開する。CPU51は、音声翻訳プログラムを実行することで、図1の第1翻訳部14A及び第2翻訳部14Bとして動作する。なお、音源方向判定プログラム及び音声翻訳プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部52に展開されてもよい。
The
外部インターフェイス54には、外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。例えば、スピーカ14Cは、音源方向判定装置10に含まれず、外部インターフェイス54を介して接続される外部装置であってもよい。
An external device is connected to the
次に、音源方向判定装置10の作用の概略について説明する。音源方向判定装置10の作用の概略を図11に例示する。例えば、ユーザが音源方向判定装置10の電源を投入すると、CPU51は、せせで、1フレーム分の音信号を読み込む。詳細には、第1マイク11から取得された音に対応する1フレーム分の音信号(以下、第1音信号という。)と、第2マイク12から取得された音に対応する1フレーム分の音信号(以下、第2音信号という。)と、を読み込む。1フレームは、サンプリング周波数が16[kHz]である場合、例えば、32[m秒]であってよい。
Next, the outline of the operation of the sound source
CPU51は、ステップ102で、ステップ101で読み込んだ音信号の各々に時間周波数変換を施す。CPU51は、ステップ103で、(3)式及び(4)式を使用して、時間周波数変換を施した音信号の各々のスペクトルパワーを算出し、(5)式を使用して、高域音圧差d_powを算出する。
In
CPU51は、ステップ104で、ステップ103で算出した高域音圧差d_powと第1閾値値とを比較し、高域音圧差d_powが第1閾値より大きい場合、音源が音源方向判定装置10の上方に存在すると判定し、ステップ105に進む。CPU51は、ステップ105で、音信号を第2言語から第1言語へ翻訳する処理に振り分け、ステップ108に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第2言語から第1言語へ翻訳され、例えば、スピーカ14Cから音声として出力される。
In
ステップ104で、高域音圧差d_powが第1閾値以下であると判定された場合、CPU51は、ステップ106で、高域音圧差d_powと第2閾値とを比較し、高域音圧差d_powが第2閾値より小さい場合、音源が音源方向判定装置10の前方に存在すると判定する。ステップ106の判定が肯定された場合、即ち、音源が音源方向判定装置10の前方に存在すると判定された場合、CPU51は、ステップ107に進む。CPU51は、ステップ107で、音信号を第1言語から第2言語へ翻訳する処理に振り分け、ステップ108に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第1言語から第2言語へ翻訳され、例えば、スピーカ14Cから音声として出力される。
When it is determined in
ステップ106の判定が否定された場合、CPU51は、ステップ108に進む。即ち、高域音圧差d_powが第1閾値以下であり、かつ、第2閾値以上である場合、音源位置の判定は不可であると判定され、第1言語から第2言語への翻訳も、第2言語から第1言語への翻訳も行わない。
If the determination in
CPU51は、ステップ108で、音源方向判定装置10の音源方向判定機能が、例えば、ユーザの操作によりオフされたか否か判定する。ステップ108の判定が否定された場合、即ち、音源方向判定機能がオンである場合、CPU51は、ステップ101に進み、次のフレームの音信号を読み込み、音源方向判定処理を継続する。ステップ108の判定が否定された場合、即ち、音源方向判定機能がオフである場合、CPU51は、音源方向判定処理を終了する。
In
本実施形態のマイク設置部は、第1音道及び第2音道が内部に設けられている。第1音道は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬する。第2音道は、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬する第2音道が内部に設けられている。第1マイクロフォンは、第1音道の他端部に設置され、第2マイクロフォンは、第2音道の他端部に設置されている。判定部は、音圧の相違に基づいて、音源が存在する方向を判定する。音圧の相違は、第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、第2マイクロフォンで取得された音の第1周波数成分の音圧である第2音圧との相違である。 The microphone installation portion of the present embodiment is provided with a first sound path and a second sound path inside. The first sound path is provided with a first opening opened on the first flat surface at one end, and sound propagates from the first opening. The second sound path is provided at one end with a second opening opened in the second flat surface intersecting with the first flat surface, and a second sound path through which sound propagates from the second opening is provided inside. .. The first microphone is installed at the other end of the first sound path, and the second microphone is installed at the other end of the second sound path. The determination unit determines the direction in which the sound source exists based on the difference in sound pressure. The difference in sound pressure is the first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. It is a difference from sound pressure.
本実施形態では、上記構成により、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。 In the present embodiment, the above configuration makes it possible to improve the accuracy of sound source direction determination using an omnidirectional microphone.
また、本実施形態では、第1平坦面と第2平坦面とは直交し、第1平坦面の面積は所定値以下であり、第2平坦面の面積は所定値より大きい。第1音道は、第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、第2音道は、第2開口部に音を回折する第3回折部を有する。 Further, in the present embodiment, the first flat surface and the second flat surface are orthogonal to each other, the area of the first flat surface is equal to or less than a predetermined value, and the area of the second flat surface is larger than the predetermined value. The first sound path has a first diffracting portion that diffracts sound in the first opening, and has a second diffracting portion that is a bending portion that diffracts sound in the middle, and the second sound path has a second diffracting portion. The second opening has a third diffracting part that diffracts sound.
本実施形態では、上記構成により、音道の開口部を備える平坦面の面積が音を十分に反射することが可能な所定値以下である場合でも、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。 In the present embodiment, according to the above configuration, even when the area of the flat surface provided with the opening of the sound path is equal to or less than a predetermined value capable of sufficiently reflecting the sound, the sound source direction determination using the omnidirectional microphone is performed. It is possible to improve the accuracy.
なお、本実施形態では、筐体の上面の面積が所定値以下であり、筐体の前面の面積が所定値より大きい場合について例示したが、上面の面積が所定値より大きく、前面の面積が所定値以下であってもよい。この場合、上面に開口部を有する第1音道が屈曲部である回折部を有さず、前面に開口部を有する第2音道が屈曲部である回折部を有する。 In this embodiment, the case where the area of the upper surface of the housing is equal to or less than the predetermined value and the area of the front surface of the housing is larger than the predetermined value is illustrated, but the area of the upper surface is larger than the predetermined value and the area of the front surface is large. It may be less than or equal to a predetermined value. In this case, the first sound path having an opening on the upper surface does not have a diffraction portion which is a bending portion, and the second sound path having an opening on the front surface has a diffraction portion which is a bending portion.
なお、音声翻訳装置14が、音源方向判定装置10の筐体18内に含まれている場合について例示したが、本実施形態はこれに限定されない。例えば、音声翻訳装置14は、音源方向判定装置10の筐体18の外部に存在し、音源方向判定装置10と有線接続または無線接続を介して接続されていてもよい。
Although the case where the
[第2実施形態]
次に、第2実施形態の一例を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。
[Second Embodiment]
Next, an example of the second embodiment will be described. The description of the same configuration and operation as in the first embodiment will be omitted.
図12に、図2Aの切断線3-3に沿った断面図を例示する。第2実施形態では、第1実施形態と同様に、音源方向判定装置10Aの筐体18Aの上面の面積は所定値以下であり、音源方向判定装置10Aの筐体18Aの前面の面積は所定値より大きい。
FIG. 12 illustrates a cross-sectional view taken along the cutting line 3-3 of FIG. 2A. In the second embodiment, as in the first embodiment, the area of the upper surface of the
第2実施形態では、第1音道11ARは、開口部11AOに音を回折する第1回折部の一例である回折部を有し、かつ、途中に、音を回折する屈曲部11AKである第2回折部の一例である回折部を有する。また、第2音道12ARは、第2開口部12AOに音を回折する第3回折部の一例である回折部を有し、途中に、音を回折する屈曲部12AKである第4回折部の一例である回折部を有する。 In the second embodiment, the first sound path 11AR has a diffracting portion which is an example of the first diffracting portion for diffracting the sound in the opening 11AO, and is a bending portion 11AK for diffracting the sound in the middle. It has a diffractive part which is an example of two diffractive parts. Further, the second sound path 12AR has a diffracting portion which is an example of a third diffracting portion that diffracts the sound in the second opening 12AO, and a bending portion 12AK that diffracts the sound in the middle of the fourth diffracting portion. It has a diffractive part, which is an example.
音源方向判定装置10Aの筐体18Aの前面は、第1実施形態と同様に所定値より大きい面積を有するが、第1実施形態と異なり、第2音道12ARは、途中に、回折部である屈曲部12AKを有している。
The front surface of the
本実施形態では、上記構成により、回折による所定の周波数成分(例えば、高域成分)の減音を利用して、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。 In the present embodiment, the above configuration makes it possible to improve the accuracy of sound source direction determination using an omnidirectional microphone by utilizing the sound reduction of a predetermined frequency component (for example, a high frequency component) by diffraction. ..
[第3実施形態]
次に、第3実施形態の一例を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
[Third Embodiment]
Next, an example of the third embodiment will be described. The description of the same configuration and operation as those of the first embodiment and the second embodiment will be omitted.
図13A~図13Cに、第3実施形態の音源方向判定装置10Cの外観を例示する。図13Aは、第1平坦面の一例である筐体18Cの右側面、図13Bは、第2平坦面の一例である筐体18Cの前面、図13Cは、音源方向判定装置10Cを筐体18Cの前面と右側面とをつなぐ辺を正面から見た図である。図中矢印Rは、音源方向判定装置10Cを正面から見た際の右手側を示す。
13A to 13C illustrate the appearance of the sound source
図14に、図13Aの切断線14-14に沿った断面図を例示する。第3実施形態では、第1音道11CRは、筐体18Cの右側面に開口した第1開口部11COを一端部に備え、第2音道12CRは、筐体18Cの前面に開口した第2開口部12COを一端部に備えている。第1マイク11Cが第1音道11CRの他端部に設置され、第2マイク12Cが第2音道12CRの他端部に設置されている。
FIG. 14 illustrates a cross-sectional view taken along the cutting line 14-14 of FIG. 13A. In the third embodiment, the first sound path 11CR is provided with a first opening 11CO opened on the right side surface of the
第1実施形態及び第2実施形態と異なり、第1音道11CR及び第2音道12CRは、双方共、途中に、回折部である屈曲部を有していない。第3実施形態では、筐体18Cの前面及び右側面の双方が、音を十分に反射することが可能な所定値より大きい面積を有するためである。第3実施形態では、第1音道11CRは、第1開口部11COに音を回折する第1回折部の一例である回折部を有し、第2音道12CRは、第2開口部12COに音を回折する第2回折部の一例である回折部を有する、
Unlike the first embodiment and the second embodiment, neither the first sound path 11CR nor the second sound path 12CR has a bending portion which is a diffractive portion in the middle. This is because, in the third embodiment, both the front surface and the right side surface of the
本実施形態では、上記構成により、筐体の平坦面で反射した音を利用して、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。 In the present embodiment, the above configuration makes it possible to improve the accuracy of sound source direction determination using an omnidirectional microphone by utilizing the sound reflected on the flat surface of the housing.
なお、第1~第3実施形態において、音源方向判定装置は、第1平坦面及び第2平坦面の少なくとも一方と交差する第3平坦面をさらに有していてもよい。また、第3平坦面に開口した第3開口部を一端部に備え、第3開口部から音が伝搬する第3音道が筐体の内部に設けられ、無指向性の第3マイクが第3音道の他端部に設置されていてもよい。 In the first to third embodiments, the sound source direction determination device may further have a third flat surface that intersects at least one of the first flat surface and the second flat surface. Further, a third opening opened on the third flat surface is provided at one end, a third sound path through which sound propagates from the third opening is provided inside the housing, and an omnidirectional third microphone is provided. It may be installed at the other end of the three sound paths.
第3音道は、第3平坦面の面積が所定値以下である場合、途中に、屈曲部である回折部を有し、第3平坦面の面積が所定値より大きい場合、途中に、屈曲部である回折部を有していてもよいし、有していなくてもよい。この場合、第3平坦面と交差する平坦面に開口部を有する音道の他端部に設置されたマイクで取得された音の所定の周波数成分の音圧と、第3マイクで取得された音の所定の周波数成分の音圧との相違に基づいて、音源が存在する方向を判定する。 The third sound path has a diffraction portion which is a bending portion in the middle when the area of the third flat surface is equal to or less than a predetermined value, and bends in the middle when the area of the third flat surface is larger than the predetermined value. It may or may not have a diffractive part which is a part. In this case, the sound pressure of a predetermined frequency component of the sound acquired by the microphone installed at the other end of the sound path having an opening in the flat surface intersecting the third flat surface and the sound pressure acquired by the third microphone. The direction in which the sound source exists is determined based on the difference from the sound pressure of a predetermined frequency component of the sound.
なお、本実施形態では、音源方向が判定された音信号は、音源方向によって、音声翻訳装置14で、第1言語から第2言語または第2言語から第1言語に翻訳される例について説明したが、本実施形態はこれに限定されない。音声翻訳装置14は、例えば、第1翻訳部14Aまたは第2翻訳部14Bの何れか一方だけを含んでいてもよい。
In this embodiment, an example is described in which the sound signal whose sound source direction is determined is translated from the first language to the second language or from the second language to the first language by the
また、情報処理端末1は、音声翻訳装置14に代えて、会議支援装置を含んでいてもよい。会議支援装置は、例えば、判定された音源方向及び音信号に基づいて、カメラ、マイク、及び、ディスプレイなどの切り替えを行う。また、情報処理端末1は、音声翻訳装置14に代えて、ドライブ支援装置を含んでいてもよい。ドライブ支援装置は、判定された音源方向が運転手席側であれば、例えば、音信号に基づいて運転支援を行い、判定された音源方向が助手席側であれば、例えば、音信号に基づいて音楽または動画の再生などの娯楽を提供する。
Further, the
音源方向判定装置を含む情報処理端末は、音源方向判定のための専用端末であってもよいが、既存の端末に、音源方向判定装置がハードウェア及びソフトウェアによって組み込まれていてもよい。既存の端末は、例えば、スマートフォン、タブレット、ウェアラブルデバイス、または、ナビゲーションシステムなどである。また、当該既存の端末に、音源方向判定装置のハードウェアまたはソフトウェアの少なくとも一部分が組み込まれ、音源方向判定装置は、外部装置として当該既存の端末と接続されていてもよい。 The information processing terminal including the sound source direction determination device may be a dedicated terminal for determining the sound source direction, but the sound source direction determination device may be incorporated in an existing terminal by hardware and software. Existing terminals are, for example, smartphones, tablets, wearable devices, or navigation systems. Further, at least a part of the hardware or software of the sound source direction determination device may be incorporated in the existing terminal, and the sound source direction determination device may be connected to the existing terminal as an external device.
なお、図11におけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。 The order of processing in the flowchart in FIG. 11 is an example, and the present embodiment is not limited to the order of processing.
[第4実施形態]
次に、第4実施形態の一例を説明する。第1~第3実施形態と同様の構成及び作用については、説明を省略する。
[Fourth Embodiment]
Next, an example of the fourth embodiment will be described. The description of the same configuration and operation as those of the first to third embodiments will be omitted.
第4実施形態では、音源方向判定装置10Dは、図1の音源方向判定装置10の判定部13に代えて、判定部13’を含む。図15を使用して、第4実施形態の判定部13’で行われる音源方向判定処理の概要を例示する。
In the fourth embodiment, the sound source
図15の判定部13’は、位相差算出部13C’をさらに含む点で、図8の判定部13と異なる。即ち、第4実施形態では、高域音圧差に加えて、正規化位相差を使用する点で、第4実施形態は、第1実施形態と異なる。
The determination unit 13'of FIG. 15 is different from the
図16Aに例示するように、上方からの音US1が第1マイク11Dに到達するまでの距離は、上方からの音US2が第2マイク12Dに到達するまでの距離よりも短い。参考のために記載した基準線RL1から第1マイク11Dに、音US1が到達するまでの矢印USD1と、基準線RL1から第2マイク12Dに、音US2が到達するまでの矢印USD2と、を比較すると明らかである。
As illustrated in FIG. 16A, the distance until the sound US1 from above reaches the
即ち、上方からの音が第1マイク11Dに到達するまでの時間と、上方からの音がマイク12Dに到達するまでの時間と、は異なる。したがって、上方からの音が第1マイク11Dに到達する際の位相と、上方からの音が第2マイク12Dに到達する際の位相と、は異なる。
That is, the time until the sound from above reaches the
また、図16Bに例示するように、前方からの音FS1が第1マイク11Dに到達するまでの距離は、前方からの音FS2が第2マイク12Dに到達するまでの距離よりも長い。参考のために記載した基準線RL2から第1マイク11Dに、音FS1が到達するまでの矢印FSD1から明らかである。
Further, as illustrated in FIG. 16B, the distance until the sound FS1 from the front reaches the
即ち、前方からの音が第1マイク11Dに到達するまでの時間と、前方からの音がマイク12Dに到達するまでの時間と、は異なる。したがって、前方からの音が第1マイク11Dに到達する際の位相と、前方からの音が第2マイク12Dに到達する際の位相と、は異なる。第4実施形態では、当該位相差を使用して音源方向を判定する。
That is, the time until the sound from the front reaches the
図15の位相差算出部13C’は、第1マイク11Dで取得された音の位相である第1位相と、第2マイク12Dで取得された音の位相である第2位相との相違を算出する。詳細には、位相差算出部13C’は、位相の相違の一例である正規化位相差a_phaseを(7)式で算出する。
正規化位相差a_phaseは、j番目の周波数帯域の位相差phase[j]を正規化係数C_n[j]で正規化した値の平均値である。j=ss,…,eeであり、ssは正規化位相差算出の下限周波数帯域数であり、eeは正規化位相差算出の上限周波数帯域数であり、ss及びeeは、上記したbinに含まれる数値(bin=0,…,ss,…,ee,…,F-1)である。 The normalized phase difference a_phase is the average value of the values obtained by normalizing the phase difference phase [j] of the jth frequency band with the normalization coefficient C_n [j]. j = ss, ..., ee, ss is the lower limit frequency band number for normalization phase difference calculation, ee is the upper limit frequency band number for normalization phase difference calculation, and ss and ee are included in the above bin. It is a numerical value (bin = 0, ..., ss, ..., ee, ..., F-1).
位相差phase[j]は、(8)式で算出される。
phase[j]=atan(phase_im[j]/phase_re[j]) …(8)
phase_re[j]=re1[j]*re2[j]+im1[j]*im2[j]であり、phase_im[j]=im1[j]*re2[j]-re1[j]*im2[j]であり、atanはアークタンジェントを表す。
The phase difference phase [j] is calculated by Eq. (8).
phase [j] = atan (phase_ im [j] / phase_ re [j])… (8)
phase_re [j] = re1 [j] * re2 [j] + im1 [j] * im 2 [j], phase_im [j] = im1 [j] * re2 [j]-re1 [j] * im2 [ j], where atan stands for arctangent.
また、正規化係数C_n[j]は、(9)式で算出される。
C_n[j]=λ[j]/λ_c …(9)
λ[j]=C/f_jであり、λ[j]は周波数帯域数jに対応する波長であり、Cは音速であり、f_jは周波数帯域数jに対応する周波数であり、λ_cは基準周波数の音の波長である。基準周波数は、例えば、サンプリング周波数が16[kHz]である場合、上限周波数である8[kHz]であってよい。
The normalization coefficient C_n [j] is calculated by Eq. (9).
C_n [j] = λ [j] / λ_c… (9)
λ [j] = C / f_j, λ [j] is the wavelength corresponding to the number of frequency bands j, C is the sound velocity, f_j is the frequency corresponding to the number of frequency bands j, and λ_c is the reference frequency. The wavelength of the sound. The reference frequency may be, for example, 8 [kHz], which is the upper limit frequency, when the sampling frequency is 16 [kHz].
正規化位相差算出の上限周波数帯域数eeに対応する周波数は、例えば、C/2Lであってよい。Lは、第1マイク11と第2マイク12との間の距離である。正規化位相差算出の下限周波数帯域数ssに対応する周波数は、例えば、100Hzであってよい。
The frequency corresponding to the upper limit frequency band number ee for normalization phase difference calculation may be, for example, C / 2L. L is the distance between the
なお、正規化位相差算出の上限周波数帯域数ee及び下限周波数帯域数ssは雑音の影響が大きくならず、位相変化の適切な検出が可能な程度に設定してもよい。音は、周波数が高くなるとパワーが小さくなるため、周波数が高くなると信号対雑音比が低下し、雑音の影響が大きくなる。また、雑音の影響が大きくならないよう、低い周波数に設定すると、低い周波数の音は波長が長いため、高い周波数の音より位相変化が遅く、短時間での位相変化の適切な検出が困難となる。 The upper limit frequency band number ee and the lower limit frequency band number ss for normalized phase difference calculation may be set to such an extent that the influence of noise does not increase and appropriate detection of the phase change is possible. Since the power of sound decreases as the frequency increases, the signal-to-noise ratio decreases as the frequency increases, and the influence of noise increases. In addition, if the frequency is set to a low frequency so that the influence of noise does not become large, the phase change of the low frequency sound is slower than that of the high frequency sound, and it becomes difficult to properly detect the phase change in a short time. ..
上記(7)式で算出される正規化位相差a_phaseは、音源が上方に存在する場合、即ち、第1マイク11Dが第2マイク12Dよりも音源に近い場合正の値となる。一方、音源が前方に存在する場合、即ち、第1マイク11Dが第2マイク12Dよりも音源から遠い場合負の値となる。なお、正規化位相差の符号は、第1マイク11D及び第2マイク12Dの何れを基準とするかにより異なる。また、正規化位相差を求める手法は、上記(7)式に限定されない。
The normalized phase difference a_phase calculated by the above equation (7) becomes a positive value when the sound source is located above, that is, when the
次に、音源方向判定装置10Dの作用の概略について説明する。音源方向判定装置10Dの作用の概略を図17Aに例示する。図11と図17Aとの差異は、図11のステップ103、104及び106が、図17Aでは、ステップ103、103B、104、104B、及び106と置き替えられている点である。
Next, the outline of the operation of the sound source
即ち、図17Aでは、CPU51は、ステップ103で、上記したように高域音圧差を算出し、ステップ103Bで、(7)式を使用して、正規化位相差a_phaseを算出する。CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、ステップ104Bで、正規化位相差が正の第3の閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
That is, in FIG. 17A, the
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、または、ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が前方に存在すると判定し、CPU51は、ステップ107に進む。
When the determination in
ステップ106の判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定して、CPU51は、ステップ108に進む。正の第3閾値は、例えば、3.0[rad]であってよい。
If the determination in
なお、本実施形態は、図17Aのステップ104、104B、及び106で、音源方向を判定することに限定されない。図17B~図17Fに例示するように、高域音圧差の判定と正規化位相差の判定とを組み合わせることで、音源方向を判定してもよいし、図17Gに例示するように、正規化位相差の判定で、音源方向を判定してもよい。
Note that this embodiment is not limited to determining the sound source direction in
図11と図17Bとの差異は、図11のステップ103、104及び106が、図17Bでは、ステップ103、103B、104、104B、106、及び106Bと置き替えられている点である。
The difference between FIGS. 11 and 17B is that
即ち、図17Bでは、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、ステップ104Bで、正規化位相差が正の第3の閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
That is, in FIG. 17B, the
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、または、ステップ104Bの判定が否定された場合、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106またはステップ106Bの判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、または、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
If the determination in
図11と図17Cとの差異は、図11のステップ103、104及び106が、図17Cでは、ステップ103、103B、104、106、及び106Bと置き替えられている点である。
The difference between FIGS. 11 and 17C is that
即ち、図17Cでは、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定し、ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、ステップ105に進む。
That is, in FIG. 17C, the
ステップ104の判定が否定された場合、即ち、高域音圧差が正の第1閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106またはステップ106Bの判定が否定された場合、即ち、高域音圧差が負の第2閾値以上である場合、または、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
If the determination in
図11と図17Dとの差異は、図11のステップ103、104及び106が、図17Dでは、ステップ103、103B、104B、104、及び106Bと置き替えられている点である。
The difference between FIGS. 11 and 17D is that
即ち、図17Dでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定する。ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、CPU51はステップ105に進む。
That is, in FIG. 17D, the
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、または、ステップ104の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が正の第1閾値以下である場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106Bの判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。
If the determination in
図11と図17Eとの差異は、図11のステップ103、104及び106が、図17Eでは、ステップ103、103B、104B、104、106B、及び106と置き替えられている点である。
The difference between FIGS. 11 and 17E is that
即ち、図17Eでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、CPU51は、ステップ104で、高域音圧差が正の第1閾値より大きいか否か判定する。ステップ104の判定が肯定された場合、音源が上方に存在すると判定し、CPU51はステップ105に進む。
That is, in FIG. 17E, the
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、または、ステップ104の判定が否定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、または、高域音圧差が正の第1閾値以下である場合、CPU51は、ステップ106に進む。CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、即ち、高域音圧差が負の第2閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106Bの判定が否定された場合、または、ステップ106の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定する。音源方向の判定は不可であると判定すると、CPU51はステップ108に進む。
When the determination in
図11と図17Fとの差異は、図11のステップ103、104及び106が、図17Fでは、ステップ103、103B、104B、106B、及び106と置き替えられている点である。
The difference between FIGS. 11 and 17F is that
即ち、図17Fでは、CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、音源が上方に存在すると判定し、ステップ105に進む。
That is, in FIG. 17F, the
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、CPU51は、ステップ106で、高域音圧差が負の第2閾値より小さいか否か判定する。ステップ106の判定が肯定された場合、即ち、高域音圧差が負の第2閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106Bの判定が否定された場合、または、ステップ106の判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、または、高域音圧差が負の第2閾値以上である場合、音源方向の判定は不可であると判定する。音源方向の判定は不可であると判定した場合、CPU51は、ステップ108に進む。
When the determination in
図11と図17Gとの差異は、図11のステップ103、104及び106が、図17Gでは、ステップ103B、104B、及び106Bと置き替えられている点である。
The difference between FIGS. 11 and 17G is that
即ち、図21Gでは、CPU51は、ステップ103Bで、正規化位相差を算出する。CPU51は、ステップ104Bで、正規化位相差が正の第3閾値より大きいか否か判定する。ステップ104Bの判定が肯定された場合、即ち、正規化位相差が正の第3閾値より大きい場合、音源が上方に存在すると判定し、ステップ105に進む。
That is, in FIG. 21G, the
ステップ104Bの判定が否定された場合、即ち、正規化位相差が正の第3閾値以下である場合、音源が上方に存在しないと判定し、CPU51は、ステップ106Bで、正規化位相差が負の第4閾値より小さいか否か判定する。ステップ106Bの判定が肯定された場合、即ち、正規化位相差が負の第4閾値より小さい場合、音源が前方に存在すると判定し、ステップ107に進む。
When the determination in
ステップ106Bの判定が否定された場合、即ち、正規化位相差が負の第4閾値以上である場合、音源方向の判定は不可であると判定して、ステップ108に進む。なお、図17A~図17Gにおけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。
If the determination in
なお、第4実施形態では、第1音道11DRが屈曲部11DKを有することで、第1マイク11Dと第2マイク12Dとの間の距離を、音道が屈曲部を有していない場合よりも長くすることができる。これにより、所定の周波数の音の波長に対する音の移動距離の差を長くすることができ、位相差の変動の検出が容易になる。
In the fourth embodiment, since the first sound path 11DR has the bent portion 11DK, the distance between the
なお、第1音道11DRが屈曲部11DKを有する例を図16A及び図16Bに示したが、本実施形態はこれに限定されない。本実施形態は、第2実施形態のように、2つの音道の各々が何れも屈曲部を有する場合、第3実施形態のように、2つの音道の各々が何れも屈曲部を含まない場合でも適用可能である。 Although examples of the first sound path 11DR having the bent portion 11DK are shown in FIGS. 16A and 16B, the present embodiment is not limited to this. In this embodiment, when each of the two sound paths has a bending portion as in the second embodiment, neither of the two sound paths includes a bending portion as in the third embodiment. It is applicable even in the case.
本実施形態の音源方向判定装置は、マイク設置部と、第1マイクロフォンと、第2マイクロフォンと、を含む。マイク設置部は、第1平坦面に開口した第1開口部を一端部に備え、第1開口部から音が伝搬する第1音道、及び、第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、第2開口部から音が伝搬する第2音道が内部に設けられている。第1マイクロフォンは第1音道の他端部に設置された無指向性のマイクロフォンであり、第2マイクロフォンは第2音道の他端部に設置された無指向性のマイクロフォンである。 The sound source direction determination device of the present embodiment includes a microphone installation unit, a first microphone, and a second microphone. The microphone installation portion is provided with a first opening opened on the first flat surface at one end, and is provided on a first sound path through which sound propagates from the first opening and on a second flat surface intersecting the first flat surface. A second opening is provided at one end, and a second sound path through which sound propagates from the second opening is provided inside. The first microphone is an omnidirectional microphone installed at the other end of the first sound path, and the second microphone is an omnidirectional microphone installed at the other end of the second sound path.
本実施形態の音源方向判定装置の判定部は、第1音圧と第2音圧との音圧の相違、及び、第1位相と第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する。第1音圧は、第1マイクロフォンで取得された音の第1周波数成分の音圧であり、第2音圧は、第2マイクロフォンで取得された音の第1周波数成分の音圧である。第1位相は、第1マイクロフォンで取得された音の第2周波数成分の位相であり、第2位相は、第2マイクロフォンで取得された音の第2周波数成分の位相である。 The determination unit of the sound source direction determination device of the present embodiment is based on at least one of the difference in sound pressure between the first sound pressure and the second sound pressure and the difference in phase between the first phase and the second phase. Determine the direction in which the sound source exists. The first sound pressure is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure is the sound pressure of the first frequency component of the sound acquired by the second microphone. The first phase is the phase of the second frequency component of the sound acquired by the first microphone, and the second phase is the phase of the second frequency component of the sound acquired by the second microphone.
本実施形態では、これにより、音圧の相違だけで音源方向の判定が困難な場合であっても、音源方向の判定を適切に判定することが可能となる。 In the present embodiment, this makes it possible to appropriately determine the sound source direction even when it is difficult to determine the sound source direction only due to the difference in sound pressure.
(第4実施形態の説明)
図22Aに、音源方向判定装置10Dの背面に空隙が存在する場合、即ち、例えば、音源方向判定装置10Dを装着したユーザの衣服などの物体BOと音源方向判定装置10Dの背面との間に空隙が存在する場合を例示する。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より小さい。第1マイク11Dの音圧は回折により減衰しており、また、第1開口11DOで回折しない音は、空隙の入り口で回折し空隙を通るため、第1マイク11Dには到達しないからである。
(Explanation of Fourth Embodiment)
In FIG. 22A, there is a gap on the back surface of the sound source
図22Bに、音源方向判定装置10Dの背面に空隙が存在しない場合、即ち、例えば、音源方向判定装置10Dを装着したユーザの衣服などの物体BOと音源方向判定装置10Dの背面との間に空隙が存在しない場合を例示する。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より大きい。音源が前方に存在する場合、第1マイク11Dが取得する音の音圧は第2マイク12Dが取得する音の音圧より小さい場合であっても、音源方向を判定するのが困難な程度に、第1マイク11Dが取得する音の音圧と第2マイク12Dが取得する音の音圧とが近い。図22Aでは空隙を通る音が、図22Bでは、第1開口11DOで回折し、第1マイク11Dに到達するためである。
In FIG. 22B, there is no gap on the back surface of the sound source
図23Aに、第1マイク11Dと第2マイク12Dとの高域音圧差を例示する。左から1番目のブロックUGNは、音源が上方に存在し、空隙が存在しない場合の第1音圧差を示す。左から2番目のブロックUGは、音源が上方に存在し、空隙が存在する場合の第2音圧差を示す。空隙を通る音が存在するため、第2音圧差は第1音圧差よりも小さい。
FIG. 23A illustrates the high frequency sound pressure difference between the
左から4番目のブロックFGは、音源が前方に存在し、空隙が存在する場合の第4音圧差を示す。第2マイク12Dが取得する音の音圧は第1マイク11Dが取得する音の音圧よりも大きくなるため、第4音圧差は負の値となる。
The fourth block FG from the left shows the fourth sound pressure difference when the sound source is in front and the gap is present. Since the sound pressure of the sound acquired by the
一方、左から3番目のブロックFGNは、音源が前方に存在し、空隙が存在しない場合の第3音圧差を示す。空隙が存在しないため、空隙が存在する場合には空隙を通る音も第1マイク11Dに到達するため、第1マイク11Dが取得する音の音圧が第2マイク12Dが取得する音の音圧よりも大きくなり、正の値となる。第1マイク11Dが取得する音の音圧が第2マイク12Dが取得する音の音圧よりも小さい場合であっても、第1マイクが取得する音の音圧と第2マイクが取得する音の音圧とが近く、音源方向を判定するのが困難な程度に、音圧差は小さくなる。第1音圧差は、例えば、4.8[dB]であり、第2音圧差は、例えば、1.8[dB]であり、第3音圧差は、例えば、1.2[dB]であり、第4音圧差は、例えば、-0.9[dB]である。
On the other hand, the third block FGN from the left shows the third sound pressure difference when the sound source exists in front and the void does not exist. Since there is no gap, the sound passing through the gap also reaches the
したがって、音源方向判定装置10Dの背面に空隙が存在しないと、高域音圧差で音源方向を判定することが困難な場合がある。即ち、音源方向を判定する適切な閾値の設定が困難な場合がある。例えば、音源が上方に存在するか否か判定する正の第1閾値の値を大きく設定すると、ブロックUGで表される音源が上方に存在する場合の高域音圧差を音源が前方に存在する高域音圧差であると判断する虞が生じる。一方、正の第1閾値の値を小さく設定すると、ブロックFGNで表される音源が前方に存在する場合の高域音圧差を音源が上方に存在する高域音圧差であると判定する虞が生じる。
Therefore, if there is no gap on the back surface of the sound source
図23Bに、第1マイク11Dが取得する音の位相と第2マイク12Dが取得する音の位相との正規化位相差を例示する。左から1番目のブロックUGは、音源が上方に存在し、空隙が存在しない場合の第1位相差を示す。左から2番目のブロックUGNは、音源が上方に存在し、空隙が存在する場合の第2位相差を示す。
FIG. 23B illustrates a normalized phase difference between the phase of the sound acquired by the
左から3番目のブロックFGは、音源が前方に存在し、空隙が存在する場合の第3位相差を示す。左から4番目のブロックFGNは、音源が前方に存在し、空隙が存在しない場合の位相差を示す。即ち、音源方向判定装置10の背面の空隙の有無に拘わらず、音源が上方に存在する場合、位相差は正の値を示す。また、音源が前方に存在する場合、位相差は負の値を示す。第1位相差は、例えば、6.1[rad]であり、第2位相差は、例えば、6.0[rad]であり、第3位相差は、例えば、-2.5[rad]であり、第4位相差は、例えば、-1.4[rad]である。したがって、音源方向判定装置10の背面に空隙が存在するか否かに拘わらず、音源方向を判定する適切な閾値の設定が比較的容易となる。
The third block FG from the left shows the third phase difference when the sound source is in front and the void is present. The fourth block FGN from the left shows the phase difference when the sound source exists in front and the void does not exist. That is, when the sound source is present above, regardless of the presence or absence of a gap on the back surface of the sound source
音源が音源方向判定装置10Dの上方に存在する場合、第2マイク12Dに到達するより前に第1マイク11Dに音が到達する。また、音源が音源方向判定装置10Dの前方に存在する場合、第1マイク11Dに到達するより前に第2マイク12Dに音が到達する。したがって、音源方向の判定に位相差を使用することができる。また、位相差は絶対音圧の影響をあまり受けないため、音源判定装置10Dの背面の空隙の有無によって絶対音圧が変動しても、適切な位相差を取得することが可能である。
When the sound source is above the sound source
[第5実施形態]
次に、第5実施形態の一例を説明する。第1~第4実施形態と同様の構成及び作用については、説明を省略する。第5実施形態では、音源方向判定の閾値を、ユーザ及び対話相手の発話した音に対応する音信号に基づいて調整する。
[Fifth Embodiment]
Next, an example of the fifth embodiment will be described. The description of the same configuration and operation as those of the first to fourth embodiments will be omitted. In the fifth embodiment, the threshold value for determining the direction of the sound source is adjusted based on the sound signal corresponding to the sound spoken by the user and the dialogue partner.
図24は、図1の音源方向判定装置10の判定部13に代えて、判定部13”で行われる第5実施形態の音源方向判定処理の概要を例示する。時間周波数変換部85A1は、第1マイク11で取得された音に対応する音信号を時間周波数変換し、時間周波数変換部85A2は、第2マイク12で取得された音に対応する音信号を時間周波数変換する。
FIG. 24 illustrates an outline of the sound source direction determination process of the fifth embodiment performed by the
発話区間検出部85B1は、第1マイク11で取得された音に対応する音信号の発話区間を検出し、発話区間検出部85B2は、第2マイク12で取得された音に対応する音信号の発話区間を検出する。発話区間の検出には、既存の手法を適用することができる。
The utterance section detection unit 85B1 detects the utterance section of the sound signal corresponding to the sound acquired by the
位相算出部85C1は、検出された発話区間の音信号を使用して、第1マイク11で取得された音に対応する音信号の位相を算出する。位相算出部85C2は、検出された発話区間の音信号を使用して、第2マイク12で取得された音に対応する音信号の位相を算出する。平均位相差算出部85Dは、算出された位相を使用して位相差を算出し、発話区間の位相差の平均値である位相差平均値を算出する。
The phase calculation unit 85C1 calculates the phase of the sound signal corresponding to the sound acquired by the
過去発話位相差記憶部85Eは、算出した位相差平均値を、将来の過去発話位相差として使用するために記憶する。位相差比較部85Fは、位相差平均値と、以前に記憶した過去発話位相差と、を比較する。
The past utterance phase
位相差平均値と、過去発話位相差と、に第3所定値の一例である所定値を超える差がある場合、閾値調整部85Gは音源方向を判定する閾値を調整する。差は、位相差平均値から過去発話位相差を減算した値の絶対値である。
When there is a difference between the phase difference average value and the past utterance phase difference exceeding a predetermined value which is an example of the third predetermined value, the threshold
例えば、音源方向判定装置10の筐体18の前面を、垂直方向に対して複数の異なる角度で傾斜させ、ユーザの音声の位相差平均値と、対話相手の音声の位相差平均値と、の差を各々の角度で取得する。取得した複数個の差の絶対値の内、最小値を第3所定値として使用することができる。第3所定値は、例えば、4.1[rad]であってよい。第3所定値を超える過去発話位相差が存在しない場合、閾値を調整しない。
For example, the front surface of the
所定値を超える差がある過去発話位相差が複数存在する場合、直近の過去発話位相差を使用して、閾値調整部85Gは、音源方向を判定する閾値を調整する。詳細には、例えば、現在の発話区間の位相差平均値と、過去発話位相差と、の平均値(即ち、中間の値)を音源方向判定の閾値に設定する。音源方向判定部85Hは、調整した閾値を使用して音源方向を判定し、判定結果を出力する。
When there are a plurality of past utterance phase differences having a difference exceeding a predetermined value, the threshold
図25を使用して、音源方向を判定する閾値の調整について説明する。図25の縦軸は、位相差[rad]を表し、横軸は時間、即ち、フレーム番号を表す。破線86Pは、フレーム毎の、第1マイク11で取得した音に対応する音信号と、第2マイク12で取得した音に対応する音信号と、の位相差を表す。
FIG. 25 will be used to describe the adjustment of the threshold value for determining the sound source direction. The vertical axis of FIG. 25 represents the phase difference [rad], and the horizontal axis represents time, that is, the frame number. The
上記したように、以前の発話区間である発話区間86H1の位相差平均値が、例えば、二次記憶部53のデータ格納領域53Bに、過去発話位相差として記憶されている。現在の発話区間である発話区間86H2の位相差平均値と発話区間86H1に対応する過去発話位相差とには所定値を超える差86Dがある。
As described above, the phase difference average value of the utterance section 86H1 which is the previous utterance section is stored as the past utterance phase difference in the
閾値調整部85Fは、例えば、発話区間86H1に対応する過去発話位相差と、発話区間86H2の位相差平均値との平均値を閾値86Tとして設定する。設定された閾値は、発話区間86H2の音信号の音源方向を判定するために使用される。
The threshold
音源方向判定装置10は、図26Aに例示するように、筐体18の前面が垂直方向に略平行となるようにユーザに装着されることが想定されている。図24Aでは、所定の位相差閾値81Tを境界として、領域81Uの音声の音源方向は上方、即ち、ユーザの発話であると判定され、領域81Fの音声の音源方向は前方、即ち、対話相手の発話であると判定される。
As illustrated in FIG. 26A, the sound source
しかしながら、音源方向判定装置10の装着者であるユーザの体型または、装着方法などにより、音源方向判定装置10が、図26Bに例示するように傾斜する場合がある。例えば、ユーザが女性である場合、胸の傾きの影響により、図26Bに例示するように、音源方向判定装置10の筐体18の前面が斜め上方に向くように、傾斜する。この場合、位相差閾値82Tで例示するように、判定の境界も共に傾斜、即ち、回転する。
However, the sound source
図26Bでは、位相差閾値82Tを境界として、領域82Uの音声の音源方向は上方、即ち、装着者であるユーザの発話であると判定され、領域82Fの音声の音源方向は前方、即ち、対話相手の発話であると判定される。したがって、矢印82Vで例示されるユーザの発話が対話相手の発話であると判断される虞がある。
In FIG. 26B, with the phase
図27Aに、音源方向判定装置10の筐体18の前面が垂直方向に略平行である場合を例示し、図27Bに、筐体18の前面が斜め上方に向くように傾斜している場合を例示する。図27Aに例示する位相差83Dと、図27Bに例示する位相差84Dと、は略等しい。位相差83Dは、対話相手の音声の上面への到達を示す矢印83F1と前面への到達を示す矢印83F2との位相差を表す。位相差84Dは、ユーザの音声の上面への到達を示す矢印84U1と前面への到達を示す矢印84U2との位相差を表す。
FIG. 27A illustrates a case where the front surface of the
図28に、図27Aの位相差83Dに対応する位相差91A及び図27Bの位相差84Dに対応する位相差91Bを例示する。位相差閾値91Tでは、位相差91Aと位相差91Bとを区別することは困難であるし、閾値を調整したとしても、位相差91Aと位相差91Bとを区別することは困難である。
FIG. 28 illustrates the
一方、装着者であるユーザの音声と対話相手の音声との位相差には、音源方向判定装置10が傾斜したとしても、同じ傾斜であれば、所定値を超える相違が存在する。したがって、ユーザの発話と対話相手の発話とに基づいて、位相差閾値を調整することで、音源方向判定装置10が傾斜していたとしても、音源方向を適切に判定することができる。
On the other hand, there is a difference in the phase difference between the voice of the user who is the wearer and the voice of the dialogue partner, even if the sound source
図29Aに、音源方向判定装置10の筐体18の前面が垂直方向に略平行である場合のユーザの音声の位相差92Aと、対話相手の音声の位相差92Bと、を例示する。位相差閾値92Tを、位相差92Aと位相差92Bとの平均値に調整することで、位相差92Aと位相差92Bと、を区別することができる。即ち、音源方向を適切に判定することができる。
FIG. 29A illustrates a
図29Bに、音源方向判定装置10の筐体18の前面が斜め上方を向くように傾斜する場合のユーザの音声の位相差93Aと、対話相手の音声の位相差93Bと、を例示する。位相差閾値93Tを、位相差93Aと位相差93Bとの平均値に調整することで、位相差93Aと位相差93Bと、を区別することができる。即ち、音源方向を適切に判定することができる。
FIG. 29B illustrates a
図30Aは、音源判定処理の流れの一例を示す。CPU51は、ステップ201で、変数NPに0を設定する。変数NPは、発話区間の正規化位相差を合計するための変数である。
FIG. 30A shows an example of the flow of the sound source determination process. The
CPU51は、ステップ202で、第1マイク11及び第2マイク12で取得された音に対応する音信号を1フレーム分読み込み、ステップ203で、時間周波数変換する。CPU51は、ステップ204で、発話区間が開始されたか否か判定する。
In
ステップ204の判定が否定された場合、CPU51は、ステップ202に戻る。ステップ204の判定が肯定された場合、CPU51は、ステップ205で、正規化位相差を算出し、ステップ206で、変数NPに正規化位相差を加算する。
If the determination in
CPU51は、ステップ207で、第1マイク11及び第2マイク12で取得された音に対応する音信号を1フレーム分読み込み、ステップ208で、時間周波数変換する。CPU51は、ステップ209で、発話区間が終了されたか否か判定する。
In
ステップ209の判定が否定された場合、CPU51は、ステップ205に戻る。ステップ209の判定が肯定された場合、CPU51は、ステップ210で、変数NPの値をステップ207で読み込まれた音信号のフレーム数で割ることで、位相差平均値の一例である平均正規化位相差を算出する。CPU51は、ステップ211で、将来使用するために、算出した平均正規化位相差を過去発話位相差として、例えば、二次記憶部53のデータ格納領域53Bに、記憶する。
If the determination in
CPU51は、ステップ212で、以前の処理で記憶されている過去発話位相差と平均正規化位相差とを比較する。ステップ212の判定が肯定された場合、過去発話位相差と平均正規化位相差とに所定値を超える差がある場合、CPU51は、ステップ213で、閾値を調整し、ステップ214に進む。詳細には、CPU51は、ステップ213で、過去発話位相差と平均正規化位相差との平均値を、第6閾値の一例である閾値として設定することで閾値を調整する。
In
ステップ212の判定が否定された場合、CPU51は、閾値を調整せず、ステップ214に進む。CPU51は、ステップ214で、ステップ207で読み込まれた音信号の音源方向が上方であるか否か判定する。詳細には、平均正規化位相差が閾値を超えるか否か判定する。
If the determination in
ステップ214の判定が肯定された場合、CPU51は、ステップ215で、ステップ207で読み込まれた音信号を第1言語に翻訳するように設定する。ステップ214の判定が否定された場合、CPU51は、ステップ216で、ステップ207で読み込まれた音信号の音源方向が前方であるか否か判定する。詳細には、平均正規化位相差が閾値以下であるか否か判定する。
If the determination in
ステップ216の判定が肯定された場合、CPU51は、ステップ217で、ステップ207で読み込まれた音信号を第2言語に翻訳するように設定する。CPU51は、ステップ218で、ユーザが、例えば、所定のボタンを押下するなど、音源方向判定処理を終了するように指示する操作が行われたか否かを判定する。
If the determination in
ステップ218の判定が否定された場合、CPU51は、ステップ201に戻り、ステップ218の判定が肯定された場合、CPU51は、音源方向判定処理を終了する。
If the determination in
図30Bは、音源方向判定処理の流れの一例を示す。図30Bの音源方向判定処理は、ユーザの音声と対話相手の音声との音圧差に基づいて、閾値を調整する。 FIG. 30B shows an example of the flow of the sound source direction determination process. The sound source direction determination process of FIG. 30B adjusts the threshold value based on the sound pressure difference between the voice of the user and the voice of the dialogue partner.
CPU51は、ステップ231で、高域音圧差の合計を算出するための変数HVに0を設定する。ステップ232~ステップ234は、図30Aのステップ202~204と同様である。
In
CPU51は、ステップ235で、高域音圧差を算出し、ステップ236で算出した高域音圧差を変数HVの値に加算する。ステップ237~239は、図30Aのステップ207~209と同様である。
The
CPU51は、ステップ240で、変数HVの値をステップ237で読み込まれた音信号のフレーム数で割ることで、音圧差平均値の一例である平均高域音圧差を算出する。CPU51は、ステップ241で、将来使用するために、算出した平均高域音圧差を過去発話音圧差として、例えば、二次記憶部53のデータ格納領域53Bに、記憶する。
In
CPU51は、以前の処理で記憶されている過去発話音圧差と平均高域音圧差とを比較する。ステップ242の判定が肯定された場合、CPU51は、ステップ243で、過去発話音圧差と平均高域音圧差との平均値を第5閾値の一例である閾値として設定することで閾値を調整し、ステップ244に進む。ステップ242の判定は、過去発話音圧差と平均高域音圧差とに第2所定値の一例である所定値を超える差がある場合、肯定される。
The
例えば、音源方向判定装置10の筐体18の前面を、垂直方向に対して複数の異なる角度で傾斜させ、ユーザの音声の音圧差平均値と、対話相手の音声の音圧差平均値と、の差を各々の角度で取得する。取得した複数個の差の絶対値の内、最小値を第2所定値として使用することができる。第2所定値は、例えば、3.0[dB]であってよい。第2所定値を超える過去発話音圧差が存在しない場合、閾値を調整しない。
For example, the front surface of the
ステップ242の判定が否定された場合、CPU51は、閾値を調整せず、ステップ244に進む。CPU51は、ステップ244で、ステップ237で読み込まれた音信号の音源方向が上方であるか否か判定する。詳細には、平均高域音圧差が閾値を超えるか否か判定する。
If the determination in
ステップ244の判定が肯定された場合、CPU51は、ステップ245で、ステップ237で読み込まれた音信号を第1言語に翻訳するように設定する。ステップ244の判定が否定された場合、CPU51は、ステップ246で、ステップ207で読み込まれた音信号の音源方向が前方であるか否か判定する。詳細には、平均高域音圧差が閾値以下であるか否か判定する。ステップ248は、図30Aのステップ218と同様である。
If the determination in
図30Aは、第4実施形態の図17Gの音源方向判定処理に第5実施形態を適用した例であり、図30Bは、第3実施形態の図11の音源方向判定処理に第5実施形態を適用した例である。しかしながら、第5実施形態は、第4実施形態の図17A~17Fの音源方向判定処理に適用されてもよい。即ち、音圧差を判定する閾値と位相差を判定する閾値との双方を調整するようにしてもよい。 FIG. 30A is an example in which the fifth embodiment is applied to the sound source direction determination process of FIG. 17G of the fourth embodiment, and FIG. 30B shows the fifth embodiment to the sound source direction determination process of FIG. 11 of the third embodiment. This is an applied example. However, the fifth embodiment may be applied to the sound source direction determination process of FIGS. 17A to 17F of the fourth embodiment. That is, both the threshold value for determining the sound pressure difference and the threshold value for determining the phase difference may be adjusted.
なお、位相差平均値との差が所定値を超える過去発話位相差が複数存在する場合、直近の過去発話位相差を使用してもよいし、所定時間内の過去発話位相差のうち差が最大となる過去発話位相差を使用してもよい。また、所定時間内の過去発話位相差の平均値を使用してもよい。 If there are a plurality of past utterance phase differences whose difference from the phase difference average value exceeds a predetermined value, the latest past utterance phase difference may be used, or the difference among the past utterance phase differences within the predetermined time may be used. The maximum past utterance phase difference may be used. Further, the average value of the past utterance phase differences within a predetermined time may be used.
音圧差平均値との差が所定値を超える過去発話音圧差が複数存在する場合、直近の過去発話音圧差を使用してもよいし、所定時間内の過去発話音圧差のうち差が最大となる過去発話音圧差を使用してもよい。また、所定時間内の過去発話音圧差の平均値を使用してもよい。 When there are multiple past utterance sound pressure differences whose difference from the average sound pressure difference exceeds a predetermined value, the latest past utterance sound pressure difference may be used, or the difference among the past utterance sound pressure differences within the predetermined time is the largest. The past utterance sound pressure difference may be used. Further, the average value of the past utterance sound pressure difference within a predetermined time may be used.
なお、発話区間の複数フレームの位相差平均値または音圧差平均値を算出する例について説明したが、発話区間の一部分の複数フレームの位相差平均値及び音圧差平均値を算出するようにしてもよい。また、発話区間が長時間に及ぶ場合、発話区間を複数に分け、複数に分けた部分区間毎に位相差平均値の算出または音圧差平均値の算出を行うようにしてもよい。 Although an example of calculating the phase difference average value or the sound pressure difference average value of a plurality of frames in the utterance section has been described, the phase difference average value and the sound pressure difference average value of a part of the utterance section may be calculated. good. Further, when the utterance section extends for a long time, the utterance section may be divided into a plurality of parts, and the phase difference average value or the sound pressure difference average value may be calculated for each of the plurality of divided subsections.
ユーザと対話相手の対話中に、自然に、音源方向を判定する閾値を調整する例について説明したが、対話の冒頭で、ユーザと対話相手とが交互に所定時間長を超えるフレーズを発話し、当該発話の音声を使用して、閾値を調整するようにしてもよい。フレーズは、例えば、既定の挨拶(例えば、「こんにちは」など)であってよい。 An example of adjusting the threshold value for determining the sound source direction naturally during a dialogue between the user and the dialogue partner has been described, but at the beginning of the dialogue, the user and the dialogue partner alternately utter a phrase exceeding a predetermined time length. The voice of the utterance may be used to adjust the threshold. The phrase may be, for example, a default greeting (eg, "hello").
なお、上記の例では、図30Aのステップ216は、省略可能であるが、例えば、ステップ214で音源方向を判定する閾値とステップ216で音源方向を判定する閾値とが異なる値となるようにしてもよい。詳細には、例えば、ステップ216で使用する閾値をステップ214で使用する閾値よりも所定量低減してもよい。
In the above example, step 216 of FIG. 30A can be omitted, but for example, the threshold value for determining the sound source direction in
これにより、音源方向の判定が困難な、即ち、何れの音源方向からの音声であるとも判定し得る音声を誤判定する虞を低減することができる。図30Bのステップ246についても同様である。また、ステップ214またはステップ244で使用する閾値を所定量増大してもよい。
This makes it possible to reduce the risk of erroneous determination of sound that is difficult to determine in the direction of the sound source, that is, sound that can be determined to be sound from any sound source direction. The same applies to step 246 of FIG. 30B. Further, the threshold value used in
なお、音信号の信号対雑音比を算出し、信号対雑音比が第4所定値の一例である所定値より小さい場合、音源方向を判定する閾値を、第5所定値の一例である所定値分下げるようにしてもよい。信号対雑音比が小さい程、音源方向による位相差及び音圧差の差異が小さくなる傾向があるためである。 When the signal-to-noise ratio of the sound signal is calculated and the signal-to-noise ratio is smaller than the predetermined value which is an example of the fourth predetermined value, the threshold value for determining the sound source direction is set to the predetermined value which is an example of the fifth predetermined value. You may try to lower it by a minute. This is because the smaller the signal-to-noise ratio, the smaller the difference in phase difference and sound pressure difference depending on the sound source direction.
第4所定値は、例えば、定常雑音比であってよいし、第5所定値は、音圧差平均値を区別する閾値の場合、例えば、0.5[dB]であってよいし、位相差平均値を区別する閾値の場合、例えば、0.5[rad]であってよい。定常雑音比は、既存の方法で算出することができる。 The fourth predetermined value may be, for example, a stationary noise ratio, and the fifth predetermined value may be, for example, 0.5 [dB] in the case of a threshold value for distinguishing the average sound pressure difference value, and the phase difference. In the case of the threshold value for distinguishing the average value, it may be, for example, 0.5 [rad]. The steady-state noise ratio can be calculated by existing methods.
なお、図2A及び図2Bに例示する音源方向判定装置10に適用する例について説明したが、本実施形態は、図13A~図13Cに例示する音源方向判定装置10Cに適用されてもよい。本実施形態によれば、ユーザが、筐体18Cの右側面及び前面に対向する位置からずれた位置に存在して発話する場合であっても、音源方向、即ち、発話者を適切に判定することができる。
Although the example applied to the sound source
なお、図30A及び30Bにおけるフローチャートの処理の順序は一例であり、本実施形態は、当該処理の順序に限定されない。 The order of processing of the flowcharts in FIGS. 30A and 30B is an example, and the present embodiment is not limited to the order of the processing.
本実施形態では、ユーザの音声と対話相手の音声とに基づいて、音源方向を判定する閾値を調整することで、音源判定装置が傾斜した場合であっても、音源方向を適切に判定することができる。 In the present embodiment, by adjusting the threshold value for determining the sound source direction based on the voice of the user and the voice of the dialogue partner, the sound source direction can be appropriately determined even when the sound source determination device is tilted. Can be done.
(関連技術)
次に、関連技術について説明する。関連技術では、図18に例示するように、指向性マイク11Xの指向11XOR及び指向性マイク12Xの指向12XORを交差させるように、2つの指向性マイクを配置する。例えば、指向11XORを上方に向け、指向12XORを前方に向ける。
(Related technology)
Next, the related technology will be described. In the related art, as illustrated in FIG. 18, two directional microphones are arranged so as to intersect the directional 11XOR of the
この構成により、指向性マイク11X及び指向性マイク12Xが取得した音の音圧差を使用して、音源の方向を判定することが可能である。即ち、指向性マイク11Xで取得した音の音圧が指向性マイク12Xで取得した音の音圧より大きい場合、音源は上方に存在し、指向性マイク12Xで取得した音の音圧が指向性マイク11Xで取得した音の音圧より大きい場合、音源は前方に存在する。
With this configuration, it is possible to determine the direction of the sound source by using the sound pressure difference of the sound acquired by the
しかしながら、指向性マイクは、図19に例示するように、無指向性マイクよりも大きいため、指向性マイクを使用した場合、音源方向判定装置を小型化することが困難である。図19の例では、指向性マイクの体積は226[立方mm]であり、無指向性マイクの体積は11[立方mm]である。即ち、指向性マイクの体積は、無指向性マイクの体積の約20倍である。また、指向性マイクは無指向性マイクよりも高価であるため、指向性マイクを使用した場合音源方向判定装置の価格を低減することも困難となる。 However, since the directional microphone is larger than the omnidirectional microphone as illustrated in FIG. 19, it is difficult to miniaturize the sound source direction determination device when the directional microphone is used. In the example of FIG. 19, the volume of the directional microphone is 226 [cubi mm], and the volume of the omnidirectional microphone is 11 [cubi mm]. That is, the volume of the directional microphone is about 20 times the volume of the omnidirectional microphone. Further, since the directional microphone is more expensive than the omnidirectional microphone, it is difficult to reduce the price of the sound source direction determination device when the directional microphone is used.
しかしながら、図18に例示した音源方向判定装置の指向性マイクを単に無指向性マイクで置き替えることで、音源方向を精度よく判定することが可能な音源方向判定装置を実現することは困難である。図20Aに例示するように、無指向性マイク11Yが音を取得することができる範囲11YORと、無指向性マイク12Yが音を取得することができる範囲12YORと、はほぼ重複する。したがって、無指向性マイク11Y及び12Yが取得した音の音圧差に、音源方向を精度よく判定することができる程度の有意な差が生じないためである。
However, it is difficult to realize a sound source direction determination device capable of accurately determining the sound source direction by simply replacing the directional microphone of the sound source direction determination device illustrated in FIG. 18 with an omnidirectional microphone. .. As illustrated in FIG. 20A, the range 11YOR in which the
図20Bに、筐体18Yの上面に第1マイク11Yを設置し、前面に第2マイク12Yを設置した、第1実施形態と同様に、前後方向の幅が1[cm]程度であり、前面が名刺程度の大きさである、関連技術の音源方向判定装置10Yを例示する。第1マイク11Y及び第2マイク12Yは、無指向性マイクである。関連技術の音源方向判定装置10Yの音圧差と第1実施形態の音源方向判定装置10の音圧差とを図21に例示する。音源が音源方向判定装置の上方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、2.9[dB]であり、第1実施形態では、7.2[dB]である。
In FIG. 20B, the width in the front-rear direction is about 1 [cm] and the front surface is similar to the first embodiment in which the
音源が音源方向判定装置の前方にある場合、第1マイクで取得する音の音圧と第2マイクで取得する音の音圧との音圧差は、関連技術では、-2.9[dB]であり、第1実施形態では、-4.2[dB]である。即ち、音源が音源方向判定装置の上方にある場合、第1実施形態で算出される音圧差は、関連技術より4.3[dB]大きく、音源が音源方向判定装置の前方にある場合、第1実施形態で算出される音圧差は、関連技術より1.3[dB]小さい。 When the sound source is in front of the sound source direction determination device, the sound pressure difference between the sound pressure of the sound acquired by the first microphone and the sound pressure of the sound acquired by the second microphone is -2.9 [dB] in the related technology. In the first embodiment, it is -4.2 [dB]. That is, when the sound source is above the sound source direction determination device, the sound pressure difference calculated in the first embodiment is 4.3 [dB] larger than that of the related technology, and when the sound source is in front of the sound source direction determination device, the first The sound pressure difference calculated in one embodiment is 1.3 [dB] smaller than that of the related technology.
したがって、本実施形態では図11のステップ104及びステップ106の判定で、誤った判定結果を得る可能性が低減するため、本実施形態によれば、無指向性マイクロフォンを使用した音源方向判定の精度を向上させることを可能とする。
Therefore, in the present embodiment, the possibility of obtaining an erroneous determination result in the determination in
以上の各実施形態に関し、更に以下の付記を開示する。 The following additional notes will be further disclosed with respect to each of the above embodiments.
(付記1)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、判定部と、
を含む、
音源方向判定装置。
(付記2)
前記第1周波数成分は高域成分である、
付記1の音源方向判定装置。
(付記3)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有する、
付記1または付記2の音源方向判定装置。
(付記4)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、かつ、途中に、音を回折する屈曲部である第4回折部を有する、
付記1または付記2の音源方向判定装置。
(付記5)
前記第1平坦面と前記第2平坦面とは直交し、
前記第1平坦面及び前記第2平坦面の面積は第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第2回折部を有する、
付記1または付記2の音源方向判定装置。
(付記6)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記1~付記5の何れかの音源方向判定装置。
(付記7)
前記音圧差の平均値が負の第2閾値よりも小さい場合、及び、前記位相差の平均値が負の第4閾値よりも小さい場合の内少なくとも一方の場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記6の音源方向判定装置。
(付記8)
前記対象周波数帯域の位相差の平均値a_phaseは、以下の(10)式で表される、付記6または付記7の音源方向判定装置。
phase[j]=atan(phase_im[j]/phase_re[j])、
phase_re[j]=re1[j]*re2[j]+im1[j]*im2[j]、
phase_im[j]=im1[j]*re2[j]-re1[j]*im2[j]、
C_n[j]=λ[j]/λ_cであり、
jは周波数帯域数であり、
re1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの実部であり、
re2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの実部であり、
im1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの虚部であり、
im2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの虚部であり、
λ[j]は、j番目の周波数帯域の音の波長であり、
λ_cは、基準周波数の音の波長であり、
eeは、前記対象周波数帯域の上限であり、
ssは、前記対象周波数帯域の下限である。
(付記9)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記1~付記5の何れかの音源方向判定装置。
(付記10)
前記音圧差平均値が前記第5閾値以下の場合、及び、前記位相差平均値が前記第6閾値以下の場合の内少なくとも一方の場合、前記音源が前記第2平坦面に対向する位置に存在すると判定する、
付記9の音源方向判定装置。
(付記11)
前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値は、前記音圧差の第1発話区間の平均値である第1平均値と、前記音圧差の第2発話区間の平均値である第2平均値と、の平均値であり、前記第1平均値と前記第2平均値との相違は、第2所定値を超え、
前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値は、前記位相差の第3発話区間の平均値である第3平均値と、前記位相差の第4発話区間の平均値である第4平均値と、の平均値であり、前記第3平均値と前記第4平均値との相違は、第3所定値を超える、
付記9または付記10の音源方向判定装置。
(付記12)
前記音に対応する信号の信号対雑音比が第4所定値より小さい場合、前記第5閾値及び前記第6閾値を第5所定値分低減する、
付記9~付記11の何れかの音源方向判定装置。
(付記13)
前記音源が前記第1平坦面と対向する位置に存在すると判定された場合、前記音に対応する信号を第1言語に翻訳し、前記音源が前記第2平坦面に対向する位置に存在すると判定された場合、前記音に対応する信号を第2言語に翻訳する、
付記1~付記12の何れかの音源方向判定装置。
(付記14)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置の前記コンピュータが、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定方法。
(付記15)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記14の音源方向判定方法。
(付記16)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記14の音源方向判定方法。
(付記17)
第1平坦面に開口した第1開口部を一端部に備え、前記第1開口部から音が伝搬する第1音道、及び、前記第1平坦面と交差する第2平坦面に開口した第2開口部を一端部に備え、前記第2開口部から音が伝搬する第2音道が内部に設けられたマイク設置部と、
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置のコンピュータに、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定処理を実行させるためのプログラム。
(付記18)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算した音圧差の平均値であり、
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
付記17のプログラム。
(付記19)
前記音圧の相違は、前記第1音圧のパワーの対数から前記第2音圧のパワーの対数を減算したフレーム毎の音圧差の複数フレームの平均値である音圧差平均値であり、
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
付記17のプログラム。
(Appendix 1)
A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. A determination unit that determines the direction in which the sound source exists based on at least one of the phase differences from the second phase.
including,
Sound source direction determination device.
(Appendix 2)
The first frequency component is a high frequency component.
The sound source direction determination device of
(Appendix 3)
The first flat surface and the second flat surface are orthogonal to each other.
The area of the first flat surface is equal to or less than the first predetermined value, and the area of the second flat surface is larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening, and has a second diffracting portion that is a bending portion that diffracts sound in the middle.
The second sound path has a third diffracting portion that diffracts sound in the second opening.
The sound source direction determination device of
(Appendix 4)
The first flat surface and the second flat surface are orthogonal to each other.
The area of the first flat surface is equal to or less than the first predetermined value, and the area of the second flat surface is larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening, and has a second diffracting portion that is a bending portion that diffracts sound in the middle.
The second sound path has a third diffracting portion that diffracts sound in the second opening, and has a fourth diffracting portion that is a bending portion that diffracts sound in the middle.
The sound source direction determination device of
(Appendix 5)
The first flat surface and the second flat surface are orthogonal to each other.
The areas of the first flat surface and the second flat surface are larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening.
The second sound path has a second diffracting portion that diffracts sound in the second opening.
The sound source direction determination device of
(Appendix 6)
The difference in sound pressure is the average value of the sound pressure difference obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is the average value of the phase difference in the target frequency band.
When the average value of the sound pressure difference is larger than the positive first threshold value and at least one of the cases where the average value of the phase difference is larger than the positive third threshold value, the sound source is the first flat surface. Judged to exist at a position facing
The sound source direction determination device according to any one of
(Appendix 7)
When the average value of the sound pressure difference is smaller than the negative second threshold value and at least one of the cases where the average value of the phase difference is smaller than the negative fourth threshold value, the sound source is the second flat surface. Judged to exist at a position facing
The sound source direction determination device of
(Appendix 8)
The average value a_phase of the phase difference of the target frequency band is represented by the following equation (10), and is the sound source direction determination device of
phase [j] = atan (phase_ im [j] / phase_ re [j]),
phase_re [j] = re1 [j] * re2 [j] + im1 [j] * im 2 [j],
phase_im [j] = im1 [j] * re2 [j]-re1 [j] * im2 [j],
C_n [j] = λ [j] / λ_c,
j is the number of frequency bands
re1 [j] is the real part of the spectrum of the first sound pressure in the jth frequency band.
re2 [j] is the real part of the spectrum of the second sound pressure in the jth frequency band.
im1 [j] is an imaginary part of the spectrum of the first sound pressure in the jth frequency band.
im2 [j] is an imaginary part of the spectrum of the second sound pressure in the jth frequency band.
λ [j] is the wavelength of the sound in the jth frequency band.
λ_c is the wavelength of the sound of the reference frequency,
ee is the upper limit of the target frequency band, and is
ss is the lower limit of the target frequency band.
(Appendix 9)
The difference in sound pressure is a sound pressure difference average value which is an average value of a plurality of frames of the sound pressure difference for each frame obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is a phase difference average value which is an average value of a plurality of frames of the phase difference of the target frequency band for each frame.
When the sound pressure difference average value is larger than the fifth threshold value and at least one of the cases where the phase difference average value is larger than the sixth threshold value, the sound source exists at a position facing the first flat surface. Then,
The fifth threshold is the average value of the sound pressure difference when the sound source is present at a position facing the first flat surface, and the sound pressure difference when the sound source is present at a position facing the second flat surface. The average value and the average value of
The sixth threshold is the phase difference average value when the sound source is present at a position facing the first flat surface, and the phase difference when the sound source is present at a position facing the second flat surface. The average value and the average value of,
The sound source direction determination device according to any one of
(Appendix 10)
When the sound pressure difference average value is equal to or less than the fifth threshold value and at least one of the cases where the phase difference average value is equal to or less than the sixth threshold value, the sound source exists at a position facing the second flat surface. Judge,
The sound source direction determination device of Appendix 9.
(Appendix 11)
The average of the sound pressure difference average value when the sound source is present at a position facing the first flat surface and the sound pressure difference average value when the sound source is present at a position facing the second flat surface. The value is an average value of a first mean value which is an average value of the first speech section of the sound pressure difference and a second mean value which is an average value of the second speech section of the sound pressure difference, and is the first mean value. The difference between the mean value and the second mean value exceeds the second predetermined value,
The average of the phase difference average value when the sound source is present at a position facing the first flat surface and the phase difference average value when the sound source is present at a position facing the second flat surface. The value is an average value of a third mean value which is an average value of the third speech section of the phase difference and a fourth mean value which is an average value of the fourth speech section of the phase difference, and is the third mean value. The difference between the mean value and the fourth mean value exceeds the third predetermined value.
The sound source direction determination device of Appendix 9 or
(Appendix 12)
When the signal-to-noise ratio of the signal corresponding to the sound is smaller than the fourth predetermined value, the fifth threshold value and the sixth threshold value are reduced by the fifth predetermined value.
A sound source direction determination device according to any one of Supplementary note 9 to
(Appendix 13)
When it is determined that the sound source exists at a position facing the first flat surface, the signal corresponding to the sound is translated into the first language, and it is determined that the sound source exists at a position facing the second flat surface. If so, the signal corresponding to the sound is translated into a second language.
The sound source direction determination device according to any one of
(Appendix 14)
A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
With a computer
The computer of the sound source direction determination device including
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. Determining the direction in which the sound source is located, based on at least one of the phase differences from the second phase.
Sound source direction determination method.
(Appendix 15)
The difference in sound pressure is the average value of the sound pressure difference obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is the average value of the phase difference in the target frequency band.
When the average value of the sound pressure difference is larger than the positive first threshold value and at least one of the cases where the average value of the phase difference is larger than the positive third threshold value, the sound source is the first flat surface. Judged to exist at a position facing
(Appendix 16)
The difference in sound pressure is a sound pressure difference average value which is an average value of a plurality of frames of the sound pressure difference for each frame obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is a phase difference average value which is an average value of a plurality of frames of the phase difference of the target frequency band for each frame.
When the sound pressure difference average value is larger than the fifth threshold value and at least one of the cases where the phase difference average value is larger than the sixth threshold value, the sound source exists at a position facing the first flat surface. Then,
The fifth threshold is the average value of the sound pressure difference when the sound source is present at a position facing the first flat surface, and the sound pressure difference when the sound source is present at a position facing the second flat surface. The average value and the average value of
The sixth threshold is the phase difference average value when the sound source is present at a position facing the first flat surface, and the phase difference when the sound source is present at a position facing the second flat surface. The average value and the average value of,
(Appendix 17)
A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
With a computer
To the computer of the sound source direction determination device including
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. Determining the direction in which the sound source is located, based on at least one of the phase differences from the second phase.
A program for executing sound source direction determination processing.
(Appendix 18)
The difference in sound pressure is the average value of the sound pressure difference obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is the average value of the phase difference in the target frequency band.
When the average value of the sound pressure difference is larger than the positive first threshold value and at least one of the cases where the average value of the phase difference is larger than the positive third threshold value, the sound source is the first flat surface. Judged to exist at a position facing
Appendix 17 program.
(Appendix 19)
The difference in sound pressure is a sound pressure difference average value which is an average value of a plurality of frames of the sound pressure difference for each frame obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is a phase difference average value which is an average value of a plurality of frames of the phase difference of the target frequency band for each frame.
When the sound pressure difference average value is larger than the fifth threshold value and at least one of the cases where the phase difference average value is larger than the sixth threshold value, the sound source exists at a position facing the first flat surface. Then,
The fifth threshold is the average value of the sound pressure difference when the sound source is present at a position facing the first flat surface, and the sound pressure difference when the sound source is present at a position facing the second flat surface. The average value and the average value of
The sixth threshold is the phase difference average value when the sound source is present at a position facing the first flat surface, and the phase difference when the sound source is present at a position facing the second flat surface. The average value and the average value of,
Appendix 17 program.
10 音源方向判定装置
11 第1マイクロフォン
11R 第1音道
11O 第1開口部
11K 屈曲部
12 第2マイクロフォン
12R 第2音道
12O 第2開口部
13 判定部
14 音声翻訳装置
51 CPU
52 一次記憶部
53 二次記憶部
10 Sound source
52
Claims (14)
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、判定部と、
を含む、
音源方向判定装置。 A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. A determination unit that determines the direction in which the sound source exists based on at least one of the phase differences from the second phase.
including,
Sound source direction determination device.
請求項1に記載の音源方向判定装置。 The first frequency component is a high frequency component.
The sound source direction determination device according to claim 1.
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有する、
請求項1または請求項2に記載の音源方向判定装置。 The first flat surface and the second flat surface are orthogonal to each other.
The area of the first flat surface is equal to or less than the first predetermined value, and the area of the second flat surface is larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening, and has a second diffracting portion that is a bending portion that diffracts sound in the middle.
The second sound path has a third diffracting portion that diffracts sound in the second opening.
The sound source direction determination device according to claim 1 or 2.
前記第1平坦面の面積は第1所定値以下であり、前記第2平坦面の面積は前記第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、かつ、途中に、音を回折する屈曲部である第2回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第3回折部を有し、かつ、途中に、音を回折する屈曲部である第4回折部を有する、
請求項1または請求項2に記載の音源方向判定装置。 The first flat surface and the second flat surface are orthogonal to each other.
The area of the first flat surface is equal to or less than the first predetermined value, and the area of the second flat surface is larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening, and has a second diffracting portion that is a bending portion that diffracts sound in the middle.
The second sound path has a third diffracting portion that diffracts sound in the second opening, and has a fourth diffracting portion that is a bending portion that diffracts sound in the middle.
The sound source direction determination device according to claim 1 or 2.
前記第1平坦面及び前記第2平坦面の面積は第1所定値より大きく、
前記第1音道は、前記第1開口部に音を回折する第1回折部を有し、
前記第2音道は、前記第2開口部に音を回折する第2回折部を有する、
請求項1または請求項2に記載の音源方向判定装置。 The first flat surface and the second flat surface are orthogonal to each other.
The areas of the first flat surface and the second flat surface are larger than the first predetermined value.
The first sound path has a first diffracting portion that diffracts sound in the first opening.
The second sound path has a second diffracting portion that diffracts sound in the second opening.
The sound source direction determination device according to claim 1 or 2.
前記位相の相違は、対象周波数帯域の位相差の平均値であり、
前記音圧差の平均値が正の第1閾値よりも大きい場合、及び、前記位相差の平均値が正の第3閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定する、
請求項1~請求項5の何れか1項に記載の音源方向判定装置。 The difference in sound pressure is the average value of the sound pressure difference obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is the average value of the phase difference in the target frequency band.
When the average value of the sound pressure difference is larger than the positive first threshold value and at least one of the cases where the average value of the phase difference is larger than the positive third threshold value, the sound source is the first flat surface. Judged to exist at a position facing
The sound source direction determination device according to any one of claims 1 to 5.
請求項6に記載の音源方向判定装置。 When the average value of the sound pressure difference is smaller than the negative second threshold value and at least one of the cases where the average value of the phase difference is smaller than the negative fourth threshold value, the sound source is the second flat surface. Judged to exist at a position facing
The sound source direction determination device according to claim 6.
phase[j]=atan(phase_im[j]/phase_re[j])、
phase_re[j]=re1[j]*re2[j]+im1[j]*im2[j]、
phase_im[j]=im1[j]*re2[j]-re1[j]*im2[j]、
C_n[j]=λ[j]/λ_cであり、
jは周波数帯域数であり、
re1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの実部であり、
re2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの実部であり、
im1[j]は、j番目の周波数帯域の前記第1音圧のスペクトルの虚部であり、
im2[j]は、j番目の周波数帯域の前記第2音圧のスペクトルの虚部であり、
λ[j]は、j番目の周波数帯域の音の波長であり、
λ_cは、基準周波数の音の波長であり、
eeは、前記対象周波数帯域の上限であり、
ssは、前記対象周波数帯域の下限である。 The sound source direction determination device according to claim 6 or 7, wherein the average value a_phase of the phase difference in the target frequency band is represented by the following equation (1).
phase [j] = atan (phase_ im [j] / phase_ re [j]),
phase_re [j] = re1 [j] * re2 [j] + im1 [j] * im 2 [j],
phase_im [j] = im1 [j] * re2 [j]-re1 [j] * im2 [j],
C_n [j] = λ [j] / λ_c,
j is the number of frequency bands
re1 [j] is the real part of the spectrum of the first sound pressure in the jth frequency band.
re2 [j] is the real part of the spectrum of the second sound pressure in the jth frequency band.
im1 [j] is an imaginary part of the spectrum of the first sound pressure in the jth frequency band.
im2 [j] is an imaginary part of the spectrum of the second sound pressure in the jth frequency band.
λ [j] is the wavelength of the sound in the jth frequency band.
λ_c is the wavelength of the sound of the reference frequency,
ee is the upper limit of the target frequency band, and is
ss is the lower limit of the target frequency band.
前記位相の相違は、フレーム毎の対象周波数帯域の位相差の複数フレームの平均値である位相差平均値であり、
前記音圧差平均値が第5閾値よりも大きい場合、及び、前記位相差平均値が第6閾値よりも大きい場合の内少なくとも一方の場合、前記音源が前記第1平坦面に対向する位置に存在すると判定し、
前記第5閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記音圧差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記音圧差平均値と、の平均値であり、
前記第6閾値は、前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値である、
請求項1~請求項5の何れか1項に記載の音源方向判定装置。 The difference in sound pressure is a sound pressure difference average value which is an average value of a plurality of frames of the sound pressure difference for each frame obtained by subtracting the logarithm of the power of the second sound pressure from the logarithm of the power of the first sound pressure.
The phase difference is a phase difference average value which is an average value of a plurality of frames of the phase difference of the target frequency band for each frame.
When the sound pressure difference average value is larger than the fifth threshold value and at least one of the cases where the phase difference average value is larger than the sixth threshold value, the sound source exists at a position facing the first flat surface. Then,
The fifth threshold is the average value of the sound pressure difference when the sound source is present at a position facing the first flat surface, and the sound pressure difference when the sound source is present at a position facing the second flat surface. The average value and the average value of
The sixth threshold is the phase difference average value when the sound source is present at a position facing the first flat surface, and the phase difference when the sound source is present at a position facing the second flat surface. The average value and the average value of,
The sound source direction determination device according to any one of claims 1 to 5.
請求項9に記載の音源方向判定装置。 When the sound pressure difference average value is equal to or less than the fifth threshold value and at least one of the cases where the phase difference average value is equal to or less than the sixth threshold value, the sound source exists at a position facing the second flat surface. Judge,
The sound source direction determination device according to claim 9.
前記音源が前記第1平坦面に対向する位置に存在する場合の前記位相差平均値と、前記音源が前記第2平坦面に対向する位置に存在する場合の前記位相差平均値と、の平均値は、前記位相差の第3発話区間の平均値である第3平均値と、前記位相差の第4発話区間の平均値である第4平均値と、の平均値であり、前記第3平均値と前記第4平均値との相違は、第3所定値を超える、
請求項9または請求項10に記載の音源方向判定装置。 The average of the sound pressure difference average value when the sound source is present at a position facing the first flat surface and the sound pressure difference average value when the sound source is present at a position facing the second flat surface. The value is an average value of a first mean value which is an average value of the first speech section of the sound pressure difference and a second mean value which is an average value of the second speech section of the sound pressure difference, and is the first mean value. The difference between the mean value and the second mean value exceeds the second predetermined value,
The average of the phase difference average value when the sound source is present at a position facing the first flat surface and the phase difference average value when the sound source is present at a position facing the second flat surface. The value is an average value of a third mean value which is an average value of the third speech section of the phase difference and a fourth mean value which is an average value of the fourth speech section of the phase difference, and is the third mean value. The difference between the mean value and the fourth mean value exceeds the third predetermined value.
The sound source direction determination device according to claim 9 or 10.
請求項1~請求項11の何れか1項に記載の音源方向判定装置。 When it is determined that the sound source exists at a position facing the first flat surface, the signal corresponding to the sound is translated into the first language, and it is determined that the sound source exists at a position facing the second flat surface. If so, the signal corresponding to the sound is translated into a second language.
The sound source direction determination device according to any one of claims 1 to 11.
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置の前記コンピュータが、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定方法。 A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
With a computer
The computer of the sound source direction determination device including
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. Determining the direction in which the sound source is located, based on at least one of the phase differences from the second phase.
Sound source direction determination method.
前記第1音道の他端部に設置された無指向性の第1マイクロフォンと、
前記第2音道の他端部に設置された無指向性の第2マイクロフォンと、
コンピュータと、
を含む音源方向判定装置のコンピュータに、
前記第1マイクロフォンで取得された音の第1周波数成分の音圧である第1音圧と、前記第2マイクロフォンで取得された音の前記第1周波数成分の音圧である第2音圧との音圧の相違、及び、前記第1マイクロフォンで取得された音の第2周波数成分の位相である第1位相と、前記第2マイクロフォンで取得された音の前記第2周波数成分の位相である第2位相との位相の相違の少なくとも一方に基づいて、音源が存在する方向を判定する、
音源方向判定処理を実行させるためのプログラム。
A first opening opened in the first flat surface is provided at one end, and a first sound path through which sound propagates from the first opening and a second flat surface intersecting with the first flat surface are opened. A microphone installation unit having two openings at one end and an internal second sound path through which sound propagates from the second opening.
An omnidirectional first microphone installed at the other end of the first sound path, and
An omnidirectional second microphone installed at the other end of the second sound path, and
With a computer
To the computer of the sound source direction determination device including
The first sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the first microphone, and the second sound pressure, which is the sound pressure of the first frequency component of the sound acquired by the second microphone. The difference in sound pressure between the two, and the first phase, which is the phase of the second frequency component of the sound acquired by the first microphone, and the phase of the second frequency component of the sound acquired by the second microphone. Determining the direction in which the sound source is located, based on at least one of the phase differences from the second phase.
A program for executing sound source direction determination processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/127,601 US10609479B2 (en) | 2017-09-14 | 2018-09-11 | Device and method for determining a sound source direction |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017177069 | 2017-09-14 | ||
JP2017177069 | 2017-09-14 | ||
JP2017228128 | 2017-11-28 | ||
JP2017228128 | 2017-11-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019087986A JP2019087986A (en) | 2019-06-06 |
JP7020283B2 true JP7020283B2 (en) | 2022-02-16 |
Family
ID=66764361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018091212A Active JP7020283B2 (en) | 2017-09-14 | 2018-05-10 | Sound source direction determination device, sound source direction determination method, and sound source direction determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7020283B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201370A (en) * | 2019-06-10 | 2020-12-17 | 富士通株式会社 | Speaker direction determination program, speaker direction determination method, and speaker direction determination device |
WO2021229628A1 (en) * | 2020-05-11 | 2021-11-18 | 三菱電機株式会社 | Sound source specifying device, sound source specifying method, and sound source specifying program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264473A (en) | 2006-03-29 | 2007-10-11 | Toshiba Corp | Voice processor, voice processing method, and voice processing program |
JP2014514794A (en) | 2011-03-03 | 2014-06-19 | クゥアルコム・インコーポレイテッド | System, method, apparatus, and computer-readable medium for source identification using audible sound and ultrasound |
JP2017098798A (en) | 2015-11-25 | 2017-06-01 | オリンパス株式会社 | Sound recorder, advice output method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4005203B2 (en) * | 1998-02-03 | 2007-11-07 | 富士通テン株式会社 | In-vehicle speech recognition device |
-
2018
- 2018-05-10 JP JP2018091212A patent/JP7020283B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264473A (en) | 2006-03-29 | 2007-10-11 | Toshiba Corp | Voice processor, voice processing method, and voice processing program |
JP2014514794A (en) | 2011-03-03 | 2014-06-19 | クゥアルコム・インコーポレイテッド | System, method, apparatus, and computer-readable medium for source identification using audible sound and ultrasound |
JP2017098798A (en) | 2015-11-25 | 2017-06-01 | オリンパス株式会社 | Sound recorder, advice output method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2019087986A (en) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5519689B2 (en) | Sound processing apparatus, sound processing method, and hearing aid | |
JP5740572B2 (en) | Hearing aid, signal processing method and program | |
JP5156260B2 (en) | Method for removing target noise and extracting target sound, preprocessing unit, speech recognition system and program | |
US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
US20080317260A1 (en) | Sound discrimination method and apparatus | |
EP1998320B1 (en) | System and method for evaluating performance of microphone for long-distance speech recognition in robot | |
US20150222996A1 (en) | Directional Filtering of Audible Signals | |
JP6065028B2 (en) | Sound collecting apparatus, program and method | |
JP7020283B2 (en) | Sound source direction determination device, sound source direction determination method, and sound source direction determination program | |
JP2016042132A (en) | Voice processing device, voice processing method, and program | |
JP2010026361A (en) | Speech collection method, system and program | |
US20240163612A1 (en) | Method of waking a device using spoken voice commands | |
US20150088497A1 (en) | Speech processing apparatus, speech processing method, and speech processing program | |
JP2021511755A (en) | Speech recognition audio system and method | |
JP3925734B2 (en) | Target sound detection method, signal input delay time detection method, and sound signal processing apparatus | |
JP6645322B2 (en) | Noise suppression device, speech recognition device, noise suppression method, and noise suppression program | |
JP6794887B2 (en) | Computer program for voice processing, voice processing device and voice processing method | |
JP7243105B2 (en) | Sound source direction determination device, sound source direction determination method, and sound source direction determination program | |
JP2005303574A (en) | Voice recognition headset | |
JP2001045592A (en) | Noise canceling microphone array | |
JP6638248B2 (en) | Audio determination device, method and program, and audio signal processing device | |
US10609479B2 (en) | Device and method for determining a sound source direction | |
CN113660578A (en) | Double-microphone directional pickup method and device with adjustable pickup angle range | |
JP6631127B2 (en) | Voice determination device, method and program, and voice processing device | |
Basu et al. | Smart headphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180726 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7020283 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |