JP2016121957A - Target sound section determination device, target sound section determination method, and target sound section determination program - Google Patents
Target sound section determination device, target sound section determination method, and target sound section determination program Download PDFInfo
- Publication number
- JP2016121957A JP2016121957A JP2014262703A JP2014262703A JP2016121957A JP 2016121957 A JP2016121957 A JP 2016121957A JP 2014262703 A JP2014262703 A JP 2014262703A JP 2014262703 A JP2014262703 A JP 2014262703A JP 2016121957 A JP2016121957 A JP 2016121957A
- Authority
- JP
- Japan
- Prior art keywords
- target sound
- coherence coefficient
- section
- signal
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、目的音区間判定装置、目的音区間判定方法及び目的音区間判定プログラムに関し、例えば、入力音響信号から、1又は少数の周波数成分だけを含む目的音が有する区間を判定する場合に適用し得るものである。 The present invention relates to a target sound segment determination device, a target sound segment determination method, and a target sound segment determination program, and is applied to, for example, a case where a segment of a target sound including only one or a small number of frequency components is determined from an input sound signal. It is possible.
特許文献1では、入力音信号の到来方位に基づいて、正面から到来する目的音を含む区間(目的音区間)を検出する技術が既に提案されている。
ところで、近年、音源分離処理は、機械設備の点検などのために機械が発する音などのような音声以外の音響の処理にも活用されるようになってきている。機械が発する音(機械音)は、例えば、1又は少数の周波数成分だけを含むものであり(1つの周波数成分を含む信号はその周波数を有する正弦波信号となっており、この明細書においては、適宜、正弦波信号と表現している)、言い換えると、特定の周波数成分にエネルギーが集中した定常的な音である。 By the way, in recent years, the sound source separation processing has come to be used for processing of sound other than sound such as sound generated by a machine for inspection of mechanical equipment. The sound emitted from the machine (mechanical sound) includes, for example, only one or a small number of frequency components (a signal including one frequency component is a sine wave signal having that frequency, and in this specification, In other words, it is a steady sound in which energy is concentrated on a specific frequency component.
音源分離処理においては、この機械音等の特殊な音を含む目的音区間を正確に検出できる技術が求められるようになって来ている。 In the sound source separation process, a technique capable of accurately detecting a target sound section including a special sound such as a mechanical sound has been demanded.
しかし、例えば、正面から正弦波の異音が到来する場合には、特許文献1に記載の目的音声区間の検出法は、正面から到来するにも関わらず、正弦波異音を目的音ではない音(以下、非目的音と呼ぶ)と誤って判定してしまう恐れがある。
However, for example, when a sine wave abnormal noise comes from the front, the detection method of the target speech section described in
特許文献1の目的音声区間の検出方法では、2つのマイクロホンで捕捉した信号に対して特定の指向性を付与した処理後の2つの信号についての各周波数成分におけるパワー及び相関度合を反映させた、特許文献1の(3)式に示す周波数ビン毎のコヒーレンス係数coef(f,K)と、(4)式に示すコヒーレンスCOH(K)とが利用される(fは周波数ビンを表すインデックスであり、Kは入力フレームを表すインデックスである)。正弦波異音を誤判定する原因は、入力音信号に含まれる成分が特定周波数に集中するため、正弦波が有する周波数の周波数ビンにおけるコヒーレンス係数coef(f,K)は大きな値を持つものの、それ以外の周波数ビンでは微小な値となるため、全帯域でコヒーレンス係数coefを平均化したコヒーレンスCOH(K)は小さい値となってしまい、目的音区間の判定閾値Θに達しないためである。
In the method of detecting the target speech section of
そのため、1又は少数の周波数成分だけを含む異音が目的音のときに、目的音が有する区間を正しく判定できる目的音区間判定装置、目的音区間判定方法及び目的音区間判定プログラムが望まれている。 Therefore, there is a need for a target sound section determination device, a target sound section determination method, and a target sound section determination program that can correctly determine a section of the target sound when an abnormal sound including only one or a small number of frequency components is the target sound. Yes.
第1の本発明は、1又は少数の周波数成分を含む音を目的音とし、入力音信号の区間から、目的音区間を判定する目的音区間判定装置であって、(1)入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、(2)形成された複数の指向性信号を用いてコヒーレンス係数を得るコヒーレンス係数計算手段と、(3)得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を得るコヒーレンス係数特徴量算出手段と、(4)上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定する目的音区間判定手段とを有することを特徴とする。 A first aspect of the present invention is a target sound section determination device that determines a target sound section from a section of an input sound signal using a sound including one or a small number of frequency components as a target sound, and (1) an input sound signal Directivity forming means for forming a plurality of directional signals having a directional characteristic having a dead angle in a predetermined azimuth by performing a delay subtraction process, wherein the directional signals are different from each other in a predetermined azimuth having a blind angle; (2) Coherence coefficient calculation means for obtaining a coherence coefficient using a plurality of formed directional signals, (3) The number of times the obtained coherence coefficient is regarded as a time-varying signal, and the inclination direction of the signal waveform changes. A coherence coefficient feature quantity calculating means for obtaining a coherence coefficient feature quantity representing the magnitude; and (4) an input sound signal based on the coherence coefficient range and the coherence coefficient feature quantity range. Section is characterized by having a target sound period determining means for determining whether a target sound period.
第2の本発明は、1又は少数の周波数成分を含む音を目的音とし、入力音信号の区間から、目的音区間を判定する目的音区間判定方法であって、(1)指向性形成手段が、入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成し、(2)コヒーレンス係数計算手段が、形成された複数の指向性信号を用いてコヒーレンス係数を取得し、(3)コヒーレンス係数特徴量算出手段が、得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を取得し、(4)目的音区間判定手段が、上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定することを特徴とする。 The second aspect of the present invention is a target sound section determination method for determining a target sound section from a section of an input sound signal using a sound including one or a small number of frequency components as a target sound, and (1) directivity forming means However, by performing a delay subtraction process on the input sound signal, a plurality of directivity signals having a directivity characteristic having a blind spot in a predetermined direction and a plurality of directivity signals having different blind headings are formed. (2) The coherence coefficient calculation means acquires a coherence coefficient using the formed directional signals, and (3) the coherence coefficient feature quantity calculation means regards the obtained coherence coefficient as a time-varying signal, A coherence coefficient feature amount representing the number of times and the magnitude of the change in the inclination direction of the signal waveform is acquired; and (4) the target sound section determination means determines the range of the coherence coefficient and the coherence coefficient feature amount. Based on the Nji, the section of the input sound signal and judging whether the target sound period.
第3の本発明は、1又は少数の周波数成分を含む音を目的音とし、入力音信号の区間から、目的音区間を判定するために適用する目的音区間判定プログラムであって、コンピュータを、(1)入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、(2)形成された複数の指向性信号を用いてコヒーレンス係数を得るコヒーレンス係数計算手段と、(3)得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を得るコヒーレンス係数特徴量算出手段と、(4)上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定する目的音区間判定手段として機能させることを特徴とする。 A third aspect of the present invention is a target sound section determination program applied to determine a target sound section from a section of an input sound signal using a sound including one or a small number of frequency components as a target sound. (1) By performing a delay subtraction process on the input sound signal, a plurality of directivity signals having a directivity characteristic having a dead angle in a predetermined direction and a plurality of directivity signals having different blind directions are formed. Directivity forming means, (2) coherence coefficient calculating means for obtaining a coherence coefficient using a plurality of formed directivity signals, and (3) taking the obtained coherence coefficient as a time-varying signal, A coherence coefficient feature quantity calculating means for obtaining a coherence coefficient feature quantity representing the number of times the inclination direction changes and its magnitude; and (4) the range of the coherence coefficient and the coherence coefficient characteristic. Based on the amount of range, the section of the input sound signal, characterized in that function as target sound period determining means for determining whether a target sound period.
本発明によれば、1又は少数の周波数成分だけを含む異音が目的音のときに、目的音が有する区間を正しく判定できる目的音区間判定装置、目的音区間判定方法及び目的音区間判定プログラムを実現できる。 According to the present invention, when an abnormal sound including only one or a small number of frequency components is a target sound, a target sound section determination device, a target sound section determination method, and a target sound section determination program that can correctly determine a section of the target sound. Can be realized.
(A)第1の実施形態
以下、本発明による目的音区間判定装置、目的音区間判定方法及び目的音区間判定プログラムの第1の実施形態を、図面を参照しながら説明する。
(A) First Embodiment Hereinafter, a first embodiment of a target sound section determination device, a target sound section determination method, and a target sound section determination program according to the present invention will be described with reference to the drawings.
第1の実施形態に係る目的音区間判定装置は、1又は少数の周波数成分だけを含む異音を目的音とし、その目的音の区間を判定するものである。 The target sound section determination apparatus according to the first embodiment uses an abnormal sound including only one or a small number of frequency components as a target sound, and determines a section of the target sound.
(A−1)適用するパラメータとその適用理由
第1の実施形態に係る目的音区間判定装置では、特許文献1の記載技術で利用されていたコヒーレンス係数coef(f,K)に加え、コヒーレンス係数coef(f,K)についての(1)式に示すmodGI値modGI(f,K)を適用している。なお、(1)式においては、コヒーレンス係数coef(f,K)をs(K)で表しており、modGI値modGI(f,K)をmodGIで表している。
modGI値について簡単に説明する(詳細については、特許文献2参照)。modGIは、修正されたグラディエント・インデックス(Gradient Index:以下、GIと呼ぶ)を意味している。
The modGI value will be briefly described (refer to
修正される前のGIについては、参照文献「Naofumi Aoki,”A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification”, IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010」に記載されている。 For the GI before amendment, refer to the reference “Naofumi Aoki,” A Band Extension Technology for Narrow-Band Telephony Speech Based on Full Wave Rectification., IEICE Co. 729-731, 2010 ".
GIは、信号波形の傾き方向が変化する回数とその大きさを測る指標である。GIは、傾き方向が変化したときの、相前後するサンプルの差分絶対値の総和を、そのフレームのパワーの平方根で除算したものとして求められる。従って、GIは、1フレーム内の傾きの変化回数が多いほど大きくなり易く、また、傾きが変化したときの変化量が大きいほど大きくなり易いものである。このような性質から、GIは、入力波形に含まれる高周波数成分の量と直結しているということもできる。 GI is an index for measuring the number of times and the magnitude of the change in the inclination direction of the signal waveform. The GI is obtained by dividing the sum of absolute difference values of successive samples when the tilt direction is changed by the square root of the power of the frame. Therefore, the GI is likely to increase as the number of changes in inclination within one frame increases, and also increases as the amount of change when the inclination changes increases. From such a property, it can also be said that GI is directly connected to the amount of high frequency components included in the input waveform.
しかしながら、GIは、変数ΔΨ(n)という0又は2の2値しかとらない、時系列的に値の大きな飛び跳ねが多発するパラメータを算出要素としているため、値が不規則に大きくなったり小さくなったりするという特徴(「値が暴れる」)がある。 However, since GI uses as a calculation element a variable ΔΨ (n) that takes only two values of 0 or 2 and has many jumps with large values in time series, the value increases or decreases irregularly. There is a characteristic ("value goes wild").
modGIは、GIの値が暴れる(値の大きな飛び跳ねを有する)という性質を有することに鑑み、GIに代えて、GIと高い相関を持ちながら、値の大きな飛び跳ねを抑制した変化が安定した新しい特徴量として提案されたものである。modGIは、特徴量算出対象の任意の信号(本願ではコヒーレンス係数)に関し、その「算出対象信号のパワー」で正規化された、その「算出対象信号の2階差分のパワー」(これを定数倍したものも含まれる)として定義される。 In view of the fact that modGI has the property that the value of GI is rampant (has a jump with a large value), instead of GI, it has a high correlation with GI, and a new feature with stable changes that suppresses a large jump in value It is proposed as a quantity. modGI is the “power of the second-order difference of the calculation target signal” normalized by the “power of the calculation target signal” with respect to an arbitrary signal (a coherence coefficient in this application) of the feature quantity calculation target (this is a constant multiple). Are also included).
modGIは、GIと高い相関を持つので、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標として機能し、また、入力波形に含まれる高周波数成分の量を反映したものとして機能する。 Since modGI has a high correlation with GI, it functions as a stable index that measures the number and magnitude of changes in the slope direction of the signal waveform, and reflects the amount of high-frequency components contained in the input waveform. Function.
ここで、正面から正弦波の異音が到来する場合におけるmodGI値の挙動を検討する。周波数成分毎に、コヒーレンス係数coef(f,K)についてmodGI値modGI(f,K)を計算した場合、正弦波が有する周波数の周波数成分ではコヒーレンス係数coef(f,K)はほぼ一定値(この値は大きい)となるが、直流信号に近い特性となるためにmodGI値modGI(f,K)は微小な値となる。また、正弦波が有する周波数以外の周波数成分では入力が存在しないため、コヒーレンス係数coef(f,K)は微小で、かつ、ほぼ一定の値となることから、直流信号のような特性となり、やはりmodGI値modGI(f,K)は微小な値となる。 Here, the behavior of the modGI value when a sine wave noise comes from the front is examined. When the modGI value modGI (f, K) is calculated for each frequency component with respect to the coherence coefficient coef (f, K), the coherence coefficient coef (f, K) is a substantially constant value (this value) in the frequency component of the frequency of the sine wave. Although the value is large), the modGI value modGI (f, K) is a minute value because the characteristic is close to a DC signal. In addition, since there is no input at a frequency component other than the frequency of the sine wave, the coherence coefficient coef (f, K) is very small and has a substantially constant value. The modGI value modGI (f, K) is a minute value.
上述した到来する正弦波異音に含まれる周波数成分とそれ以外の周波数成分でコヒーレンス係数coef(f,K)とmodGI値modGI(f,K)の挙動を比較すると、(a1)正弦波異音に含まれる周波数成分ではコヒーレンス係数coef(f,K)は大きな定常値となり、modGI値modGI(f,K)は微小な値となる、(a2)正弦波異音に含まれない周波数成分ではコヒーレンス係数coef(f,K)は極めて小さな定常値となり、modGI値modGI(f,K)は微小な値となる、という違いがあることが分かる。 When the behavior of the coherence coefficient coef (f, K) and the modGI value modGI (f, K) is compared between the frequency component included in the incoming sine wave abnormal noise and the other frequency components, (a1) sine wave abnormal noise is compared. The coherence coefficient coef (f, K) is a large steady value and the modGI value modGI (f, K) is a small value. (A2) The coherence is a frequency component not included in the sinusoidal abnormal noise. It can be seen that there is a difference that the coefficient coef (f, K) is an extremely small steady value and the modGI value modGI (f, K) is a minute value.
第1の実施形態に係る目的音区間判定装置は、(a1)及び(a2)の挙動が活用されたものであり、正面から到来する異音を正確に判定しようとしたものである。 The target sound section determination device according to the first embodiment utilizes the behaviors of (a1) and (a2), and attempts to accurately determine an abnormal sound coming from the front.
(A−2)第1の実施形態の構成
図1は、第1の実施形態に係る目的音区間判定装置10の構成を示すブロック図である。
(A-2) Configuration of First Embodiment FIG. 1 is a block diagram showing a configuration of a target sound segment determination device 10 according to the first embodiment.
第1の実施形態の目的音区間判定装置10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、マイクロホン、アナログ/デジタル変換部(A/D変換部)を除く部分)を、CPU、ROM、RAMなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、目的音区間判定装置10の機能的な詳細構成は、図1で表す構成となっている。 The target sound segment determination device 10 of the first embodiment may be constructed by connecting various hardware components, and some components (for example, microphone, analog / digital). The conversion unit (the part excluding the A / D conversion unit) may be constructed so as to realize the function by applying an execution configuration of a program such as a CPU, a ROM, and a RAM. Regardless of which construction method is applied, the functional detailed configuration of the target sound segment determination device 10 is the configuration shown in FIG.
図1において、第1の実施形態に係る目的音区間判定装置10は、一対のマイクロホンm1、m2、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス係数計算部14、modGI計算部15及び判定部16を有する。
In FIG. 1, the target sound section determination device 10 according to the first embodiment includes a pair of microphones m1, m2, an FFT unit 11, a first
一対のマイクロホンm1、m2は、所定距離(若しくは任意の距離)だけ離れて配置され、それぞれ、周囲の音響を捕捉するものである。各マイクロホンm1、m2は、無指向のもの(若しくは、正面方向にごくごく緩やかな指向性を有するもの)である。各マイクロホンm1、m2で捕捉された音響信号(入力音信号)は、図示しない対応するA/D変換部を介してデジタル信号s1(n)、s2(n)に変換されてFFT部11に与えられる。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。 The pair of microphones m1 and m2 are arranged apart from each other by a predetermined distance (or an arbitrary distance), and each captures surrounding sounds. Each of the microphones m1 and m2 is omnidirectional (or has a very gentle directivity in the front direction). The acoustic signals (input sound signals) captured by the microphones m1 and m2 are converted into digital signals s1 (n) and s2 (n) via a corresponding A / D converter (not shown), and are given to the FFT unit 11. It is done. Note that n is an index indicating the input order of samples, and is expressed as a positive integer. In the text, it is assumed that the smaller n is the older input sample, and the larger n is the newer input sample.
FFT部11は、マイクロホンm1及びm2から入力音信号系列s1(n)及びs2(n)を受け取り、その入力音信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力音信号s1及びs2を周波数領域で表現する。なお、高速フーリエ変換を実施するにあたり、入力音信号s1(n)及びs2(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)及びFRAME2(K)を構成して適用する。入力音信号s1(n)から分析フレームFRAME1(K)を構成する例を以下の(2)式に示すが、分析フレームFRAME2(K)も同様である。
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。 K is an index indicating the order of frames and is expressed by a positive integer. In the text, it is assumed that the smaller the K, the older the analysis frame, and the larger, the newer the analysis frame. In the following description, it is assumed that the index representing the latest analysis frame to be analyzed is K unless otherwise specified.
FFT部11は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号X1(f,K)、X2(f,K)に変換し、得られた周波数領域信号X1(f,K)及びX2(f,K)を、第1の指向性形成部12及び第2の指向性形成部13に与える。なお、fは周波数を表すインデックスである。また、X1(f,K)は単一の値ではなく、(3)式に示すように、複致の周波数f1〜fmのスペクトル成分から構成されるものである。X2(f,K)や後述するB1(f,K)及びB2(f,K)も同様である。
X1(f,K)
={(f1,K),(f2,K),…,(fm,K)} …(3)
The FFT unit 11 converts the frequency domain signals X1 (f, K) and X2 (f, K) into the frequency domain signals X1 (f, K) by performing a fast Fourier transform process for each analysis frame. And X2 (f, K) are given to the first
X1 (f, K)
= {(F1, K), (f2, K), ..., (fm, K)} (3)
第1の指向性形成部12は、2つの周波数領域信号X1(f,K)及びX2(f,K)から特定方向に指向性が強い信号B1(f,K)を形成し、第2の指向性形成部12は、2つの周波数領域信号X1(f,K)及びX2(f,K)から特定方向(上述の特定方向とは異なる)に指向性が強い信号B2(f,K)を形成するものである。特定方向に指向性が強い信号B1(f,K)、B2(f,K)の形成方法としては既存の方法を適用でき、例えば、(4)式を適用して右方向に指向性が強いB1(f,K)や(5)式を適用して左方向に指向性が強いB2(f,K)が形成できる。(4)式及び(5)式では、フレームインデックスKは演算に関与しないので省略している。
コヒーレンス係数計算部14は、上述した2つの指向性信号B1(f)、B2(f)に基づいて、(6)式に示す演算を施すことでコヒーレンス係数coef(f,K)を得るものである。なお、(6)式におけるB2(f)*はB2(f)の共役複素数である。
コヒーレンス係数coef(f,K)は、概念的に言えば、右から到来する信号と左から到来する信号のある周波数成分についての相関を表している。従って、コヒーレンス係数coef(f,K)が小さい場合とは、2つの指向性信号B1及びB2のその周波数成分の相関が小さい場合であり、反対にコヒーレンス係数coef(f,K)が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、入力音信号におけるその周波数成分の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような相関が現れ難い明確な規則性の少ない成分の場合である。そのため、コヒーレンス係数coef(f,K)の値が大きい場合は、到来方向の偏りがないため、入力音信号におけるその成分が正面から到来する場合であるといえる。 Conceptually speaking, the coherence coefficient coef (f, K) represents a correlation between certain frequency components of a signal arriving from the right and a signal arriving from the left. Therefore, the case where the coherence coefficient coef (f, K) is small is a case where the correlation between the frequency components of the two directivity signals B1 and B2 is small, and conversely, the case where the coherence coefficient coef (f, K) is large. In other words, it can be said that the correlation is large. If the correlation is small, the arrival direction of the frequency component in the input sound signal is greatly deviated to the right or left, or there is a clear regularity that makes it difficult for noise-like correlation to appear even if there is no deviation. This is the case with few components. Therefore, when the value of the coherence coefficient coef (f, K) is large, it can be said that there is no deviation in the arrival direction, and that component in the input sound signal comes from the front.
但し、異音の場合には、含まれている周波数成分が1若しくは少数であるので、異音が正面から来た場合に、その含まれている周波数成分についてのコヒーレンス係数coef(f,K)の値だけが大きくなる。図2は、異音に含まれている周波数成分が1つの場合(異音が正弦波異音の場合)における、周波数成分(周波数ビン)毎のコヒーレンス係数coef(f,K)の値(実線)を示したものである。なお、図2では、参考のために、音声信号における周波数成分(周波数ビン)毎のコヒーレンス係数coef(f,K)の値を破線で示している。 However, in the case of abnormal noise, the frequency component included is 1 or a small number, so when the abnormal noise comes from the front, the coherence coefficient coef (f, K) for the included frequency component. Only the value of increases. FIG. 2 shows the value (solid line) of the coherence coefficient coef (f, K) for each frequency component (frequency bin) when the frequency component included in the noise is one (when the noise is a sinusoidal noise). ). In FIG. 2, for reference, the value of the coherence coefficient coef (f, K) for each frequency component (frequency bin) in the audio signal is indicated by a broken line.
コヒーレンス係数計算部14は、得られたコヒーレンス係数coef(f,K)を、modGI計算部15及び判定部16に与える。
The coherence
modGI計算部15は、周波数成分毎のコヒーレンス係数coef(f,K)についてのmodGI値modGI(f,K)を計算し、得られたmodGI値modGI(f,K)を判定部16に与えるものである。modGI値modGI(f,K)の計算式として、上述した(1)式を適用し、(1)式の算出対象信号s(K)にコヒーレンス係数coef(f,K)を代入してmodGI値modGI(f,K)を算出する。(1)式は、特許文献2の(13)式と同じ算出式であるが、特許文献2に記載されている(5)式や(10)式〜(12)式を適用してmodGI値modGI(f,K)を計算するようにしても良い。
The
図3は、第1の実施形態に係る判定部16の詳細構成を示すブロック図である。
FIG. 3 is a block diagram illustrating a detailed configuration of the
図3において、判定部16は、入力信号受信部21、コヒーレンス係数レンジ計算部22、modGIレンジ計算部23、目的音区間判定部24及び判定結果送信部25を有する。
In FIG. 3, the
判定部16は、コヒーレンス係数coef(f,K)及びmodGI値modGI(f,K)に基づいて、入力音信号が目的音(異音)であるか否かを判定するものである。
The
入力信号受信部21は、コヒーレンス係数計算部14からのコヒーレンス係数coef(f,K)及びmodGI計算部15からのmodGI値modGI(f,K)を取込むものである。
The input signal receiving unit 21 receives the coherence coefficient coef (f, K) from the coherence
コヒーレンス係数レンジ計算部22は、coef(f,K)の系列内の最小値と最大値を公知の探索アルゴリズムで探し、両者の差range_coefを算出するものである。
The coherence coefficient
modGIレンジ計算部23は、modGI(f,K)の系列内の最小値と最大値を公知の探索アルゴリズムで探し、両者の差renge_modGIを算出するものである。
The modGI
目的音区間判定部24は、コヒーレンス係数レンジ計算部22で算出されたrange_coefとmodGIレンジ計算部23で算出されたrenge_modGIを用いて、入力音信号が目的音(異音)であるか否かを判定するものである。
The target sound
判定結果送信部25は、目的音区間判定部24による判定結果res(K)を図示しない信号処理部に送信するものである。判定結果res(K)は、例えば、信号処理部(例えば、ボイススイッチ処理部)で利用される。
The determination
(A−3)第1の実施形態の動作
次に、第1の実施形態に係る目的音区間判定装置10の動作を、図面を参照しながら、全体動作、判定部16における動作の順に説明する。
(A-3) Operation of the First Embodiment Next, the operation of the target sound section determination device 10 according to the first embodiment will be described in the order of the overall operation and the operation of the
一対のマイクロホンm1及びm2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部11によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、第1及び第2の指向性形成部12及び13のそれぞれによって、所定の方位に死角を有する指向性信号B1(f,K)、B2(f,K)が生成される。そして、コヒーレンス係数計算部14において、指向性信号B1(f,K)及びB2(f,K)が適用されて、(6)式の演算が実行され、コヒーレンス係数coef(f,K)が算出されてmodGI計算部15及び判定部16に与えられる。modGI計算部15においては、コヒーレンス係数coef(f,K)についてのmodGI値modGI(f,K)が例えば(1)式に従って算出されて判定部16に与えられる。
Signals s1 (n) and s2 (n) input from the pair of microphones m1 and m2 are respectively converted from time domain to frequency domain signals X1 (f, K) and X2 (f, K) by the FFT unit 11. Thereafter, directivity signals B1 (f, K) and B2 (f, K) having a blind spot in a predetermined direction are generated by the first and second
図4は、第1の実施形態に係る判定部16の動作を示すフローチャートである。図4に示す動作は、処理対象フレームKが新たなフレームに切り替わる毎に繰り返し実行される。
FIG. 4 is a flowchart illustrating the operation of the
入力信号受信部21は、コヒーレンス係数計算部14からのコヒーレンス係数coef(f,K)及びmodGI計算部15からのmodGI値modGI(f,K)を受信する(S101)。
The input signal receiving unit 21 receives the coherence coefficient coef (f, K) from the coherence
コヒーレンス係数レンジ計算部22は、全ての周波数成分のコヒーレンス係数coef(f,K)の中の最大値MAX(coef(f,K))と最小値MIN(coef(f,K))とを探索し、探索で得られた最大値MAX(coef(f,K))と最小値MIN(coef(f,K))との差range_coef(K)を算出する(ステップS102)。
The coherence coefficient
modGIレンジ計算部23は、全ての周波数成分のmodGI値modGIの中の最大値MAX(modGI(f,K))と最小値MIN(modGI(f,K))とを探索し、探索で得られた最大値MAX(modGI(f,K))と最小値MIN(modGI(f,K))との差range_modGI(K)を算出する(ステップS103)。
The modGI
目的音区間判定部24は、算出された差range_coef(K)と閾値Ψとを比較する(ステップS104)。同様に、目的音区間判定部24は、算出された差range_modGI(K)と閾値Φとを比較する。ここでの閾値Ψは、シミュレーション等によって予め定められるものであり、目的音(異音)に係る差range_coef(K)と、非目的音に係る差range_coef(K)とを切り分けられる値に選定される。閾値Φについても同様である。
The target sound
算出された差range_coef(K)が閾値Ψ以上であって、算出された差range_modGI(K)が閾値Φより小さい条件のときには、現在の処理対象フレームKは正面異音の区間内のフレームであると判定する。一方、上記条件を満たさない場合には、現在の処理対象フレームKは非目的音の区間内のフレームであると判定する。 When the calculated difference range_coef (K) is equal to or larger than the threshold Ψ and the calculated difference range_modGI (K) is smaller than the threshold Φ, the current processing target frame K is a frame in the front abnormal noise section. Is determined. On the other hand, when the above condition is not satisfied, it is determined that the current processing target frame K is a frame in the non-target sound section.
先述のステップS104の処理において、正面異音の区間内のフレームであると判定されたフレーム(K)について、目的音区間判定部24は、その判定結果res(K)に「1」を格納する(ステップS105)。
The target sound
先述のステップS104の処理において、非目的音の区間内のフレームであると判定されたフレーム(K)について、目的音区間判定部24は、その判定結果res(K)に「0」を格納する(ステップS106)。なお、ステップS105及びステップS106の処理における判定結果res(K)に代入する値(「1」又は「0」)は、一例であり、利用する用途に応じて任意の値を格納しても良い。
For the frame (K) determined to be a frame within the non-target sound section in the process of step S104 described above, the target sound
目的音区間判定部24は、パラメータKをインクリメントする(ステップS107)。そして、新たなフレームが処理対象フレームKになって上述した動作が繰り返される。
The target sound
なお、判定結果res(K)は、判定結果送信部25により図示しない処理部(ボイススイッチ処理部等)に送信される。
The determination result res (K) is transmitted by the determination
(A−4)第1の実施形態の効果
第1の実施形態によれば、1又は少数の周波数成分だけを含む異音が目的音の場合でも、目的音として判定することができるようになる。これにより、音声以外の成分を対象とした異音検出・検査等にも活用することができるようになる。
(A-4) Effect of First Embodiment According to the first embodiment, even when an abnormal sound including only one or a small number of frequency components is the target sound, it can be determined as the target sound. . As a result, it can be used for abnormal sound detection / inspection for components other than speech.
(B)他の実施形態
上記実施形態に加えて、さらに、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments In addition to the above-described embodiments, the following modified embodiments can be exemplified.
(B−1)第1の実施形態ではmodGIを適用する場合を示したが、修正される前のGIも、信号波形の傾き方向が変化する回数とその大きさを測る指標であるので、第1の実施形態におけるmodGIに代えてGIを適用するようにしても良い。 (B-1) Although the case where modGI is applied has been described in the first embodiment, since the GI before correction is also an index for measuring the number and magnitude of changes in the inclination direction of the signal waveform, GI may be applied instead of mod GI in the first embodiment.
(B−2)第1の実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良い。 (B-2) In the first embodiment, the processing performed with the frequency domain signal may be performed with the time domain signal if possible.
(B−3)本発明は、コヒーレンス係数を得た後の構成に特徴を有し、それ以前の構成は、第1の実施形態のものに必ずしも限定されるものではない。例えば、マイクロホンとして3つ以上を有するマイクロホンアレイの信号を処理してコヒーレンス係数を得、その後、modGI(やGI)を算出して目的音に特有な周波数成分を検出するようにしても良い。 (B-3) The present invention is characterized by the configuration after obtaining the coherence coefficient, and the configuration before that is not necessarily limited to that of the first embodiment. For example, a signal of a microphone array having three or more microphones may be processed to obtain a coherence coefficient, and then modGI (or GI) may be calculated to detect a frequency component peculiar to the target sound.
10…目的音区間判定装置、m1、m2…マイクロホン、11…FFT部、12…第1の指向性形成部、13…第2の指向性形成部、14…コヒーレンス係数計算部、15…modGI計算部、16…判定部、21…入力信号受信部、22…コヒーレンス係数レンジ計算部、23…modGIレンジ計算部、24…目的音区間判定部、25…判定結果送信部。 DESCRIPTION OF SYMBOLS 10 ... Target sound area determination apparatus, m1, m2 ... Microphone, 11 ... FFT part, 12 ... 1st directivity formation part, 13 ... 2nd directivity formation part, 14 ... Coherence coefficient calculation part, 15 ... modGI calculation , 16 ... determination unit, 21 ... input signal reception unit, 22 ... coherence coefficient range calculation unit, 23 ... modGI range calculation unit, 24 ... target sound section determination unit, 25 ... determination result transmission unit.
Claims (5)
入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、
形成された複数の指向性信号を用いてコヒーレンス係数を得るコヒーレンス係数計算手段と、
得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を得るコヒーレンス係数特徴量算出手段と、
上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定する目的音区間判定手段と
を有することを特徴とする目的音区間判定装置。 A target sound section determination device for determining a target sound section from a section of an input sound signal using a sound including one or a small number of frequency components as a target sound,
Directivity that forms a plurality of directional signals with different azimuths with a dead angle by applying a delayed subtraction process to the input sound signal to give a directional characteristic having a blind spot in a predetermined direction. Forming means;
A coherence coefficient calculating means for obtaining a coherence coefficient using a plurality of formed directional signals;
A coherence coefficient feature amount calculating means for capturing the obtained coherence coefficient as a time-varying signal and obtaining a coherence coefficient feature amount representing the number of times and the magnitude of the change in the inclination direction of the signal waveform;
A target sound comprising: target sound section determination means for determining whether or not an input sound signal section is a target sound section based on the coherence coefficient range and the coherence coefficient feature amount range. Section determination device.
指向性形成手段が、入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成し、
コヒーレンス係数計算手段が、形成された複数の指向性信号を用いてコヒーレンス係数を取得し、
コヒーレンス係数特徴量算出手段が、得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を取得し、
目的音区間判定手段が、上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定する
ことを特徴とする目的音区間判定方法。 A target sound section determination method for determining a target sound section from a section of an input sound signal using a sound including one or a small number of frequency components as a target sound,
The directivity forming means performs a delay subtraction process on the input sound signal to provide a plurality of directivity signals having a directivity characteristic having a blind spot in a predetermined direction, and a plurality of directivities having different predetermined directions having a blind spot. Form a signal,
A coherence coefficient calculation means acquires a coherence coefficient using a plurality of formed directional signals,
The coherence coefficient feature amount calculation means regards the obtained coherence coefficient as a time-varying signal, acquires a coherence coefficient feature amount representing the number of times and the magnitude of the change in the inclination direction of the signal waveform,
A target sound section, wherein the target sound section determination means determines whether the section of the input sound signal is a target sound section based on the coherence coefficient range and the coherence coefficient feature amount range. Judgment method.
コンピュータを、
入力音信号に遅延減算処理を施すことで、所定方位に死角を有する指向性特性を付与した複数の指向性信号であって、死角を有する所定方位が異なる複数の指向性信号を形成する指向性形成手段と、
形成された複数の指向性信号を用いてコヒーレンス係数を得るコヒーレンス係数計算手段と、
得られたコヒーレンス係数を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表すコヒーレンス係数特徴量を得るコヒーレンス係数特徴量算出手段と、
上記コヒーレンス係数のレンジと上記コヒーレンス係数特徴量のレンジとに基づいて、入力音信号の区間が目的音区間であるか否かを判定する目的音区間判定手段と
して機能させることを特徴とする目的音区間判定プログラム。 A target sound section determination program applied to determine a target sound section from a section of an input sound signal, with a sound including one or a small number of frequency components as a target sound,
Computer
Directivity that forms a plurality of directional signals with different azimuths with a dead angle by applying a delayed subtraction process to the input sound signal to give a directional characteristic having a blind spot in a predetermined direction. Forming means;
A coherence coefficient calculating means for obtaining a coherence coefficient using a plurality of formed directional signals;
A coherence coefficient feature amount calculating means for capturing the obtained coherence coefficient as a time-varying signal and obtaining a coherence coefficient feature amount representing the number of times and the magnitude of the change in the inclination direction of the signal waveform;
Based on the range of the coherence coefficient and the range of the coherence coefficient feature value, the input sound signal is made to function as a target sound section determination unit that determines whether or not a section of the input sound signal is a target sound section. Target sound section judgment program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014262703A JP2016121957A (en) | 2014-12-25 | 2014-12-25 | Target sound section determination device, target sound section determination method, and target sound section determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014262703A JP2016121957A (en) | 2014-12-25 | 2014-12-25 | Target sound section determination device, target sound section determination method, and target sound section determination program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016121957A true JP2016121957A (en) | 2016-07-07 |
Family
ID=56327522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014262703A Pending JP2016121957A (en) | 2014-12-25 | 2014-12-25 | Target sound section determination device, target sound section determination method, and target sound section determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016121957A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017003059T5 (en) | 2016-06-20 | 2019-02-28 | Denso Corporation | AIR SUPPLY DEVICE |
-
2014
- 2014-12-25 JP JP2014262703A patent/JP2016121957A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017003059T5 (en) | 2016-06-20 | 2019-02-28 | Denso Corporation | AIR SUPPLY DEVICE |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6028502B2 (en) | Audio signal processing apparatus, method and program | |
KR101910679B1 (en) | Noise adaptive beamforming for microphone arrays | |
EP1953734B1 (en) | Sound determination method and sound determination apparatus | |
JP6225118B2 (en) | Sound source position estimation | |
JP2015161551A (en) | Sound source direction estimation device, sound source estimation method, and program | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
JP2013182044A (en) | Voice signal processing device, method, and program | |
JP6540730B2 (en) | Sound collection device, program and method, determination device, program and method | |
US10015592B2 (en) | Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium | |
KR101483513B1 (en) | Apparatus for sound source localizatioin and method for the same | |
JP4407538B2 (en) | Microphone array signal processing apparatus and microphone array system | |
JP2016121957A (en) | Target sound section determination device, target sound section determination method, and target sound section determination program | |
JP5007400B2 (en) | Point source detection method | |
JP2010133907A (en) | Angle measurement processing apparatus | |
JP6314475B2 (en) | Audio signal processing apparatus and program | |
JP6711205B2 (en) | Acoustic signal processing device, program and method | |
JP5772562B2 (en) | Objective sound extraction apparatus and objective sound extraction program | |
JP2016122131A (en) | Target sound component detector and program, and target sound extractor and program | |
JP5971047B2 (en) | Audio signal processing apparatus, method and program | |
JP2014035235A (en) | Pulse detection device | |
JP6221258B2 (en) | Signal processing apparatus, method and program | |
JP6763319B2 (en) | Non-purpose sound determination device, program and method | |
JP2014016377A (en) | Voice signal processing device, method, and program | |
JP2016082432A (en) | Microphone system, noise removal method, and program | |
JP6533134B2 (en) | Microphone system, speech recognition device, speech processing method, and speech processing program |