JP5970985B2 - Audio signal processing apparatus, method and program - Google Patents

Audio signal processing apparatus, method and program Download PDF

Info

Publication number
JP5970985B2
JP5970985B2 JP2012151563A JP2012151563A JP5970985B2 JP 5970985 B2 JP5970985 B2 JP 5970985B2 JP 2012151563 A JP2012151563 A JP 2012151563A JP 2012151563 A JP2012151563 A JP 2012151563A JP 5970985 B2 JP5970985 B2 JP 5970985B2
Authority
JP
Japan
Prior art keywords
hangover
target speech
coherence
unit
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012151563A
Other languages
Japanese (ja)
Other versions
JP2014016377A (en
Inventor
克之 高橋
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2012151563A priority Critical patent/JP5970985B2/en
Publication of JP2014016377A publication Critical patent/JP2014016377A/en
Application granted granted Critical
Publication of JP5970985B2 publication Critical patent/JP5970985B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は音声信号処理装置、方法及びプログラムに関し、例えば、携帯電話、テレビ会議などの、音声信号に対して目的音声区間検出などの処理を行う通信装置又は通信ソフトウェアに適用し得るものである。   The present invention relates to an audio signal processing apparatus, method, and program, and can be applied to a communication apparatus or communication software that performs processing such as target audio section detection on an audio signal, such as a mobile phone or a video conference.

目的音声区間検出とは、入力信号から目的話者が発生した発話信号の区間(以下、このような発話信号を目的音声と呼び、その区間を目的音声区間と呼ぶ)か否かを判定し、目的音声区間以外の非目的音声区間と区別する技術のことである(なお、目的音声以外を非目的音声と呼んでいる)。この判定結果に基づいて、後段で、音声符号化処理や雑音抑圧処理などを適宜稼動させるため、目的音声区間検出には高い精度が要求される。一般的な音声検出方法は、特許文献1に記載されているように、目的音声のレベルは変動し、非目的音声区間のレベルは定常的であることを前提として、入力された音声信号レベルの瞬時値と長期平均値とを比較し、瞬時値が長期平均値に所定の閾値以上の差をつけて上回っている区間を目的音声区間とみなす、というものである。   The target speech section detection is to determine whether or not the speech signal generated by the target speaker from the input signal (hereinafter, such speech signal is referred to as the target speech and the section is referred to as the target speech section) This is a technique for distinguishing from non-target voice sections other than the target voice section (note that non-target voices are called non-target voices). Based on this determination result, since speech encoding processing, noise suppression processing, and the like are appropriately operated at a later stage, high accuracy is required for target speech section detection. As described in Patent Document 1, the general speech detection method is based on the assumption that the level of the target speech fluctuates and the level of the non-target speech section is steady. The instantaneous value is compared with the long-term average value, and the section in which the instantaneous value exceeds the long-term average value with a difference of a predetermined threshold or more is regarded as the target voice section.

ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。妨害音声も人間の音声なので、レベル変動は目的音声と同じよう挙動を持つため、従来の手法では、妨害音声の区間も目的音声区間に含まれてしまう、という課題がある。このため、この従来手法を音声符号化処理に適用した場合、妨害音声の特性も符号化後のパラメータに反映されてしまう。また、この従来手法を雑音抑圧処理に適用した場合には、妨害音声区間の信号は除去されず、十分な抑圧性能が得られなくなる。   By the way, the non-target voice is divided into “interfering voice” which is a human voice other than the speaker and “background noise” such as office noise and road noise. Since the disturbing speech is human speech, the level fluctuation has the same behavior as the target speech. Therefore, the conventional method has a problem that the disturbing speech section is included in the target speech section. For this reason, when this conventional method is applied to speech encoding processing, the characteristics of disturbing speech are also reflected in the encoded parameters. In addition, when this conventional method is applied to noise suppression processing, the signal in the disturbing speech section is not removed, and sufficient suppression performance cannot be obtained.

このような課題は、目的音声区間検出部で参照する特徴量を、入力された音声信号レベルの変動から、コヒーレンスに変更することで改善される。コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。携帯電話などの利用を想定した場合、話者の音声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。   Such a problem can be improved by changing the feature amount referred to by the target speech section detection unit to coherence from the fluctuation of the input speech signal level. In brief, coherence is a feature amount that means the arrival direction of an input signal. Assuming the use of mobile phones, etc., the speaker's voice (target voice) comes from the front, and the disturbing voice tends to come from other than the front. It is possible to distinguish between the target voice and the disturbing voice.

図10は、目的音声区間検出機能にコヒーレンスを用いる場合の構成を示すブロック図である。   FIG. 10 is a block diagram showing a configuration when coherence is used for the target speech segment detection function.

一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(n)、s2(n)を取得する。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。   Input signals s1 (n) and s2 (n) are acquired from each of the pair of microphones m_1 and m_2 via an AD converter (not shown). Note that n is an index indicating the input order of samples, and is expressed as a positive integer. In the text, it is assumed that the smaller n is the older input sample, and the larger n is the newer input sample.

FFT部10は、マイクm_1及びm_2から入力信号系列s1(n)及びs2(n)を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)及びFRAME2(K)を構成して適用する。入力信号s1(n)から分析フレームFRAME1(K)を構成する例を以下の(1)式に示すが、分析フレームFRAME2(K)も同様である。

Figure 0005970985
The FFT unit 10 receives input signal sequences s1 (n) and s2 (n) from the microphones m_1 and m_2, and performs fast Fourier transform (or discrete Fourier transform) on the input signals s1 and s2. Thereby, the input signals s1 and s2 can be expressed in the frequency domain. In performing the Fast Fourier Transform, analysis frames FRAME1 (K) and FRAME2 (K) composed of predetermined N samples are configured and applied from the input signals s1 (n) and s2 (n). An example of constructing the analysis frame FRAME1 (K) from the input signal s1 (n) is shown in the following equation (1), and the analysis frame FRAME2 (K) is the same.
Figure 0005970985

なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。   K is an index indicating the order of frames and is expressed by a positive integer. In the text, it is assumed that the smaller the K, the older the analysis frame, and the larger, the newer the analysis frame. In the following description of the operation, it is assumed that the index representing the latest analysis frame to be analyzed is K unless otherwise specified.

FFT部10は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号X1(f,K)、X2(f,K)に変換し、得られた周波数領域信号X1(f,K)及びX2(f,K)をそれぞれ、対応する第1の指向性形成部11、第2の指向性形成部12に与える。なお、fは周波数を表すインデックスである。また、X1(f,K)は単一の値ではなく、(2)式に示すように、複致の周波数f1〜fmのスペクトル成分から構成されるものである。X2(f,K)や後述するB1(f,K)及びB2(f,K)も同様である。   The FFT unit 10 performs fast Fourier transform processing for each analysis frame to convert the frequency domain signals X1 (f, K) and X2 (f, K) into the frequency domain signals X1 (f, K) obtained. And X2 (f, K) are given to the corresponding first directivity forming unit 11 and second directivity forming unit 12, respectively. Note that f is an index representing a frequency. X1 (f, K) is not a single value, but is composed of spectral components of multiple frequencies f1 to fm, as shown in equation (2). The same applies to X2 (f, K) and later-described B1 (f, K) and B2 (f, K).

X1(f,K)={(f1,K),(f2,K),…,(fm,K)} …(2)
第1の指向性形成部11では、周波数領域信号X1(f,K)及びX2(f,K)から特定方向に指向性が強い信号B1(f,K)を形成し、第2の指向性形成部12では、周波数領域信号X1(f,K)及びX2(f,K)から特定方向(上述の特定方向とは異なる)に指向性が強い信号B2(f,K)を形成する。特定方向に指向性が強い信号B1(f,K)、B2(f,K)の形成方法としては既存の方法を適用でき、例えば、(3)式を適用して右方向に指向性が強いB1(f,K)や(4)式を適用して左方向に指向性が強いB2(f,K)が形成できる。(3)式及び(4)式では、フレームインデックスKは演算に関与しないので省略している。

Figure 0005970985
X1 (f, K) = {(f1, K), (f2, K),..., (Fm, K)} (2)
The first directivity forming unit 11 forms a signal B1 (f, K) having strong directivity in a specific direction from the frequency domain signals X1 (f, K) and X2 (f, K), and the second directivity. The forming unit 12 forms a signal B2 (f, K) having strong directivity in a specific direction (different from the above-described specific direction) from the frequency domain signals X1 (f, K) and X2 (f, K). As a method for forming the signals B1 (f, K) and B2 (f, K) having strong directivity in a specific direction, an existing method can be applied. For example, the directivity is strong in the right direction by applying the expression (3). By applying B1 (f, K) and equation (4), B2 (f, K) having strong directivity in the left direction can be formed. In the equations (3) and (4), the frame index K is omitted because it is not involved in the calculation.
Figure 0005970985

これらの式の意味を、(3)式を例に、図11及び図12を用いて説明する。図11(A)に示した方向θから音波が到来し、距離lだけ隔てて設置されている一対のマイクm_1及びm_2で捕捉されたとする。このとき、音波が一対のマイクm_1及びm_2に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をdとすると、d=l×sinθなので、音速をcとすると(5)式で与えられる。   The meaning of these formulas will be described with reference to FIGS. 11 and 12, taking formula (3) as an example. It is assumed that a sound wave arrives from the direction θ shown in FIG. 11A and is captured by a pair of microphones m_1 and m_2 that are set apart by a distance l. At this time, there is a time difference until the sound wave reaches the pair of microphones m_1 and m_2. This arrival time difference τ is given by equation (5), where d = 1 × sin θ, where d is the sound path difference, and c is the sound speed.

τ=l×sinθ/c …(5)
ところで、入力信号s1(n)にτだけ遅延を与えた信号s1(t−τ)は、入力信号s2(t)と同一の信号である。従って、両者の差をとった信号y(t)=s2(t)−s1(t−τ)は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーm_1及びm_2は図11(B)のような指向特性を持つようになる。
τ = 1 × sin θ / c (5)
Incidentally, a signal s1 (t−τ) obtained by delaying the input signal s1 (n) by τ is the same signal as the input signal s2 (t). Therefore, the signal y (t) = s2 (t) −s1 (t−τ) taking the difference between them is a signal from which the sound coming from the θ direction is removed. As a result, the microphone arrays m_1 and m_2 have directivity characteristics as shown in FIG.

なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した(3)式及び(4)式である。今、一例として、到来方向θが±90度であることを想定する。すなわち、第1の指向性形成部11からの指向性信号B1(f)は、図12(A)に示すように右方向に強い指向性を有し、第2の指向性形成部12からの指向性信号B2(f)は、図12(B)に示すように左方向に強い指向性を有する。   In the above, the calculation in the time domain has been described, but the same can be said if it is performed in the frequency domain. The equations in this case are the above-described equations (3) and (4). As an example, it is assumed that the arrival direction θ is ± 90 degrees. That is, the directivity signal B1 (f) from the first directivity forming unit 11 has a strong directivity in the right direction as shown in FIG. The directivity signal B2 (f) has strong directivity in the left direction as shown in FIG.

以上のようにして得られた指向性信号B1(f)、B2(f)に対し、コヒーレンス計算部13で、(6)式、(7)式のような演算を施すことでコヒーレンスCOHが得られる。(6)式におけるB2(f)はB2(f)の共役複素数である。また、フレームインデックスKは、(6)式、(7)式の演算には関与しないので、(6)式、(7)式ではフレームインデックスKの記載を省略している。

Figure 0005970985
A coherence COH is obtained by performing operations such as equations (6) and (7) in the coherence calculator 13 on the directivity signals B1 (f) and B2 (f) obtained as described above. It is done. B2 (f) * in the equation (6) is a conjugate complex number of B2 (f). Since the frame index K is not involved in the calculations of the expressions (6) and (7), the description of the frame index K is omitted in the expressions (6) and (7).
Figure 0005970985

目的音声区間検出部14では、図13に示すように、コヒーレンスCOH(K)を取得すると(ステップS100)、コヒーレンスCOH(K)を目的音声区間判定閾値Θと比較し(ステップS101)、コヒーレンスCOH(K)が目的音声区間判定閾値Θ以上であれば目的音声区間とみなして判定結果変数VAD_RES(K)に1.0を代入し(ステップS102)、コヒーレンスCOH(K)が目的音声区間判定閾値Θより小さければ非目的音声区間(妨害音声、背景雑音の区間)とみなして判定結果変数VAD_RES(K)には0.0を代入し(ステップS103)、判定結果変数VAD_RES(K)を出力する(ステップS104)。そして、次のフレームの処理に移行する(ステップS105)。後段の音声符号化処理や雑音抑圧処理は、この結果に基づいて、目的音声区間か否かに応じた所定の処理を行う。例えば、後段でボイススイッチ処理を行う場合であれば、図5に示すように、判定結果変数VAD_RES(K)の値を確認し(ステップS150)、判定結果変数VAD_RES(K)が1.0であると(目的音声区間であると)、ゲインVS_GAINとして1.0を設定し(ステップS151)、判定結果変数VAD_RES(K)が0.0であると(非目的音声区間であると)、ゲインVS_GAINとして1.0未満の任意の正の数値αを設定し(ステップS152)、得られたゲインVS_GAINを入力信号input(s1(n)若しくはs2(n))に乗算することでボイススイッチ後信号outputを得る(ステップS153)。これにより、非目的音声区間の信号を抑圧することができる。   As shown in FIG. 13, when the target speech segment detection unit 14 acquires coherence COH (K) (step S100), the target speech segment detection unit 14 compares the coherence COH (K) with the target speech segment determination threshold Θ (step S101). If (K) is equal to or greater than the target speech segment determination threshold Θ, it is regarded as the target speech segment and 1.0 is substituted for the determination result variable VAD_RES (K) (step S102), and the coherence COH (K) is the target speech segment determination threshold. If it is smaller than Θ, it is regarded as a non-target speech section (interference speech, background noise section), and 0.0 is substituted for the determination result variable VAD_RES (K) (step S103), and the determination result variable VAD_RES (K) is output. (Step S104). Then, the process proceeds to the next frame (step S105). The subsequent speech encoding processing and noise suppression processing perform predetermined processing according to whether or not the target speech section is based on the result. For example, in the case where voice switch processing is performed in the subsequent stage, as shown in FIG. 5, the value of the determination result variable VAD_RES (K) is confirmed (step S150), and the determination result variable VAD_RES (K) is 1.0. If it exists (if it is the target speech section), 1.0 is set as the gain VS_GAIN (step S151), and if the determination result variable VAD_RES (K) is 0.0 (if it is the non-target speech section), the gain An arbitrary positive numerical value α less than 1.0 is set as VS_GAIN (step S152), and the obtained gain VS_GAIN is multiplied by the input signal input (s1 (n) or s2 (n)) to thereby provide a signal after the voice switch. output is obtained (step S153). Thereby, it is possible to suppress the signal in the non-target speech section.

ここで、コヒーレンスCOHの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスCOHの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる(上述した(6)式はある周波数成分についての相関を算出する式であり、(7)式は全ての周波数成分の相関値の平均を計算している)。従って、コヒーレンスCOHが小さい場合とは、2つの指向性信号B1及びB2の相関が小さい場合であり、反対にコヒーレンスCOHが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。そのため、コヒーレンスCOHが小さい区間は妨害音声区間あるいは背景雑音区間(非目的音声区間)であるといえる。一方、コヒーレンスCOHの値が大きい場合は、到来方向の偏りがないため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスCOHが大きい場合は目的音声区間といえる。   Here, a brief description will be given of the background for detecting the target speech section based on the coherence COH. The concept of coherence COH can be paraphrased as the correlation between the signal coming from the right and the signal coming from the left (the above-mentioned expression (6) is an expression for calculating the correlation for a certain frequency component, and the expression (7) Calculating the average of the correlation values of the frequency components). Therefore, the case where the coherence COH is small is a case where the correlation between the two directivity signals B1 and B2 is small. Conversely, the case where the coherence COH is large can be paraphrased as a case where the correlation is large. The input signal when the correlation is small is the case where the input arrival direction is greatly deviated to the right or left, or a signal having a clear regularity such as noise even if there is no deviation. Therefore, it can be said that the section where the coherence COH is small is a disturbing voice section or a background noise section (non-target voice section). On the other hand, when the value of the coherence COH is large, it can be said that there is no deviation in the arrival direction, and therefore the input signal comes from the front. Now, since it is assumed that the target speech comes from the front, it can be said that it is the target speech section when the coherence COH is large.

特開平07−181991号公報Japanese Patent Laid-Open No. 07-181991

しかしながら、コヒーレンスCOHは、目的音声区間であっても小振幅部では値が小さくなるため、上述した従来の手法では、正面から到来する目的音声であっても、コヒーレンスCOHの値が小さくなって非目的音声区間と誤判定されることも生じる。   However, since the coherence COH has a small value in the small amplitude portion even in the target speech section, the above-described conventional method reduces the value of the coherence COH even if the target speech arrives from the front. It may also be erroneously determined as the target speech section.

そのため、目的音声の振幅の大小によらずに、目的音声区間を正しく検出することができる音声信号処理装置、方法及びプログラムが望まれている。   Therefore, an audio signal processing apparatus, method, and program capable of correctly detecting the target voice section regardless of the amplitude of the target voice are desired.

第1の本発明は、入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理装置において、(1)入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、(2)入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、(3)前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、(4)前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部とを有することを特徴とする。   According to a first aspect of the present invention, in an audio signal processing device that separates a target audio segment and a non-target audio segment from an input audio signal, (1) a delay subtraction process is performed on the input audio signal, thereby A first directivity forming unit that forms a first directivity signal having a directivity characteristic having a blind spot, and (2) applying a delay subtraction process to the input audio signal, Uses a second directivity forming section for forming a second directivity signal having a directivity characteristic having a blind spot in a different second predetermined orientation; and (3) using the first and second directivity signals. A coherence calculation unit for obtaining coherence, and (4) comparing the coherence with a target speech segment determination threshold, and whether the input speech signal is a target speech segment arriving from a target direction or other non-target speech It is determined whether it is a section and the coffee And a determination result obtained by comparison using the target speech segment determination threshold changes from a target speech segment to a non-target speech segment. And a target speech segment detection / hangover imparting unit that continues the determination result of the target speech segment by the hangover length.

第2の本発明は、入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理方法において、(1)第1の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成し、(2)第2の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成し、(3)コヒーレンス計算部は、前記第1及び第2の指向性信号を用いてコヒーレンスを計算し、(4)目的音声区間検出・ハングオーバー付与部は、計算された前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させることを特徴とする。   According to a second aspect of the present invention, there is provided an audio signal processing method for separating a target audio segment and a non-target audio segment from an input audio signal. (1) The first directivity forming unit performs a delay subtraction process on an input audio signal. As a result, a first directivity signal having a directivity characteristic having a blind spot in the first predetermined direction is formed. (2) The second directivity forming unit performs a delay subtraction process on the input audio signal. Thus, a second directivity signal having a directivity characteristic having a blind spot in a second predetermined orientation different from the first predetermined orientation is formed, and (3) a coherence calculation unit is configured to (4) The target speech segment detection / hangover imparting unit compares the calculated coherence with the target speech segment determination threshold, and the input speech signal Section of the target voice coming from the direction In addition to determining whether it is a non-target speech segment other than that, the coherence is compared with a hangover provision threshold value that is larger than the target speech segment determination threshold value, and a determination result by comparison using the target speech segment determination threshold value is Even if the target speech section changes to the non-target speech section, the determination result of the target speech section is continued for a predetermined hangover length.

第3の本発明の音声信号処理プログラムは、コンピュータを、(1)入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、(2)入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、(3)前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、(4)前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部として機能させることを特徴とする。   The audio signal processing program according to the third aspect of the present invention is the first directivity in which the computer has (1) delayed directivity processing applied to the input audio signal to give a directivity characteristic having a blind spot in the first predetermined direction. A first directivity forming unit that forms a signal, and (2) performing a delay subtraction process on the input audio signal, thereby providing a directivity characteristic having a blind spot in a second predetermined direction different from the first predetermined direction. A second directivity forming unit that forms the given second directivity signal, (3) a coherence calculation unit that obtains coherence using the first and second directivity signals, and (4) the coherence Compared with the target speech segment determination threshold, it is determined whether the input speech signal is a target speech segment arriving from the target direction or any other non-target speech segment, and the coherence and the target speech segment are determined. C that is greater than the judgment threshold Even if the determination result by comparison using the target speech segment determination threshold changes from the target speech segment to the non-target speech segment, the determination result that the target speech segment is determined by the predetermined hangover length It is made to function as a target voice section detection and hangover provision part which continues.

本発明によれば、目的音声の振幅の大小によらずに、目的音声区間を正しく検出することができる。   According to the present invention, it is possible to correctly detect the target speech section regardless of the amplitude of the target speech.

第1の実施形態に係る音声信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice signal processing apparatus which concerns on 1st Embodiment. 第1の実施形態の音声信号処理装置における目的音声区間検出・ハングオーバー付与部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the target audio | voice area detection and hangover provision part in the audio | voice signal processing apparatus of 1st Embodiment. 第2の実施形態に係る音声信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice signal processing apparatus which concerns on 2nd Embodiment. 第2の実施形態の音声信号処理装置におけるハングオーバーカウンタ初期化閾値制御部の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of the hangover counter initialization threshold value control part in the audio | voice signal processing apparatus of 2nd Embodiment. 図4の初期化閾値記憶部の構成例を示す説明図である。FIG. 5 is an explanatory diagram illustrating a configuration example of an initialization threshold value storage unit in FIG. 4. 第2の実施形態の音声信号処理装置におけるハングオーバーカウンタ初期化閾値制御部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the hangover counter initialization threshold value control part in the audio | voice signal processing apparatus of 2nd Embodiment. 第3の実施形態に係る音声信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice signal processing apparatus which concerns on 3rd Embodiment. 第3の実施形態の音声信号処理装置におけるハングオーバーカウンタ初期値制御部の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of the hangover counter initial value control part in the audio | voice signal processing apparatus of 3rd Embodiment. 図8の初期値記憶部の構成例を示す説明図である。It is explanatory drawing which shows the structural example of the initial value memory | storage part of FIG. 目的音声検出機能にコヒーレンスを用いる場合の構成を示すブロック図である。It is a block diagram which shows the structure in the case of using coherence for a target audio | voice detection function. 図10の指向性形成部からの指向性信号の性質を示す説明図である。It is explanatory drawing which shows the property of the directivity signal from the directivity formation part of FIG. 図10の2つの指向性形成部による指向性の特性を示す説明図である。It is explanatory drawing which shows the characteristic of the directivity by the two directivity formation parts of FIG. 図10の目的音声区間検出部の処理を示すフローチャートである。It is a flowchart which shows the process of the target audio | voice area detection part of FIG. ボイススイッチ処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a voice switch process.

(A)第1の実施形態
以下、本発明による音声信号処理装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。第1の実施形態は、コヒーレンスCOHに基づいて目的音声区間を検出するにつき、目的音声の振幅が小さくても目的音声区間を正しく検出できるようにハングオーバー機能を導入したものである。
(A) First Embodiment Hereinafter, a first embodiment of an audio signal processing apparatus, method, and program according to the present invention will be described with reference to the drawings. In the first embodiment, a hangover function is introduced so that the target speech section can be detected correctly even when the amplitude of the target speech is small when detecting the target speech section based on the coherence COH.

(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した図10との同一、対応部分には同一符号を付して示している。ここで、一対のマイクm_1及びm_2を除いた部分は、CPUが実行するソフトウェア(音声信号処理プログラム)として実現することも可能であるが、機能的には、図1で表すことができる。
(A-1) Configuration of the First Embodiment FIG. 1 is a block diagram showing the configuration of the audio signal processing apparatus according to the first embodiment. Is shown. Here, the part excluding the pair of microphones m_1 and m_2 can be realized as software (audio signal processing program) executed by the CPU, but can be functionally represented in FIG.

図1において、第1の実施形態に係る音声信号処理装置1は、従来と同様なマイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12及びコヒーレンス計算部13に加え、目的音声区間検出・ハングオーバー付与部15を有する。目的音声区間検出・ハングオーバー付与部15は、従来の目的音声区間検出部14に代えて設けられたものである。   In FIG. 1, an audio signal processing apparatus 1 according to the first embodiment includes microphones m_1 and m_2, an FFT unit 10, a first directivity forming unit 11, a second directivity forming unit 12, and a coherence calculation similar to those in the conventional art. In addition to the unit 13, a target speech segment detection / hangover provision unit 15 is provided. The target speech segment detection / hangover imparting unit 15 is provided in place of the conventional target speech segment detection unit 14.

ここで、マイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12及びコヒーレンス計算部13は、従来と同様な機能を担っているので、その機能説明は省略する。   Here, since the microphones m_1, m_2, the FFT unit 10, the first directivity forming unit 11, the second directivity forming unit 12, and the coherence calculating unit 13 have the same functions as the conventional ones, the function description thereof is as follows. Omitted.

目的音声区間検出・ハングオーバー付与部15は、コヒーレンスCOHに基づいて目的音声区間か非目的音声区間かを判定させると共に、目的音声区間であるという判定結果を一定時間だけ保持させるようにしたものである。目的音声区間検出・ハングオーバー付与部15の具体的な機能については、後述する動作説明の項で明らかにする。   The target speech segment detection / hangover giving unit 15 determines whether the target speech segment or non-target speech segment is based on the coherence COH, and holds the determination result that the target speech segment is the target speech segment for a certain period of time. is there. The specific function of the target speech section detection / hangover provision unit 15 will be clarified in the section of the operation description to be described later.

(A−2)第1の実施形態の動作
次に、第1の実施形態の音声信号処理装置1の動作を、図面を参照しながら、全体動作、目的音声区間検出・ハングオーバー付与部15における詳細動作の順に説明する。
(A-2) Operation of the First Embodiment Next, the operation of the audio signal processing device 1 of the first embodiment will be described in the overall operation, target audio section detection / hangover giving unit 15 with reference to the drawings. Detailed operations will be described in this order.

一対のマイクm_1及びm_2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部10によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、第1及び第2の指向性形成部11及び12のそれぞれによって、所定の方位に死角を有する指向性信号B1(f,K)、B2(f,K)が生成される。そして、コヒーレンス計算部13において、指向性信号B1(f,K)及びB2(f,K)を適用して、(6)式及び(7)式の演算が実行され、コヒーレンスCOH(K)が算出される。   The signals s1 (n) and s2 (n) input from the pair of microphones m_1 and m_2 are respectively converted from the time domain to the frequency domain signals X1 (f, K) and X2 (f, K) by the FFT unit 10. After that, directivity signals B1 (f, K) and B2 (f, K) having a blind spot in a predetermined direction are generated by the first and second directivity forming units 11 and 12, respectively. Then, the coherence calculation unit 13 applies the directivity signals B1 (f, K) and B2 (f, K) to execute the calculations of the equations (6) and (7), and the coherence COH (K) is calculated. Calculated.

目的音声区間検出・ハングオーバー付与部15においては、コヒーレンスCOH(K)に基づいて目的音声区間か非目的音声区間かが判定されると共に、目的音声区間であるという判定結果は一定時間だけ保持され、そのようにして形成された判定結果変数VAD_RES(K)が後段に出力される。   The target speech section detection / hangover giving unit 15 determines whether the target speech section or non-target speech section is based on the coherence COH (K), and the determination result that the target speech section is the target speech section is held for a certain period of time. The determination result variable VAD_RES (K) thus formed is output to the subsequent stage.

次に、目的音声区間検出・ハングオーバー付与部15の動作を説明する。図2は、目的音声区間検出・ハングオーバー付与部15の動作を示すフローチャートであり、上述した図13との同一、対応ステップには同一符号を付して示している。   Next, the operation of the target speech segment detection / hangover giving unit 15 will be described. FIG. 2 is a flowchart showing the operation of the target speech section detection / hangover assignment unit 15, and the same reference numerals are given to the same and corresponding steps as in FIG. 13 described above.

目的音声区間検出・ハングオーバー付与部15は、コヒーレンスCOH(K)を受信すると(ステップS100)、コヒーレンスCOH(K)とハングオーバーカウンタ初期化閾値Ψと比較する(ステップS200)。そして、コヒーレンスCOH(K)が閾値Ψ以上であると、目的音声区間であると判定し、判定結果変数VAD_RES(K)に1.0を、ハングオーバーカウンタcounterにはカウンタ初期値LENGTHを代入する(ステップS201)。ここで、カウンタ初期値LENGTHは、どの程度の期間、目的音声区間判定結果変数(VAD_RES(K)=1.0)を保持するかを制御する変数であり、設計者が任意の値を定めれば良い。   When receiving the coherence COH (K) (step S100), the target speech section detection / hangover giving unit 15 compares the coherence COH (K) with the hangover counter initialization threshold Ψ (step S200). If the coherence COH (K) is equal to or greater than the threshold Ψ, it is determined that the target speech section is present, and 1.0 is assigned to the determination result variable VAD_RES (K), and the counter initial value LENGTH is substituted for the hangover counter counter. (Step S201). Here, the counter initial value LENGTH is a variable that controls how long the target speech segment determination result variable (VAD_RES (K) = 1.0) is held, and the designer can set an arbitrary value. It ’s fine.

一方、コヒーレンスCOH(K)が閾値Ψより小さいと、目的音声区間検出・ハングオーバー付与部15は、コヒーレンスCOH(K)と目的音声区間判定閾値Φ(但しΨ>Φ)と比較する(ステップS202)。そして、コヒーレンスCOH(K)が閾値Φ以上であると、ハングオーバーカウンタcounterを操作することなく、判定結果変数VAD_RES(K)に1.0を代入することだけを行う(ステップS203)。   On the other hand, if the coherence COH (K) is smaller than the threshold Ψ, the target speech segment detection / hangover provision unit 15 compares the coherence COH (K) with the target speech segment determination threshold Φ (provided that Ψ> Φ) (step S202). ). If the coherence COH (K) is equal to or greater than the threshold Φ, only 1.0 is substituted into the determination result variable VAD_RES (K) without operating the hangover counter counter (step S203).

目的音声区間検出・ハングオーバー付与部15は、コヒーレンスCOH(K)が閾値Φより小さいと、ハングオーバーカウンタcounterが正か否かを判定する(ステップS204)。そして、ハングオーバーカウンタcounterが正であればコヒーレンスCOH(K)は小さくても目的音声区間と判定し、判定結果変数VAD_RES(K)に1.0を代入すると共に、ハングオーバーカウンタcounterを1デクリメントする。   If the coherence COH (K) is smaller than the threshold value Φ, the target speech section detection / hangover provision unit 15 determines whether or not the hangover counter counter is positive (step S204). If the hangover counter counter is positive, even if the coherence COH (K) is small, it is determined as the target speech section, 1.0 is substituted for the determination result variable VAD_RES (K), and the hangover counter counter is decremented by one. To do.

一方、コヒーレンスCOH(K)が閾値Φより小さい上に、ハングオーバーカウンタcounterが0以下であれば、目的音声区間検出・ハングオーバー付与部15は、非目的音声区間と判定し、判定結果変数VAD_RES(K)に0.0を代入する(ステップS206)。   On the other hand, if the coherence COH (K) is smaller than the threshold Φ and the hangover counter counter is 0 or less, the target speech segment detection / hangover imparting unit 15 determines that the target speech segment is a non-target speech segment, and the determination result variable VAD_RES Substitute 0.0 for (K) (step S206).

その後、目的音声区間検出・ハングオーバー付与部15は、判定結果変数VAD_RES(K)を後段に出力し(ステップS104)、次のフレームの処理に移行する(ステップS105)。   Thereafter, the target speech section detection / hangover assignment unit 15 outputs the determination result variable VAD_RES (K) to the subsequent stage (step S104), and proceeds to processing of the next frame (step S105).

以上のような処理を通じて、一旦、コヒーレンスCOH(K)が閾値Ψ以上となってハングオーバーカウンタcounterにカウンタ初期値LENGTHが代入されると、コヒーレンスCOH(K)が閾値Φより小さくなっても、ハングオーバーカウンタcounterが正である期間だけ、コヒーレンスCOH(K)が閾値Φ以上である場合と同様な判定結果変数VAD_RES(K)が継続して出力される。   Through the above processing, once the coherence COH (K) becomes equal to or greater than the threshold Ψ and the counter initial value LENGTH is substituted into the hangover counter counter, even if the coherence COH (K) becomes smaller than the threshold Φ, Only during the period when the hangover counter counter is positive, the same determination result variable VAD_RES (K) as when the coherence COH (K) is equal to or greater than the threshold Φ is continuously output.

(A−3)第1の実施形態の効果
第1の実施形態によれば、コヒーレンスCOHに基づいて目的音声区間を検出するにつき、コヒーレンスCOHが大きい状態から小さい状態に移行したときには、コヒーレンスCOHが目的音声区間判定閾値Φより小さくても、所定期間だけ目的音声と判定させるようにしたので、目的音声の振幅が小さくてコヒーレンスCOHが小さくなっても目的音声区間を正しく検出することができる。
(A-3) Effect of First Embodiment According to the first embodiment, when the target speech section is detected based on the coherence COH, when the coherence COH shifts from a large state to a small state, the coherence COH is Even if it is smaller than the target speech segment determination threshold Φ, the target speech segment is determined only for a predetermined period. Therefore, even if the amplitude of the target speech is small and the coherence COH is small, the target speech segment can be detected correctly.

これにより、第1の実施形態の音声処理装置を、テレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。また、第1の実施形態を、ボイススイッチ、音源分離、音声符号化などの音声信号処理機能と併用することで、これらの機能によって得られる効果をさらに向上させることができる。   As a result, application of the audio processing device of the first embodiment to a communication device such as a video conference system or a mobile phone can be expected to improve call sound quality. Further, by using the first embodiment in combination with voice signal processing functions such as a voice switch, sound source separation, and voice coding, the effects obtained by these functions can be further improved.

(B)第2の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。
(B) Second Embodiment Next, a second embodiment of the audio signal processing apparatus, method and program according to the present invention will be described with reference to the drawings.

第2の実施形態は、第1の実施形態で生じる可能性がある不都合を解消しようとしたものである。   The second embodiment is intended to eliminate the inconvenience that may occur in the first embodiment.

背景雑音が重畳されると、目的音声区間でのコヒーレンスは極大値が小さくなり、極小値が大きくなる、という挙動をする。極大値が小さくなるのは、音声信号よりも波形の規則性が低い背景雑音の影響も反映されてコヒーレンス値が算出されてしまうためである。また、極小値が大きくなるのは、背景雑音は規則性が低いとはいえ無音の場合よりは規則性が出るためである。   When background noise is superimposed, the coherence in the target speech section behaves such that the maximum value decreases and the minimum value increases. The reason why the maximum value is small is that the coherence value is calculated by reflecting the influence of background noise whose waveform regularity is lower than that of the audio signal. Also, the minimum value is large because the background noise is more regular than the silent case although the regularity is low.

このため、第1の実施形態をそのまま適用した場合、背景雑音によっては、コヒーレンスCOH(K)がハングオーバーカウンタ初期化閾値Ψを上回る頻度が下がり、十分にハングオーバーが付与きれなくなってしまい、目的音声区間判定に誤判定が生じる。   Therefore, when the first embodiment is applied as it is, depending on the background noise, the frequency at which the coherence COH (K) exceeds the hangover counter initialization threshold Ψ is reduced, and the hangover cannot be sufficiently provided. An erroneous determination occurs in the speech segment determination.

第2の実施形態は、このような第1の実施形態の不都合を解消するために、背景雑音重畳時には、目的音声区間におけるコヒーレンスCOH(K)のばらつきが小さくなるという特徴を用いて、ハングオーバーカウンタ初期化閾値Ψを目的音声区間のコヒーレンスCOH(K)のばらつきに応じて適応的に制御することとした。第2の実施形態では、コヒーレンスCOH(K)のばらつきを表す指標として分散を用いている。   In order to eliminate the inconvenience of the first embodiment, the second embodiment uses a feature that variation in coherence COH (K) in the target speech section is reduced when background noise is superimposed. The counter initialization threshold Ψ is adaptively controlled according to the variation of the coherence COH (K) in the target speech section. In the second embodiment, dispersion is used as an index representing variation in coherence COH (K).

(B−1)第2の実施形態の構成
図3は、第2の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing a configuration of an audio signal processing device according to the second embodiment, which is the same as FIG. 1 according to the first embodiment described above. Corresponding parts are denoted by the same reference numerals.

図3において、第2の実施形態に係る音声信号処理装置1Aは、第1の実施形態と同様なマイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12、コヒーレンス計算部13及び目的音声区間検出・ハングオーバー付与部15に加え、ハングオーバーカウンタ初期化閾値制御部16を有する。   In FIG. 3, the audio signal processing apparatus 1A according to the second embodiment includes microphones m_1 and m_2, an FFT unit 10, a first directivity forming unit 11, and a second directivity forming unit similar to those in the first embodiment. 12, in addition to the coherence calculation unit 13 and the target speech section detection / hangover provision unit 15, a hangover counter initialization threshold control unit 16 is provided.

ここで、マイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12、コヒーレンス計算部13及び目的音声区間検出・ハングオーバー付与部15は、第1の実施形態と同様な機能を担っているので、その機能説明は省略する。   Here, the microphones m_1, m_2, the FFT unit 10, the first directivity forming unit 11, the second directivity forming unit 12, the coherence calculation unit 13, and the target speech section detection / hangover provision unit 15 are the first implementation. Since it has the same function as that of the embodiment, the description of the function is omitted.

ハングオーバーカウンタ初期化閾値制御部16は、コヒーレンスCOH(K)と、目的音声区間検出結果変数VAD_RES(K)とに基づき、目的音声区間におけるコヒーレンスの分散を算出し、算出した分散に基づいて、ハングオーバーカウンタ初期化閾値Ψを定めて目的音声区間検出・ハングオーバー付与部15に設定するものである。   The hangover counter initialization threshold value controller 16 calculates the variance of the coherence in the target speech interval based on the coherence COH (K) and the target speech interval detection result variable VAD_RES (K), and based on the calculated variance, A hangover counter initialization threshold Ψ is determined and set in the target speech section detection / hangover provision unit 15.

上述したように、背景雑音が重畳されると、目的音声区間におけるコヒーレンスの極大値は小さくなり、極小値は大きくなることから、目的音声区間ではコヒーレンスの分散が小さくなるといえる。従って、目的音声区間におけるコヒーレンスの分散が大きければ背景雑音は重畳されておらず、反対に分散が小さければ背景雑音が重畳されている、という判定が可能となる。従って、目的音声区間におけるコヒーレンスの分散の値に応じて、ハングオーバーカウンタ初期化閾値Ψを制御すれば、背景雑音重畳時の目的音声区間の誤判定を改善することができる。   As described above, when background noise is superimposed, the maximum value of coherence in the target speech section becomes small and the minimum value becomes large. Therefore, it can be said that the coherence variance becomes small in the target speech section. Therefore, it is possible to determine that the background noise is not superimposed if the coherence variance in the target speech section is large, and that the background noise is superimposed if the variance is small. Therefore, if the hangover counter initialization threshold Ψ is controlled in accordance with the coherence variance value in the target speech section, erroneous determination of the target speech section when background noise is superimposed can be improved.

図4は、ハングオーバーカウンタ初期化閾値制御部16の内部構成を示すブロック図である。   FIG. 4 is a block diagram showing the internal configuration of the hangover counter initialization threshold value controller 16.

図4において、ハングオーバーカウンタ初期化閾値制御部16は、コヒーレンス・判定結果受信部21、閾値更新制御部22、分散計算部23、ハングオーバーカウンタ初期化閾値照合部24、初期化閾値記憶部25及びハングオーバーカウンタ初期化閾値送信部26を有する。   In FIG. 4, the hangover counter initialization threshold control unit 16 includes a coherence / determination result reception unit 21, a threshold update control unit 22, a variance calculation unit 23, a hangover counter initialization threshold verification unit 24, and an initialization threshold storage unit 25. And a hangover counter initialization threshold transmitter 26.

コヒーレンス・判定結果受信部21は、コヒーレンス計算部13からコヒーレンスCOH(K)を目的音声区間検出・ハングオーバー付与部15から判定結果変数VAD_RES(K)を受け取るものである。   The coherence / determination result receiving unit 21 receives the coherence COH (K) from the coherence calculation unit 13 and the determination result variable VAD_RES (K) from the target speech section detection / hangover providing unit 15.

閾値更新制御部22は、判定結果変数VAD_RES(K)を参照して目的音声区間か否かを判定し、目的音声区間でのみ、分散計算部23、ハングオーバーカウンタ初期化閾値照合部24及び初期化閾値記憶部25を有効に機能させるものである。閾値更新制御部22は、非目的音声区間では、直前のハングオーバーカウンタ初期化閾値を維持させるものである。   The threshold update control unit 22 refers to the determination result variable VAD_RES (K) to determine whether or not it is the target speech segment, and only in the target speech segment, the variance calculation unit 23, the hangover counter initialization threshold collation unit 24, and the initial value The threshold value storage unit 25 is made to function effectively. The threshold update control unit 22 maintains the immediately previous hangover counter initialization threshold in the non-target speech section.

分散計算部23は、目的音声区間におけるコヒーレンスの分散variance(K)を計算するものである。ここで、最古サンプルまでの時間差は変動することがあるが所定サンプル数のコヒーレンスを用いて分散を計算するようにしても良く、また、サンプル数は変動することがあるが所定期間内のサンプルを用いて分散を計算するようにしても良い。   The variance calculation unit 23 calculates a variance variance (K) of coherence in the target speech section. Here, the time difference to the oldest sample may vary, but the variance may be calculated using the coherence of a predetermined number of samples, and the number of samples may vary, but the samples within a predetermined period The variance may be calculated using

初期化閾値記憶部25は、コヒーレンスの分散varianceの範囲と、ハングオーバーカウンタ初期化閾値Ψの値とを対応付けて記憶しているものである。図5は、初期化閾値記憶部25の構成例を示す説明図である。分散varianceがA以上B未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてαが対応付けられ、分散varianceがB以上C未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてβ(α<β)が対応付けられ、分散varianceがC以上D未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてγ(β<γ)が対応付けられている。   The initialization threshold value storage unit 25 stores the coherence variance variation range and the hangover counter initialization threshold value Ψ in association with each other. FIG. 5 is an explanatory diagram illustrating a configuration example of the initialization threshold value storage unit 25. The range where the variance variation is greater than or equal to A and less than B is associated with α as the value of the hangover counter initialization threshold Ψ, and the range where the variance variance is greater than or equal to B and less than C is β ( In a range where α <β) is associated and the variance variation is greater than or equal to C and less than D, γ (β <γ) is associated as the value of the hangover counter initialization threshold Ψ.

以上のようなA<B<C<D、α<β<γという大小関係にすることにより、分散が小さい(背景雑音が重畳されている)場合には、ハングオーバーカウンタ初期化閾値Ψを小さくすることができ、目的音声区間中でのハングオーバー効果が損なわれることを防止できる。   By setting the magnitude relationship as A <B <C <D and α <β <γ as described above, when the variance is small (background noise is superimposed), the hangover counter initialization threshold Ψ is reduced. It is possible to prevent the hangover effect in the target speech section from being impaired.

ハングオーバーカウンタ初期化閾値照合部24は、分散計算部23が計算したコヒーレンスの分散variance(K)をキーとして、初期化閾値記憶部25を照合し、その分散variance(K)の値が属する範囲に対応付けられているハングオーバーカウンタ初期化閾値Ψの値を取り出すものである。   The hangover counter initialization threshold value collation unit 24 collates the initialization threshold value storage unit 25 with the covariance variance variation (K) calculated by the variance calculation unit 23 as a key, and the range to which the value of the variance variation (K) belongs. The value of the hangover counter initialization threshold Ψ associated with is extracted.

ハングオーバーカウンタ初期化閾値送信部26は、ハングオーバーカウンタ初期化閾値照合部24が得たハングオーバーカウンタ初期化閾値Ψの値、若しくは、直前(K−1)フレームのハングオーバーカウンタ初期化閾値Ψの値を、目的音声区間検出・ハングオーバー付与部15に送信するものである。   The hangover counter initialization threshold value transmission unit 26 receives the value of the hangover counter initialization threshold value ψ obtained by the hangover counter initialization threshold value comparison unit 24, or the hangover counter initialization threshold value ψ for the immediately preceding (K-1) frame. Is transmitted to the target speech segment detection / hangover assigning unit 15.

第2の実施形態の目的音声区間検出・ハングオーバー付与部15は、ハングオーバーカウンタ初期化閾値制御部16からのハングオーバーカウンタ初期化閾値Ψ(K)を適用して、ハングオーバー付与機能を実行するものである。   The target speech section detection / hangover provision unit 15 according to the second embodiment executes the hangover provision function by applying the hangover counter initialization threshold Ψ (K) from the hangover counter initialization threshold control unit 16. To do.

(B−2)第2の実施形態の動作
次に、第2の実施形態の音声信号処理装置1Aの動作を、図面を参照しながら、全体動作、ハングオーバーカウンタ初期化閾値照合部24における詳細動作の順に説明する。
(B-2) Operation of the Second Embodiment Next, the operation of the audio signal processing device 1A of the second embodiment will be described in detail in the overall operation, the hangover counter initialization threshold value collation unit 24 with reference to the drawings. The operation will be described in the order.

一対のマイクm_1及びm_2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部10によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、第1及び第2の指向性形成部11及び12のそれぞれによって、所定の方位に死角を有する指向性信号B1(f,K)、B2(f,K)が生成される。そして、コヒーレンス計算部13において、指向性信号B1(f,K)及びB2(f,K)を適用して、(6)式及び(7)式の演算が実行され、コヒーレンスCOH(K)が算出される。   The signals s1 (n) and s2 (n) input from the pair of microphones m_1 and m_2 are respectively converted from the time domain to the frequency domain signals X1 (f, K) and X2 (f, K) by the FFT unit 10. After that, directivity signals B1 (f, K) and B2 (f, K) having a blind spot in a predetermined direction are generated by the first and second directivity forming units 11 and 12, respectively. Then, the coherence calculation unit 13 applies the directivity signals B1 (f, K) and B2 (f, K) to execute the calculations of the equations (6) and (7), and the coherence COH (K) is calculated. Calculated.

ハングオーバーカウンタ初期化閾値制御部16においては、コヒーレンスCOH(K)と、目的音声区間検出結果変数VAD_RES(K)とに基づき、目的音声区間におけるコヒーレンスの分散が算出され、さらに、算出された分散に基づいて、ハングオーバーカウンタ初期化閾値Ψが定められて目的音声区間検出・ハングオーバー付与部15に与えられる。   The hangover counter initialization threshold value controller 16 calculates the coherence variance in the target speech section based on the coherence COH (K) and the target speech section detection result variable VAD_RES (K), and further calculates the calculated variance. Based on the above, a hangover counter initialization threshold Ψ is determined and provided to the target speech segment detection / hangover provision unit 15.

目的音声区間検出・ハングオーバー付与部15においては、コヒーレンスCOH(K)に基づいて、目的音声区間か非目的音声区間かが判定されると共に、コヒーレンスCOH(K)がハングオーバーカウンタ初期化閾値制御部16から与えられたハングオーバーカウンタ初期化閾値Ψ(K)以上のときには、目的音声区間であるという判定結果が一定時間だけ保持され(上述した図2参照)、そのようにして形成された判定結果変数VAD_RES(K)が後段に出力される。   The target speech section detection / hangover assignment unit 15 determines whether the target speech section or non-target speech section is based on the coherence COH (K), and the coherence COH (K) controls the hangover counter initialization threshold. When the value is equal to or greater than the hangover counter initialization threshold Ψ (K) given by the unit 16, the determination result that the target speech section is the target is held for a certain period of time (see FIG. 2 described above), and the determination formed in this way. The result variable VAD_RES (K) is output to the subsequent stage.

次に、ハングオーバーカウンタ初期化閾値制御部16の動作を説明する。図6は、ハングオーバーカウンタ初期化閾値制御部16の動作を示すフローチャートである。   Next, the operation of the hangover counter initialization threshold value control unit 16 will be described. FIG. 6 is a flowchart showing the operation of the hangover counter initialization threshold value control unit 16.

コヒーレンス計算部13からのコヒーレンスCOH(K)及び目的音声区間検出・ハングオーバー付与部15からの判定結果変数VAD_RES(K)がコヒーレンス・判定結果受信部21によって受信される(ステップS250)。そして、閾値更新制御部22によって、判定結果変数VAD_RES(K)が参照されて、目的音声区間か否かが判定される(ステップS251)。この判定は、言い換えると、ハングオーバーカウンタ初期化閾値Ψを見直す目的音声区間か、直前のハングオーバーカウンタ初期化閾値Ψを継続(流用)する非目的音声区間かの判定になっている。   The coherence COH (K) from the coherence calculation unit 13 and the determination result variable VAD_RES (K) from the target speech section detection / hangover provision unit 15 are received by the coherence / determination result reception unit 21 (step S250). Then, the threshold update control unit 22 refers to the determination result variable VAD_RES (K) to determine whether or not it is the target speech section (step S251). In other words, this determination is a determination as to whether the target speech section is a review of the hangover counter initialization threshold Ψ or a non-target speech section in which the previous hangover counter initialization threshold Ψ is continued (applied).

判定結果変数VAD_RES(K)が目的音声区間であることを表す値になっていると、分散計算部23によって、入力されたコヒーレンスCOH(K)も利用されて、目的音声区間におけるコヒーレンスの分散variance(K)が計算される(ステップS252)。そして、ハングオーバーカウンタ初期化閾値照合部24によって、初期化閾値記憶部25から、算出された分散variance(K)に応じたハングオーバーカウンタ初期化閾値Ψ(K)が得られる(ステップS253)。   If the determination result variable VAD_RES (K) is a value indicating that it is the target speech section, the variance calculation unit 23 also uses the input coherence COH (K), so that the variance variance of the coherence in the target speech section is used. (K) is calculated (step S252). Then, the hangover counter initialization threshold value collating unit 24 obtains the hangover counter initialization threshold value Ψ (K) corresponding to the calculated variance variation (K) from the initialization threshold value storage unit 25 (step S253).

一方、判定結果変数VAD_RES(K)が目的音声区間であることを表す値になっていると、閾値更新制御部22によって、直前フレームで適用されていた初期化判定閾値が、今回のフレームにおいてもハングオーバーカウンタ初期化閾値Ψ(K)として設定される(ステップS254)。   On the other hand, if the determination result variable VAD_RES (K) is a value indicating that it is the target speech section, the initialization determination threshold applied in the immediately preceding frame by the threshold update control unit 22 is the same in the current frame. The hangover counter initialization threshold Ψ (K) is set (step S254).

以上のようにして、パラメータKで定まる現フレームについてのハングオーバーカウンタ初期化閾値Ψ(K)が得られると、ハングオーバーカウンタ初期化閾値送信部26によって、目的音声区間検出・ハングオーバー付与部15に送信され(ステップS255)、その後、次のフレームの処理に移行する(ステップS256)。   As described above, when the hangover counter initialization threshold value Ψ (K) for the current frame determined by the parameter K is obtained, the hangover counter initialization threshold value transmission unit 26 performs the target speech section detection / hangover provision unit 15. (Step S255), and then the processing proceeds to the next frame (step S256).

(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様な効果に加え、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained in addition to the same effects as those of the first embodiment.

第2の実施形態によれば、目的音声に対する背景雑音の重畳に応じて、ハングオーバーカウンタ初期化閾値を適切な値に設定できるので、過不足のないハングオーバー効果を得られるようになる。   According to the second embodiment, the hangover counter initialization threshold can be set to an appropriate value according to the superimposition of background noise on the target speech, so that a hangover effect without excess or deficiency can be obtained.

(C)第3の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第3の実施形態を、図面を参照しながら説明する。
(C) Third Embodiment Next, a third embodiment of the audio signal processing apparatus, method and program according to the present invention will be described with reference to the drawings.

第3の実施形態は、第2の実施形態で生じる可能性がある不都合を解消しようとしたものである。   The third embodiment is intended to eliminate the inconvenience that may occur in the second embodiment.

第2の実施形態では、ハングオーバーカウンタ初期化閾値Ψを目的音声区間での分散によって制御することで、背景雑音の重畳時でもハングオーバー期間が十分に付与されるように改善した。ところで、ハングオーバーカウンタ初期値LENGTHが一定なまま、ハングオーバーカウンタ初期化閾値Ψを変動させた場合、次のような現象が起きる場合がある。   In the second embodiment, the hangover counter initialization threshold Ψ is controlled by dispersion in the target speech section, so that the hangover period is sufficiently provided even when background noise is superimposed. Incidentally, when the hangover counter initialization threshold Ψ is changed while the hangover counter initial value LENGTH is constant, the following phenomenon may occur.

現象1;ハングオーバーカウンタ初期化閾値Ψが大きくなったら、付与されるハングオーバー期間が不足し、目的音声区間の一部が非目的音声区間と誤判定される。これは、コヒーレンスCOHがハングオーバーカウンタ初期化閾値Ψを上回る頻度が減るので、ハングオーバーカウンタcounterが初期化される頻度が下がり、ハングオーバー期間がめったに付与されなくなるためである。   Phenomenon 1: When the hangover counter initialization threshold Ψ becomes large, the hangover period to be provided is insufficient, and a part of the target speech section is erroneously determined as a non-target speech section. This is because the frequency at which the coherence COH exceeds the hangover counter initialization threshold Ψ decreases, so the frequency at which the hangover counter counter is initialized decreases, and the hangover period is rarely given.

現象2;ハングオーバーカウンタ初期化閾値Ψが小さくなったら、ハングオーバー期間が過剰に付与され、目的音声区間直後の非目的音声区間が目的音声区間と誤判定される。これは、コヒーレンスCOHがハングオーバーカウンタ初期化閾値Ψを上回る頻度が増すようになるので、ハングオーバーカウンタcounterが頻繁に初期化されるようになり、その結果、付与されるハングオーバー期間がどんどん延長されるためである。   Phenomenon 2: When the hangover counter initialization threshold Ψ becomes small, an excessive hangover period is given, and the non-target voice section immediately after the target voice section is erroneously determined as the target voice section. This is because the frequency at which the coherence COH exceeds the hangover counter initialization threshold Ψ is increased, so that the hangover counter counter is frequently initialized, and as a result, the hangover period to be given is continuously extended. It is to be done.

以上のことから、ハングオーバーカウンタ初期化閾値Ψに応じてハングオーバーカウンタ初期値LENGTHを制御することで、付与されるハングオーバー期間をさらに適切に設定できることが分かる。第3の実施形態は、ハングオーバーカウンタ初期化閾値Ψに応じてハングオーバーカウンタ初期値LENGTHを制御するようにして、さらなる性能改善を図ったものである。   From the above, it can be seen that the hangover period to be given can be set more appropriately by controlling the hangover counter initial value LENGTH according to the hangover counter initialization threshold Ψ. In the third embodiment, the hangover counter initial value LENGTH is controlled in accordance with the hangover counter initialization threshold Ψ to further improve the performance.

(C−1)第3の実施形態の構成
図7は、第3の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した第2の実施形態に係る図3との同一、対応部分には同一符号を付して示している。
(C-1) Configuration of Third Embodiment FIG. 7 is a block diagram showing a configuration of an audio signal processing device according to the third embodiment, which is the same as FIG. 3 according to the second embodiment described above. Corresponding parts are denoted by the same reference numerals.

図7において、第3の実施形態に係る音声信号処理装置1Bは、第2の実施形態と同様なマイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12、コヒーレンス計算部13、目的音声区間検出・ハングオーバー付与部15及びハングオーバーカウンタ初期化閾値制御部16に加え、ハングオーバーカウンタ初期値制御部17を有する。   In FIG. 7, the audio signal processing device 1B according to the third embodiment includes microphones m_1 and m_2, an FFT unit 10, a first directivity forming unit 11, and a second directivity forming unit similar to those in the second embodiment. 12, a coherence calculation unit 13, a target speech segment detection / hangover assignment unit 15, and a hangover counter initialization threshold control unit 16, and a hangover counter initial value control unit 17.

ここで、マイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12、コヒーレンス計算部13、目的音声区間検出・ハングオーバー付与部15及びハングオーバーカウンタ初期化閾値制御部16は、第2の実施形態と同様な機能を担っているので、その機能説明は省略する。   Here, the microphones m_1 and m_2, the FFT unit 10, the first directivity forming unit 11, the second directivity forming unit 12, the coherence calculation unit 13, the target speech section detection / hangover giving unit 15, and the hangover counter initialization Since the threshold control unit 16 has the same function as that of the second embodiment, the description of the function is omitted.

ハングオーバーカウンタ初期値制御部17は、ハングオーバーカウンタ初期化閾値制御部16から与えられたハングオーバーカウンタ初期化閾値Ψ(K)に応じたハングオーバーカウンタ初期値LENGTH(K)を得て、目的音声区間検出・ハングオーバー付与部15に与えるものである。   The hangover counter initial value control unit 17 obtains a hangover counter initial value LENGTH (K) corresponding to the hangover counter initialization threshold Ψ (K) given from the hangover counter initialization threshold value control unit 16, This is given to the voice section detection / hangover giving unit 15.

図8は、ハングオーバーカウンタ初期値制御部17の内部構成を示すブロック図である。   FIG. 8 is a block diagram showing an internal configuration of the hangover counter initial value control unit 17.

図8において、ハングオーバーカウンタ初期値制御部17は、初期化閾値受信部31、ハングオーバーカウンタ初期値照合部32、初期値記憶部33及びハングオーバーカウンタ初期値送信部34を有する。   In FIG. 8, the hangover counter initial value control unit 17 includes an initialization threshold value reception unit 31, a hangover counter initial value matching unit 32, an initial value storage unit 33, and a hangover counter initial value transmission unit 34.

初期化閾値受信部31は、ハングオーバーカウンタ初期化閾値制御部16から出力されたハングオーバーカウンタ初期化閾値Ψ(K)を受信するものである。   The initialization threshold value receiving unit 31 receives the hangover counter initialization threshold value Ψ (K) output from the hangover counter initialization threshold value control unit 16.

初期値記憶部33は、ハングオーバーカウンタ初期化閾値Ψの範囲と、ハングオーバーカウンタ初期値LENGTHの値とを対応付けて記憶しているものである。図9は、初期値記憶部33の構成例を示す説明図である。ハングオーバーカウンタ初期化閾値ΨがT1以上T2未満の範囲は、ハングオーバーカウンタ初期値LENGTHの値としてL1が対応付けられ、ハングオーバーカウンタ初期化閾値ΨがT2以上T3未満の範囲は、ハングオーバーカウンタ初期値LENGTHの値としてL2(L1<L2)が対応付けられ、ハングオーバーカウンタ初期化閾値ΨがT3以上T4未満の範囲は、ハングオーバーカウンタ初期値LENGTHの値としてL3(L2<L3)が対応付けられている。   The initial value storage unit 33 stores the range of the hangover counter initialization threshold Ψ and the value of the hangover counter initial value LENGTH in association with each other. FIG. 9 is an explanatory diagram illustrating a configuration example of the initial value storage unit 33. The range where the hangover counter initialization threshold Ψ is T1 or more and less than T2 is associated with L1 as the value of the hangover counter initial value LENGTH, and the range where the hangover counter initialization threshold Ψ is T2 or more and less than T3 is the hangover counter L2 (L1 <L2) is associated as the value of the initial value LENGTH, and L3 (L2 <L3) is associated as the value of the hangover counter initial value LENGTH in the range where the hangover counter initialization threshold Ψ is T3 or more and less than T4. It is attached.

ここで、T1<T2<T3<T4及びL1<L2<L3という大小関係により、ハングオーバーカウンタ初期化閾値Ψが小さい場合には、過剰なハングオーバー期間が付与されないように小さいハングオーバーカウンタ初期値LENGTHが設定され、ハングオーバーカウンタ初期化閾値Ψが大きい場合には、付与されるハングオーバー期間が不足しないように大きいハングオーバーカウンタ初期値LENGTHが設定されるようになる。   Here, when the hangover counter initialization threshold Ψ is small due to the magnitude relationship of T1 <T2 <T3 <T4 and L1 <L2 <L3, the initial value of the hangover counter is small so that an excessive hangover period is not given. When LENGTH is set and the hangover counter initialization threshold Ψ is large, a large hangover counter initial value LENGTH is set so that the applied hangover period is not short.

ハングオーバーカウンタ初期値照合部32は、初期化閾値受信部31が受信したハングオーバーカウンタ初期化閾値Ψ(K)をキーとして、初期値記憶部33を照合し、その初期化閾値Ψ(K)の値が属する範囲に対応付けられているハングオーバーカウンタ初期値LENGTHの値を取り出すものである。   The hangover counter initial value collation unit 32 collates the initial value storage unit 33 using the hangover counter initialization threshold Ψ (K) received by the initialization threshold reception unit 31 as a key, and the initialization threshold Ψ (K). The value of the hangover counter initial value LENGTH associated with the range to which the value belongs is extracted.

ハングオーバーカウンタ初期値送信部34は、ハングオーバーカウンタ初期値照合部32が得たハングオーバーカウンタ初期値LENGTHを現フレームに係る初期値LENGTH(K)として、目的音声区間検出・ハングオーバー付与部15に送信するものである。   The hangover counter initial value transmission unit 34 uses the hangover counter initial value LENGTH obtained by the hangover counter initial value collating unit 32 as the initial value LENGTH (K) related to the current frame, and detects the target speech section detection / hangover giving unit 15. To send to.

第3の実施形態の目的音声区間検出・ハングオーバー付与部15は、ハングオーバーカウンタ初期化閾値制御部16からのハングオーバーカウンタ初期化閾値Ψ(K)とハングオーバーカウンタ初期値制御部17からのハングオーバーカウンタ初期値LENGTH(K)とを適用して、ハングオーバー付与機能を実行するものである。   The target speech section detection / hangover giving unit 15 of the third embodiment includes a hangover counter initialization threshold Ψ (K) from the hangover counter initialization threshold control unit 16 and a hangover counter initial value control unit 17. The hangover provision function is executed by applying the hangover counter initial value LENGTH (K).

(C−2)第3の実施形態の動作
次に、第3の実施形態の音声信号処理装置1Bの動作を、図面を参照しながら、全体動作、ハングオーバーカウンタ初期値制御部17における詳細動作の順に説明する。
(C-2) Operation of the Third Embodiment Next, the operation of the audio signal processing device 1B of the third embodiment will be described with reference to the drawings, the entire operation, and the detailed operation in the hangover counter initial value control unit 17. Will be described in the order.

一対のマイクm_1及びm_2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部10によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、第1及び第2の指向性形成部11及び12のそれぞれによって、所定の方位に死角を有する指向性信号B1(f,K)、B2(f,K)が生成される。そして、コヒーレンス計算部13において、指向性信号B1(f,K)及びB2(f,K)を適用して、(6)式及び(7)式の演算が実行され、コヒーレンスCOH(K)が算出される。   The signals s1 (n) and s2 (n) input from the pair of microphones m_1 and m_2 are respectively converted from the time domain to the frequency domain signals X1 (f, K) and X2 (f, K) by the FFT unit 10. After that, directivity signals B1 (f, K) and B2 (f, K) having a blind spot in a predetermined direction are generated by the first and second directivity forming units 11 and 12, respectively. Then, the coherence calculation unit 13 applies the directivity signals B1 (f, K) and B2 (f, K) to execute the calculations of the equations (6) and (7), and the coherence COH (K) is calculated. Calculated.

ハングオーバーカウンタ初期化閾値制御部16においては、コヒーレンスCOH(K)と、目的音声区間検出結果変数VAD_RES(K)とに基づき、目的音声区間におけるコヒーレンスの分散が算出され、さらに、算出された分散に基づいて、ハングオーバーカウンタ初期化閾値Ψ(K)が定められて目的音声区間検出・ハングオーバー付与部15及びハングオーバーカウンタ初期値制御部17に与えられる。   The hangover counter initialization threshold value controller 16 calculates the coherence variance in the target speech section based on the coherence COH (K) and the target speech section detection result variable VAD_RES (K), and further calculates the calculated variance. , The hangover counter initialization threshold Ψ (K) is determined and provided to the target speech section detection / hangover provision unit 15 and the hangover counter initial value control unit 17.

ハングオーバーカウンタ初期値制御部17においては、ハングオーバーカウンタ初期化閾値Ψ(K)に応じたハングオーバーカウンタ初期値LENGTH(K)が得られ、目的音声区間検出・ハングオーバー付与部15に与えられる。   In the hangover counter initial value control unit 17, a hangover counter initial value LENGTH (K) corresponding to the hangover counter initialization threshold Ψ (K) is obtained and provided to the target speech section detection / hangover giving unit 15. .

目的音声区間検出・ハングオーバー付与部15においては、コヒーレンスCOH(K)に基づいて、目的音声区間か非目的音声区間かが判定されると共に、コヒーレンスCOH(K)がハングオーバーカウンタ初期化閾値制御部16から与えられたハングオーバーカウンタ初期化閾値Ψ(K)以上のときには、目的音声区間であるという判定結果が、ハングオーバーカウンタ初期値制御部17からのハングオーバーカウンタ初期値LENGTH(K)で定める期間だけ保持され(上述した図2参照)、そのようにして形成された判定結果変数VAD_RES(K)が後段に出力される。   The target speech section detection / hangover assignment unit 15 determines whether the target speech section or non-target speech section is based on the coherence COH (K), and the coherence COH (K) controls the hangover counter initialization threshold. When the hangover counter initialization threshold Ψ (K) is greater than or equal to the hangover counter initialization threshold value Ψ (K) given by the unit 16, the determination result that the target speech period is the hangover counter initial value LENGTH (K) It is held for a predetermined period (see FIG. 2 described above), and the determination result variable VAD_RES (K) thus formed is output to the subsequent stage.

次に、ハングオーバーカウンタ初期値制御部17の動作を説明する。フローチャートの図示は省略するが。ハングオーバーカウンタ初期値制御部17の内部構成を示した上述した図8は、ハングオーバーカウンタ初期値制御部17の動作を示すフローチャートと見ることもできる。   Next, the operation of the hangover counter initial value control unit 17 will be described. Illustration of the flowchart is omitted. The above-described FIG. 8 showing the internal configuration of the hangover counter initial value control unit 17 can also be regarded as a flowchart showing the operation of the hangover counter initial value control unit 17.

初期化閾値受信部31において、ハングオーバーカウンタ初期化閾値制御部16からのハングオーバーカウンタ初期化閾値Ψ(K)が受信される。そして、ハングオーバーカウンタ初期値照合部32によって、初期値記憶部33から、受信されたハングオーバーカウンタ初期化閾値Ψ(K)に応じたハングオーバーカウンタ初期値LENGTH(K)が得られ、ハングオーバーカウンタ初期値送信部34によって、目的音声区間検出・ハングオーバー付与部15に送信され、その後、次のフレームの処理に移行する。   The initialization threshold value reception unit 31 receives the hangover counter initialization threshold value Ψ (K) from the hangover counter initialization threshold value control unit 16. Then, the hangover counter initial value matching unit 32 obtains the hangover counter initial value LENGTH (K) corresponding to the received hangover counter initialization threshold Ψ (K) from the initial value storage unit 33, and hangover counter The counter initial value transmission unit 34 transmits the result to the target speech section detection / hangover provision unit 15 and then proceeds to processing of the next frame.

(C−3)第3の実施形態の効果
第3の実施形態によれば、第2の実施形態と同様な効果に加え、以下のような効果を奏することができる。
(C-3) Effects of the Third Embodiment According to the third embodiment, in addition to the same effects as those of the second embodiment, the following effects can be achieved.

第3の実施形態によれば、ハングオーバーカウンタ初期化閾値と対応する最適なハングオーバーカウンタ初期値を用いることができるので、過不足のないハングオーバー効果が得られる。   According to the third embodiment, since the optimum hangover counter initial value corresponding to the hangover counter initialization threshold can be used, a hangover effect without excess or deficiency can be obtained.

(D)他の実施形態
上記各実施形態では、目的音声区間判定閾値Φが1つのものを示したが、目的音声区間判定閾値として複数の閾値を設け、ハングオーバー操作を変えるようにしても良い。例えば、目的音声区間判定閾値としてΦ1及びΦ2(Φ1>Φ2)を設け、コヒーレンスCOH(K)が目的音声区間判定閾値Φ1以上のときは判定結果変数VAD_RES(K)に1.0を設定し、コヒーレンスCOH(K)が目的音声区間判定閾値Φ2以上Φ1未満のときは判定結果変数VAD_RES(K)に1.0を設定すると共に、ハングオーバーカウンタcounterを1デクリメントし(counter=counter−1)、コヒーレンスCOH(K)が目的音声区間判定閾値Φ2未満であってハングオーバーカウンタcounterが正のときは判定結果変数VAD_RES(K)に1.0を設定すると共に、ハングオーバーカウンタcounterを2デクリメントし(counter=counter−2)、コヒーレンスCOH(K)が目的音声区間判定閾値Φ2未満であってハングオーバーカウンタcounterが0若しくは負のときは判定結果変数VAD_RES(K)に0.0を設定するようにしても良い。なお、ハングオーバーカウンタcounterをソフトウェアで実現している場合には、デクリメントの単位量として、整数ではない小数を適用するようにしても良い。
(D) Other Embodiments In each of the above embodiments, one target voice segment determination threshold Φ is shown. However, a plurality of threshold values may be provided as the target voice segment determination threshold value to change the hangover operation. . For example, Φ1 and Φ2 (Φ1> Φ2) are provided as target speech segment determination thresholds, and when the coherence COH (K) is equal to or greater than the target speech segment determination threshold Φ1, 1.0 is set to the determination result variable VAD_RES (K), When the coherence COH (K) is not less than the target speech segment determination threshold Φ2 and less than Φ1, the determination result variable VAD_RES (K) is set to 1.0 and the hangover counter counter is decremented by 1 (counter = counter-1). When the coherence COH (K) is less than the target speech segment determination threshold Φ2 and the hangover counter counter is positive, the determination result variable VAD_RES (K) is set to 1.0 and the hangover counter counter is decremented by 2 ( counter = counter-2), cohere When the continuity COH (K) is less than the target speech segment determination threshold Φ2 and the hangover counter counter is 0 or negative, 0.0 may be set to the determination result variable VAD_RES (K). When the hangover counter counter is realized by software, a decimal number that is not an integer may be applied as a decrement unit quantity.

上記第2及び第3の実施形態においては、フレーム毎に、ハングオーバーカウンタ初期化閾値Ψ(K)を見直すものを示したが、ハングオーバーカウンタ初期化閾値Ψ(K)の見直し周期はこれに限定されるものではない。例えば、10フレーム毎にハングオーバーカウンタ初期化閾値Ψ(K)を見直すようにしても良く、1秒毎にハングオーバーカウンタ初期化閾値Ψ(K)を見直すようにしても良い。   In the second and third embodiments, the hangover counter initialization threshold Ψ (K) is reconsidered for each frame. However, the review period of the hangover counter initialization threshold Ψ (K) is set here. It is not limited. For example, the hangover counter initialization threshold Ψ (K) may be reviewed every 10 frames, or the hangover counter initialization threshold Ψ (K) may be reviewed every second.

同様に、ハングオーバーカウンタ初期値LENGTH(K)の見直し周期もフレーム毎に限定されるものではない。また、ハングオーバーカウンタ初期化閾値Ψ(K)の見直し周期と、ハングオーバーカウンタ初期値LENGTH(K)の見直し周期とが一致していなくても良く、後者の周期が長くても良い。例えば、ハングオーバーカウンタ初期値LENGTH(K)の見直しを2分毎に1回行うようにしても良い。   Similarly, the review period of the hangover counter initial value LENGTH (K) is not limited for each frame. Further, the review period of the hangover counter initialization threshold Ψ (K) may not coincide with the review period of the hangover counter initial value LENGTH (K), and the latter period may be long. For example, the hangover counter initial value LENGTH (K) may be reviewed once every two minutes.

上記第2及び第3の実施形態においては、算出されたコヒーレンスの分散をそのままハングオーバーカウンタ初期化閾値Ψ(K)の決定に用いるものを示したが、分散を正規化して、ハングオーバーカウンタ初期化閾値Ψ(K)の決定に用いるようにしても良い。例えば、入力音声信号の平均レベルの大小によって分散も変動することを考慮し、分散を入力信号レベル(例えば平均レベル)で正規化した上で、ハングオーバーカウンタ初期化閾値Ψ(K)の決定に用いる。   In the second and third embodiments, the variance of the calculated coherence is used as it is for the determination of the hangover counter initialization threshold Ψ (K). The threshold value Ψ (K) may be used for determination. For example, in consideration of the fact that the variance varies depending on the average level of the input audio signal, the variance is normalized by the input signal level (for example, the average level), and then the hangover counter initialization threshold Ψ (K) is determined. Use.

上記第2及び第3の実施形態においては、コヒーレンスのばらつきを表す指標として分散を適用するものを示したが、他の指標を適用するようにしても良い。例えば、標準偏差を適用しても良く、コヒーレンスの瞬時値と平均値との差の絶対値の総和を適用しても良く、変動係数を適用しても良い。   In the second and third embodiments, the index indicating the coherence variation is applied. However, another index may be applied. For example, a standard deviation may be applied, a sum of absolute values of differences between instantaneous values and average values of coherence may be applied, and a coefficient of variation may be applied.

上記第3の実施形態においては、ハングオーバーカウンタ初期化閾値Ψ(K)に応じて、ハングオーバーカウンタ初期値LENGTH(K)を変更(制御)するものを示したが、ハングオーバーカウンタ初期化閾値Ψ(K)に応じてハングオーバー長を制御できる方法であれば他の方法を適用するようにしても良い。例えば、ハングオーバーカウンタ初期値LENGTHを固定したまま、ハングオーバーカウンタcounterをデクリメントする際のデクリメントの単位量を、ハングオーバーカウンタ初期化閾値Ψ(K)に応じて変更(制御)して、ハングオーバー長を変更(制御)するようにしても良い。   In the third embodiment, the hangover counter initial value LENGTH (K) is changed (controlled) according to the hangover counter initialization threshold Ψ (K). Other methods may be applied as long as the hangover length can be controlled according to Ψ (K). For example, while the hangover counter initial value LENGTH is fixed, the decrement unit amount when decrementing the hangover counter counter is changed (controlled) according to the hangover counter initialization threshold Ψ (K) to hang over The length may be changed (controlled).

上記各実施形態においては、分散に応じたハングオーバーカウンタ初期化閾値の取得や、ハングオーバーカウンタ初期化閾値に応じたハングオーバーカウンタ初期値の取得を変換テーブル(記憶部)を用いて行うものを示したが、他の方法で取得するようにしても良い。例えば、変換式を適用して、分散に応じたハングオーバーカウンタ初期化閾値や、ハングオーバーカウンタ初期化閾値に応じたハングオーバーカウンタ初期値を得るようにしても良い。   In each of the above-described embodiments, the conversion table (storage unit) is used to acquire the hangover counter initialization threshold according to the distribution and the hangover counter initial value according to the hangover counter initialization threshold. Although shown, it may be obtained by other methods. For example, a conversion formula may be applied to obtain a hangover counter initialization threshold corresponding to the distribution or a hangover counter initial value corresponding to the hangover counter initialization threshold.

上記第3の実施形態においては、ハングオーバーカウンタ初期化閾値からハングオーバーカウンタ初期値を得るものを示したが、ハングオーバーカウンタ初期化閾値を得る元であるコヒーレンスの分散から、ハングオーバーカウンタ初期値を得るようにしても良い。例えば、コヒーレンスの分散の範囲に対応付けて、ハングオーバーカウンタ初期化閾値及びハングオーバーカウンタ初期値を記述した変換テーブルを用意しておき、コヒーレンスの分散に応じたハングオーバーカウンタ初期化閾値及びハングオーバーカウンタ初期値を同時に得るようにしても良い。   In the third embodiment, the hangover counter initial value is obtained from the hangover counter initialization threshold. However, the hangover counter initial value is obtained from the dispersion of coherence from which the hangover counter initialization threshold is obtained. May be obtained. For example, a conversion table describing the hangover counter initialization threshold and the hangover counter initial value is prepared in association with the coherence distribution range, and the hangover counter initialization threshold and hangover corresponding to the coherence distribution are prepared. You may make it obtain a counter initial value simultaneously.

上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。   In each of the above embodiments, the processing that was processed with the frequency domain signal may be performed with the time domain signal if possible, and conversely, the processing that was processed with the time domain signal is possible. In this case, processing may be performed using a frequency domain signal.

上記各実施形態では、一対のマイクが捕捉した信号を直ちに処理する場合を示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。   In each of the above embodiments, a case has been described in which a signal captured by a pair of microphones is immediately processed. However, the audio signal to be processed of the present invention is not limited to this. For example, the present invention can be applied to processing a pair of audio signals read from a recording medium, and the present invention can also be applied to processing a pair of audio signals transmitted from the opposite device. Can be applied.

m_1、m_2…マイク、10…FFT部、11…第1指向性形成部、12…第2の指向性形成部、13…コヒーレンス計算部、15…目的音声区間検出・ハングオーバー付与部、16…ハングオーバーカウンタ初期化閾値制御部、17…ハングオーバーカウンタ初期値制御部、21…コヒーレンス・判定結果受信部、22…閾値更新制御部、23…分散計算部、24…ハングオーバーカウンタ初期化閾値照合部、25…初期化閾値記憶部、26…ハングオーバーカウンタ初期化閾値送信部、31…初期化閾値受信部、32…ハングオーバーカウンタ初期値照合部、33…初期値記憶部、34…ハングオーバーカウンタ初期値送信部。   m_1, m_2 ... microphone, 10 ... FFT unit, 11 ... first directivity forming unit, 12 ... second directivity forming unit, 13 ... coherence calculation unit, 15 ... target speech interval detection / hangover giving unit, 16 ... Hangover counter initialization threshold value control unit, 17 ... Hangover counter initial value control unit, 21 ... Coherence / determination result reception unit, 22 ... Threshold update control unit, 23 ... Variance calculation unit, 24 ... Hangover counter initialization threshold value collation , 25 ... initialization threshold storage unit, 26 ... hangover counter initialization threshold transmission unit, 31 ... initialization threshold reception unit, 32 ... hangover counter initial value collation unit, 33 ... initial value storage unit, 34 ... hangover Counter initial value transmission unit.

Claims (7)

入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理装置において、
入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、
前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と
を有することを特徴とする音声信号処理装置。
In an audio signal processing apparatus that separates a target voice section and a non-target voice section from an input voice signal,
A first directivity forming unit that forms a first directivity signal having a directivity characteristic having a blind spot in a first predetermined direction by performing a delay subtraction process on the input audio signal;
Second directivity for forming a second directivity signal having a directivity characteristic having a blind spot in a second predetermined direction different from the first predetermined direction by performing a delay subtraction process on the input audio signal Forming part;
A coherence calculator for obtaining coherence using the first and second directional signals;
Comparing the coherence with a target speech segment determination threshold to determine whether the input speech signal is a target speech segment arriving from a target direction or a non-target speech segment other than that, and the coherence, Even if the comparison result using the target speech segment determination threshold is changed from the target speech segment to the non-target speech segment by comparing with a hangover giving threshold that is larger than the target speech segment determination threshold, the predetermined hangover length And a target speech segment detection / hangover imparting unit that continues the determination result of the target speech segment.
目的音声区間におけるコヒーレンスのばらつきを表す統計量を得て、得られた統計量に応じて、前記目的音声区間検出・ハングオーバー付与部が適用する前記ハングオーバー付与閾値を制御するハングオーバー付与閾値制御部をさらに備えることを特徴とする請求項1に記載の音声信号処理装置。   Hangover provision threshold control for obtaining a statistic representing variation in coherence in the target speech section and controlling the hangover provision threshold applied by the target speech section detection / hangover provision unit according to the obtained statistic The audio signal processing apparatus according to claim 1, further comprising a unit. 前記ハングオーバー付与閾値制御部は、
目的音声区間と判定された複数のコヒーレンスからコヒーレンスの分散を計算するコヒーレンス分散計算部と、
コヒーレンス分散とハングオーバー付与閾値との対応関係を記憶している第1の記憶部と、
算出されたコヒーレンス分散に応じたハングオーバー付与閾値を前記第1の記憶部から取得するハングオーバー付与閾値照合部と
を有することを特徴とする請求項2に記載の音声信号処理装置。
The hangover provision threshold value control unit
A coherence variance calculation unit for calculating the coherence variance from a plurality of coherences determined to be the target speech interval;
A first storage unit storing a correspondence relationship between the coherence distribution and the hangover grant threshold;
The audio signal processing apparatus according to claim 2, further comprising: a hangover provision threshold value collation unit that obtains a hangover provision threshold value according to the calculated coherence variance from the first storage unit.
前記目的音声区間検出・ハングオーバー付与部が適用する前記ハングオーバー付与閾値に応じて、前記目的音声区間検出・ハングオーバー付与部が付与する前記ハングオーバー長を制御するハングオーバー長制御部をさらに備えることを特徴とする請求項2又は3に記載の音声信号処理装置。   A hangover length control unit for controlling the hangover length provided by the target speech section detection / hangover provision unit according to the hangover provision threshold applied by the target speech section detection / hangover provision unit; The audio signal processing apparatus according to claim 2 or 3, 前記ハングオーバー長制御部は、
ハングオーバー付与閾値とハングオーバー長の対応関係を記憶している第2の記憶部と、
前記目的音声区間検出・ハングオーバー付与部が適用する前記ハングオーバー付与閾値に応じたハングオーバー長を前記第2の記憶部から取得するハングオーバー長照合部と
を有することを特徴とする請求項4に記載の音声信号処理装置。
The hangover length controller is
A second storage unit storing a correspondence relationship between the hangover grant threshold and the hangover length;
5. A hangover length verification unit that acquires a hangover length corresponding to the hangover provision threshold applied by the target speech section detection / hangover provision unit from the second storage unit. The audio signal processing apparatus according to 1.
入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理方法において、
第1の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成し、
第2の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成し、
コヒーレンス計算部は、前記第1及び第2の指向性信号を用いてコヒーレンスを計算し、
目的音声区間検出・ハングオーバー付与部は、計算された前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させる
ことを特徴とする音声信号処理方法。
In an audio signal processing method for separating a target voice section and a non-target voice section from an input voice signal,
The first directivity forming unit forms a first directivity signal having a directivity characteristic having a blind spot in a first predetermined direction by performing a delay subtraction process on the input audio signal,
The second directivity forming unit performs a delay subtraction process on the input audio signal, thereby providing a second directivity having a directivity characteristic having a blind spot in a second predetermined direction different from the first predetermined direction. Form a signal,
A coherence calculator calculates coherence using the first and second directional signals;
The target speech segment detection / hangover assigning unit compares the calculated coherence with the target speech segment determination threshold value, and determines whether the input speech signal is a target speech segment arriving from the target direction or other It is determined whether it is a target speech segment, and the coherence is compared with a hangover provision threshold value that is larger than the target speech segment determination threshold value. An audio signal processing method characterized by continuing a determination result of a target voice section by a predetermined hangover length even if the target voice section is changed.
コンピュータを、
入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、
前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、前記コヒーレンスと、前記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、前記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、所定のハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と
して機能させることを特徴とする音声信号処理プログラム。
Computer
A first directivity forming unit that forms a first directivity signal having a directivity characteristic having a blind spot in a first predetermined direction by performing a delay subtraction process on the input audio signal;
Second directivity for forming a second directivity signal having a directivity characteristic having a blind spot in a second predetermined direction different from the first predetermined direction by performing a delay subtraction process on the input audio signal Forming part;
A coherence calculator for obtaining coherence using the first and second directional signals;
Comparing the coherence with a target speech segment determination threshold to determine whether the input speech signal is a target speech segment arriving from a target direction or a non-target speech segment other than that, and the coherence, Even if the comparison result using the target speech segment determination threshold is changed from the target speech segment to the non-target speech segment by comparing with a hangover giving threshold that is larger than the target speech segment determination threshold, the predetermined hangover length The speech signal processing program is made to function as a target speech segment detection / hangover imparting unit that continues the determination result of the target speech segment.
JP2012151563A 2012-07-05 2012-07-05 Audio signal processing apparatus, method and program Active JP5970985B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012151563A JP5970985B2 (en) 2012-07-05 2012-07-05 Audio signal processing apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012151563A JP5970985B2 (en) 2012-07-05 2012-07-05 Audio signal processing apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2014016377A JP2014016377A (en) 2014-01-30
JP5970985B2 true JP5970985B2 (en) 2016-08-17

Family

ID=50111150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012151563A Active JP5970985B2 (en) 2012-07-05 2012-07-05 Audio signal processing apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5970985B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5971047B2 (en) * 2012-09-12 2016-08-17 沖電気工業株式会社 Audio signal processing apparatus, method and program
US10832689B2 (en) * 2016-03-09 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing stability of an inter-channel time difference parameter

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP5838861B2 (en) * 2012-02-29 2016-01-06 沖電気工業株式会社 Audio signal processing apparatus, method and program

Also Published As

Publication number Publication date
JP2014016377A (en) 2014-01-30

Similar Documents

Publication Publication Date Title
JP5817366B2 (en) Audio signal processing apparatus, method and program
JP6028502B2 (en) Audio signal processing apparatus, method and program
US9947338B1 (en) Echo latency estimation
JP5838861B2 (en) Audio signal processing apparatus, method and program
JP2019503107A (en) Acoustic signal processing apparatus and method for improving acoustic signals
JP2012150237A (en) Sound signal processing apparatus, sound signal processing method, and program
US9773510B1 (en) Correcting clock drift via embedded sine waves
JP2011244232A (en) Microphone array apparatus and program executed by the same
US9558758B1 (en) User feedback on microphone placement
CN112530450A (en) Sample-precision delay identification in the frequency domain
JP5970985B2 (en) Audio signal processing apparatus, method and program
JP2013126026A (en) Non-target sound suppression device, non-target sound suppression method and non-target sound suppression program
JP5971047B2 (en) Audio signal processing apparatus, method and program
WO2010061505A1 (en) Uttered sound detection apparatus
JP6638248B2 (en) Audio determination device, method and program, and audio signal processing device
JP6763319B2 (en) Non-purpose sound determination device, program and method
JP6631127B2 (en) Voice determination device, method and program, and voice processing device
JP5772562B2 (en) Objective sound extraction apparatus and objective sound extraction program
JP6221258B2 (en) Signal processing apparatus, method and program
JP6361360B2 (en) Reverberation judgment device and program
JP6102144B2 (en) Acoustic signal processing apparatus, method, and program
JP6221463B2 (en) Audio signal processing apparatus and program
JP6903947B2 (en) Non-purpose sound suppressors, methods and programs
JP6213324B2 (en) Audio signal processing apparatus and program
JP6252274B2 (en) Background noise section estimation apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5970985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150