JP5927887B2 - 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム - Google Patents

非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム Download PDF

Info

Publication number
JP5927887B2
JP5927887B2 JP2011272618A JP2011272618A JP5927887B2 JP 5927887 B2 JP5927887 B2 JP 5927887B2 JP 2011272618 A JP2011272618 A JP 2011272618A JP 2011272618 A JP2011272618 A JP 2011272618A JP 5927887 B2 JP5927887 B2 JP 5927887B2
Authority
JP
Japan
Prior art keywords
coherence
target sound
gradient
unit
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011272618A
Other languages
English (en)
Other versions
JP2013126026A (ja
Inventor
克之 高橋
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2011272618A priority Critical patent/JP5927887B2/ja
Publication of JP2013126026A publication Critical patent/JP2013126026A/ja
Application granted granted Critical
Publication of JP5927887B2 publication Critical patent/JP5927887B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラムに関し、例えば、電話やテレビ会議等の音声の通信装置や通信ソフトウェアで用いる音響信号処理装置に適用し得るものである。
雑音抑制技術の1つにボイススイッチと呼ばれる技術がある(特許文献1参照)。これは、目的音声区間検出機能を用いて入力信号から話者が話している区間(目的音声区間)を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という処理のことである。
図2は、ボイススイッチ処理を示すフローチャートである。図2において、入力信号inputが受信されると(S901)、目的音声区間検出部が目的音声区間か否かを判定する(S902)。
このとき、inputが目的音声区間であれば、ボイススイッチゲインであるVS_GAINは「1.0」と設定され(S903)、inputが非目的音声区間であれば、VS_GAINは「α」(α:0.0≦α<1.0の任意の値)として設定する(S904)。そして、VS_GAINがinputに乗算され、その出力信号outputが得られる(S905)。
このボイススイッチ処理は、例えば、テレビ会議装置、携帯電話機等の音声通信機器等に適用することができ、このボイススイッチ処理を行うことで、非目的音声区間(雑音)を抑制し、通話音質を高めることができる。
ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。
非目的音声区間が背景雑音のみの場合、目的音声区間検出部は、目的音声区間か否かを正確に判定することができるのに対し、非目的音声区間に妨害音声が重畳されている場合には、目的音声区間検出部は、妨害音声も目的音声とみなしてしまうため、誤判定が生じ得る。この結果、ボイススイッチが妨害音声を抑制できず、十分な通話音質を提供することができない。
この課題に対して、目的音声区間検出部で参照する特徴量として、これまで用いてきた入力信号レベルの変動から、コヒーレンスに変更することで改善される。
ここで、コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。例えば携帯電話などの利用を想定した場合、話者の声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。
図3は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチ90の機能構成を示すブロック図である。
図3において、マイクm1及びm2のそれぞれから図示しないAD変換器を介して、入力信号s1(t)及びs2(t)がFFT部91に与えられる。なお、tはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中ではtが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
FFT部91は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するに当たり、入力信号s1(t)及びs2(t)から所定のN個のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成する。入力信号s1からFRAME1を構成する例を以下に記載する。
FRAME1(1)={s1(1)、s1(2)、・・、s1(i)、・・s1(N)}


FRAME1(K)={s1(N×K+1)、s1(N×K+2)、・・、s1(N×K+i)、・・s1(N×K+N)}
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中ではKが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FFT部91では、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f、K)、及び入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f、K)を、第1の指向性形成部92及び第2の指向性形成部93に与えるものである。なおfは周波数を表すインデックスである。またX1(f、K)は単一の値ではなく、
X1(f、K)={X1(f1、K)、X1(f2、K)、・・X1(fi、K)・・、X1(fm、K)}
というように複数の周波数f1〜fmのスペクトル成分から構成されるものであることを補足しておく。これはX2(f、K)及び、後段の指向性形成部で現れるB1(f、K),B2(f、K)も同様である。
第1の指向性形成部92は、式(1)に従って演算を行い、後述するように音源方向の特定方向(右方向)に強い指向性を持つ信号B1(f、K)を求める。また、第2の指向性形成部93は、式(2)に従って演算を行い、後述するように音源方向の特定方向(左方向)に強い指向性を持つ信号B2(f、K)をそれぞれ計算する(フレームインデックスKは演算には関与しないので、計算式には記載しない)。
Figure 0005927887
式(1)及び式(2)の意味を、図4及び図5を用いて説明する。図4(A)において、マイクm1とマイクm2とは距離lだけ隔てて設置されているものとする。マイクm1とマイクm2には音波が到来する。この音波は、マイクm1及びマイクm2を通る面の正面方向に対して角度θの方向から到来するものとする。
このとき、音波がマイクm1とマイクm2に到達するまでには、時間差が生じる。この到達時間差τは、音の経路差をdとすると、d=l×sinθなので、式(2−1)のようにして与えられる。
τ=l×sinθ/c (c:音速) …(2−1)
ところで、入力信号s1(t)に到達時間差τだけ遅延を与えた信号s1(t−τ)は、s2(t)と同一の信号であるといえる。
したがって、両者の差をとった信号y(t)=s2(t)−s1(t−τ)は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーは図4(B)のような指向特性を持つようになる。
なお、上記の説明では時間領域での演算を記したが、周波数領域で行っても同様な効果が得られる。式(1)及び式(2)は、周波数領域とする場合の演算式の例である。
ここで、今、到来方向θ=90度とした場合には、図5(A)及び図5(B)のような指向特性となる。なお、指向特性について、図5に示すように前方向、後方向、右方向及び左方向と定義する。図5(A)に示すように、第1の指向性形成部92に形成された指向性は左方向に強いものとなり、図5(B)に示すように、第2の指向性形成部93に形成された指向性は右方向に強いものとなる。
なお、以降の説明では、説明便宜上、θ=90度であることを想定して動作説明を行うが、本発明の実施の際はこの設定に限定されるものではない。
以上のようにして得られた信号B1(f、K)及びB2(f、K)は、コヒーレンス計算部94に与えられる。コヒーレンス計算部94は、以下の式(3)及び式(4)に従って演算を行うことで、コヒーレンスCOHを得る。(フレームインデックスKは演算には関与しないので、計算式には記載しない)
Figure 0005927887
次に、目的音声区間検出及びゲイン制御部95は、コヒーレンスCOH(K)を目的音声区間判定閾値Θと比較し、コヒーレンスCOH(K)が目的音声区間判定閾値Θより大きければ目的音声区間とみなしてゲインVS_GAINを1.0に設定し、コヒーレンスCOHが目的音声区間判定閾値Θより小さければ非目的音声区間(妨害音声、背景雑音)とみなしてVS_GAINを1.0未満の任意の正の数値αに設定する。
ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、右方向から到来する信号と左方向から到来する信号の相関と言い換えられる。
よって、コヒーレンスCOHが小さい場合とは、信号B1と信号B2との相関が小さい場合であり、反対にコヒーレンスCOHが大きい場合とは信号B1とB2との相関が大きい場合と言い換えることができる。
そして、相関が小さい場合の入力信号は、入力到来方向が右方向又は左方向のいずれかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。
そのために、コヒーレンスCOHが小さい区間は妨害音声区間あるいは背景雑音区間(非目的音声区間)であるといえる。
一方、コヒーレンスCOHの値が大きい場合は、到来方向の偏りが無いため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスCOHが大きい場合は目的音声区間といえる。
以上のようにして得たVS_GAINはボイススイッチゲイン乗算部96で信号s1(t)と乗算され、出力信号y(t)が得られる。
特開2006−197552号公報 特表2010−532879号公報
しかしながら、上述した従来のボイススイッチ処理の構成では、音声の立ち上がり部のような振幅の小さい小振幅区間の場合、たとえ目的音声であっても明確なピッチ性がなく相関が出にくいため、コヒーレンスCOHの値が小さくなる。その結果、妨害音声と誤判定されてボイススイッチで信号が減衰されるので、ところどころ途切れたような音声が出力され、音質が不自然になるという課題がある。
そのため、小振幅区間の成分も含めて、正確に目的音声を検出し、音質の劣化を防止することができる非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラムが求められている。
かかる課題を解決するために、第1の本発明は、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段と、(2)周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成手段と、(3)周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成手段とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成手段と、(4)第1の指向性を持つ信号及び第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、(4)コヒーレンス計算手段からのコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視手段と、(5)コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出手段と、(6)目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御手段と、(7)利得制御手段により得られた利得を、入力信号に乗算する利得乗算手段とを備えることを特徴とする非目的音抑制装置である。
第2の本発明は、(1)周波数解析手段が、入力信号を時間領域から周波数領域に変換する周波数解析工程と、(2)第1の指向性形成手段が、周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成工程と、(3)第2の指向性形成手段が、周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成工程とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成工程と、(4)コヒーレンス計算手段が、第1の指向性を持つ信号及び第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算工程と、(5)コヒーレンス変動監視手段が、コヒーレンス計算手段からのコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視工程と、(6)目的音区間検出手段が、コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出工程と、(7)利得制御手段が、目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御工程と、(8)利得乗算手段が、利得制御手段により得られた利得を、入力信号に乗算する利得乗算工程とを有することを特徴とする非目的音抑制方法である。
第3の本発明は、コンピュータを、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段、(2)周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成手段、(3)周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成手段とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成手段、(4)第1の指向性を持つ信号及び第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、(5)コヒーレンス計算手段からのコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視手段、(6)コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出手段、(7)目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御手段、(8)利得制御手段により得られた利得を、入力信号に乗算する利得乗算手段として機能させることを特徴とする非目的音抑制プログラムである。
本発明によれば、小振幅区間の成分も含めて、正確に目的音声を検出し、音質の劣化を防止することができる。
第1の実施形態の非目的音抑制装置の機能構成を示す機能ブロック図である。 従来のボイススイッチ処理を示すフローチャートである。 目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの機能構成を示すブロック図である。 第1の指向性形成部及び第2の指向性形成部の指向性を説明する説明図である。 第1の指向性形成部及び第2の指向性形成部の指向性を説明する説明図である。 第1の実施形態のコヒーレンス変動監視部の内部構成を示す機能ブロック図である。 第1の実施形態の目的音声区間検出及びゲイン制御部の内部構成を示す機能ブロック図である。 第1の実施形態のコヒーレンス変動監視部における動作を示すフローチャートである。 第1の実施形態の目的音声区間検出及びゲイン制御部における動作を示すフローチャートである。 第2の実施形態の非目的音抑制装置の機能構成を示す機能ブロック図である。 第2の実施形態の小コヒーレンス区間監視部の内部構成を示す機能ブロック図である。 第2の実施形態のコヒーレンス変動監視部の内部構成を示す機能ブロック図である。 第2の実施形態の小コヒーレンス区間監視部における動作を示すフローチャートである。 第2の実施形態のコヒーレンス変動監視部における動作を示すフローチャートである。 第3の実施形態の非目的音抑制装置の機能構成を示す機能ブロック図である。 第3の実施形態のコヒーレンス変動補正部の内部構成を示す機能ブロック図である。 第3の実施形態の変形実施形態の非目的音抑制装置の機能構成を示す機能ブロック図である。 第3の実施形態の変形実施形態のコヒーレンス長期平均計算部を設けたときの目的音声区間検出及びゲイン制御部における動作を示すフローチャートである。 変形実施形態の第1の実施形態と周波数減算の構成とを併用した場合の構成を示す構成図である。 変形実施形態における第3の指向性形成部で形成される指向性を説明する図である。 変形実施形態の第1の実施形態とコヒーレンスフィルターの構成とを併用した場合の構成を示す構成図である。 変形実施形態の第1の実施形態とウィーナーフィルターの構成とを併用した場合の構成を示す構成図である。
(A)第1の実施形態
以下では、本発明の非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
目的音声区間では、コヒーレンスの値は、全般的に大きく、目的音声の大振幅での値と小振幅区間での値は大きく変動する。一方、非目的音声区間では、コヒーレンスの値は全般的に小さいうえに変動も小さい。
そこで、第1の実施形態では、以上のような「目的音声区間の小振幅区間に変わった場合のみ、コヒーレンス値は大きく変動する」というコヒーレンスに特有の挙動を利用して目的音声の小振幅成分を目的音声区間と判定されるようにすることで、目的音声成分の欠落による音質劣化を防止する。
(A−1)第1の実施形態の構成
(A−1−1)非目的音抑制装置の全体構成
図1は、第1の実施形態の非目的音抑制装置の機能構成を示す機能ブロック図である。なお、非目的音抑制装置10は、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース等を有する装置において、CPUが、ROMに格納される非目的音抑制プログラム等を実行することにより実現されるものである。なお、非目的音抑制プログラムは、ネットワークを通じたインストールされるものであっても良く、その場合でも図1に示す構成要素を構成する。
図1において、第1の実施形態の非目的音抑制装置10は、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16、ボイススイッチゲイン乗算部17を有する。
FFT部11は、マイクm1及びm2から入力された入力信号s1(t)及びs2(t)を取り込み、その入力信号系列s1及びs2に対して高速フーリエ変換を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。また、FFT部11は、入力信号系列s1を周波数領域に変換した周波数領域信号X1(f、K)及び入力信号系列s2を周波数領域に変換した周波数領域信号X2(f、K)を、第1の指向性形成部12及び第2の指向性形成部13に与えるものである。
第1の指向性形成部12は、FFT部11から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B1(f、K)を形成し、その信号B1(f、K)をコヒーレンス計算部14に与えるものである。
また、第2の指向性形成部12は、FFT部11から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、第1の指向性形成部12とは異なる特定の方向に強い指向特性を有する信号B2(f、K)を形成し、その信号B2(f、K)をコヒーレンス計算部14に与えるものである。
ここで、第1の指向性形成部12及び第2の指向性形成部13による特定方向に指向性の強い信号を形成する方法は、既存の技術の方法を適用することができ、例えば式(1)及び式(2)に従った演算により求める方法を適用することができる。
コヒーレンス計算部14は、第1の指向性形成部12からの信号B1(f、K)と、第2の指向性形成部13からの信号B2(f、K)とに基づいてコヒーレンスを求めるものである。また、コヒーレンス計算部14は、求めたコヒーレンスの値COH(K)を、コヒーレンス変動監視部15と、目的音声区間検出及びゲイン制御部16に与えるものである。
コヒーレンス計算部14のコヒーレンスの計算方法は、既存の方法を適用することができ、例えば式(3)及び式(4)を用いて求める方法を適用する。
コヒーレンス変動監視部15は、コヒーレンス計算部14からのコヒーレンスの値COHの変動を監視するものである。
例えば、コヒーレンス変動監視部15は、コヒーレンス計算部14からのコヒーレンスの値COHを一時的に格納する。そして、コヒーレンス変動監視部15は、今回受け取ったコヒーレンスの値COH(K)と前回のコヒーレンスの値COH(K−1)とを比較し、今回のコヒーレンスの値と前回のコヒーレンスの値との勾配grad(K)を求める。
また、コヒーレンス変動監視部15は、コヒーレンスの勾配grad(K)を、目的音声区間検出及びゲイン制御部16に与える。
目的音声区間検出及びゲイン制御部16は、コヒーレンス計算部14から得たコヒーレンス値COH(K)と、コヒーレンス変動監視部15から得たコヒーレンスの勾配grad(K)とに基づいて、目的音声区間か否かを判定し、その結果に基づいてゲインVS_GAINを設定するものである。また、目的音声区間検出及びゲイン制御部16は、設定したゲインVS_GAINをボイススイッチゲイン乗算部17に与える。
ボイススイッチゲイン乗算部17は、目的音声区間検出及びゲイン制御部16からのゲインVS_GAINを入力信号s1(t)に乗算して出力信号y(t)を生成し、これを出力するものである。
(A−1−2)コヒーレンス変動監視部15の内部構成
図6は、コヒーレンス変動監視部15の内部構成を示す機能ブロック図である。図6において、コヒーレンス変動監視部15は、コヒーレンス入力部151、コヒーレンス増減判定部152、記憶部153、コヒーレンス勾配計算部154、コヒーレンス勾配出力部155を有する。
コヒーレンス入力部151は、コヒーレンス計算部14からコヒーレンスの値COHを受け取り、コヒーレンス増減判定部152に与えるものである。
コヒーレンス増減判定部152は、コヒーレンス入力部151から得るコヒーレンスの値COH(K)と、記憶部153に記憶されている直前のコヒーレンスの値COH(K−1)とを比較してコヒーレンスの値の増減を判定するものである。これにより、コヒーレンス値COHの減少を検出する。
記憶部153は、コヒーレンス増減判定部152を介して、入力されたコヒーレンスの値COH(K)を一時的に記憶するものである。
コヒーレンス勾配計算部154は、現在区間のコヒーレンス値と、過去区間のコヒーレンス値とに基づいて、コヒーレンスの勾配grad(K)を求めるものである。コヒーレンス勾配計算部154は、コヒーレンス値の勾配を求めることができる。
コヒーレンス勾配出力部155は、コヒーレンス勾配計算部154により求められたコヒーレンスの勾配grad(K)を、目的音声区間検出及びゲイン制御部16に与えるものである。
(A−1−3)目的音声区間検出及びゲイン制御部16の内部構成
図7は、目的音声区間検出及びゲイン制御部16の内部構成を示す機能ブロック図である。
図7において、目的音声区間検出及びゲイン制御部16は、コヒーレンス及びコヒーレンス勾配入力部161、目的音区間判定部162、ゲイン制御部163、ゲイン出力部164を有する。
コヒーレンス及びコヒーレンス勾配入力部161は、コヒーレンス計算部14からのコヒーレンスの値COH(K)を入力する共に、コヒーレンス変動監視部15からコヒーレンスの勾配grad(K)を入力するものである。
目的音区間判定部162は、コヒーレンス及びコヒーレンス勾配入力部161からのコヒーレンス値COH(K)とコヒーレンス勾配grad(K)に基づいて目的音声区間を判定するものである。また、目的音区間判定部162は、その判定結果をゲイン制御部163に与えるものである。
ゲイン制御部163は、目的音区間判定部162からの判定結果に基づいて、ゲインVS_GAINの値を設定するものである。
ゲイン出力部164は、ゲイン制御部163により設定されたゲインVS_GAINをボイススイッチゲイン乗算部17に与えるものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の非目的音抑制装置10における動作について、図面を参照しながら説明する。
図1において、マイクm1及びm2に入力された入力信号s1(t)及びs2(t)は、FFT部11に与えられる。FFT部11は、入力信号系列s1及びs2に高速フーリエ変換処理を施し、入力信号s1及びs2を、周波数領域信号X1(f、K)及びX2(f、K)を求める。
第1の指向性形成部12及び第2の指向性形成部13は、式(1)及び式(2)に従って、FFT部11からの周波数領域信号X1(f、K)及びx2(f、K)に基づいて、特定方向に強い指向性を有する信号B1(f、K)及びB2(f、K)を生成する。
コヒーレンス計算部14は、第1の指向性形成部12により形成された信号B1(f、K)と、第2の指向性形成部13により形成された信号B2(f、K)とに基づいて、式(3)及び式(4)に従って、コヒーレンス値COH(K)を求める。
次に、コヒーレンス変動監視部15は、コヒーレンス計算部14からのコヒーレンス値COH(K)を用いて、目的音声区間の小振幅区間を検出するための特徴量として、コヒーレンス勾配grad(K)を計算する。このgrad(K)を用いて目的音声区間の小振幅区間に移行したときに特有なコヒーレンスの大幅な減少を検出することができる。
図8は、コヒーレンス変動監視部15における動作を示すフローチャートである。
まず、コヒーレンス計算部14からコヒーレンスCOH(K)がコヒーレンス入力部151に与えられる。コヒーレンスCOH(K)が入力されると、コヒーレンス増減判定部152は、記憶部153に記憶されている直前フレームのコヒーレンスCOH(K−1)と、現フレームのコヒーレンスCOH(K)との大小比較を行う(S101)。
このとき、コヒーレンスCOH(K)がCOH(K−1)より大きい場合、目的音声区間の小振幅区間ではないと判断し、処理はS105に移行する。
S105では、コヒーレンス勾配計算部154が、grad(K)にΩ(Ω:任意の正の数)を代入し、コヒーレンス勾配送信部がgrad(K)を出力する。また、このとき、コヒーレンス変動監視部15は、counterを初期化(counter=0)する(S105)。
一方、S101において、コヒーレンスCOH(K)がCOH(K−1)より小さい場合、コヒーレンスの減少区間であると判定し、処理はS102に移行する。
S102では、減少区間長であるcounterが0か否かを判定し、0である場合にはS103に移行する。またcounterが0ではない場合には、何もせずS104に移行する。
次に、コヒーレンス勾配計算部154は、コヒーレンスの勾配を求めるために、COH(K−1)を減少開始の基点GRAD_INIとする。具体的には、コヒーレンス勾配計算部154は、初期値GRAD_INI=COH(K−1)とする(S103)。
そして、コヒーレンス変動監視部15は、counterをインクリメントし(S104)、コヒーレンス勾配計算部154は、式(5)に従って、コヒーレンス勾配grad(K)を求める(S104)。
grad(K)=−{ GRAD_INI−COH(K) )/counter …(5)
そして、コヒーレンス変動監視部15は、時間をインクリメントして、次のフレームのコヒーレンスCOH(K)を取得する(S106)。
ここで、S101では、現フレームのコヒーレンスCOH(K)と直前フレームのコヒーレンスCOH(K−1)との比較だけではなく、直前フレームのgrad(K−1)と、コヒーレンス勾配判定閾値Ψ(Ψ<0.0)との比較を行う背景を説明する。
目的音声区間の小振幅部において、コヒーレンス値を数フレーム単位の長い期間で観測すると、全体としては大きく減少する傾向であるものの、1フレーム毎に細かく観測すると、瞬時変動により前フレームよりコヒーレンス値が大きくなる場合もある。このような場合は、判定条件が「COH(K)<COH(K−1)」のみでは、コヒーレンス値の瞬時増加によって減少区間におけるgradがリセットされてしまい、長期的なコヒーレンスの勾配を得られなくなってしまう。
そこで、grad(K−1)<Ψも判定条件に追加することにより、コヒーレンス減少期間中であることを検出してgradの中途リセットを防ぐようにする。これにより「コヒーレンス値は全体としては減少しているものの、瞬間的に増加してしまった場合」であっても、長期的な傾きを算出することが可能となる。なお、コヒーレンスが全体として増加傾向にある区間においては、上記判定条件を満たさないように、S105で任意の正の定数Ωをgrad(K)に代入していることも補足しておく。また、本非目的音声抑制処理の開始直後でもgradをΩで初期化してよい。
コヒーレンス変動監視部15は、以上の演算を行い、コヒーレンスの減少区間ではgradを更新しながら、そのgrad(K)を目的音声区間検出及びゲイン制御部16に与える。
図9は、目的音声区間検出及びゲイン制御部16における動作を示すフローチャートである。
まず、目的音声区間検出及びゲイン制御部16において、コヒーレンス計算部14からのコヒーレンスCOH(K)と、コヒーレンス変動監視部15からのgrad(K)とが入力される(S201)。
目的音区間判定部162は、コヒーレンスCOH(K)と目的音声区間判定閾値Θとの比較と、grad(K)とコヒーレンス勾配判定閾値Ψ(Ψ<0.0の値)との比較を行なう(S202)。
そして、コヒーレンスCOH(K)が目的音声区間判定閾値Θ以上のとき、又は、grad(K)がコヒーレンス勾配判定閾値Ψより小さいときのいずれかの場合、目的音区間判定部162は目的音声区間であると判定して、処理をS203に移行する。
一方、そうでない場合、目的音区間判定部162は非目的音声区間と判定し、処理をS204に移行する。
このように、従来の判定条件に「grad(K)<Ψ」という条件を追加することで目的音声区間の小振幅成分も目的音声と判定されるように改良されている。
そして、ゲイン制御部163は、目的音声区間である場合、ボイススイッチのゲインVS_GAINに1.0を代入し(S203)、一方、非目的音声区間である場合、ゲインVS_GAINにα(0.0≦α<1.0の任意の値)を代入する(S204)。
こうして得られたVS_GAINは、ゲイン出力部164からボイススイッチゲイン乗算部17に与えられる(S205)。
ボイススイッチゲイン乗算部17は、入力信号s1(t)に、VS_GAINを乗算することで出力信号y(t)が求め、その出力信号y(t)を出力する。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、コヒーレンスの大小だけでなく、コヒーレンスの変動に基づいて目的音声の小振幅成分も含めて、正確に検出することができる。これにより、従来のような目的音声区間の誤判定によって生じる目的音声の欠落を防止できるので、音質劣化が解消される。
これにより、本発明をテレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。
(B)第2の実施形態
次に、本発明の非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラムの第2の実施形態を、図面を参照しながら詳細に説明する。
第1の実施形態で説明した目的音声区間検出方法は、コヒーレンス勾配gradが所定の判定閾値より小さい場合を目的音声区間とみなす。しかしこの方法には、例えば、通話中に話者が沈黙した場合のような、目的音声区間から非目的音声区間に定常的に切り替わった場合も、非目的音声区間を目的音声区間と誤判定してしまう場合がある。
そのため、第1の実施形態の場合、非目的音声区間であるにも係らず目的音声区間と誤判定されてしまい、その区間での雑音抑制性能が不十分になるという課題がある。
第2の実施形態では、上記課題を解決するために、コヒーレンスCOHが目的音声区間判定閾値Θより小さい区間数を観測し、その区間が長時間継続した場合、gradを初期化することで、正確に非目的音声区間であると判定されるようにする。
(B−1)第2の実施形態の構成
図10は、第2の実施形態の非目的音抑制装置20の内部構成を示す機能ブロック図である。
図10において、第2の実施形態の非目的音抑制装置20は、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、目的音声区間検出及びゲイン制御部16、ボイススイッチゲイン乗算部17、小コヒーレンス区間長監視部21、コヒーレンス変動監視部22を有する。
第2の実施形態が、第1の実施形態と異なる点は、小コヒーレンス区間長監視部21を追加すること、また小コヒーレンス区間長監視部21の追加によるコヒーレンス変動監視部22の処理である。
そこで、第2の実施形態では、第1の実施形態で既に説明した事項については省略し、小コヒーレンス区間長監視部21及びコヒーレンス変動監視部22の構成を中心に詳細に説明する。
小コヒーレンス区間長監視部21は、コヒーレンス計算部14からコヒーレンスCOH(K)を受け取り、コヒーレンスCOH(K)と目的音声区間判定閾値Θとに基づいて、コヒーレンスCOH(K)が目的音声区間判定閾値Θを下回った区間数length(K)を観測し、そのlength(K)をコヒーレンス変動監視部22に与えるものである。
すなわち、小コヒーレンス区間監視部21は、目的音声区間判定閾値ΘよりもコヒーレンスCOH(K)が小さい小コヒーレンス区間の連続出現数を観測するものである。
図11は、小コヒーレンス区間長監視部21の内部構成を示す機能ブロック図である。図11において、小コヒーレンス区間長監視部21は、コヒーレンス入力部211、小コヒーレンス判定部212、小コヒーレンス区間長計算部213、小コヒーレンス区間長出力部214を有する。
コヒーレンス区間入力部211は、コヒーレンス計算部14からコヒーレンスCOHを受け取り、小コヒーレンス判定部212に与えるものである。
小コヒーレンス判定部212は、入力されたコヒーレンスCOH(K)と目的音声区間判定閾値Θとを比較して、小コヒーレンス区間を判定するものである。
小コヒーレンス区間長計算部213は、小コヒーレンス判定部212の判定結果に基づいて、小コヒーレンス区間の連続区間長を求めるものである。例えば、小コヒーレンス区間長計算部213は、小コヒーレンス区間の連続区間長を示すlength(K)を用いて、小コヒーレンス区間の連続区間長を求める。
小コヒーレンス区間長出力部214は、小コヒーレンス区間長計算部213が求めたlength(K)をコヒーレンス変動監視部22に与えるものである。
コヒーレンス変動監視部22は、小コヒーレンス区間監視部21からlength(K)を受け取り、そのlength(K)に基づいて現区間が目的音声区間にあるか又は非目的音声区間にあるかを判定し、その判定結果に応じてgrad(K)を初期化するものである。
また、コヒーレンス変動監視部22は、第1の実施形態と同様に、コヒーレンスCOH(K)に基づいて算出したコヒーレンスの勾配grad(K)を観測するものである。
図12は、コヒーレンス変動監視部22の内部構成を示す機能ブロック図である。図12において、コヒーレンス変動監視部22は、コヒーレンス及び小コヒーレンス区間長入力部221、コヒーレンス勾配計算制御部222、コヒーレンス増減判定部152、記憶部153、コヒーレンス勾配計算部154、コヒーレンス勾配出力部155を有する。
コヒーレンス及び小コヒーレンス区間長入力部221は、コヒーレンス計算部14からコヒーレンスCOH(K)を受け取り、コヒーレンス勾配計算制御部222に与えるものである。また、コヒーレンス及び小コヒーレンス区間長入力部221は、小コヒーレンス区間長監視部21からlength(K)を受け取り、コヒーレンス勾配計算制御部222に与えるものである。
コヒーレンス勾配計算制御部222は、受け取ったlength(K)と区間長判定閾値T(T:任意の値、T>0)とを比較し、length(K)<Tの場合、非目的音声区間に移行していないと判定し、図14のS101〜S106の処理を行い、grad(K)を算出する。
一方、length(K)≧Tのとき、コヒーレンス勾配計算制御部222は、非目的音声区間に移行したと判定し、S105の処理を実行して、grad(K)を初期値Ωにすると同時に、grad(K)の算出に用いるcounterも0に初期化する。
(B−2)第2の実施形態の動作
次に、第2の実施形態の非目的音抑制装置20における動作について、図面を参照しながら説明する。
第2の実施形態では、小コヒーレンス区間長監視部21及びコヒーレンス変動監視部22における動作を中心に説明する。
図13は、小コヒーレンス区間長監視部21における動作を示すフローチャートである。
第1の実施形態と同様にして、コヒーレンス計算部14がコヒーレンスCOH(K)を求め、求められたコヒーレンスCOH(K)が、小コヒーレンス区間長監視部21及びコヒーレンス変動監視部22に与えられる。
小コヒーレンス区間長監視部21では、小コヒーレンス判定部212が、コヒーレンスCOH(K)と目的音声区間判定閾値Θとを比較する(S301)。そして、コヒーレンスCOH(K)<Θのとき、処理はS302に移行し、そうでないとき、処理はS303に移行する。
コヒーレンスCOH(K)<Θの場合に、小コヒーレンス区間長計算部213はlengthをインクリメントする(S302)。一方、コヒーレンスCOH(K)<Θでない場合、小コヒーレンス区間長計算部213はlength(K)を初期化(すなわち、length(K)=0)する(S303)。
小コヒーレンス区間長出力部214は、length(K)をコヒーレンス変動監視部22に与え、その後、時刻を更新する。
図14は、コヒーレンス変動監視部22における動作を示すフローチャートである。
まず、コヒーレンス及び小コヒーレンス区間長入力部221が、コヒーレンスCOH(K)及びlength(K)を入力する。
コヒーレンス勾配計算制御部222は、入力されたlength(K)と区間長判定閾値T(>0)との大小比較を行い(S401)、length(K)<Tであれば、非目的音声区間に移行していないと判定し、第1の実施形態と同様な処理でコヒーレンス勾配grad(K)を計算する。すなわち、length(K)<Tの場合、S101に移行し、その後コヒーレンス勾配grad(K)が求められる。
一方、length(K)<Tでない場合、非目的音声区間に移行したと判定し、gradには初期値Ωを、counterには0を、それぞれ設定する(S105)。
ここで、閾値Tは、例えば「20」等の正の整数を設定することができるが、特に限定されるものではない。
ここで、第2の実施形態では、目的音声区間と非目的音声区間とで、次のような特性の違いがあることを利用する。
目的音声区間の場合、小振幅区間でのみ一時的にコヒーレンスCOHが小さくなるが、全体的にはコヒーレンスCOHは大きい。つまり、コヒーレンスCOHが連続して目的音声区間判定閾値Θを下回る期間は短い。
一方、非目的音声区間の場合、コヒーレンスCOHが目的音声区間判定閾値Θより小さい区間が長期間に亘って継続される。つまり、コヒーレンスCOHが音声区間判定閾値Θを下回る区間が長くなる傾向がある。
このような差異を用い、コヒーレンス変動監視部22は、コヒーレンスCOHが目的音声区間判定閾値Θを連続して下回った回数によって非目的音声区間か否かを判定する。
次に、コヒーレンス勾配出力部155が、目的音声区間検出及びゲイン制御部16に、grad(K)を与える。そして、目的音声区間検出及びゲイン制御部16が、コヒーレンスCOH(K)とgrad(K)に応じたゲインVS_GAINが設定する。
そして、ボイススイッチゲイン乗算部17が、入力信号s1(t)とVS_GAINを乗算して信号y(t)を求め、この信号y(t)を出力する。
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、小コヒーレンス区間長監視部によって、目的音声区間から非目的音声区間に切り替わった場合の誤判定を解消することができるので、非目的音声区間での雑音抑圧性能を維持できる。
従って、本発明をテレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。
(C)第3の実施形態
次に、本発明の非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラムの第3の実施形態を、図面を参照しながら詳細に説明する。
第1の実施形態では、コヒーレンス勾配gradに基づいて、目的音声区間の小振幅区間の誤判定を抑制した。
しかし、妨害音の到来方向、妨害音の強度などの条件によっては、gradは目的音区間と妨害音区間とで大きな差が発生せず、目的音声小振幅区間の誤判定を抑制できない場合がある。
そこで、第3の実施形態では、目的音声区間でのgradが妨害音声区間でのgradよりも際立つように補正を施すものである。
(C−1)第3の実施形態の構成及び動作
図15は、第3の実施形態の非目的音抑制装置30の内部構成を示す機能ブロック図である。
図15において、第3の実施形態の非目的音抑制装置30は、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部32、ボイススイッチゲイン乗算部17、コヒーレンス変動補正部31を有する。
第3の実施形態が、第1の実施形態の構成と異なる点は、コヒーレンス変動補正部31を有する点である。
そこで、第3の実施形態は、コヒーレンス変動補正部31及び目的音声区間検出及びゲイン制御部32の処理機能を中心に詳細に説明する。
コヒーレンス変動補正部31は、コヒーレンス計算部14からコヒーレンスCOH(K)を受け取り、又コヒーレンス変動監視部15からコヒーレンス勾配gradを受け取り、コヒーレンス勾配を補正して、その補正したコヒーレンス勾配revised_grad(K)を目的音声区間検出及びゲイン制御部16に与えるものである。
図16は、コヒーレンス変動補正部31の内部構成を示す機能ブロック図である。
図16において、コヒーレンス変動補正部31は、コヒーレンス及びコヒーレンス勾配入力部311、コヒーレンス勾配補正処理部312、補正後コヒーレンス勾配出力部313を有する。
コヒーレンス及びコヒーレンス勾配入力部311は、コヒーレンス計算部14からコヒーレンスCOH(K)を受け取り、コヒーレンス勾配補正処理部312に与えるものである。また、コヒーレンス及びコヒーレンス勾配入力部311は、コヒーレンス変動監視部15からコヒーレンス勾配grad(K)を受け取り、コヒーレンス勾配補正処理部312に与えるものである。
コヒーレンス勾配補正処理部312は、コヒーレンスCOH(K)と、コヒーレンス勾配grad(K)とに基づいて、コヒーレンス勾配を補正するものである。
補正後コヒーレンス勾配出力部313は、コヒーレンス勾配補正処理部312により補正された補正後のコヒーレンス勾配revised_grad(K)を、目的音声区間検出及びゲイン制御部32に与えるものである。
目的音声区間検出及びゲイン制御部32は、コヒーレンス計算部14から得るコヒーレンスCOH(K)と、補正後のコヒーレンス勾配revised_grad(K)とに基づいて、ゲインVS_GAINを定めて、ボイススイッチゲイン乗算部17に与えるものである。
ここで、コヒーレンス勾配補正処理部312によるコヒーレンス勾配の補正処理を詳細に説明する。
コヒーレンス勾配補正部31は、コヒーレンス計算部14からコヒーレンスCOH(K)と、コヒーレンス変動監視部15からコヒーレンス勾配grad(K)とをそれぞれ受け取る。
そして、コヒーレンス勾配補正処理部312は、目的音声区間におけるgradが、非目的音声区間のgrad(K)よりも大きくなるように、grad(K)を補正する。
この補正方法は、種々の方法を用いることができるが、例えば、コヒーレンス勾配補正処理部312は、式(6)のような演算を行なうものとする。
revised_grad(K)=grad(K) × COH(K) …(6)
式(6)の目的は、目的音声区間と非目的音声区間とでrevised_gradの値の差を大きくすることである。目的音声区間では、コヒーレンスCOHは大きな値をとり、非目的音声区間では、コヒーレンスCOHは小さい値をとる。この特性を利用して、式(6)のように、コヒーレンス勾配gradにコヒーレンスCOHを乗算することで、乗算前と比較して、目的音声区間でのrevised_gradは、非目的音声区間よりもさらに大きな値を得ることができる。
よって、コヒーレンス勾配補正処理部312が、式(6)に従ってコヒーレンス勾配gradの補正処理を行うことにより、目的音声区間のときには、補正後のrevised_gradは、際立って大きな値を持つことができる。
また、目的音声区間検出及びゲイン制御部32は、第1の実施形態の場合には、コヒーレンス勾配grad(K)を用いていたが、このgrad(K)に代えて、補正後のコヒーレンス勾配revisede_grad(K)を用いて、目的音声区間か否かを判定する。
つまり、目的音声区間検出及びゲイン制御部32は、「コヒーレンスCOH(K)が所定の閾値Θより大きい、または、revised_grad(K)が所定の閾値Φ(<0)より小さい」という条件を満たせば目的音声区間と判定し、そうでない場合は非目的音声区間と判定し、その結果に応じてVS_GAINを制御する。
(C−2)第3の実施形態の効果
以上のように、第3の実施形態によれば、コヒーレンス勾配補正部を追加し、目的音声区間と非目的音声区間とのgradにより明確な差を生じさせることで、目的音声小振幅区間の誤判定を防止することができるようになる。したがってボイススイッチ処理による目的音声の誤消去を防止でき、音質がより改善される。
(D)他の実施形態
(D−1)第1〜第3の実施形態では、コヒーレンス勾配を用いて、目的音声区間の小振幅区間を検出する場合を例示した。しかし、コヒーレンス勾配ではなく、コヒーレンスの分散の大小によって、目的音声区間の小振幅区間を検出するようにしてもよい。
(D−2)コヒーレンス勾配の補正処理の変形実施形態
(D−2−1)第3の実施形態では、式(6)を用いて、コヒーレンス勾配の補正を行なった場合を例示した。しかし、コヒーレンス勾配の補正方法は、第3の実施形態で説明した方法に限定されるものではなく、変形形態として他の補正処理の例を以下に記載する。
図17は、第3の実施形態の変形実施形態の非目的音抑制装置40の内部構成を示す機能ブロック図である。
図17の非目的音抑制装置40は、第3の実施形態の非目的音抑制装置30の構成に、コヒーレンス長期平均計算部43を追加する点が異なり、このコヒーレンス長期平均計算部43を設けることで、コヒーレンス変動補正部42、目的音声区間検出及びゲイン制御部44の処理が第3の実施形態と異なるものになる。
コヒーレンス長期平均計算部43は、コヒーレンス計算部14からのコヒーレンスCOH(K)を受け取り、所定の期間のコヒーレンスCOH(K)の長期平均化処理を行うものである。この長期平均化処理は、既存の技術を広く適用することができる。
コヒーレンス変動監視部42は、コヒーレンス長期平均計算部43から長期平均化処理がなされたAVE_COH(K)を受け取り、式(7)に従って、コヒーレンス勾配の補正を行なう。
revise_grad(K)=grad(K) × AVE_COH(K) …(7)
このように、AVE_COHを用いることで、コヒーレンスCOHの瞬時変動を抑制できるので、目的音声区間の小振幅区間でのコヒーレンスCOHの瞬時変動の影響を抑制できる。また、コヒーレンスが平均化されることで、目的音声区間と非自的音声区間との差異がより際立つため、補正効果が増し、検出精度をさらに向上させることができる。
なお、図18は、図17に示すように、コヒーレンス長期平均計算部43を設けたときの、目的音声区間検出及びゲイン制御部44における動作を示すフローチャートである。ここでは、図18を用いて、目的音声区間検出及びゲイン制御部44における動作を簡単に説明する。
目的音声区間検出及びゲイン制御部44は、長期平均化処理がなされたAVE_COH(K)と補正後コヒーレンス勾配revise_grad(K)を受け取ると(S501)、AVE_COH(K)を目的音声区間判定閾値Θと、revise_grad(K)をコヒーレンス勾配判定閾値Φと、それぞれ比較する(S502)。
そして、AVE_COH(K)≧Θ又はrevise_grad(K)<Φの場合、目的音声区間と判定し、VS_GAINに1.0を設定する(S503)。一方、前記条件を満たさない場合、非目的音声区間と判定し、VS_GAINにα(0.0≦α<1.0)を設定する(S505)。
目的音声区間検出及びゲイン制御部44は、設定されたVS_GAINを、ボイススイッチゲイン乗算部17に与える(S504)。
(D−2−2)また、別の補正方法の例として、次のようにしてもよい。
第3の実施形態のコヒーレンス勾配補正部が、式(8)のようにCOHの二乗を用いて補正してもよい
revised_grad(K)=grad(K) × COH(K) × COH(K) …(8)
先述の通り、COHの変域は0<COH<1なので、2乗することでCOHが小さい場合と大きい場合との差はさらに広がる。よって、目的音声区間と非目的音声区間との差異をより大きくする効果があり、検出精度をさらに向上させることができる。
また、第3の実施形態の目的音声区間検出及びゲイン制御部は、revised_grad(K)を、所定の閾値Φ(<0)と比較することで、目的音声区間か否かを判定しているが、revised_grad(K)ではなく、revised_grad(K)に長期平均処理を施した変数を用いてもよい。
(D−3)本発明は、公知の周波数減算、コヒーレンスフィルター、ウィーナーフィルターのいずれか1つ、あるいはいずれか2つ、あるいは全てと併用してもよい。これによりさらに高い雑音抑圧性能を実現できる。
(D−3−1)以下では、第1の実施形態の構成と、周波数減算、コヒーレンスフィルター、ウィーナーフィルターのそれぞれとを併用する場合の構成と動作説明を簡単に説明する。勿論、第1の実施形態の構成に代えて、第2、第3の実施形態の構成と併用するようにしてもよい。
図19は、第1の実施形態の構成と周波数減算の構成を併用する場合の構成を示す。
図19のように、この変形実施形態の構成は、マイクm1、マイクm2、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16、第3の指向性形成部51、減算部52、IFFT部53、ゲイン乗算部54を有する。なお、周波数減算部50は、第3の指向性形成部51、減算部52、IFFT部53を有する。
ここで、周波数減算とは入力信号から非目的音声信号成分を減算することで雑音抑制を行う手法である。今回は非目的音声信号成分を取得するために、図20のような正面に死角を有する指向性を形成する第3の指向性形成部51を追加した。ただし、第3の指向性形成部で形成する指向性の形状は設計者が自由に設定してよく、図20の特性に限定されるものではない。
ここでは、第3の指向性形成部51は、例えば式(9)の演算により、周波数領域信号X1(f、K)とX2(f、K)に基づいて、正面に死角を有する信号B3(f、K)を取得する。
B3(f、K)=X1(f、K)− X2(f、K) …(9)
次に、減算部52は、例えば、式(10)に従って、周波数領域信号X1(f、K)と信号B3(f、K)に基づいて、雑音除去後信号D(f、K)を得る。
D(f、K)=X1(f、K)− B3(f、K) …(10)
そして、IFFT部53は、雑音除去後信号D(f、K)を時間領域信号q(t)に変換し、最後に、乗算部54が、時間領域信号q(t)にVS_GAINを乗算することで、出力信号y(t)を得る。なお、VS_GAINを得る第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声検出及びゲイン制御部16は第1の実施形態と同様なので説明は省略する。
(D−3−2)図21は、第1の実施形態とコヒーレンスフィルターとを併用する場合の構成を示す構成図である。
図21のように、この変形実施形態は、マイクm1、マイクm2、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16、コヒーレンスフィルター係数乗算部61、IFFT部62、ゲイン乗算部63を有する。なお、コヒーレンスフィルター演算部60は、コヒーレンスフィルター係数乗算部61、IFFT部62を有する。
コヒーレンスフィルターとは、式(3)で得られたcoef(f、K)を周波数ごとに入力信号に乗算することで到来方向に偏りを有する信号成分を抑制する、雑音除去技術のことである。
この変形実施形態では、コヒーレンス計算部14の演算の過程で得られるcoef(f、K)を、コヒーレンスフィルター係数乗算部61でX1(f)に乗算することで、コヒーレンスフィルター処理が実現できる。
まず、コヒーレンスフィルター係数乗算部61は、例えば式(11)の演算を施すことで雑音抑制後信号D(f、K)を得る。
D(f、K)=X1(f、K)× coef(f、K) …(11)
IFFT部62は、雑音抑圧後信号D(f)を時間領域信号q(t)に変換し、ゲイン乗算部63が、信号q(t)にVS_GAINを乗算すると、出力信号y(t)が得られる。なお、VS_GAINを得る第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16は第1の実施形態と同様なので説明は省略する。
(D−3−3)図22は、第1の実施形態の構成とウィーナーフィルターとを併用する場合の構成を示す構成図である。
図22のように、この変形実施形態は、マイクm1、マイクm2、FFT部11、第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16、ウィーナーフィルター係数計算部71、ウィーナーフィルター係数乗算部72、IFFT部73、ゲイン乗算部74を有する。なお、ウィーナーフィルター演算部70は、ウィーナーフィルター係数計算部71、ウィーナーフィルター係数乗算部72、IFFT部73を有する。
ウィーナーフィルターとは、特許文献2にも記載されているが、雑音区間の信号から周波数ごとに雑音特性を推定して得た係数を乗算することで雑音を除去する技術である。
この変形実施形態では、当該処理を実現するために、ウィーナーフィルター係数計算部71とウィーナーフィルター係数乗算部72を追加する。
ウィーナーフィルター係数計算部71は、目的音声区間検出及びゲイン制御部16の目的音声区間検出結果を参照し、非目的音声区間であれば、例えば特許文献2の「数3」のような演算によって、ウィーナーフィルター係数の推定を行い、目的音声区間であれば推定を行わない、という動作をする。
得られた係数wf_coef(f、K)は、ウィーナーフィルター係数乗算部72が、式(12)のような演算を施され、雑音抑圧後信号D(f、K)を得る。
D(f、K)=X1(f、K)× wf_coef(f、K) …(12)
そして、IFFT部73が、雑音抑圧後信号D(f、K)を時間領域信号q(t)に変換し、ゲイン乗算部74が、信号q(t)にボイススイッチゲインを乗算すると出力信号y(t)を得る。なお、VS_GAINを得る第1の指向性形成部12、第2の指向性形成部13、コヒーレンス計算部14、コヒーレンス変動監視部15、目的音声区間検出及びゲイン制御部16は第1の実施形態と同様なので説明は省略する。
(D−4)第1〜第3の実施形態及び上述した各変形実施形態では、入力される信号が音声の場合を想定して説明したが、音声に限定されるものではなく、例えば、音響信号等であってもよい。
(D−5)また、第1〜第3の実施形態及び上述した各変形実施形態では、2個のマイクからの入力信号を想定したが、3個以上であってもよい。
10、20、30、40…非目的音抑制装置、
11…FFT部、12…第1の指向性形成部、13…第2の指向性形成部、
14…コヒーレンス計算部、15、22、32…コヒーレンス変動監視部、
16、44…目的音声区間検出及びゲイン制御部、
17…ゲイン乗算部、21…小コヒーレンス区間長監視部、
31、42…コヒーレンス変動補正部、50…周波数減算部、
60…コヒーレンスフィルター演算部、70…ウィーナーフィルター演算部
151…コヒーレンス入力部、152…コヒーレンス増減判定部、153…記憶部、154…コヒーレンス勾配計算部、155…コヒーレンス出力部、
161…コヒーレンス及びコヒーレンス勾配入力部、162…目的音区間判定部、163…ゲイン制御部、164…ゲイン出力部、
211…コヒーレンス入力部、212…小コヒーレンス判定部、213…小コヒーレンス区間長計算部、214…小コヒーレンス区間長出力部、
221…コヒーレンス及び小コヒーレンス区間長入力部、222…コヒーレンス勾配計算制御部、
311…コヒーレンス及びコヒーレンス勾配入力部、312…コヒーレンス勾配補正処理部、313…補正後コヒーレンス勾配出力部。

Claims (13)

  1. 入力信号を時間領域から周波数領域に変換する周波数解析手段と、
    上記周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成手段と、
    上記周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成部とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成手段と、
    上記第1の指向性を持つ信号及び上記第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、
    上記コヒーレンス計算手段から取得したコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視手段と、
    上記コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、上記コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出手段と、
    上記目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御手段と、
    上記利得制御手段により得られた上記利得を、上記入力信号に乗算する利得乗算手段と
    を備えることを特徴とする非目的音抑制装置。
  2. 上記コヒーレンス変動監視手段が、
    少なくとも、前の区間のコヒーレンス値を記憶する記憶部と、
    前の区間のコヒーレンス値と現在の区間のコヒーレンス値との大小比較、又は、前の区間のコヒーレンス勾配とコヒーレンス勾配判定閾値との大小比較を行うコヒーレンス増減判定部と、
    前の区間より現在のコヒーレンス値が小さいか、又は、前の区間のコヒーレンス勾配が所定のコヒーレンス勾配判定閾値より小さい、という判定条件を満たす場合は、コヒーレンス値が減少を始めた区間のコヒーレンス値を初期値として、上記初期値と現在のコヒーレンス値と比較することでコヒーレンス勾配を求め、上記判定条件を満たさなかった場合には、コヒーレンス勾配を所定の初期化値で初期化することで、コヒーレンス勾配を求めるコヒーレンス勾配計算部と
    を有し、
    上記目的音区間検出手段が、
    コヒーレンス値が目的音区間判定閾値より大きいか、又は、コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合を目的音区間と判定し、それ以外の場合を非目的音区間と判定する、目的音区間判定部を有し、
    上記利得制御手段が、目的音区間判定部の結果に応じて上記利得を設定するものである
    ことを特徴とする請求項1に記載の非目的音抑制装置。
  3. 上記コヒーレンス計算手段からのコヒーレンス値に基づいて、コヒーレンス値が連続して目的音判定閾値を下回った区間の長さである小コヒーレンス区間長を観測する小コヒーレンス区間長監視手段を備え、
    上記コヒーレンス変動監視手段が、上記小コヒーレンス区間長が所定の小コヒーレンス判定閾値より大きくなった場合は、当該区間が非目的音区間となるように、当該コヒーレンス勾配を初期化することを特徴とする請求項1又は2に記載の非目的音抑制装置。
  4. 上記小コヒーレンス区間長監視手段が、
    上記コヒーレンス計算手段からのコヒーレンス値が所定の目的音区間判定閾値より小さいか否かを判定する小コヒーレンス判定部と、
    上記コヒーレンス値が上記目的音区間判定閾値より小さい場合、上記小コヒーレンス区間長を所定の値だけ増加させ、上記コヒーレンス値が上記目的音区間判定閾値以上の場合、上記小コヒーレンス区間長を所定の値に初期化する小コヒーレンス区間長計算部と
    を有し、
    コヒーレンス変動監視手段が、
    上記小コヒーレンス区間長が所定の区間長判定閾値以上の場合、上記コヒーレンス勾配を初期化し、上記小コヒーレンス区間長が上記区間長判定閾値より小さい場合、コヒーレンス勾配演算処理を行うように制御する、コヒーレンス勾配計算制御部を有することを特徴とする請求項3に記載の非目的音抑制装置。
  5. 上記コヒーレンス変動監視手段からの上記コヒーレンス勾配を補正するコヒーレンス勾配補正手段を更に備え、
    上記目的音区間検出手段が、補正後のコヒーレンス勾配に基づいて、目的音区間、非目的音区間を判定するものである
    ことを特徴とする請求項1〜4のいずれかに記載の非目的音抑制装置。
  6. 上記コヒーレンス勾配補正手段が、上記コヒーレンス計算手段から取得したコヒーレンス値と、上記コヒーレンス変動監視手段から取得した上記コヒーレンス勾配とを乗算して、補正後のコヒーレンス勾配を求めるものであることを特徴とする請求項5に記載の非目的音抑制装置。
  7. コヒーレンス勾配補正手段が、上記コヒーレンス値に長期平均処理を施した長期平均コヒーレンス値と、上記コヒーレンス勾配とを乗算して、補正後コヒーレンス勾配を求めるものであることを特徴とする請求項5に記載の非目的音抑制装置。
  8. コヒーレンス勾配補正手段が、上記コヒーレンス値を2乗した2乗コヒーレンス値と、上記コヒーレンス勾配とを乗算して、補正後のコヒーレンス勾配を求めるものであることを特徴とする請求項5に記載の非目的音抑制装置。
  9. 上記目的音区間検出手段が、補正後のコヒーレンスに長期平均化処理を行い、その長期平均コヒーレンス勾配が、所定の目的音区間判定閾値以上、又は、長期平均コヒーレンス勾配が所定のコヒーレンス勾配判定閾値より小さい場合は目的音区間と判定し、そうでない場合は非目的音区間と判定するものであり、
    上記利得制御手段が、上記目的音区間検出手段の判定結果に応じて上記利得を設定するものである
    ことを特徴とする請求項5〜のいずれかに記載の非目的音抑制装置。
  10. 周波数減算手段、コヒーレンスフィルター演算手段、ウィーナーフィルター演算手段のうち、いずれか1つ若しくは2つ若しくは全部を備えることを特徴とする請求項1〜のいずれかに記載の非目的音抑制装置。
  11. 上記目的音区間検出手段が、上記コヒーレンス勾配に代えて、上記コヒーレンス値の分散によって目的音声区間か否かを検出することを特徴とする請求項1〜10のいずれかに記載の非目的音抑制装置。
  12. 周波数解析手段が、入力信号を時間領域から周波数領域に変換する周波数解析工程と、
    第1の指向性形成手段が、上記周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成工程と、
    第2の指向性形成手段が、上記周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成工程とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成工程と、
    コヒーレンス計算手段が、上記第1の指向性を持つ信号及び上記第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算工程と、
    コヒーレンス変動監視手段が、上記コヒーレンス計算手段から取得したコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視工程と、
    目的音区間検出手段が、上記コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、上記コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出工程と、
    利得制御手段が、上記目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御工程と、
    利得乗算手段が、上記利得制御手段により得られた上記利得を、上記入力信号に乗算する利得乗算工程と
    を有することを特徴とする非目的音抑制方法。
  13. コンピュータを、
    入力信号を時間領域から周波数領域に変換する周波数解析手段、
    上記周波数解析手段から得られた信号に遅延減算処理を行い、所定の方位に死角を有する第1の指向性を持つ信号を形成する第1の指向性形成手段、
    上記周波数解析手段から得られた信号に遅延減算処理を行い、第1の指向性形成手段とは異なる所定の方位に死角を有する第2の指向性を持つ信号を形成する第2の指向性形成手段、
    上記第1の指向性を持つ信号及び上記第2の指向性を持つ信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、
    上記コヒーレンス計算手段から取得したコヒーレンス値に基づいて、コヒーレンス勾配を求めるコヒーレンス変動監視手段、
    上記コヒーレンス値が所定の目的音区間判定閾値より大きいか、又は、上記コヒーレンス勾配がコヒーレンス勾配判定閾値より小さい場合、目的音区間と判定し、そうでない場合は非目的音区間と判定する目的音区間検出手段、
    上記目的音区間検出手段の判定結果に応じて、入力信号の振幅を抑制する利得を設定する利得制御手段、
    上記利得制御手段により得られた上記利得を、上記入力信号に乗算する利得乗算手段
    として機能させることを特徴とする非目的音抑制プログラム。
JP2011272618A 2011-12-13 2011-12-13 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム Active JP5927887B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011272618A JP5927887B2 (ja) 2011-12-13 2011-12-13 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011272618A JP5927887B2 (ja) 2011-12-13 2011-12-13 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム

Publications (2)

Publication Number Publication Date
JP2013126026A JP2013126026A (ja) 2013-06-24
JP5927887B2 true JP5927887B2 (ja) 2016-06-01

Family

ID=48777058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011272618A Active JP5927887B2 (ja) 2011-12-13 2011-12-13 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム

Country Status (1)

Country Link
JP (1) JP5927887B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6314475B2 (ja) * 2013-12-25 2018-04-25 沖電気工業株式会社 音声信号処理装置及びプログラム
JP2015155975A (ja) 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP6213324B2 (ja) * 2014-03-19 2017-10-18 沖電気工業株式会社 音声信号処理装置及びプログラム
JP6252274B2 (ja) * 2014-03-19 2017-12-27 沖電気工業株式会社 背景雑音区間推定装置及びプログラム
JP6763319B2 (ja) * 2017-02-27 2020-09-30 沖電気工業株式会社 非目的音判定装置、プログラム及び方法
JP6903947B2 (ja) * 2017-02-27 2021-07-14 沖電気工業株式会社 非目的音抑圧装置、方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4529611B2 (ja) * 2004-09-17 2010-08-25 日産自動車株式会社 音声入力装置
JP5032959B2 (ja) * 2007-11-28 2012-09-26 パナソニック株式会社 音響入力装置
JP2010011272A (ja) * 2008-06-30 2010-01-14 Yamaha Corp 音響エコーキャンセラ
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
EP2393463B1 (en) * 2009-02-09 2016-09-21 Waves Audio Ltd. Multiple microphone based directional sound filter
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP4986248B2 (ja) * 2009-12-11 2012-07-25 沖電気工業株式会社 音源分離装置、方法及びプログラム
JP5391103B2 (ja) * 2010-02-10 2014-01-15 日本電信電話株式会社 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair

Also Published As

Publication number Publication date
JP2013126026A (ja) 2013-06-24

Similar Documents

Publication Publication Date Title
JP5927887B2 (ja) 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
JP6028502B2 (ja) 音声信号処理装置、方法及びプログラム
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
JP2007006525A (ja) ノイズ除去の方法及び装置
US9570088B2 (en) Signal processor and method therefor
JP4395772B2 (ja) ノイズ除去方法及び装置
JP6314475B2 (ja) 音声信号処理装置及びプログラム
JP5772562B2 (ja) 目的音抽出装置及び目的音抽出プログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
GB2501234A (en) Determining correlation between first and second received signals to estimate delay while a disturbance condition is present on the second signal
JP6711205B2 (ja) 音響信号処理装置、プログラム及び方法
US9659575B2 (en) Signal processor and method therefor
JP6763319B2 (ja) 非目的音判定装置、プログラム及び方法
JP6295650B2 (ja) 音声信号処理装置及びプログラム
JP5970985B2 (ja) 音声信号処理装置、方法及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6432384B2 (ja) エコー抑圧装置、エコー抑圧プログラム及びエコー抑圧方法
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP6544182B2 (ja) 音声処理装置、プログラム及び方法
JP2022011890A (ja) ノイズ更新回路
JP2015025914A (ja) 音声信号処理装置及びプログラム
JP2014068052A (ja) 音響信号処理装置、方法及びプログラム
JP2014164192A (ja) 信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150904

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5927887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150