JP2015125184A - 音声信号処理装置及びプログラム - Google Patents

音声信号処理装置及びプログラム Download PDF

Info

Publication number
JP2015125184A
JP2015125184A JP2013267754A JP2013267754A JP2015125184A JP 2015125184 A JP2015125184 A JP 2015125184A JP 2013267754 A JP2013267754 A JP 2013267754A JP 2013267754 A JP2013267754 A JP 2013267754A JP 2015125184 A JP2015125184 A JP 2015125184A
Authority
JP
Japan
Prior art keywords
audio signal
frequency coherence
section
low
disturbing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013267754A
Other languages
English (en)
Other versions
JP6314475B2 (ja
Inventor
克之 高橋
Katsuyuki Takahashi
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2013267754A priority Critical patent/JP6314475B2/ja
Publication of JP2015125184A publication Critical patent/JP2015125184A/ja
Application granted granted Critical
Publication of JP6314475B2 publication Critical patent/JP6314475B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 一対のマイクロホンの間隔が大きくても、適切なボイススイッチの処理結果を得ることができる音声信号処理装置を提供する。【解決手段】 本発明の装置は、一対のマイクロホンが捕捉して得た入力音声信号から低域コヒーレンスを得る手段と、得られた低域コヒーレンスの統計量を算出する手段と、算出された低域コヒーレンス統計量を閾値と比較し、入力音声信号の区間が妨害音声信号の区間か否かを決定する手段と、妨害音声信号の区間と他の区間とで異なる抑圧ゲインを設定し、入力音声信号に乗算する算手段とを有する。【選択図】 図4

Description

本発明は音声信号処理装置及びプログラムに関し、、例えば、電話機やテレビ会議装置などの音声信号(この明細書では、音声信号や音響信号等の音信号を「音声信号」と呼んでいる)を扱う通信機や通信ソフトウェアに適用し得るものである。
マイクロホン正面にいる話者の声(目的音声)と周囲にいる人の話し声(妨害音声)や背景雑音とが混ざり合った音声信号から目的音声を抽出する技術として、特許文献1や特許文献2に記載のボイススイッチと呼ばれる技術がある。
ボイススイッチでは、2つのマイクロホンで得られた時間領域信号である音声信号(入力信号)s1(n)、s2(n)を周波数領域信号X1(f、K)、X2(f、K)に変換した後、右から到来する成分のみを含む第1の指向性信号B1(f、K)と左から到来する成分のみを含む第2の指向性信号B2(F、K)を生成し、両者の相関係数であるコヒーレンスフィルタ係数coef(f、K)を算出する。そして、コヒーレンスフィルタ係数coef(f、K)を全周波数で平均をとったコヒーレンスCOH(K)を計算し、COH(K)が所定の閾値より大きいか否かに基づいて目的音声区間か否かを判定し、判定結果に基づいて抑圧ゲインGain(K)を設定する。抑圧ゲインGain(K)として、目的音声区間ならば1.0で、非目的音声区間(妨害音声区間と背景雑音区間とでなる)ならば0.0以上1.0未満の任意の値を設定し、入力信号に乗算することにより、ボイススイッチ処理後の信号を得る。
特開2013−125085号公報 特開2013−182044号公報
浅野太著、日本音響学会編集、「音のアレイ信号処理」、コロナ社、2011年2月初版発行
ボイススイッチ法を適用した音声信号処理装置は、例えば、スマートフォンの音声入力・認識装置に適用される。2つのマイクロホンをスマートフォンの長手方向に距離(例えば14cm程度)を置いて設けることも考えられ、この場合、スマートフォンの幅方向に距離(例えば3cm程度)を置いて設けるより2つのマイクロホンの間隔(以下、マイクロホン間隔と呼ぶ)はかなり大きくなる。
マイクロホン間隔が大きくなると、空間エイリアスという一種の誤差成分が混入し、形成する指向性の形状が変形するという課題がある(非特許文献1の76頁参照)。図5は、空間エイリアスによる指向性の変化の例を示している。図5は、第1の指向性信号におけるある周波数における指向性を示している。点線曲線は、マイクロホン間隔が狭い場合の指向性を示しており、カージオイド状の形状になっている。一方、実線曲線は、マイクロホン間隔が広い場合の指向性を示しており、空間エイリアスにより、様々な方位に死角を有する独特な形状を呈している。なお、図5における円は、指向性の強度の目安を与える目盛として描いている。
すなわち、第1の指向性信号は、空間エイリアスなしであれば左方向から到来する成分のみを含むのに対し、空間エイリアスありの場合には様々な方位(全方位ではないが)から到来する成分を含むようになる。第2の指向性信号も左右の違いはあるが同様である。これにより、ボイススイッチ技術における『コヒーレンスCOH(K)は非目的音声区間では小さい』という前提が狂い、正確に非目的音声区間を検出できなくなってしまうという課題がある。非目的音声のうち、妨害音声は、無意識のうちに内容を聞き取ろうとする可能性が高く、背景雑音以上に抑圧できないことの課題は大きい。
そのため、マイクロホン間隔が大きくても、適切な処理結果を得ることができる音声信号処理装置及びプログラムが望まれている。
第1の本発明は、一対のマイクロホンが捕捉して得た入力音声信号から、当該入力音声信号に含まれている妨害音声信号の区間を特定する音声信号処理装置において、(1)一対の上記入力音声信号から低域コヒーレンスを得る低域コヒーレンス取得手段と、(2)得られた低域コヒーレンスの統計量を算出する低域コヒーレンス統計量算出手段と、(3)算出された低域コヒーレンス統計量を閾値と比較し、上記入力音声信号の区間が妨害音声信号の区間か否かを決定する妨害音声判定手段とを有することを特徴する。
ここで、妨害音声信号の区間と他の区間とで異なる抑圧ゲインを設定し、上記入力音声信号に乗算するゲイン設定・乗算手段をさらに有することが好ましい。
第2の本発明は、一対のマイクロホンが捕捉して得た入力音声信号から、当該入力音声信号に含まれている妨害音声信号の区間を特定する音声信号処理プログラムであって、コンピュータを、(1)一対の上記入力音声信号から低域コヒーレンスを得る低域コヒーレンス取得手段と、(2)得られた低域コヒーレンスの統計量を算出する低域コヒーレンス統計量算出手段と、(3)算出された低域コヒーレンス統計量を閾値と比較し、上記入力音声信号の区間が妨害音声信号の区間か否かを決定する妨害音声判定手段として機能させることを特徴とする。
ここで、コンピュータをさらに、妨害音声信号の区間と他の区間とで異なる抑圧ゲインを設定し、上記入力音声信号に乗算するゲイン設定・乗算手段として機能させることが好ましい。
本発明によれば、マイクロホン間隔が大きくても、適切な処理結果を得ることができる音声信号処理装置及びプログラムを実現できる。
マイクロホン間隔がある所定値以上に広がると、指向性信号における低域成分の指向性の鋭さが増すことの説明図である。 マイクロホン間隔が広い場合における低域コヒーレンスの挙動を示す説明図である。 第1の実施形態の音声信号処理装置の全体構成を示すブロック図である。 第1の実施形態の音声信号処理装置におけるボイススイッチ処理部の詳細構成を示すブロック図である。 空間エイリアスによる指向特性の変化の例を示す説明図である。
(A)第1の実施形態
以下、本発明による音声信号処理装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。第1の実施形態の音声処理装置は、ボイススイッチ法を適用して、音声信号中に含まれる目的音声成分を抽出する(言い換えると、非目的音声成分を抑圧する)ものである。
(A−1)第1の実施形態の考え方
マイクロホン間隔がある所定値以上に広がると、上述した空間エイリアスが生じるだけでなく、第1及び第2の指向性信号の低域成分の指向性の鋭さが増す。図1は、このことの説明図である。図1は、第1の指向性信号におけるある低域成分(例えば500Hz程度)についての指向性を表している。破線曲線はマイクロホン間隔が狭い場合を表し、実線曲線はマイクロホン間隔が広い場合を示しており、正面から90°右側にずれた方位の指向性はマイクロホン間隔が広い方が数倍(図1では4倍程度)指向性が鋭くなっている。なお、図1における円は、指向性の強度の目安を与える目盛として描いている。
鋭い指向性を有する第1及び第2の指向性信号に基づいてコヒーレンスフィルタ係数を算出した場合、マイクロホン間隔が狭い場合と比較して、コヒーレンスフィルタ係数の挙動は大きく変わる。なぜならば、例えば、妨害音声が左から到来した場合に、第1の指向性信号は死角にあたるので信号値は小さくなるが、第2の指向性信号は左側の信号成分がこれまで(狭いマイクロホン間隔の場合)以上に優勢に含まれるためである。そのため、第1及び第2の指向性信号の特性差が極端に大きくなるため、相関(コヒーレンスフィルタ係数)は極めて小さくなる。そのため、妨害音声区間でのコヒーレンスCOH(K)は異常に小さくなる。
図2は、第1及び第2の指向性信号の低域成分から求めたコヒーレンス(以下、低域コヒーレンスと呼ぶ)の挙動である。図2は、背景雑音区間と妨害音声区間とを含んでいる。図2から、妨害音声区間では背景雑音区間よりもさらに低域コヒーレンスの値や分散が小さくなっていることが分かる。
第1の実施形態は、この低域コヒーレンスの特性を利用し、マイクロホン間隔が広い場合にも、正確に妨害音声区間を検出して、少なくとも妨害音声区間についてはボイススイッチ処理によって抑圧しようとしたものである。
(A−2)第1の実施形態の構成
図3は、第1の実施形態に係る音声信号処理装置の構成を示すブロック図である。ここで、一対のマイクロホンm1及びm2を除いた部分は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声信号処理プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図3で表すことができる。
図3において、第1の実施形態に係る音声信号処理装置10は、一対のマイクロホンm1、m2、FFT(高速フーリエ変換)部11、ボイススイッチ処理部12及びIFFT(逆高速フーリエ変換)部13を有する。
一対のマイクロホンm1、m2は、上述した課題が生じる程度に広い所定距離(若しくは任意の距離)だけ離れて配置され、それぞれ、周囲の音声を捕捉するものである。各マイクロホンm1、m2は、無指向のもの(若しくは、正面方向にごくごく緩やかな指向性を有するもの)である。各マイクロホンm1、m2で捕捉された音声信号(入力信号)は、図示しない対応するA/D変換器を介してデジタル信号s1(n)、s2(n)に変換されてFFT部11に与えられる。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。音声信号(入力信号)の帯域は、例えば、0Hz〜8000Hzである。この帯域内の部分帯域として後述する低域がある。
FFT部11は、マイクロホンm1及びm2から入力信号系列s1(n)及びs2(n)を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)及びFRAME2(K)を構成して適用する。入力信号s1(n)から分析フレームFRAME1(K)を構成する例を以下の(1)式に示すが、分析フレームFRAME2(K)も同様である。
Figure 2015125184
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FFT部11は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号X1(f,K)、X2(f,K)に変換し、得られた周波数領域信号X1(f,K)及びX2(f,K)をそれぞれ、ボイススイッチ処理部12に与える。なお、fは周波数を表すインデックスである。また、X1(f,K)は単一の値ではなく、(2)式に示すように、複数の周波数f1〜fmのスペクトル成分から構成されるものであり、周波数f1が最も低い周波数で周波数f1より所定数の周波数を低域に含む周波数としている(なお、以下の説明においては、低域に属する最も高い周波数をfLとする)。さらに、X1(f,K)は複素数であり、実部と虚部からなる。X2(f,K)や後述するB1(f,K)及びB2(f,K)も同様である。
X1(f,K)={X1(f1,K),X1(f2,K),…,X1(fm,K)} …(2)
後述するボイススイッチ処理部12においては、周波数領域信号X1(f,K)及びX2(f,K)のうち、周波数領域信号X1(f,K)をメインとし、周波数領域信号X2(f,K)をサブとしてボイススイッチ処理を行うが、周波数領域信号X2(f,K)をメインとし、周波数領域信号X1(f,K)をサブとしてボイススイッチ処理を行っても良い。
ボイススイッチ処理部12は、後述する図4に示す詳細構成を有し、ボイススイッチ処理を実行し、少なくとも妨害音声成分が抑圧された信号Y(f,K)を得て、IFFT部13に与えるものである。
IFFT部13は、ボイススイッチ処理後の信号Y(f,K)に対して、逆高速フーリエ変換を施して時間領域信号である出力信号y(n)を得るものである。
図4は、ボイススイッチ処理部12の詳細構成を示すブロック図である。
図4において、ボイススイッチ処理部12は、入力信号受信部21、指向性形成部22、低域コヒーレンスフィルタ係数計算部23、低減コヒーレンス計算部24、低減コヒーレンス統計量計算部25、入力信号区間判定部26、ゲイン設定・乗算部27及び処理後信号送信部28を有する。
入力信号受信部21は、FFT部11から出力された周波数領域信号X1(f,K)、X2(f,K)を受け取るものである。
指向性形成部22は、第1及び第2の指向性信号B1(f,K)及びB2(f,K)を形成するものである。指向性信号B1(f,K)、B2(f,K)を形成する方法は、既存の方法を適用することができ、例えば、(3)式及び(4)式に従った演算により求める方法を適用することができる。
Figure 2015125184
低域コヒーレンスフィルタ係数計算部23は、第1及び第2の指向性信号B1(f,K)及びB2(f,K)に基づいて、(5)式に従って、低域(f=f1〜fL)のコヒーレンスフィルタ係数coef(f1,K)〜coef(fL,K)を計算するものである。
低域コヒーレンス計算部24は、低域のコヒーレンスフィルタ係数coef(f1,K)〜coef(fL,K)に基づいて、(6)式に従って、低域コヒーレンスCOHL(K)を計算するものである。低域コヒーレンスCOHL(K)は、(6)式に示すように、低域のコヒーレンスフィルタ係数coef(f1,K)〜coef(fL,K)を算術平均した値である。
Figure 2015125184
低減コヒーレンス統計量計算部25は、公知の算出方法を適用して、低域コヒーレンスCOHL(K)の長期平均値AVE_COHL(K)と分散VAR_COHL(K)を算出するものである。
入力信号区間判定部26は、低域コヒーレンスCOHL(K)の長期平均値AVE_COHL(K)と分散VAR_COHL(K)に基づいて、入力信号区間が妨害音声区間か否かを判定するものである。入力信号区間判定部26は、例えば、長期平均値AVE_COHL(K)が長期平均値用の閾値Θより小さく、かつ、分散VAR_COHL(K)が分散用の閾値Ψより小さい場合を妨害音声区間と判定する。すなわち、入力信号区間判定部26は、『AVE_COHL<Θ』かつ『VAR_COHL<Ψ』ならば妨害音声区間と判定する。
ここで、長期平均値用の閾値Θや分散用の閾値Ψは、上述した図2に示すような低域コヒーレンスCOHL(K)の挙動における妨害音声区間の実測値と、他の区間の実測値とから、両区間を弁別できるように定めている。
ゲイン設定・乗算部27は、判定結果に基づいて抑圧ゲインGain(K)を設定して周波数領域信号X1(f,K)に乗算するものである。ゲイン設定・乗算部27は、抑圧ゲインGain(K)として、妨害音声区間以外ならば1.0で、妨害音声区間ならば0.0以上1.0未満の任意の値を設定し、周波数領域信号X1(f,K)に乗算する。
処理後信号送信部28は、ゲイン設定・乗算部27から出力されたボイススイッチ処理が施された信号Y(f,K)を後段のIFFT部13に与えるものである。また、処理後信号送信部28は、Kを1だけ増加させて次のフレームの処理を起動させるものである。
(A−3)第1の実施形態の動作
次に、第1の実施形態の音声信号処理装置10の動作を、図面を参照しながら、全体動作、ボイススイッチ処理部12における詳細動作の順に説明する。
一対のマイクロホンm1及びm2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部11によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、ボイススイッチ処理部12に与えられる。これにより、ボイススイッチ処理部12において、ボイススイッチ処理が実行され、得られた処理後信号Y(f,K)がIFFT部13に与えられる。IFFT部13においては、周波数領域信号であるボイススイッチ処理後信号Y(f,K)が、逆高速フーリエ変換によって、時間領域信号y(n)に変換され、この時間領域信号y(n)が出力される。
次に、ボイススイッチ処理部12における詳細動作を説明する。なお、ボイススイッチ処理部12の詳細構成を示す上述した図4は、ボイススイッチ処理部12の処理を示すフローチャートと見ることもできる。以下では、あるフレームの処理を説明するが、フレームごとに、以下に説明する処理が繰り返される。
新たなフレームになり、新たなフレーム(現フレームK)の周波数領域信号X1(f,K)、X2(f,K)がFFT部11から与えられると、(3)式及び(4)式に従って、第1及び第2の指向性信号B1(f,K)及びB2(f,K)が計算され、さらに、これらの指向性信号B1(f,K)及びB2(f,K)に基づき、(5)式に従って、低域のコヒーレンスフィルタ係数coef(f1,K)〜coef(fL,K)が計算される。さらにまた、低域のコヒーレンスフィルタ係数coef(f1,K)〜coef(fL,K)に基づき、(6)式に従って、低域コヒーレンスCOHL(K)が計算される。
その後、低減コヒーレンス統計量計算部25において、低域コヒーレンスCOHL(K)の長期平均値AVE_COHL(K)及び分散VAR_COHL(K)が算出され、それぞれ、対応する閾値Θ、Ψと比較される。
この比較の結果が『AVE_COHL<Θ』かつ『VAR_COHL<Ψ』である場合には妨害音声区間と判定され、上記以外の場合には、妨害音声区間以外と判定される。
妨害音声区間では、抑圧ゲインGain(K)として0.0以上1.0未満の任意の値が設定され、周波数領域信号X1(f,K)に乗算されて、妨害音声成分が抑圧された処理後信号Y(f,K)が得られてIFFT部13に出力される。一方、妨害音声区間以外では、抑圧ゲインGain(K)として1.0が設定され、周波数領域信号X1(f,K)に乗算されて、周波数領域信号X1(f,K)そのものである処理後信号Y(f,K)が得られてIFFT部13に出力される。
そして、フレーム変数Kが1だけ増加されて、次のフレームの処理に移行する。
(A−4)第1の実施形態の効果
以上のように、第1の実施形態によれば、マイクロホン間隔が広く、空間エイリアス成分がコヒーレンスに混入した場合でも、低減の極端に強い指向性に基づいて、正確に妨害音声区間を検出することができ、ボイススイッチ処理を適切に実行させることができる。
以上の効果により、第1の実施形態の音声信号処理装置若しくはプログラムを適用した、テレビ会議装置や携帯電話機やスマートフォンなどの通信装置における通話音質の向上が期待できる。
(B)他の実施形態
上記第1の実施形態では、長期平均値AVE_COHL(K)が長期平均値用の閾値Θより小さく、かつ、分散VAR_COHL(K)が分散用の閾値Ψより小さい場合を妨害音声区間と判定するものを示したが、他の判定基準を適用するようにしても良い。
例えば、低域コヒーレンスの分散を算出することなく、長期平均値AVE_COHL(K)が長期平均値用の閾値Θより小さい場合を妨害音声区間と判定するようにしても良い。
また例えば、長期平均値AVE_COHL(K)が長期平均値用の閾値Θより小さく、かつ、分散VAR_COHL(K)が分散用の閾値Ψより小さい場合を妨害音声区間と判定し、長期平均値AVE_COHL(K)が長期平均値用の閾値Θより小さいが、分散VAR_COHL(K)が分散用の閾値Ψ以上の場合や、分散VAR_COHL(K)が分散用の閾値Ψより小さいが、長期平均値AVE_COHL(K)が長期平均値用の閾値Θ以上の場合を、妨害音声区間に準じた区間と判定し、妨害音声区間の抑圧ゲインより大きいが、1.0未満の任意の値の抑圧ゲインを設定して抑圧するようにしても良い。
また、長期平均値用の閾値若しくは分散用の閾値の少なくとも一方の閾値を2段以上設けて、最大の閾値未満の場合をも、妨害音声区間に準じた区間と判定し、妨害音声区間の抑圧ゲインより大きいが、1.0未満の任意の値の抑圧ゲインを設定して抑圧するようにしても良い。
上記第1の実施形態では、一対のマイクロホンm1及びm2の間隔が固定のものを示したが、少なくとも一方のマイクロホンを移動可能とし、マイクロホンm1及びm2の間隔が可変のものであっても良い。この場合において、マイクロホン間隔に応じて、長期平均値用の閾値若しくは分散用の閾値の少なくとも一方の閾値を切り替えるようにしても良い。例えば、マイクロホン間隔が8cm〜10cm用の閾値、マイクロホン間隔が10cm〜12cm用の閾値、マイクロホン間隔が12cm〜14cm用の閾値など、複数の閾値を用意しておき、そのときのマイクロホン間隔に応じて適用する閾値を選択すれば良い。ここで、マイクロホン間隔を利用者が入力しても良く、マイクロホンの移動可能位置を段階的に設け、各段階に設けられたセンサによりマイクロホン間隔を自動的に得るようにしても良い。
第1の実施形態では、マイクロホン間隔によらずに低域が同じものを示したが、マイクロホン間隔に応じて低域の幅を変えるようにしても良い。例えば、マイクロホン間隔がXのときは1000Hzまでを低域とし、マイクロホン間隔がYのときは1100Hzまでを低域とするようにしても良い。
第1の実施形態で説明した妨害音声区間の判定方法は、その用途は、ボイススイッチ法に従った目的音声の抽出に限定されるものではなく、妨害音声区間の判定を必要とする種々の信号処理に適用することができる。例えば、妨害音声の到来方位を推定する際の前処理として適用することができる。
第1の実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。
第1の実施形態では、目的音声抽出技術(言い換えると、非目的音声抑圧技術)として、ボイススイッチ法を単独で適用したものを示したが、他の雑音抑制技術、例えば、コヒーレンスフィルタ法、ウィーナーフィルタ法、周波数減算法と併用するようにしても良い。
上記各実施形態では、一対のマイクロホンが捕捉した信号を直ちに処理する音声信号処理装置やプログラムを示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。
10…音声信号処理装置、11…FFT部、12…ボイススイッチ処理部、13…IFFT部、m1、m2…マイクロホン、21…入力信号受信部、22…指向性形成部、23…低域コヒーレンスフィルタ係数計算部、24…低減コヒーレンス計算部、25…低減コヒーレンス統計量計算部、26…入力信号区間判定部、27…ゲイン設定・乗算部、28…処理後信号送信部。

Claims (7)

  1. 一対のマイクロホンが捕捉して得た入力音声信号から、当該入力音声信号に含まれている妨害音声信号の区間を特定する音声信号処理装置において、
    一対の上記入力音声信号から低域コヒーレンスを得る低域コヒーレンス取得手段と、
    得られた低域コヒーレンスの統計量を算出する低域コヒーレンス統計量算出手段と、
    算出された低域コヒーレンス統計量を閾値と比較し、上記入力音声信号の区間が妨害音声信号の区間か否かを決定する妨害音声判定手段と
    を有することを特徴する音声信号処理装置。
  2. 妨害音声信号の区間と他の区間とで異なる抑圧ゲインを設定し、上記入力音声信号に乗算するゲイン設定・乗算手段をさらに有することを特徴する請求項1に記載の音声信号処理装置。
  3. 上記低域コヒーレンスの統計量は、低域コヒーレンスの長期平均値であり、
    上記妨害音声判定手段は、算出された低域コヒーレンスの長期平均値が長期平均値用の閾値より小さい場合、上記入力音声信号の現時刻は妨害音声信号の区間内にあると判定する
    ことを特徴する請求項1又は2に記載の音声信号処理装置。
  4. 上記低域コヒーレンスの統計量は、低域コヒーレンスの分散であり、
    上記妨害音声判定手段は、算出された低域コヒーレンスの分散が分散用の閾値より小さい場合、上記入力音声信号の現時刻は妨害音声信号の区間内にあると判定する
    ことを特徴する請求項1又は2に記載の音声信号処理装置。
  5. 上記低域コヒーレンスの統計量は、低域コヒーレンスの長期平均値と分散であり、
    上記妨害音声判定手段は、算出された低域コヒーレンスの長期平均値が長期平均値用の閾値より小さく、かつ、算出された低域コヒーレンスの分散が分散用の閾値より小さい場合、上記入力音声信号の現時刻は妨害音声信号の区間内にあると判定する
    ことを特徴する請求項1又は2に記載の音声信号処理装置。
  6. 一対のマイクロホンが捕捉して得た入力音声信号から、当該入力音声信号に含まれている妨害音声信号の区間を特定する音声信号処理プログラムであって、
    コンピュータを、
    一対の上記入力音声信号から低域コヒーレンスを得る低域コヒーレンス取得手段と、
    得られた低域コヒーレンスの統計量を算出する低域コヒーレンス統計量算出手段と、
    算出された低域コヒーレンス統計量を閾値と比較し、上記入力音声信号の区間が妨害音声信号の区間か否かを決定する妨害音声判定手段と
    して機能させることを特徴とする音声信号処理プログラム。
  7. 上記コンピュータをさらに、妨害音声信号の区間と他の区間とで異なる抑圧ゲインを設定し、上記入力音声信号に乗算するゲイン設定・乗算手段として機能させることを特徴する請求項4に記載の音声信号処理装置。
JP2013267754A 2013-12-25 2013-12-25 音声信号処理装置及びプログラム Active JP6314475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013267754A JP6314475B2 (ja) 2013-12-25 2013-12-25 音声信号処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013267754A JP6314475B2 (ja) 2013-12-25 2013-12-25 音声信号処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015125184A true JP2015125184A (ja) 2015-07-06
JP6314475B2 JP6314475B2 (ja) 2018-04-25

Family

ID=53535947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013267754A Active JP6314475B2 (ja) 2013-12-25 2013-12-25 音声信号処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6314475B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053180A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
JP2019533192A (ja) * 2016-09-30 2019-11-14 ボーズ・コーポレーションBosecorporation 動的サウンド調整のための雑音推定
EP3905718A1 (en) * 2017-03-24 2021-11-03 Yamaha Corporation Sound pickup device and sound pickup method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2012529868A (ja) * 2009-06-09 2012-11-22 クゥアルコム・インコーポレイテッド マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
JP2013182044A (ja) * 2012-02-29 2013-09-12 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2012529868A (ja) * 2009-06-09 2012-11-22 クゥアルコム・インコーポレイテッド マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
JP2013182044A (ja) * 2012-02-29 2013-09-12 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
青木繁治、外1名: "2マイクロホンの指向性制御による音源分離の一提案", 電子情報通信学会技術研究報告, vol. SIP2013−79, JPN6017025346, 22 August 2013 (2013-08-22), JP, pages 67 - 72 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019533192A (ja) * 2016-09-30 2019-11-14 ボーズ・コーポレーションBosecorporation 動的サウンド調整のための雑音推定
EP3905718A1 (en) * 2017-03-24 2021-11-03 Yamaha Corporation Sound pickup device and sound pickup method
JP2019053180A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム

Also Published As

Publication number Publication date
JP6314475B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
US9799318B2 (en) Methods and systems for far-field denoise and dereverberation
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
JP6314475B2 (ja) 音声信号処理装置及びプログラム
US11380312B1 (en) Residual echo suppression for keyword detection
JP6221257B2 (ja) 信号処理装置、方法及びプログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6295650B2 (ja) 音声信号処理装置及びプログラム
JP6221258B2 (ja) 信号処理装置、方法及びプログラム
JP6763319B2 (ja) 非目的音判定装置、プログラム及び方法
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP2019054340A (ja) 信号処理装置およびその制御方法
JP6361360B2 (ja) 残響判定装置及びプログラム
US11495241B2 (en) Echo delay time estimation method and system thereof
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム
WO2022047606A1 (en) Method and system for authentication and compensation
JP6544182B2 (ja) 音声処理装置、プログラム及び方法
JP6252274B2 (ja) 背景雑音区間推定装置及びプログラム
CN117409803A (zh) 风噪抑制方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180312

R150 Certificate of patent or registration of utility model

Ref document number: 6314475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150