JP2018142819A - 非目的音判定装置、プログラム及び方法 - Google Patents

非目的音判定装置、プログラム及び方法 Download PDF

Info

Publication number
JP2018142819A
JP2018142819A JP2017035286A JP2017035286A JP2018142819A JP 2018142819 A JP2018142819 A JP 2018142819A JP 2017035286 A JP2017035286 A JP 2017035286A JP 2017035286 A JP2017035286 A JP 2017035286A JP 2018142819 A JP2018142819 A JP 2018142819A
Authority
JP
Japan
Prior art keywords
background noise
coherence
suppression signal
feature amount
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017035286A
Other languages
English (en)
Other versions
JP6763319B2 (ja
Inventor
克之 高橋
Katsuyuki Takahashi
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017035286A priority Critical patent/JP6763319B2/ja
Publication of JP2018142819A publication Critical patent/JP2018142819A/ja
Application granted granted Critical
Publication of JP6763319B2 publication Critical patent/JP6763319B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 精度よく非目的音(例えば、背景雑音)の有無を判定することができる非目的音判定装置を提供する。【解決手段】 本発明の非目的音判定装置は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成する正面抑圧信号生成部と、前記複数のマイクから得られた入力信号からコヒーレンスを算出するコヒーレンス算出部と、前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出する第1の特徴量算出部と、前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する背景雑音存在判定部とを有することを特徴とする。【選択図】 図1

Description

本発明は、非目的音判定装置、プログラム及び方法に関し、例えば、電話やテレビ会議などにおける音声処理や、音声認識処理に際して、目的音以外の非目的音(例えば、背景雑音)の有無の判定に適用し得る。
近年、スマートフォンやカーナビゲーションなどの音声通話機能や音声認識機能などの様々な音声処理機能に対応する装置(以下、これらの装置を総称して「音声処理装置」と呼ぶものとする)が普及している。しかし、これらの音声処理装置が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理装置が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、音声処理装置の需要が高まっている。
従来の音声処理装置において、目的音を抽出して取得する際には、目的音以外の非目的音を抑制する処理が行われる。従来の非目的音を抑制する音声処理装置としては、例えば、特許文献1に記載された技術がある。
特許文献1に記載された装置では、入力音声信号に遅延減算処理を施して、第1、第2の所定方位に死角を有する第1、第2の指向性信号を形成し、これら2つの指向性信号のコヒーレンスを取得する。そして、特許文献1に記載された装置では、取得したコヒーレンスと判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、この判定結果に応じてゲインを設定し、ゲインを入力音声信号に乗算して非目的音声を減衰する。
特開2013−182044号公報 特開2014−106337号公報
ところで、通常非目的音に含まれる成分としては、例えば、背景雑音(例えば、街中での雑踏や、自動車の走行雑音など)と、妨害音声(例えば、当該音声処理装置の使用者以外の人の話し声)に大別できる。
背景雑音と妨害音声とは特性や挙動が全く異なっているため、従来の音声処理装置は、背景雑音が存在するか否かにより、妨害音の抑圧パラメータを変更するなど、処理を切り替えなければ十分な効果が得られなかった。また、処理音を音声認識に供する場合も、やはり背景雑音の有無で認識処理やノイズリダクションの特性を変えなければ十分な認識性能が得られない。よって、背景雑音の存在を正確に判定(検出)できることは重要である。
しかし、音声信号処理の利用環境が急激に拡大したことで、様々な未知の音源が存在する状態で背景雑音の存在を正確に判定することは難しくなっている。したがって、上述のような高度な信号処理実施の前提として、背景雑音の存在を正確に判定できる方法の必要性が増している。
以上のような問題に鑑みて、精度よく非目的音(例えば、背景雑音)の有無を判定することができる非目的音判定装置、プログラム及び方法が望まれている。
第1の本発明は、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンスを算出するコヒーレンス算出部と、(3)前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出する第1の特徴量算出部と、(4)前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する背景雑音存在判定部とを有することを特徴とする。
第2の本発明の非目的音判定プログラムは、コンピュータを、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンスを算出するコヒーレンス算出部と、(3)前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出する第1の特徴量算出部と、(4)前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する背景雑音存在判定部として機能させることを特徴とする。
第3の本発明は、非目的音判定装置に使用する非目的音判定方法であって、正面抑圧信号生成部、コヒーレンス算出部、第1の特徴量算出部、及び背景雑音存在判定部を有し、(1)前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成し、(2)前記コヒーレンス算出部は、前記複数のマイクから得られた入力信号からコヒーレンスを算出し、(3)前記第1の特徴量算出部は、前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出し、(4)前記背景雑音存在判定部は、前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定することを特徴とする。
本発明によれば、精度よく非目的音(例えば、背景雑音)の有無を判定することができる。
第1の実施形態に係る非目的音判定装置の機能的構成について示したブロック図である。 第1の実施形態に係るマイクの配置例について示した説明図である。 第1の実施形態に係る非目的音判定装置で適用される指向性信号の特性について示した図である。 第1の実施形態に係る背景雑音存在判定部が背景雑音の有無を判定する処理について示したフローチャート(その1)である。 第1の実施形態に係る背景雑音存在判定部が背景雑音の有無を判定する処理について示したフローチャート(その2)である。 第2の実施形態に係る非目的判定装置の全体構成を示すブロック図である。 第2の実施形態に係る相関計算及び妨害音存在判定部が妨害音声の有無を判定する処理について示したフローチャート(その1)である。 第2の実施形態に係る相関計算及び妨害音存在判定部が妨害音声の有無を判定する処理について示したフローチャート(その2)である。
(A)第1の実施形態
以下、本発明による非目的音判定装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る非目的音判定装置1の全体構成を示すブロック図である。
非目的音判定装置1は、一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(n)、s2(n)を取得する。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
非目的音判定装置1は、マイクm_1、m_2で補足される入力信号に非目的音(背景雑音)が含まれるか否かを判定し、その判定結果を図示しない音声処理装置に供給する。音声処理装置は、非目的音判定装置1から供給される判定結果を利用して、入力信号の処理を行う。音声処理装置が入力信号に対して行う処理内容については限定されないものである。音声処理装置は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能の前処理に、非目的音判定装置1から供給される判定結果を利用する。音声処理装置は、例えば、非目的音判定装置1から供給される判定結果を非目的音(例えば、背景雑音)の抑制処理等に利用する。
図2は、マイクm_1、m_2の配置の例について示した説明図である。
図2に示すように、この実施形態では、マイクm_1、m_2は、2つのマイクm_1、m_2を目的音の到来する方向(目的音の音源の方向)に対して水平となるように配置されているものとする。また、以下では、図2に示すように、2つのマイクm_1、m_2の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図2に示すように、右方向、左方向、後方向と呼ぶ場合は、2つのマイクm_1、m_2の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。
非目的音判定装置1は、FFT部10、正面抑圧信号生成部20、コヒーレンス計算部30、相関及びmodGI計算部40、及び背景雑音存在判定部50を有している。
非目的音判定装置1は、プロセッサやメモリ等を有するコンピュータにプログラム(実施形態に係る非目的音判定プログラムを含むプログラム)をインストールして実現するようにしてもよいが、この場合でも、非目的音判定装置1は機能的には図1を用いて示すことができる。なお、非目的音判定装置1については一部又は全部をハードウェア的に実現するようにしてもよい。
FFT部10は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2が周波数領域で表現されることになる。なお、FFT部10は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成するものとする。入力信号s1からFRAME1を構成する例を以下の(1)式に示す。なお、以下の(1)式において、Kはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FRAME1(1)={s1(1)、s1(2)・・、s1(i)、・・s1(n)}
FRAME1(K)={s1(N×K+1)、s1(N×K+2)・・、s1(N×K+i)、・・s1(N×K+N)} …(1)
FFT部10は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f,K)とを取得する。なおfは周波数を表すインデックスである。また(f,K)は単一の値ではなく、以下の(2)式のように、複数の周波数f1〜fmのm個(mは任意の整数)のスペクトル成分から構成されるものであるものとする。
FFT部10は、周波数領域信号X1(f,K)、X2(f,K)を、正面抑圧信号生成部20及びコヒーレンス計算部30に供給する。
なお、X1(f,K)は複素数であり、実部と虚部で構成される。これは、X2(f,K)及び、後述する正面抑圧信号生成部20で説明する「N(f,K)」についても同様である。
X1(f,K)={X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)} …(2)
次に、正面抑圧信号生成部20について説明する。
正面抑圧信号生成部20は、FFT部10から供給された信号について、周波数ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部20は、正面方向の成分を抑圧する指向性フィルタとして機能する。
例えば、正面抑圧信号生成部20は、図3に示すように、正面方向に死角を有する8の字型の双指向性のフィルタを用いて、FFT部10から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。
具体的には、正面抑圧信号生成部20は、FFT部10から供給された信号「X1(f,K)」、「X2(f,K)」に基づいて以下の(3)式のような計算を行って、周波数ごとの正面抑圧信号N(f,K)を生成する。以下の(3)式の計算は、上述の図3のような、正面方向に死角を有する8の字型の双指向性のフィルタを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
そして、正面抑圧信号生成部20は、以下の(4)式を用いて、全周波数にわたってN(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。
Figure 2018142819
次に、コヒーレンス計算部30の処理について説明する。
コヒーレンス計算部30は、周波数領域信号X1(f,K)、X2(f,K)について、左方向(第1の方向)に強い指向性のフィルタで処理された信号(以下、「指向性信号B1(f)」と呼ぶ)と、右方向(第2の方向)に強い指向性のフィルタで処理された信号(以下、「指向性信号B2(f)」と呼ぶ)とに基づくコヒーレンスCOH(K)を算出する。なお、指向性信号B1(f)及び指向性信号B2(f)に係る指向性の方向は正面方向以外の任意の方向(ただし、B1(f)とB2(f)とで異なる方向とする必要がある)とするようにしてもよい。
コヒーレンスCOH(K)を算出する具体的な算出処理(例えば、計算式)については限定されないものであるが、例えば、特許文献1と同様の処理(例えば、特許文献1に記載された(3)式〜(7)式の計算処理)を適用することができるため、詳細については省略する。
次に、相関及びmodGI計算部40の処理について説明する。
まず、相関及びmodGI計算部40は、平均正面抑圧信号AVE_N(K)と、コヒーレンスCOH(K)から、両者の相関係数cor(K)を算出する。相関係数cor(K)を算出する理由(原理)は後述するが、簡単に言えば、相関係数cor(K)の正負を観測することにより、目的音が重畳されてとしても、妨害音声を容易に検出できるからである。
ここでは、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、目的音としての話者(ユーザ)の音声はマイクm_1、m_2の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向(横方向)から到来することになる。
したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号N(f,K)の平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。そのため、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号N(f,K)のゲインは、妨害音声が存在する場合よりも小さくなる。
また、コヒーレンスCOH(K)は、簡単に述べれば、第1の方向(右方向)から到来する信号と第2の方向(左方向)から到来する信号の相関(特徴量)と言える。従って、コヒーレンスCOH(K)が小さい場合とは、2つの指向性信号B1(f)、B2(f)の相関が小さい場合であり、反対にコヒーレンスCOH(K)が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、話者の音声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスCOH(K)の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスCOH(K)の値は小さくなる傾向となる。
以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件(以下、「第1の条件」と呼ぶ)と、「妨害音声が存在する」という条件(以下、「第2の条件」と呼ぶ)に場合分けして、妨害音声の有無の判定方法について説明する。
第1の条件の場合(「妨害音声が存在せず」かつ「目的音が存在する」場合)には、コヒーレンスCOH(K)が比較的大きな値となり、平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。
一方、第2の条件の場合(「妨害音声が存在する」場合)には、コヒーレンスCOH(K)の値は小さい値となり、平均正面抑圧信号AVE_N(K)は大きな値となる傾向にある。
したがって、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の相関係数cor(K)を導入すると、相関係数cor(K)と妨害音声の有無との関係は以下のような関係となる。
妨害音声が存在しない場合は、相関係数cor(K)は正の値(相関性が高いことを示す所定値以上の値)となる傾向となる。一方、妨害音声が存在する場合には、相関係数cor(K)は負の値(相関性が低いことを示す所定値未満の値)となる傾向となる。
すなわち、相関係数cor(K)を導入することにより、例えば、相関係数cor(K)の正負判断というシンプルな処理で、妨害音声の有無を判定(妨害音声が存在する区間を検出)することができる。
そこで、この実施形態の相関及びmodGI計算部40は、まず、相関係数cor(K)を求め、妨害音声が存在する区間を検出する。
なお、相関及びmodGI計算部40が、相関係数cor(K)を求める際の具体的な計算方法については限定されないものであるが、例えば、相関及びmodGI計算部40は、以下の(5)式を用いて相関係数cor(K)を求めるようにしてもよい。なお、以下の(5)式において、Cov[AVE_N(K),COH(K)]は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の共分散を示している。また、以下の(5)式において、σN(f,K)は、平均正面抑圧信号AVE_N(K)の標準偏差を示している。さらに、以下の(5)式において、σCOH(K)は、コヒーレンスCOH(K)の標準偏差を示している。以下の(5)式にて相関係数cor(K)を求める場合には、AVE_N(K)及びCOH(K)についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の(5)式にて相関係数cor(K)を求める過程において、例えば、直近に処理したi個のフレーム(K−i番目のフレーム、K−(i−1)番目のフレーム、…、K−1番目のフレーム、K番目のフレームの)のそれぞれに係るCOH及びAVE_Nを用いて、標準偏差(σN(f,K)、及びσCOH(K))や共分散(Cov[AVE_N(K),COH(K)])を求めるようにしてもよい。言い換えると、相関及びmodGI計算部40は、相関係数cor(K)を求める過程において、直近に求めたi個のAVE_N及びCOHをサンプルとして用いて、以下の(5)式における標準偏差や共分散を求めるようにしてもよい。
Figure 2018142819
そして、相関及びmodGI計算部40は、(5)式により、算出したcor(K)を特許文献2の(13)式に代入することにより、相関のmodGIを求める(以下、求めた相関のmodGIを、「cor_modGI(K)」とする)。相関のmodGIを算出した理由、及び利用方法等については、後述する。
次に、背景雑音存在判定部50の処理について説明する。
背景雑音存在判定部50は、相関及びmodGI計算部40で求めたcor_modGI(K)を用いて、背景雑音が存在する区間を判定(検出)する。
ところで、背景雑音が存在する場合、先に述べた平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の相関(相関係数cor(K))の挙動は、次のように変化する。
妨害音が存在すると相関係数cor(K)が負の値、妨害音が存在しなければ相関係数cor(K)が正値、というマクロな挙動はある程度維持される。ただし、背景雑音の影響を受けて、正面抑圧信号(平均正面抑圧信号AVE_N(K))の振幅の大小の変動の不規則さが増すのに対し、コヒーレンスCOH(K)、はダイナミックレンジが小さくなる程度で、振幅の大小の不規則さは極端に変化しない。このため、正面抑圧信号の増加・減少と、コヒーレンスCOH(K)の増加・減少の同期性が損なわれ、相関係数cor(K)の増減の変動が激しくなる。また、相関係数cor(K)の正負の変動の頻度が増す。
以上より、背景雑音の影響が増すほど、相関係数cor(K)の増減の変動や、正負の変動頻度は増加する。このように、背景雑音が存在する場合には、相関係数cor(K)の増減の変動や正負の変動の頻度が増し、背景雑音の影響が増すほどこれらの変動は大きくなる。この挙動は、背景雑音にのみ由来するものである。よって、背景雑音存在判定部50は、相関係数cor(K)の傾きの正負の変動の激しさを観測することで、目的音声や妨害音声の影響を受けずに背景雑音が存在するか否かを判定することができる。
ところで、modGI(特許文献2の(13)式で定義されている)は、波形の傾きの正負が変動する頻度を表している。modGIは、信号の傾きの正負の変動が小さくなる程小さくなるのに対し、傾きの正負の変動が大きくなる程大きくなる、という特徴を有する。
従って、背景雑音存在判定部50は、先述の相関及びmodGI計算部40で求めた相関のmodGI(cor_modGI(K))を参照し、cor_modGI(K)が大きければ背景雑音は存在し、反対にcor_modGI(K)が小さければ背景雑音が存在しない、と判定することができる。
この実施形態の背景雑音存在判定部50は、例えば、cor_modGI(K)が所定の閾値より大きかった場合、背景雑音有りを示す値(例えば、「1」)を出力し、cor_modGI(K)が閾値以下だった場合には背景雑音無しを示す値(例えば、「0」)を出力するようにしてもよい。閾値の値は、種々様々な値を適用でき、限定されないものであるが、例えば、種々様々なシュミレーション及び統計的な分析により最適な値が定まる。
また、背景雑音存在判定部50は、判定結果を示す信号Y(K)を出力する。信号Y(K)の形式は限定されないものであるが、例えば、「背景雑音有り」を示す値(例えば、「1」)又は、「背景雑音無し」を示す値(例えば、「0」)を出力するようにしてもよい。なお、背景雑音存在判定部50が信号Y(K)を出力する方式や供給先については限定されないものである。
(A−2)第1の実施形態の動作
次に、以上のような構成を有するこの実施形態の非目的音判定装置1の動作(実施形態の判定方法)を説明する。
まず、非目的音判定装置1の全体の動作について図1を用いて説明する。
マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)及びs2(n)がFFT部10に供給されたものとする。そして、FFT部10は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。そして、FFT部10で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部20及びコヒーレンス計算部30に供給される。
正面抑圧信号生成部20は、供給されたX1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部20は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出し、相関及びmodGI計算部40に供給する。
一方、コヒーレンス計算部30は、供給されたX1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)を生成し、相関及びmodGI計算部40に供給する。
相関及びmodGI計算部40は、平均正面抑圧信号AVE_N(K)及びコヒーレンスCOH(K)に基づいて、相関係数cor(K)を算出し、算出した相関係数cor(K)に基づいて、cor_modGI(K)を算出する。
そして、背景雑音存在判定部50は、cor_modGI(K)に基づいて、背景雑音の有無を判定し、その判定結果を信号Y(K)として出力する。
次に、背景雑音存在判定部50の動作詳細について図4、図5のフローチャートを用いて説明する。
図4は、背景雑音存在判定部50が背景雑音の有無を判定する処理について示したフローチャートである。図5は、図4のフローチャートの一部の処理について示したフローチャートである。背景雑音存在判定部50は、cor_modGI(K)(1フレーム分のデータ)が供給されるごとに、図4、図5のフローチャートの処理により背景雑音の有無を判定し、信号Y(K)を出力するものとする。
背景雑音存在判定部50は、cor_modGI(K)が供給されると(S101)、cor_modGI(K)と閾値Θとに基づいて背景雑音の有無を判定し(S102)、その判定結果を示す信号Y(K)を生成して出力する(S103)。
次に、背景雑音存在判定部50が上述のステップS102で行う判定処理の具体例について図5のフローチャートを用いて説明する。
背景雑音存在判定部50は、判定処理を開始すると、cor_modGI(K)の値を確認し(S201)、cor_modGI(K)の値に応じて妨害音の有無を判定する。
具体的には、背景雑音存在判定部50は、cor_modGI(K)が閾値Θより大きい場合には「背景雑音有り」と判定し(S202)、cor_modGI(K)が閾値Θ未満の場合には「背景雑音無し」と判定する(S203)。
(A−3)第1の実施形態の効果
以上のように第1の実施形態によれば、非目的音判定装置1は、正面抑圧信号とコヒーレンスの相関のmodGIは背景雑音が存在する時には小さくなり、背景雑音が存在しないときには大きくなるという、特徴的な挙動に基づいて、非目的音(背景雑音)の有無を精度よく判定することができる。そして、判定結果の供給先で、背景雑音の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置の音声処理(例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理)に、この実施形態の非目的音判定装置1の判定結果を適用することで、音声処理装置の性能向上(例えば、背景雑音等の非目的音の抑制性能の向上)が期待できる。
(B)第2の実施形態
以下、本発明による非目的音判定装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
図6は、第2の実施形態に係る非目的音判定装置2の全体構成を示すブロック図であり、上述した図1との同一、対応部分には同一、対応符号を付して示している。第2の実施形態の非目的判定装置は、その各部をハードウェアによって構成しても良く、また、一部の構成についてはソフトウェア的に構成しても良い。
図6において、非目的音判定装置2は、図1に示した非目的音判定装置1と同様な、FFT部10、正面抑圧信号生成部20、コヒーレンス計算部30、相関及びmodGI計算部40、背景雑音存在判定部50と、この実施形態に特有な相関計算及び妨害音存在判定部60とを有する。
この実施形態の非目的音判定装置2は、図1の非目的音判定装置1と比較すると、相関計算及び妨害音存在判定部60が追加されたものである。以下では、追加された妨害音存在判定部60についてのみ説明する。
妨害音存在判定部60は、平均正面抑圧信号AVE_N(K)に長期平均化処理を施したLong_N(K)と、コヒーレンスCOH(K)とから、両者の相関(相関係数cor_l(K))を算出して、妨害音声の有無を判定するものである。相関及びmodGI計算部40においても、相関係数cor(K)を算出していたが、妨害音存在判定部60は、平均正面抑圧信号AVE_N(K)では無く、長期平均化処理を施したLong_N(K)を用いている点が異なる。以下、長期平均化処理を施したLong_N(K)を用いている理由を説明する。
先に述べたように、相関係数cor(K)を導入することにより、例えば、相関係数cor(K)の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。しかしながら、背景雑音の影響が増すほど、相関係数cor(K)の増減の変動や、正負の変動頻度は増加する。そのため、妨害音の有無とは無関係に相関係数cor(K)が負になる場合があり、誤判定が生じることにもなる。そのため、妨害音存在判定部60は、平均正面抑圧信号AVE_N(K)に変動を抑制する長期平均処理を施したLong_N(K)を用いた相関(cor_l(K))を算出することにより、この課題に対処する。前述のように、背景雑音の影響により、正面抑圧信号の変動が不規則になることが相関の挙動の変化の原因でもあるからである。
具体的には、妨害音存在判定部60は、正面抑圧信号生成部20から供給された平均正面抑圧信号AVE_N(K)に基づいて以下の(6)式のような計算を行って、長期平均処理を施したLong_N(K)を生成する。
Long_N(K) =λ×AVE_N(K)+(1−λ)×AVE_N(K−1) (0.0<λ<1.0) …(6)
(6)式において、時定数λは、長期平均値に対して瞬時入力値をどの程度反映するかをコントロールする役割を持つ値である。時定数λが大きいほど瞬時入力の影響が強くなり、小さければ瞬時入力の影響は薄れる。よって、時定数λを小さくするほど、正面抑圧信号の変動を抑制でき、この結果、相関の変動を抑制することができる。時定数λに設定される値は、限定されないものであるが、この実施形態では、背景雑音存在判定部50の判定結果により変動する変動値とする。例えば、妨害音存在判定部60は、背景雑音存在判定部50により送付された背景雑音の存在の判定結果を示す信号Y(K)が、「背景雑音有り」を示す値の場合には、背景雑音の影響が大きく正面抑圧信号の変動が大きいと判断し、時定数λには背景雑音無しに比べて大きな値を設定する。一方、妨害音存在判定部60は、信号Y(K)が、「背景雑音無し」を示す値の場合には、背景雑音の影響が小さく正面抑圧信号の変動が小さいと判断し、時定数λには背景雑音有りに比べて小さな値を設定する。
妨害音存在判定部60は、長期平均化処理済みの平均正面抑圧信号Long_N(K)と、コヒーレンス計算部30から取得したコヒーレンスCOH(K)により、相関係数cor_l(K)を算出する。なお、相関係数cor_l(K)の算出方法は、先に述べた、相関係数cor(K)の算出方法と同様の手法により算出できるため、ここでは説明を省略する。
妨害音存在判定部60は、相関係数cor_l(K)が0より大きい場合(相関係数cor_l(K)が、0又は正の場合;cor_l(K)≧0の場合)には妨害音声無しと判定し、相関係数cor_l(K)が0未満の場合(相関係数cor_l(K)が負の場合;cor_l(K)<0の場合)には妨害音声有りと判定するものとする。
また、妨害音存在判定部60は、判定結果を示す信号R(K)を出力する。信号R(K)の形式は限定されないものであるが、例えば、「妨害音声有り」を示す値(例えば、「1」)又は、「妨害音声無し」を示す値(例えば、「0」)を出力するようにしてもよい。なお、妨害音存在判定部60が信号R(K)を出力する方式や供給先については限定されないものである。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の非目的音判定装置2の動作(実施形態の判定方法)を説明する。なお、相関計算及び妨害音存在判定部60以外の各部の動作は、第1の実施形態と同様であるので説明を省略し、以下では、相関計算及び妨害音存在判定部60の詳細動作を図7、図8のフローチャートを用いて説明する。
図7は、相関計算及び妨害音存在判定部60が妨害音声の有無を判定する処理について示したフローチャートである。図8は、図7のフローチャートの一部の処理について示したフローチャートである。相関計算及び妨害音存在判定部60は、Y(K)(1フレーム分のデータ)が供給されるごとに、図8、図7のフローチャートの処理により妨害音声の有無を判定し、信号R(K)を出力するものとする。
相関計算及び妨害音存在判定部60は、背景雑音の存在の判定結果を示す信号Y(K)が供給されると(S301)、信号Y(K)の値を確認し、時定数λに設定する値を制御する(S302)。
相関計算及び妨害音存在判定部60は、供給された平均正面抑圧信号AVE_N(K)と、先述のステップS302の処理により値が設定された時定数λとに基づいて長期平均処理を施した平均正面抑圧信号Long_N(K)を算出する(S303)。
相関計算及び妨害音存在判定部60は、供給されたコヒーレンスCOH(K)と、長期平均処理を施した平均正面抑圧信号Long_N(K)とに基づいて相関係数cor_l(K)を算出する(S304)。
相関計算及び妨害音存在判定部60は、相関係数cor_l(K)が0より大きい場合(相関係数cor_l(K)が0又は正の値の場合;cor_l(K)≧0の場合)には「妨害音声無し」と判定し、相関係数cor_l(K)が0未満の場合(相関係数cor_l(K)が負の値の場合;cor_l(K)<0の場合)には「妨害音声有り」と判定する(S305)。
相関計算及び妨害音存在判定部60は、先述のステップS305の処理による判定結果を示す信号R(K)を生成して出力する(S306)。
次に、相関計算及び妨害音存在判定部60が上述のステップS302で行う判定処理の具体例について図8のフローチャートを用いて説明する。
背景雑音存在判定部50は、信号Y(K)の値(「背景雑音有り」を示す「1」か「背景雑音無し」を示す「0」)を確認し(S401)、信号Y(K)が「背景雑音有り」を示す値の場合には、時定数λには大きな値を設定し(S402)、信号Y(K)が、「背景雑音無し」を示す値の場合には、時定数λには小さな値を設定する(S403)。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏する。
第2の実施形態の非目的音判定装置2では、相関係数cor_l(K)の値に基づいて、妨害音声の有無を判定している。これにより、第2の実施形態の非目的音判定装置2では、精度よく妨害音声の有無を判定することができるので、判定結果の供給先で、妨害音声の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置の音声処理(例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理)に、この実施形態の非目的音判定装置2の判定結果を適用することで、音声処理装置の性能向上(例えば、妨害音声等の非目的音の抑制性能の向上)が期待できる。
相関係数cor_l(K)の算出に用いられる平均正面抑圧信号Long_N(K)は、背景雑音の有無に応じて最適な時定数λが設定された上で、長期平均処理を施されているので、背景雑音の変動に頑健な妨害音声の存在判定処理を実現することができる。
(C)他の実施形態
上記実施形態に加えて、さらに、以下に例示するような変形実施形態も挙げることができる。
(C−1)第1の実施形態ではmodGIを適用する場合を示したが、修正される前のGI(特許文献2の(4)式)も、信号波形の傾き方向が変化する回数とその大きさを測る指標であるので、第1の実施形態におけるmodGIに代えてGIを適用するようにしても良い。
(C−2)第2の実施形態において、平均正面抑圧信号Long_N(K)を算出する際に用いた時定数λは、予め設定された固定値でも良い。
1、2…非目的音判定装置、10…FFT部、20…正面抑圧信号生成部、30…コヒーレンス計算部、40…modGI計算部、50…背景雑音存在判定部、60…妨害音存在判定部、AVE_N、Long_N…平均正面抑圧信号、COH…コヒーレンス、cor、cor_l…相関係数、Θ…閾値、λ…時定数。

Claims (7)

  1. 複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成する正面抑圧信号生成部と、
    前記複数のマイクから得られた入力信号からコヒーレンスを算出するコヒーレンス算出部と、
    前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出する第1の特徴量算出部と、
    前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する背景雑音存在判定部と
    を有することを特徴とする非目的音判定装置。
  2. 前記第1の特徴量算出部は、前記相関係数のmodGI値を前記第1の特徴量として算出し、
    前記背景雑音存在判定部は、前記第1の特徴量が所定の閾値より大きければ背景雑音が存在し、前記第1の特徴量が所定の閾値より小さければ背景雑音が存在しないと判定する
    ことを特徴とする請求項1に記載の非目的音判定装置。
  3. 前記第1の正面抑圧信号に長期平均化処理を施した第2の正面抑圧信号と前記コヒーレンスとの関係性を表す第2の特徴量を算出する第2の特徴量算出部と、
    前記第2の特徴量算出部が算出した前記第2の特徴量の値に基づいて妨害音声の有無を判定する妨害音声存在判定部と
    をさらに有することを特徴とする請求項1又は2に記載の非目的音判定装置。
  4. 前記第2の特徴量算出部は、前記第2の正面抑圧信号及び前記コヒーレンスの相関係数を前記第2の特徴量として算出し、
    前記妨害音声存在判定部は、前記第2の特徴量の値の正負に基づいて妨害音声の有無を判定する
    ことを特徴とする請求項3に記載の非目的音判定装置。
  5. 前記第2の特徴量算出部は、前記背景雑音存在判定部による背景雑音の有無の判定結果に応じて、前記第2の正面抑圧信号に対して施す前記長期平均化処理に供する時定数を制御することを特徴とする請求項4に記載のの非目的音判定装置。
  6. コンピュータを、
    複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成する正面抑圧信号生成部と、
    前記複数のマイクから得られた入力信号からコヒーレンスを算出するコヒーレンス算出部と、
    前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出する第1の特徴量算出部と、
    前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する背景雑音存在判定部と
    して機能させることを特徴とする非目的音判定プログラム。
  7. 非目的音判定装置に使用する非目的音判定方法であって、
    正面抑圧信号生成部、コヒーレンス算出部、第1の特徴量算出部、及び背景雑音存在判定部を有し、
    前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する第1の正面抑圧信号を生成し、
    前記コヒーレンス算出部は、前記複数のマイクから得られた入力信号からコヒーレンスを算出し、
    前記第1の特徴量算出部は、前記第1の正面抑圧信号及び前記コヒーレンスの相関係数と、前記相関係数の振幅の傾きの正負の変動の激しさを表す第1の特徴量とを算出し、
    前記背景雑音存在判定部は、前記第1の特徴量算出部が算出した前記第1の特徴量の値に基づいて背景雑音の有無を判定する
    ことを特徴とする非目的音判定方法。
JP2017035286A 2017-02-27 2017-02-27 非目的音判定装置、プログラム及び方法 Active JP6763319B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017035286A JP6763319B2 (ja) 2017-02-27 2017-02-27 非目的音判定装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017035286A JP6763319B2 (ja) 2017-02-27 2017-02-27 非目的音判定装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2018142819A true JP2018142819A (ja) 2018-09-13
JP6763319B2 JP6763319B2 (ja) 2020-09-30

Family

ID=63526910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017035286A Active JP6763319B2 (ja) 2017-02-27 2017-02-27 非目的音判定装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6763319B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180252624A1 (en) * 2015-12-14 2018-09-06 Panasonic Corporation Chemical substance concentrator and chemical substance detector

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
US20140241546A1 (en) * 2013-02-28 2014-08-28 Fujitsu Limited Microphone sensitivity difference correction device, method, and noise suppression device
JP2016042613A (ja) * 2014-08-13 2016-03-31 沖電気工業株式会社 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
JP2017040752A (ja) * 2015-08-19 2017-02-23 沖電気工業株式会社 音声判定装置、方法及びプログラム、並びに、音声信号処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
US20140241546A1 (en) * 2013-02-28 2014-08-28 Fujitsu Limited Microphone sensitivity difference correction device, method, and noise suppression device
JP2016042613A (ja) * 2014-08-13 2016-03-31 沖電気工業株式会社 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
JP2017040752A (ja) * 2015-08-19 2017-02-23 沖電気工業株式会社 音声判定装置、方法及びプログラム、並びに、音声信号処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180252624A1 (en) * 2015-12-14 2018-09-06 Panasonic Corporation Chemical substance concentrator and chemical substance detector

Also Published As

Publication number Publication date
JP6763319B2 (ja) 2020-09-30

Similar Documents

Publication Publication Date Title
US9135924B2 (en) Noise suppressing device, noise suppressing method and mobile phone
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
US9269367B2 (en) Processing audio signals during a communication event
TWI720314B (zh) 基於相關性之近場偵測器
WO2014054314A1 (ja) 音声信号処理装置、方法及びプログラム
JP5672770B2 (ja) マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2017530396A (ja) 音源を強調するための方法及び機器
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
JP7325445B2 (ja) ギャップ信頼度を用いた背景雑音推定
WO2012176932A1 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP2018142819A (ja) 非目的音判定装置、プログラム及び方法
Rahmani et al. Noise cross PSD estimation using phase information in diffuse noise field
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备
JP6711205B2 (ja) 音響信号処理装置、プログラム及び方法
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP5970985B2 (ja) 音声信号処理装置、方法及びプログラム
JP5971047B2 (ja) 音声信号処理装置、方法及びプログラム
JP5772562B2 (ja) 目的音抽出装置及び目的音抽出プログラム
JP6361360B2 (ja) 残響判定装置及びプログラム
JP6544182B2 (ja) 音声処理装置、プログラム及び方法
JP2019035915A (ja) トーク状態判定装置、方法及びプログラム
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム
JP2019036917A (ja) パラメータ制御装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200824

R150 Certificate of patent or registration of utility model

Ref document number: 6763319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150