JP6631127B2 - 音声判定装置、方法及びプログラム、並びに、音声処理装置 - Google Patents

音声判定装置、方法及びプログラム、並びに、音声処理装置 Download PDF

Info

Publication number
JP6631127B2
JP6631127B2 JP2015189919A JP2015189919A JP6631127B2 JP 6631127 B2 JP6631127 B2 JP 6631127B2 JP 2015189919 A JP2015189919 A JP 2015189919A JP 2015189919 A JP2015189919 A JP 2015189919A JP 6631127 B2 JP6631127 B2 JP 6631127B2
Authority
JP
Japan
Prior art keywords
coherence
smoothing
suppression signal
unit
smoothed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015189919A
Other languages
English (en)
Other versions
JP2017067844A (ja
Inventor
克之 高橋
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2015189919A priority Critical patent/JP6631127B2/ja
Publication of JP2017067844A publication Critical patent/JP2017067844A/ja
Application granted granted Critical
Publication of JP6631127B2 publication Critical patent/JP6631127B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音声判定装置、方法及びプログラム、並びに、音声処理装置に関し、例えば、電話やテレビ会議などにおける音声処理や、音声認識処理に際して、目的音以外の非目的音(例えば、妨害音声)の有無の判定に適用し得る。
近年、スマートフォンやカーナビゲーションなどの音声通話機能や音声認識機能などの様々な音声処理機能に対応する装置(以下、これらの装置を総称して「音声処理装置」と呼ぶものとする)が普及している。しかし、これらの音声処理装置が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理装置が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、音声処理装置の需要が高まっている。
従来の音声処理装置において、目的音を抽出して取得する際には、目的音以外の非目的音を抑圧(抑制)する処理が行われる。
従来の非目的音を抑圧する音声処理装置としては、例えば、特許文献1に記載された技術がある。
特許文献1に記載された装置では、入力音声信号に遅延減算処理を施して、第1、第2の所定方位に死角を有する第1、第2の指向性信号を形成し、これら2つの指向性信号のコヒーレンスを取得する。そして、特許文献1に記載された装置ではでは、取得したコヒーレンスと判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、この判定結果に応じてゲインを設定し、ゲインを入力音声信号に乗算して非目的音声を減衰する。
特開2013−182044号公報
ところで、通常非目的音に含まれる成分としては、例えば、背景雑音(例えば、街中での雑踏や、自動車の走行雑音など)と、妨害音声(例えば、当該音声処理装置の使用者以外の人の話し声)に大別できる。従来、背景雑音は周波数特性やパワーが定常であることを前提に、様々な有効な抑圧方法が提案されている。一方で、妨害音声は信号パワーや周波数特性が非定常であるうえに、目的音声(音声処理機能使用者の声)と同様に人間の声である。したがって、従来の音声処理装置において、妨害音声を検出しようとする場合、背景雑音のように目的音声との挙動の差異に基づいて存在の有無を判定することが困難である。このため、従来の音声処理装置で、妨害音声を抑圧しようとすると、妨害音声の有無によらず、過度に抑圧処理を施して音質の歪が顕著になったり、抑圧不足で妨害音声の残留成分によって通話音質や音声認識性能が所定の水準に達しない、といった問題が生じる。
以上のような問題に鑑みて、精度よく非目的音(例えば、妨害音声)の存在を判定することができる音声判定装置、方法及びプログラム、並びに、音声処理装置が望まれている。
第1の本発明の音声判定装置は、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、(3)前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、(4)前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部とを有することを特徴とする。
第2の本発明の音声判定プログラムは、コンピュータを、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、(3)前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、(4)前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部として機能させることを特徴とする。
第3の本発明は、複数のマイクから得られた入力信号に関する判定方法において、(1)正面抑圧信号生成部、コヒーレンス計算部、平滑化処理部、及び判定部を備え、(2)前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、(3)前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、(4)前記平滑化処理部は、前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成し、(5)前記判定部は、前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定することを特徴とする。
第4の本発明は、複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、第1の本発明の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする。
本発明によれば、精度よく妨害音声を判定する音声判定装置及び音声処理装置を提供することができる。
実施形態に係る音声判定装置の機能的構成について示したブロック図である。 実施形態に係るマイクの配置例について示した説明図である。 実施形態に係る音声判定装置で適用される指向性信号の特性について示した図(その1)である。 実施形態に係る音声判定装置で適用される指向性信号の特性について示した図(その2)である。 実施形態に係る平滑化係数制御部が行う平均正面抑圧信号の平滑化係数制御処理の例について示した説明図である。 実施形態に係る平滑化係数制御部が行うコヒーレンスの平滑化計数制御処理の例について示したフローチャートである。 実施形態に係る音声判定装置の動作の例について示したフローチャート(その1)である。 実施形態に係る音声判定装置の動作の例について示したフローチャート(その2)である。 実施形態に係る平滑化係数制御部の動作の例について示したフローチャートである。
(A)主たる実施形態
以下、本発明による音声判定装置、方法及びプログラム、並びに、音声処理装置の一実施形態を、図面を参照しながら詳述する。
(A−1)実施形態の構成
図1は、この実施形態の音声判定装置1の全体構成を示すブロック図である。
音声判定装置1は、一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(n)、s2(n)を取得する。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
音声判定装置1は、マイクm_1、m_2で補足される入力信号に非目的音(例えば、妨害音声)が含まれるか否かを判定し、その判定結果を音声処理装置2に供給する。音声処理装置2は、音声判定装置1から供給される判定結果を利用して、入力信号の処理を行う。音声処理装置2が入力信号に対して行う処理内容については限定されないものである。音声処理装置2は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能の前処理に、音声判定装置1から供給される判定結果を利用する。音声処理装置2は、例えば、音声判定装置1から供給される判定結果を非目的音(例えば、妨害音声)の抑圧処理等に利用する。
図2は、マイクm_1、m_2の配置の例について示した説明図である。
図2に示すように、この実施形態では、マイクm_1、m_2は、2つのマイクm_1、m_2を含む面が目的音の到来する方向(目的音の音源の方向)に対して垂直となるように配置されているものとする。また、以下では、図2に示すように、2つのマイクm_1、m_2の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図2に示すように、右方向、左方向、後方向と呼ぶ場合は、2つのマイクm_1、m_2の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。
音声判定装置1は、FFT部10、正面抑圧信号生成部20、コヒーレンス計算部30、判定部40、及び平滑化係数制御部50を有している。
音声判定装置1は、プロセッサやメモリ等を有するコンピュータにプログラム(実施形態に係る音声判定プログラムを含むプログラム)をインストールして実現するようにしてもよいが、この場合でも、音声判定装置1は機能的には図1を用いて示すことができる。なお、音声判定装置1については一部又は全部をハードウェア的に実現するようにしてもよい。
FFT部10は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2が周波数領域で表現されることになる。なお、FFT部10は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成するものとする。入力信号s1からFRAME1を構成する例を以下の(1)式に示す。なお、以下の(1)式において、Kはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値が大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FRAME1(1)={s1(1)、s1(2)・・、s1(i)、・・s1(n)}
FRAME1(K)={s1(N×K+1)、s1(N×K+2)・・、s1(N×K+i)、・・s1(N×K+N)} …(1)
FFT部10は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f,K)とを取得する。なおfは周波数を表すインデックスである。また(f,K)は単一の値ではなく、以下の(2)式のように、複数の周波数f1〜fmのm個(mは任意の整数)のスペクトル成分から構成されるものであるものとする。
FFT部10は、周波数領域信号X1(f,K)、X2(f,K)を、正面抑圧信号生成部20及びコヒーレンス計算部30に供給する。
なお、X1(f,K)は複素数であり、実部と虚部で構成される。これは、X2(f,K)及び、後述する正面抑圧信号生成部20で説明する「N(f,K)」についても同様である。
X1(f,K)={X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)} …(2)
次に、正面抑圧信号生成部20について説明する。
正面抑圧信号生成部20は、FFT部10から供給された信号について、周波数ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部20は、正面方向の成分を抑圧する指向性フィルタとして機能する。
例えば、正面抑圧信号生成部20は、図3に示すように、正面方向に死角を有する8の字型の双指向性のフィルタを用いて、FFT部10から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。
具体的には、正面抑圧信号生成部20は、FFT部10から供給された信号「X1(f,K)」、「X2(f,K)」に基づいて以下の(3)式のような計算を行って、周波数ごとの正面抑圧信号N(f,K)を生成する。以下の(3)式の計算は、上述の図3のような、正面方向に死角を有する8の字型の双指向性のフィルタを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
そして、正面抑圧信号生成部20は、以下の(4)式を用いて、全周波数にわたってN(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。
Figure 0006631127
次に、コヒーレンス計算部30の処理について説明する。
コヒーレンス計算部30は、周波数領域信号X1(f,K)、X2(f,K)について、左方向(第1の方向)に強い指向性(例えば、図4(a)に示すような単一指向性)のフィルタで処理された信号(以下、「指向性信号B1(f)」と呼ぶ)と、右方向(第2の方向)に強い指向性(例えば、図4(b)に示すような単一指向性)のフィルタで処理された信号(以下、「指向性信号B2(f)」と呼ぶ)とに基づくコヒーレンスCOH(K)を算出する。なお、指向性信号B1(f)及び指向性信号B2(f)に係る指向性の方向は正面方向以外の任意の方向(ただし、B1(f)とB2(f)とで異なる方向とする必要がある)とするようにしてもよい。
コヒーレンスCOH(K)を算出する具体的な算出処理(例えば、計算式)については限定されないものであるが、例えば、特許文献1と同様の処理(例えば、特許文献1に記載された(3)式〜(7)式の計算処理)を適用することができるため、詳細については省略する。
次に、判定部40の処理について説明する。
判定部40は、正面以外に指向性を有する正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))と、コヒーレンスCOH(K)を用いて、妨害音声の有無を判定する。
ここでは、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声が左右方向(横方向)から到来するものとして説明する。例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、目的音としての話者(ユーザ)の音声はマイクm_1、m_2の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向(横方向)から到来することになる。
したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号N(f,K)の平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。また、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号N(f,K)のゲインは、妨害音声が存在する場合よりも小さくなる。
また、コヒーレンスCOH(K)は、簡単に述べれば、第1の方向(右方向)から到来する信号と第2の方向(左方向)から到来する信号の相関(特徴量)と言える。従って、コヒーレンスCOH(K)が小さい場合とは、2つの指向性信号B1(f)、B2(f)の相関が小さい場合であり、反対にコヒーレンスCOH(K)が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、話者の音声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスCOH(K)の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスCOH(K)の値は小さくなる傾向となる。
以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件(以下、「第1の条件」と呼ぶ)と、「妨害音声が存在する」という条件(以下、「第2の条件」と呼ぶ)に場合分けして、妨害音声の有無の判定方法について説明する。
第1の条件の場合(「妨害音声が存在せず」かつ「目的音が存在する」場合)には、コヒーレンスCOH(K)が比較的大きな値となり、平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。
一方、第2の条件の場合(「妨害音声が存在する」場合)には、コヒーレンスCOH(K)の値は小さい値となり、平均正面抑圧信号AVE_N(K)は大きな値となる傾向にある。
したがって、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の相関係数cor(K)を導入すると、相関係数cor(K)と妨害音声の有無との関係は以下のような関係となる。
妨害音声が存在しない場合は、相関係数cor(K)は正の値(相関性が高いことを示す所定値以上の値)となる傾向となる。一方、妨害音声が存在する場合には、相関係数cor(K)は負の値(相関性が低いことを示す所定値未満の値)となる傾向となる。
すなわち、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を導入することにより、例えば、相関係数cor(K)の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。
そこで、この実施形態の判定部40は、まず、相関係数cor(K)を求め、相関係数cor(K)に基づいて妨害音声の有無を判定するものとする。
ただし、この実施形態では、判定部40は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化処理(時間軸上で平滑処理)してから、相関係数cor(K)の算出に適用するものとする。なお、判定部40は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化せずにそのまま相関係数cor(K)の算出に適用するようにしてもよい。
判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化することにより、入力信号の瞬間的な変動による相関係数cor(K)への影響を低減することができる。以下では、平滑化後の平均正面抑圧信号AVE_N(K)を、S_AVE_N(K)と表すものとする。また、以下では、平滑化後のコヒーレンスCOH(K)を、S_COH(K)と表すものとする。平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化する具体的な計算式については限定されないものであるが、例えば、以下の(5)式及び(6)式のように長期平均値を用いた平滑処理を行うようにしても良い。
以下の(5)式では、最新のAVE_N(K)と、直前に求めたS_AVE_N(K−1)とを重みづけ加算している。以下の(5)式において、λは、0.0<λ<1.0の範囲で設定される平滑化係数(重みづけ係数)である。λは、後述する平滑化係数制御部50から供給される。以下の(5)式において、S_AVE_N(1)を求める際には、S_AVE_N(1−1)=0としてもよい。すなわち、S_AVE_N(1)=λ×AVE_N(1)としてもよい。
以下の(6)式では、最新のS_COH(K)と、直前に求めたS_COH(K−1)とを重みづけ加算している。以下の(6)式において、ξは、0.0<ξ<1.0の範囲で設定される平滑化係数(重みづけ係数)である。ξは、後述する平滑化係数制御部50から供給される。以下の(6)式において、S_COH(1)を求める際には、S_COH(1−1)=0としてもよい。すなわち、S_COH(1)=ξ×COH(1)としてもよい。
S_AVE_N(K)
=λ×AVE_N(K)+(1−λ)×S_AVE_N(K−1) …(5)
S_COH(K)
=ξ×COH(K)+(1−ξ)×S_COH(K−1) …(6)
上記の(5)式、(6)式では、平滑化係数λ、ξを1に近づけるほど瞬時値の影響が増し、0に近づけるほど瞬時値の影響が少なくなり平滑化の効果が増す。しかし、平滑化係数λ、ξを0に近づけると妨害音声の特性変動への追従が遅れるため、妨害音声の存在判定に誤判定が生じうる。特に、妨害音声の到来方位が変化した場合には誤判定は顕著となる。したがって、判定部40では、瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定することが望ましい。
そこで、この実施形態では、平滑化係数制御部50が、妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部50による平滑化係数λ、ξの制御処理の詳細については後述する。
以上のように、判定部40は、平滑化したS_AVE_N(K)及びS_COH(K)を求め、求めたS_AVE_N(K)及びS_COH(K)に基づいて、相関係数cor(K)を求める。
なお、判定部40が、相関係数cor(K)を求める際の具体的な計算方法については限定されないものであるが、例えば、判定部40は以下の(7)式を用いて相関係数cor(K)を求めるようにしてもよい。なお、以下の(7)式において、Cov[S_AVE_N(K),S_COH(K)]は、平均正面抑圧信号S_AVE_N(K)とコヒーレンスS_COH(K)の共分散を示している。また、以下の(7)式において、σS_AVE_N(K)は、平均正面抑圧信号S_AVE_N(K)の標準偏差を示している。さらに、以下の(7)式において、σS_COH(K)は、コヒーレンスS_COH(K)の標準偏差を示している。以下の(7)式にて相関係数cor(K)を求める場合には、S_AVE_N(K)及びS_COH(K)についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の(7)式にて相関係数cor(K)を求める過程において、例えば、直近に処理したi個のフレーム(K−i番目のフレーム、K−(i−1)番目のフレーム、…、K−1番目のフレーム、K番目のフレームの)のそれぞれに係るS_COH及びS_AVE_Nを用いて、標準偏差(σS_AVE_N(K)、及びσS_COH(K))や共分散(Cov[S_AVE_N(K),S_COH(K)])を求めるようにしてもよい。言い換えると、判定部40は、相関係数cor(K)を求める過程において、直近に求めたi個のS_AVE_N及びS_COHをサンプルとして用いて、以下の(7)式における標準偏差や共分散を求めるようにしてもよい。
Figure 0006631127
判定部40は、例えば、相関係数cor(K)が閾値Th以上だった場合、妨害音声無しを示す値(例えば、「0」)を出力し、相関係数cor(K)が閾値Thより小さい場合には妨害音声有りを出力するようにしてもよい。この実施形態では、上述の検討に従って閾値Th=0と設定するものとして説明する。したがって、判定部40は、相関係数cor(K)が0より大きい場合(相関係数cor(K)が正の場合;cor(K)>0の場合)には妨害音声無しと判定し、相関係数cor(K)が0以下の場合(相関係数cor(K)が0又は負の場合;0≧cor(K)の場合)には妨害音声有りと判定するものとする。
また、判定部40は、判定結果を示す信号R(K)を出力する。信号R(K)の形式は限定されないものであるが、例えば、「妨害音声有り」を示す値(例えば、「1」)又は、「妨害音声無し」を示す値(例えば、「0」)を出力するようにしてもよい。この実施形態において、判定部40は、音声処理装置2に信号R(K)を供給する。なお、判定部40が信号R(K)を出力する方式や供給先については限定されないものである。
以上のように、判定部40は、平均正面抑圧信号AVE_N(K)及びコヒーレンスCOH(K)に平滑化処理を行い、平滑化処理済の値(S_COH(K)及びS_AVE_N(K))を求める平滑化処理部としても機能する。
次に、平滑化係数制御部50による平滑化係数λ、ξの制御処理について説明する。
平滑化係数制御部50は、追従性と瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定し、設定した平滑化係数λ、ξを判定部40に供給する。
ところで、妨害音声の到来方位が正面に近づくほどコヒーレンスCOH(K)の値が大きくなり、cor(K)に発生する瞬時変動の度合いも増す。したがって、コヒーレンスCOH(K)が大きいほど、cor(K)の瞬時値の寄与を下げる平滑化処理を行うことが好ましい。一方、妨害音声の到来方位が横(左右方向)にそれるほどコヒーレンスCOH(K)の値は小さくなり、cor(K)の瞬時変動の度合いも小さくなるので平滑化の必要性は下がる。
また、妨害音声の到来方位が正面に近づくほど平均正面抑圧信号AVE_N(K)は小さくなり、瞬時変動も少なくなるので、平均正面抑圧信号AVE_N(K)の平滑化の必要性は低くなる。しかし、到来方位が横(左右方向)にそれるほど平均正面抑圧信号AVE_N(K)の値は大きくなり、cor(K)の瞬時変動も大きくなるので、平均正面抑圧信号AVE_N(K)を平滑化する必要性が高まる。
コヒーレンスCOH(K)は、特許文献1に記載されているように妨害音声の到来方位と直結した特徴量なので、上記のようにコヒーレンスCOH(K)と平滑化係数λ、ξを対応付けて登録・管理しておくことで、到来方位に応じて平滑化係数λ、ξを制御することに相当した制御方式が実現できる。
具体的には、この実施形態では、平滑化係数制御部50が、コヒーレンスCOH(K)に基づき妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部50による平滑化係数λ、ξの制御処理の詳細については後述する。
平滑化係数制御部50は、コヒーレンス計算部30からCOH(K)を取得し、取得したCOH(K)の値に応じた平滑化係数λ、ξを求める。
平滑化係数制御部50は、例えば、図5、図6のようなルールで、COH(K)に応じた平滑化係数λ、ξを取得するようにしてもよい。
図5では、COH(K)に応じた平滑化係数λを求めるためのルールをテーブル形式で図示している。
図5に示すように、平滑化係数制御部50は、COH(K)が小さいほど、平滑化係数λを大きな値に設定する。図5では、A<B<C<D、δ>ε>ηとしている。そして、図5では、A≦COH(K)<Bの場合「平滑化係数λ=δ」としている。また、図5では、B≦COH(K)<Cの場合「平滑化係数λ=ε」としている。さらに、図5では、C≦COH(K)<Dの場合「平滑化係数λ=η」としている。
図6では、COH(K)に応じた平滑化係数ξを求めるためのルールをテーブル形式で図示している。
図6に示すように、平滑化係数制御部50は、COH(K)が大きいほど、平滑化係数ξを大きな値に設定する。図6では、A<B<C<D、γ>β>αとしている。そして、図6では、A≦COH(K)<Bの場合「平滑化係数ξ=α」としている。また、図6では、B≦COH(K)<Cの場合「平滑化係数ξ=β」としている。さらに、図6では、C≦COH(K)<Dの場合「平滑化係数ξ=γ」としている。
平滑化係数制御部50は、コヒーレンス計算部30からコヒーレンスCOH(K)を取得する。そして、平滑化係数制御部50は、コヒーレンスCOH(K)の値に応じた平滑化係数λ、ξを求める。平滑化係数制御部50が平滑化係数λ、ξを求める方法については限定されないものであるが、この実施形態の平滑化係数制御部50は、コヒーレンスCOH(K)の値に応じた平滑化係数λ、ξを取得する際に照合する照合データ51を保持しているものとする。照合データ51としては、例えば、図5、図6に示すようなテーブル形式のデータを適用することができる。
コヒーレンスCOH(K)が小さいほど、平均正面抑圧信号AVE_N(K)に適用する平滑化係数λとして大きな値が設定される構成となっていれば、照合データ51(図5に示すテーブル)の形式については限定されないものである。図5では、コヒーレンスCOH(K)を3つの区間にグリッドして、各区間に対応する平滑化係数λの値としてσ、ε、ηを設定している。
また、コヒーレンスCOH(K)が大きいほど、コヒーレンスCOH(K)に適用する平滑化係数ξとして大きな値が設定される構成となっていれば、照合データ51(図6に示すテーブル)の形式については限定されないものである。図6では、コヒーレンスCOH(K)を3つの区間にグリッドして、各区間に対応する平滑化係数ξの値としてα、β、γを設定している。
さらに、照合データ51において、コヒーレンスCOH(K)をグリッドする区間の数や、各区間の長さ(コヒーレンスCOH(K)のレンジ)について限定されないものである。すなわち、照合データ51において、コヒーレンスCOH(K)をグリッドする各区間(レンジ幅)は等間隔でグリッドするようにしてもよいし、偏った間隔でグリッドするようにしてもよい。
以上のように、照合データ31では、コヒーレンスCOH(K)に用いる平滑化係数ξはコヒーレンスCOH(K)と大小関係が一致するように設定されており、平均正面抑圧信号AVE_N(K)の平滑化係数λはコヒーレンスCOH(K)と大小関係が逆転(反転)するよう設定されているものとする。言い換えると、照合データ31では、コヒーレンスCOH(K)が大きいほど、直近のコヒーレンスCOH(K)の重み付けが大きくなるような平滑化係数ξが設定されている。また、照合データ31では、コヒーレンスCOH(K)が小さいほど、直近の平均正面抑圧信号AVE_N(K)の重み付けが大きくなるように、平滑化係数λが設定されている。
(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の音声判定装置1の動作(実施形態の判定方法)を説明する。
まず、音声判定装置1の全体の動作について図1を用いて説明する。
マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)及びs2(n)がFFT部10に供給されたものとする。そして、FFT部10は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。そして、FFT部10で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部20及びコヒーレンス計算部30に供給される。
正面抑圧信号生成部20は、供給されたX1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部20は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出し、判定部40に供給する。
一方、コヒーレンス計算部30は、供給されたX1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)を生成し、判定部40及び平滑化係数制御部50に供給する。
平滑化係数制御部50は、供給されたコヒーレンスCOH(K)を、照合データ31と照合(例えば、図5、図6のテーブルと照合)して、照合結果に基づいた平滑化係数λ、ξを取得し、取得した平滑化係数λ、ξを判定部40に供給する。
判定部40は、平均正面抑圧信号AVE_N(K)と平滑化係数λに基づき、S_AVE_N(K)を求める。また、判定部40は、コヒーレンスCOH(K)と平滑化係数ξに基づき、S_COH(K)を求める。そして、判定部40は、S_AVE_N(K)及びS_COH(K)に基づいて、相関係数cor(K)を算出し、算出した相関係数cor(K)に基づいて妨害音声の有無を判定し、その判定結果を信号R(K)として出力する。
次に、判定部40の動作詳細について図7、図8のフローチャートを用いて説明する。
図7は、判定部40が妨害音声の有無を判定する処理について示したフローチャートである。図8は、図7のフローチャートの一部の処理について示したフローチャートである。判定部40は、平均正面抑圧信号AVE_N(K)、コヒーレンスCOH(K)、及び平滑化係数λ、ξ(1フレーム分のデータ)が供給されるごとに、図7、図8のフローチャートの処理により妨害音声の有無を判定し、信号R(K)を出力するものとする。
まず、判定部40に、平均正面抑圧信号AVE_N(K)、コヒーレンスCOH(K)、及び平滑化係数λ、ξが供給されたものとする(S101)。
次に、判定部40は、コヒーレンスCOH(K)及び平均正面抑圧信号AVE_N(K)に対して平滑化処理を行い、S_COH(K)及びS_AVE_N(K)を求める(S102)。判定部40は、コヒーレンスCOH(K)と平滑化係数ξに基づき、S_COH(K)を求める。具体的には、判定部40は、上記の(6)式を用いて、S_COH(K)を求めることができる。また、判定部40は、平均正面抑圧信号AVE_N(K)と平滑化係数λに基づき、S_AVE_N(K)を求める。具体的には、判定部40は、上記の(5)式を用いて、S_AVE_N(K)を求めることができる。
次に、判定部40は、S_AVE_N(K)とS_COH(K)とに基づいて相関係数cor(K)を算出する(S103)。具体的には、判定部40は、上記の(7)式を用いて相関係数cor(K)を求めることができる。
次に、判定部40は、算出した相関係数cor(K)に基づいて妨害音声の有無を判定し(S104)、その判定結果を示す信号R(K)を生成して出力する(S105)。
次に、判定部40が上述のステップS104で行う判定処理の具体例について図8のフローチャートを用いて説明する。
判定部40は、判定処理を開始すると、相関係数cor(K)の値を確認し(S201)、相関係数cor(K)の値に応じて妨害音の有無を判定する。
具体的には、判定部40は、相関係数cor(K)が0より大きい場合(相関係数cor(K)が正の値場合;cor(K)>0の場合)には「妨害音声無し」と判定し(S202)、相関係数cor(K)が0未満の場合(相関係数cor(K)が0又は負の値の場合;0≧cor(K)の場合)には「妨害音声有り」と判定する(S203)。
次に、平滑化係数制御部50の動作(平滑化係数λ、ξを求める動作)について図9のフローチャートを用いて説明する。平滑化係数制御部50は、コヒーレンス計算部30からコヒーレンスCOH(K)が供給されるごとに図9のフローチャートの処理を実行する。
まず、平滑化係数制御部50に、コヒーレンスCOH(K)が供給されたものとする(S301)。
次に、平滑化係数制御部50は、取得したコヒーレンスCOH(K)を、照合データ51(例えば、上述の図5、図6のテーブル)と照合して、照合結果に応じた平滑化係数λ、ξを取得する(S302)。
次に、平滑化係数制御部50は、取得した平滑化係数λ、ξを判定部40に供給する(S303)。
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
この実施形態の音声判定装置1では、相関係数cor(K)の値に基づいて、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置1では、精度よく妨害音声の有無を判定することができるので、判定結果の供給先(例えば、音声処理装置2)で、妨害音声の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置2の音声処理(例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理)に、この実施形態の音声判定装置1の判定結果を適用することで、音声処理装置2の性能向上(例えば、妨害音声等の非目的音の抑圧性能の向上)が期待できる。
さらに、この実施形態の音声判定装置1では、妨害音声の到来方位(すなわち、コヒーレンスCOH(K))に応じて平滑化係数λ、ξを設定し、その平滑化係数λ、ξを用いてコヒーレンスCOH(K)と平均正面抑圧信号AVE_N(K)に平滑処理を施したうえで相関係数cor(K)を算出し、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置1では、妨害音声の到来方位の変化による誤判定を改善することができる。すなわち、音声判定装置1では、妨害音声の有無に応じて最適な動作特性を行うことで、判定精度を向上させることができる。
(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B−1)上記の実施形態では、音声判定装置1と音声処理装置2とは別個の構成要素として説明したが、1つの音声処理装置(音声判定装置を含む1つの装置)として構築するようにしてもよい。
(B−2)上記の実施形態の音声判定装置1は、2つのマイクから供給される入力信号に基づいた処理を行う例について説明したが、音声判定装置1では3つ以上のマイクから供給される入力信号に基づいて判定処理を行うようにしてもよい。例えば、音声判定装置1において、3つ以上のマイクから供給される入力信号に基づき、正面方向に死角を有する正面抑圧信号N(f,K)や、正面以外の所定の方向に指向性を有する指向性信号B1(f)、B2(f)を取得して上記の実施形態と同様の処理を行うようにしてもよい。すなわち、音声判定装置1において、正面抑圧信号N(f,K)や、指向性信号B1(f)、B2(f)を取得するためのマイクの構成等は限定されないものである。
(B−3)上記の実施形態の判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を適用しているが、他の種類の値を特徴量として適用するようにしてもよい。例えば、判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との共分散を適用するようにしてもよい。
1…音声判定装置、2…音声処理装置、10…FFT部、20…正面抑圧信号生成部、30…コヒーレンス計算部、40…妨害音判定部、50…平滑化係数制御部、51…照合データ、m_1、m_2…マイク。

Claims (12)

  1. 複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
    前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
    前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、
    前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
    を有することを特徴とする音声判定装置。
  2. 前記特徴量は、前記平滑化処理済の正面抑圧信号と、前記平滑化処理済のコヒーレンスとの相関係数であることを特徴とする請求項1に記載の音声判定装置。
  3. 前記判定部は、前記特徴量としての相関係数の正負に基づいて妨害音声の有無を判定することを特徴とする請求項2に記載の音声判定装置。
  4. 前記特徴量は、前記平滑化処理済の正面抑圧信号と前記平滑化処理済のコヒーレンスとの共分散であることを特徴とする請求項1に記載の音声判定装置。
  5. 前記判定部は、前記特徴量としての共分散の正負に基づいて妨害音声の有無を判定することを特徴とする請求項4に記載の音声判定装置。
  6. 前記平滑化処理部は、
    第1の平滑化係数を用いて、前記正面抑圧信号生成部が生成した正面抑圧信号を平滑化処理し、
    第2の平滑化係数を用いて、前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理する
    ことを特徴とする請求項1〜5のいずれかに記載の音声判定装置。
  7. 妨害音声の到来方向に応じて、前記第1の平滑化係数及び前記第2の平滑化係数を設定し、前記平滑化処理部に供給する平滑化係数制御部をさらに有し、
    前記平滑化処理部は、前記平滑化係数制御部から供給された前記第1の平滑化係数及び前記第2の平滑化係数を用いて平滑化処理を行う
    ことを特徴とする請求項6に記載の音声判定装置。
  8. 前記平滑化係数制御部は、前記コヒーレンス計算部が計算したコヒーレンスに応じて、前記第1の平滑化係数及び前記第2の平滑化係数を設定することを特徴とする請求項7に記載の音声判定装置。
  9. 前記平滑化係数制御部は、前記コヒーレンス計算部が計算したコヒーレンスの値と大小関係が反転するような値を、前記第1の平滑化係数に設定し、前記コヒーレンス計算部が計算したコヒーレンスの値と大小関係が一致するような値を、前記第2の平滑化係数に設定することを特徴とする請求項8に記載の音声判定装置。
  10. コンピュータを、
    複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
    前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
    前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、
    前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
    して機能させることを特徴とする音声判定プログラム。
  11. 複数のマイクから得られた入力信号に関する判定方法において、
    正面抑圧信号生成部、コヒーレンス計算部、平滑化処理部、及び判定部を備え、
    前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、
    前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、
    前記平滑化処理部は、前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成し、
    前記判定部は、前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する
    ことを特徴とする音声判定方法。
  12. 複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、請求項1〜9のいずれかに記載の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする音声処理装置。
JP2015189919A 2015-09-28 2015-09-28 音声判定装置、方法及びプログラム、並びに、音声処理装置 Active JP6631127B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015189919A JP6631127B2 (ja) 2015-09-28 2015-09-28 音声判定装置、方法及びプログラム、並びに、音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015189919A JP6631127B2 (ja) 2015-09-28 2015-09-28 音声判定装置、方法及びプログラム、並びに、音声処理装置

Publications (2)

Publication Number Publication Date
JP2017067844A JP2017067844A (ja) 2017-04-06
JP6631127B2 true JP6631127B2 (ja) 2020-01-15

Family

ID=58494740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015189919A Active JP6631127B2 (ja) 2015-09-28 2015-09-28 音声判定装置、方法及びプログラム、並びに、音声処理装置

Country Status (1)

Country Link
JP (1) JP6631127B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6987516B2 (ja) 2017-03-30 2022-01-05 住友化学株式会社 芳香族ポリスルホン、芳香族ポリスルホン組成物、及び芳香族ポリスルホンの製造方法

Also Published As

Publication number Publication date
JP2017067844A (ja) 2017-04-06

Similar Documents

Publication Publication Date Title
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
JP6134078B1 (ja) ノイズ抑制
JP6028502B2 (ja) 音声信号処理装置、方法及びプログラム
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6314475B2 (ja) 音声信号処理装置及びプログラム
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP6763319B2 (ja) 非目的音判定装置、プログラム及び方法
JP5970985B2 (ja) 音声信号処理装置、方法及びプログラム
JP5772562B2 (ja) 目的音抽出装置及び目的音抽出プログラム
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP6361360B2 (ja) 残響判定装置及びプログラム
JP6544182B2 (ja) 音声処理装置、プログラム及び方法
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム
JP6295650B2 (ja) 音声信号処理装置及びプログラム
JP2014164191A (ja) 信号処理装置、方法及びプログラム
JP2018142822A (ja) 音響信号処理装置、方法及びプログラム
JP7139822B2 (ja) 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP2017067990A (ja) 音声処理装置、プログラム及び方法
JP6213324B2 (ja) 音声信号処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R150 Certificate of patent or registration of utility model

Ref document number: 6631127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150