JP6057368B2 - 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP6057368B2 JP6057368B2 JP2012225734A JP2012225734A JP6057368B2 JP 6057368 B2 JP6057368 B2 JP 6057368B2 JP 2012225734 A JP2012225734 A JP 2012225734A JP 2012225734 A JP2012225734 A JP 2012225734A JP 6057368 B2 JP6057368 B2 JP 6057368B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- observation
- input
- distribution
- inclination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、観測信号からの目的信号の抽出等を行うための信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
従来、観測信号からの目的信号の抽出等を行うため、複数の信号源についての観測信号から分離信号を得る技術がある(例えば、非特許文献1、非特許文献2参照)。
非特許文献1では、音環境の変動と音源数を推定し、その結果に基づいて音源分離や雑音除去を行って、目的信号を抽出する技術が開示されている。同文献では、観測信号の同時分布を用いて音環境の変動を検出し、同時分布から作成されるヒストグラムに基づき、原信号数に基づいた変動環境下での音源分離法が提案されている。
非特許文献2では、観測信号の同時分布から音源方位ヒストグラムを生成し、推定された音源方位から分離行列を構成し、分離信号を得るアルゴリズムが提案されている。また、同文献では、バンドパスフィルタを用いることにより、様々な信号の混合も分離できることや、提案手法を適用することで伝播遅延を推定し、伝播遅延を含む音源分離ができることが示されている。
石橋孝昭、中島栄俊,「音環境の変動に頑健な音源分離システムの開発」,熊本高等専門学校研究紀要(CD−ROM),No.2 Page.77−82(2010.12.20)
龍田成揮、平井有三,「音源方位ヒストグラム法による音源分離」,電子情報通信学会技術研究報告,Vol.105,No.131(NC2005 20−29),Page.1−6(2005.06.17)
上述した非特許文献1および非特許文献2の技術では、次のような問題がある。まず、非特許文献1および非特許文献2いずれの技術も、観測信号数(マイクロホンの数)が2の場合、つまり2チャンネルの場合についての技術である。しかしながら、非特許文献2の技術によれば、2チャンネルの観測信号を用いて2チャンネルの信号分離しかできない。すなわち、観測される信号は2つの音源(信号源)の混合信号でなければならない。したがって、音源数(信号源数)が増加した場合、観測信号数を増やしたりアルゴリズムを変更したりする必要がある。この点、非特許文献1の技術であっても同様に、音源数が増加するときには、観測信号数を増やしたりアルゴリズムを変更したりする必要が生じる。
また、非特許文献1および非特許文献2の技術では、2つの観測信号の同時分布の方位に対するヒストグラムを作成し、そのヒストグラムのピークの検出結果に基づく処理が行われる。つまり、非特許文献1および非特許文献2の技術では、2つの観測信号の同時分布の方位に対するヒストグラムを作成する必要がある。ここで、同時分布の方位とは、同時分布において直線状に現れる高密度方向の方位(角度)であり、音源方位として採用されるものである。
しかしながら、このようなヒストグラムの作成を必要とする処理においては、ヒストグラムにピークが現れるための条件として、音源は全て話者音声のようなスーパーガウシアンとなる信号であることが要求される。この点、音源がスーパーガウシアンとなる信号でない場合には、非特許文献2に記載されているような周波数領域に変換する処理など、必要な処理が増えてしまう。なお、スーパーガウシアンとは、確率密度の裾が長く平均値が鋭く尖っている分布をいう。話者音声の振幅を横軸、振幅の出現確率(頻度)を縦軸にとったとき、話者音声は無音区間が多いため振幅が0になる頻度が高く、話者音声についての分布はスーパーガウシアンになる。
また、非特許文献2の技術では、上述のとおり2チャンネルの信号の分離について提案されているが、このとき、観測信号に含まれる音源数は2つでなければアルゴリズムが機能しない。すなわち、非特許文献2の技術によれば、観測信号に1つの音声しか存在しないときは、計算することができず、処理が止まってしまう可能性がある。
また、非特許文献2の技術では、2チャンネルの信号の分離までを扱っている。このことは、実用化の際には分離信号から目的信号を選択するための後処理が必要となることを意味している。したがって、非特許文献2の技術の場合、目的信号が観測信号に含まれない状況での選択方法は非常に困難であると考えられる。また、非特許文献1では、目的信号の選択処理を追加している。
また、非特許文献1および非特許文献2の技術では、上述のとおり同時分布の方位に対するヒストグラムを作成する必要があるが、ヒストグラムを作成するためには、相当数のデータポイントが必要となる。また、非特許文献1では、信号の分離処理に統計的手法である独立成分分析を用いているため、その点でも、ある程度のデータ長が必要となる。
本発明は、上記のような問題点に鑑みてなされたものであり、信号源数の数や種類に依存せずに機能し、簡単な処理によって目的信号を出力することができる信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
本発明に係る信号処理方法は、一または複数の信号源からの信号を、2つの入力部によって観測するステップと、前記観測するステップにより観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出するステップと、前記傾きを検出するステップにより検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(1)、(2)により推定した信号を、前記目的信号として前記処理対象の信号から抽出するステップと、を含むものである。
また、本発明に係る信号処理方法は、上記の信号処理方法において、前記傾きを検出するステップは、最小二乗法によって前記傾きを求めるものである。
また、本発明に係る信号処理方法は、上記の信号処理方法において、前記傾きを検出するステップは、前記直線が前記座標軸により定められる座標の原点を通る直線となるように、前記分布をセンタリングするステップを含むものである。
本発明に係る信号処理装置は、一または複数の信号源からの信号を、2つの入力部によって観測する観測部と、前記観測部により観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する傾き検出部と、前記傾き検出部により検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(3)、(4)により推定した信号を、前記目的信号として前記処理対象の信号から抽出するものである。
また、本発明に係る信号処理装置は、上記の信号処理装置において、前記傾き検出部は、最小二乗法によって前記傾きを求めるものである。
また、本発明に係る信号処理装置は、上記の信号処理装置において、前記傾き検出部は、前記直線が前記座標軸により定められる座標の原点を通る直線となるように、前記分布をセンタリングするセンタリング部を有するものである。
本発明に係る信号処理プログラムは、一または複数の信号源からの信号を観測するための2つの入力部からの信号の入力を受けるコンピュータに、前記一または複数の信号源からの信号を、2つの入力部によって観測する手順と、前記観測する手順により観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する手順と、前記傾きを検出する手順により検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(5)、(6)により推定した信号を、前記目的信号として前記処理対象の信号から抽出する手順と、を実行させるためのものである。
また、本発明に係る上記の信号処理プログラムは、コンピュータ読み取り可能な記録媒体に記録して提供することができる。
なお、上記式(1)〜(6)において、φ:前記傾き、x1:前記2つの入力部のうち一方の入力部の入力値、x2:前記2つの入力部のうち他方の入力部の入力値、ε:前記傾きについての誤差、ym(m=1または2):推定信号、α:雑音の抑制量を決めるパラメータ、xm(m=1または2):前記入力部による観測信号である。また、f(ε)は、f(0)=1、f(∞)=0、0≦f(ε)≦1の条件を満たす関数である。
本発明によれば、信号源数の数や種類に依存せずに機能し、簡単な処理によって目的信号を出力することができる。
本発明は、所定の信号源からの観測信号について観測信号の中からの目的信号の抽出等を行う信号処理技術において、先験的に得られる、目的信号のみが存在する分布が直線になるという事実に基づき、その直線成分から傾き情報を検出し、観測信号の分布に重み付けを行うことで、検出した傾き情報に基づき、目的信号の抽出を行おうとするものである。本発明に係る信号処理技術は、観測信号の比は伝達関数の比と等価になることを利用するものである。本発明に係る信号処理技術によれば、観測信号の中からの目的信号の抽出を基軸として、複数の信号源から観測された混合信号の分離や、目的信号の強調や、観測信号に含まれる雑音の抑制・除去等の各種目的に応じた信号処理を行うことが可能となる。以下、本発明の実施の形態を説明する。
[第1実施形態]
本発明の第1実施形態について説明する。
本発明の第1実施形態について説明する。
(信号処理方法)
まず、本実施形態に係る信号処理方法について説明する。本実施形態に係る信号処理方法は、観測信号として複数の信号源からの信号(原信号)の混合信号の中から、必要な目的信号のみを抽出する方法である。本実施形態に係る信号処理方法は、一または複数の信号源からの信号を、2つの入力部によって観測する信号観測ステップと、一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する傾き検出ステップと、傾き検出ステップにより検出した傾きを用いて、2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、所定の式により推定した信号を、目的信号として処理対象の信号から抽出する信号抽出ステップとを含む。
まず、本実施形態に係る信号処理方法について説明する。本実施形態に係る信号処理方法は、観測信号として複数の信号源からの信号(原信号)の混合信号の中から、必要な目的信号のみを抽出する方法である。本実施形態に係る信号処理方法は、一または複数の信号源からの信号を、2つの入力部によって観測する信号観測ステップと、一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する傾き検出ステップと、傾き検出ステップにより検出した傾きを用いて、2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、所定の式により推定した信号を、目的信号として処理対象の信号から抽出する信号抽出ステップとを含む。
本実施形態の信号処理方法では、N個の未知の原信号sn(t)(n=1,2,・・・,N)がM個のマイクロホンで観測されるとき、観測された混合信号となる観測信号xm(t)(m=1,2,・・・,M)の混合モデルを、次式(7)により定式化する。
上記式(7)において、amnは、原信号からマイクロホンまでの減衰係数に相当する伝達関数である。amnは、0〜1の範囲内の値となる。
本実施形態の信号処理方法において、上記式(7)により定式化される混合モデルは、最も簡単な混合モデルであり、瞬時混合モデルと称される。この瞬時混合モデルにおいては、信号の時間遅れや反射の影響は無視される。
本実施形態の信号処理方法は、既知の信号である観測信号xmを用いて、未知の信号である原信号snを推定することを目的とする。そして、本実施形態の信号処理方法は、観測信号の分布(同時分布)に基づく目的信号の抽出法を採用する。この目的信号の抽出法は、原信号snとして目的信号のみが存在するときの観測信号の分布の情報と、原信号snに雑音が含まれたときの観測信号の分布の情報とを比較することから始まる。
以下、原信号snの具体例を挙げて、本実施形態の信号処理方法について具体的に説明する。なお、本実施形態の説明では、原信号snの数は2であり(sn(t)(n=1,2)、N=2)、マイクロホンの数、つまり観測信号xmの数は2である(xm(t)(m=1,2)、M=2)。
図1に、本実施形態の信号処理方法で用いられる原信号snの波形の一例を示す。本実施形態の信号処理方法では、原信号snとして、図1(a)に示す目的信号s1(t)と、同図(b)に示す雑音s2(t)とが用いられる。なお、図1の各図に示す信号の波形において、横軸は時間t(秒)であり、縦軸は信号の振幅である。
図1(a)に示す目的信号s1(t)および同図(b)に示す雑音s2(t)は、いずれも話者音声である。本実施形態の信号処理方法において、観測信号xmは、目的信号s1と雑音s2の同時発話であり、目的信号s1と雑音s2の混合信号となる。そして、図1(a)に示す目的信号s1(t)が、本実施形態の信号処理方法における抽出対象となる。
図2に示すように、本実施形態の信号処理方法では、目的信号s1を発する第1信号源1、および雑音s2を発する第2信号源2に対して、第1マイクロホン11および第2マイクロホン12の2本のマイクロホンが用いられる。第1信号源1および第2信号源2、並びに第1マイクロホン11および第2マイクロホン12は、それぞれ所定の位置に配置される。
第1信号源1および第2信号源2は、第1マイクロホン11および第2マイクロホン12の各マイクロホンに対する距離が互いに異なる位置に配置される。本例では、図2に示すように、第1信号源1は、第2マイクロホン12よりも第1マイクロホン11に近い位置に配置され、第2信号源2は、第1マイクロホン11よりも第2マイクロホン12に近い位置に配置されている。言い換えると、第1マイクロホン11については、第2信号源2との間の距離よりも第1信号源1との間の距離の方が短く、第2マイクロホン12については、第1信号源1との間の距離よりも第2信号源2との間の距離の方が短い。なお、図2においては、第1信号源1から第1マイクロホン11および第2マイクロホン12に入力される目的信号s1(t)を実線矢印で、第2信号源2から第1マイクロホン11および第2マイクロホン12に入力される雑音s2(t)を破線矢印で、それぞれ模式的に示している。
目的信号s1および雑音s2は、上記のとおりいずれも話者音声であることから、第1信号源1および第2信号源2は、いずれも人等の話者である。本実施形態のように原信号snがいずれも話者音声である場合、目的信号s1および雑音s2について、母音と子音とで信号の振幅値が異なり、また、フレーズの切れ目や単語の区切り等で無音の(振幅が0の)期間が存在する(図1参照)。
本実施形態の信号処理方法では、第1マイクロホン11および第2マイクロホン12の2本のマイクロホンが、2つの入力部として機能する。つまり、第1マイクロホン11および第2マイクロホン12の各マイクロホンが、1つの入力部に相当する。このように、本実施形態の信号処理方法において、信号観測ステップでは、第1信号源1および第2信号源2の2つの信号源からの信号(目的信号s1、雑音s2)を、第1マイクロホン11および第2マイクロホン12の2本のマイクロホンによって観測することが行われる。
図3に、本実施形態の信号処理方法で得られる観測信号xmの波形の一例を示す。図3(a)は、第1マイクロホン11により観測された観測信号(以下「第1観測信号」とする。)x1(t)であり、同図(b)は、第2マイクロホン12により観測された観測信号(以下「第2観測信号」とする。)x2(t)である。なお、図3の各図に示す信号の波形において、横軸は時間t(秒)を示し、縦軸は信号の振幅を示す。
図3(a)、(b)に示す第1観測信号x1(t)および第2観測信号x2(t)は、図1(a)、(b)に示す原信号としての目的信号s1および雑音s2が、図2に示すような信号源1、2およびマイクロホン11、12の配置関係において、各マイクロホンにより観測されたものである。図3(a)に示す第1観測信号x1(t)においては、上述したように第1マイクロホン11に対しては第2信号源2よりも第1信号源1の方が近いことから、目的信号s1の影響が大きく現れる。一方、図3(b)に示す第2観測信号x2(t)においては、上述したように第2マイクロホン12に対しては第1信号源1よりも第2信号源2の方が近いことから、雑音s2の影響が大きく現れる。
以上のように、本実施形態の信号処理方法が有する信号観測ステップでは、第1マイクロホン11および第2マイクロホン12により、第1信号源1および第2信号源2から発せられる目的信号s1および雑音s2について、これらの混合信号として、図3(a)、(b)に示す第1観測信号x1(t)および第2観測信号x2(t)が得られる。すなわち、信号観測ステップは、目的信号を含む混合信号を、マイクロホン等の入力部によって観測し、図3に示すような観測信号を得るステップである。
本実施形態の信号処理方法では、図3に示す第1観測信号x1(t)および第2観測信号x2(t)の2つの観測信号の分布を用いる。具体的には、これら2つの観測信号について、図1(a)に示す目的信号s1(t)のみが存在するときの分布を用いる。
本実施形態の信号処理方法で用いる観測信号の分布について、図4を用いて説明する。図4(a)、(b)、(c)に示すように、本実施形態の信号処理方法では、観測信号の分布として、横軸を第1観測信号x1(t)の振幅、縦軸を第2観測信号x2(t)の振幅とするグラフで表される、いわゆる同時分布が用いられる。
図4(a)は、目的信号s1(t)のみが存在するときの観測信号の分布であり、同図(b)は、雑音s2(t)のみが存在するときの観測信号の分布である。ここで、例えば目的信号s1(t)のみが存在する状態は、図1に示す原信号の波形の例の場合、雑音s2(t)について無音となる(振幅が0となる)0〜約3.8秒、約7〜8秒の期間に目的信号s1(t)が発せられることで生じる。
図4(a)、(b)から、原信号が1つのときの観測信号の分布は直線になり、その直線の傾きが原信号によって異なることがわかる。この観測信号の分布として現れる直線は、実質的には、直線状に現れる高密度分布である。また、観測信号の分布として現れる直線の傾きは、各マイクロホン11、12に対する2つの信号源1、2の距離の比によって変化する。上述したように、本実施形態では、第1信号源1に対しては、第1マイクロホン11の方が第2マイクロホン12よりも近くに位置し、第2信号源2に対しては、第2マイクロホン12の方が第1マイクロホン11よりも近くに位置する。このような信号源1、2とマイクロホン11、12との位置関係においては、図4(a)に示す目的信号s1(t)についての観測信号の分布として現れる直線A1の傾きは、同図(b)に示す雑音s2(t)についての観測信号の分布として現れる直線A2の傾きよりも小さい。なお、図4(a)、(b)に示す直線A1、A2の傾きは、いずれも正の値となる。
一方、図4(c)は、目的信号s1(t)および雑音s2(t)が同時に発話されたときの観測信号x(t)の分布である。図4(c)から、複数話者が同時に発話したときの観測信号の分布は、それぞれの原信号のみが存在するときの分布の周囲にばらついた分布となることがわかる。つまり、2つの信号源1、2の観測信号の分布が図4(a)、(b)に示す例の場合、これらの同時発話であるx(t)の分布は、それぞれの観測信号の分布として現れる2本の直線A1、A2に沿う位置に対して重点的であって各直線A1、A2を周囲に拡散したような分布となる。
このように2つの信号源1、2の同時発話による観測信号の分布が図4(c)に示すような各信号源1、2の観測信号の分布に対応する直線がぼけたような態様の分布となることは、原信号数の数が増加したときにも同様に当てはまる。すなわち、例えば、2つの信号源1、2に加えて、各マイクロホン11、12に対する距離がいずれの信号源1、2についての距離に対しても異なる第3の信号源が存在する場合、3つの信号源の同時発話による観測信号の分布は、3本の直線に沿う位置に対して重点的であって各直線を周囲に拡散したような分布となる。
以上のような事実から、観測信号の分布に基づいて目的信号を抽出することができることがわかる。そこで、本実施形態の信号処理方法では、上記した傾き検出ステップとして、図4(a)に示す目的信号s1(t)のみが存在するときの観測信号の分布(同時分布)として現れる直線A1について、その傾き(図5、符号「φ」参照)を検出することが行われる。
すなわち、本実施形態において、傾き検出ステップでは、信号観測ステップにより観測された観測信号に基づき、第1信号源1および第2信号源2の2つの信号源のうち抽出対象である目的信号s1の信号源である第1信号源1からの観測信号について、第1マイクロホン11および第2マイクロホン12の2つのマイクロホンの各マイクロホン11、12の入力値を座標軸とする分布(同時分布)の直線A1の傾きを検出することが行われる(図4(a)参照)。
ここで、各マイクロホン11、12の入力値は、第1観測信号x1(t)および第2観測信号x2(t)それぞれの振幅値に相当する。また、本実施形態では、2つのマイクロホン11、12による観測信号の同時分布は、第1観測信号x1(t)の振幅値を示す座標軸を第1の座標軸とし、第2観測信号x2(t)の振幅値を示す座標軸を第2の座標軸とした場合、互いに直交する第1の座標軸および第2の座標軸により定められる2次元直交座標の座標平面に現れる(図4参照)。
傾き検出ステップについて詳細に説明する。傾き検出ステップでは、図5に示すように、目的信号s1(t)の観測信号の分布として現れる直線(以下「目的信号分布直線」という。)A1の傾きφが検出される。なお、図5は、図4(a)に示す観測信号の分布と同じ同時分布(結合分布:Joint distribution)である。
傾き検出ステップでは、まず、目的信号分布直線A1を上述した第1の座標軸および第2の座標軸により定められる座標の原点O1を通る直線とする、いわゆるセンタリング(中心化)の処理が行われる。ここで、原点O1は、上述した座標平面において、第1観測信号x1(t)および第2観測信号x2(t)の振幅値がいずれも0である点に相当する。センタリングの処理は、次式(8)により行われる。
上記式(8)において、E[xm(t)]は、xm(t)の平均値を示す。
このようなセンタリングの処理により、目的信号分布直線A1は、原点O1を中心に分布することになる。なお、第1観測信号x1(t)および第2観測信号x2(t)の振幅値はいずれも0を中心として略対称に正負の値に振動することから、センタリングを行う前の状態においても目的信号分布直線A1は原点O1の近傍を通るが、センタリングを行うことで、目的信号分布直線A1を、正確に原点O1を通る直線とすることができる。
このように、本実施形態の信号処理方法では、傾き検出ステップは、目的信号分布直線A1が各観測信号の振幅値を示す座標軸により定められる座標の原点O1を通る直線となるように、目的信号s1(t)の観測信号の分布をセンタリングするセンタリングステップを含む。
上述したように第1観測信号x1(t)および第2観測信号x2(t)を座標軸とする座標平面においてセンタリングされた目的信号分布直線A1は、原点O1を通る傾きφの直線であることから、次式(9)のように表現できる。
x2(t)=φx1(t) ・・・(9)
そして、目的信号分布直線A1の傾きφは、最小二乗法によって求めることができる。具体的には、傾きφは、次式(10)により求まる。
上記式(10)において、Tは転置行列を表す。なお、目的信号分布直線A1の傾きφを求めるための最小二乗法による演算については、周知の方法を用いた演算であるため説明を省略する。
以上のように、本実施形態の信号処理方法では、傾き検出ステップは、最小二乗法によって目的信号分布直線A1の傾きφを求める。なお、このように最小二乗法によって傾きφを求める方法においては、上述したセンタリングステップを省略することができる。センタリングステップを省略した場合、傾き検出ステップでは、次のような演算が行われる。
目的信号分布直線A1についてセンタリングしない場合、目的信号分布直線A1は、縦軸(x2(t))との接点(横軸をX、縦軸をYとした場合のY切片)をζとすると、上記式(9)から、次式(11)のように表される。
x2(t)=φx1(t)+ζ ・・・(11)
そして、傾きφおよび接点ζそれぞれのパラメータは、最小二乗法により、次式(12)を解くことで求められる。
上記式(12)が、センタリングをしないときの式となり、この式を計算した連立方程式を解くことにより、目的信号分布直線A1の傾きφと接点ζが求められる。
一方、上述したようにセンタリングを行う場合は、目的信号分布直線A1は原点O1を通ることになるので、接点ζ=0となる。したがって、上記式(12)においてζ=0を代入すると、次式(13)が得られる。
上記式(13)を計算すると、次式(14)、(15)が得られる。
上記式(14)、(15)から、次式(16)が得られる。
上記式(16)により、目的信号分布直線A1の傾きφが導かれる。すなわち、目的信号分布直線A1の傾きφを求めるための式に関し、上記式(10)がベクトルの形式で表したものであるのに対し、この式(16)はΣの形式で表したものである。したがって、傾き検出ステップにおいてセンタリングを行う場合は、式(10)および式(16)のいずれかの式に基づく演算が行わることで、目的信号分布直線A1の傾きφが検出される。
以上のように、傾き検出ステップにおいては、センタリングステップは任意に行われる処理である。ただし、センタリングステップを行うことにより、上述したような最小二乗法を用いた手法において、上記式(11)、(12)を経る手順を、式(9)、(10)を経る手順、あるいは式(9)、(13)〜(16)を経る手順のいずれかにすることができ、手順を省略することができる。つまり、目的信号分布直線A1の傾きφを求めるために最小二乗法を用いる場合、目的信号分布直線A1についてセンタリングを行うことで、演算を簡略化することができ、処理負担の軽減や処理速度の向上を図ることが可能となる。
また、傾き検出ステップにおいては、目的信号分布直線A1の傾きφを求めるための手法として、上述したような最小二乗法を用いた手法のほか、ヒストグラムを用いた手法を採用することができる。ヒストグラムを用いた手法について説明する。
目的信号分布直線A1の傾きφの検出において、ヒストグラムを用いる場合、図4(a)や図5に示すような目的信号s1(t)についての観測信号の分布から、同時分布の方位、つまり目的信号分布直線A1の傾きφを、次式(17)、(18)のように計算する。
φ=tan argmaxθhist(θ) ・・・(18)
上記式(17)に基づいて作成されたヒストグラムを、図6に示す。図6に示すヒストグラムにおいて、横軸は、傾きφの大きさに対応する傾き角θ[rad]を表し、縦軸は、同時分布が表れる座標平面において第1観測信号x1(t)および第2観測信号x2(t)の各振幅値の値により定まる点の数を表す。つまり、図6に示すヒストグラムの縦軸で数が表される各点の集合が、図5に示す同時分布における目的信号分布直線A1である。
図5に示すように目的信号s1(t)の観測信号の分布が目的信号分布直線A1として現れる場合のヒストグラムにおいては、図6に示すように1つの尖ったピークが現れる。このことは、観測信号の同時分布上において、傾きφが所定の値となる直線上における点の数が最大となることを表す。したがって、このヒストグラムのピークの位置に対応する傾き角θをθPとした場合、式(18)より、tanθPの値が、目的信号分布直線A1の傾きφの値となる。図6に示す例では、ヒストグラムのピークの位置の傾き角θPの値は、約0.464[rad]であり、式(18)より、図5に示す目的信号分布直線A1の傾きφの値は、約0.5となる。なお、このように目的信号分布直線A1の傾きφの検出に際してヒストグラムを用いる場合は、ヒストグラムの作成に際して、目的信号分布直線A1について上述したようなセンタリングの処理が行われる。
以上のように、本実施形態の信号処理方法においては、最小二乗法を用いた手法、あるいはヒストグラムを用いた手法により、目的信号分布直線A1の傾きφが検出される。目的信号分布直線A1の傾きφが得られた後、この傾きφを先験情報として、目的信号を抽出する信号抽出ステップが行われる。すなわち、本実施形態の信号処理方法においては、上述したような信号観測ステップおよび傾き検出ステップが事前処理として行われることで、目的信号分布直線A1の傾きφの値があらかじめ検出されて準備される。そして、この目的信号分布直線A1の傾きφの値が用いられ、処理対象の信号から目的信号を抽出する処理が行われる。
信号抽出ステップについて説明する。信号抽出ステップにおいては、目的信号分布直線A1の傾きφが用いられ、第1観測信号x1(t)および第2観測信号x2(t)の少なくともいずれかが処理対象の信号とされ、この処理対象の信号から、目的信号s1(t)の抽出、つまり推定信号ynの算出が行われる。すなわち、信号抽出ステップでは、傾き検出ステップにより検出された目的信号分布直線A1の傾きφを用いて、第1マイクロホン11および第2マイクロホン12のうち少なくともいずれか一方のマイクロホンによる観測信号を処理対象の信号とし、次式(19)、(20)により推定した信号(推定信号yn)を、目的信号s1(t)として処理対象の信号から抽出することが行われる。
上記式(19)、(20)において、φは、目的信号分布直線A1の傾きである。また、x1は、2つの入力部のうち一方の入力部である第1マイクロホン11の入力値、つまり第1観測信号x1(t)の振幅値である。同様に、x2は、2つの入力部のうち他方の入力部である第2マイクロホン12の入力値、つまり、第2観測信号x2(t)の振幅値である。
また、εは、傾きφについての誤差であり、式(19)により表される値である。ym(m=1または2)は、目的信号として推定する推定信号である。また、xm(m=1または2)は、入力部としてのマイクロホン11、12による観測信号である。この観測信号xmが、信号抽出ステップにおける処理対象の信号となる。
上記式(20)について説明する。式(20)において、観測信号xmに掛かる関数f(ε)は、f(0)=1、f(∞)=0、0≦f(ε)≦1の条件を満たす関数である。具体的には、f(ε)は、観測信号の分布に対する重み付け、つまり雑音の抑制量を表す。
本実施形態の信号処理方法では、f(ε)の一例として、次式(21)で表される関数を用いる。
上記式(21)において、αは、雑音の抑制量を決めるパラメータであり、α>0となる値である。αの値が大きくなるほど、推定信号における目的信号以外の信号(雑音)の影響は小さくなるが、αの値が大き過ぎると、目的信号そのものが減殺される。一方、αの値が小さくなると、目的信号は残ることになるが、αの値が小さ過ぎると、目的信号以外の信号(雑音)の影響が大きくなる。
上記式(21)で表される非線形関数1/(1+αε2)は、誤差εとの関係で、図7に示すようなグラフを示す。図7に示すグラフにおいて、横軸は誤差εで、縦軸は1/(1+αε2)である。
図7に示すグラフから分かるように、誤差εの値が大きくなるほど、1/(1+αε2)の値は0に近付く。つまり、誤差εが増えるほど、雑音の抑制量が増え、出力の値(1/(1+αε2)の値)は減少し、1/(1+αε2)の値は0に近付くようになる。一方で、誤差がないとき(誤差ε=0のとき)は、雑音を抑制する必要がないので、1/(1+αε2)の値は1となる。
以上のような信号抽出ステップによる上記式(19)〜(21)を用いた目的信号s1(t)としての推定信号ynの抽出のシミュレーション結果を、図8に示す。図8(a)は、上記式(20)において処理対象の信号であるxmとして第1観測信号x1(t)を用いた場合の推定信号y1(t)を示し、同図(b)は、同じくxmとして第2観測信号x2(t)を用いた場合の推定信号y2(t)を示す。
図8に示すシミュレーション結果から、推定信号y1(t)は、図1(a)に示す原信号としての目的信号s1(t)とほぼ同じ波形になっており、本実施形態に係る信号処理方法の有効性が確認できる。なお、図8(b)に示す推定信号y2(t)は、その振幅値が同図(a)に示す推定信号y1(t)の振幅値よりも全体的に小さくなっているが、このことは、上述したような信号源1、2およびマイクロホン11、12の配置関係(図2参照)に基づく。すなわち、目的信号s1(t)を発する信号源である第1信号源1については、第2観測信号x2(t)を得るための第2マイクロホン12よりも第1観測信号x1(t)を得るための第1マイクロホン11に対する距離の方が近いことから、処理対象の信号として第1観測信号x1(t)を用いた推定信号y1(t)の振幅値の方が、処理対象の信号として第2観測信号x2(t)を用いた推定信号y2(t)の振幅値よりも大きくなる。
したがって、信号源1、2およびマイクロホン11、12の配置関係(相対的な距離関係)が未知の場合、第1観測信号x1(t)および第2観測信号x2(t)それぞれを用いた推定信号y1(t)、推定信号y2(t)のうち、振幅値が相対的に大きい方の推定信号が目的信号s1(t)の抽出結果として採用される。一方、信号源1、2およびマイクロホン11、12の配置関係が既知の場合、信号抽出ステップにおいて推定信号ynを算出するに際しては、2本のマイクロホン11、12による観測信号のうち、目的信号s1(t)の信号源である第1信号源1の近くに配置される方の第1マイクロホン11による第1観測信号x1(t)を用いることで、推定信号として目的信号s1(t)により近い信号を推定することが可能となる。
以上のような本実施形態の信号処理方法は、目的信号しか存在しないときの先験情報として目的信号分布直線A1の傾きφを利用した目的信号抽出法である。本実施形態の信号処理方法は、先験的に得られる目的信号のみが存在する場合の観測信号の分布(同時分布)が直線になる事実に基づき、その直線成分から傾き情報を検出し、その傾き情報を用いて、雑音が混じった処理対象の信号である観測信号の分布に重み付けを行うことで、処理対象の信号から目的信号のみを抽出する。上述した実施形態では、直線の傾きを検出する方法として、最小二乗法を用いる手法とヒストグラムを用いる手法を例として挙げた。
なお、上述した信号処理方法においては、処理対象の信号である観測信号xmに掛かる関数f(ε)として、上記式(21)で表される非線形関数を用いたが、関数f(ε)としては、上記のとおりf(0)=1、f(∞)=0、0≦f(ε)≦1の条件を満たす関数であれば、適宜選択することができる。
したがって、上述したような観測信号の分布に対する重み付け(雑音の抑制量)に関しては、上記式(20)において観測信号xmに掛かる関数f(ε)をうまく選択することで、原信号を自然な信号として復元することができる。この重み付けに関する関数f(ε)については、式(21)に示す1/(1+αε2)のほか、同様の関数として、次式(22)で表される関数が挙げられる。
f(ε)=−0.5tanh(βε−γ)+0.5 ・・・(22)
上記式(22)において、β、γは、いずれも式(21)におけるαと同様に、雑音の抑制量を決めるパラメータであって、グラフの傾き等を調整するためのパラメータである。関数f(ε)として上記式(22)で示す非線形関数が用いられる場合、信号抽出ステップにおいて、上記式(20)で、f(ε)として上記式(21)の1/(1+αε2)の代わりに式(22)で示す−0.5tanh(βε−γ)+0.5が採用される。
式(22)で表す非線形関数は、誤差εとの関係で、図9に示すようなグラフを示す。図9に示すグラフにおいて、横軸は誤差εで、縦軸は式(22)で示すf(ε)の値である。図9に示すグラフから分かるように、非線形関数が式(22)で表される関数の場合も、図7に示す場合と同様に、誤差εの値が大きくなるほど、縦軸の値は0に近付き、その一方で、誤差がないとき(誤差ε=0のとき)は、縦軸の値は1となる。ただし、図9のグラフを示す非線形関数(式(22))の方が、図7のグラフを示す非線形関数(式(21))と比べて縦軸で示す雑音の抑制量の変化が急峻である。
さらに、観測信号の分布に対する重み付けに関する関数f(ε)としては、次式(23)が挙げられる。
上記式(23)で示す関数が用いられる場合、上記式(20)において、関数f(ε)として、誤差εが所定の値δ以下の場合は1、誤差εが所定の値δより大きい場合は0が、それぞれ観測信号xmに掛かる値として採用される。なお、値δは正の値である。
式(23)で表す関数は、誤差εとの関係で、図10に示すようなグラフを示す。図10に示すグラフにおいて、横軸は誤差εで、縦軸は式(23)で示すf(ε)の値である。図10に示すグラフから分かるように、非線形関数が式(23)で表される関数の場合、誤差εが所定の値δ以下の場合は縦軸の値は1であり、誤差εが所定の値δより大きい場合は縦軸の値は0となる。つまり、図10のグラフを示す関数(式(23))は、図9のグラフを示す非線形関数(式(22))と比べて縦軸で示す雑音の抑制量の変化がさらに急峻な矩形関数である。なお、上述したような目的信号の抽出を音声の復元に用いる場合、自然な音声を復元する観点からは、関数f(ε)としては式(21)に示す非線形関数か式(22)で表す非線形関数を採用することが好ましい。
また、本実施形態の信号処理方法は、次のように拡張することができる。上述した信号処理方法において、メインとなる音源、つまり第1信号源1および第2信号源2以外に、例えば暗騒音がある場合、観測信号の分布は直線状ではなく楕円状となる。このため、暗騒音等がある場合は、上述したような直線近似ではなく、楕円で近似した方がより正確な目的信号の抽出を行うことができるときがある。
楕円で近似するときには、主成分分析を行うことになる。すなわち、観測された音声の共分散行列を求め、それを固有値分解すると、楕円の長軸方向と短軸方向が見つかる。この楕円の長軸方向(第一主成分)を用いて、そのずれ(誤差)に対する非線形関数を掛けることで、雑音の抑制が可能になると考えられる。このように、本実施形態の信号処理方法においては、上述したような観測信号の同時分布において現れる直線を用いた近似のほか、楕円近似を行うこともできる。
以上説明した本実施形態の信号処理方法は、上記のとおり先験情報として目的信号分布直線A1の傾きφを利用した目的信号抽出法である。かかる技術は、例えば、抽出した信号を強調することで、目的信号の強調を行うための技術として用いることができる。また、上述した信号処理方法と同様の手法を用いて、先験情報として雑音s2(t)の観測信号の分布として現れる直線A2(図4(b)参照)の傾きを利用することで、目的信号s1を含む混合信号から雑音s2の方を抽出することもできる。このように混合信号から雑音を抽出することで、混合信号から雑音を除去したり雑音を抑制したりすることが可能となる。さらに、先験情報として、目的信号分布直線A1の傾きφおよび雑音s2(t)の観測信号の分布の直線A2の傾きの両方を用いることで、混合信号から目的信号と雑音の両者を抽出することができる。このように混合信号から目的信号と雑音の両者を抽出する技術は、混合信号に対する信号分離の技術として用いることができる。以上のように、本実施形態の信号処理方法は、目的信号の抽出を基軸として、目的信号の強調、雑音の除去・抑制、信号分離等、多様な用途を有する。
(信号処理装置)
次に、本実施形態に係る信号処理装置について説明する。本実施形態に係る信号処理装置は、上述した信号処理方法を行うための装置の一例である。
次に、本実施形態に係る信号処理装置について説明する。本実施形態に係る信号処理装置は、上述した信号処理方法を行うための装置の一例である。
図11に示すように、本実施形態に係る信号処理装置40は、第1マイクロホン31および第2マイクロホン32の2本のマイクロホンとともに、信号処理システム30を構成する。第1マイクロホン31および第2マイクロホン32は、それぞれ信号処理装置40に接続される。これにより、第1マイクロホン31および第2マイクロホン32により得られる信号は、信号処理装置40に入力される。
第1マイクロホン31および第2マイクロホン32は、上述した信号処理方法と同様に、目的信号s1を発する第1信号源21、および雑音s2を発する第2信号源22に対して所定の位置に配置され、両信号源21、22から発せられる信号を観測する。2本のマイクロホン31、32は、第1信号源21および第2信号源22から到達する信号(音響信号)が入力される第1入力部(31)、第2入力部(32)として機能する。各マイクロホン31、32は、入力された音響信号を電気的な信号に変換する。
図11に示すように、信号処理装置40は、演算制御部41と、入力部42と、出力部43とを備える。演算制御部41は、信号処理装置40の一連の動作を制御する。演算制御部41は、プログラム等を格納する格納部、プログラム等を展開する展開部、プログラム等に従って所定の演算を行う演算部、演算部による演算結果等を保管する保管部等を有する。
演算制御部41は、具体的には、CPU、ROM、RAM、HDD等がバスで接続された構成や、ワンチップのLSI等からなる構成を有するコンピュータである。演算制御部41としては、専用品のほか、市販のパーソナルコンピュータやワークステーション等に上記プログラム等が格納されたものが用いられる。
入力部42は、演算制御部41に接続され、演算制御部41に、信号処理に係る種々の情報・指示等を入力する。入力部42としては、例えば、キーボード、マウス、ポインティングデバイス、ボタン、スイッチ等が用いられる。
出力部43は、演算制御部41に接続され、信号処理の動作状況、入力部42から演算制御部41への入力内容、信号処理による処理結果等を出力する。出力部43には、例えば、液晶ディスプレイやCRT(陰極線管)等の表示出力を行うための構成や、スピーカ等の音出力を行うための構成が含まれる。
信号処理装置40は、演算制御部41において、2本のマイクロホン31、32からの入力を受ける。そして、信号処理装置40は、演算制御部41により、2本のマイクロホン31、32からの入力信号に基づいて、上述したような信号処理方法による目的信号の抽出を行う。したがって、演算制御部41において格納部に格納されるプログラム等には、2本のマイクロホン31、32からの入力信号に基づいて混合信号の中から目的信号の抽出を行うための信号処理プログラムが含まれる。
演算制御部41におけるプログラム等の格納部分としては、例えばRAM等の記憶デバイスのほか、CD(Compact Disk)、FD(Flexible Disk )、MO(Magneto−Optical Disk)、DVD(Digital Versatile Disk)、HD(Hard Disk)等の記憶デバイスが適宜用いられる。
図11に示すように、演算制御部41は、観測部51と、傾き検出部52と、信号抽出部53とを有する。
観測部51は、上述した信号処理方法における信号観測ステップで行われるような処理を実行する。すなわち、観測部51は、第1信号源21および第2信号源22の2つの信号源からの信号(目的信号s1、雑音s2)を、2つの入力部としての第1マイクロホン31および第2マイクロホン32の2本のマイクロホンによって観測する。
観測部51によれば、第1信号源21および第2信号源22から発せられる各原信号の混合信号について、各マイクロホン31、32による観測信号が得られる。したがって、観測部51によれば、図3(a)、(b)に示す第1観測信号x1(t)および第2観測信号x2(t)のような観測信号が得られる。これらの観測信号は、例えば出力部43において表示出力される。以下の説明では、第1マイクロホン31により観測された観測信号を第1観測信号x1(t)とし、第2マイクロホン32により観測された観測信号を第2観測信号x2(t)とする。
観測部51は、具体的には、例えば、2本のマイクロホン31、32から受信したアナログの音響信号をデジタルの音響信号に変換するA/D変換機能を有する。観測部51により得られた観測信号は、傾き検出部52に入力される。
傾き検出部52は、上述した信号処理方法における傾き検出ステップで行われるような処理を実行する。すなわち、傾き検出部52は、観測部51により観測された観測信号に基づき、第1信号源21および第2信号源22の2つの信号源のうち抽出対象である目的信号s1の信号源である第1信号源21からの観測信号について、第1マイクロホン31および第2マイクロホン32の2つのマイクロホンの各マイクロホン31、32の入力値を座標軸とする分布(同時分布)の直線(目的信号分布直線A1)の傾きを検出する。
傾き検出部52は、観測部51から入力された図3(a)、(b)に示すような第1観測信号x1(t)および第2観測信号x2(t)に基づき、図4(a)に示すような目的信号分布直線A1が現れる同時分布を生成し、この目的信号分布直線A1の傾きφを検出する。
したがって、傾き検出部52は、図4(a)に示すような目的信号分布直線A1が現れる同時分布を生成するため、観測部51から入力された第1観測信号x1(t)および第2観測信号x2(t)を、各信号の振幅値を座標軸とする座標平面にマッピングするマッピング機能を有する。図4(a)に示すような目的信号分布直線A1が現れる同時分布は、例えば出力部43において表示出力される。
また、傾き検出部52は、生成した同時分布に現れる目的信号分布直線A1について、その傾きφを算出する傾き演算機能を有する。具体的には、傾き検出部52は、上述したような最小二乗法を用いた手法(例えば上記式(9)、(10)を用いた手法)、あるいはヒストグラムを用いた手法(上記式(17)、(18)を用いた手法、図6参照)により、目的信号分布直線A1の傾きφを算出する。
また、本実施形態の信号処理装置40においては、傾き検出部52は、センタリング部54を有する(図11参照)。センタリング部54は、上述した信号処理方法におけるセンタリングステップで行われるような処理を実行する。すなわち、センタリング部54は、目的信号分布直線A1が2本のマイクロホン11、12による各観測信号の振幅値を示す座標軸により定められる座標の原点O1を通る直線となるように、目的信号s1(t)の観測信号の分布をセンタリングする。センタリング部54は、具体的には、上記式(8)により、目的信号分布直線A1についてのセンタリングの処理を行う。
このように傾き検出部52においてセンタリング部54を備える構成を採用することにより、目的信号分布直線A1の傾きφを検出するために最小二乗法が用いられる場合において、上記式(11)、(12)を経る手順を、式(9)、(10)を経る手順、あるいは式(9)、(13)〜(16)を経る手順のいずれかにすることができ、演算の簡略化による処理負担の軽減や処理速度の向上を図ることが可能となる。傾き検出部52により得られた目的信号分布直線A1の傾きφは、先験情報として信号抽出部53に入力される。
信号抽出部53は、上述した信号処理方法における信号抽出ステップで行われるような処理を実行する。すなわち、信号抽出部53は、傾き検出部52により検出された目的信号分布直線A1の傾きφを用いて、第1マイクロホン31および第2マイクロホン32のうち少なくともいずれか一方のマイクロホンによる観測信号を処理対象の信号とし、上記式(19)、(20)により推定した信号(推定信号yn)を、目的信号s1(t)として処理対象の信号から抽出する。
信号抽出部53は、傾き検出部52から入力された目的信号分布直線A1の傾きφに基づき、上記式(19)、(20)を用い、図8に示すような推定信号を算出する。本実施形態の信号処理装置40では、信号抽出部53は、例えば処理対象の信号を第1観測信号x1(t)とした場合、図8(a)に示すような推定信号y1を目的信号として抽出する。
以上のような本実施形態の信号処理装置40においては、上述した信号処理方法における各種適用例を適宜採用することができる。したがって、例えば、信号抽出部53による処理においては、式(20)における関数f(ε)として、式(21)に示す1/(1+αε2)の代わりに、式(22)に示す非線形関数が用いられたり、式(23)に示す関数が用いられたりしてもよい。また、上述したような観測信号の同時分布において現れる直線を用いた近似に代えて楕円近似が行われてもよい。そして、本実施形態の信号処理装置40は、目的信号の抽出を基軸として、目的信号の強調、雑音の除去・抑制、信号分離等、多様な用途を有する。
(処理手順)
本実施形態に係る信号処理装置40による信号処理の処理手順の一例について、図12に示すフロー図を用いて説明する。以下に説明する信号処理は、上述したように演算制御部41に格納される信号処理プログラムに基づいて実行されるものである。この信号処理プログラムは、第1信号源21および第2信号源22の2つの信号源からの信号を観測するための第1マイクロホン31および第2マイクロホン32の2つの入力部からの信号の入力を受けるコンピュータとしての演算制御部41に、以下に説明する各手順を実行させるためのプログラムである。
本実施形態に係る信号処理装置40による信号処理の処理手順の一例について、図12に示すフロー図を用いて説明する。以下に説明する信号処理は、上述したように演算制御部41に格納される信号処理プログラムに基づいて実行されるものである。この信号処理プログラムは、第1信号源21および第2信号源22の2つの信号源からの信号を観測するための第1マイクロホン31および第2マイクロホン32の2つの入力部からの信号の入力を受けるコンピュータとしての演算制御部41に、以下に説明する各手順を実行させるためのプログラムである。
図12に示すように、本実施形態の信号処理では、まず、信号の観測が行われる(S10)。このステップでは、信号処理装置40の観測部51により、第1信号源21および第2信号源22から発せられる各原信号の混合信号について、第1マイクロホン31および第2マイクロホン32からの入力信号に基づき、図3(a)、(b)に示すような第1観測信号x1(t)および第2観測信号x2(t)のような観測信号が得られる。このステップS10が、第1信号源21および第2信号源22の2つの信号源からの信号(目的信号s1、雑音s2)を、2本のマイクロホン31、32によって観測する手順に相当する。
次に、観測信号の分布(同時分布)の作成が行われる(S20)。このステップでは、信号処理装置40の傾き検出部52により、観測部51から入力された第1観測信号x1(t)および第2観測信号x2(t)を、各信号の振幅値を座標軸とする座標平面にマッピングすることで、図4(a)に示すような目的信号分布直線A1が現れる同時分布が生成される。
次に、センタリングが行われる(S30)。このステップでは、傾き検出部52が有するセンタリング部54により、式(8)が用いられ、目的信号分布直線A1が2本のマイクロホン31、32による各観測信号の振幅値を示す座標軸により定められる座標の原点O1を通る直線となるように、目的信号分布直線A1がセンタリングされる。
次に、傾きφの算出が行われる(S40)。このステップでは、傾き検出部52により、最小二乗法を用いた手法、あるいはヒストグラムを用いた手法によって、目的信号分布直線A1の傾きφが算出される。この例の処理手順では、上記のとおりセンタリングが行われることから、傾きφの算出に最小二乗法が用いられる場合、上記式(10)または式(16)により、傾きφが算出される。一方、傾きφの算出にヒストグラムが用いられる場合、上記式(17)に基づいて図6に示すようなヒストグラムが作成され、このヒストグラムから傾きφが算出される。
この例の処理手順では、ステップS20〜S40が、ステップS10によって観測された観測信号に基づき、第1信号源21および第2信号源22の2つの信号源のうち抽出対象である目的信号s1の信号源である第1信号源21からの観測信号について、各マイクロホン31、32の入力値を座標軸とする分布(同時分布)の目的信号分布直線A1の傾きを検出する手順に相当する。
そして、目的信号の抽出が行われる(S50)。このステップでは、信号抽出部53により、傾き検出部52から入力された目的信号分布直線A1の傾きφに基づき、上記式(19)、(20)が用いられ、図8(a)に示すような推定信号y1が目的信号として抽出される。このステップS50が、ステップS20〜S40により検出された目的信号分布直線A1の傾きφを用いて、第1マイクロホン31および第2マイクロホン32のうち少なくともいずれか一方のマイクロホンによる観測信号を処理対象の信号とし、上記式(19)、(20)により推定した信号(推定信号yn)を、目的信号s1(t)として処理対象の信号から抽出する手順に相当する。
以上のような処理手順により、信号処理装置40による信号処理が行われ、処理対象の信号である混合信号からの目的信号の抽出が行われる。なお、目的信号を抽出する手順においては、関数f(ε)として、式(21)に示す1/(1+αε2)の代わりに、式(22)に示す関数が用いられたり、式(23)に示す関数が用いられたりしてもよい。
そして、上記のような各手順を演算制御部41に実行させるための信号処理プログラムについては、FD(フレキシブルディスク)やCD−ROMやDVD等のコンピュータ読み取り可能な記録媒体に記録して提供することができる。
[第2実施形態]
本発明の第2実施形態について説明する。なお、本実施形態の説明において、第1実施形態と共通する部分については説明を省略する。また、第1実施形態と共通する部分については適宜同一の符号を用いる。
本発明の第2実施形態について説明する。なお、本実施形態の説明において、第1実施形態と共通する部分については説明を省略する。また、第1実施形態と共通する部分については適宜同一の符号を用いる。
上述した第1実施形態の信号処理では、混合信号である観測信号xm(t)の混合モデルとして、上記式(7)により定式化される瞬時混合モデルが採用されている。瞬時混合モデルにおいては、信号の時間遅れ(残響)や反射の影響は無視される。これに対し、本実施形態の信号処理では、観測信号xm(t)の混合モデルとして、信号の時間遅れや反射の影響を加味した畳込み混合モデルが採用される。
第1信号源1および第2信号源2から第1マイクロホン11および第2マイクロホン12までの信号の伝達については、信号源とマイクロホンとの間の距離による信号の時間遅れや、信号源とマイクロホンとの間における壁等に対する信号の反射が起こり得る。こうした信号の時間遅れや反射がある場合、信号の伝わり方は、畳込みと呼ばれる伝わり方になる。この畳込みは、次式(24)のように定義される。
上記式(24)において、τは、信号の遅れ時間である。
したがって、畳込み混合モデルは、次式(25)により定式化される。
畳込みは、フーリエ変換することで積になることが分かっている。そこで、2本のマイクロホン11、12による第1信号源1および第2信号源2の観測信号について、短時間フーリエ変換することにより、周波数ごとのスペクトルの変化(スペクトログラム)を観察する。すなわち、観測信号について、例えば、1Hzのスペクトルの時間変化、2Hzのスペクトルの時間変化が観察できるように、観測信号を変換する。このように畳込み混合モデルに基づいて信号処理を行った場合における具体的な波形の例を以下に示す。
図13に、本実施形態の信号処理方法で得られる観測信号xmの波形の一例を示す。図13(a)は、第1マイクロホン11により観測された第1観測信号x1(t)であり、同図(b)は、第2マイクロホン12により観測された第2観測信号x2(t)である。なお、図13の各図に示す信号の波形において、横軸は時間t(秒)を示し、縦軸は信号の振幅を示す。
図14(a)、(b)に、図13(a)、(b)に例示する各観測信号についてのスペクトログラムを計算することにより得られる1kHzのスペクトルの変化を示す。同様に、図15(a)、(b)に、図13(a)、(b)に例示する各観測信号についてのスペクトログラムを計算することにより得られる4kHzのスペクトルの変化を示す。図14および図15の各図に示す波形において、横軸はフレーム番号を示し、縦軸はスペクトルの振幅を示す。
このように周波数ごとに得られたスペクトルの変化に対して、上述したような信号処理を行う。すなわち、上述した第1実施形態の信号処理において、図3(a)、(b)に示すような観測信号の代わりに、図14および図15に示すような周波数ごとのスペクトルの変化を処理対象として、同時分布の作成、同時分布における直線の傾きの算出、傾きに基づく信号の抽出等が行われる。
本実施形態の信号処理の処理手順の一例について、第1実施形態の場合にならって、図16を用いて説明する。図16に示すように、本実施形態の信号処理では、まず、信号の観測が行われる(S110)。このステップでは、図13(a)、(b)に示す第1観測信号x1(t)および第2観測信号x2(t)のような観測信号が得られる。
次に、ステップS110にて得られた観測信号について、短時間フーリエ変換等により、周波数ごとのスペクトルの変化が算出される(S120)。このステップでは、図14、図15に示すような周波数ごとのスペクトルの変化(スペクトログラム)が得られる。
次に、ステップS120にて得られた周波数ごとのスペクトルの変化のそれぞれについて、同時分布が作成される(S130)。このステップでは、周波数ごとのスペクトルの変化に基づいて、フーリエ変換前の第1観測信号x1(t)および第2観測信号x2(t)の各信号の振幅値を座標軸とする座標平面に対するマッピングが行われ、直線状の分布が現れる同時分布が生成される。
次に、ステップS130にて得られた直線状の分布について、センタリングが行われ(S140)、直線状の分布の傾きの算出が行われる(S150)。
続いて、ステップS150にて得られた直線状の分布の傾きを先験情報として、最終的な抽出対象となる目的信号の基になる周波数ごとの目的信号が抽出される(S160)。つまり、このステップでは、上記式(19)、(20)を用いた手法により、いわば周波数ごとの目的信号の抽出が行われる。
そして、ステップS160にて得られた周波数ごとの抽出信号が、逆変換によって時間信号に変換されることで、目的信号が生成される(S170)。つまり、このステップでは、周波数ごとの抽出信号の波形が逆変換されることにより、図13に示すような観測信号からの、最終的な抽出信号としての目的信号が得られる。
以上のような本実施形態の信号処理の処理手順は、図12に示す第1実施形態の信号処理の処理手順との比較において、観測信号に対する処理の前段での短時間フーリエ変換等による周波数分解の処理と、処理の最終段での逆変換の処理とが加わった処理手順であるといえる。なお、これらの両処理の間に行われる各処理の具体的な内容については、第1実施形態と同様の手法が用いられて行われるため説明を省略する。
本実施形態の信号処理の手法は、第1実施形態と同様にして、信号処理方法、信号処理装置、信号処理プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体について適用される。なお、本実施形態の信号処理を行うための信号処理装置においては、第1実施形態の信号処理装置が備える構成(図11参照)に加え、演算制御部41において、周波数ごとのスペクトルの変化を算出するための演算を行う機能、および周波数ごとの抽出信号を時間信号に逆変換するための演算を行う機能の各機能ないしは各機能部が備えられることになる。
本実施形態の信号処理の手法によれば、目的信号の抽出において信号の時間遅れや反射の影響等を加味することができ、本発明に係る信号処理技術を現実の環境へ適用することが容易となる。
以上のように、第1実施形態および第2実施形態を用いて説明した本発明に係る信号処理技術によれば、従来技術との関係において、以下のような有利な効果が得られる。
まず、従来技術の場合、観測される信号は2つの音源(信号源)の混合信号でなければならず、音源数(信号源数)が増加した場合、観測信号数(マイクロホンの数)を増やしたりアルゴリズムを変更したりする必要がある。この点、本発明に係る信号処理技術は、目的信号について観測信号の同時分布の直線の傾きといった先験情報に基づいて目的信号を抽出することから、観測信号に含まれる音源数を問題としない。したがって、本発明に係る信号処理技術によれば、観測信号が3つ以上のときにも機能するため、音源数が増えても観測信号数(マイクロホンの数)を増やしたりアルゴリズムを変更したりする必要がない。
また、従来技術では、2つの観測信号の同時分布の方位に対するヒストグラムを作成する必要があるが、本発明に係る信号処理技術によれば、観測信号の同時分布に現れる直線の傾きを求めるだけなので、ヒストグラムを作成する必要がなく、最小二乗法により信号処理を行うことができる。すなわち、本発明に係る信号処理技術においてヒストグラムを作成することは、同時分布の直線の傾きを求めるための処理の一つとして最小二乗法による処理の代わりに利用することもできるという観点のもとで実行される。
また、従来技術は、上記のとおりヒストグラムの作成を必要とする処理であることから、ヒストグラムにピークが現れるための条件として、音源は全て話者音声のようなスーパーガウシアンとなる信号であることが要求される。そして、音源がスーパーガウシアンとなる信号でない場合には、必要な処理が増えてしまう。この点、本発明に係る信号処理技術によれば、音源が話者音声のようなスーパーガウシアンとなる信号の場合だけでなく、音源が一般的に雑音と呼ばれる定常的な騒音等であっても、時間領域のままで雑音除去を行うことが可能である。つまり、音源が話者音声でなくてもよい。ここで、音源から発せられる音(信号)について「定常的」とは、時間変化に対して平均値や分散が変化しないことをいう。定常的な信号としては、例えば一様乱数やファンの音等のような信号が挙げられる。これらの信号はスーパーガウシアンに対してサブガウシアンと呼ばれる。
また、本発明に係る信号処理技術は、観測信号数(マイクロホンの数)より音源数(信号源数)が少ない場合の分離性能の点で従来技術と異なる。従来技術においては、観測信号に含まれる音源数は2つでなければアルゴリズムが機能せず、観測信号に1つの音声しか存在しないときは、計算することができず、処理が止まってしまう可能性がある。この点、本発明に係る信号処理技術によれば、音源数が1つのときにも計算が可能である。すなわち、本発明に係る信号処理技術によれば、信号源として目的信号だけが存在するときには、目的信号をそのまま出力することができ、信号源として雑音のみが存在するときには、抽出対象の信号の出力は0になり、雑音を抑制・除去することができる。つまり、本発明に係る信号処理技術は、一または複数の信号源からの信号を処理対象とする。
また、従来技術は、2チャンネルの信号の分離までを扱っていることから、従来技術によれば、目的信号が観測信号に含まれない状況での選択方法は非常に困難であると考えられる。この点、本発明に係る信号処理技術によれば、目的信号を選択し出力することができる。すなわち、本発明に係る信号処理技術では、目的信号ではない信号を抑制しているため、観測信号のみを用いて目的信号を出力することができる。さらに、観測信号に目的信号が存在しない場合、振幅が0の信号を出力することができる。
さらに、本発明に係る信号処理技術によれば、従来技術との関係で、信号処理に用いるデータ数(データ長)を大幅に低減することができる。すなわち、従来技術では、上述のとおり同時分布の方位に対するヒストグラムを作成する必要があり、ヒストグラムを作成するためには、相当数のデータポイントが必要となる。これに対し、本発明に係る信号処理技術は、目的信号についての先験情報を得るときに観測信号の分布の傾きを求めるだけなので、式(19)、(20)による、目的信号を抽出するための信号処理では、1ポイントのデータが入力されれば、その都度、信号を処理し出力することができる。このことは、信号処理のリアルタイム化の面で非常に有利であることを意味している。
以上を踏まえ、総括的には、本実施形態の信号処理技術によれば、従来技術との関係において、例えば音源分離や雑音除去の用途を考えたとき、信号源数の数や種類に依存せずに機能し、簡単な処理によって目的信号を出力することができるという優位な効果が得られる。その他、本実施形態の信号処理技術によれば、位相を用いたときの空間的エイリアシングを考慮する必要がない、任意の関数によって雑音の抑制が可能である、雑音が非定常であっても有効に機能するといった効果が得られる。
なお、本発明に係る信号処理技術において処理の対象となる信号としては、上述した実施形態のような音響信号に限定されることなく、所定の波形信号として観測可能な信号であればよい。
1 第1信号源
2 第2信号源
11 第1マイクロホン
12 第2マイクロホン
21 第1信号源
22 第2信号源
30 信号処理システム
31 第1マイクロホン
32 第2マイクロホン
40 信号処理装置
41 演算制御部
51 観測部
52 傾き検出部
53 信号抽出部
54 センタリング部
2 第2信号源
11 第1マイクロホン
12 第2マイクロホン
21 第1信号源
22 第2信号源
30 信号処理システム
31 第1マイクロホン
32 第2マイクロホン
40 信号処理装置
41 演算制御部
51 観測部
52 傾き検出部
53 信号抽出部
54 センタリング部
Claims (8)
- 一または複数の信号源からの信号を、2つの入力部によって観測するステップと、
前記観測するステップにより観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出するステップと、
前記傾きを検出するステップにより検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(1)、(2)により推定した信号を、前記目的信号として前記処理対象の信号から抽出するステップと、
を含む信号処理方法。
- 前記傾きを検出するステップは、最小二乗法によって前記傾きを求める、
請求項1に記載の信号処理方法。 - 前記傾きを検出するステップは、前記直線が前記座標軸により定められる座標の原点を通る直線となるように、前記分布をセンタリングするステップを含む、
請求項1または請求項2に記載の信号処理方法。 - 一または複数の信号源からの信号を、2つの入力部によって観測する観測部と、
前記観測部により観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する傾き検出部と、
前記傾き検出部により検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(3)、(4)により推定した信号を、前記目的信号として前記処理対象の信号から抽出する信号抽出部と、
を備える信号処理装置。
- 前記傾き検出部は、最小二乗法によって前記傾きを求める、
請求項4に記載の信号処理装置。 - 前記傾き検出部は、前記直線が前記座標軸により定められる座標の原点を通る直線となるように、前記分布をセンタリングするセンタリング部を有する、
請求項4または請求項5に記載の信号処理装置。 - 一または複数の信号源からの信号を観測するための2つの入力部からの信号の入力を受けるコンピュータに、
前記一または複数の信号源からの信号を、2つの入力部によって観測する手順と、
前記観測する手順により観測された観測信号に基づき、前記一または複数の信号源のうち抽出対象である目的信号の信号源からの観測信号について、前記2つの入力部の各入力部の入力値を座標軸とする分布の直線の傾きを検出する手順と、
前記傾きを検出する手順により検出した前記傾きを用いて、前記2つの入力部のうち少なくともいずれか一方の入力部による観測信号を処理対象の信号とし、次式(5)、(6)により推定した信号を、前記目的信号として前記処理対象の信号から抽出する手順と、
を実行させるための信号処理プログラム。
- 請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012225734A JP6057368B2 (ja) | 2012-10-11 | 2012-10-11 | 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012225734A JP6057368B2 (ja) | 2012-10-11 | 2012-10-11 | 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014077899A JP2014077899A (ja) | 2014-05-01 |
JP6057368B2 true JP6057368B2 (ja) | 2017-01-11 |
Family
ID=50783243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012225734A Expired - Fee Related JP6057368B2 (ja) | 2012-10-11 | 2012-10-11 | 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6057368B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003032779A (ja) * | 2001-07-17 | 2003-01-31 | Sony Corp | 音処理装置、音処理方法及び音処理プログラム |
DE602004027774D1 (de) * | 2003-09-02 | 2010-07-29 | Nippon Telegraph & Telephone | Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm |
-
2012
- 2012-10-11 JP JP2012225734A patent/JP6057368B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014077899A (ja) | 2014-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10741195B2 (en) | Sound signal enhancement device | |
JP6584930B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
EP2254113A1 (en) | Noise suppression apparatus and program | |
US7957964B2 (en) | Apparatus and methods for noise suppression in sound signals | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
CN108200526B (zh) | 一种基于可信度曲线的音响调试方法及装置 | |
JP6724905B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
RU2020113933A (ru) | Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией | |
JP4454591B2 (ja) | 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置 | |
US9418677B2 (en) | Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program | |
JP2007047427A (ja) | 音声処理装置 | |
JP5915281B2 (ja) | 音響処理装置 | |
Kamo et al. | Target speech extraction with conditional diffusion model | |
US10297272B2 (en) | Signal processor | |
JP2005258158A (ja) | ノイズ除去装置 | |
JP6057368B2 (ja) | 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4533126B2 (ja) | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 | |
JP4662912B2 (ja) | 反響のある環境での音源定位に適当な測定ウィンドウの決定 | |
JP6519801B2 (ja) | 信号解析装置、方法、及びプログラム | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
JP2013120358A (ja) | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム | |
JP2011139409A (ja) | 音響信号処理装置、音響信号処理方法、及びコンピュータプログラム | |
JP6790659B2 (ja) | 音響処理装置および音響処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6057368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |