JP6622159B2 - 信号処理システム、信号処理方法およびプログラム - Google Patents

信号処理システム、信号処理方法およびプログラム Download PDF

Info

Publication number
JP6622159B2
JP6622159B2 JP2016169999A JP2016169999A JP6622159B2 JP 6622159 B2 JP6622159 B2 JP 6622159B2 JP 2016169999 A JP2016169999 A JP 2016169999A JP 2016169999 A JP2016169999 A JP 2016169999A JP 6622159 B2 JP6622159 B2 JP 6622159B2
Authority
JP
Japan
Prior art keywords
signal
unit
negative
basis
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016169999A
Other languages
English (en)
Other versions
JP2018036526A (ja
Inventor
谷口 徹
徹 谷口
増田 太郎
太郎 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016169999A priority Critical patent/JP6622159B2/ja
Priority to US15/433,336 priority patent/US10373628B2/en
Publication of JP2018036526A publication Critical patent/JP2018036526A/ja
Application granted granted Critical
Publication of JP6622159B2 publication Critical patent/JP6622159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、信号処理システム、信号処理方法およびプログラムに関する。
マイクと音源が離れた状況で、複数の音源がある場合に個々の音源について高品質な集音を実現することを考える。マイクでは、空間中で混合した複数の音源から到来した信号が観測される。このため、音源毎に信号を分離すること、および、目的とする音源が1つの場合は、他の音源(雑音源)から到来する信号を抑圧して集音することが望まれる。このような目的に対して、マイクアレイ、すなわち複数マイクにより得られる多チャネル音響信号を用いて、ターゲット音声を強調する信号処理技術が提案されている。
特許第4724054号公報
M. Togami, Y. Kawaguchi, H. Kokubo and Y. Obuchi:"Acoustic echo suppressor with multichannel semi-blind non-negative matrix factorization", Proc. of APSIPA, pp. 522−525 (2010).
しかしながら、従来技術では、空間の音響特性の変動、および、想定したマイク配置や感度との誤差の変動などに起因して、音源推定の精度が低下する場合があった。
実施形態の信号処理システムは、フィルタ部と変換部と分解部と推定部とを備える。フィルタ部は、複数の時系列の入力信号に対して異なる空間特性を有する、入力信号の独立成分分析によって推定されたN個のフィルタを適用し、N個の出力信号を出力する。変換部は、出力信号を、非負の値である非負信号に変換する。分解部は、信号源の個数に応じたK個の第1要素、N個の第2要素、および、周波数の個数であるI個の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に非負信号を分解する。推定部は、空間基底と、スペクトル基底行列と、活性度ベクトルと、を用いて、出力信号から信号源の信号を表す音源信号を推定する。
第1の実施形態にかかる信号処理システムのブロック図。 第1の実施形態における信号処理のフローチャート。 NMFによる分解モデルを示す図。 第2の実施形態にかかる信号処理システムのブロック図。 NTFによる分解モデルを示す図。 第3の実施形態にかかる信号処理システムのブロック図。 第3の実施形態における信号処理のフローチャート。 第1〜第3の実施形態にかかる信号処理システムのハードウェア構成図。
以下に添付図面を参照して、この発明にかかる信号処理システムの好適な実施形態を詳細に説明する。
(第1の実施形態)
複数の線形空間フィルタの出力から、特定方向(領域)の音源信号を推定する技術が提案されている。このような技術は、例えば、線形空間フィルタの複数の出力信号のパワースペクトル密度を、各方向(領域)の音源信号のパワースペクトル密度と事前に準備したゲイン行列の積としてモデル化し、そのゲイン行列の(擬似)逆行列を線形空間フィルタの出力ベクトルに掛けることで、特定方向の音源信号を推定している。その際、ゲイン行列は、マイクの空間的配置と線形空間フィルタのパラメータから事前に計算される。上述のように、空間の音響特性の変動等に起因して、事前に想定した環境と、観測信号の実際の環境との間に齟齬が生じ、推定結果の品質が低下する場合がある。
第1の実施形態にかかる信号処理システムは、上記のような事前の様々な仮定をおかず、観測信号そのものからゲイン行列に相当する情報と、観測信号のパラメータを同時に推定する。これにより、従来より高品質な音源推定が可能となる。本実施形態では、多チャネル信号処理の出力や観測信号から得られる空間情報を生かしつつ、入力に応じて処理のモデルパラメータを適応的に推定する。まず、ブラインド音源分離などにより極力音源毎に分離されるよう、多チャネル信号処理の複数の出力信号を得る。そして、多チャネルの複数の出力信号の振幅またはパワースペクトルを、2階、または3階のテンソル(行列)と見たときの非負値テンソル(行列)因子分解(NTF(NMF):Nonnegative Tensor(Matrix) Factorization)の問題として、音源分離の問題を定式化する。そして、その因子分解の結果を用いて雑音抑圧フィルタを構成する。
以下の実施形態では、音源を信号源とし、音源から発せられた音響信号(音源信号)を信号源信号とする例を説明する。信号源および信号源信号は、音源および音源信号に限られるものではない。音響信号と同様の空間伝搬モデルを持つ他の信号(例えば脳波信号、電波信号)を適用してもよい。
図1は、第1の実施形態にかかる信号処理システム100の構成の一例を示すブロック図である。図1に示すように、信号処理システム100は、マイクアレイ101と、フィルタ部102と、変換部103と、分解部110と、推定部104と、を備えている。
マイクアレイ101は、複数のマイク(センサ)を備える。各マイクは、音源からの音源信号を検出する(検出部)。マイクアレイ101は、空間の複数点で音響信号を観測することができる。各点で観測される音響信号は、同時刻であっても、音源位置や空間の音響特性に依存して異なる。これら音響信号の差異を適切に用いることで、空間フィルタを実現できる。マイクアレイ101により取得された信号を観測信号という場合がある。
フィルタ部102は、マイクアレイ101を用いて観測した2以上の観測信号について、相互に異なる空間特性を有するN個(Nは2以上の整数)の線形空間フィルタを適用し、N個の出力信号(空間フィルタ出力信号)を出力する。N個の線形空間フィルタを空間フィルタバンクともいう。フィルタ部102に入力される観測信号が、複数の時系列の入力信号に相当する。後述するように、線形空間フィルタの組み合わせを適切に取ることにより、最終的な音源推定の精度を高めることができる。
変換部103は、フィルタ部102から出力された出力信号を、非負の値である非負信号に変換する。例えば変換部103は、フィルタ部102から出力された出力信号の周波数分析を行うことで周波数ドメインの信号に変換する。さらに変換部103は、周波数ドメインの信号の値を、時刻毎に絶対値や絶対値の2乗を取ることにより非負の値に変換する。変換部103は、このようにして得られるN個の非負信号を出力する。
周波数分析は、フーリエ分析、フィルタバンク分析、および、ウェーブレット分析などの従来から知られているあらゆる方式を適用できる。フィルタ部102にて、線形空間フィルタが周波数ドメインで適用されている場合は、周波数ドメインの信号をフィルタ部102から変換部103に直接入力すれば、変換部103で周波数分析をする必要はない。また、観測信号が周波数ドメインの瞬時混合プロセスに基づき混合され、マイクで観測されている場合は、変換部103は、観測信号を周波数ドメインの信号に変換する必要はない。
分解部110は、NMFの方式に基づいて、非負信号を、空間基底行列と活性度ベクトル(活性度ベクトル1)に分解する。空間基底行列は、音源の個数に応じたK個(Kは2以上の整数)の要素(第1要素)、および、N個の要素(第2要素)の2次元の非負の要素を含む行列である。活性度ベクトルは、K次元の非負のベクトルである。
分解部110は、空間基底更新部111と、活性度更新部112と、を備えている。空間基底更新部111は、非負信号と活性度ベクトルを参照して、空間基底行列を更新する。活性度更新部112は、非負信号と空間基底行列を参照して、活性度ベクトルを更新する。分解部110は、これらの更新処理を繰り返し行うことで、分解の精度を向上させることができる。
推定部104は、空間基底行列と活性度ベクトルとを用いて、フィルタ部102から出力される出力信号から音源信号を推定し、推定した信号(推定音源信号)を出力する。
なお、上記各部(フィルタ部102、変換部103、分解部110、および、推定部104)は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
次に、このように構成された第1の実施形態にかかる信号処理システム100による信号処理について図2を用いて説明する。図2は、第1の実施形態における信号処理の一例を示すフローチャートである。
フィルタ部102は、マイクアレイ101で観測された観測信号(入力信号)に対して、N個の線形空間フィルタを適用し、N個の出力信号を出力する(ステップS101)。変換部103は、出力信号を非負信号に変換する(ステップS102)。分解部110は、非負信号を、空間基底行列と活性度ベクトルに分解する(ステップS103)。推定部104は、空間基底行列と活性度ベクトルとを用いて、出力信号から音源信号を推定し、推定した推定音源信号を出力する(ステップS104)。
(空間フィルタバンクによるパワースペクトルドメインの観測・分解モデル)
次に、本実施形態の詳細についてさらに説明する。ます、空間フィルタバンクを用いた信号の観測モデルおよび分解モデルについて説明する。空間フィルタバンクは、複数のマイクによる観測信号を入力とし、複数の線形空間フィルタからそれぞれ出力信号を出力する。ここでは、この空間フィルタバンクの系を通して混合信号を観測する際の観測モデルを考える。
ある空間において、M個のマイクを用いて、マイクから見て方向θの音源k(1≦k≦K)から到来する音響信号を観測する。この系を線形時不変システムと考える。音源とマイクの間のインパルス応答が、短時間フーリエ変換(STFT:Short-Time Fourier Transform)を実行したときの窓長より十分に短い場合、観測信号を短時間フーリエ変換する。周波数i(1≦i≦I、Iは2以上の整数)、時刻j(1≦j≦J)では、音源信号sijkと観測信号xijkの関係は、(1)式で表すことができる。
Figure 0006622159
(θ)は、方向θのステアリングベクトルとする。音源信号sijkは複素数で表され、観測信号xijkおよびa(θ)は、M次元の複素数で表される。ステアリングベクトルは、音源とマイクアレイ101との間で一意に決まる。
ここでは説明を単純にするため、マイクアレイ101から見た音源の方向θでのみステアリングベクトルが決まるとする。実際は、同じマイクアレイ101を用いたとしても、マイクアレイ101から音源までの距離、および、室内でのマイクアレイ101の位置など様々な空間的要因でステアリングベクトルは変化する。
さらに、K個の音源が存在する場合の観測信号xijは、以下の(2)式のように単純に各音源の観測信号の和で表すことができる。ただし、xijはM次元の複素数で表される。
Figure 0006622159
観測信号xijは、行列形式で、以下の(3)式のように表すこともできる。
Figure 0006622159
は、M×K次元の複素数で表される混合行列であり、以下の(4)式のように定義される。sijは、K次元の複素数で表される音源ベクトルであり、以下の(5)式のように定義される。(5)式の右辺の「t」は、行列の転置を表す。
Figure 0006622159
Figure 0006622159
この観測信号に対し、N個の空間フィルタを適用してN個の出力信号を得ることを考える。出力信号をN次元のベクトルyijで表すと、N個の空間フィルタを表す分離行列Wを用いて、以下の(6)式のように出力信号yijを表すことができる。分離行列Wは、N×M次元の複素数で表される。分離行列Wによって表される空間フィルタ群を空間フィルタバンクWという場合がある。
Figure 0006622159
観測信号xij=AijがN個の異なる空間特性を持つ空間フィルタ群W(空間フィルタバンク)でフィルタされ、N個の出力信号に分析されると考える。
ここで、G=Wで定義され、K×N次元の複素数で表される行列Gを考えると、さらに、以下の(7)式のように表すことができる。出力信号yijが、フィルタ部102が出力するN個の出力信号に相当する。
Figure 0006622159
仮に各方向のステアリングベクトルa(θ)を事前に正確に知ることができれば、Gは既知となるので、yijからsijを得ることができる。実際には、事前に想定される方向θを知ることはできない。また、仮に既知だったとしてもステアリングベクトルa(θ)の理論値と現実の値は乖離が見られる。すなわち、ステアリングベクトルa(θ)を正確に推定することは困難である。
ここで問題をパワードメインで考えることとする。yijのn番目(1≦n≦N)の要素yijn={yijに着目すると、Gのk行n列の要素{Gknを使って、以下の(8)式のように表すことができる。
Figure 0006622159
音源間が無相関であると仮定すると、各項の絶対値の2乗を取って、以下の(9)式のように近似することができる。
Figure 0006622159
したがって、行列Bについて、各要素について絶対値の2乗を取ったものを|B|と表すとすると、(7)式は、以下の(10)式のようにパワードメインで近似できる。変換部103は、例えば(10)式の左辺などを適用して出力信号を非負信号に変換する。
Figure 0006622159
(7)式と同様に、|Gが既知であれば、音源のパワースペクトル密度(PSD:Power Spectral Density)ベクトル|sijを推定することが可能である。
局所PSD推定法、または、特許文献1の方法では、方向θの代わりに、方向θを中心とした角度幅を持つ局所空間R(θ)=[θ−δ,θ+δ]を定義し、その局所空間毎の平均パワースペクトル密度を考える。この平均パワースペクトル密度を、以下の(11)式で表されるGで代替する。
Figure 0006622159
E[・]は、期待値演算を表す。w niは、分離行列Wのn行目のベクトルである。記号hは行列のエルミート転置を表す。これにより、位置の特定が困難な特定の1点でなく、ある範囲を持った局所空間の音源のPSD推定に(10)式を用いることができる。幅を持った局所空間であれば、アプリケーションに応じて事前に目的音源の位置を想定することも現実的な仮定である。
|{G}knを事前に計算するためには、(11)式で示したように、ステアリングベクトルa(θ)の把握が必要となる。しかし、上述のように、部屋や場所などに応じて変わる空間の音響特性や、想定したマイク配置およびマイク感度との誤差により、ステアリングベクトルが変動する。この結果、音源推定の品質が低くなる場合がある。
そこで、本実施形態では、(10)式のモデルで音源PSD(パワー)の推定問題を、NMFの問題と捉えることにより、|{G}knの精度に依存せず、高精度に音源を推定する。以降では、簡単のため、特に言及しない限りは、行列の各要素の絶対値の2乗の演算子|・|を省略する。
(多チャネルポストフィルタの導出)
空間フィルタバンクを用いて、観測信号をパワースペクトルドメインで(10)式のような分解モデルによって表せることを示した。以下では、この問題がNMFの問題として解けることを説明する。
まず、各周波数での非負値行列因子分解(NMF)の問題として(10)式の問題を説明する。以下の(12)式は、(10)式を、演算子|・|を省略して書いた式である。
Figure 0006622159
局所PSD推定法では、Gは事前に与えられている。マイク配置の情報などから方向毎に(11)式のa(θ)を計算し、また、何らかの規準でw niを事前に設定しておく。その上で、Gの(擬似)逆行列を用いてyijからsijを計算する。その際、sijの要素が負になることもあるので、その項は0にするなどして補正する。
(12)式の両辺の各行列の各要素は全て非負であるため、典型的なNMFの問題と考えることができる。NMFは、全て非負の値を持つ左辺を、同じく、全て非負の値を持つ右辺の2つの行列に分解する問題である。ベクトルyij、sijをj列として持つ行列をそれぞれ、Y、Sとすると、以下の(13)式のように表すことができ、NMFの問題と考えることができる。YはN×J次元の非負の実数で表される。SはK×J次元の非負の実数で表される。
Figure 0006622159
したがって、Gも未知でもよく、Gとsijは同時に推定することが可能となる。以上のように、マイク配置が未知であっても本実施形態の方法は適用できる。
このとき、Gのk列は、音源kからの信号のみを空間フィルタバンクに通した際の出力パタン、すなわち空間フィルタ出力間のパワー比に相当する。(12)式から明らかなように、パワー比は、音源kのパワー(音源信号sijk)に関わらず一定である。さらに、適切に空間フィルタバンクが設定されていれば、音源k毎に大きく異なるパワー比のパタンとなる。左辺の行列Yは、j列に関して一貫して出現するK個の異なるパタンを行列Gの各列に抽出する働きがある。このため、NMFを(13)式に適用すると、上記のような空間フィルタバンク出力間の音源毎パワー比のパタンが、音源毎に出力されるはずである。
ここでは、Gの各列に現れるPSDのパタンを、NMFを1チャネル信号のスペクトログラムの分解に適用した際のスペクトル基底ベクトルに倣い、空間基底ベクトルと呼ぶこととする。併せてこれらを並べたGは空間基底行列と呼ぶ。sijの各要素は各音源のパワーに対応するが、Gとの間に値の任意性が生じる。そこで、ここではNMFの慣習的な用語に習って、sijを活性度ベクトルと呼ぶ。
図3は、NMFによる分解モデルを示す図である。分解部110は、左側に示す空間フィルタ出力ベクトルを、右側に示す空間基底行列と活性度ベクトル1とに分解する。空間フィルタ出力ベクトルは、例えばN次元のベクトルyijで表される出力信号に相当する。
なお、音源毎にパワー比が一定であることを利用した音源分離は、複数のマイクが分散配置された際の音源分離および音声強調問題として例えば非特許文献1などによって、NMFで定式化されている。従来の方法は、空間フィルタバンクの出力ではなく、複数マイクの観測に直接この定式化を適用している点が本実施形態と異なる。
上述のように、NMFで異なるパタンとして分解されるためには、音源毎に異なる観測間のパタンを持つ必要がある。例えば非特許文献1などの技術では、マイク同士の距離を離して配置することで、例えば、特定のマイクに近い音源と、いずれのマイクからも遠い音源とでPSDパタンが異なることを利用している。具体的には、マイクで観測される信号のPSDは、マイクに近いほど大きくなるため、特定のマイクに近い音源のPSDパタンでは、近いマイクの観測の要素は大きく、他の要素は小さくなるが、いずれのマイクからも遠い音源のPSDパタンでは、要素間の値の差が比較的小さくなる、というパタンの差が生じることを利用している。このパタンが生じるためには、マイク同士と音源との位置関係に、そのようなパタンを生じさせるための特有の仮定が必要である。
一方、本実施形態では、マイク同士は近接していても、空間フィルタバンクを適切に設定することにより、音源間のPSDパタンに差異を生じさせることが可能であり、マイク配置や音源位置に上記のような仮定は必要としない。空間フィルタバンクを構成する空間フィルタ同士で指向特性を変えることにより、そのようなPSDパタンの差異を生じさせることができる。
さらに、音源位置やマイク間位置に応じて、PSDパタンの差異が大きくなるよう適宜調節することで、本実施形態の音源推定精度を向上させることができる。例えば、空間フィルタバンクとして、周波数ドメインの独立成分分析により音源分離を行った際の線形空間フィルタ群を利用するのが望ましい。このように構成すれば、各フィルタは極力個別の音源を出力するよう学習されているため、自然とPSDパタンは音源毎に異なるものとなる。この結果、上記のNMFの性質により高品質な音源推定が期待できる。空間フィルタバンクを、例えば各々異なる方向へ指向を向けたビームフォーマ群で構成する方法も考えられる。しかし、観測に用いるマイクアレイの全長が短かったり、マイクの数が少ない場合、指向性が鋭くならず、音源毎のPSDパタンの差異を大きくすることができない。独立成分分析に基づく空間フィルタバンクであれば、観測信号に合わせて空間フィルタを構成するので、全長が短く、少ないマイク数のマイクアレイであっても、音源毎のPSDパタンの差異を大きくすることができる。
上記のNMFによる非負行列GとSへの分解は、従来の一般的な方法が利用できる。例えば分解部110は、G、Sの要素の値が全て非負であるとの条件下で、Yと、Gの距離d(Yi,)が小さくなるようにG、Sを推定する。この距離d(・,・)には、二乗誤差(後述の(16)式)、および、板倉齋藤距離(後述の(20)式)などが利用できる。その際、局所最適解への収束が保証された、繰り返し更新則によるG、Sの推定方法が利用できる。
このように、第1の実施形態にかかる信号処理システムでは、フィルタから出力された出力信号に対して非負値行列因子分解を適用することにより、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。
(第2の実施形態)
第2の実施形態にかかる信号処理システムは、多チャネルの振幅またはパワースペクトルを、3階のテンソルと見たときの非負値テンソル因子分解(NTF:Nonnegative Tensor Factorization)の問題として、音源分離の問題を定式化する。第2の実施形態は、周波数毎の分解として定式化した第1の実施形態を周波数方向にも拡張した形態に相当する。
図4は、第2の実施形態にかかる信号処理システム100−2の構成の一例を示すブロック図である。図4に示すように、信号処理システム100−2は、マイクアレイ101と、フィルタ部102と、変換部103と、分解部110−2と、推定部104−2と、を備えている。
第2の実施形態では、分解部110−2および推定部104−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理システム100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
分解部110−2は、NTFの方式に基づいて、非負信号を、空間基底とスペクトル基底行列と活性度ベクトル(活性度ベクトル3)に分解する。空間基底は、音源の個数に応じたK個の要素(第1要素)、N個の要素(第2要素)、および、周波数の個数であるI個(Iは2以上の整数)の要素(第3要素)、の3次元の非負の要素を含むテンソルである。スペクトル基底行列は、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列の行列である。活性度ベクトルは、L次元の非負のベクトルである。
なお、スペクトル基底行列と、第2の実施形態の活性度ベクトル(活性度ベクトル3)との積により、第1の実施形態の活性度ベクトル(活性度ベクトル1)を算出することができる。
分解部110−2は、空間基底更新部111−2と、活性度更新部112−2と、スペクトル基底更新部113−2と、を備えている。空間基底更新部111−2は、出力信号とスペクトル基底行列と活性度ベクトルとを参照して、空間基底を更新する。スペクトル基底更新部113−2は、出力信号と空間基底と活性度ベクトルとを参照して、スペクトル基底行列を更新する。活性度更新部112−2は、出力信号と空間基底とスペクトル基底行列とを参照して、活性度ベクトルを更新する。分解部110−2は、これらの更新処理を繰り返し行うことで、分解の精度を向上させることができる。
推定部104−2は、空間基底とスペクトル基底行列と活性度ベクトルとを用いて、出力信号から信号源の信号を表す音源信号を推定し、推定した信号(推定音源信号)を出力する。
なお、第2の実施形態における信号処理の流れは、第1の実施形態にかかる信号処理システム100における信号処理(図2)と同様であるため説明を省略する。
次に、周波数方向に拡張して定式化した音源分離の問題が、NTFの問題として解けることを説明する。上述の(12)式および(13)式では、周波数毎の個別の分解を考えているため、周波数間でいずれの空間基底がいずれの音源に属するかを決めるパーミテーションの問題が一般に存在する。
本実施形態では、空間基底に加え、スペクトル基底を導入することによりパーミテーション問題に対応する。これは、同じ音源から到来する信号であれば、そのパワー成分の値は全周波数で同期して変動すると考えられることによる。
また、音源数は入力チャネル数と比較して少ないことが多いため、周波数毎のNMFの場合、NMFの目的関数に罰則項を入れる、または、事前に基底を学習するなどの工夫なしでは、精度の高い分離は難しかった。本実施形態のように周波数間を関連づけるスペクトル基底を導入することにより、周波数間での制約が加わるため、上記のような工夫なしで精度の高い分離が可能となる。
まず、空間フィルタバンクの出力{yij=yijnについて以下の(14)式のような分解を考える。
Figure 0006622159
ここで、ginkは空間基底の係数(を再定義したもの)である。t(k) ilは音源kのスペクトル基底の係数である。v(k) ljは活性度の係数である。これらの係数は全て非負の実数である。l(1≦l≦L)はスペクトル基底のインデックスを表す。
図5は、NTFによる分解モデルを示す図である。分解部110−2は、左側に示す空間フィルタ出力ベクトルを、右側に示す空間基底とスペクトル基底行列と活性度ベクトル3とに分解する。活性度ベクトル2は、活性度ベクトル1の、各信号源に対応する要素を、周波数の少なくとも一部の帯域の組をI次元のベクトルで表したベクトルに相当する。活性度ベクトル2は、スペクトル基底行列と活性度ベクトル3との積に分解される。
ここでは、各音源毎に同数で個別のL個のスペクトル基底を持つとする。Lは音源毎に異なってもかまわないし、音源間でスペクトル基底を共有して持ってもかまわない。
(14)式は、非負要素の3階のテンソル{yijn}を、非負の値を持つテンソル{gink}、{t(k) il}、および、{v(k) lj}へと分解する問題であり、一種のNTF問題ととらえることができる。
本実施形態のNTFでは、NMFと同様に、空間フィルタバンクでの観測信号yijnと分解による推定値y^ijnの距離が小さくなるよう、係数gink、t(k) il、および、v(k) ljを最適化する。すなわち、xとyとの距離をd(x,y)としたとき、以下の(15)式で表される問題を解く。
Figure 0006622159
この問題は、NMFと同様に、局所最適解への収束が保証された、補助関数法を用いた更新則による推定方法が利用できる。
なお、この時の距離規準dは、目的に応じて選択することができる。距離規準に以下の(16)式で表される二乗誤差(ユークリッド距離)dEucを用いたとき、各係数の更新則は(17)式、(18)式、(19)式のようになる。ただし、この場合のyijnは、パワースペクトルではなく振幅スペクトルである。
Figure 0006622159
Figure 0006622159
Figure 0006622159
Figure 0006622159
また、距離規準に以下の(20)式で表される板倉齋藤距離dISを用いた場合、更新則は(21)式、(22)式、(23)式のようになる。ただし、この場合のyijnは、パワースペクトルである。より一般的なβダイバージェンスでの更新式を適用してもよい。
Figure 0006622159
Figure 0006622159
Figure 0006622159
Figure 0006622159
なお、基底と活性度間の任意性をなくすために、ginkとt(k) ilは、各更新において以下の(24)式、(25)式で表される正規化を行う。
Figure 0006622159
Figure 0006622159
分解部110−2は、1回の更新を(17)式、(24)式、(18)式、(25)式、(19)式の順、または、(21)式、(24)式、(22)式、(25)式、(23)式の順とし、更新を繰り返し実行する。
このように、第2の実施形態にかかる信号処理システムでは、フィルタから出力された出力信号に対して非負値テンソル因子分解を適用することにより、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。
(音声強調・音源分離への適用)
NMF(第1の実施形態)およびNTF(第2の実施形態)で求めた係数により音声強調、または、音源分離を実施するには、推定係数によりゲイン係数または分離行列を求めて適用する。
n番目のフィルタバンク出力yijnについて、音源k成分を推定するゲイン係数hijnkは例えば、以下の(26)式のように計算できる。
Figure 0006622159
これを用いてフィルタバンク出力yijn(ここでは|・|をとったパワースペクトルではなく複素スペクトル)から、以下の(27)式のように音源kの複素スペクトル成分zijnkを推定する。
Figure 0006622159
この場合、既にn以外のフィルタバンク出力に紛れた成分は復元できない。そこで、振幅またはパワー領域での分離行列Hijを考えてもよい。Hijは、K×N次元の実数で表される。
Figure 0006622159
このとき、音源kの推定音源複素スペクトルzijkは、以下の(29)式により求めることができる。ここでもフィルタバンク出力yijnは複素スペクトルである。
Figure 0006622159
なお、(27)式や(29)式の音声強調および音源分離の方法は一例に過ぎない。例えば、(26)式や(28)式の右辺の平方根を取るなどしてもかまわない。また、(26)式や(28)式の分子および分母の各項をp乗し、右辺全体のq乗根を取るなどしてもかまわない。MMSE(Minimum Mean Square Error)−STSA(Short Time Spectral Amplitude)などの方法を利用してもよい。
(音声強調のための半教師あり学習)
上述の係数の更新では、音源kに関する情報は事前に与えていないため、通常のブラインド音源分離の問題と同様に、どれが所望の音源かは直接知ることはできない。音声強調への応用では、例えば、音源数K=2として、音声および雑音の2つの音源を考えるが、k=1がいずれの音源となるかは不明である。
ここでは、k=1のスペクトル基底t(k=1) ilの全てを予めクリーン音声から学習した基底を学習時に設定する。そして、(18)式または(22)式の更新則において、k=1の係数についてのみは更新を実施しない。これにより、k=1に対応する信号は音声信号となることが期待できる。k=1のスペクトル基底は更新しないため、学習時の計算量を減らす効果も期待できる。
また、k=1のスペクトル基底に、事前にクリーン音声(学習データ)から学習した基底を、学習の初期値として設定してもよい。この場合は学習時の更新について計算量が増えるが、事前に学習したクリーン音声と比較し、観測の音声に歪みがある場合は、学習により音声のスペクトル基底が歪みに適応する効果が期待できる。
k=1のスペクトル基底の一部のみにクリーン音声を設定し、その基底については学習時に更新を行わず、k=1の残りの基底とk≠1の基底全てを更新した場合、音声と想定しているk=1の方向から到来する雑音は、k=1の音声以外の基底として学習されることが期待できる。従って、k=1の音源と同じ方向から到来する雑音も音声から分離できる。
学習の初期値は上記に限られるものではなく、例えば、マイクアレイの空間配置と線形空間フィルタから計算した値を、学習の初期値として設定してもよい。
(第3の実施形態)
第3の実施形態では、信号処理システムを音声入力装置に応用した例を説明する。本実施形態の信号処理システムでは、推定された音源信号を用いて、雑音下などの通常では音声認識(音声を文字に変換する技術)が困難な環境でも高精度に音声認識を行う。そして、その結果を用いて機器の操作を行う、および、ユーザに音声認識の結果を表示する、などの制御を行う。
図6は、第3の実施形態にかかる信号処理システム100−3の構成の一例を示すブロック図である。図6に示すように、信号処理システム100−3は、マイクアレイ101と、フィルタ部102と、変換部103と、分解部110と、推定部104と、識別部105−3と、算出部106−3と、出力制御部107−3と、表示部120−3と、を備えている。
第3の実施形態では、識別部105−3、算出部106−3、出力制御部107−3、および、表示部120−3を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる信号処理システム100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。なお、第1の実施形態の代わりに、第2の実施形態に対して、本実施形態の方法を適用してもよい。すなわち、第2の実施形態に対して、識別部105−3、算出部106−3、出力制御部107−3、および、表示部120−3の機能を追加してもよい。
識別部105−3は、音源信号に基づく識別処理を実行する。例えば識別部105−3は、推定部104で得られた推定音源信号について、各時刻の信号のカテゴリ識別を行う。例えば、信号が音響信号であり、音源が発話音声であった場合、識別部105−3は、各時刻について音素識別を行い、話者が話した内容を文字起こしする、いわゆる音声認識を行い、認識結果を出力する。このように、カテゴリ識別には、ユーザが発する音声の種別または内容を識別する処理が含まれる。例えば、先に挙げた音素識別を用いた連続音声認識、特定の単語の発話の有無を検出する特定キーワード検出、および、単に音声の発話の有無を検出する音声検出などが、カテゴリ識別の例として挙げられる。
算出部106−3は、空間基底(空間基底行列)の値の分布などに基づき、フィルタ部102により信号源が分離される度合いを示す分離度を算出する。分離度は、ある音源信号が、どの程度、他の音源信号と分離されているかを表す。
出力制御部107−3は、分離度に応じて、識別部105−3による識別処理の処理結果の出力を変更する制御を行う。例えば出力制御部107−3は、識別部105−3で得られたカテゴリに基づいて、表示部120−3に対する表示を制御する。その際、識別部105−3は、算出部106−3から出力された分離度を参照して表示の態様を変更する。例えば識別部105−3は、分離度が低ければ、推定部104によって推定された推定音源信号の推定精度も低く、識別部105−3による結果も信頼できないと考え、ユーザである話者に、その理由と共に再発声を促すメッセージなどを表示する。
表示部120−3は、画像、映像、および、音声信号などの各種情報を表示するディスプレイなどの装置である。表示部120−3に対する表示内容は、出力制御部107−3により制御される。
情報の出力方法は画像などの表示に限られるものではなく、音声を出力する方法を用いてもよい。この場合、表示部120−3とともに、または、表示部120−3の代わりに、スピーカなどの音声出力部を備えてもよい。また、識別結果を用いて機器などの操作を制御するように構成してもよい。
このように、算出部106−3により、音源信号がどの程度うまく推定できるかを表す分離度を算出し、算出結果を出力制御部107−3における出力の制御に用いる点が、本実施形態が、信号処理装置と他の装置の単なる組み合わせではない点の1つである。
次に、このように構成された第3の実施形態にかかる信号処理システム100−3による信号処理について図7を用いて説明する。図7は、第3の実施形態における信号処理の一例を示すフローチャートである。
ステップS201からステップS204までの、信号処理は、第1の実施形態にかかる信号処理システム100におけるステップS101からステップS104までと同様の処理なので、その説明を省略する。
識別部105−3は、推定部104により推定された信号(推定音源信号)に対して識別処理を実行し、識別結果(カテゴリなど)を出力する(ステップS205)。算出部106−3は、空間基底に基づき分離度を算出する(ステップS206)。出力制御部107−3は、算出された分離度に応じて識別結果の出力を制御する(ステップS207)。
次に、分離度の算出方法の具体例について説明する。(13)式の空間基底行列Gのk列ベクトルgikは、音源kの空間フィルタ出力におけるPSD出力パタンを表す。もし、フィルタ部102の線形空間フィルタによって、十分に音源kが分離されていれば、gikの1つまたは少数の要素のみが大きな値を持ち、残りの要素は小さい値を持つはずである。従って、gikの要素間に値の大小に偏りがあるか否か(値の分布)を調べれば、フィルタ部102において音源信号が十分に分離されているかが分かる。さらに、フィルタ部102である程度、音源信号が分離されていることが、推定部104で音源信号をさらに高精度に推定するための必要条件となる。そこで、gikの要素間の値の大小の偏りを調べれば、識別部105−3に入力される推定音源信号の精度が分かる。
ikの要素間の値の大小の偏りは、例えば、以下の(30)式のようにエントロピーを計算することで定量化できる。gは、列ベクトルgのn番目の要素を表す。
Figure 0006622159
また、列ベクトルgは、以下の(31)式のように正規化されているものとする。
Figure 0006622159
値の偏りが大きければH(g)が小さく、偏りが小さければH(g)が大きくなる。例えば、(31)式の逆数1/H(g)を音源kの分離度とする。実際には、(31)式は周波数方向iにも累積和を取るなどして用いる。
また、分解部110で高精度に信号が分解できるかどうかは、空間フィルタ出力における音源毎のPSDパタンの差異が十分に大きいかどうかに依存している。gik間の類似度、具体的には例えば二乗誤差が小さい場合、十分に分離できていない可能性が高い。類似度の逆数を分離度として出力するなどの例も考えられる。
算出部106−3は、空間基底行列の他に、活性度ベクトル(活性度ベクトル1)を用いて分離度を算出してもよい。例えば算出部106−3は、(30)式および(31)式において、空間基底行列の列ベクトルgikの代わりに、活性度ベクトルsijによりエントロピーH(sij)を計算してもよい。もし、ある方向から音声が入力され、かつ、十分に音源が推定されていれば、活性度ベクトル1の値には偏りが生じ、H(sij)の値は小さくなるという性質を持つ。このため、H(sij)は、H(g)と同様に分離度として利用できる。
(信号処理システムのユースケース)
ここまで説明した信号処理システムの実際の利用例を説明する。
(ケース1:会議書き起こしシステム)
利用例として、会議の際に会議室に設置され、会議の発言内容を書き起こす、会議書き起こしシステムを考える。当システムは、上記実施形態の信号処理システムを備え、例えば会議室の会議テーブルの中央に設置される。本体に備えた複数のマイクにより、複数の話者から到来する音声信号を観測し、話者毎に推定した推定音声信号を出力する。出力された話者毎の推定音源信号をそれぞれ、音声認識装置(識別部105−3)にて認識し、各話者の発話内容を文字化する。書き起こし内容は、会議の内容を後々振り返る際に活用できる。
話者から離れた位置に設置したマイクで収録した音声の音声認識は、他の話者の音声、部屋の残響、環境雑音、および、マイクに連なる電気回路に起因する自己雑音の影響により、正しく文字に書き起こす精度が低下する。このため、それらの影響を取り除く音源信号の推定装置が必要となる。上記実施形態の信号処理システムを利用すれば、従来の方法より高精度に各話者の音声信号を推定することができ、音声認識精度を向上させることができる。
上記実施形態の信号処理システムは、マイクの配置が事前に不明であってもよいため、各マイクを個別に移動させてもかまわない。例えば、一部のマイクを会議参加者の近くに置けば、より音声認識精度を向上させることができる。また、会議毎にそのマイク配置位置を変更してもかまわないなど、柔軟な運用が可能である。
また、算出部106−3を用いた仕組みにより、信号処理システム自身が、ユーザ音声を十分に推定できていないことを判断することができる。その時刻を会議音声と共に記録しておけば、書き起こしの利用者やシステムの書き起こし補助者が、対応する時刻の会議音声を聞き直すことで、すべての音声を聞き直す場合に比べて、迅速に書き起こしテキストの認識誤りを修正することができる。
また、特に特定の話者の音声が継続して推定が不十分である時は、マイク位置がユーザから離れている、および、マイクの指向性がユーザに向いていない、などの問題が考えられる。その際は、会議参加者に、発話が上手く聞き取れていない旨を提示し、マイクを参加者の側に置く、マイクを参加者に向けるなど、マイクの再設置を促すことができる。
(ケース2:音声応答システム)
別の利用例として、雑音下での音声応答システムが考えられる。音声応答システムは、ユーザの質問や要望を音声により受け付け、その内容を理解し、データベースにアクセスするなどして、ユーザの望む回答を提示する。本システムが、駅や店舗などの公共スペースに設置されていると、周囲の雑音により、正しくユーザの音声を聞き取れないことがある。そこで、音声応答システムに、上記実施形態の音声入力装置を適用する。
先に述べた会議書き起こしシステムのユースケースと同様に、上記実施形態により、より高品質な、すなわち雑音をより適切に抑圧したユーザ音声を得ることができる。それにより、音声応答システムは、従来より適切な回答をユーザに提供することができる。
また、算出部106−3を用いた仕組みにより、信号処理システム自身が、ユーザ音声を十分に推定できていないことを判断することができる。その際は、ユーザに、今のユーザ発話が上手く聞き取れなかった旨を提示し、再発声を促すことができる。従って、システムが誤って聞き取ったことによって、システムがユーザの質問を誤って理解し、不適切に回答することを防ぐことができる。
以上説明したとおり、第1から第3の実施形態によれば、空間の音響特性の変動等に依存せずに、より高精度に音源を推定可能となる。
次に、第1〜第3の実施形態にかかる信号処理システムのハードウェア構成について図8を用いて説明する。図8は、第1〜第3の実施形態にかかる信号処理システムのハードウェア構成例を示す説明図である。
第1〜第3の実施形態にかかる信号処理システムは、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1〜第3の実施形態にかかる信号処理システムで実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1〜第3の実施形態にかかる信号処理システムで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1〜第3の実施形態にかかる信号処理システムで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施形態にかかる信号処理システムで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜第3の実施形態にかかる信号処理システムで実行されるプログラムは、コンピュータを上述した信号処理システムの各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2、100−3 信号処理システム
101 マイクアレイ
102 フィルタ部
103 変換部
104 推定部
105−3 識別部
106−3 算出部
107−3 出力制御部
110、110−2 分解部
120−3 表示部

Claims (8)

  1. 複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタ部と、
    前記出力信号を、非負の値である非負信号に変換する変換部と、
    信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
    前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
    前記音源信号に基づく識別処理を実行する識別部と、
    前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
    前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
    を備える信号処理システム。
  2. 前記分解部は、
    前記出力信号と、前記スペクトル基底行列と、前記活性度ベクトルと、を参照して、前記空間基底を更新する空間基底更新部と、
    前記出力信号と、前記空間基底と、前記活性度ベクトルと、を参照して、前記スペクトル基底行列を更新するスペクトル基底更新部と、
    前記出力信号と、前記空間基底と、前記スペクトル基底行列と、を参照して、前記活性度ベクトルを更新する活性度更新部と、を備える、
    請求項1に記載の信号処理システム。
  3. 前記分解部は、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルの積と、前記出力信号と、の間の距離がより小さくなるように、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルを更新する、
    請求項2に記載の信号処理システム。
  4. 前記距離は、板倉齋藤距離、または、ユークリッド距離である、
    請求項3に記載の信号処理システム。
  5. 前記分解部は、学習データから事前に学習した値を前記スペクトル基底ベクトルの初期値として更新を行う、
    請求項2に記載の信号処理システム。
  6. 前記変換部は、前記出力信号を、前記出力信号の絶対値、または、前記出力信号の絶対値の2乗である前記非負信号に変換する、
    請求項1に記載の信号処理システム。
  7. 複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタステップと、
    前記出力信号を、非負の値である非負信号に変換する変換ステップと、
    信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解ステップと、
    前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定ステップと、
    前記音源信号に基づく識別処理を実行する識別ステップと、
    前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出ステップと、
    前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御ステップと、
    を含む信号処理方法。
  8. コンピュータを、
    複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタ部と、
    前記出力信号を、非負の値である非負信号に変換する変換部と、
    信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
    前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
    前記音源信号に基づく識別処理を実行する識別部と、
    前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
    前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
    として機能させるためのプログラム。
JP2016169999A 2016-08-31 2016-08-31 信号処理システム、信号処理方法およびプログラム Active JP6622159B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016169999A JP6622159B2 (ja) 2016-08-31 2016-08-31 信号処理システム、信号処理方法およびプログラム
US15/433,336 US10373628B2 (en) 2016-08-31 2017-02-15 Signal processing system, signal processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016169999A JP6622159B2 (ja) 2016-08-31 2016-08-31 信号処理システム、信号処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018036526A JP2018036526A (ja) 2018-03-08
JP6622159B2 true JP6622159B2 (ja) 2019-12-18

Family

ID=61243281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016169999A Active JP6622159B2 (ja) 2016-08-31 2016-08-31 信号処理システム、信号処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10373628B2 (ja)
JP (1) JP6622159B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089004B (zh) * 2018-08-14 2020-10-09 西南交通大学 一种基于相关熵诱导的集员自适应回声消除方法
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110081964A (zh) * 2019-04-25 2019-08-02 西北工业大学 基于稀疏谱拟合的水下声源位置及功率谱联合估计方法
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN111009256B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN113109763B (zh) * 2020-01-13 2023-08-25 北京地平线机器人技术研发有限公司 声源位置确定方法和装置、可读存储介质、电子设备
CN113241090B (zh) * 2021-04-21 2023-10-17 西北工业大学 一种基于最小体积约束的多通道盲声源分离方法
WO2023276068A1 (ja) * 2021-06-30 2023-01-05 日本電信電話株式会社 音響信号強調装置、音響信号強調方法、プログラム
CN114220453B (zh) * 2022-01-12 2022-08-16 中国科学院声学研究所 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5528328B2 (ja) 1972-07-04 1980-07-26
JPS5520883A (en) 1978-07-31 1980-02-14 Nitto Electric Ind Co Panel for making roof
JP4724054B2 (ja) 2006-06-15 2011-07-13 日本電信電話株式会社 特定方向収音装置、特定方向収音プログラム、記録媒体
JP4928382B2 (ja) 2007-08-10 2012-05-09 日本電信電話株式会社 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP5520883B2 (ja) 2011-05-17 2014-06-11 日本電信電話株式会社 信号分解装置、方法、及びプログラム
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
JP6005443B2 (ja) 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
JP2014215461A (ja) 2013-04-25 2014-11-17 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US9721202B2 (en) * 2014-02-21 2017-08-01 Adobe Systems Incorporated Non-negative matrix factorization regularized by recurrent neural networks for audio processing
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源

Also Published As

Publication number Publication date
US10373628B2 (en) 2019-08-06
JP2018036526A (ja) 2018-03-08
US20180061432A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
Kuklasiński et al. Maximum likelihood PSD estimation for speech enhancement in reverberation and noise
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US9668066B1 (en) Blind source separation systems
JP2019191558A (ja) 音声を増幅する方法及び装置
JP2005091732A (ja) ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法
JP2020034624A (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
JP6371516B2 (ja) 音響信号処理装置および方法
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
Asaei et al. Binary sparse coding of convolutive mixtures for sound localization and separation via spatialization
Wang et al. Leveraging real conversational data for multi-channel continuous speech separation
JP7315087B2 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
JP4946330B2 (ja) 信号分離装置及び方法
Lee et al. Improved Mask-Based Neural Beamforming for Multichannel Speech Enhancement by Snapshot Matching Masking
JP2017152825A (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
US20180061433A1 (en) Signal processing device, signal processing method, and computer program product
Yu Post-filter optimization for multichannel automotive speech enhancement
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
CN113241090A (zh) 一种基于最小体积约束的多通道盲声源分离方法
Han et al. Unsupervised multi-channel separation and adaptation
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
Saruwatari et al. Semi-blind speech extraction for robot using visual information and noise statistics
Kodrasi et al. Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization
JP2020148880A (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191121

R151 Written notification of patent or utility model registration

Ref document number: 6622159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151