JP2007193035A - 音声信号分離装置及び方法 - Google Patents

音声信号分離装置及び方法 Download PDF

Info

Publication number
JP2007193035A
JP2007193035A JP2006010277A JP2006010277A JP2007193035A JP 2007193035 A JP2007193035 A JP 2007193035A JP 2006010277 A JP2006010277 A JP 2006010277A JP 2006010277 A JP2006010277 A JP 2006010277A JP 2007193035 A JP2007193035 A JP 2007193035A
Authority
JP
Japan
Prior art keywords
signal
separation
time
matrix
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006010277A
Other languages
English (en)
Other versions
JP4556875B2 (ja
Inventor
Atsuo Hiroe
厚夫 廣江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006010277A priority Critical patent/JP4556875B2/ja
Priority to US11/653,235 priority patent/US7797153B2/en
Priority to KR1020070005193A priority patent/KR20070076526A/ko
Priority to EP07100711A priority patent/EP1811498A1/en
Priority to CNB2007101266765A priority patent/CN100559472C/zh
Publication of JP2007193035A publication Critical patent/JP2007193035A/ja
Application granted granted Critical
Publication of JP4556875B2 publication Critical patent/JP4556875B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F11/00Methods or devices for treatment of the ears or hearing sense; Non-electric hearing aids; Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense; Protective devices for the ears, carried on the body or in the hand
    • A61F11/04Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F11/00Methods or devices for treatment of the ears or hearing sense; Non-electric hearing aids; Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense; Protective devices for the ears, carried on the body or in the hand
    • A61F11/04Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense
    • A61F11/045Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense using mechanical stimulation of nerves
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B5/00Visible signalling systems, e.g. personal calling systems, remote indication of seats occupied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Neurology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Vascular Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際のパーミュテーションの問題を解消する。
【解決手段】短時間フーリエ変換部12は、観測信号を時間周波数領域に変換し、標準化・無相関化部13は、この観測信号に対して標準化処理と無相関化処理とを施す。信号分離部14は、時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と分離行列とを用いて該分離行列の修正値を計算し、この修正値を用いて、分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて時間周波数領域の分離信号を生成する。但し、分離行列の初期値及び修正値による修正後の分離行列は、正規直交行列である。逆フーリエ変換部17は、この分離信号を時間領域に変換する。
【選択図】図3

Description

本発明は、複数の信号が混合された音声信号を独立成分分析(Independent Component Analysis;ICA)を用いて信号毎に分離する音声信号分離装置及びその方法に関する。
複数の原信号が未知の係数によって線形に混合されているときに、統計的独立性のみを用いて原信号を分離・復元するという独立成分分析(Independent Component Analysis;ICA)の手法が信号処理の分野で注目されている。この独立成分分析を応用することで、例えば話者とマイクロホンとが離れた場所にあり、マイクロホンで話者の音声以外の音を拾ってしまうような状況でも、音声信号を分離・復元することが可能となる。
ここで、時間周波数領域の独立成分分析を用いて、複数の信号が混合された音声信号を信号毎に分離する場合について考える。
図7に示すようにN個の音源からそれぞれ異なる音が鳴っており、それらをn個のマイクロホンで観測するという状況を想定する。音源が発した音(原信号)がマイクロホンに届くまでには時間遅れや反射などがあるため、k番目(1≦k≦n)のマイクロホンkで観測される信号(観測信号)x(t)は、下記式(1)のように、原信号と伝達関数との畳み込み演算を全音源について総和した式で表される。また、全てのマイクロホンについての観測信号を1つの式で表すと、下記式(2)のようになる。この式(1)、(2)において、x(t)、s(t)はそれぞれ x(t)、s(t)を要素とする列ベクトルを表し、Aはaij(t)を要素とするn×Nの行列を表す。なお、以下ではN=nとする。
Figure 2007193035
時間周波数領域の独立成分分析では、上記式(2)のx(t)からA及びs(t)を直接推定するのではなく、x(t)を時間周波数領域の信号に変換し、A及びs(t)に対応する信号を時間周波数領域で推定する。以下、その方法について説明する。
信号ベクトルx(t)、s(t)を長さLの窓で短時間フーリエ変換したものをそれぞれX(ω,t),S(ω,t)とし、行列A(t)を同様に短時間フーリエ変換したものをA(ω)とすると、時間領域の上記式(2)は時間周波数領域の下記式(3)で表すことができる。但し、ωは周波数binの番号を示し(1≦ω≦M)、tはフレーム番号を示す(1≦t≦T)。時間周波数領域の独立成分分析では、式(3)のS(ω,t)、A(ω)を時間周波数領域で推定することになる。
Figure 2007193035
なお、周波数binの個数は、本来は窓の長さLと同一であり、各周波数binは、−R/2からR/2まで(Rはサンプリング周波数)をL等分したそれぞれの周波数成分を表す。但し、負の周波数成分は正の周波数成分の共役複素数であり、X(−ω)=conj(X(ω))(conj(・)は共役複素数)として求めることができるため、本明細書では0からR/2までの非負の周波数成分(周波数binの個数はL/2+1)のみを考え、その周波数成分に1からM(M=L/2+1)までの番号を振っている。
時間周波数領域でS(ω,t)、A(ω)を推定するには、先ず、下記式(4)のような式を考える。この式(4)において、Y(ω,t)はy(t)を長さLの窓で短時間フーリエ変換したY(ω,t)を要素とする列ベクトルを表し、W(ω)はwij(ω)を要素とするn×nの行列(分離行列)を表す。
Figure 2007193035
次に、ωを固定してtを変化させたときにY(ω,t)〜Y(ω,t)が統計的に独立となる(実際には、独立性が最大となる)ようなW(ω)を求める。後述のように、時間周波数領域の独立成分分析ではパーミュテーション(permutation)の不定性があるため、W(ω)=A(ω)−1以外にも解が存在する。統計的に独立となるY(ω,t)〜Y(ω,t)が全てのωについて得られたら、それらを逆フーリエ変換することで、時間領域の分離信号y(t)を得ることができる。
時間周波数領域における従来の独立成分分析の概略を図8を用いて説明する。n個の音源が発するお互いに独立な原信号をs〜sとし、それらを要素とするベクトルをsとする。マイクロホンで観測される観測信号xは、原信号sに上記式(2)の畳み込み・混合演算を施したものである。マイクロホンの数nが2であるとき、すなわちチャンネル数が2であるときの観測信号xの例を図9(A)に示す。次に、観測信号xに対して短時間フーリエ変換を施し、時間周波数領域の信号Xを得る。Xの要素をX(ω,t)とすると、X(ω,t)は複素数値をとる。X(ω,t)の絶対値である|X(ω,t)|を色の強弱で表現した図をスペクトログラムという。スペクトログラムの例を図9(B)に示す。この図において、横軸は t(フレーム番号)を示し、縦軸はω(周波数bin番号)を示す。続いて、信号Xの各周波数binにW(ω)を乗算することで、図9(C)に示すような分離信号Yを得る。そして、分離信号Yを逆フーリエ変換することで、図9(D)に示すような時間領域の分離信号yを得る。
なお、以下では時間周波数領域の信号であるX(ω,t)やY(ω,t)自体も「スペクトログラム」と表現する。
ここで、独立成分分析において信号の独立性を表す尺度には、Kullback-Leibler情報量(以下、「KL情報量」という。)や尖度(kurtosis)等があるが、ここでは一例としてKL情報量を用いるものとする。
図10のように、ある周波数binに着目する。Y(ω,t)のフレーム番号tを1〜Tの間で変化させたものをY(ω)としたとき、分離信号Y(ω)〜Y(ω)の独立性を表す尺度であるKL情報量I(Y(ω))を下記式(5)のように定義する。すなわち、各チャンネルについての周波数bin(=ω)毎のエントロピーH(Y(ω))の総和から全チャンネルについての周波数bin(=ω)毎の同時エントロピーH(Y(ω))を減算した値をKL情報量I(Y(ω))と定義する。n=2のときのH(Y(ω))とH(Y(ω))との関係を図11に示す。式(5)のうち、H(Y(ω))はエントロピーの定義により下記式(6)の第1項のように書き換えられ、H(Y(ω))は上記式(4)により式(6)の第2項及び第3項のように展開される。この式(6)において、PYk(ω)(Y(ω,t))はY(ω,t)の確率密度関数(Probabilistic Density Function;PDF)を表し、H(X(ω))は観測信号X(ω)の同時エントロピーを表す。
Figure 2007193035
KL情報量I(Y(ω))は、Y(ω)〜Y(ω)が独立である場合に最小(理想的には0)となるため、分離処理では、KL情報量I(Y(ω))を最小にする分離行列W(ω)を求めることになる。
分離行列W(ω)を求める最も基本的なアルゴリズムは、下記式(7)、(8)のように、自然勾配法に基づいて分離行列を更新するものである。式(7)、(8)の導出過程の詳細については、非特許文献1の「3.3.1 基本的な勾配法」に記載されている。
Figure 2007193035
上記式(7)において、Iはn×nの単位行列を表し、E[・]はフレーム方向での平均を表す。また、上付き文字の“H”はエルミート転置(ベクトルを転置すると共に、要素を共役複素数に置き換える)を表す。また、関数φは確率密度関数の対数を微分したものであり、スコア関数(又は「活性化関数」)と称される。また、上記式(6)において、ηは学習係数(正の微小値)を表す。
なお、上記式(7)で用いる確率密度関数は、Y(ω,t)の分布を真に反映している必要はなく、固定でよいことが知られている。確率密度関数の一例を下記式(10)、(12)に示し、そのときのスコア関数を下記式(11)、(13)に示す。
Figure 2007193035
自然勾配法では、上記式(7)に従って分離行列W(ω)の修正値ΔW(ω)を求め、上記式(8)に従ってW(ω)を更新し、更新された分離行列W(ω)を用いて上記式(9)に従って分離信号を生成する。この式(7)〜(9)の処理を何度もループさせて繰り返すと、最終的にW(ω)の各要素はある値に収束し、それが分離行列の推定値となる。そして、その分離行列を用いて分離処理を行ったときの結果が、最終的な分離信号となる。
しかしながら、このような単純な自然勾配法では、W(ω)が収束するまでのループ回数が多くなるという問題があった。そこで、収束までのループ回数を少なくするため、観測信号に無相関化と呼ばれる前処理(後述)を施した上で、正規直交行列の中から分離行列を探すという方法が提案されている。正規直交行列とは、下記式(14)で示される条件を満たす正方行列のことである。上記式(7)に正規直交制約(W(ω)が正規直交行列のときに、W(ω)+η・ΔW(ω)も正規直交行列になるための条件)を適用すると、下記式(15)が得られる。式(15)の導出過程の詳細については、非特許文献1の「3.3.2 直交行列に制限した勾配法」に記載されている。
Figure 2007193035
Figure 2007193035
正規直交制約付きの勾配法では、上記式(15)に従って分離行列W(ω)の修正値ΔW(ω)を求め、上記式(8)に従ってW(ω)を更新する。式(15)、(8)、(9)の処理を何度もループさせて繰り返すと、最終的にW(ω)の各要素はある値に収束し、それが分離行列の推定値となる。そして、その分離行列を用いて分離処理を行ったときの結果が、最終的な分離信号となる。このような上記式(15)を用いた方法では、正規直交という制約を設けているため、上記式(7)を用いた場合よりも少ないループ回数で収束する。
村田昇著,「入門独立成分分析」,東京電気大学出版局 澤田 宏、向井 良、荒木 章子、牧野 昭二,「実環境における3音源以上のブラインド分離」,日本音響学会2003年秋季研究発表会,p547−548 特開2004−145172号公報
ところで、上述した時間周波数領域の独立成分分析では、図10に示したように、信号の分離処理を周波数bin毎に行っており、周波数binの間の関係は考慮していない。そのため、分離自体は成功しても、周波数binの間で分離先の不統一が発生する可能性がある。分離先の不統一とは、例えばω=1ではYにS由来の信号が現れるのに対してω=2ではYにS由来の信号が現れる、というような現象のことであり、パーミュテーション(置換)の問題と呼ばれている。
パーミュテーションの例を図12に示す。図12(A)は、WEBページ(http://www.cnl.salk.edu/~tewon/Blind/blind_audio.html)にある「rsm2_mA.wav」と「rsm2_mB.wav」という2つのファイルから生成したスペクトログラムを示すものであり、音声と音楽とが混合された観測信号の一例を表している。各スペクトログラムは、各ファイルの先頭から40000サンプルのデータを、窓長512のハニング窓を用いてシフト幅128で高速フーリエ変換することにより生成した。一方、図12(B)は、この2つのスペクトログラムを観測信号とし、上記式(15)、(8)、(9)を200回繰り返したときの分離信号のスペクトログラムを示すものである。スコア関数φには上記式(13)を用いた。図12(B)から分かるように、図中矢印を付した位置付近の周波数binにおいて、顕著にパーミュテーションが発生している。
このように、従来の時間周波数領域の独立成分分析では、パーミュテーションの問題が発生していた。なお、正規直交制約付きの独立成分分析には、上記式(14)、(15)で示したような勾配法の他にも、不動点法、ヤコビ法などを用いる方法もあり(非特許文献1の「3.4 不動点法」、「3.5 ヤコビ法」を参照)、それらを時間周波数領域の独立成分分析に適用した例も存在するが(例えば、非特許文献2を参照)、何れも信号の分離処理を周波数bin毎に行っているため、パーミュテーションの問題が発生してしまう。
従来、このパーミュテーションの問題を解消するために、後処理により入れ替えを行う方法が知られている。この後処理では、先ず周波数bin毎の分離によって図12(B)のようなスペクトログラムを得て、その後、何らかの基準に従ってチャンネル間で分離信号の入れ替えを行うことでパーミュテーションの発生していないスペクトログラムを得る。入れ替えの基準としては、(a)エンベロープの類似性(非特許文献1を参照)、(b)推定された音源方向(特許文献1の[従来の技術]を参照)、(c)aとbとの組合せ(特許文献1を参照)が挙げられる。
しかしながら、上記(a)は、周波数binによってはエンベロープの違いが不明瞭なことがあり、そのような場合には入れ替え間違いが発生してしまう。また、入れ替えを1度間違えると、それ以降の周波数binでは全て分離先を間違えてしまうことになる。また、上記(b)は、方向推定の精度に問題があり、さらにマイクロホンの位置情報が必要である。また、両者を組み合わせた上記(c)は、入れ替えの精度は向上しているものの、上記(b)と同様にマイクロホンの位置情報が必要である。また、何れの方法においても、分離と入れ替えという2つのステップを経るため、処理時間が長いという問題がある。処理時間の観点では、分離が完了した時点でパーミュテーションの問題も解消していることが望ましいが、後処理による方法ではそれは難しい。
本発明は、このような従来の実情に鑑みて提案されたものであり、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する際に、分離後の後処理を行うことなくパーミュテーションの問題を解消することが可能な音声信号分離装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係る音声信号分離装置は、音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、複数チャンネルの分離信号を生成する音声信号分離装置において、上記時間領域の観測信号を時間周波数領域の観測信号に変換する第1の変換手段と、上記時間周波数領域の観測信号をチャンネル間で無相関化する無相関化手段と、上記時間周波数領域の観測信号から時間周波数領域の分離信号を生成する分離手段と、上記時間周波数領域の分離信号を時間領域の分離信号に変換する第2の変換手段とを有し、上記分離手段は、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算し、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて上記時間周波数領域の分離信号を生成し、上記初期値及び上記修正値による修正後の分離行列は、正規直交行列であることを特徴とする。
また、本発明に係る音声信号分離方法は、音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、複数チャンネルの分離信号を生成する音声信号分離方法において、上記時間領域の観測信号を時間周波数領域の観測信号に変換する工程と、上記時間周波数領域の観測信号をチャンネル間で無相関化する工程と、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成する工程と、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算する工程と、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正する工程と、略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換する工程とを有し、上記初期値及び上記修正値による修正後の分離行列は、正規直交行列であることを特徴とする。
本発明に係る音声信号分離装置及びその方法によれば、音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、複数チャンネルの分離信号を生成する際に、初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と分離行列とを用いて該分離行列の修正値を計算し、この修正値を用いて、分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換することにより、分離後の後処理を行うことなくパーミュテーションの問題を解消することができる。また、時間周波数領域の観測信号を予めチャンネル間で無相関化し、分離行列の初期値と修正値による修正後の分離行列とを正規直交行列としているため、少ないループ回数で分離行列が略々収束する。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、複数の信号が混合された音声信号を独立成分分析を用いて信号毎に分離する音声信号分離装置に適用したものである。前述したように、従来は、分離行列W(ω)を用いて周波数bin毎に信号を分離していたが、本実施の形態では、図1に示すように、分離行列Wを用いてスペクトログラム全体で信号を分離する。以下では先ず、本実施の形態で用いる具体的な計算式について説明し、次いで、本実施の形態における音声信号分離装置の具体的構成について説明する。
従来の周波数bin毎の分離を行列及びベクトルで表現すると、上記式(9)のように表される。この式(9)を、全てのω(1≦ω≦M)について展開し、行列とベクトルとの積の形式で表すと下記式(16)のようになる。この式(16)が、スペクトログラム全体を分離する行列演算である。式(16)の両辺をY(t)、W、X(t)という文字を用いて表記すると下記式(17)のようになる。また、下記式(16)のチャンネル毎の成分をそれぞれ1つの文字で表記すると下記式(18)のようになる。この式(18)において、Y(t)はチャンネル番号kのスペクトログラムからフレーム番号tのスペクトルを切り出して作った列ベクトルを表す。
Figure 2007193035
本実施の形態ではさらに、上記式(17)の分離行列Wに正規直交という制約を設ける。すなわち、下記式(20)で表される制約を設ける。この式(20)において、InMはnM×nMの単位行列を表す。但し、下記式(20)は下記式(21)と等価であるため、分離行列Wに対する制約は、従来と同様に周波数bin毎で構わない。また、下記式(20)と下記式(21)とが等価であるため、観測信号に予め施しておく無相関化の前処理(後述)も、従来と同様に周波数bin毎で構わない。
Figure 2007193035
また、本実施の形態では、信号の独立性を表す尺度もスペクトログラム全体から計算する。前述したように、独立成分分析において信号の独立性を表す尺度には、KL情報量や尖度等があるが、ここでは一例としてKL情報量を用いるものとする。
本実施の形態では、スペクトログラム全体のKL情報量I(Y)を下記式(22)のように定義する。すなわち、各チャンネルについてのエントロピーH(Y)の総和から全チャンネルについての同時エントロピーH(Y)を減算した値をKL情報量I(Y)と定義する。n=2のときのH(Y)とH(Y)との関係を図2に示す。式(22)のうち、H(Y)はエントロピーの定義により下記式(23)の第1項のように書き換えられ、H(Y)はY=WXの関係から式(23)の第2項及び第3項のように展開される。この式(23)において、PYk(Y(t))はY(t)の確率密度関数を表し、H(X)は観測信号Xの同時エントロピーを表す。
Figure 2007193035
KL情報量I(Y)は、Y〜Yが独立である場合に最小(理想的には0)となるため、分離処理では、KL情報量I(Y)を最小とし、且つ、正規直交制約を満たす分離行列Wを求めることになる。
本実施の形態では、このような分離行列Wを求めるため、下記式(24)〜(26)で示される正規直交制約付きの勾配法を用いる。この式(24)において、f(・)はΔWが正規直交制約を満たす、すなわちWが正規直交行列のときに、W+η・ΔWも正規直交行列になるための操作を表す。
Figure 2007193035
正規直交制約付きの勾配法では、上記式(24)に従って分離行列Wの修正値ΔWを求め、上記式(25)に従ってWを更新し、更新された分離行列Wを用いて上記式(26)に従って分離信号を生成する。この式(24)〜(26)の処理を何度もループさせて繰り返すと、最終的にWの各要素はある値に収束し、それが分離行列の推定値となる。そして、その分離行列を用いて分離処理を行ったときの結果が、最終的な分離信号となる。特に、本実施の形態では、スペクトログラム全体からKL情報量を計算し、分離行列Wを用いてスペクトログラム全体で信号を分離するため、分離信号にはパーミュテーションが発生しない。
ここで、行列ΔWはWと同様に疎行列であるため、非ゼロの要素のみを更新する式を用いた方が効率がよい。そこで、ω番目の周波数binの要素のみからなる行列ΔW(ω)と W(ω)とを下記式(27)、(28)のように定義し、下記式(29)に従ってΔW(ω)を計算する。この式(29)を全てのωについて計算すれば、ΔWの中の非ゼロの要素は全て計算できたことになる。また、このようにして求めたW+η・ΔWは、正規直交行列となっている。
Figure 2007193035
上記式(30)において、関数φkω(Y(t))は上記式(31)のように確率密度関数の対数をω番目の引数で偏微分したものであり、スコア関数(又は「活性化関数」)と称される。本実施の形態では、多次元確率密度関数を用いているため、このスコア関数も多次元(多変量)である。
以下、スコア関数の導出方法とスコア関数の具体例とについて説明する。
スコア関数を導出する方法の1つは、下記式(32)に従って多次元確率密度関数を構築し、その対数を微分することである。この式(32)において、hは確率の総和を1に調整するための定数であるが、スコア関数を導出する過程で約分されて消えるため、具体的な値を代入する必要はない。また、f(・)は任意のスカラー関数である。また、||Y(t)||はY(t)のL2ノルムであり、下記式(33)に従って計算されるLノルムにおいてN=2としたものである。
Figure 2007193035
多次元確率密度関数の一例を下記式(34)、(36)に示し、そのときのスコア関数を下記式(35)、(37)に示す。但し、複素数の絶対値の微分は、下記式(38)のように定義する。
Figure 2007193035
Figure 2007193035
また、上述のように多次元確率密度関数を経由してスコア関数を導出するのではなく、多次元確率密度関数を経由せずにスコア関数を直接構築することも可能である。このためには、以下の条件i)、ii)を満たすようにスコア関数を構築すればよい。なお、上記式(35)、(37)は、この条件i)、ii)を満たしている。
i) 返値が無次元量
ii) 返値の位相(複素数の位相)がω番目の引数Y(ω,t)の位相と逆位相
ここで、スコア関数φkω(Y(t))の返値が無次元量とは、Y(ω,t)の単位を[x]としたとき、スコア関数の分子と分母とで[x]が相殺され、返値には[x]の次元(nを実数としたときに[x]と記述される単位)が含まれないことを表す。
一方、スコア関数φkω(Y(t))の返値の位相がω番目の引数Y(ω,t)の位相と逆位相とは、arg{φkω(Y(t))}=−arg{Y(ω,t)}が任意のY(ω,t)について成立することを表す。但し、arg{z}は複素数zの位相成分を表す。例えば、大きさrと位相角θとを用いてz=r・exp(iθ)と表した場合、arg{z}=θである。
なお、本実施の形態では、スコア関数をlogPYk(Y(t))を微分したものと定義しているため、スコア関数の条件は、返値の位相がω番目の引数の位相と「逆位相」となるが、スコア関数をlog(1/PYk(Y(t)))を微分したものと定義した場合には、スコア関数の条件は、返値の位相がω番目の引数の位相と「同位相」となる。何れの場合であっても、スコア関数は、返値の位相がω番目の引数の位相にのみ依存するものであればよい。
上述した条件i)、ii)を共に満たすスコア関数の具体例を下記式(39)、(40)に示す。この式(39)は、上記式(35)をNに対して一般化し、L2ノルム以外でもパーミュテーションなしに分離できるようにしたものである。式(40)も同様に、上記式(37)をNに対して一般化したものである。この式(39)、(40)において、L、mは正の定数であり、例えば1でよい。また、aは0除算を防ぐための定数であり、値は非負である。
Figure 2007193035
上記式(39)、(40)において、Y(ω,t)の単位を[x]とすると、[x]を持つ量は分子と分母とで同数(何れもL+1回)出現するため、相殺されてスコア関数全体では無次元量となる(tanhは無次元量と見なす)。さらに、これらの式の返値の位相は−Y(ω,t)の位相と等しい(それ以外の項は位相には影響しない)ため、返値の位相はω番目の引数Y(ω,t)の位相と逆位相である。
さらに一般化したスコア関数を下記式(41)に示す。この式(41)において、g(x)は以下の条件iii)〜vi)を満たす関数である。
iii)x≧0においてg(x)≧0
iv) x≧0において、g(x)は定数、単調増加関数、又は単調減少関数
v) g(x)が単調増加又は単調減少である場合、x→∞においてg(x)は正の値に収束する
vi) g(x)はxに対して無次元量
Figure 2007193035
分離に成功するg(x)の例を下記式(42)〜(46)に示す。この式(42)〜(46)において、定数項は上述の条件iii)〜v)を満たすように定める。
Figure 2007193035
なお、上記式(41)において、mはチャンネル番号kや周波数bin番号ωとは関係なく定数であるが、これをkやωに依存して変更しても構わない。すなわち、下記式(47)のように、mの代わりにm(ω)としても構わない。このようにm(ω)を用いることで、収束時のY(ω,t)のスケールをある程度調整することが可能になる。
Figure 2007193035
ここで、上記式(39)〜(41)、(47)において、Y(t)のLノルム||Y(t)||を計算する際には、複素数の絶対値を求める必要があるが、下記式(48)、(49)に示すように、複素数の絶対値を実部又は虚部の絶対値で近似してもよく、下記式(50)に示すように、両者の和で近似してもよい。
Figure 2007193035
複素数を実部と虚部とに分解して保持しているシステムにおいて、z=x+iy(x,yは実数、iは虚数単位)で表される複素数zの絶対値は下記式(51)のように計算される。これに対して実部や虚部の絶対値は、下記式(52)、(53)のように計算されるため、計算量が削減される。特に、L1ノルムの場合には、2乗や平方根を用いずに、実数の絶対値と和のみで計算できるため、計算を非常に簡略化することができる。
Figure 2007193035
また、Lノルムの値は、Y(t)のうちで絶対値の大きな成分によってほぼ決まるため、Lノルムの計算の際、Y(t)の全ての成分を用いるのではなく、絶対値の大きな成分の上位x%のみを用いるようにしてもよい。この上位x%は、観測信号のスペクトログラムから事前に求めることができる。
さらに一般化したスコア関数を下記式(54)に示す。このスコア関数は、ベクトルY(t)を引数とする関数f(Y(t))と、スカラーY(ω,t)を引数とする関数g(Y(ω,t))と、返値の位相を決定するための項−Y(ω,t)との積で表される関数である(f(・)、g(・)は上述した関数とは別物である)。但し、f(Y(t))及びg(Y(ω,t))は、両者の積が任意のY(t)、Y(ω,t)について以下のvii)、viii)の条件を満たすように、それぞれ定める。
vii) f(Y(t))とg(Y(ω,t))との積は非負の実数
viii)f(Y(t))とg(Y(ω,t))との積の次元は[1/x]
(Y(ω,t)の単位を[x]とする)
Figure 2007193035
上述の条件vii)により、スコア関数の位相は−Y(ω,t)と同一となり、スコア関数の返値の位相がω番目の引数の位相と逆位相であるという条件が満たされる。また、上述の条件viii)により、次元がY(ω,t)と相殺され、スコア関数の返値が無次元量という条件が満たされる。
以上、本実施の形態で用いる具体的な計算式について説明したが、以下では本実施の形態における音声信号分離装置の具体的な構成について説明する。
本実施の形態における音声信号分離装置の概略構成を図3に示す。この音声信号分離装置1において、n個のマイクロホン10〜10は、n個の音源が発する独立な音を観測し、A/D(Analog/Digital)変換部11は、この信号をA/D変換して観測信号を得る。短時間フーリエ変換部12は、観測信号を短時間フーリエ変換して観測信号のスペクトログラムを生成する。標準化・無相関化部13は、観測信号のスペクトログラムに対して標準化処理(平均や分散の調整)と無相関化処理(チャンネル間での無相関化)とを施す。信号分離部14は、信号モデル保持部15に保持された信号モデルを利用して、観測信号のスペクトログラムを独立な信号に基づくスペクトログラムに分離する。信号モデルとは、具体的には上述のスコア関数のことである。
リスケーリング部16は、分離信号のスペクトログラムの各周波数binに対してスケールを揃える処理を行う。また、分離処理前に観測信号に対して施されていた標準化処理を元に戻す処理を行う。逆フーリエ変換部17は、逆フーリエ変換によって分離信号のスペクトログラムを時間領域の分離信号に変換する。D/A変換部18は、時間領域の分離信号をD/A変換し、n個のスピーカ19〜19は、それぞれ独立の音を再生する。
この音声信号分離装置の処理の概略を図4のフローチャートを用いて説明する。先ずステップS1において、マイクロホンを介して音声信号を観測し、ステップS2において、観測信号を短時間フーリエ変換してスペクトログラムを得る。次にステップS3において、観測信号のスペクトログラムに対して標準化処理及び無相関化処理を施す。
ここで、標準化は、各周波数binの平均を0に、標準偏差を1に揃える操作のことである。周波数bin毎に平均値を減算することで平均を0にし、さらに標準偏差で除算することで標準偏差を1にすることができる。標準化後の観測信号をX’とすると、X’=P(X−μ)と表すことができる。なお、Pは標準偏差の逆数からなる分散標準化行列を表し、μは周波数bin毎の平均値からなる平均値ベクトルを表す。
一方、無相関化は、白色化(whitening)、或いは球状化(sphering)とも称され、チャンネル間の相関を0にする操作のことである。この無相関化は、従来と同様に周波数bin毎に行えばよい。
この無相関化についてさらに説明する。周波数bin=ωにおける観測信号ベクトルX(ω,t)の分散共分散行列Σ(ω)を下記式(55)のように定義する。このΣ(ω)は、固有ベクトル p(ω)と固有値λ(ω)とを用いて下記式(56)のように表すことができる。固有ベクトル p(ω)からなる行列をP(ω)とし、固有値λ(ω)からなる対角行列をΛ(ω)とし、X(ω,t)を下記式(57)のように変換すると、変換結果であるX'(ω,t)の各要素は互いに無相関になっている。すなわち、E[X'(ω,t)X'(ω,t)]=Iを満たす。
Figure 2007193035
続いてステップS4において、標準化・無相関化された観測信号に対して分離処理を行う。具体的には、分離行列Wと分離信号Yとを求める。なお、このステップS4における処理は正規直交制約を適用したものであるが、詳細については後述する。ステップS4で得られた分離信号Yは、パーミュテーションは発生していないものの、周波数bin毎にスケールが異なっている。そこでステップS5では、リスケーリング処理を行い、周波数binの間のスケールを揃える。ここでは、標準化処理で変更した平均と標準偏差とを元に戻す処理も行う。なお、ステップS5におけるリスケーリング処理の詳細については後述する。続いてステップS6において、リスケーリング後の分離信号を逆フーリエ変換によって時間領域の分離信号に変換し、ステップS7においてスピーカから再生する。
上述したステップS4(図4)における分離処理の詳細について、図5のフローチャートを用いて説明する。なお、図5におけるX(t)は標準化・無相関化された観測信号であり、図4のX’(t)に相当する。
先ずステップS11において、分離行列Wに初期値を代入しておく。正規直交制約を満たすため、この初期値も正規直交行列とする。なお、単位行列も正規直交行列の一種であるため、初期値として単位行列を代入するようにしてもよい。また、同じ環境で何度も分離処理を行う場合には、前回の収束値を今回の初期値としてもよい。これにより、収束までのループ回数を少なくすることができる。
次にステップS12において、Wが収束したか否かを判別し、収束している場合には処理を終了し、収束していない場合にはステップS13に進む。
続いてステップS13において、その時点での分離信号Yを計算し、ステップS14において上記式(29)に従ってΔWを計算する。このΔWは周波数bin毎に計算されるため、ωのループを回し、それぞれのωについて上記式(29)を適用する。ΔWを求めたら、ステップS15においてWを更新し、ステップS12に戻る。
なお、図5ではステップS13,S15が周波数binループの外側にある場合について説明したが、これらの処理を周波数binループの内側に移し、従来のように周波数bin毎に計算しても構わない。この場合、ΔW(ω)の計算式とW(ω)の更新式とを統合し、ΔW(ω)を計算せずにW(ω)を直接計算するようにしても構わない。
また、図5ではWが収束するまでWの更新処理を行うものとして説明したが、十分に大きな所定回数だけ繰り返すようにしても構わない。
次に、上述したステップS5(図4)におけるリスケーリング処理の詳細について説明する。リスケーリングの方法は、以下に示す3通りの方法のうち、何れを用いても構わない。
リスケーリングの第1の方法は、分離結果(スケール不揃い)からSIMO(Single Input Multiple Output)形式の信号を生成するものである。これは、文献「Noboru Murata and Shiro Ikeda,“An on-line algorithm for blind source separation on speech signals.”In Proceedings of 1998 International Symposium on Nonlinear Theory and its Applications (NOLTA'98), pp.923-926, Crans-Montana, Switzerland, September 1998(http://www.ism.ac.jp/~shiro/papers/conferences/nolta1998.pdf)」に記述されている周波数bin毎のリスケーリング方法を、上記式(17)の分離行列Wを用いてスペクトログラム全体のリスケーリングに拡張したものである。
観測信号ベクトルX(t)のうち、k番目の音源に由来する成分をXYk(t)とする。XYk(t)は、k番目の音源のみが鳴っている状態を想定し、それに伝達関数を作用させることで求めることができる。独立成分分析の分離結果を用いると、k番目の音源のみが鳴っている状態は、上記式(19)のベクトルにおいて、Y(t)以外を0とすることで表現でき、また、伝達関数は分離行列Wの逆行列として表現できる。したがって、XYk(t)は下記式(58)のように求めることができる。この式(58)において、Qは観測信号を標準化・無相関化する行列である。また、右辺の第2項は上記式(19)のY(t)以外を0としたベクトルである。このようにして求めたXYk(t)では、スケールの不定性が解消されている。
Figure 2007193035
リスケーリングの第2の方法は、最小歪み原理に基づくものである。これは、文献「K. Matsuoka and S. Nakashima,“Minimal distortion principle for blind source separation.”, Proceedings of International Conference on INDEPENDENT COMPONENT ANALYSIS and BLIND SIGNAL SEPARATION (ICA 2001), 2001, pp.722-727(http://ica2001.ucsd.edu/index_files/pdfs/099-matauoka.pdf)」に記述されている周波数bin毎のリスケーリング方法を、上記式(17)の分離行列Wを用いてスペクトログラム全体のリスケーリングに拡張したものである。
最小歪み原理に基づくリスケーリングでは、下記式(59)に従って分離行列Wを再計算する。再計算された分離行列Wを用いて再びY=WXによって分離信号を計算すると、Yからはスケールの不定性が消えている。
Figure 2007193035
リスケーリングの第3の方法は、以下のように分離信号と残差信号との独立性を利用するものである。
チャンネル番号k、周波数bin番号ωにおける分離結果Y(ω,t)に対して、スケーリング係数α(ω)を乗じた信号α(ω)Y(ω,t)と、観測信号からの残差であるX(ω,t)−α(ω)Y(ω,t)とを想定する。もしα(ω)が正しい値ならば、残差X(ω,t)−α(ω)Y(ω,t)からはY(ω,t)の要素が完全に消えているはずである。そして、そのときのα(ω)Y(ω,t)は、マイクロホンで観測される原信号の1つを、スケールを含めて推定したことになっている。
ここで、独立性という尺度を導入すると、要素が完全に消えていることは、{X(ω,t)−α(ω)Y(ω,t)}と{Y(ω,t)}とが時間方向に独立であると表現でき、この条件は任意のスカラー関数 f(・)、g(・)を用いて下記式(60)のように表現できる。但し、上線は共役複素数を表す。したがって、下記式(60)を満たすスケーリング係数α(ω)を求め、そのα(ω)をY(ω,t)に乗じれば、スケールの不定性は解消する。
Figure 2007193035
上記式(60)の必用条件としてf(x)=xの場合を考えると、スケーリング係数 α(ω)が満たすべき条件として、下記式(61)が得られる。この式(61)のg(x)は任意でよく、例えば下記式(62)〜(65)の何れかを用いることができる。分離結果として、Y(ω,t)の代わりにα(ω)Y(ω,t)を用いることで、スケールの不定性は解消される。
Figure 2007193035
Figure 2007193035
以下、具体的な分離結果を示す。図6(A)は、前述した「rsm2_mA.wav」と「rsm2_mB.wav」という2つのファイルから生成したスペクトログラムを示すものであり、音声と音楽とが混合された観測信号の一例を表している。一方、図6(B)は、この2つのスペクトログラムを観測信号とし、上記式(29)の更新式と上記式(37)のスコア関数とを用いて分離した結果である。それ以外の条件は前述した図12と同様である。図6(B)から分かるように、従来法ではパーミュテーションが発生していたのに対し(図12(B))、本実施の形態における分離方法では、パーミュテーションが発生していない。
以上詳細に説明したように、本実施の形態における音声信号分離装置1によれば、従来のように分離行列W(ω)を用いて周波数bin毎に信号を分離する代わりに、分離行列Wを用いてスペクトログラム全体で信号を分離することにより、分離後の後処理を行うことなくパーミュテーションの問題を解消することができる。特に、本実施の形態における音声信号分離装置1では、正規直交制約付きの勾配法を用いているため、正規直交制約を設けない場合と比較して、少ないループ回数で分離行列Wを求めることができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
例えば、上述した実施の形態では、上記式(25)において学習係数ηを定数としていたが、このηの値をΔWの値によって適応的に変化させても構わない。すなわち、ΔWの各要素の絶対値が大きな値の場合にはηを小さくしてWのオーバーフローを防ぎ、ΔWが零行列に近い場合(Wが収束点に近づいている場合)にはηを大きくして収束点への収束を速くするようにしても構わない。
以下、このように学習係数ηの値を適応的に変化させる場合のηの計算方法について説明する。
||ΔW||を行列ΔWのノルムとして、例えば下記式(68)のように計算する。そして、下記式(66)に示すように、学習係数ηを||ΔW||の関数として表す。或いは、ΔWの他にWについても同様にノルム||W||を計算し、下記式(67)に示すように、両者の比である||ΔW||/||W||をf(・)の引数とする。簡単な例としては、N=2とすることができる。この式(66)、(67)のf(・)には、例えば下記式(69)〜(71)のように、f(0)=η、f(∞)→0を満たす単調減少関数を用いる。この式(69)〜(71)において、aは任意の正の値であり、f(・)の減少の度合いを調整するパラメータである。また、Lは任意の正の実数である。簡単な例としては、a=1、L=2とすることができる。
Figure 2007193035
Figure 2007193035
また、上記式(66)、(67)では、全ての周波数binで共通の学習係数ηを用いたが、下記式(72)のように、周波数bin毎に異なる学習係数η(ω)を用いても構わない。この場合には、ΔW(ω)のノルム||ΔW(ω)||を例えば下記(74)のように計算し、下記式(73)に示すように、学習係数η(ω)を||ΔW(ω)||の関数として表す。この式(73)において、f(・)は上記式(66)、(67)と同様である。また、||ΔW(ω)||の代わりに、||ΔW(ω)||/||W(ω)|| を用いても構わない。
Figure 2007193035
また、上述した実施の形態では、スペクトログラム全体の信号、すなわちスペクトログラムの全ての周波数binの信号を用いるものとして説明したが、全チャンネルに亘って信号が殆ど存在しない(0に近い成分しか存在しない)周波数binは、分離が成功してもしなくても時間領域の分離信号には殆ど影響しないため、そのような周波数binを省いてスペクトログラムを縮退させることで、計算量を削減し、分離処理を高速化することができる。
スペクトログラムを縮退させる一例としては、観測信号のスペクトログラムを生成した後、周波数bin毎に信号の絶対値が所定の閾値を上回っているか否かの判定を行い、全フレーム且つ全チャンネルにおいて閾値を下回っている周波数binを信号が存在しないと判定してスペクトログラムから除去する方法が挙げられる。但し、後で復元するため、何番目の周波数binを除去したかを記録しておく。信号が存在しない周波数binがm本あるとすると、除去後のスペクトログラムはM−m本の周波数binを持つ。
スペクトログラムを縮退させる他の例としては、周波数bin毎に例えば下記式(75)に従って信号の強さD(ω)を計算し、強さの上位M−m本を採用する(下位m本を除去する)方法が挙げられる。
Figure 2007193035
スペクトログラムを縮退させると、この縮退後のスペクトログラムに対して、標準化・無相関化、分離処理、リスケーリング処理を行う。さらに、先ほど除去した周波数binを挿入する。なお、除去した信号の代わりに全ての成分が0というベクトルを挿入してもよい。この信号を逆フーリエ変換することで、時間領域の分離信号を得ることができる。
また、上述した実施の形態では、マイクロホンの数と音源数とが一致するものとして説明したが、マイクロホンの数が音源数よりも多い場合にも適用可能である。この場合には、例えば主成分分析(Principal Component Analysis;PCA)を用いることで、マイクロホンの数を音源数まで減らすことができる。
また、上述した実施の形態では、スピーカを介して音を再生するものとしたが、分離信号を出力し、音声認識等に用いるようにすることも可能である。この場合には、逆フーリエ変換処理を適宜省略しても構わない。分離信号を音声認識に用いる場合、複数の分離信号の中から何れが音声かを特定する必要があるが、そのためには例えば以下の何れかの方法を用いればよい。
(a)複数の分離信号のそれぞれについて、尖度などを用いて最も「音声らしい」チャンネルを1つ特定し、その分離信号を音声認識に用いる。
(b)複数の分離信号を複数の音声認識装置に並列に入力して音声認識を行い、認識結果毎に尤度や信頼度などの尺度を計算し、最も尺度の高い認識結果を採用する。
信号の分離処理をスペクトログラム全体で行う様子を示す図である。 本実施の形態におけるエントロピーと同時エントロピーとを説明する図である。 本実施の形態における音声信号分離装置の概略構成を示す図である。 上記音声信号分離装置の処理の概略を説明するフローチャートである。 分離処理の詳細を説明するフローチャートである。 信号の分離処理をスペクトログラム全体で行った場合における観測信号と分離信号との一例を示す図である。 N個の音源から出力された原信号をn個のマイクロホンで観測する状況を示す図である。 時間周波数領域における従来の独立成分分析の概略を示す図である。 観測信号及びそのスペクトログラムと分離信号及びそのスペクトログラムとを示す図である。 信号の分離処理を周波数bin毎に行う様子を示す図である。 従来のエントロピーと同時エントロピーとを説明する図である。 信号の分離処理を周波数bin毎に行った場合における観測信号と分離信号との一例を示す図である。
符号の説明
1 音声信号分離装置、10〜10 マイクロホン、11 A/D変換部、12 短時間フーリエ変換部、13 標準化・無相関化部、14 信号分離部、15 信号モデル保持部、16 リスケーリング部、17 逆フーリエ変換部、18 D/A変換部、19〜19 スピーカ

Claims (4)

  1. 音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、複数チャンネルの分離信号を生成する音声信号分離装置において、
    上記時間領域の観測信号を時間周波数領域の観測信号に変換する第1の変換手段と、
    上記時間周波数領域の観測信号をチャンネル間で無相関化する無相関化手段と、
    上記時間周波数領域の観測信号から時間周波数領域の分離信号を生成する分離手段と、
    上記時間周波数領域の分離信号を時間領域の分離信号に変換する第2の変換手段とを有し、
    上記分離手段は、上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成し、この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算し、上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正し、略々収束した分離行列を用いて上記時間周波数領域の分離信号を生成し、
    上記初期値及び上記修正値による修正後の分離行列は、正規直交行列である
    ことを特徴とする音声信号分離装置。
  2. 上記スコア関数は、返値が無次元量であり、且つ、返値の位相が1つの引数にのみ依存することを特徴とする請求項1記載の音声信号分離装置。
  3. 音声信号を含む複数の信号が混合された複数チャンネルの時間領域の観測信号を独立成分分析を用いて信号毎に分離し、複数チャンネルの分離信号を生成する音声信号分離方法において、
    上記時間領域の観測信号を時間周波数領域の観測信号に変換する工程と、
    上記時間周波数領域の観測信号をチャンネル間で無相関化する工程と、
    上記時間周波数領域の観測信号と初期値が代入された分離行列とから時間周波数領域の分離信号を生成する工程と、
    この時間周波数領域の分離信号と多次元確率密度関数を用いたスコア関数と上記分離行列とを用いて該分離行列の修正値を計算する工程と、
    上記修正値を用いて、上記分離行列が略々収束するまで該分離行列を修正する工程と、
    略々収束した分離行列を用いて生成された時間周波数領域の分離信号を時間領域の分離信号に変換する工程とを有し、
    上記初期値及び上記修正値による修正後の分離行列は、正規直交行列である
    ことを特徴とする音声信号分離方法。
  4. 上記スコア関数は、返値が無次元量であり、且つ、返値の位相が1つの引数にのみ依存することを特徴とする請求項3記載の音声信号分離方法。
JP2006010277A 2006-01-18 2006-01-18 音声信号分離装置及び方法 Expired - Fee Related JP4556875B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2006010277A JP4556875B2 (ja) 2006-01-18 2006-01-18 音声信号分離装置及び方法
US11/653,235 US7797153B2 (en) 2006-01-18 2007-01-16 Speech signal separation apparatus and method
KR1020070005193A KR20070076526A (ko) 2006-01-18 2007-01-17 음성 신호 분리 장치 및 방법
EP07100711A EP1811498A1 (en) 2006-01-18 2007-01-18 Speech signal separation apparatus and method
CNB2007101266765A CN100559472C (zh) 2006-01-18 2007-01-18 语音信号分离设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006010277A JP4556875B2 (ja) 2006-01-18 2006-01-18 音声信号分離装置及び方法

Publications (2)

Publication Number Publication Date
JP2007193035A true JP2007193035A (ja) 2007-08-02
JP4556875B2 JP4556875B2 (ja) 2010-10-06

Family

ID=37891937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006010277A Expired - Fee Related JP4556875B2 (ja) 2006-01-18 2006-01-18 音声信号分離装置及び方法

Country Status (5)

Country Link
US (1) US7797153B2 (ja)
EP (1) EP1811498A1 (ja)
JP (1) JP4556875B2 (ja)
KR (1) KR20070076526A (ja)
CN (1) CN100559472C (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110118A1 (ja) * 2008-03-05 2009-09-11 国立大学法人 東京大学 音信号の分離方法
JP2009535998A (ja) * 2006-05-02 2009-10-01 クゥアルコム・インコーポレイテッド ブラインド信号源分離(bss)の向上技術
JP2010117653A (ja) * 2008-11-14 2010-05-27 Yamaha Corp 信号処理装置およびプログラム
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
JP2012019454A (ja) * 2010-07-09 2012-01-26 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8218782B2 (en) 2008-03-28 2012-07-10 Sony Corporation Headphone device, signal processing device, and signal processing method
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
CN102708860A (zh) * 2012-06-27 2012-10-03 昆明信诺莱伯科技有限公司 一种基于声信号识别鸟类种类的判断标准建立方法
KR101197407B1 (ko) 2005-01-26 2012-11-05 소니 주식회사 음성 신호 분리 장치 및 방법
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US9245517B2 (en) 2008-06-27 2016-01-26 Sony Corporation Noise reduction audio reproducing device and noise reduction audio reproducing method

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
CN102138176B (zh) * 2008-07-11 2013-11-06 日本电气株式会社 信号分析装置、信号控制装置及其方法
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
KR101225932B1 (ko) 2009-08-28 2013-01-24 포항공과대학교 산학협력단 음악 음원 분리 방법 및 장치
KR101272972B1 (ko) 2009-09-14 2013-06-10 한국전자통신연구원 음원 데이터베이스를 사용하지 않는 음악 음원 분리 방법 및 장치
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011215317A (ja) * 2010-03-31 2011-10-27 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
CN102081928B (zh) * 2010-11-24 2013-03-06 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN102903368B (zh) 2011-07-29 2017-04-12 杜比实验室特许公司 用于卷积盲源分离的方法和设备
US8880395B2 (en) 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
US8886526B2 (en) 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
US9099096B2 (en) 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
KR101474321B1 (ko) * 2012-06-29 2014-12-30 한국과학기술원 암묵신호 분리에서의 순열/비례 문제 해결장치 및 그 방법
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
EP3165007B1 (en) * 2014-07-03 2018-04-25 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
CN106055903B (zh) * 2016-06-02 2017-11-03 东南大学 基于分段常函数正交基的随机动态载荷分解技术
CN110232931B (zh) * 2019-06-18 2022-03-22 广州酷狗计算机科技有限公司 音频信号的处理方法、装置、计算设备及存储介质
GB2609605B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems
GB2609021B (en) * 2021-07-16 2024-04-17 Sony Interactive Entertainment Europe Ltd Audio generation methods and systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302122A (ja) * 2003-03-31 2004-10-28 Nippon Telegr & Teleph Corp <Ntt> 目的信号抽出方法及びその装置、目的信号抽出プログラム及びその記録媒体
JP2005091732A (ja) * 2003-09-17 2005-04-07 Univ Kinki ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法
JP2006238409A (ja) * 2005-01-26 2006-09-07 Sony Corp 音声信号分離装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5959966A (en) * 1997-06-02 1999-09-28 Motorola, Inc. Methods and apparatus for blind separation of radio signals
US7047043B2 (en) * 2002-06-06 2006-05-16 Research In Motion Limited Multi-channel demodulation with blind digital beamforming
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP4496378B2 (ja) 2003-09-05 2010-07-07 財団法人北九州産業学術推進機構 定常雑音下における音声区間検出に基づく目的音声の復元方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302122A (ja) * 2003-03-31 2004-10-28 Nippon Telegr & Teleph Corp <Ntt> 目的信号抽出方法及びその装置、目的信号抽出プログラム及びその記録媒体
JP2005091732A (ja) * 2003-09-17 2005-04-07 Univ Kinki ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法
JP2006238409A (ja) * 2005-01-26 2006-09-07 Sony Corp 音声信号分離装置及び方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101197407B1 (ko) 2005-01-26 2012-11-05 소니 주식회사 음성 신호 분리 장치 및 방법
JP2009535998A (ja) * 2006-05-02 2009-10-01 クゥアルコム・インコーポレイテッド ブラインド信号源分離(bss)の向上技術
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
WO2009110118A1 (ja) * 2008-03-05 2009-09-11 国立大学法人 東京大学 音信号の分離方法
US8218782B2 (en) 2008-03-28 2012-07-10 Sony Corporation Headphone device, signal processing device, and signal processing method
US9595252B2 (en) 2008-06-27 2017-03-14 Sony Corporation Noise reduction audio reproducing device and noise reduction audio reproducing method
US9245517B2 (en) 2008-06-27 2016-01-26 Sony Corporation Noise reduction audio reproducing device and noise reduction audio reproducing method
JP2010117653A (ja) * 2008-11-14 2010-05-27 Yamaha Corp 信号処理装置およびプログラム
JP2010282193A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 残響抑圧装置、及び残響抑圧方法
JP2012019454A (ja) * 2010-07-09 2012-01-26 Sharp Corp 音声信号処理装置、方法、プログラム、及び記録媒体
CN102708860B (zh) * 2012-06-27 2014-04-23 昆明信诺莱伯科技有限公司 一种基于声信号识别鸟类种类的判断标准建立方法
CN102708860A (zh) * 2012-06-27 2012-10-03 昆明信诺莱伯科技有限公司 一种基于声信号识别鸟类种类的判断标准建立方法

Also Published As

Publication number Publication date
CN100559472C (zh) 2009-11-11
CN101086846A (zh) 2007-12-12
US20070185705A1 (en) 2007-08-09
JP4556875B2 (ja) 2010-10-06
EP1811498A1 (en) 2007-07-25
US7797153B2 (en) 2010-09-14
KR20070076526A (ko) 2007-07-24

Similar Documents

Publication Publication Date Title
JP4556875B2 (ja) 音声信号分離装置及び方法
JP4449871B2 (ja) 音声信号分離装置及び方法
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
US9668066B1 (en) Blind source separation systems
Kim et al. Independent vector analysis: Definition and algorithms
JP4403436B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US20080228470A1 (en) Signal separating device, signal separating method, and computer program
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
WO2021193093A1 (ja) 信号処理装置、信号処理方法およびプログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP7046636B2 (ja) 信号解析装置、方法、及びプログラム
JP4946330B2 (ja) 信号分離装置及び方法
JP6644356B2 (ja) 音源分離システム、方法及びプログラム
Koutras et al. Improving simultaneous speech recognition in real room environments using overdetermined blind source separation
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
JP4714892B2 (ja) 耐高残響ブラインド信号分離装置及び方法
KR100863184B1 (ko) 간섭 및 반향신호 제거를 위한 다단계 암묵 디콘볼루션방법
Nag et al. Investigating Single Channel Source Separation Using Non-Negative Matrix Factorization and Its Variants for Overlapping Speech Signal
Sekiguchi A Unified Statistical Approach to Fast and Robust Multichannel Speech Separation and Dereverberation
Izumi et al. Multichannel NMF with Reduced Computational Complexity for Speech Recognition
Wang et al. Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation
CN116997961A (zh) 信息处理装置、输出方法和输出程序
Paul et al. Hybrid solution to single-channel hybrid noisy speech for an industrial environment

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100629

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100712

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees