JP2015138053A - 音響信号処理装置およびその方法 - Google Patents

音響信号処理装置およびその方法 Download PDF

Info

Publication number
JP2015138053A
JP2015138053A JP2014008074A JP2014008074A JP2015138053A JP 2015138053 A JP2015138053 A JP 2015138053A JP 2014008074 A JP2014008074 A JP 2014008074A JP 2014008074 A JP2014008074 A JP 2014008074A JP 2015138053 A JP2015138053 A JP 2015138053A
Authority
JP
Japan
Prior art keywords
time
signal
component
acoustic signal
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014008074A
Other languages
English (en)
Other versions
JP2015138053A5 (ja
JP6482173B2 (ja
Inventor
恭平 北澤
Kyohei Kitazawa
恭平 北澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014008074A priority Critical patent/JP6482173B2/ja
Priority to US14/596,505 priority patent/US9646631B2/en
Publication of JP2015138053A publication Critical patent/JP2015138053A/ja
Publication of JP2015138053A5 publication Critical patent/JP2015138053A5/ja
Application granted granted Critical
Publication of JP6482173B2 publication Critical patent/JP6482173B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

【課題】事前の学習なしに、第一の成分と第二の成分が混合した音響信号から第一の成分と第二の成分の少なくとも一方を分離する。【解決手段】入力部110は、第一の成分と第二の成分が混合した音響信号を入力する。時間周波数変換部120は、音響信号を時間と信号周波数の関係を示す時間周波数信号に変換する。帯域分割部130は、時間周波数信号を複数の帯域に分割する。NMF部140は、第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解する。NMF部150は、第一のアクティビティ行列U1を教師アクティビティとして、音響信号から変換された時間周波数信号を第二のアクティビティ行列U2に分解する。【選択図】図1

Description

本発明は、
教師アクティビティの取得装置および教師アクティビティを用いた音源分離あるいは雑音抑制装置
単一チャネルの音響信号に対する音源分離あるいは雑音抑制のための教師アクティビティの取得装置および該教師アクティビティを用いた音源分離装置あるいは雑音抑制装置に関する。
ディジタルビデオカメラは勿論、最近ではディジタルカメラにおいても動画撮影が可能になり、音声が録音される機会が増えている。撮影中に録音される音声を確認することは困難であり、撮影後、録音された音声を再生すると、雑音が混入していたり、音声以外の音が大き過ぎて聴き取りたい音声が隠されていることがある。そのため、目的音と不要音の成分を分離したり、雑音成分を除去する技術が提案されている。
例えば、音源の方向性を利用して、複数のマイクロホン信号を信号処理して目的の音声を強調して取り出すビームフォーマが知られている(例えば、非特許文献1参照)。
また、撮影中に混入する風雑音を除去する方法として、並列に収音された複数の音響信号に非負値行列因子分解を行う方法が提案されている(特許文献1参照)。この方法は、複数の音響信号のうち一つの音響信号の基底と、それとは別の音響信号の基底の間で、相関が高い基底を雑音成分とし、雑音成分を抑制する。
しかし、ディジタルカメラにはマイクロホンが一つしかない場合もあり、複数のマイクロホン信号を用いる上記技術を適用して、目的音を分離したり、風雑音のような非定常の雑音を除去したりすることができない。
単一チャネルの音源分離技術として、非負値行列因子分解(non-negative matrix factorization)を用いる方法が知られている。しかし、非負値行列因子分解で分離された信号を用いて雑音抑制を行うには、分離された信号が雑音か音声かを、事前に学習した辞書などを用いて、クラスタリングする必要がある。
特開2011-227417号公報 特開2005-258440号公報
浅野太「音のアレイ信号処理−音源の定位・追跡と分離−」音響テクノロジーシリーズ16、2011年2月25日、ISBN978-4-339-01116-6 P. Smaragdis, Judith C. Brown「Non-Negative Matrix Factorization for Polyphonic Music Transcription」2003 IEEE Workshop on Application of Signal Processing to Audio and Acoustics, October 19-22, 2003 亀岡弘和、小野順貴、柏野邦夫、嵯峨山茂樹「複素NMF:新しいスパース信号分解表現と基底系学習アルゴリズム」日本音響学会講演論文集、2-8-13、657-660頁、2008年9月
本発明は、事前の学習なしに、第一の成分と第二の成分が混合した音響信号から第一の成分と第二の成分の少なくとも一方を分離することを目的とする。
本発明は、前記の目的を達成する一手段として、以下の構成を備える。
本発明にかかる音響信号処理は、第一の成分と第二の成分が混合した音響信号を入力し、前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換し、前記時間周波数信号を複数の帯域に分割し、前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解し、前記第一のアクティビティ行列を教師アクティビティとして、前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する。
本発明によれば、事前の学習なしに、第一の成分と第二の成分が混合した音響信号から、第一の成分と第二の成分の少なくとも一方を分離することができる。
実施例1の音響信号処理装置の構成例を示すブロック図。 帯域の分割と抽出を説明する図。 実施例1の音響信号処理装置における音響信号処理を説明するフローチャート。 音響信号処理装置の変形例を示すブロック図。 音響信号処理装置の第二の変形例を示すブロック図。 音響信号処理装置の第三の変形例を示すブロック図。 実施例2の音響信号処理装置の構成例を示すブロック図。 実施例2の音響信号処理装置における音響信号処理を説明するフローチャート。 実施例3の音響信号処理装置の構成例を示すブロック図。 実施例3の音響信号処理装置における音響信号処理を説明するフローチャート。
以下、本発明にかかる実施例の音響信号処理を図面を参照して詳細に説明する。なお、以下の実施例に示す構成は一例であり、本発明は、図示する構成に限定されるものではない。
[装置の構成]
図1のブロック図により実施例1の音響信号処理装置の構成例を示す。
入力部110は、音声と雑音が混合した混合信号が記録された音響データまたはアナログ信号を入力する。アナログ信号を入力した場合、入力部110は、アナログ-ディジタル変換(ADC)により、アナログ信号をディジタル信号に変換する。
時間周波数変換部120は、入力部110から入力される音響データのディジタル波形信号を時間周波数信号に変換(以下「時間周波数変換」)する。なお、波形信号は時間と信号振幅の関係を示し、時間周波数信号は時間と信号周波数の関係を表す。時間周波数信号は例えばスペクトログラムであり、以下、時間周波数変換部120がスペクトログラムを出力するとして説明を行う。また、スペクトログラムは、所定の時間幅の区間を移動しながら、波形信号を窓関数に通して信号を切り出し、切り出した信号を高速フーリエ変換(FFT)などによって周波数変換した周波数スペクトルを時系列に並べたデータである。
時間周波数変換部120は、スペクトログラムを帯域分割部130と第二の非負値行列因子分解(NMF)部150に出力するとともに、スペクトログラムの位相成分を逆時間周波数変換部170に出力する。
帯域分割部130は、スペクトログラムの帯域を分割し、特定の帯域を抽出する。図2により帯域の分割と抽出を説明する。図2(A)は混合信号のスペクトログラムを表す。一般に風雑音のエネルギは低周波数域に集中する。300Hz以上の周波数域において風雑音の影響が少ないとすると、帯域分割部130は300Hzを境に帯域を分割し、風雑音の影響が少ない300Hz以上の高周波数域を抽出する。その結果、図2(B)に示すように、高周波数域のスペクトログラムだけが抽出される。
第一の非負値行列因子分解(NMF)部140は、スペクトログラムの振幅成分に非負値行列因子分解(NMF)を施す。つまり、帯域分割部130から出力されるスペクトログラムの帯域成分を非負値の基底行列と非負値のアクティビティ行列を含む成分に分解し、算出したアクティビティ行列を第一のアクティビティ行列として出力する。
NMFは、例えば非特許文献2に詳しいが、非負値の行列(ここではスペクトログラムの振幅成分)を非負値の基底行列とアクティビティ行列の積として近似する。以下では、基底行列およびアクティビティ行列は非負値の行列とする。
|Y| ≒ HU …(1)
ここで、Yはスペクトログラム、
Hは基底行列、
Uはアクティビティ行列。
式(1)において、スペクトログラムYがM*Nの行列であるとすると、基底行列HはM*Kの行列に、アクティビティ行列UはK*Nの行列になる。なお、Kは基底数と呼ばれる。これら基底行列Hとアクティビティ行列Uは反復計算により算出される。
基底行列Hは、次式で表され、K個の基底ベクトルhn(基底スペクトル)からなる。以下、基底ベクトルhnは非負値のベクトルとする。
H = [h1, h2, …, hK] …(2)
アクティビティ行列Uは、次式で表され、K個のアクティビティベクトルun(重みベクトル)からなる。以下、アクティビティベクトルunは非負値のベクトルとする。
U = [u1, u2, …, uK]T …(3)
ここで、Tは転置行列を表す。
第二のNMF部150は、NMF部140から出力される第一のアクティビティ行列を教師アクティビティに用いて、時間周波数変換部120から出力される混合信号のスペクトログラムにNMFを施す。つまり、第一のアクティビティ行列をU1とし、NMF部150において追加される第二のアクティビティ行列をU2とすると、NMF部150は、次式に示すU1とU2の結合になるようにアクティビティ行列Uを計算する。
U = [U1 U2]T …(4)
また、U1とU2のアクティビティベクトルunの数Kは、分離する音声や雑音の種類などに基づき決定する。例えば、混合信号が雑音と音声の場合、雑音のアクティビティベクトルunの数Kが増えると、雑音成分に音声成分が混じり易くなる。従って、U1のアクティビティベクトルunの数をK1、U2のアクティビティベクトルunの数をK2とすると、K1>K2に設定することが好ましい。
分離部160は、NMF部150から第一および第二のアクティビティ行列U1、U2、並びに、基底行列Hを入力し、次式により、U1に対応する成分のスペクトログラムY1とU2に対応する成分のスペクトログラムY2を生成する。
|Y1| = H1U1
|Y2| = H2U2 …(5)
ここで、H1はU1に対応する基底行列、
H2はU2に対応する基底行列。
U1は風雑音の影響が弱い高周波数域のアクティビティ行列であり、Y1は音声成分を表すと考えられる。また、Y2は音声と異なる成分、つまり雑音成分を表すと考えられる。
逆時間周波数変換部170は、時間周波数変換の逆変換により、スペクトログラムをディジタル波形信号に逆変換する。つまり、分離部160から出力される音声成分のスペクトログラムY1および雑音成分のスペクトログラムY2、並びに、時間周波数変換部120が算出した混合信号のスペクトログラムの位相成分を用いて、音声信号と雑音信号を生成する。
出力部180は、例えばディジタル-アナログ変換変換器(DAC)などを有し、逆時間周波数変換部170から入力される音声信号および雑音信号の少なくとも一方を再生する。なお、出力部180は、音声増幅器やスピーカを含んでもよい。あるいは、出力部180は、例えば、音声信号をディジタル音声データとして記録媒体に記録してもよい。
[音響信号処理]
図3のフローチャートにより実施例1の音響信号処理装置における音響信号処理を説明する。
入力部110は混合信号を入力し(S110)、時間周波数変換部120は混合信号をスペクトログラムに変換する(S120)。帯域分割部130は、スペクトログラムを帯域分割し、特定の帯域(例えば300Hz以上の高周波数域)を抽出する(S130)。NMF部140は、スペクトログラムの帯域成分にNMFを施して、第一のアクティビティ行列U1を生成する(S140)。
次に、NMF部150は、第一のアクティビティ行列U1を教師アクティビティとして、時間周波数変換部120から入力される混合信号のスペクトログラムにNMFを施す(S150)。そして、NMFによって得られる第二のアクティビティ行列U2と基底行列H2、および、教師アクティビティである第一のアクティビティ行列U1と基底行列H1を分離部160に出力する。
次に、分離部160は音源ごとのスペクトログラムY1、Y2を生成し(S160)、逆時間周波数変換部170はスペクトログラムY1、Y2を逆時間周波数変換して音源ごとの音響信号を生成する(S170)。そして、出力部180は、音源ごとの音響信号を再生する(S180)。
このように、分離したい第一の成分(例えば音声)以外の第二の成分(例えば雑音)を含まない帯域、または、第二の成分の影響が小さい帯域で教師アクティビティを学習する。そして、教師アクティビティを用いて全帯域のNMFを行う。これにより、クラスタリングを行わずに、混合信号から、第一の成分(例えば音声)の音響信号と、第二の成分(例えば雑音)の音響信号を分離することができる。
[変形例1]
上記では、時間周波数変換、帯域分割の順に処理する例を説明したが、時間周波数変換と帯域分割の順番は逆でもよい。図4のブロック図により音響信号処理装置の変形例を示す。
図4に示す構成は、帯域分割部131がハイパスフィルタ、ローパスフィルタまたはバンドパスフィルタを用いて入力信号を帯域分割する。そして、時間周波数変換部120が入力信号に時間周波数変換を施し、時間周波数変換部121が帯域分割部131によって抽出された特定の帯域の信号を時間周波数変換する。その他の構成は実施例1と同様である。
[変形例2]
上記では、第二のNMF部150は、時間周波数変換部120の出力にNMFを施す例を説明した。しかし、NMF部150は、帯域分割部130から出力される帯域信号A以外の周波数帯域の帯域信号BにNMFを施せばよい。例えば、雑音と音声を分離する場合、雑音の影響が少ない帯域信号が帯域信号Aに相当し、雑音と音声が混合した帯域信号が帯域信号Bに相当する。
図5のブロック図により音響信号処理装置の第二の変形例を示す。帯域分割部130は、帯域信号Aと帯域信号Bを出力する。NMF部140は、帯域信号AにNMFを施して得られるアクティビティ行列U1を出力する。また、NMF部150は、アクティビティ行列U1を教師アクティビティとして、帯域信号BにNMFを施す。
分離部160は、帯域信号BのスペクトログラムY1とY2を分離する。つまり、雑音のスペクトログラムY2と音声のスペクトログラムY1に分離される。合成部190は、雑音の影響が少ない帯域信号Aのスペクトログラムと、分離部160で分離された音声のスペクトログラムY1を合成する。このようにして、雑音成分を含まない音声成分を分離することができる。
[変形例3]
上記では、分離部160において分離されたスペクトログラムY1とY2から分離信号(音声信号と雑音信号)を生成する例を説明した。しかし、分離部160の出力を用いて混合信号を分離するフィルタを生成し、入力信号をフィルタリング処理することで、音源分離を行ってもよい。
図6のブロック図により音響信号処理装置の第三の変形例を示す。例えば信号を二つに分離する場合、フィルタ生成部191は、分離部160から出力されるスペクトログラムY1とY2から下式に示すバイナリマスクBM1およびBM2を生成する。
if (|Y1|t, f>|Y2|t, f) {
BM1 =‘1’;
BM2 =‘0’;
} else {
BM1 =‘0’;
BM2 =‘1’;
} …(6)
ここで、tはスペクトログラムの時間フレーム、
fはスペクトログラムの周波数ビン。
フィルタリング部192は、下式により、生成されたバイナリマスクを混合信号のスペクトログラムに適用する。
|Zn|t, f = |Y|t, f*BMnt, f …(7)
ここで、Yは混合信号のスペクトログラム、
Zは出力されるスペクトログラム、
n = 1, 2。
なお、フィルタ生成部191が生成するフィルタは例えばWienerフィルタなどでもよいし、分離した雑音成分のスペクトログラムを用いて混合信号からスペクトルサブトラクションを行ってもよい。また、図6には図1に示す構成にフィルタ生成部191とフィルタリング部192を追加した構成を示したが、図4の構成にフィルタ生成部191とフィルタリング部192を追加した構成でも同じ処理を実現することができる。
[その他の変形例]
上記では、入力部110が混合信号が記録された音響データを入力する例を説明したが、入力部110はマイクロホンが収音した混合信号を入力し、入力した混合信号をADCしたディジタル信号を出力してもよい。その場合、一連の処理は、所定の時間幅ごとに行われるようにするとよい。
また、上記では、時間周波数信号をスペクトログラムとする例を説明したが、ウェーブレット変換などの時間周波数変換に用いて時間周波数信号を取得してもよい。その場合、逆時間周波数変換部170は逆ウェーブレット変換などの逆変換を行う。
また、上記では、帯域分割部130において帯域を二分割する例を説明したが、混合信号の音源が三つ以上あり、各音源の成分の強い帯域がそれぞれ異なる場合、それら複数の帯域を抽出してもよい。その場合、第一のNMF部140は、抽出された帯域ごとにNMFを行って各帯域の教師アクティビティを取得する。
また、上記では、混合信号を風雑音と音声と仮定したため、風雑音の影響が弱い高周波数域の成分を抽出する例を示した。しかし、混合信号に含まれる成分が音域が異なる楽器の音の場合、例えば、低い音域の楽器の成分が含まれ、高い音域の楽器の成分が含まれない帯域を抽出してもよい。
また、上記では、風雑音の影響の少ない300Hz以上の高周波数域を抽出する例を説明したが、非常に高い周波数には音声の成分も少ないため、抽出する帯域に上限を設けてもよい。例えば、音声の主要な帯域を含む300Hzから2,000Hzの帯域を抽出すればよい。また、風雑音の影響はマイクロホンやその周囲の構造などに影響されるため、帯域分割の周波数は、録音を行う機器ごとに設定することが望ましい。
また、上記では、NMFを行う例を説明したが、非負値の基底行列とアクティビティ行列を含む成分を出力する処理であればよい。例えば、非負行列因子デコンボリューション(NMFD、特許文献2参照)や複素非負値行列因子分解(複素NMF、非特許文献3参照)を用いてもよい。例えば複素NMFを使用する場合、逆時間周波数変換部170が用いる位相成分として複素NMFによって得られる位相成分を用いることが望ましい。
また、上記では、第二のNMF部150が第一のアクティビティ行列U1を教師アクティビティとする例を説明したが、第二のNMF部150は、第一のNMF部140が算出した基底を基底の一部(部分的な教師基底)として使用してもよい。
また、図1、4-6に示す音響信号処理装置は、実施例の音響信号処理を実行するプログラムを記録媒体を介してコンピュータに供給することで実現可能である。
以下、本発明にかかる実施例2の音響信号処理を説明する。なお、実施例2において、実施例1と略同様の構成については、同一符号を付して、その詳細説明を省略する。
図7のブロック図により実施例2の音響信号処理装置の構成例を示す。
雑音強度判定部210は、入力部110から混合信号を入力し、風雑音の強度を判定し、強度に応じて帯域分割部130の分割周波数を調整する。例えば、雑音強度判定部210は、音声区間を検出する機能を備え、非音声区間の信号強度から風雑音強度を判定する。そして、例えば、風雑音が強い場合は分割周波数をより高く調整し、風雑音が弱い場合は分割周波数をより低く調整する。
雑音抑圧部220は、第二のNMF部150から出力される第一および第二のアクティビティ行列U1とU2に対応する基底行列をそれぞれH1、H2とすると、下式の処理を行うことで、雑音を抑圧したスペクトログラムYsupを生成する。
|Ysup|= H1U1 + αH2U2 …(8)
ここで、αは抑圧係数(0≦α<1)。
雑音抑圧部220は、抑圧係数αによって抑圧した雑音成分H2U2を音声成分H1U1に加算することで雑音を抑圧し、雑音を抑圧したスペクトログラムYsupを出力する。
図8のフローチャートにより実施例2の音響信号処理装置における音響信号処理を説明する。
混合信号が入力され(S110)、混合信号がスペクトログラムに変換されると(S120)、雑音強度判定部210は、風雑音の強度を判定し、判定結果に基づき帯域分割部130の分割周波数を調整する(S210)。
その後、実施例1と同様に、スペクトログラムの帯域分割(S130)、スペクトログラムの帯域成分のNMF(S140)、混合信号のスペクトログラムのNMF(S150)が実行される。
次に、雑音抑圧部220は、第一および第二のアクティビティ行列U1とU2を用いて雑音抑圧を行う(S220)。逆時間周波数変換部170は、雑音抑圧されたスペクトログラムYsupと混合信号のスペクトログラムの位相成分から雑音抑圧信号を生成する(S230)。そして、出力部180は、雑音抑圧信号を再生(または記録)する(S240)。
このように、主要な成分の周波数帯域が限定されるような雑音に対し、雑音の影響が少ない周波数帯域で教師アクティビティを学習し、クラスタリングを行わずに混合信号の雑音成分を抑圧した雑音抑圧信号を生成することができる。
[変形例]
上記では、雑音強度判定部210が非音声区間の信号から風雑音強度を判定する例を説明したが、低周波数域と高周波数域の信号振幅(あるいはパワー)の比から風雑音強度を判定してもよい。
また、雑音強度判定部210が混合信号から風雑音強度を判定する例を説明したが、例えば、入力部110が混合信号と、混合信号の録音時の風の強度を記録した信号のセットを入力し、風の強度信号から風雑音強度を判定してもよい。風の強度信号は、例えば、録音時のマイクロホン付近の風速を記録した風速の時間変化を表すようなデータである。
また、上記では、雑音抑圧部220が風雑音成分H2U2に抑圧係数αを乗じて雑音を抑圧する例を説明した。しかし、風雑音成分H2U2のみにハイパスフィルタまたはバンドストップフィルタなどのフィルタ処理を施して雑音成分を帯域別に処理し、その後、音声成分に加算してもよい。
また、雑音抑圧部220がスペクトルサブトラクションを用いてもよい。つまり、混合信号のスペクトログラムから風雑音成分H2U2をスペクトルサブトラクションして雑音成分を抑圧すればよい。
また、風雑音成分H2U2には、帯域分割部130から出力される信号の帯域成分、つまり高周波数域の成分をほとんど含まれない。そこで、第二のNMF部150において、基底行列H2に、帯域分割部130から出力される信号の帯域の成分をもたせない拘束条件を設け、NMFを行ってもよい。
以下、本発明にかかる実施例3の音響信号処理を説明する。なお、実施例3において、実施例1、2と略同様の構成については、同一符号を付して、その詳細説明を省略する。
図9のブロック図により実施例3の音響信号処理装置の構成例を示す。
実施例3の第二のNMF部151は、実施例1の第二のNMF部150と異なり教師信号を用いずに、混合信号のスペクトログラムにNMFを施す。NMF部151は、第一のNMF部140が算出するアクティビティ行列UBのアクティビティベクトルuの数nをよりも多い数mのアクティビティベクトルuを含むアクティビティ行列UAを算出する。そして、NMF部151は、算出したアクティビティ行列UAと基底行列HAを出力する。
アクティビティ分類部230は、NMF部151からアクティビティ行列UAと基底行列HAを入力し、1NMF部140からアクティビティ行列UBと基底行列HBを入力し、アクティビティ行列UAを二つのアクティビティ行列に分類する。
例えば、アクティビティ分類部230は、アクティビティ行列UAに含まれるアクティビティベクトルamとアクティビティ行列UBに含まれるアクティビティベクトルbnの相関をとる。そして、アクティビティ行列Bと相関が高いアクティビティベクトルamからアクティビティ行列UCを作成する。また、アクティビティ行列Bと相関がないアクティビティベクトルamからアクティビティ行列UDを作成して、アクティビティ行列UAを二つのアクティビティ行列に分類する。そして、分類後のアクティビティ行列UC、UDと、対応する基底行列HC、HDを出力する。
分離部161は、入力されるアクティビティ行列UC、UDと基底行列HC、HDから、下式に示すように、混合信号のスペクトログラムYを分離する。
|YC|= HCUC
|YD|= HDUD …(9)
ただし、|Y|=|YC|+|YD|。
このように、分離したい第一の成分(例えば音声)以外の第二の成分(例えば雑音)を含まない帯域、または、第二の成分の影響が小さい帯域で教師アクティビティを学習する。そして、教師アクティビティの信号を用いてクラスタリングを行うことで、混合信号を第一の成分(例えば音声)の信号YCと、第二の成分(例えば雑音)の信号YDに分離することができる。
図10のフローチャートにより実施例3の音響信号処理装置における音響信号処理を説明する。
実施例1と同様に、混合信号の入力(S110)、混合信号のスペクトログラムへの変換(S120)、スペクトログラムの帯域分割(S130)、スペクトログラムの帯域成分のNMF(S140)が実行される。
次に、NMF部151は、混合信号のスペクトログラムにNMFを施し、アクティビティ行列UAと基底行列HAを出力する(S310)。
次に、アクティビティ分類部230は、アクティビティ行列UAを、アクティビティ行列UBと相関が高いアクティビティ行列UCCと相関がないアクティビティ行列UDに分類する(S320)。
次に、分離部161は、アクティビティ行列UC、UDと基底行列HC、HDから、混合信号のスペクトログラムをYCとYDに分離する(S330)。
以下、実施例1と同様に、逆時間周波数変換によりスペクトログラムYC、YDから音源ごとの音響信号が生成され(S170)、音源ごとの音響信号が再生される(S180)。
[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記録媒体を介してシステム或いは装置に供給し、そのシステムあるいは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (17)

  1. 第一の成分と第二の成分が混合した音響信号を入力する入力手段と、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換する変換手段と、
    前記時間周波数信号を複数の帯域に分割する分割手段と、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解する第一の分解手段と、
    前記第一のアクティビティ行列を教師アクティビティとして、前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する第二の分解手段とを有する音響信号処理装置。
  2. 第一の成分と第二の成分が混合した音響信号を入力する入力手段と、
    前記音響信号を複数の帯域に分割する分割手段と、
    前記第二の成分の影響が小さい帯域の音響信号を時間と信号周波数の関係を示す第一の時間周波数信号に変換する第一の変換手段と、
    前記音響信号を第二の時間周波数信号に変換する第二の変換手段と、
    前記第一の時間周波数信号を第一のアクティビティ行列に分解する第一の分解手段と、
    前記第一のアクティビティ行列を教師アクティビティとして、前記第二の時間周波数信号を第二のアクティビティ行列に分解する第二の分解手段とを有する音響信号処理装置。
  3. さらに、前記第一および第二のアクティビティ行列から前記第一および第二の成分の時間周波数信号を生成する生成手段を有する請求項1または請求項2に記載された音響信号処理装置。
  4. さらに、前記第一および第二の成分の時間周波数信号からフィルタを生成し、前記音響信号から変換された時間周波数信号をフィルタリングするフィルタ手段を有する請求項3に記載された音響信号処理装置。
  5. 第一の成分と第二の成分が混合した音響信号を入力する入力手段と、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換する変換手段と、
    前記音響信号に含まれる前記第二の成分の強度を判定する判定手段と、
    前記第二の成分の強度に応じて前記時間周波数信号を複数の帯域に分割する分割手段と、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解する第一の分解手段と、
    前記第一のアクティビティ行列を教師アクティビティとして、前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する第二の分解手段とを有する音響信号処理装置。
  6. 前記第一および第二のアクティビティ行列から前記第二の成分を抑圧した時間周波数信号を生成する生成手段を有する請求項5に記載された音響信号処理装置。
  7. 第一の成分と第二の成分が混合した音響信号を入力する入力手段と、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換する変換手段と、
    前記時間周波数信号を複数の帯域に分割する分割手段と、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解する第一の分解手段と、
    前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する第二の分解手段と、
    前記第二のアクティビティ行列を、前記第一のアクティビティ行列と相関が高い第三のアクティビティ行列、および、前記第一のアクティビティ行列と相関がない第四のアクティビティ行列に分類する分類手段とを有する音響信号処理装置。
  8. 前記第二のアクティビティ行列が含むアクティビティベクトルの数は、前記第一のアクティビティ行列が含むアクティビティベクトルの数よりも多い請求項7に記載された音響信号処理装置。
  9. さらに、前記第三および第四のアクティビティ行列から前記第一および第二の成分の時間周波数信号を生成する生成手段を有する請求項7または請求項8に記載された音響信号処理装置。
  10. さらに、前記時間周波数信号を音響信号に逆変換する逆変換手段を有する請求項1から請求項9の何れか一項に記載された音響信号処理装置。
  11. 前記第一の成分は音声信号であり、前記第二の成分は雑音信号である請求項1から請求項10の何れか一項に記載された音響信号処理装置。
  12. 第一の成分との第二の成分が混合した音響信号を入力し、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換し、
    前記時間周波数信号を複数の帯域に分割し、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解し、
    前記第一のアクティビティ行列を教師アクティビティとして、前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する音響信号処理方法。
  13. 第一の成分と第二の成分が混合した音響信号を入力し、
    前記音響信号を複数の帯域に分割し、
    前記第二の成分の影響が小さい帯域の音響信号を時間と信号周波数の関係を示す第一の時間周波数信号に変換し、
    前記音響信号を第二の時間周波数信号に変換し、
    前記第一の時間周波数信号を第一のアクティビティ行列に分解し、
    前記第一のアクティビティ行列を教師アクティビティとして、前記第二の時間周波数信号を第二のアクティビティ行列に分解する音響信号処理方法。
  14. 第一の成分と第二の成分が混合した音響信号を入力し、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換し、
    前記音響信号に含まれる前記第二の成分の強度を判定し、
    前記第二の成分の強度に応じて前記時間周波数信号を複数の帯域に分割し、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解し、
    前記第一のアクティビティ行列を教師アクティビティとして、前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解する音響信号処理方法。
  15. 第一の成分と第二の成分が混合した音響信号を入力し、
    前記音響信号を時間と信号周波数の関係を示す時間周波数信号に変換し、
    前記時間周波数信号を複数の帯域に分割し、
    前記第二の成分の影響が小さい帯域の時間周波数信号を第一のアクティビティ行列に分解し、
    前記音響信号から変換された時間周波数信号を第二のアクティビティ行列に分解し、
    前記第二のアクティビティ行列を、前記第一のアクティビティ行列と相関が高い第三のアクティビティ行列、および、前記第一のアクティビティ行列と相関がない第四のアクティビティ行列に分類する音響信号処理方法。
  16. コンピュータを請求項1から請求項11の何れか一項に記載された音響信号処理装置の各手段として機能させるためのプログラム。
  17. 請求項16に記載されたプログラムが記録されたコンピュータが読み取り可能な記録媒体。
JP2014008074A 2014-01-20 2014-01-20 音響信号処理装置およびその方法 Active JP6482173B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014008074A JP6482173B2 (ja) 2014-01-20 2014-01-20 音響信号処理装置およびその方法
US14/596,505 US9646631B2 (en) 2014-01-20 2015-01-14 Audio signal processing apparatus and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014008074A JP6482173B2 (ja) 2014-01-20 2014-01-20 音響信号処理装置およびその方法

Publications (3)

Publication Number Publication Date
JP2015138053A true JP2015138053A (ja) 2015-07-30
JP2015138053A5 JP2015138053A5 (ja) 2017-02-23
JP6482173B2 JP6482173B2 (ja) 2019-03-13

Family

ID=53544864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014008074A Active JP6482173B2 (ja) 2014-01-20 2014-01-20 音響信号処理装置およびその方法

Country Status (2)

Country Link
US (1) US9646631B2 (ja)
JP (1) JP6482173B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134284A (ja) * 2016-01-28 2017-08-03 日本電信電話株式会社 音源分離装置、方法、及びプログラム
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
KR102136700B1 (ko) * 2020-03-31 2020-07-23 한국건설기술연구원 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
US11394919B2 (en) 2019-07-02 2022-07-19 Canon Kabushiki Kaisha Image processing apparatus, image processing method and medium

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3093846A1 (en) * 2015-05-12 2016-11-16 Nxp B.V. Accoustic context recognition using local binary pattern method and apparatus
JP6642989B2 (ja) 2015-07-06 2020-02-12 キヤノン株式会社 制御装置、制御方法及びプログラム
JP6646967B2 (ja) 2015-07-31 2020-02-14 キヤノン株式会社 制御装置、再生システム、補正方法、及び、コンピュータプログラム
KR101864925B1 (ko) * 2016-02-05 2018-06-05 전자부품연구원 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템
EP3824463A4 (en) * 2018-07-18 2022-04-20 Sphereo Sound Ltd. AUDIO PANORAMIC DETECTION AND SYNTHESIS OF THREE-DIMENSIONAL (3D) AUDIO CONTENT FROM ENVELOPING CHANNEL LIMITED SOUND

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2012163918A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US7415392B2 (en) 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
JP5454330B2 (ja) 2010-04-23 2014-03-26 ヤマハ株式会社 音響処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2012163918A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲野翔一 他: ""NMFとVQ手法による音楽重畳音声の音楽除去と音声認識"", 日本音響学会2011年春季研究発表会講演論文集CD-ROM, JPN6017048080, 2 March 2011 (2011-03-02), pages 159 - 162, ISSN: 0003702671 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134284A (ja) * 2016-01-28 2017-08-03 日本電信電話株式会社 音源分離装置、方法、及びプログラム
WO2018047643A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音源分離装置および方法、並びにプログラム
US10924849B2 (en) 2016-09-09 2021-02-16 Sony Corporation Sound source separation device and method
US11394919B2 (en) 2019-07-02 2022-07-19 Canon Kabushiki Kaisha Image processing apparatus, image processing method and medium
KR102136700B1 (ko) * 2020-03-31 2020-07-23 한국건설기술연구원 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법

Also Published As

Publication number Publication date
US9646631B2 (en) 2017-05-09
JP6482173B2 (ja) 2019-03-13
US20150205575A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
JP6482173B2 (ja) 音響信号処理装置およびその方法
US20210089967A1 (en) Data training in multi-sensor setups
Gabbay et al. Seeing through noise: Visually driven speaker separation and enhancement
CN111128214B (zh) 音频降噪方法、装置、电子设备及介质
Delcroix et al. Compact network for speakerbeam target speaker extraction
JP6371516B2 (ja) 音響信号処理装置および方法
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
Fitzgerald Upmixing from mono-a source separation approach
US9715884B2 (en) Information processing apparatus, information processing method, and computer-readable storage medium
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
US20190198036A1 (en) Information processing apparatus, information processing method, and recording medium
Quan et al. Multi-channel narrow-band deep speech separation with full-band permutation invariant training
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
US9648411B2 (en) Sound processing apparatus and sound processing method
Varshney et al. Frequency selection based separation of speech signals with reduced computational time using sparse NMF
CN111009259B (zh) 一种音频处理方法和装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
Cai et al. Dual-channel drum separation for low-cost drum recording using non-negative matrix factorization
Xie et al. Speech enhancement using group complementary joint sparse representations in modulation domain
JP6524463B2 (ja) 自動ミキシング装置およびプログラム
Muhsina et al. Signal enhancement of source separation techniques
Souviraa-Labastie et al. Audio source separation using multiple deformed references
Tsai et al. Neural Network-Based Low-Frequency Perception Enhancement Used in Biomedical Hearing Applications
CN117995217A (zh) 杂音抑制方法、可读介质、电子设备及程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190212

R151 Written notification of patent or utility model registration

Ref document number: 6482173

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151