JP4249697B2 - 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 - Google Patents
音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 Download PDFInfo
- Publication number
- JP4249697B2 JP4249697B2 JP2004373809A JP2004373809A JP4249697B2 JP 4249697 B2 JP4249697 B2 JP 4249697B2 JP 2004373809 A JP2004373809 A JP 2004373809A JP 2004373809 A JP2004373809 A JP 2004373809A JP 4249697 B2 JP4249697 B2 JP 4249697B2
- Authority
- JP
- Japan
- Prior art keywords
- band
- signal
- sound source
- weight value
- source separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
M. Aoki, M. Okamoto, S. Aoki, H. Matsui, T. Sakurai and Y. Kaneda, "Sound source segregation based on estimating incident angle of each frequency component of imput signals acquired by multiple microphones," Acoust. Sci. & Tech., vol.22, no.2,pp.149 157,2001.
本発明の目的は単一のマイクロホンで音源分離動作を可能とした音源分離方法及び音源分離装置を提案すると共に、それを可能とするための音源分離学習方法及び音源分離学習装置を提案するものである。
この発明の第3の実施形態によれば少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも2個の周波数分割手段と、この2つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第1学習データとして所定の時間長分保持する帯域別重み値決定手段と、単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記2つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した各特徴量毎の重み値と上記第1学習データとを比較し、第1学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第2学習データとして保持する検索手段と、より成る音源分離学習装置を提案する。
この発明の第5の実施形態によれば単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから実施形態1又は実施形態2に記載の音源分離学習方法で学習した第2学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力する音源分離方法を提案する。
この発明の第8の実施形態によればコンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも実施形態4で提案したの音源分離学習プログラム又は実施形態7で提案した音源分離プログラムの何れかを記録した記録媒体を提案する。
本発明による音源分離学習方法及びその装置によれば少なくとも2本の音声入力手段を用いて、方向情報を含む形態で目的音と雑音とを収音し、この収音した複数チャネルの信号をそれぞれ帯域分割し、帯域分割した各帯域信号から、或る音響特徴量として各帯域毎のパワー値を算出し、このパワー値からチャネル間のパワー差を求め、このチャネル間パワー差に基づいて各帯域の信号毎に目的音成分と雑音成分とを判定し、この判定に従って、雑音と判定した帯域には限りなくゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい、例えば1の重み値を付与する。この重み値はチャネル間のパワー差に基づいて決定した値であるため、その判定精度は高い。従って、この重み値を所定の時間長分第1学習データとして保持させる。
音源分離装置として動作させる場合は、単一の音声入力手段で収音した雑音を含む目的音信号を帯域分割手段で帯域分割し、帯域分割した帯域分割信号のそれぞれから、先に学習した第2学習データで指定される特徴量を算出し、この特徴量の値に応じて各帯域の信号成分が目的信号であるか、雑音成分であるかを判定し、その判定結果に従って各帯域に重み値を付与する。付与された重み値を各帯域分割信号に乗算し、その乗算された帯域分割信号を時間信号に合成すれば雑音が抑圧された目的音信号を得ることができる。
コンピュータに本発明による音源分離学習装置として機能させる場合、コンピュータには音源分離学習プログラムにより少なくとも2つの帯域分割手段と、2つの帯域分割手段で帯域分割した帯域分割信号からチャネル間パワー差を算出するチャネル間パワー差算出手段と、チャネル間パワー差に基づいて各帯域信号の属性を判定する属性判定手段と、この属性判定手段の判定結果に従って、各帯域に雑音を表わす重み値と目的音を表わす重み値とを決定し、この決定した重み値を第1学習データとして保持する帯域別重み値決定手段と、更に、単一の音声入力手段で収音した信号を帯域分割し、この帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、各種別毎に算出した特徴量に基づいて各帯域別に目的音成分が雑音成分かを判定する属性判定手段と、属性判定手段の判定結果に従って、各特徴量毎に帯域別に雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した重み値と第1学習データとを比較し、第1学習データに最も近似する重み値のパターンを持つ特徴量の種別を検索し、その検索結果を第2学習データとして保持する検索手段とを構築する。
1A、1Bは例えばマイクロホンのような音声入力手段を示す。これら2個の音声入力手段1A、1Bは目的音源Mと雑音源Nの信号S(t)とN(t)を方向情報(距離情報)を含む形態で収音する。ここでは説明を簡略化するために雑音源を一つとして説明するが、一般に雑音源Nの個数は複数でも良い。
図1に示した音源配置においては目的音源Mは音声入力手段1Bに比べて音声入力手段1Aの近くにあり、逆に雑音源Nは音声入力手段1Aに比べて音声入力手段1Bの近くにあるので目的音信号のチャネル間パワー差は正の値となることから、τ2(ωi,j)>0を満たすある周波数帯域X1(ωi,j)の信号は主に目的音源Mの信号であると推定できる。またτ2(ωi,j)<0を満たす或る周波数帯域X1(ωi,j)の信号は主に雑音源Nの信号であると推定できる。
各特徴量に適合した処理方法の例を以下に示す。
例えはパワーの場合、各帯域のパワー、およびそのうちの最大値を算出し、各帯域のパワー(平均値)をその最大値で除算した値を特徴量とする。尖鋭度の場合も同様に、各帯域の尖鋭度とその最大値を算出し、各帯域の尖鋭度を最大値で除算した値を特徴量として用いる。このようにして求めた特徴量に対して属性判定手段4Aは或る閾値を設定し、閾値以上を目的音、以下を雑音と判定する。ピッチを用いる場合は、信号の基本周波数を算出し、その整数倍の周波数成分の特徴量には1を用い、その他の帯域には0を特徴量として用いる。相関の場合には、例えば現フレームと過去のフレームについて相互相関を算出し、相関が高い帯域(例えば、相互相関の値が0.5以上)には重み値0を、相関が低い帯域(例えば、相互相関の値が0.5以下)には重み値1を用いる。最後に、ケプストラムを用いた場合について述べる。ケプストラムとは、音声信号の短時間振幅スペクトルの対数を逆フーリエ変換することで算出され、音声信号のスペクトル包絡と微細構造を分離して抽出することができる(参考文献:“ディジタル音声処理”、古井、東海大学出版会、1985.)。このスペクトル包絡は残響が短い場合には音声信号の包絡を表し、ピークの数はせいぜい4つ程度である。しかし、残響が長くなるにつれ部屋の特性が畳み込まれ、ピークの数が増大することがある。よって、ピークの数が少ない(例えば4つ以下)の場合には近傍で鳴っている音源であると判断して、全ての帯域の重み値を1とする。ピークの数が多い(例えば4つ以上)の場合には、遠方で鳴っている音源であると判断して、全ての帯域の重み値を0とする。ピークの個数の数え方は、例えば、スペクトル包絡の平均値より5dB以上大きくなる帯域をピークとしてカウントする。
以上により音源分離学習装置100の動作が終了する。第2の学習データが取得されることにより、音源分離装置200の動作開始条件が整えられる。
属性判定手段4Aは算出された特徴量τ1(ω1)…τ1(ωN)に対して例えばその特徴量に適合した閾値を用いて各帯域の信号が目的音成分か雑音成分かの属性を判定し、その判定結果を帯域別重み値決定手段5Aに引き渡す。帯域別重み値決定手段5Aは属性判定手段4Aで判定した属性に従って、各帯域の重み値β(ω1)…β(ωN)を決定し、この重み値β(ω1)…β(ωN)を重み値選定手段7を通じて帯域別重み値乗算手段8に出力し、この帯域別重み値乗算手段8で帯域分割信号X1(ω1)…X1(ωN)にそれぞれ乗算し、その乗算結果を信号合成手段9で時間信号s~(t)に合成する。
以上説明した帯域分割手段2A,2B、帯域別特徴量算出手段3A、チャネル間パワー差算出手段3B、属性判定手段4A,4B、帯域別重み値決定手段5A,5B、検索手段6、重み値選定手段7、帯域別重み値乗算手段8、信号合成手段9はそれぞれコンピュータにインストールした本発明の音源分離学習プログラム及び音源分離プログラムによって実現される。
200 音源分離装置 5A,5B 帯域別重み値決定手段
M 目的音源 6 検索手段
N 雑音源 7 重み値選定手段
1A,1B 音声入力手段 8 帯域別重み値乗算手段
2A,2B 帯域分割手段 9 信号合成手段
3A 帯域別特徴量算出手段
3B チャネル間パワー差算出手段
Claims (8)
- 少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割し、帯域分割した各帯域分割信号のそれぞれのチャネル間パワー差を求め、このチャネル間パワー差により上記方向情報に基づいて上記雑音を除去するための第1学習データを取得する第1学習過程と、
単一の音声入力手段により雑音を含む目的音を収音し、この目的音信号を複数の帯域信号に周波数分割し、周波数分割した帯域分割信号から複数種の音響的特徴量を算出し、複数種の音響特徴量の中から上記第1学習データに最も近似する音響特徴量を検索し、その検索結果に従って決定した音響特徴量を第2学習データとして取得する第2学習過程とを含むことを特徴とする音源分離学習方法。 - 請求項1記載の音源分離学習方法において、上記第1学習データは上記各帯域分割信号のそれぞれのチャネル間パワー差に基づいて目的音成分か雑音成分かを所定の時間長にわたって判定して決定した重み値列であり、上記第2学習データは上記第1学習データに最も近似する音響特徴量の種別であることを特徴とする音源分離学習方法。
- 少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも2個の周波数分割手段と、
この2つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、
このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、
この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第1学習データとして所定の時間長分収録する帯域別重み値決定手段と、
単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記2つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、
この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、
この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を所定の時間長にわたって付与する帯域別重み値決定手段と、
この帯域別重み値決定手段で決定した各特徴量毎の重み値列と上記第1学習データとを比較し、第1学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第2学習データとして保持する検索手段と、
より成る音源分離学習装置。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3記載の音源分離学習装置として機能させる音源分離学習プログラム。
- 単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから請求項1又は2記載の音源分離学習方法で学習した第2学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力することを特徴とする音源分離方法。
- 単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割する帯域分割手段と、
この帯域分割手段で分割した帯域分割信号のそれぞれから請求項3記載の音源分離学習装置で学習した第2学習データで指定される特徴量を算出する帯域別特徴量算出手段と、
この帯域別特徴量算出手段で算出した各帯域別特徴量の値に従って各帯域信号のそれぞれが目的音成分であるか、雑音成分であるかの属性を判定する属性判定手段と、
この属性判定手段の判定結果に従って主に雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、
この帯域別重み値決定手段で決定した各帯域毎の重み値を上記帯域分割手段で分割した各帯域分割信号に乗算する帯域別乗算手段と、
重み値が乗算された各帯域信号を時間信号に合成する信号合成手段と、
より成る音源分離装置。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項6記載の音源分離装置として機能させる音源分離プログラム。
- コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも請求項4記載の音源分離学習プログラム又は請求項7記載の音源分離プログラムの何れかを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373809A JP4249697B2 (ja) | 2004-12-24 | 2004-12-24 | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004373809A JP4249697B2 (ja) | 2004-12-24 | 2004-12-24 | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006180392A JP2006180392A (ja) | 2006-07-06 |
JP4249697B2 true JP4249697B2 (ja) | 2009-04-02 |
Family
ID=36734043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004373809A Expired - Fee Related JP4249697B2 (ja) | 2004-12-24 | 2004-12-24 | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4249697B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4469882B2 (ja) * | 2007-08-16 | 2010-06-02 | 株式会社東芝 | 音響信号処理方法及び装置 |
JP6064600B2 (ja) * | 2010-11-25 | 2017-01-25 | 日本電気株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
JP7024615B2 (ja) * | 2018-06-07 | 2022-02-24 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
JP7095586B2 (ja) | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
-
2004
- 2004-12-24 JP JP2004373809A patent/JP4249697B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006180392A (ja) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7711123B2 (en) | Segmenting audio signals into auditory events | |
KR101670313B1 (ko) | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 | |
EP1741313B1 (en) | A method and system for sound source separation | |
JP6174856B2 (ja) | 雑音抑制装置、その制御方法、及びプログラム | |
JP4797342B2 (ja) | オーディオデータを自動的に認識する方法及び装置 | |
EP2731359B1 (en) | Audio processing device, method and program | |
JP2004528599A (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオの比較 | |
JP6019969B2 (ja) | 音響処理装置 | |
JP6485711B2 (ja) | 音場再現装置および方法、並びにプログラム | |
US9646592B2 (en) | Audio signal analysis | |
JP5605574B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
JP2015118361A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Ick et al. | Sound event detection in urban audio with single and multi-rate PCEN | |
CN110858476A (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
US20150208167A1 (en) | Sound processing apparatus and sound processing method | |
Olvera et al. | Foreground-background ambient sound scene separation | |
JP4462063B2 (ja) | 音声処理装置 | |
JP3435357B2 (ja) | 収音方法、その装置及びプログラム記録媒体 | |
JP4249697B2 (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
JP2003078988A (ja) | 収音装置、方法及びプログラム、記録媒体 | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
JP4533126B2 (ja) | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 | |
JP6961545B2 (ja) | 音信号処理装置、音信号処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090115 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120123 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130123 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |