JP2006180392A

JP2006180392A - 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体

Info

Publication number: JP2006180392A
Application number: JP2004373809A
Authority: JP
Inventors: Mariko Aoki; 真理子青木; Kenichi Furuya; 賢一古家; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-12-24
Filing date: 2004-12-24
Publication date: 2006-07-06
Anticipated expiration: 2024-12-24
Also published as: JP4249697B2

Abstract

【課題】定常時は１本のマイクロホンで収音した目的音から雑音を除去し、ＳＮ比のよい目的音を再生する。
【解決手段】音源分離学習装置は予め２本のマイクロホンで収音した信号を用いて模範となる雑音除去用の帯域別重み値で構成される第１学習データと、この第１学習データに最も近似する帯域別重み値が得られる音響特徴量の種別を第２学習データとして取得する。音源分離装置は単一のマイクロホンで収音した信号を第２学習データで指定される種別の音響特徴量を用いて雑音除去用の帯域別重み値を算出し、この帯域別重み値を単一のマイクロホンで収音した信号を帯域分割した帯域分割信号のそれぞれに乗算し、雑音成分を除去する。
【選択図】図１

Description

本発明は、目的音源と雑音源が同時に鳴っている環境において、雑音信号を抑圧し、目的音を高いＳＮ比で収音するための音源分離学習方法、その装置、プログラムと、この学習方法及び学習装置で学習した学習データを用いて音源分離動作を実行する音源分離方法、その装置、プログラムとこれらのプログラムを記録した記録媒体に関する。

目的音と雑音が同時に鳴っている環境において、雑音を抑圧し、目的音を強調する方法としては、従来、複数のマイクロホンを用いて音源との方向情報を元に、帯域分割して各帯域が目的音源の成分であるか、雑音源の成分であるかを判定することにより、目的音源を抽出するSAFIAと呼ばれている方法（非特許文献１）が提案されている。
M. Aoki, M. Okamoto, S. Aoki, H. Matsui, T. Sakurai and Y. Kaneda, "Sound source segregation based on estimating incident angle of each frequency component of imput signals acquired by multiple microphones," Acoust. Sci. & Tech., vol.22, no.2,pp.149 157,2001.

この方法は音源との方向情報を用いるため雑音源が音声や音楽など非定常な雑音に対しても適用できる特徴があるが、２本以上のマイクロホンを必要とするため、装置規模が大きくなるという課題があった。
本発明の目的は単一のマイクロホンで音源分離動作を可能とした音源分離方法及び音源分離装置を提案すると共に、それを可能とするための音源分離学習方法及び音源分離学習装置を提案するものである。

この発明の第１の実施形態によれば少なくとも２個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割し、帯域分割した各帯域分割信号のそれぞれのチャネル間パワー差を求め、このチャネル間パワー差により上記方向情報に基づいて上記雑音を除去するための第１学習データを取得する第１学習過程と、単一の音声入力手段により雑音を含む目的音を収音し、この目的音信号を複数の帯域信号に周波数分割し、周波数分割した帯域分割信号から複数種の音響的特徴量を算出し、複数種の音響特徴量の中から上記第１学習データに最も近似する音響特徴量を検索し、その検索結果に従って決定した音響特徴量を第２学習データとして取得する第２学習過程とを実行する音源分離学習方法を提案する。

この発明の第２の実施形態によれば、第１実施形態で提案した音源分離学習方法において、第１学習データは各帯域分割信号のそれぞれのチャネル間パワー差に基づいて目的音成分か雑音成分かを判定して決定した重み値であり、第２学習データは第１学習データに最も近似する音響特徴量の種別であることを特徴とする音源分離学習方法を提案する。
この発明の第３の実施形態によれば少なくとも２個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも２個の周波数分割手段と、この２つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第１学習データとして所定の時間長分保持する帯域別重み値決定手段と、単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記２つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した各特徴量毎の重み値と上記第１学習データとを比較し、第１学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第２学習データとして保持する検索手段と、より成る音源分離学習装置を提案する。

この発明の第４の実施形態によればコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態３で提案した音源分離学習装置として機能させる音源分離学習プログラムを提案する。
この発明の第５の実施形態によれば単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから実施形態１又は実施形態２に記載の音源分離学習方法で学習した第２学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力する音源分離方法を提案する。

この発明の第６の実施形態によれば単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割する帯域分割手段と、この帯域分割手段で分割した帯域分割信号のそれぞれから第５の実施形態で提案した音源分離学習方法で学習した第２学習データで指定される特徴量を算出する帯域別特徴量算出手段と、この帯域別特徴量算出手段で算出した各帯域別特徴量の値に従って各帯域信号のそれぞれが目的音成分であるか、雑音成分であるかの属性を判定する属性判定手段と、この属性判定手段の判定結果に従って主に雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した各帯域毎の重み値を帯域分割手段で分割した各帯域分割信号に乗算する帯域別乗算手段と、重み値が乗算された各帯域信号を時間信号に合成する信号合成手段とより成る音源分離装置を提案する。

この発明の第７の実施形態によればコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態６て提案した音源分離装置として機能させる音源分離プログラムを提案する。
この発明の第８の実施形態によればコンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも実施形態４で提案したの音源分離学習プログラム又は実施形態７で提案した音源分離プログラムの何れかを記録した記録媒体を提案する。
本発明による音源分離学習方法及びその装置によれば少なくとも２本の音声入力手段を用いて、方向情報を含む形態で目的音と雑音とを収音し、この収音した複数チャネルの信号をそれぞれ帯域分割し、帯域分割した各帯域信号から、或る音響特徴量として各帯域毎のパワー値を算出し、このパワー値からチャネル間のパワー差を求め、このチャネル間パワー差に基づいて各帯域の信号毎に目的音成分と雑音成分とを判定し、この判定に従って、雑音と判定した帯域には限りなくゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい、例えば１の重み値を付与する。この重み値はチャネル間のパワー差に基づいて決定した値であるため、その判定精度は高い。従って、この重み値を所定の時間長分第１学習データとして保持させる。

次に、単一の音声入力手段により雑音を含む目的音を収音し、収音した目的音を複数の帯域に分割する。帯域分割した各帯域信号から複数種の音響特徴量を算出する。ここで算出する特徴量としては例えば帯域毎のパワー、信号のケプストラム、相関、尖鋭度、ピッチ等が考えられる。これら複数の特徴量のそれぞれの値に応じて、各帯域毎に雑音を主成分とするか、目的音を主成分とするかの判定を行い、その判定結果に従って、上述と同様に重み値を決定する。つまり、雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域には例えば１に近い重み値を付与する動作を所定の時間長分繰り返し、所定の時間長分の重み値データ列を得る。

各種別に決定した重み値列と第１学習データとして保持している所定の時間長分の重み値列とを比較し、第１学習データに最も近似している特徴量を検索する。第１学習データに近似している特徴量を検索するには第１学習データで与えられる重み値と単一の収音信号から求めた重み値との距離を計算し、距離が最も小さくなる特徴量を検出する。検出した特徴量の種別を第２学習データとして保存する。
音源分離装置として動作させる場合は、単一の音声入力手段で収音した雑音を含む目的音信号を帯域分割手段で帯域分割し、帯域分割した帯域分割信号のそれぞれから、先に学習した第２学習データで指定される特徴量を算出し、この特徴量の値に応じて各帯域の信号成分が目的信号であるか、雑音成分であるかを判定し、その判定結果に従って各帯域に重み値を付与する。付与された重み値を各帯域分割信号に乗算し、その乗算された帯域分割信号を時間信号に合成すれば雑音が抑圧された目的音信号を得ることができる。

従って、本発明によれば単一の音声入力手段で収音した信号でも、それに含まれる雑音成分を抑圧することができることになる。

本発明の音源分離学習方法及びその装置によれば複数チャネルの信号を用いて音の方向情報に基づいて目的音と雑音とを識別する第１学習データを取得したから、この第１学習データの識別性能は高い。この識別性能の高い第１学習データを手本として単一チャネルの信号から抽出した音響特徴量の中から第１学習データに最も近似する特徴量の種別を第２学習データとして選定するから、この第２学習データの識別性能も第１学習データと同様に高い。従って、単一チャネルの信号のみから目的音を分離して抽出することができ、本発明で解決しようとする課題を解決することができる。

本発明による音源分離学習方法及び装置と、音源分離方法及び装置は全てハードウェアにより構成することもできるが、それより、むしろ、コンピュータに本発明で提案する音源分離学習プログラム及び音源分離プログラムをインストールし、コンピュータを音源分離学習装置及び音源分離装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明による音源分離学習装置として機能させる場合、コンピュータには音源分離学習プログラムにより少なくとも２つの帯域分割手段と、２つの帯域分割手段で帯域分割した帯域分割信号からチャネル間パワー差を算出するチャネル間パワー差算出手段と、チャネル間パワー差に基づいて各帯域信号の属性を判定する属性判定手段と、この属性判定手段の判定結果に従って、各帯域に雑音を表わす重み値と目的音を表わす重み値とを決定し、この決定した重み値を第１学習データとして保持する帯域別重み値決定手段と、更に、単一の音声入力手段で収音した信号を帯域分割し、この帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、各種別毎に算出した特徴量に基づいて各帯域別に目的音成分が雑音成分かを判定する属性判定手段と、属性判定手段の判定結果に従って、各特徴量毎に帯域別に雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した重み値と第１学習データとを比較し、第１学習データに最も近似する重み値のパターンを持つ特徴量の種別を検索し、その検索結果を第２学習データとして保持する検索手段とを構築する。

更に、コンピュータを本発明による音源分離装置として機能させる場合には、コンピュータに単一の音声入力手段で収音した収音信号を複数の帯域信号に分割する帯域分割手段と、帯域分割された帯域分割信号から第２学習データで指定される種類の特徴量を算出する帯域別特徴量算出手段と、帯域別特徴量算出手段で算出した特徴量から雑音か目的音かの属性を判定する属性判定手段と、この続定判定手段の判定結果に従って各帯域別に重み値を決定する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した重み値を帯域分割信号に乗算する帯域別重み値乗算手段と、重み値が乗算された帯域分割信号を時間信号に合成する信号合成手段とを構築する。

図１に本発明の請求項３で提案する音源分離学習装置と請求項６で提案する音源分離装置の実施例を示す。図中１００は音源分離学習装置として機能する部分、２００は音源分離装置として機能する部分を示す。
１Ａ、１Ｂは例えばマイクロホンのような音声入力手段を示す。これら２個の音声入力手段１Ａ、１Ｂは目的音源Ｍと雑音源Ｎの信号Ｓ（ｔ）とＮ（ｔ）を方向情報（距離情報）を含む形態で収音する。ここでは説明を簡略化するために雑音源を一つとして説明するが、一般に雑音源Ｎの個数は複数でも良い。

音声入力手段１Ａ、１Ｂで収音した信号ｘ_１（ｔ）とｘ_２（ｔ）はそれぞれ帯域分割手段２Ａと２Ｂで例えば高速フーリエ変換などで複数の帯域に分割される。このとき、各帯域の出力信号は主として一つの音響信号成分よりなる程度に細かく分割する。一つの音響信号成分とは信号ｘ_１（ｔ）及びｘ_２（ｔ）に含まれる各スペクトルを指し、各スペクトルを分離できる程度の細かさに分割することを意味する。その一例としては２０Ｈｚ程度の細かさに分割すれば良しとされている（更に詳しくは特許第３３５５５９８号明細書を参照）。

帯域分割手段２Ａで帯域分割した帯域信号Ｘ_１（ω_１），Ｘ_１（ω_２）…Ｘ_１（ω_Ｎ）と帯域分割手段２Ｂで帯域分割した帯域信号Ｘ_２（ω_１），Ｘ_２（ω_２）…Ｘ_２（ω_Ｎ）はそれぞれチャネル間パワー差算出手段３Ｂに入力される。このチャネル間パワー差算出手段３Ｂでは各帯域信号Ｘ_１（ω_１），Ｘ_１（ω_２）…Ｘ_１（ω_Ｎ）とＸ_２（ω_１），Ｘ_２（ω_２）…Ｘ_２（ω_Ｎ）のそれぞれの帯域の音響特徴量としてパワーを算出し、そのパワー差τ_２（ω_ｉ,ｊ）を式（１）で算出する。ここでインデックスｉは帯域番号を表わすインデックス、インデックスｊは時間のインデックス（フレームの意味）し、パワー差τ_２（ω_ｉ,ｊ）は複数フレームにわたって算出され、例えば数１０秒分程度のデータ長を有する。

τ_２（ω_ｉ,ｊ）＝２０log_１０(|Ｘ_１（ω_ｉ,ｊ）|／|Ｘ_２（ω_ｉ,ｊ）|) …（１）
図１に示した音源配置においては目的音源Ｍは音声入力手段１Ｂに比べて音声入力手段１Ａの近くにあり、逆に雑音源Ｎは音声入力手段１Ａに比べて音声入力手段１Ｂの近くにあるので目的音信号のチャネル間パワー差は正の値となることから、τ₂（ω_ｉ,ｊ）＞０を満たすある周波数帯域Ｘ_１（ω_ｉ,ｊ）の信号は主に目的音源Ｍの信号であると推定できる。またτ₂（ω_ｉ,ｊ）＜０を満たす或る周波数帯域Ｘ_１（ω_ｉ,ｊ）の信号は主に雑音源Ｎの信号であると推定できる。

属性判定手段４Ｂではチャネル間パワー差算出手段３Ｂが算出したチャネル間パワー差の極性を読み取って、各帯域の信号成分が目的音成分であるか、雑音成分であるかを判定する。帯域別重み値決定手段５Ｂは属性判定手段４Ｂの判定結果に従って、目的音源Ｍの信号と判定された帯域には重み値α（ω_ｉ,ｊ）として０より大きい例えばα（ω_ｉ,ｊ）＝１．０を付与する。また雑音源Ｎの信号と判定された帯域には重み値α（ω_ｉ,ｊ）としてα（ω_ｉ,ｊ）＝０．０を付与する。各帯域毎に重み値α（ω_ｉ,ｊ）を付与する動作を所定時間長分繰り返し、この重み値列α（ω_ｉ,ｊ）を第１の学習データとして帯域別重み決定手段５Ｂに記憶する。この学習は目的音源Ｍの状況が変化する毎に実行される。

次に第２の学習を実行する。この第２の学習は単一の音声入力手段１Ａを用いて雑音を含む目的音を収音し、その収音した目的音信号を帯域分割手段２Ａで複数の帯域信号に分割する。分割の細かさは先の説明と同じである。帯域分割した帯域分割信号Ｘ_１（ω_１），Ｘ_１（ω_２）…Ｘ_１（ω_Ｎ）から帯域別特徴量算出手段３Ａで複数種の音響特徴量τ_１（ω_１）…τ_１（ω_Ｎ）を算出する。複数種の音響特徴量τ_１（ω_１）…τ_１（ω_Ｎ）とは例えば各帯域信号のパワーであるとか、各帯域信号のケプストラム、相関、尖鋭度、ピッチなどを算出する。これらの特徴量の算出は特徴量算出手段を並列に設けて一度に複数種の特徴量を算出することもできるし、また共通の特徴量計算手段を時間をずらして動作させて種別に計算するように構成することもできる。

属性判定手段４Ａ及び帯域別重み値決定手段５Ａでは各特徴量に適合した処理方法で目的音と雑音を判別し、重み値を決定する。
各特徴量に適合した処理方法の例を以下に示す。
例えはパワーの場合、各帯域のパワー、およびそのうちの最大値を算出し、各帯域のパワー（平均値）をその最大値で除算した値を特徴量とする。尖鋭度の場合も同様に、各帯域の尖鋭度とその最大値を算出し、各帯域の尖鋭度を最大値で除算した値を特徴量として用いる。このようにして求めた特徴量に対して属性判定手段４Ａは或る閾値を設定し、閾値以上を目的音、以下を雑音と判定する。ピッチを用いる場合は、信号の基本周波数を算出し、その整数倍の周波数成分の特徴量には１を用い、その他の帯域には０を特徴量として用いる。相関の場合には、例えば現フレームと過去のフレームについて相互相関を算出し、相関が高い帯域（例えば、相互相関の値が０．５以上）には重み値０を、相関が低い帯域（例えば、相互相関の値が０．５以下）には重み値１を用いる。最後に、ケプストラムを用いた場合について述べる。ケプストラムとは、音声信号の短時間振幅スペクトルの対数を逆フーリエ変換することで算出され、音声信号のスペクトル包絡と微細構造を分離して抽出することができる（参考文献：“ディジタル音声処理”、古井、東海大学出版会、1985.）。このスペクトル包絡は残響が短い場合には音声信号の包絡を表し、ピークの数はせいぜい４つ程度である。しかし、残響が長くなるにつれ部屋の特性が畳み込まれ、ピークの数が増大することがある。よって、ピークの数が少ない（例えば４つ以下）の場合には近傍で鳴っている音源であると判断して、全ての帯域の重み値を１とする。ピークの数が多い（例えば４つ以上）の場合には、遠方で鳴っている音源であると判断して、全ての帯域の重み値を０とする。ピークの個数の数え方は、例えば、スペクトル包絡の平均値より５ｄＢ以上大きくなる帯域をピークとしてカウントする。

検索手段６は複数種の特徴量τ_１（ω_１）…τ_１（ω_Ｎ）から求めた重み値β（ω_ｉ，ｊ）を第１学習データとして記憶している重み値α（ω_ｉ，ｊ）と比較し、その第１学習データに最も近似している重み値を持つ特徴量の種別を検索する。このためには例えば第１学習データとして記憶している重み値α（ω_ｉ，ｊ）と各種の特徴量から求めた重み値β（ω_ｉ，ｊ）との距離ｄを計算し、距離ｄが最も小さくなる特徴量の種別を特定する。距離ｄは式（２）で求められる。

距離ｄは帯域別特徴量算出手段３Ａで算出される全ての特徴量毎に算出し、距離ｄが最も小さくなる特徴量を検索し、距離ｄが最も小さくなる特徴量の種別を特定し、この特徴量の種別を第２学習データとして例えば検索手段６に記憶する。
以上により音源分離学習装置１００の動作が終了する。第２の学習データが取得されることにより、音源分離装置２００の動作開始条件が整えられる。

音源分離装置２００は検索手段６に取得されている第２学習データを用いて、音源分離動作を実行する。つまり、音声入力手段１Ａで雑音ｎ（ｔ）を含む目的音ｓ（ｔ）を収音し、その収音信号を帯域分割手段２Ａで帯域分割し、帯域分割した各帯域信号Ｘ_１（ω_１）…Ｘ_１（ω_Ｎ）から第２学習データを用いて帯域別特徴量算出手段３Ａで帯域別に第２学習データで指定される特徴量τ₁（ω_１）…τ₁（ω_Ｎ）を算出する。
属性判定手段４Ａは算出された特徴量τ_１（ω_１）…τ_１（ω_Ｎ）に対して例えばその特徴量に適合した閾値を用いて各帯域の信号が目的音成分か雑音成分かの属性を判定し、その判定結果を帯域別重み値決定手段５Ａに引き渡す。帯域別重み値決定手段５Ａは属性判定手段４Ａで判定した属性に従って、各帯域の重み値β（ω_１）…β（ω_Ｎ）を決定し、この重み値β（ω_１）…β（ω_Ｎ）を重み値選定手段７を通じて帯域別重み値乗算手段８に出力し、この帯域別重み値乗算手段８で帯域分割信号Ｘ_１（ω_１）…Ｘ_１（ω_Ｎ）にそれぞれ乗算し、その乗算結果を信号合成手段９で時間信号s~(t)に合成する。

信号合成手段９で時間信号に合成される各帯域信号Ｘ_１（ω_１）…Ｘ_１（ω_Ｎ）には雑音成分を抑圧するための重み値β（ω_１）…β（ω_Ｎ）が乗算されているから、合成された時間信号s~(t)のＳＮ比は元の入力信号のＳＮ比より高められる。この音源分離動作は目的音源Ｍの条件が変化しない限り継続することができる。目的音源Ｍの条件、例えば話者の入れ替わりが生じた場合等では再度、学習により第１学習データと第２学習データを取得すれば、音源分離動作を再開することができる。
以上説明した帯域分割手段２Ａ，２Ｂ、帯域別特徴量算出手段３Ａ、チャネル間パワー差算出手段３Ｂ、属性判定手段４Ａ，４Ｂ、帯域別重み値決定手段５Ａ，５Ｂ、検索手段６、重み値選定手段７、帯域別重み値乗算手段８、信号合成手段９はそれぞれコンピュータにインストールした本発明の音源分離学習プログラム及び音源分離プログラムによって実現される。

本発明による音源分離学習プログラム及び音源分離プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な、例えば磁気ディスク、或はＣＤ−ＲＯＭ等の記録媒体に記録され、これらの記録媒体或は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたＣＰＵに解読されて実行される。

本発明による音源分離学習装置及び音源分離装置は例えばハンズフリー方式の音声会議システムの分野或はその他の音源収音装置の分野に活用される。

この発明による音源分離学習装置及び音源分離装置の一実施例を説明するためのブロック図。

符号の説明

１００音源分離学習装置４Ａ，４Ｂ属性判定手段
２００音源分離装置５Ａ，５Ｂ帯域別重み値決定手段
Ｍ目的音源６検索手段
Ｎ雑音源７重み値選定手段
１Ａ，１Ｂ音声入力手段８帯域別重み値乗算手段
２Ａ，２Ｂ帯域分割手段９信号合成手段
３Ａ帯域別特徴量算出手段
３Ｂチャネル間パワー差算出手段

Claims

少なくとも２個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割し、帯域分割した各帯域分割信号のそれぞれのチャネル間パワー差を求め、このチャネル間パワー差により上記方向情報に基づいて上記雑音を除去するための第１学習データを取得する第１学習過程と、
単一の音声入力手段により雑音を含む目的音を収音し、この目的音信号を複数の帯域信号に周波数分割し、周波数分割した帯域分割信号から複数種の音響的特徴量を算出し、複数種の音響特徴量の中から上記第１学習データに最も近似する音響特徴量を検索し、その検索結果に従って決定した音響特徴量を第２学習データとして取得する第２学習過程とを含むことを特徴とする音源分離学習方法。
請求項１記載の音源分離学習方法において、上記第１学習データは上記各帯域分割信号のそれぞれのチャネル間パワー差に基づいて目的音成分か雑音成分かを所定の時間長にわたって判定して決定した重み値列であり、上記第２学習データは上記第１学習データに最も近似する音響特徴量の種別であることを特徴とする音源分離学習方法。
少なくとも２個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも２個の周波数分割手段と、
この２つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、
このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、
この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第１学習データとして所定の時間長分収録する帯域別重み値決定手段と、
単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記２つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、
この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、
この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を所定の時間長にわたって付与する帯域別重み値決定手段と、
この帯域別重み値決定手段で決定した各特徴量毎の重み値列と上記第１学習データとを比較し、第１学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第２学習データとして保持する検索手段と、
より成る音源分離学習装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項３記載の音源分離学習装置として機能させる音源分離学習プログラム。
単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから請求項１又は２記載の音源分離学習方法で学習した第２学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力することを特徴とする音源分離方法。
単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割する帯域分割手段と、
この帯域分割手段で分割した帯域分割信号のそれぞれから請求項３記載の音源分離学習装置で学習した第２学習データで指定される特徴量を算出する帯域別特徴量算出手段と、
この帯域別特徴量算出手段で算出した各帯域別特徴量の値に従って各帯域信号のそれぞれが目的音成分であるか、雑音成分であるかの属性を判定する属性判定手段と、
この属性判定手段の判定結果に従って主に雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、
この帯域別重み値決定手段で決定した各帯域毎の重み値を上記帯域分割手段で分割した各帯域分割信号に乗算する帯域別乗算手段と、
重み値が乗算された各帯域信号を時間信号に合成する信号合成手段と、
より成る音源分離装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項６記載の音源分離装置として機能させる音源分離プログラム。
コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも請求項４記載の音源分離学習プログラム又は請求項７記載の音源分離プログラムの何れかを記録した記録媒体。