JP2014157261A - 音源分離装置、音源分離方法、およびプログラム - Google Patents
音源分離装置、音源分離方法、およびプログラム Download PDFInfo
- Publication number
- JP2014157261A JP2014157261A JP2013028074A JP2013028074A JP2014157261A JP 2014157261 A JP2014157261 A JP 2014157261A JP 2013028074 A JP2013028074 A JP 2013028074A JP 2013028074 A JP2013028074 A JP 2013028074A JP 2014157261 A JP2014157261 A JP 2014157261A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- probability
- sound source
- signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】音源分離装置は、複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号からノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部2と、エネルギー特徴ベクトルに基づいて目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部4と、観測信号に音声存在確率を乗じて目的信号の推定値を求めるフィルタリング部6とを含む。
【選択図】図2
Description
1.実環境下で収音された音から目的信号を抽出し聞き取り易さを向上させる補聴器。
2.目的信号を抽出し音声の明瞭度を向上させるTV会議システムなどの通信システム。
3.実環境で用いられる音声認識システム。
4.人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との対話装置。
5.人が歌ったり、楽器で演奏したり、スピーカで演奏されたりした音楽に含まれる目的信号を抽出し、楽曲を検索したり、採譜したりする音楽情報処理システム。
第一実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源からの目的信号を推定する。
この実施形態では、L個の音源を基点とする音響信号を、少なくとも1個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号が入力されるものとする。ここで、Lは2以上の整数であり、Nは2以上の整数である。すなわち、1個のマイクを含む2個のノードからなる分散型マイクアレイを構成することにより、観測信号は少なくとも2個のチャネルを含む。各ノードに含まれるマイクの数は統一されている必要はなく、ここではN個のノードそれぞれに対応するマイクの数をC1,…,CNとする。すなわち、nを1以上N以下の整数として、n番目のノードにはCn個のマイクが含まれる。つまり、Cを観測信号を収音したマイクの数として、C=Σn=1 NCnが成り立つ。
音のエネルギーは、例えば自由音場では距離の二乗の逆数に比例し減衰するなど、音源とマイクとの間の距離に依存して大きく異なることが知られている。この発明ではこの距離による違いを利用して音源分離を行うために、式(11)により定義されるエネルギー特徴ベクトルρ(t)を計算する。
エネルギー特徴ベクトルはディリクレ混合分布モデル(Dirichlet Mixture Model: DMM)を用いてモデル化することができる。式(13)に示すようにすべての音源の音がすべてのマイクに到来していると仮定すると、ディリクレ混合分布モデルはエネルギー特徴ベクトルをモデル化するために妥当な確率分布である。
ディリクレ混合分布のパラメータは尤度最大化などの基準で推定することが可能である。その一例としてEMアルゴリズムが挙げられる。以下に、EMアルゴリズムを用いたディリクレ混合分布のパラメータ推定の詳細な手順を説明する。
第一実施形態の音源分離装置は、図2に示す通り、エネルギー特徴ベクトル計算部2、音声存在確率計算部4、フィルタリング部6を有する。音源分離装置は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部4は、図3に示す通り、事後確率計算手段41、パラメータ推定手段42、反復処理手段43を有する。
図4を参照して、第一実施形態の音源分離装置の動作例を説明する。
第二実施形態の音源分離装置及び方法は、L個の音源が存在する環境で、少なくとも2個のマイクを含むN個のノードからなる分散型マイクアレイを用いて収音した観測信号から、特定の音源の目的信号を推定する。したがって、第一実施形態の音源分離装置及び方法との相違点は分散型マイクアレイの各ノードが複数のマイクを含む点である。
この実施形態の複素特徴ベクトルψn(t)は式(30)のように表される。
複素特徴ベクトルψn(t)はノード内特徴量であるため、非特許文献1と同様にワトソン混合分布でモデル化することが可能である。ワトソン混合分布の未知のパラメータ~θは式(31)で表される。
エネルギー特徴ベクトルρ(t)と複素特徴ベクトルψ1(t),…,ψN(t)とは相補的な情報を捉えているため、互いに統計的に独立と仮定することができる。したがって、これらの特徴ベクトルを用いた各目的信号の音声存在事後確率P(ρ,~ψ)(t,λ,^θ)は式(37)のように表される。
第二実施形態の音源分離装置は、図5に示す通り、N個の複素特徴ベクトル計算部11,…,1N、エネルギー特徴ベクトル計算部2、音声存在確率計算部5、フィルタリング部6を有する。音源分離装置は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等を有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声存在確率計算部5は、図6に示す通り、第一存在確率計算手段51、第二存在確率計算手段52、事後確率計算手段53、パラメータ推定手段54、反復処理手段55を有する。
図7を参照して、第二実施形態の音源分離装置の動作例を説明する。
この発明によれば、例えば分散型マイクアレイ環境で収音した場合のように、入力信号の各チャネルのサンプリング周波数が異なる場合でも、精度の良い音源分離を安定的に行うことができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
2 エネルギー特徴ベクトル計算部
3,4,5 音声存在確率計算部
6 フィルタリング部
41 事後確率計算手段
42 パラメータ推定手段
43 反復処理手段
51 第一存在確率計算手段
52 第二存在確率計算手段
53 事後確率計算手段
54 パラメータ推定手段
55 反復処理手段
Claims (6)
- 複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算部と、
前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算部と、
前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリング部と、
を含む音源分離装置。 - 請求項1または2に記載の音源分離装置であって、
前記ノードごとに前記観測信号を正規化して複素特徴ベクトルを計算する複素特徴ベクトル計算部を含み、
前記音声存在確率計算部は、前記エネルギー特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第一音声存在確率を計算し、前記複素特徴ベクトルに基づいて前記目的信号ごとの音声が存在する確率を示す第二音声存在確率を計算し、前記第一音声存在確率と前記第二音声存在確率を統合して前記音声存在確率を求める、
ことを特徴とする音源分離装置。 - エネルギー特徴ベクトル計算部が、複数の目的信号が重なり合った混合信号を1以上のマイクを含む2以上のノードからなるマイクアレイを用いて収音した観測信号から前記ノードごとのエネルギーを表すエネルギー特徴ベクトルを計算するエネルギー特徴ベクトル計算ステップと、
音声存在確率計算部が、前記エネルギー特徴ベクトルを用いて前記目的信号ごとの音声が存在する確率を示す音声存在確率を計算する音声存在確率計算ステップと、
フィルタリング部が、前記観測信号に前記音声存在確率を乗じて前記目的信号の推定値を求めるフィルタリングステップと、
を含む音源分離方法。 - 請求項1から4のいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013028074A JP6114053B2 (ja) | 2013-02-15 | 2013-02-15 | 音源分離装置、音源分離方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013028074A JP6114053B2 (ja) | 2013-02-15 | 2013-02-15 | 音源分離装置、音源分離方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014157261A true JP2014157261A (ja) | 2014-08-28 |
JP6114053B2 JP6114053B2 (ja) | 2017-04-12 |
Family
ID=51578159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013028074A Active JP6114053B2 (ja) | 2013-02-15 | 2013-02-15 | 音源分離装置、音源分離方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6114053B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194657A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音源分離装置、音源分離方法および音源分離プログラム |
CN112820310A (zh) * | 2019-11-15 | 2021-05-18 | 北京声智科技有限公司 | 一种来波方向估计方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100800A (ja) * | 1999-09-27 | 2001-04-13 | Toshiba Corp | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP2003005785A (ja) * | 2001-06-26 | 2003-01-08 | National Institute Of Advanced Industrial & Technology | 音源の分離方法および分離装置 |
JP2006330687A (ja) * | 2005-04-28 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
JP2010145836A (ja) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム |
WO2012063185A1 (en) * | 2010-11-10 | 2012-05-18 | Koninklijke Philips Electronics N.V. | Method and device for estimating a pattern in a signal |
JP2012173592A (ja) * | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
-
2013
- 2013-02-15 JP JP2013028074A patent/JP6114053B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100800A (ja) * | 1999-09-27 | 2001-04-13 | Toshiba Corp | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP2003005785A (ja) * | 2001-06-26 | 2003-01-08 | National Institute Of Advanced Industrial & Technology | 音源の分離方法および分離装置 |
JP2006330687A (ja) * | 2005-04-28 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
JP2010145836A (ja) * | 2008-12-19 | 2010-07-01 | Nippon Telegr & Teleph Corp <Ntt> | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム |
WO2012063185A1 (en) * | 2010-11-10 | 2012-05-18 | Koninklijke Philips Electronics N.V. | Method and device for estimating a pattern in a signal |
JP2012173592A (ja) * | 2011-02-23 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
Non-Patent Citations (4)
Title |
---|
HIROSHI SAWADA, ET AL.: "Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutatio", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, no. 3, JPN6014010546, 27 May 2010 (2010-05-27), US, pages 516 - 527, XP011337035, ISSN: 0003514594, DOI: 10.1109/TASL.2010.2051355 * |
SHOKO ARAKI, ET AL.: "Stereo Source Separation and Source Counting with MAP Estimation with Dirichlet Prior Considering Sp", INDEPENDENT COMPONENT ANALYSIS AND SIGNAL SEPARATION, vol. 5441, JPN6016001913, 2009, DE, pages 742 - 750, XP019115474, ISSN: 0003240291, DOI: 10.1007/978-3-642-00599-2_93 * |
SHOKO ARAKI, ET AL.: "Underdetermined Blind Sparse Source Separation for Arbitrarily Arranged Multiple Sensors", SIGNAL PROCESSING, vol. 87, no. 8, JPN6016001914, August 2007 (2007-08-01), NL, pages 1833 - 1847, XP022034408, ISSN: 0003240292, DOI: 10.1016/j.sigpro.2007.02.003 * |
TOMOHIRO NAKATANI, ET AL.: "Multichannel Source Separation based on Source Location Cue with Log-Spectral Shaping by Hidden Mark", PROC. INTERSPEECH 2010, JPN6016001915, 26 September 2010 (2010-09-26), JP, pages 2766 - 2769, ISSN: 0003514593 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194657A (ja) * | 2015-04-01 | 2016-11-17 | 日本電信電話株式会社 | 音源分離装置、音源分離方法および音源分離プログラム |
CN112820310A (zh) * | 2019-11-15 | 2021-05-18 | 北京声智科技有限公司 | 一种来波方向估计方法及装置 |
CN112820310B (zh) * | 2019-11-15 | 2022-09-23 | 北京声智科技有限公司 | 一种来波方向估计方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6114053B2 (ja) | 2017-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Žmolíková et al. | Speakerbeam: Speaker aware neural network for target speaker extraction in speech mixtures | |
JP6235938B2 (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
US9008329B1 (en) | Noise reduction using multi-feature cluster tracker | |
Lu et al. | Ensemble modeling of denoising autoencoder for speech spectrum restoration. | |
CN108701468B (zh) | 掩码估计装置、掩码估计方法以及记录介质 | |
JP5568530B2 (ja) | 音源分離装置とその方法とプログラム | |
Nesta et al. | Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation | |
Vijayasenan et al. | An information theoretic combination of MFCC and TDOA features for speaker diarization | |
JPWO2019198306A1 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
WO2020170907A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6059072B2 (ja) | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム | |
Subba Ramaiah et al. | A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization | |
CN112489678B (zh) | 一种基于信道特征的场景识别方法及装置 | |
US20240144952A1 (en) | Sound source separation apparatus, sound source separation method, and program | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
JP6989031B2 (ja) | 伝達関数推定装置、方法及びプログラム | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Patil et al. | Audio environment identification | |
Nian et al. | An improved particle swarm optimization application to independent component analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6114053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |