JP2014021315A - 音源分離定位装置、方法、及びプログラム - Google Patents
音源分離定位装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014021315A JP2014021315A JP2012160450A JP2012160450A JP2014021315A JP 2014021315 A JP2014021315 A JP 2014021315A JP 2012160450 A JP2012160450 A JP 2012160450A JP 2012160450 A JP2012160450 A JP 2012160450A JP 2014021315 A JP2014021315 A JP 2014021315A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- localization
- variable
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004807 localization Effects 0.000 title claims abstract description 161
- 238000000926 separation method Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 78
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 9
- 238000003860 storage Methods 0.000 description 52
- 238000009826 distribution Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 14
- 238000013178 mathematical model Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
【解決手段】混合音観測部11が、複数の音源の各々から発生した各音の混合音をマイクロフォンアレイにより観測した混合音信号を受け付け、時間周波数領域観測変換部12が、混合音信号を時間周波数領域の観測信号xtfに変換し、音源時間周波数マスク変数計算部22が、統計量及び音源定位変数ηkdを用いたマスク変数ξtfkを計算し、音源定位変数計算部23が、統計量及びマスク変数ξtfkを用いた音源定位変数ηkdを計算し、統計量計算部24が、各種統計量を計算し、収束条件判定部25が、音源時間周波数マスク変数計算部22、音源定位変数計算部23、及び統計量計算部24の処理を、予め定めた収束条件を満たすまで反復させ、収束条件を満たした場合には、出力部4から解析結果を出力する。
【選択図】図3
Description
まず、本実施の形態の概要について説明する。図1及び図2は、本実施の形態の概要を示すイメージ図である。
本実施の形態に係る音源分離定位装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する音源分離定位処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されており、CPUが音源分離定位処理ルーチンを実行するためのプログラムを、内部記憶装置であるROMから読み込んで実行することにより形成される。
次に、本実施の形態に係る音源分離定位装置10の作用について説明する。まず、複数のマイクロフォンを任意の配置で設置したマイクロフォンアレイを利用して観測された混合音が記憶装置に混合音信号として記憶された状態、または本装置に付随するマイクロフォンアレイにより混合音が観測されている状態で、音源分離定位装置10において、図5に示す音源分離定位処理ルーチンが実行される。
次に、本実施の形態に係る音源分離定位装置における実験の結果について説明する。
2 解析部
3 記憶部
4 出力部
10 音源分離定位装置
11 混合音観測部
12 時間周波数領域観測変換部
13 事前設定値受付部
21 初期値生成部
22 音源時間周波数マスク変数計算部
23 音源定位変数計算部
23 音源分離変数計算部
24 統計量計算部
25 収束条件判定部
41 分離音抽出部
42 音声波形復元部
43 音源方向抽出部
44 最終出力部
Claims (7)
- 複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付ける受付手段と、
前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析する解析手段と、
前記解析手段により解析された音源分離及び音源定位の結果を出力する出力手段と、
を含む音源分離定位装置。 - 前記受付手段は、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記解析手段は、
前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算する音源時間周波数マスク変数計算手段と、
前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算する音源定位変数計算手段と、
前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算する統計量計算手段と、
前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させる収束条件判定手段と、を含み、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
請求項1記載の音源分離定位装置。 - 前記解析手段は、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項1または請求項2記載の音源分離定位装置。
- 受付手段と、解析手段と、出力手段とを含む音源分離定位装置における音源分離定位方法であって、
前記受付手段が、複数の音源の各々から発せられた各音の混合音を、各々異なる位置に配置された複数の観測手段により観測した混合音信号を受け付け、
前記解析手段が、前記受付手段により受け付けた混合音信号を、前記複数の音源の各々に対応するように分離する音源分離と、前記観測手段を基準とした前記複数の音源の各々が存在する方向を推定する音源定位とを、前記音源分離と前記音源定位とで相互に依存させた変数を用いて反復処理する同時最適化により解析し、
前記出力手段が、前記解析手段により解析された音源分離及び音源定位の結果を出力する
音源分離定位方法。 - 前記解析手段が、音源時間周波数マスク変数計算手段と、音源定位変数計算手段と、統計量計算手段と、収束条件判定手段とを含む音源分離定位装置における音源分離定位方法であって、
前記受付手段が、前記混合音信号を、時間フレームt及び周波数ビンf毎の各要素からなる時間周波数領域の観測信号xtfに変換して前記解析手段に受け渡し、
前記音源時間周波数マスク変数計算手段が、前記観測信号xtfの各要素が、仮想的に設定した複数の音源の各々へ該各要素を割り当てる複数のマスクのk番目のマスクに対応する信号である確率を表すマスク変数ξtfkを、前記複数のマスクの各々について計算し、
前記音源定位変数計算手段が、前記k番目のマスクに対応した音源が、前記観測手段を基準として分割された複数の方向のd番目の方向に存在する確率を表す音源定位変数ηkdを、前記複数の方向の各々について計算し、
前記統計量計算手段が、前記マスク変数ξtfk及び前記音源定位変数ηkdの計算に用いられる統計量を計算し、
前記収束条件判定手段が、前記音源時間周波数マスク変数計算手段、前記音源定位変数計算手段、及び前記統計量計算手段の計算を、予め定めた収束条件を満たすまで反復させ、
前記マスク変数ξtfkの計算に前記音源定位変数ηkdを用い、前記音源定位変数ηkdの計算に前記マスク変数ξtfkを用いる
請求項4記載の音源分離定位方法。 - 前記解析手段が、無響環境において測定された前記複数の観測手段のステアリングベクトルを用いて、前記音源分離及び前記音源定位を解析する請求項4または請求項5記載の音源分離定位方法。
- コンピュータを、請求項1〜請求項3のいずれか1項記載の音源分離定位装置を構成する各手段として機能させるための音源分離定位プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012160450A JP5791081B2 (ja) | 2012-07-19 | 2012-07-19 | 音源分離定位装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012160450A JP5791081B2 (ja) | 2012-07-19 | 2012-07-19 | 音源分離定位装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014021315A true JP2014021315A (ja) | 2014-02-03 |
JP5791081B2 JP5791081B2 (ja) | 2015-10-07 |
Family
ID=50196235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012160450A Active JP5791081B2 (ja) | 2012-07-19 | 2012-07-19 | 音源分離定位装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5791081B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN106105261A (zh) * | 2014-03-12 | 2016-11-09 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
WO2020060519A3 (en) * | 2018-09-17 | 2020-06-04 | Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ | Joint source localization and separation method for acoustic sources |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
-
2012
- 2012-07-19 JP JP2012160450A patent/JP5791081B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
Non-Patent Citations (2)
Title |
---|
中谷智広他: ""音源スペクトルHMMと音源方向モデルの教師無し同時学習に基づく多チャンネル音源分離"", 日本音響学会2011年春季研究発表会講演論文集[CD−ROM], JPN6015013002, March 2011 (2011-03-01), pages 805 - 808, ISSN: 0003043310 * |
高橋徹他: ""実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング "", 情報処理学会創立50周年記念(第72回)全国大会講演論文集, JPN6015013003, March 2010 (2010-03-01), pages 5 - 29, ISSN: 0003102670 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106105261A (zh) * | 2014-03-12 | 2016-11-09 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN106105261B (zh) * | 2014-03-12 | 2019-11-05 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
JPWO2019198306A1 (ja) * | 2018-04-12 | 2021-02-12 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
US11456003B2 (en) | 2018-04-12 | 2022-09-27 | Nippon Telegraph And Telephone Corporation | Estimation device, learning device, estimation method, learning method, and recording medium |
WO2020060519A3 (en) * | 2018-09-17 | 2020-06-04 | Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ | Joint source localization and separation method for acoustic sources |
US11482239B2 (en) | 2018-09-17 | 2022-10-25 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Joint source localization and separation method for acoustic sources |
Also Published As
Publication number | Publication date |
---|---|
JP5791081B2 (ja) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3949150B2 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
US20170178664A1 (en) | Apparatus, systems and methods for providing cloud based blind source separation services | |
JP5791081B2 (ja) | 音源分離定位装置、方法、及びプログラム | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2015521748A (ja) | 入力信号を変換する方法 | |
He et al. | Underdetermined BSS based on K-means and AP clustering | |
JP2019074625A (ja) | 音源分離方法および音源分離装置 | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
Cong et al. | Fast and effective model order selection method to determine the number of sources in a linear transformation model | |
JP2019066339A (ja) | 音による診断装置、診断方法、および診断システム | |
JP6747447B2 (ja) | 信号検知装置、信号検知方法、および信号検知プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
EP4032035A1 (en) | Efficient computational inference | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6059072B2 (ja) | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム | |
JP6448567B2 (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
Kinoshita et al. | Deep mixture density network for statistical model-based feature enhancement | |
JP5387442B2 (ja) | 信号処理装置 | |
JP4946330B2 (ja) | 信号分離装置及び方法 | |
JP6732944B2 (ja) | 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム | |
JP2020034870A (ja) | 信号解析装置、方法、及びプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5791081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |