JP2019074625A - 音源分離方法および音源分離装置 - Google Patents
音源分離方法および音源分離装置 Download PDFInfo
- Publication number
- JP2019074625A JP2019074625A JP2017200108A JP2017200108A JP2019074625A JP 2019074625 A JP2019074625 A JP 2019074625A JP 2017200108 A JP2017200108 A JP 2017200108A JP 2017200108 A JP2017200108 A JP 2017200108A JP 2019074625 A JP2019074625 A JP 2019074625A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source separation
- modeled
- band
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 107
- 238000009826 distribution Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 230000010365 information processing Effects 0.000 claims abstract description 3
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000012937 correction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 238000012804 iterative process Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
音源数とマイクロホンの数は等しくNであると仮定する。音源数よりマイクロホンの数が多い場合は,次元削減などを用いればよい。N個の音源が発する時間領域の時系列信号が混合して,N個のマイクロホンで観測されるとする。
(C1)g:R>0 → Rは連続微分可能。
(C2)g'(r)/rは常に正の値をとり,かつ,単調非増加。
ここで,g'(r)は, g(r)のrに関する微分係数を表す。(数13)で与えられる複素変数の多変量指数べき分布は,βn,c≦1のとき,上の条件(C1)と(C2)を満たす。
本実施例の音源分離装置をコンピュータによって実現する場合,各装置が有する機能はプログラムによって記述される。そして,例えばROM,RAM,CPU等で構成されるコンピュータに所定のプログラムが読み込まれて,CPUがそのプログラムを実行することで実現される。
本実施例の音源分離装置は,ロボットやサイネージといった装置,及びサーバと連携するいかなるシステムにおいて実施することができる。本実施例によれば,周波数成分の共起だけでは捉えられない複雑な時間周波数構造を有する信号に対して,あるいは,分布形状が複素正規分布とは大きく異なる信号に対して,あるいは,有音区間と無音区間が非定常に変化する信号に対して,高い分離性能を有する音源分離方法を提供することができる。
Claims (13)
- 処理装置,記憶装置,入力装置,出力装置を備える情報処理装置により,モデル化された音源分布を用いて,前記入力装置から入力される音声信号の音源分離を行う音源分離方法であって,
前記モデルが従う条件として,
各音源は互いに独立であり,各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し,異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し,前記音源の分割された成分は複素正規分布に従う,
ことを特徴とする音源分離方法。 - 各音源の有するパワーを,周波数間の相関に基づいて帯域分割された周波数帯域ごとにモデル化する,
請求項1記載の音源分離方法。 - 各音源の有するパワーを,入力される音声信号に対応した方法で帯域分割された周波数帯域ごとにモデル化する,
請求項1記載の音源分離方法。 - 複数種類の帯域分割方法を準備して前記記憶装置に格納しておき,
前記音声信号の音源分離を行う際に,前記入力装置からの入力によってその内の一つを選択する,
請求項3記載の音源分離方法。 - 前記音源の分割された成分の分布は多変量指数べき分布に従う,
請求項1記載の音源分離方法。 - 前記音源の状態によって音源の確率分布を切り替える,
請求項1記載の音源分離方法。 - 前記音源が有音状態であるか無音状態であるかを表現するために,2値をとる潜在変数を導入して,音源の確率分布を表現する,
請求項6記載の音源分離方法。 - 音源状態の事前確率および事後確率の少なくとも一つの推定値を,最適化の各反復において、ディープニューラルネットワークを用いて補正する,
請求項1記載の音源分離方法。 - 処理装置,記憶装置,入力装置,出力装置を備え,モデル化された音源分布を用いて,前記入力装置から入力される音声信号の音源分離を行う音源分離装置であって,
前記モデルが従う条件として,
各音源は互いに独立であり,各音源の有するパワーを帯域分割された周波数帯域ごとにモデル化し,異なる周波数帯域間のパワーの関係については非負値行列分解によってモデル化し,前記音源の分割された成分は複素正規分布に従う,
ことを特徴とする音源分離装置。 - 選択可能な複数種類の帯域分割方法を前記出力装置に表示し,前記入力装置により帯域分割方法を選択可能とする、帯域分割決定部を備える、
請求項9記載の音源分離装置。 - 前記帯域分割方法と前記入力装置から入力される音声信号の時間周波数表現を用いて,前記モデルのパラメータを更新するモデルパラメータ更新部と,
前記入力装置から入力される音声信号の時間周波数表現と,前記モデルパラメータ更新部が出力する前記モデルのパラメータを用いて,前記音源の状態を表す事後確率を計算する音源状態更新部と,を備える,
請求項10記載の音源分離装置。 - 前記モデルパラメータ更新部は,前記音源状態更新部が出力する事後確率も用いて,前記モデルのパラメータを更新する,
請求項11記載の音源分離装置。 - 前記モデルパラメータ更新部の反復処理が終了したとき,前記音源状態更新手段部で計算した前記事後確率を出力する音源状態出力部を備える,
請求項12記載の音源分離装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017200108A JP6976804B2 (ja) | 2017-10-16 | 2017-10-16 | 音源分離方法および音源分離装置 |
US16/118,986 US10720174B2 (en) | 2017-10-16 | 2018-08-31 | Sound source separation method and sound source separation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017200108A JP6976804B2 (ja) | 2017-10-16 | 2017-10-16 | 音源分離方法および音源分離装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019074625A true JP2019074625A (ja) | 2019-05-16 |
JP6976804B2 JP6976804B2 (ja) | 2021-12-08 |
Family
ID=66096046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017200108A Active JP6976804B2 (ja) | 2017-10-16 | 2017-10-16 | 音源分離方法および音源分離装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10720174B2 (ja) |
JP (1) | JP6976804B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042266A (ja) * | 2018-09-07 | 2020-03-19 | 南京地平▲線▼机器人技▲術▼有限公司Nanjing Horizon Robotics Technology Co., Ltd. | ブラインド信号分離のための方法、装置及び電子デバイス |
WO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
WO2022130445A1 (ja) * | 2020-12-14 | 2022-06-23 | 日本電信電話株式会社 | 音源信号生成装置、音源信号生成方法、プログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102093822B1 (ko) * | 2018-11-12 | 2020-03-26 | 한국과학기술연구원 | 음원 분리 장치 |
US10937418B1 (en) * | 2019-01-04 | 2021-03-02 | Amazon Technologies, Inc. | Echo cancellation by acoustic playback estimation |
US11270712B2 (en) | 2019-08-28 | 2022-03-08 | Insoundz Ltd. | System and method for separation of audio sources that interfere with each other using a microphone array |
CN111009257B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111429934B (zh) * | 2020-03-13 | 2023-02-28 | 北京小米松果电子有限公司 | 音频信号处理方法及装置、存储介质 |
CN114220453B (zh) * | 2022-01-12 | 2022-08-16 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014041308A (ja) * | 2012-08-23 | 2014-03-06 | Toshiba Corp | 信号処理装置、方法及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5991115B2 (ja) * | 2012-09-25 | 2016-09-14 | ヤマハ株式会社 | 音声マスキングのための方法、装置およびプログラム |
-
2017
- 2017-10-16 JP JP2017200108A patent/JP6976804B2/ja active Active
-
2018
- 2018-08-31 US US16/118,986 patent/US10720174B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014041308A (ja) * | 2012-08-23 | 2014-03-06 | Toshiba Corp | 信号処理装置、方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
RINTARO IKESHITA, YOHEI KAWAGUCHI, ET AL.: "Independent vector analysis with frequency range division and prior switching", 2017 25TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), JPN6021003002, 28 August 2017 (2017-08-28), pages 2329 - 2333, XP033236355, ISSN: 0004439368, DOI: 10.23919/EUSIPCO.2017.8081626 * |
北村 大地、小野 順貴、澤田 宏、亀岡 弘和、猿渡 洋: "独立低ランク行列分析に基づくブラインド音源分離", 電子情報通信学会技術研究報告 VOL.117 NO.255, vol. 第117巻,第225号, JPN6021003001, 14 October 2017 (2017-10-14), JP, pages 73 - 80, ISSN: 0004439367 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042266A (ja) * | 2018-09-07 | 2020-03-19 | 南京地平▲線▼机器人技▲術▼有限公司Nanjing Horizon Robotics Technology Co., Ltd. | ブラインド信号分離のための方法、装置及び電子デバイス |
WO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
JPWO2021033296A1 (ja) * | 2019-08-21 | 2021-02-25 | ||
JP7243840B2 (ja) | 2019-08-21 | 2023-03-22 | 日本電信電話株式会社 | 推定装置、推定方法及び推定プログラム |
WO2022130445A1 (ja) * | 2020-12-14 | 2022-06-23 | 日本電信電話株式会社 | 音源信号生成装置、音源信号生成方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20190115043A1 (en) | 2019-04-18 |
US10720174B2 (en) | 2020-07-21 |
JP6976804B2 (ja) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
JP3949150B2 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
US20140156575A1 (en) | Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization | |
CN103578462A (zh) | 语音处理系统 | |
Yu et al. | Context adaptive training with factorized decision trees for HMM-based statistical parametric speech synthesis | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
Duong et al. | Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP2018032001A (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR20110012946A (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6290803B2 (ja) | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP7047665B2 (ja) | 学習装置、学習方法及び学習プログラム | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム | |
JP2019105681A (ja) | 推定装置、推定方法および推定プログラム | |
WO2019077723A1 (ja) | 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体 | |
WO2019008625A1 (ja) | 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体 | |
JP7420153B2 (ja) | 音源分離装置、音源分離方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6976804 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |