JP2021135462A - ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム - Google Patents
ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム Download PDFInfo
- Publication number
- JP2021135462A JP2021135462A JP2020033995A JP2020033995A JP2021135462A JP 2021135462 A JP2021135462 A JP 2021135462A JP 2020033995 A JP2020033995 A JP 2020033995A JP 2020033995 A JP2020033995 A JP 2020033995A JP 2021135462 A JP2021135462 A JP 2021135462A
- Authority
- JP
- Japan
- Prior art keywords
- source image
- sound source
- linear filter
- signal
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000000926 separation method Methods 0.000 claims abstract description 82
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012880 independent component analysis Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 238000012546 transfer Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
以下の実施の形態では、第1の実施形態に係るソースイメージ推定装置10の構成、ソースイメージ推定装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。第1の実施の形態では、マイク選択によらずに高い性能を得られる信号処理の手法を提供することを目的とする。特に、第1の実施の形態では、複数マイクを用いた音声強調技術(雑音除去、音源分離)において、参照マイクの選び方によらず、目的音声をクリアに抽出することを目的とする。
まず、図1を用いてソースイメージ推定装置10の構成について説明する。図1は、第1の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。図1に示すように、第1の実施形態1に係るソースイメージ推定装置10は、周波数領域変換部11、ソースイメージ推定部12および時間領域変換部13を有する。
次に、図3を用いて、第1の実施形態に係るソースイメージ推定装置10による処理手順の例を説明する。図3は、第1の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。
このように、第1の実施形態に係るソースイメージ推定装置10は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置10は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置10は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。これにより、ソースイメージ推定装置10は、精度のよいソースイメージを推定することが可能である。
次に、第1の実施形態を用いて評価実験を行った。図4は、評価実験における収録条件を示す図である。
第2の実施形態では、音源分離部12aに、最小分散無歪(MVDR:Minimum Variance Distortionless Response)ビームフォーマを利用する例を示す。MVDRビームフォーマでは、hkが与えられている場合は、下記(17)式、(18)式および(19)式にて、各音源yktを求めることができる。しかし、一般的にはhkは与えられず推定する必要がある。その場合、hkを推定する代わりに、hmkのm番目の要素を1に規格化した〜hk=[h1k/hmk,・・・,hMk/hmk]Tを用いることが多く(例えば、参考文献3(Shmulik Markovich Golan, Sharon Gannot, 「Performance analysis of the covariance subtraction method for relative transfer function estimation and comparison to thecovariance whitening method」, ICASSP 2015, pp. 544-548, 2015.)の(4)式や、参照文献4(N. Ito, S. Araki and T. Nakatani, 「Permutation-free clustering of relative transfer function features for blind source separation」, EUSIPCO2015, pp. 409-413, 2015.)の(22)式参照。)、ここでマイクmを選択する必要が出てくる。本実施形態は、このマイクmの選択を不要とする。
その他の実施形態では、音源sktに対応する分離信号yktを出力する分離フィルタベクトルwkを求めることができる音源分離部12aと、そのスケールをm番目のマイクでの観測信号に合わせることができるProjection back部12bを持つ音源分離手法に、広く適用できる。例えば、音源分離部12aは、各音源分離部を分離できればよく、分離行列を推定しなくてもよい。このような場合には、例えば、音源分離部12aは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る。そして、Projection back部12bおよび乗算部12cは、分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃える。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図5は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11 周波数領域変換部
12 ソースイメージ推定部
12a 音源分離部
12b Projection Back部
12c 乗算部
12d 線形フィルタ部
13 時間領域変換部
Claims (10)
- 複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、
各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算部と、
前記計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ部と
を有することを特徴とするソースイメージ推定装置。 - 前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る音源分離部を有し、
さらに、前記計算部は、前記分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃えることを特徴とするソースイメージ推定装置。 - 前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する音源分離部を有し、
さらに、前記計算部は、前記音源分離部によって計算された分離行列を用いて、前記第1のソースイメージを計算することを特徴とする請求項1に記載のソースイメージ推定装置。 - 前記線形フィルタ部は、前記線形フィルタとして、Delay-and-Sum Beamformerを適用し、前記第2のソースイメージを出力することを特徴とする請求項1に記載のソースイメージ推定装置。
- 前記線形フィルタ部は、前記複数の録音端末のマイクのうち、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを適用し、前記第2のソースイメージを出力することを特徴とする請求項4に記載のソースイメージ推定装置。
- 前記音源分離部は、独立ベクトル分析を用いて前記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
- 前記音源分離部は、独立成分分析を用いて記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
- 前記音源分離部は、MVDRビームフォーマにより各録音端末上での前記第1のソースイメージを計算し、
前記線形フィルタ部は、前記音源分離部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力することを特徴とする請求項3に記載のソースイメージ推定装置。 - ソースイメージ推定装置によって実行されるソースイメージ推定方法であって、
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算工程と、
前記計算工程によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ工程と
を含むことを特徴とするソースイメージ推定方法。 - 複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算ステップと、
前記計算ステップによって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタステップと
をコンピュータに実行させることを特徴とするソースイメージ推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033995A JP2021135462A (ja) | 2020-02-28 | 2020-02-28 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033995A JP2021135462A (ja) | 2020-02-28 | 2020-02-28 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135462A true JP2021135462A (ja) | 2021-09-13 |
Family
ID=77661171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033995A Pending JP2021135462A (ja) | 2020-02-28 | 2020-02-28 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135462A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2010233173A (ja) * | 2009-03-30 | 2010-10-14 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2013008031A (ja) * | 2011-06-24 | 2013-01-10 | Honda Motor Co Ltd | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム |
JP2014511612A (ja) * | 2011-02-23 | 2014-05-15 | クゥアルコム・インコーポレイテッド | 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体 |
JP2018205449A (ja) * | 2017-06-01 | 2018-12-27 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
-
2020
- 2020-02-28 JP JP2020033995A patent/JP2021135462A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
JP2010233173A (ja) * | 2009-03-30 | 2010-10-14 | Sony Corp | 信号処理装置、および信号処理方法、並びにプログラム |
JP2014511612A (ja) * | 2011-02-23 | 2014-05-15 | クゥアルコム・インコーポレイテッド | 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体 |
JP2013008031A (ja) * | 2011-06-24 | 2013-01-10 | Honda Motor Co Ltd | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム |
JP2018205449A (ja) * | 2017-06-01 | 2018-12-27 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2596592C2 (ru) | Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала | |
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US10192568B2 (en) | Audio source separation with linear combination and orthogonality characteristics for spatial parameters | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
US20100254539A1 (en) | Apparatus and method for extracting target sound from mixed source sound | |
US10818302B2 (en) | Audio source separation | |
US20110022361A1 (en) | Sound processing device, sound processing method, and program | |
JP2002510930A (ja) | 多重非相関化法を用いた未知の混在ソースの分離 | |
US8285773B2 (en) | Signal separating device, signal separating method, information recording medium, and program | |
WO2008004499A1 (fr) | Procédé, dispositif et programme de suppression du bruit | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP7224302B2 (ja) | マルチチャネル空間的オーディオ・フォーマット入力信号の処理 | |
WO2016011048A1 (en) | Decomposing audio signals | |
JP5788873B2 (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
US11694707B2 (en) | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition | |
Yoshioka et al. | Dereverberation by using time-variant nature of speech production system | |
JP6842497B2 (ja) | 混合信号の雑音を低減するための方法及び装置 | |
JP2021135462A (ja) | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
US20200243072A1 (en) | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition | |
Dietzen et al. | Instantaneous PSD estimation for speech enhancement based on generalized principal components | |
Härmä | Estimation of the energy ratio between primary and ambience components in stereo audio data | |
JP7126659B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
JP6989031B2 (ja) | 伝達関数推定装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200302 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200318 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230904 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231205 |