JP2021135462A - ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム - Google Patents

ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム Download PDF

Info

Publication number
JP2021135462A
JP2021135462A JP2020033995A JP2020033995A JP2021135462A JP 2021135462 A JP2021135462 A JP 2021135462A JP 2020033995 A JP2020033995 A JP 2020033995A JP 2020033995 A JP2020033995 A JP 2020033995A JP 2021135462 A JP2021135462 A JP 2021135462A
Authority
JP
Japan
Prior art keywords
source image
sound source
linear filter
signal
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020033995A
Other languages
English (en)
Inventor
章子 荒木
Akiko Araki
章子 荒木
慶介 木下
Keisuke Kinoshita
慶介 木下
マーク デルクロア
Marc Delcroix
マーク デルクロア
順貴 小野
Junki Ono
順貴 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Metropolitan Public University Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Metropolitan Public University Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Metropolitan Public University Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020033995A priority Critical patent/JP2021135462A/ja
Publication of JP2021135462A publication Critical patent/JP2021135462A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】精度のよいソースイメージを推定することができる。【解決手段】ソースイメージ推定装置10は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置10は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置10は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。【選択図】図2

Description

本発明は、ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラムに関する。
従来、環境中に分散して配置した複数の録音機器で収録した信号を取り扱う、分散マイクロホンアレイの技術が知られている。分散マイクロホンアレイとは、例えばICレコーダーやスマートホンなどの収録用端末を複数台利用し、マイクロホンアレイとして利用するものである。一般に分散マイクロホンアレイでは、端末ごとにマイクゲインが異なったり、各端末が設置された場所により端末ごとにSN比が区々であったりという性質があり、用いるマイクによりその性能が左右される。
各周波数において、S∈CN×TをN個の音源信号、X∈CM×TをM個のマイクによる多チャンネル観測とし、ここではN=Mとする。Cは複素数の集合である。H∈CM×Mを混合行列W∈CM×Mを分離行列、Tをフレーム数とし、以下では周波数インデックスfは省略して表記する。
ここでの目的は、下記(1)式で表される混合信号から、各音源信号に何らかの線形変換を施したソースイメージxntを精度よく求めることである。
Figure 2021135462
上記の(1)式は、各行列の要素を用いて、下記(2)式で表わすことができる。ここで、xmtは時刻tでのマイクmでの観測信号を示し、sntは時刻tでのn番目の音源信号を示し、hmnは音源nからマイクmまでの伝達関数を示す。
Figure 2021135462
例えば、各音源信号のソースイメージxntを求めるための従来技術として、独立成分分析(ICA:Independent Component Analysis)や独立ベクトル分析(IVA:Independent Vector Analysis)などがある(例えば、非特許文献1参照)。
分離信号Yは、下記(3)式のように得られるが、一般にはスケールの任意性のためそのゲインが定まらない。これを解決するための従来法が、次に述べるprojection backである。
Figure 2021135462
A=W−1とすると、元の観測信号Xは分離信号Yを用いて下記(4)式で表わされる。
Figure 2021135462
これを各行列の成分で表わす場合には下記(5)で表わされる。
Figure 2021135462
ただし、xmtはXの(m,t)成分を表す。他も同様である。すなわちここまでの表記は、xmtはm番目のマイクによる観測信号のtフレーム目、yktはk番目の分離信号のtフレーム目、amkはk番目の分離信号からm番目のマイクによる観測信号までの伝達関数を表す。上記の(5)式より、xmtに含まれているk番目の音源信号成分xkt=hmkは、amkktと表されることがわかる。
よって、上記の(3)式で得られた分離信号のうち、k番目の分離信号ykt(t=1:T)にamkを乗じ、位相を含めた分離信号のスケールをマイクmでの観測信号xkmに揃えた分離信号を、下記(6)式のように得ることができる。これが、従来法で推定するソースイメージxkmである。
Figure 2021135462
従来のprojection back法では、あるマイクm(これを「参照マイク」と呼ぶ)の観測信号xmtに分離信号のスケールを揃える。マイクmにおけるk番目の音源のソースイメージhmkktが、低雑音・低残響で得られている場合には、性質の良いソースイメージへのprojection backができると期待される。
しかしながら、分散マイクでは、各話者に近いマイクと遠いマイクがあったり、録音のレベルがマイクによりバラバラ(マイクゲインがバラバラ)であったりと、各マイクにおけるソースイメージの品質は区々であることが多い。このような場合には、従来技術では、ソースイメージ推定の品質がprojection backを行なう参照マイクmの選び方に大きく依存してしまう。
例えば、各話者から遠いマイクを参照マイクとして選んでしまうと、雑音や残響で劣化したk番目の音源のソースイメージhmkktへのprojection backをすることになり、結果ソースイメージ推定の品質が下がる。
上述した課題を解決し、目的を達成するために、本発明のソースイメージ推定装置は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算部と、前記計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ部とを有することを特徴とする。
本発明によれば、参照マイクの選択によらずに、精度のよいソースイメージを推定することができるという効果を奏する。
図1は、第1の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。 図2は、ソースイメージ推定部の詳細を説明する図である。 図3は、第1の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。 図4は、評価実験における収録条件を示す図である。 図5は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。また、以下、「“A”を“Aの直上にを付した記号”」と同等であるとする。
[第1の実施形態]
以下の実施の形態では、第1の実施形態に係るソースイメージ推定装置10の構成、ソースイメージ推定装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。第1の実施の形態では、マイク選択によらずに高い性能を得られる信号処理の手法を提供することを目的とする。特に、第1の実施の形態では、複数マイクを用いた音声強調技術(雑音除去、音源分離)において、参照マイクの選び方によらず、目的音声をクリアに抽出することを目的とする。
[ソースイメージ推定装置の構成]
まず、図1を用いてソースイメージ推定装置10の構成について説明する。図1は、第1の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。図1に示すように、第1の実施形態1に係るソースイメージ推定装置10は、周波数領域変換部11、ソースイメージ推定部12および時間領域変換部13を有する。
周波数領域変換部11は、入力された時間領域の混合信号Xから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルXを生成しソースイメージ推定部12に出力する。例えば、周波数領域変換部11は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号Xの入力を受け付け、短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルXを生成してソースイメージ推定部12に出力する。
ソースイメージ推定部12は、周波数領域に変換した信号において、線形フィルタ出力でのソースイメージを推定する。例えば、ソースイメージ推定部12は、混合信号から各音源信号を分離する分離行列を計算し、該分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージ(=第1のソースイメージ)を計算し、該ソースイメージに線形フィルタを適用して、線形フィルタ出力におけるソースイメージ(=第2のソースイメージ)を出力する。
ソースイメージ推定部12は、ある参照マイクmにおける観測信号xmtを参照信号とするのではなく、観測信号xに線形フィルタでの音声強調を行なって得られる各音源kの強調音声zktを参照信号としてソースイメージ推定を行う。つまり、ソースイメージ推定部12は、観測信号xmtではなく強調音声zktにprojection backすることで、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。
ここで、各マイクによる観測信号の代わりに、観測信号に多チャンネルフィルタをかけた下記(7)式で表わされる強調音声Zに対してprojection backすることを考える。
Figure 2021135462
ここで、B∈RM×Mは、M個の観測信号をM個のフィルタリング信号に変換する線形フィルタを表す。Rは実数の集合を示す。ただし、Bの逆行列B−1が存在することを仮定する。成分で表わすと、下記(8)式となる。
Figure 2021135462
この線形フィルタBとしては任意のものを考えられるが、本実施形態では、bkm(m=1,・・・,M)が、k番目の音源に対するDelay-and-Sum Beamformerになるようなフィルタを考える。このときzktは、k番目の音源に対するDelay-and-Sum Beamformerの出力となる。
ここで、n番目の分離信号yntを、k番目の線形フィルタ信号zktへprojection backしたものをynt,k (LF)と表すことにし(nt,kの直上に(LF)があるものとする)、これがどのように表されるか下記(9)式から考えてみる。
Figure 2021135462
ただしW=WB−1のように変形し、Z,Wをそれぞれ観測信号と分離行列とみなせば、下記(10)式となる。
Figure 2021135462
ただし、A=−1=BW−1=BAとかける。成分で表すと、下記(11)式で表わされるため、下記(12)式となる。
Figure 2021135462
Figure 2021135462
ここで、A=BAであり、下記(13)式のようになることに注意する。
Figure 2021135462
ここで興味があるのは、k番目の分離信号を、k番目のフィルタ信号にprojection backしたもの、すなわちn=kの場合であるが、これは、下記(14)式で表わされる。
Figure 2021135462
すなわち、k番目の分離信号を各マイクmにprojection backした多チャンネル信号ykt,m(上記(6)式参照)に対して、bkmにてフィルタリングしたものに等しい。要するに、「ある分離信号を線形フィルタ(線形ビームフォーマ)出力zktに対してprojection back すること」は、「その分離信号を各マイクに対してprojection backすることで得られる多チャンネル信号(=第1のソースイメージ)ykt,mに対して線形フィルタ(線形ビームフォーマ)bkmを適用すること」と等価であることが示された。
図2は、ソースイメージ推定部の詳細を説明する図である。図2に例示するように、ソースイメージ推定部12は、音源分離部12a、Projection Back部12b、乗算部12cおよび線形フィルタ部12dを有する。なお、音源分離部12a、Projection Back部12bおよび乗算部12cは、合わせて計算部に相当するものとする。計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージ(以下、適宜「第1のソースイメージ」と記載)を計算する。
音源分離部12aは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。例えば、音源分離部12aは、前述した周波数領域変換部11から出力された時間周波数領域の観測信号ベクトルXの入力を受け付けると、IVA(独立ベクトル分析)もしくはICA(独立成分分析)等の音源分離の技術を適用して分離行列を計算し、分離行列WをProjection Back部12bに通知する。また、音源分離部12aは、分離行列Wにより式(3)にて生成される分離信号yktを乗算部12cに通知する。
Projection Back部12bおよび乗算部12cは、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する。具体的には、Projection Back部12bおよび乗算部12cは、音源分離部12aによって計算された分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。つまり、Projection Back部12bは、A=W−1であるものとして、分離行列Wを用いて、各音源について、各マイクまでの伝達関数amkをそれぞれもとめて、乗算部12cに出力する。
また、乗算部12cは、音源分離部12aから入力された分離信号yktとProjection Back部12bから入力された伝達関数amkとが入力されると、上記の(6)式のように、両者を乗算することで、各音源に対するソースイメージykt,mをすべてのマイクについて計算し、線形フィルタ部12dに出力する。つまり、乗算部12cは、k番目の分離信号を各マイクmにProjection Backした多チャンネル信号ykt,mを、全てのマイクmについて計算する。
線形フィルタ部12dは、計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージ(以下、適宜「第2のソースイメージと記載」)を出力する。具体的には、線形フィルタ部12dは、計算部によって計算されたソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。例えば、線形フィルタ部12dは、まず、各音源kについて、あるマイクm=refを選択する。なお、ここでのマイク選択は、例えば、適当にm=1としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい(例えば、参考文献1参照:S. Araki, N. Ono, K. Kinoshita, and M. Delcroix, 「Comparison of reference microphone selection algorithms for distributed microphone array based speech enhancement in meeting recognition scenarios」 in Proc. IWAENC2018, Sept. 2018, pp. 316−320.)。
そして、線形フィルタ部12dは、各音源kについて、ykt,refとykt,mとの時間差τkmを求める。この推定法は何でもよい(例えば、参考文献2参照:K. Yamaoka, R. Scheibler, N. Ono, and Y. Wakabayashi, 「Subsample time delay estimation via auxiliary-function-based iterative updates」 in Proc. WASPAA2019.)。
続いて、線形フィルタ部12dは、線形フィルタbkmをDelay-and-Sum Beamformerとして、下記の(15)式で求める。ここで、rkmは、下記の(16)式により求めることができる。
Figure 2021135462
Figure 2021135462
線形フィルタ部12dは、pが0の時、全てのチャンネルでの分離音声を同じ重みでDelay-and-Sumを行う。さらに、分散マイクの場合は、マイクゲインが区々であることから、線形フィルタ部12dは、p=−0.5,1,2などとして、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを用いることもできる。
最後に線形フィルタ部12dは、強調音声にprojection backした分離信号ykt,k (LF)を上記の(14)式にて求め、そのパワーを選択したm=refマイクの信号ykt,refのパワーになるよう正規化し、時間領域変換部13に出力する。
[ソースイメージ推定装置の処理手順]
次に、図3を用いて、第1の実施形態に係るソースイメージ推定装置10による処理手順の例を説明する。図3は、第1の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。
図3に例示するように、ソースイメージ推定装置10は、まず、k=0を設定し(ステップS101)、kの値をインクリメントする(ステップS102)。そして、音源分離部12aとProjection Back部12bと乗算部12cが、各音源kにするソースイメージを、全てのマイクm(m=1,・・・,M)で求める(ステップS103)。例えば、乗算部12cが、上記の(6)式を用いてykt,mをすべてのm=1,・・・,Mについて計算する。
続いて、線形フィルタ部12dは、各音源kについて、あるマイクm=refを設定する(ステップS104)。なお、ここでのマイク選択は、例えば、適当にm=1としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい。
そして、線形フィルタ部12dは、各音源kについて、ykt,refとykt,mとの時間差τkmを計算する(ステップS105)。続いて、線形フィルタ部12dは、線形フィルタbkmをDelay-and-Sum Beamformerとして、上記の(15)式で計算する(ステップS106)。
そして、線形フィルタ部12dは、強調音声にprojection backした分離信号ykt,k (LF)を上記の(14)式にて求め、そのパワーを選択したm=refマイクの信号のパワーykt,refになるよう正規化し、出力する(ステップS107)。
その後、ソースイメージ推定装置10は、k=Nであるかを判定し(ステップS108)、k=Nでない場合には(ステップS108否定)、ステップS102の処理に戻る。すなわち、ソースイメージ推定装置10は、すべての音源について上述のステップS102〜S107の処理を行ったかを判定し、すべての音源について処理が終わるまで繰り返し処理を行う。また、ソースイメージ推定装置10は、k=Nであると判定した場合には(ステップS108肯定)、本フローの処理を終了する。
[第1の実施形態の効果]
このように、第1の実施形態に係るソースイメージ推定装置10は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置10は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置10は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。これにより、ソースイメージ推定装置10は、精度のよいソースイメージを推定することが可能である。
特に、ソースイメージ推定装置10では、複数マイクを用いた音声強調技術(雑音除去、音源分離)において、参照マイクの選び方によらず、目的音声をクリアに抽出することが可能である。つまり、ソースイメージ推定装置10では、例えば、ある参照マイクmにおける観測信号xmtを参照信号とするのではなく、観測信号Xに線形フィルタでの音声強調を行なって得られる各音源kの強調音声zktを参照信号としてソースイメージを推定するので、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。
[評価実験]
次に、第1の実施形態を用いて評価実験を行った。図4は、評価実験における収録条件を示す図である。
図4に示すように、それぞれステレオマイクを具備する4台のスマートホンで収録した4−6名の会話音声を用いて、実験を行った。実験では、まず、4台のスマートホン収録信号間の時間同期をとったあと、従来法および発明法で音声強調を実施した。音声強調の精度は、音声認識精度WER(Word Error Rate)で評価した。各端末のサンプリング周波数は16kHz、STFT(Short Time Fourier Transform:短時間フーリエ変換)のフレーム長は4096、フレームシフト長を2048とした。
表1では、従来法にて、参照マイクmを各ch1〜8と決めてprojection backしたときのWER(%)、各話者に物理的に一番近いマイク(clo)を選んだ場合のWER(%)、発明法でのprojection backを行った場合のWER(%)をそれぞれ示す。表1に示すように、従来法では参照マイクの選び方により、音声強調の性能にばらつきがあるが、発明法では最も小さなWERが得られており、精度のよいソースイメージ推定ができるという効果がわかる。
Figure 2021135462
また、表2では、発明法のステップS104においてのrefマイクをch1〜8としたときのWER(%)をそれぞれ示す。表2より、発明法は、refマイクの選び方によらず比較的安定した性能を示すことがわかる。つまり、refマイクの選び方によらずに精度のよいソースイメージ推定ができるという効果がわかる。
Figure 2021135462
[第2の実施形態]
第2の実施形態では、音源分離部12aに、最小分散無歪(MVDR:Minimum Variance Distortionless Response)ビームフォーマを利用する例を示す。MVDRビームフォーマでは、hが与えられている場合は、下記(17)式、(18)式および(19)式にて、各音源yktを求めることができる。しかし、一般的にはhは与えられず推定する必要がある。その場合、hを推定する代わりに、hmkのm番目の要素を1に規格化した=[h1k/hmk,・・・,hMk/hmkを用いることが多く(例えば、参考文献3(Shmulik Markovich Golan, Sharon Gannot, 「Performance analysis of the covariance subtraction method for relative transfer function estimation and comparison to thecovariance whitening method」, ICASSP 2015, pp. 544-548, 2015.)の(4)式や、参照文献4(N. Ito, S. Araki and T. Nakatani, 「Permutation-free clustering of relative transfer function features for blind source separation」, EUSIPCO2015, pp. 409-413, 2015.)の(22)式参照。)、ここでマイクmを選択する必要が出てくる。本実施形態は、このマイクmの選択を不要とする。
Figure 2021135462
Figure 2021135462
Figure 2021135462
第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、MVDRビームフォーマにより各録音端末上での第1のソースイメージを計算する。また、線形フィルタ部12dは、音源分離部12aによって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する。
以下では、第2の実施形態に係るソースイメージ推定装置の処理の流れについて説明する。なお、第1の実施形態と同様の処理については説明を省略する。まず、第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、各周波数における各音源kに関するソースイメージを、すべてのマイクmについて、下記の(20)式で求める。つまり、第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、第1の実施形態に係るソースイメージ推定装置の音源分離部12aの処理とを比較すると、前述の図4のフローチャートにおけるステップS103の処理に代えて、各周波数における各音源kに関するソースイメージを、すべてのマイクmについて、下記の(20)式で求める。
Figure 2021135462
ただし、k,mは、下記の(21)式で表わされ、Rは、下記の(22)式で表わされる。xは、Xのt列目の縦ベクトル、k,m=[h1k/hmk,・・・,hMk/hmkである。第2の実施形態では、Projection Back部12dにて陽に行う計算はなく、音源分離部はykt,mを直接出力する。例えば、第2の実施形態に係るソースイメージ推定装置では、Projection Back部12dを有していなくともよい。
Figure 2021135462
Figure 2021135462
各周波数における各音源kに関するソースイメージをすべてのマイクmについて求めた後の線形フィルタ部12dの処理は、前述の図4のステップS104〜S107の処理と同様である。
なお上記において、にて求めた分離信号は、下記(23)式に示すようなソースイメージであることが証明できる。これは前述の(6)式においてamk=hmkとしたものと解釈できる。
Figure 2021135462
[その他の実施形態]
その他の実施形態では、音源sktに対応する分離信号yktを出力する分離フィルタベクトルwを求めることができる音源分離部12aと、そのスケールをm番目のマイクでの観測信号に合わせることができるProjection back部12bを持つ音源分離手法に、広く適用できる。例えば、音源分離部12aは、各音源分離部を分離できればよく、分離行列を推定しなくてもよい。このような場合には、例えば、音源分離部12aは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る。そして、Projection back部12bおよび乗算部12cは、分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃える。
なお、第2の実施形態のように、音源分離部12aがm番目のマイクでの観測信号にスケールを合わせた分離信号を直接出力できる場合は、Projection back部12bを持たなくてもよい。すなわち、音源分離部12aが、すべてのマイクmに関するykt,mを推定し、その後、線形フィルタ部12dにて、第1の実施形態と同様にステップS104〜S107の処理を行うようにしてもよい。
以下は、その他の実施形態に関する証明である。本実施形態を一般的に記述すると、まず目的は、各音源信号になんらかの伝達関数cがかかったソースイメージを分離信号として得ること、すなわち、下記(24)式となるようにスケールを合わせることである。
Figure 2021135462
スケールを考慮せずに設計されたwを用いた線形フィルタ出力にある定数Pを乗じてこの条件を満たすことを考える。定数Pが満たすべき等式は、下記(25)式であり、これより、Pは、下記(26)式で表わされる。
Figure 2021135462
Figure 2021135462
以下では、このPがw,h,cに依存することを明示するためにP(w,h,c)と表す。以下簡単のため、分離音のインデックスkを省略する。各マイクにおけるソースイメージasにある線形フィルタbを乗じた出力のスケールをcと考え、これにprojection backするPを考える。まずこの線形フィルタ出力は下記(27)式で表わされる。
Figure 2021135462
これは伝達関数が下記(28)式であるようなソースイメージにprojection backすることと等価である。
Figure 2021135462
ここで、以下(29)式が成り立つ。
Figure 2021135462
これはP(w,h,c)がcに対して線形であることから明らかであるが、陽に式変形を示せば、以下の(30)式のようになる。
Figure 2021135462
よって、以下の(31)式が成り立つ。左辺は「線形フィルタb(m=1,・・・,M)の出力に対するprojection back」、右辺は「各マイクへprojection backすることで得られたソースイメージに対して線形フィルタb(m=1,・・・,M)を適用したもの」であり、上述の(26)式と等価な方法でスケールを決定する任意の手法において、これらが等しいことが示された。
Figure 2021135462
上述の実施形態では、この右辺を効率的な手段にて実現する方法を提供している。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図5は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、ソースイメージ推定装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 ソースイメージ推定装置
11 周波数領域変換部
12 ソースイメージ推定部
12a 音源分離部
12b Projection Back部
12c 乗算部
12d 線形フィルタ部
13 時間領域変換部

Claims (10)

  1. 複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、
    各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算部と、
    前記計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ部と
    を有することを特徴とするソースイメージ推定装置。
  2. 前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る音源分離部を有し、
    さらに、前記計算部は、前記分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃えることを特徴とするソースイメージ推定装置。
  3. 前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する音源分離部を有し、
    さらに、前記計算部は、前記音源分離部によって計算された分離行列を用いて、前記第1のソースイメージを計算することを特徴とする請求項1に記載のソースイメージ推定装置。
  4. 前記線形フィルタ部は、前記線形フィルタとして、Delay-and-Sum Beamformerを適用し、前記第2のソースイメージを出力することを特徴とする請求項1に記載のソースイメージ推定装置。
  5. 前記線形フィルタ部は、前記複数の録音端末のマイクのうち、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを適用し、前記第2のソースイメージを出力することを特徴とする請求項4に記載のソースイメージ推定装置。
  6. 前記音源分離部は、独立ベクトル分析を用いて前記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
  7. 前記音源分離部は、独立成分分析を用いて記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
  8. 前記音源分離部は、MVDRビームフォーマにより各録音端末上での前記第1のソースイメージを計算し、
    前記線形フィルタ部は、前記音源分離部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力することを特徴とする請求項3に記載のソースイメージ推定装置。
  9. ソースイメージ推定装置によって実行されるソースイメージ推定方法であって、
    複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算工程と、
    前記計算工程によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ工程と
    を含むことを特徴とするソースイメージ推定方法。
  10. 複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算ステップと、
    前記計算ステップによって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタステップと
    をコンピュータに実行させることを特徴とするソースイメージ推定プログラム。
JP2020033995A 2020-02-28 2020-02-28 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム Pending JP2021135462A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020033995A JP2021135462A (ja) 2020-02-28 2020-02-28 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020033995A JP2021135462A (ja) 2020-02-28 2020-02-28 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Publications (1)

Publication Number Publication Date
JP2021135462A true JP2021135462A (ja) 2021-09-13

Family

ID=77661171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033995A Pending JP2021135462A (ja) 2020-02-28 2020-02-28 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム

Country Status (1)

Country Link
JP (1) JP2021135462A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2013008031A (ja) * 2011-06-24 2013-01-10 Honda Motor Co Ltd 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP2014511612A (ja) * 2011-02-23 2014-05-15 クゥアルコム・インコーポレイテッド 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2018205449A (ja) * 2017-06-01 2018-12-27 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2014511612A (ja) * 2011-02-23 2014-05-15 クゥアルコム・インコーポレイテッド 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013008031A (ja) * 2011-06-24 2013-01-10 Honda Motor Co Ltd 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP2018205449A (ja) * 2017-06-01 2018-12-27 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Similar Documents

Publication Publication Date Title
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
US10192568B2 (en) Audio source separation with linear combination and orthogonality characteristics for spatial parameters
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US20100254539A1 (en) Apparatus and method for extracting target sound from mixed source sound
US10818302B2 (en) Audio source separation
US20110022361A1 (en) Sound processing device, sound processing method, and program
JP2002510930A (ja) 多重非相関化法を用いた未知の混在ソースの分離
US8285773B2 (en) Signal separating device, signal separating method, information recording medium, and program
WO2008004499A1 (fr) Procédé, dispositif et programme de suppression du bruit
JP6652519B2 (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP7224302B2 (ja) マルチチャネル空間的オーディオ・フォーマット入力信号の処理
WO2016011048A1 (en) Decomposing audio signals
JP5788873B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
US11694707B2 (en) Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
Yoshioka et al. Dereverberation by using time-variant nature of speech production system
JP6842497B2 (ja) 混合信号の雑音を低減するための方法及び装置
JP2021135462A (ja) ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
US20200243072A1 (en) Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
Dietzen et al. Instantaneous PSD estimation for speech enhancement based on generalized principal components
Härmä Estimation of the energy ratio between primary and ambience components in stereo audio data
JP7126659B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム
JP6989031B2 (ja) 伝達関数推定装置、方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200302

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230904

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231205