JP7351401B2 - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
JP7351401B2
JP7351401B2 JP2022502647A JP2022502647A JP7351401B2 JP 7351401 B2 JP7351401 B2 JP 7351401B2 JP 2022502647 A JP2022502647 A JP 2022502647A JP 2022502647 A JP2022502647 A JP 2022502647A JP 7351401 B2 JP7351401 B2 JP 7351401B2
Authority
JP
Japan
Prior art keywords
signal
separation filter
convolution
mixed acoustic
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502647A
Other languages
English (en)
Other versions
JPWO2021171406A1 (ja
Inventor
林太郎 池下
智広 中谷
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021171406A1 publication Critical patent/JPWO2021171406A1/ja
Application granted granted Critical
Publication of JP7351401B2 publication Critical patent/JP7351401B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音源抽出技術に関する。
観測された混合音響信号を入力として、雑音や残響も抑圧した各音源の源信号を推定する音源抽出技術は、音声認識の前処理等に広く利用される技術である。複数のマイクロホンを用いて観測された混合音響信号を用いて音源抽出を行う手法として、独立成分分析の多変量拡張にあたる独立ベクトル分析(IVA)が知られている。
実環境でIVAを用いる場合、背景雑音や残響の影響で性能が劣化することが知られている。このうち背景雑音については、目的音源数Kよりもマイク数Mを大きくすることで、IVAの頑健性を高めることができるが、処理時間が増大するという問題がある。音源数Kよりもマイク数Mが大きい場合であっても処理速度の増大を抑え、高速に音源抽出を行う手法として、優決定IVA(OverIVA、例えば、非特許文献1等参照)が知られている。
Robin Scheibler and Nobutaka Ono, "Independent vector analysis with more microphones than sources," in Proc. WASPAA, 2019.
OverIVAによれば背景雑音に頑健な音源抽出を行うことができる。しかし、OverIVAでは残響が考慮されていないため、残響に伴う性能劣化の問題は依然として存在する。
本発明はこのような点に鑑みてなされたものであり、雑音に加えて残響にも頑健な音源抽出を高速で行うための信号処理技術を提供することを目的とする。
源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、混合音響信号から各源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、混合音響信号および混合音響信号の遅延信号を含む混合音響信号列に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。
畳み込み分離フィルタは後部残響除去フィルタと音源分離フィルタとを統合したフィルタであるため、本発明では、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。
図1は、実施形態の信号処理装置の機能構成を例示したブロック図である。 図2は、第1実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。 図3は、実施形態の信号処理方法を例示するためのフロー図である。 図4は、図3のステップS13の処理を例示するためのフロー図である。 図5は、第2実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。 図6は、図3のステップS23の処理を例示するためのフロー図である。 図7は、実施形態の信号処理装置を信号抽出に用いた場合の構成を例示したブロック図である。 図8は、実施形態の信号処理装置のハードウェア構成を例示したブロック図である。
以下、本発明の実施形態を説明する。
[原理]
まず、原理を説明する。
<ブラインド音源抽出問題>
まず、ブラインド音源抽出問題を定義する。K個の目的音源から発せられた目的信号(例えば、音声信号など)とM-K個の雑音源から発せられた雑音信号が空気中を伝搬して混合された状態で、M個のマイクロホンで観測されるとする。このM個の音源(目的音源および雑音源)から発せられた源信号をM個のマイクロホンで観測して得られる信号を観測混合音響信号と呼ぶことにする。これらの源信号はK個の目的音源から発せられた目的信号と、M-K個の雑音源から発せられた雑音信号を含む。ただし、Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1とする。また目的信号は非定常であり、雑音信号は定常なガウス性雑音と仮定する。M個のマイクロホンで観測された観測混合音響信号を時間周波数(TF)領域に変換(例えば、短時間フーリエ変換など)して得られるM次元の混合音響信号のうち、k番目(k∈{1,…,K})の目的信号に対応する成分をx(f,t)∈Cと表現する。ただし、Cは複素数全体の集合を表し、Cαは複素数要素からなるα次元ベクトルの集合全体を表し、α∈βはαがβに属することを表す。すなわち、M次元の混合音響信号のうち目的信号に対応する成分は、x(f,t),…,x(f,t)∈Cである。また、M次元の混合音響信号のうち、z番目(z∈{K+1,…,M})の目的信号に対応する混合音響信号成分をx(f,t)∈Cと表現する。すると、M次元の混合音響信号は以下の式(1)のように表される。
Figure 0007351401000001

ここでf∈{1,…,F}とt∈{1,…,T}は、それぞれ周波数ビンと時間フレームのインデックス(離散周波数と離散時間のインデックス)である。FおよびTは正整数である。また、α:=βはαをβと定義することを意味する。
以下では、残響の影響を考慮に入れて、各音源i∈{1,…,K,z}の混合音響信号成分x(f,t)は、直接音成分と初期反射成分の和d(f,t)∈Cと、後部残響成分r(f,t)∈Cとに分解できるとする。ここで、各d(f,t)は以下の空間モデルに従うと仮定する。
xi(f,t)=di(f,t)+ri(f,t), i∈{1,…,K,z} (2)
dk(f,t)=ak(f)sk(f,t)∈CM, k∈{1,…,K} (3)
dz(f,t)=Az(f)z(f,t)∈CM (4)
ak(f)∈CM, sk(f,t)∈C, k∈{1,…,K} (5)
Az(f)∈CM×(M-K), z(f,t)∈CM-K. (6)
ここで、a(f)とs(f,t)は、それぞれ目的音源kの伝達関数と源信号(目的信号)であり、A(f)とz(f,t)は、それぞれM-K個の雑音源の伝達関数と源信号を行列表示したものである。音源が互いに独立であるという仮定のもとで、観測信号のみからx(f,t),…,x(f,t)を推定する問題はブラインド音源分離問題として知られている。これに対し、本実施形態で扱うブラインド音源抽出問題は、音源分離に加えて残響除去も施したd(f,t),…,d(f,t)を推定する問題として定義される。ただし、目的音源数Kは既知とする。
<IVEconvの確率モデル>
混合音響信号x(f,t)から後部残響成分を除去した後の音源信号の和を式(7)のようにおく。
Figure 0007351401000002

IVEconvの確率モデルは、ハイパーパラメータΔ⊂Nを用いて,以下で定義される。ただし、Nは自然数全体の集合を表し、α⊂βはαがβの部分集合であることを表す。
Figure 0007351401000003

sk(f,t)=wk(f)Hd(f,t)∈C, k∈{1,..,K} (9)
z(f,t)=Wz(f)Hd(f,t)∈CM-K (10)
sk(t):=[sk(1,t),...,sk(F,t)]T∈CF (11)
sk(t)~CN(0Fk(t)IF), k∈{1,..,K} (12)
z(f,t)~CN(0M-K,IM-K) (13)
Figure 0007351401000004

ここで、αはαの転置であり、αはαのエルミート転置であり、λ(t)はs(t)のパワースペクトルであり、CN(μ,Σ)は平均ベクトルμで分散共分散行列Σの複素正規分布であり、Iαはα×αの単位行列であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが複素正規分布CN(μ,Σ)に従っていることを表し、p(α)はαの確率である。w(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する音源分離フィルタであり、W(f)がz番目の雑音源から発せられた雑音信号に対応する成分を強調する音源分離フィルタである。
このIVEconvの確率モデルのモデルパラメータは次の4つである。
後部残響除去フィルタ:Qδ(f)∈CM×M,δ∈Δ
目的信号の音源分離フィルタ:wk(f)∈CM
目的信号のパワースペクトル:λk(t)∈R≧0
雑音信号の音源分離フィルタ:Wz(f)∈CM×(M-K)
ここでR≧0は0以上の実数全体の集合を意味する。
<IVEconvの確率モデルの単純化>
上記のモデルにおいて、残響除去フィルタと音源分離フィルタは一般に交互に最適化することになるため、最適化の結果が局所解に陥りやすい恐れがある。そのため、本実施形態では、IVEconvの確率モデルのモデルパラメータである残響除去フィルタと音源分離フィルタを、両フィルタを結合したひとつのフィルタに変換することでIVEconvの確率モデルを単純なモデルに書き換える。いま、ハイパーパラメータΔの要素をΔ={τ,…,τ|Δ|}で表す。ただし、Δ∈{τ,…,τ|Δ|}であり、|Δ|がハイパーパラメータΔの要素数を表す正整数である。また、以下のように定義する。
Figure 0007351401000005

Figure 0007351401000006

ただし、Qδ(f)が後部残響除去フィルタであり、x^(f,t)を混合音響信号列と呼ぶことにする。なお、x^(f,t)の上付き添え字「^」は、本来「x」の真上に記載すべきであるが、記載表記の制約上、x^(f,t)のように「x」の右上に記載する場合がある。このとき,以下の式(15)および(16)によって,Q(f)とW(f)=[w(f),...,w(f),W(f)]との組を、以下の式(17)に一対一変換する。
pk(f)=Q(f)wk(f)∈CM(|Δ|+1) (15)
Pz(f)=Q(f)Wz(f)∈CM(|Δ|+1)×(M-K) (16)
P(f)=[p1(f),...,pK(f),Pz(f)] (17)
ただし、Cα×βは複素数要素からなるα×β行列の集合全体を表す。p(f)=Q(f)w(f)はk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分である。またP(f)=Q(f)W(f)はz番目の雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分である。
本実施形態では、後部残響除去と音源分離を同時に達成するフィルタP(f)のことを、畳み込み分離フィルタと呼ぶことにする。すなわち、畳み込み分離フィルタは、混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである。この変換に伴い、式(8)-(10)は以下の式(18)および(19)のように変換される。
Figure 0007351401000007

Figure 0007351401000008
以上より、IVEconvの確率モデルは、式(11)-(14), (18)-(19)としてまとめられる。この確率モデルは、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデルである。また、このモデルのモデルパラメータは、式(17)の畳み込み分離フィルタP(f)と、式(12)の目的信号のパワースペクトルλ(t)である。
<単純化されたIVEconvの確率モデルの最適化>
単純化されたIVEconvの確率モデルのモデルパラメータは、最尤法により推定できる。これは、次の式(20)で表される負の対数尤度である目的関数Jを最小化することで達成される。
Figure 0007351401000009

ここで、|α|はαの絶対値であり、||α||はαのノルムであり、det(α)はαの行列式であり、「const.」はパラメータに依存しない定数である。畳み込み分離フィルタP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である。
本実施形態では、畳み込み分離フィルタP(f)と目的信号s(f,t)のパワースペクトルλ(t)とを交互に最適化する。畳込分離フィルタP(f)を固定すると、パワースペクトルλ(t)の大域最適解は以下のようになる。
Figure 0007351401000010

よって、パワースペクトル推定では、畳み込み分離フィルタP(f)を固定したもとで、式(21)に従って各目的信号s(f,t)のパワースペクトルλ(t)を推定する。
また目的信号s(f,t)のパワースペクトルλ(t)を固定した場合に、上記の負の目的関数Jを最適化(最小化)するように畳み込み分離フィルタP(f)を最適化する問題は、各周波数ビンの畳み込み分離フィルタP(1),…,P(F)について目的関数Jを最小化するF個の問題に分割できる。畳み込み分離フィルタP(f)について目的関数Jを最小化する問題は次のように表される。
Figure 0007351401000011

ただし、以下を満たす。
Figure 0007351401000012

ここでtr(α)はαの対角和である。
Figure 0007351401000013

Figure 0007351401000014

は混合音響信号列x^(f,t)の共分散行列であり、Gは目的信号s(f,t)以外の信号を雑音信号とみなしたときの雑音共分散行列と捉えることができる。以上のように、畳み込み分離フィルタ推定では、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数で混合音響信号に対する目的関数JP(f)を最適化する畳み込み分離フィルタP(f)を周波数ごとに推定する。
所定の条件を満たすまで、上記のパワースペクトル推定の処理と畳み込み分離フィルタ推定の処理とが交互に実行させる。
[第1実施形態]
次に、図面を用いて第1実施形態を説明する。
[構成]
図1に例示するように、第1実施形態の信号処理装置1は、初期設定部11、パワースペクトル推定部12、畳み込み分離フィルタ推定部13、および制御部14を有する。信号処理装置1は制御部14の制御の下で各処理を実行する。図2に例示するように、第1実施形態の畳み込み分離フィルタ推定部13は、q(f)演算部131、p(f)演算部132、P(f)演算部134、および制御部133を有する。畳み込み分離フィルタ推定部13は、制御部133の制御の下で各処理を実行する。
<処理>
前述のように、信号処理装置1は、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
≪初期設定部11の処理(ステップS11)≫
図3に例示するように、信号処理装置1の初期設定部11には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部11は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。例えば、初期設定部11は、P(f)=[I|OM×Lに設定する。ただしL:=|Δ|Mである。また初期設定部11は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部11は、すべてのfについて式(24)に従ってG(f)を計算する。さらに初期設定部11は、式(24)に従ってすべてのfについてG(f)-1∈C(M+L)×(M+L)を計算する。初期設定部11は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),G(f)-1を畳み込み分離フィルタ推定部13に出力する(ステップS11)。
≪パワースペクトル推定部12の処理(ステップS12)≫
パワースペクトル推定部12は、x^(f,t)およびP(f)=[p(f),...,p(f),P(f)]を用い、すべてのf,tについて、式(18)に従って目的信号s(f,t)を得、さらに式(11)(21)に従って目的信号s(f,t)のパワースペクトルλ(t)を得る。すなわち、パワースペクトル推定部12は、畳み込み分離フィルタP(f)を固定したもとで、各目的信号s(f,t)のパワースペクトルλ(t)を推定する。パワースペクトル推定部12は、パワースペクトルλ(t)を畳み込み分離フィルタ推定部13に出力する(ステップS12)。
≪畳み込み分離フィルタ推定部13の処理(ステップS13)≫
畳み込み分離フィルタ推定部13は、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号x(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。これは目的関数Jを各周波数ビンf=1,…,Fにおける畳み込み分離フィルタP(f)について最小化する問題を解くことに相当する。例えば、畳み込み分離フィルタ推定部13は、図4に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
P(f)の更新処理(図4):
まず、制御部133はk=1に設定する(ステップS133a)。
次にq(f)演算部は、P(f),G(f)-1を入力とし、すべてのfについて、式(25)に従ってq(f)を得て出力する。
Figure 0007351401000015

ここで、前述のようにP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である。eはk番目の成分が1のM次元単位ベクトルであり、α-Hはαの逆行列のエルミート転置である(ステップS131)。
(f)演算部132は、q(f)、x^(f,t),λ(t)を入力とし、すべてのfについて、式(23)(26)に従ってp(f)を得て出力する(ステップS132)。
Figure 0007351401000016
制御部133はk=Kであるか否かを判定する(ステップS133)。ここでk=Kでない場合、制御部133はk+1を新たなkに設定し(ステップS133c)、ステップS131に戻す。一方、k=Kである場合、P(f)演算部134は、G(f)-1,p(f)を入力とし、すべてのfについて、式(27)に従ってPz(f)を得て出力する。
Figure 0007351401000017

ここで、ekがk番目の成分が1のM次元単位ベクトルであり、E:=[eK+1,...,e]∈CM×(M-K)であり、E:=[e,...,e]∈CM×Kであり、W(f):=[w(f),...,w(f)]∈CM×Kであり、0α×βがすべての要素が0のα×β行列である。前述のようにP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である(ステップS134)。
(f)演算部132は、すべてのk,fについてp(f)を出力し、P(f)演算部134は、すべてのz,fについてPz(f)を出力する。すなわち、畳み込み分離フィルタ推定部13は最適化された畳み込み分離フィルタP(f)=[p(f),...,p(f),P(f)]を出力する。さらに畳み込み分離フィルタ推定部13は、更新後のP(f)を以下のように正規化し、正規化後のP(f)を出力してもよい。
Figure 0007351401000018

Figure 0007351401000019

Figure 0007351401000020

これにより、数値的安定性を向上させることができる。ただし、この正規化は必須ではなく、これらの正規化が行われなくてもよい(ステップS135)。
以上のように、畳み込み分離フィルタ推定部13は、式(22)の問題を図4のように解き、最適化された畳み込み分離フィルタP(f)を出力する。このとき、雑音信号は分離・抽出する必要がないため、図4では、雑音信号に対する畳み込み分離フィルタPを厳密に最適化する代わりに、Pが張る線形空間Im(P)までを最適化する方法を採用することで高速な音源抽出手法を実現している。
≪制御部14の処理(ステップS14)≫
制御部14は、所定の条件が充足されたかを判定する。所定の条件の例は、パワースペクトル推定(ステップS12)と畳み込み分離フィルタ推定(ステップS13)との処理の繰り返し回数が予め定めた繰り返し回数に到達したこと、あるいは、各モデルパラメータの更新量が所定の閾値以下となったこと等である。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS15に進める。すなわち制御部14は、所定の条件を満たすまで、パワースペクトル推定部12の処理と畳み込み分離フィルタ推定部13の処理とを交互に実行させる(ステップS14)。
ステップS15では、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号s(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部13が上述のように最適化された畳み込み分離フィルタP(f)を出力する(ステップS15)。
<本実施形態の特徴>
本実施形態では、後部残響除去フィルタと音源分離フィルタとを統合した畳み込み分離フィルタを用いたモデルを用いるため、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。また、上述の処理はリアルタイム処理によって実行可能である。
[第2実施形態]
次に、第2実施形態を説明する。目的音源数Kが1の場合、畳み込み分離フィルタをより高速に最適化することができる。第2実施形態ではこの方式について説明する。第2実施形態の第1実施形態からの相違点は、K=1に限定される点および畳み込み分離フィルタの最適化手順である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して処理を簡略化する。
[構成]
図1に例示するように、第2実施形態の信号処理装置2は、初期設定部21、パワースペクトル推定部12、畳み込み分離フィルタ推定部23、および制御部14を有する。信号処理装置2は制御部14の制御の下で各処理を実行する。図5に例示するように、第2実施形態の畳み込み分離フィルタ推定部23は、畳み込み分離フィルタ推定部13、方程式求解部231、固有値問題求解部232、p(f)演算部234、および制御部233を有する。畳み込み分離フィルタ推定部23は、制御部233の制御の下で各処理を実行する。
<処理>
本実施形態でも、畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
≪初期設定部21の処理(ステップS21)≫
図3に例示するように、信号処理装置2の初期設定部21には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部21は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。また初期設定部21は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部21は、すべてのfについて式(24)に従ってG(f)を計算する。さらに初期設定部21は、式(24)に従ってすべてのfについてG(f)-1∈C(M+L)×(M+L)を計算する。また初期設定部21は、G(f)-1の先頭のM×Mの小行列V(f)を抽出する。初期設定部21は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),G(f)-1,V(f)を畳み込み分離フィルタ推定部13に出力する(ステップS21)。
≪パワースペクトル推定部12の処理(ステップS12)≫
パワースペクトル推定部12は、第1実施形態で説明した通りに、畳み込み分離フィルタP(f)を固定したもとで、各目的信号s(f,t)のパワースペクトルλ(t)を推定する。パワースペクトル推定部12は、パワースペクトルλ(t)を畳み込み分離フィルタ推定部23に出力する(ステップS12)。
≪畳み込み分離フィルタ推定部23の処理(ステップS23)≫
畳み込み分離フィルタ推定部23は、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号x(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。例えば、畳み込み分離フィルタ推定部23は、図6に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
P(f)の更新処理(図6):
方程式求解部231は、x^(f,t)およびλ1(t)を用い、すべてのfについて、式(23)に従ってG(f)を得、さらに方程式求解部231は、すべてのfについて、式(28)の方程式を満たすM×M行列V(f)∈CM×MおよびL×M行列C(f)∈CL×Mを算出して出力する。
Figure 0007351401000021

M×M行列V(f)は固有値問題求解部232およびp(t)演算部234に出力され、L×M行列C(f)はp(t)演算部234に出力される(ステップS231)。
固有値問題求解部232は、V(f),V(f)を入力とし、すべてのfについて一般化固有値問題V(f)q=λV(f)qを解いて最大固有値λに対応する固有ベクトルq=a(f)を得て出力する。固有ベクトルq=a(f)はp(t)演算部234に出力される(ステップS232)。
(t)演算部234は、V(f),a(f),C(f)を入力とし、すべてのfについて、式(29)に従って目的信号p(f)を算出して出力する(ステップS234)。
Figure 0007351401000022
(29)
≪制御部14の処理(ステップS14)≫
制御部14は、所定の条件が充足されたかを判定する。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS25に進める。
ステップS25では、まず、畳み込み分離フィルタ推定部23の畳み込み分離フィルタ推定部13が、すべてのfについて第1実施形態で説明したようにP(f)を得て出力する。さらに、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号s(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部23が上述のように最適化された畳み込み分離フィルタP(f)=[p(f),P(f)]を出力する(ステップS25)。
[第2実施形態の変形例]
固有値問題求解部232は、以下の式(30)によって、ステップS232の最大固有値λに対応する固有ベクトルq=a(f)を得てもよい。
Figure 0007351401000023

ここでVとVの逆行列V -1とV -1は、それぞれ、残響の影響を取り除いた後の混合音響信号列と雑音信号列の共分散行列と考えることができるので、式(32)による処理はMaxSNRに基づくステアリングベクトル推定と捉えることができる。また、ステップS234は、畳み込みビームフォーマの計算に相当する。このことから畳み込み分離フィルタ推定部23によるIVEconvは、MaxSNRに基づくステアリングベクトル推定と畳み込みビームフォーマによる音源抽出との繰り返しに相当すると言える。
[第3実施形態]
第3実施形態では、第1,2実施形態または第2実施形態の変形例で最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)から、目的信号s(f,t)の直接音成分と初期反射成分の和d(f,t)を得て出力する。
図7に例示するように、第3実施形態のシステムは、第1,2実施形態または第2実施形態の変形例の信号処理装置1(2)および信号抽出装置3を有する。前述のように、信号処理装置1(2)は、混合音響信号x(f,t)を入力とし、前述のように最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)を出力する。
信号抽出装置3は、最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)を入力とし、すべてのk,f,tについて、以下の式(31)に従ってd(f,t)を得て出力する。
Figure 0007351401000024

その後、得られたd(f,t)は時間周波数領域で他の処理に用いられてもよいし、時間領域に変換されてもよい。
[実験]
実験では表1に書かれた4手法の性能評価を行った。ここで(a)は「N. Ono, Proc. WASPAA, pp. 189-192, 2011.」(参考文献1)に記載された従来法であり、(b)は「R. Scheibler and N. Ono, arXiv preprint arXiv:1910.10654, 2019.」(参考文献2)に記載された従来法であり、(c)は「T. Yoshioka and T. Nakatani, IEEE Trans. ASLP, vol. 20, no. 10, pp. 2707-2720, 2012.」(参考文献3)に基づく従来法である。ただし、(c)はWPEとIVAの交互最適化であり、参考文献3で提案されたWPEとICA(IVA)の交互最適化を高速化した手法である。実験条件は表2のとおりである。なお、RTFは処理速度を表す。(a)と(c)ではM(>K)個の出力のうち、パワーの大きいK個を音源抽出結果として選びSDR/SIRを計測した。表1より本実施形態の手法の有効性が確認できた。
Figure 0007351401000025
Figure 0007351401000026
[ハードウェア構成]
各実施形態における信号処理装置1,2および信号抽出装置3は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
図8は、各実施形態における信号処理装置1,2および信号抽出装置3のハードウェア構成を例示したブロック図である。図8に例示するように、この例の信号処理装置1,2は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、信号処理装置1,2および信号抽出装置3の機能構成が実現される。
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1,2 信号処理装置

Claims (10)

  1. 源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理装置。
  2. 請求項1の信号処理装置であって、
    前記観測混合音響信号はM個の音源から発せられた前記源信号をM個のマイクロホンで観測して得られ、
    前記源信号はK個の目的音源から発せられた目的信号を含み、
    Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1であり、
    前記混合音響信号がx(f,t)であり、
    fが離散周波数のインデックスであり、f∈{1,…,F}であり、Fが正整数であり、
    tが離散時間のインデックスであり、t∈{1,…,T}であり、Tが正整数であり、
    前記畳み込み分離フィルタがp(f),...,p(f)を含み、
    (f)=Q(f)w(f)がk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分であり、k∈{1,…,K}であり、w(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する前記音源分離フィルタであり、
    Figure 0007351401000027

    であり、Iαがα×αの単位行列であり、Qδ(f)が前記後部残響除去フィルタであり、δ∈Δであり、Δ∈{τ,…,τ|Δ|}であり、|Δ|が正整数であり、
    前記混合音響信号列が
    Figure 0007351401000028

    であり、
    各前記目的信号が
    Figure 0007351401000029

    を含み、αがαのエルミート転置である、信号処理装置。
  3. 請求項2の信号処理装置であって、
    前記源信号はさらにM-K個の雑音源から発せられた雑音信号を含み、
    前記畳み込み分離フィルタがさらにP(f)を含み、
    (f)=Q(f)W(f)が雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分であり、W(f)が雑音源から発せられた雑音信号に対応する成分を強調する前記音源分離フィルタであり、
    各前記雑音信号に対応する情報が
    Figure 0007351401000030

    であり、
    (t)~CN(0,λ(t)I
    z(f,t)~CN(0M-K,IM-K
    であり、
    (t):=[s(1,t),…,s(F,t)]であり、λ(t)がs(t)のパワースペクトルであり、αがαの転置であり、CN(μ,Σ)が平均ベクトルμで分散共分散行列Σの複素正規分布であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが前記複素正規分布CN(μ,Σ)に従っていることを表し、
    Figure 0007351401000031

    であり、p(α)がαの生じる確率である、信号処理装置。
  4. 請求項3の信号処理装置であって、
    前記畳み込み分離フィルタP(f)=[p(f),...,p(f),P(f)]を固定したもとで、s(t)のパワースペクトル
    Figure 0007351401000032

    を得るパワースペクトル推定部と、
    各前記目的信号のパワースペクトルλ(t)を固定したもとで、fに対応する各周波数で前記混合音響信号x(f,t)に対する目的関数
    Figure 0007351401000033

    を最小化する前記畳み込み分離フィルタP(f)を前記周波数ごとに得る畳み込み分離フィルタ推定部と、
    所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
    を有し、
    Figure 0007351401000034

    であり、
    Figure 0007351401000035

    であり、
    前記畳み込み分離フィルタP(f)の最初のM行成分がW(f):=[w(f),...,w(f),W(f)]であり、
    tr(α)がαの対角和であり、det(α)がαの行列式である、信号処理装置。
  5. 請求項4の信号処理装置であって、
    α-Hがαの逆行列のエルミート転置であり、ekがk番目の成分が1のM次元単位ベクトルであり、E:=[eK+1,...,e]であり、E:=[e,...,e]であり、W(f):=[w(f),...,w(f)]であり、0α×βがすべての要素が0のα×β行列であり、
    前記畳み込み分離フィルタ推定部は、
    k=1,…,Kについて、
    Figure 0007351401000036

    および
    Figure 0007351401000037

    を得、
    Figure 0007351401000038

    を得る、信号処理装置。
  6. 請求項4の信号処理装置であって、
    K=1であり、
    L×Mがすべての要素が0のL×M行列であり、
    (f)がG(f)-1の先頭のM×Mの小行列であり、
    (f)がG(f)-1の先頭のM×Mの小行列であり、
    前記畳み込み分離フィルタ推定部は、
    Figure 0007351401000039

    を満たすM×M行列V(f)およびL×M行列C(f)を得、
    固有値問題V(f)q=λV(f)qを解いて最大固有値λに対応する固有ベクトルq=a(f)を得、
    Figure 0007351401000040

    を得る、信号処理装置。
  7. 請求項6の信号処理装置であって、
    前記畳み込み分離フィルタ推定部は、
    Figure 0007351401000041

    によって前記固有ベクトルq=a(f)を得る、信号処理装置。
  8. 請求項1の信号処理装置であって、
    前記モデルパラメータは、各前記目的信号のパワースペクトル、および、前記畳み込み分離フィルタを含み、
    前記畳み込み分離フィルタを固定したもとで、各前記目的信号の前記パワースペクトルを推定するパワースペクトル推定部と、
    各前記目的信号の前記パワースペクトルを固定したもとで、各周波数で前記混合音響信号に対する目的関数を最適化する前記畳み込み分離フィルタを周波数ごとに推定する畳み込み分離フィルタ推定部と、
    所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
    を有する信号処理装置。
  9. 源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理方法。
  10. 請求項1から8の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。
JP2022502647A 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム Active JP7351401B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/007643 WO2021171406A1 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021171406A1 JPWO2021171406A1 (ja) 2021-09-02
JP7351401B2 true JP7351401B2 (ja) 2023-09-27

Family

ID=77490797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502647A Active JP7351401B2 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230087982A1 (ja)
JP (1) JP7351401B2 (ja)
WO (1) WO2021171406A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688515B (zh) * 2024-02-04 2024-05-17 潍柴动力股份有限公司 空压机的声品质评价方法、装置、存储介质与电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015070321A (ja) 2013-09-26 2015-04-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP5231139B2 (ja) * 2008-08-27 2013-07-10 株式会社日立製作所 音源抽出装置
JP2018028620A (ja) * 2016-08-18 2018-02-22 株式会社日立製作所 音源分離方法、装置およびプログラム
JP7046636B2 (ja) * 2018-02-16 2022-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015070321A (ja) 2013-09-26 2015-04-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム

Also Published As

Publication number Publication date
US20230087982A1 (en) 2023-03-23
WO2021171406A1 (ja) 2021-09-02
JPWO2021171406A1 (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
JP7351401B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7167746B2 (ja) 非負値行列分解最適化装置、非負値行列分解最適化方法、プログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
JP7444243B2 (ja) 信号処理装置、信号処理方法、およびプログラム
CN110992977B (zh) 一种目标声源的提取方法及装置
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
JP4630203B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP7428251B2 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
JP7222277B2 (ja) 雑音抑圧装置、その方法、およびプログラム
WO2022172441A1 (ja) 音源分離装置、音源分離方法、およびプログラム
WO2021157062A1 (ja) 量子化ビット数拡張のための学習装置、信号推定装置、学習方法、信号推定方法、およびプログラム
JP7159928B2 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP7173355B2 (ja) Psd最適化装置、psd最適化方法、プログラム
Wang et al. Low-latency real-time independent vector analysis using convolutive transfer function
Schwartz et al. A recursive expectation-maximization algorithm for speaker tracking and separation
JP7173356B2 (ja) Psd最適化装置、psd最適化方法、プログラム
JP7487795B2 (ja) 音源信号生成装置、音源信号生成方法、プログラム
JP2007249050A (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
WO2023276068A1 (ja) 音響信号強調装置、音響信号強調方法、プログラム
JP7375905B2 (ja) フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP7375904B2 (ja) フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
JP2023089431A (ja) 信号処理装置、信号処理方法、およびプログラム
Chen et al. Investigation of sampling techniques for maximum entropy language modeling training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230828

R150 Certificate of patent or registration of utility model

Ref document number: 7351401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150