JP6466863B2 - 最適化装置、最適化方法、およびプログラム - Google Patents
最適化装置、最適化方法、およびプログラム Download PDFInfo
- Publication number
- JP6466863B2 JP6466863B2 JP2016022569A JP2016022569A JP6466863B2 JP 6466863 B2 JP6466863 B2 JP 6466863B2 JP 2016022569 A JP2016022569 A JP 2016022569A JP 2016022569 A JP2016022569 A JP 2016022569A JP 6466863 B2 JP6466863 B2 JP 6466863B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- matrix
- unit
- elements
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
Xω,τ=Sω,τ+Nω,τ (1)
ここでω={1,2,・・・,Ω}とτ={1,2,・・・,F}は時間と周波数のインデックス、Sω,τは目的音、Nω,τは雑音である。ここで音源からマイクロホンまでの伝達特性は問題の簡単のために無視した。さらに、目的音と雑音は無相関であると仮定し、目的音のパワースペクトル密度(PSD)をφS,ω,τ=|Sω,τ|2、雑音のPSDをφN,ω,τ=|Nω,τ|2としたとき、目的音を抽出するウィナーフィルタは以下のように近似できる。
ここでξω,τ=φS,ω,τ/φN,ω,τは事前SNRを表す。入力されたXω,τにウィナーフィルタを乗ずることで、目的音Yω,τが抽出される(ウィナーフィルタリング)。
Yω,τ=Gω,τXω,τ (3)
式(2)(3)より、雑音下で目的音だけをクリアに収音するためには、目的音と雑音のPSD φS,ω,τ, φN,ω,τか、事前SNRξω,τを正確に推定すればよいことが分かる。
fτ=Agτ (4)
ただし、gτは音響特徴量の候補を要素とするQ次元のベクトルであり、fτは目的音の強調に有効なD個の音響特徴量を要素とするQ次元のベクトルである。選択行列Aの各行は、1つの要素だけが正の値を持ち、それ以外の要素の値は0となる。つまり音響特徴量の選択問題は、選択行列Aの最適化問題である。
[理論]
まず数学的な理論を説明し、その後で図面を用いて本発明の実施形態を説明する。
ここでは時間周波数領域での観測音の事前SNR ξt(出力変数)を元に、事前SNR ξtとある程度の相関を持つように音響特徴量(入力変数)を最適化する選択行列Aを得る場合を説明する。本形態の特徴点は以下の通りである。
(1)選択行列とガウシアンカーネルの特性を利用することにより、組み合わせ最適化を非線形最適化に置き換えた点。
(2)最適化に「確率的最急降下法」を導入し、全学習データを適切なサイズのミニバッチごとに分割してグラム行列の逆行列計算を近似することで、高速に最適化が可能になった点。
ただし、ks(ξτ,ξτ’)は各時間インデックスτ,τ’での事前SNR ξτ,ξτ’に対応するガウシアンカーネルを表し、kg(Agτ,Agτ’)は各時間インデックスτ,τ’でのAgτ,Agτ’に対応するガウシアンカーネルを表す。gτ=(g1,τ,・・・,gQ,τ)Tは時間インデックスτでのQ個の音響特徴量の候補gq,τ(ただし、q=1,・・・,Q)を要素としたQ次元ベクトルであり、gτ’=(g1,τ’,・・・,gQ,τ’)Tは時間インデックスτ’でのQ個の音響特徴量の候補gq,τ’を要素としたQ次元ベクトルである。ξτはベクトルgτの少なくとも一部の要素と相関を持ち、ξτ’はベクトルgτ’の少なくとも一部の要素と相関を持つ。AはD行Q列の選択行列である。選択行列Aの各行は、1つの要素だけが正の値を持ち、それ以外の要素の値は0となる。fτ=Agτによって、D個の音響特徴量gd,τに対応するD個の音響特徴量fd,τを要素としたD次元ベクトルfτ=(f1,τ,・・・,fD,τ)Tが得られる。また、fτ’=Agτ’の演算によって、D個の音響特徴量gd,τ’に対応するD個の音響特徴量fd,τ’を要素としたD次元ベクトルfτ’=(f1,τ,・・・,fD,τ’)Tが得られる。QおよびDはQ>D≧1を満たす整数であり、例えばD≧2である。exp(・)は(・)の指数関数を表し、(・)Tは(・)の転置を表す。
ただし、これらのグラム行列は時間区間[1,・・・,F](所定集合)内の各時間インデックスτ=1,・・・,F,τ’=1,・・・,Fでのガウシアンカーネルks(ξτ,ξτ’)およびkg(Agτ,Agτ’)に対応するものである。Fは1以上の整数であり、例えばF≧2である。
Σss|g=Σgg−ΣsgΣgg −1Σgs (9)
ただし、
Σss=KsKs (10)
Σsg=KsKg (11)
Σgs=KgKs (12)
Σgg=KgKg (13)
である。KsおよびKgは以下のように計算できる中心化グラム行列である。
Ks=PGsP (14)
Kg=PGgP (15)
ただし、
であり、1F=(1,・・・,1)T∈RF(F次元のベクトル)であり、IFはF×Fの単位行列である。
ここでaq 2は行列ATAのq対角要素番目の対角要素である。するとkg(Agτ,Agτ’)はベクトルa=√diag[ATA]に関して微分可能になるため、行列Aの最適化を行列ATAの最適化に置き換えれば、非線形最適化問題として解ける。ただし、diag[ATA]は行列ATAの対角成分を要素とするベクトルを表し、√diag[ATA]は行列ATAの対角成分の平方根を要素とするベクトルを表す。つまり、相互共分散作用素Σss|gの大きさの最大化を、選択行列Aに対してではなくベクトルaに対して行うことで選択行列Aの最適化が容易になる。相互共分散作用素Σss|gの最大化に有効な音響特徴量に対応するベクトルaの要素はその絶対値が大きくなり、不要な音響特徴量に対応するベクトルaの要素は0に縮退していく。以降では、相互共分散作用素Σss|gの大きさをベクトルaに対して最大化する。
ただし、Tr(・)は(・)のトレースを表す。式(18)を最大化するための更新式を導出する。式(18)の最大化は勾配法で行う。勾配法には何を用いてもよいが、更新の収束を速めるために、以下ではAdaDeltaによる実装を説明する。AdaDeltaによるaの更新式は以下となる。
s←γs+(1−γ)ν2 (21)
a←a+ν (22)
ただし、式(19)〜(22)の更新式におけるベクトルの累乗や除算などの演算は、各要素ごとに行われる。すなわち、式(19)〜(22)を要素ごとに書くと以下のようになる。
sq←γsq+(1−γ)νq 2 (25)
aq←aq+νq (26)
なお、γは0以上1未満の定数であり、εは整数の定数である。「α1←α2」はα2の結果をα1とする(α2を新たなα1とする)ことを意味する。
ただしKτ,τ’,qは、スペースの関係上、kg(Agτ,Agτ’)を単にkg(τ,τ’)と表記し、以下のように表される。
ガウシアンカーネルkg(Agτ,Agτ’)の偏微分は以下のようになる。
ただし、βは正則化パラメータ(正値)である。これは、コスト関数(目的関数)にL1正規化項を付与して最適化するのに等しい。
次に、図面を用いて本形態を詳細に説明する。
<構成>
図1に例示するように、本形態の最適化装置1は、記憶部101,102,107,109,110、周波数領域変換部103,104、重畳部105、事前SNR計算部108、更新処理部120、および出力部130を有する。図2に例示するように、更新処理部120は、正規化部121、初期化部122、分割部123、更新部124、収束判定部125、および生成部126を有する。更新部124は、行列生成部1241、更新量計算部1242、ベクトル更新部1243、およびミニバッチ判定部1244を有する。図4Aに例示するように、更新量計算部1242は、更新部1242a〜1242cを有する。最適化装置1は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
次に、本形態の処理を説明する。
≪学習データ≫
目的音の学習データsmと雑音の学習データnmの時間波形を用意する。ただし、m=1,・・・,Mであり、Mは正整数である。ここでサンプリングレートや量子化ビット数は任意であるが、たとえばサンプリングレートを48kHz,量子化ビット数を16bitなどに設定できる。目的音の学習データsmは記憶部101に格納され、雑音の学習データnmは記憶部102に格納される(図1)。
周波数領域変換部103,104が、ぞれぞれ、記憶部101,102から読み込んだ目的音と雑音の学習データsm,nmを短時間フーリエ変換(STFT)などを用いて周波数領域に変換し、目的音の周波数領域信号Sω,tおよび雑音の周波数領域信号Nω,tを得て出力する。例えば、フーリエ変換長は1024点(サンプリング周波数48kHzで約22ms),シフト長は512点(サンプリング周波数48kHzで約11ms)などに設定できる。なお、ω={1,2,・・・,Ω}とt={1,2,・・・,F}は時間と周波数のインデックスである。ΩおよびFはそれぞれ正の整数である。
重畳部105はSω,tおよびNω,tを入力とし、観測信号を模擬的に設計するために、Sω,tとNω,tを重畳し、時間周波数領域での観測音Xω,t=Sω,t+Nω,tを得て出力する。
音響特徴量候補抽出部106は、観測音Xω,tを入力とし、観測音Xω,tから時間インデックスtごとにQ個の音響特徴量(入力変数)の候補gq,t(ただし、q=1,・・・,Q、Q≧2)を抽出し、それらを要素とするQ次元のベクトルgt=(g1,t,・・・,gQ,t)Tを出力する。候補として用いる音響特徴量は任意であるが、例えば48次元のメル周波数ケプストラム係数(MFCC)ならびにその一階差分と二階差分、および、48次元のメルフィルタバンク出力(MFBO)ならびにその一階差分と二階差分などを用いることができる。また、学習データの観測に用いたマイクロホンの個数が複数である場合、ビームフォーミングを行って、方向別にMFCCやMFBOを求めることもできる。その他にも、スペクトルフラックスやスペクトルセントロイドなど、Q=512程度の様々な音響特徴量を用いることができる。Q次元のベクトルgtは記憶部107に格納される。なお、ベクトルgtが上記選択行列更新アルゴリズムの入力変数に相当する。
事前SNR計算部108は、Sω,tおよびNω,tを入力とし、これらから事前SNR ξt(出力変数)を計算して出力する。例えば、事前SNR計算部108は、φS,ω,t=|Sω,t|2、φN,ω,t=|Nω,t|2とし、各周波数インデックスωに対応する事前SNR ξω,t=φS,ω,t/φN,ω,tからなる列(ξ1,t,・・・,ξΩ,t)を事前SNR ξtとしてもよいし、フィルタバンクごとの事前SNRを並べたものを事前SNR ξtとしてもよいし、ある一つの周波数インデックスωやフィルタバンクの事前SNRを事前SNR ξtとしてもよい。ξt=(ξ1,t,・・・,ξΩ,t)の場合、フーリエ変換長が大きいと事前SNRの次元Ωも大きくなるため、演算結果をメルフィルタバンクで圧縮してもよい。メルフィルタバンクの個数はたとえば32程度に設定できる。事前SNR ξtは記憶部109に格納される。なお、事前SNR ξtが上記選択行列更新アルゴリズムの出力変数に相当する。
以下の定数のパラメータが設定され、記憶部110に格納される。
カーネルパラメータ:式(5)のカーネルパラメータσ2はチューニングして決定すべきであるが、例えば2.0×10-2程度に設定できる。
勾配法パラメータ:式(19)〜(22)の勾配法パラメータγ,εは例えば、γ=0.9,ε=10-5に設定できる。
ミニバッチサイズ:ミニバッチサイズBは学習データの総フレーム数Hに応じて変更すべきだが例えばB=2048に設定できる。
総フレーム数H:総フレーム数Hは任意であるが、本形態ではH>Bである。
更新処理部120は、ベクトルgt、事前SNR ξt、およびパラメータσ2,γ,ε,B,Hを入力とし、ξtとAgtとの相関の高さを表すコスト関数の値(関数値、スコア)が大きくなるように、ATAの対角成分に対応するベクトルaを更新し、更新されたベクトルaから選択行列Aの要素を得る。
更新処理で得られた選択行列Aが出力される。任意の装置は、記憶部107に格納されたベクトルgtと選択行列Aを用いてft=Agtを計算することで、事前SNRの推定に有効な音響特徴量を得ることができる。
図2から図4を用い、更新処理部120が行う更新処理の詳細を説明する。
《入力変数の正規化》
まず、正規化部121がgt,ξt,Hを入力とし、以下のようにgt,ξtを正規化する。
ただし、式(36)から式(38)は、ξtを複数の周波数ビンやフィルタバンクの事前SNRを並べたものの場合は、各要素について実行する。式(35)のように更新されたgq,tからなる新たなgt=(g1,t,・・・,gQ,t)および新たなξtは分割部123に送られる(ステップS121)。
初期化部122は、Q次元のベクトルa=(a1,…,aQ),r=(r1,…,rQ),s=(s1,…,sQ)を初期化する。初期値は任意だが、例えばa=σ21Q,r=1Q,s=0×1Qなどに初期化できる。ただし、1Q=(1,・・・,1)T∈RQである。初期化されたベクトルa,r,sは分割部123に送られる(ステップS122)。
分割部123は、正規化部121から出力された入力変数である(g1,・・・,gH)および出力変数である(ξ1,・・・,ξH)をランダムにB個ずつのサブセットに分割する。各サブセットをミニバッチと呼ぶ。1つのミニバッチは連続する複数の時間インデックスに対応していてもよいし、隣り合わない時間インデックスに対応していてもよい。すなわち、処理対象の時間インデックスの区間[1,・・・,H](処理対象区間)が複数の部分集合であるミニバッチに区分されればよい。例えば分割部123は、(g1,・・・,gH)をミニバッチ(g1,・・・,gB),(gB+1,・・・,g2B),・・・,(gH−B+1,・・・,gH)に分割し、(ξ1,・・・,ξH)をミニバッチ(ξ1,・・・,ξB),(ξB+1,・・・,ξ2B),・・・,(ξH−B+1,・・・,ξH)に分割する(ステップS123)。
行列生成部1241は、(g1,・・・,gH)の1つのミニバッチ、(ξ1,・・・,ξH)の1つのミニバッチ、およびσ2が入力される。入力される(g1,・・・,gH)のミニバッチと(ξ1,・・・,ξH)のミニバッチとは同じ時間インデックスに対応する。説明の便宜上、ステップS1241〜S1244では、処理対象として入力された、(g1,・・・,gH)のミニバッチを(g1,・・・,gF)と読み替え、(ξ1,・・・,ξH)のミニバッチを(ξ1,・・・,ξF)と読み替えて説明する。
更新量計算部1242は、γ,ε,Ks,Kgを入力とし、前述の式(19)〜(21)(すなわち、式(23)〜(25))を計算してベクトルνおよびベクトルsを更新する(ステップS1242)。ベクトルνはベクトルaの更新量を表す。すなわち、更新量計算部1242の更新部1242aが式(19)(すなわち、式(23))に従ってベクトルrを更新し(ステップS1242a)、更新部1242bが式(20)(すなわち、式(24))に従ってベクトルνを更新し(ステップS1242b)、更新部1242cが式(21)(すなわち、式(25))に従ってベクトルsを更新する(ステップS1242c)。更新されたr,sは図示していないメモリに格納される。
ベクトル更新部1243は、ステップS1242bで更新されたベクトルνを用い、式(22)(すなわち、式(26))に従ってベクトルaを更新する。あるいは、更新が不安定となる場合、式(22)に代えて以下のように慣性項付きの更新を行ってもよい。
a←a+{ζν+(1−ζ)ν’} (39)
ただし、ζは0<ζ<1の慣性項であり、例えばζ=0.1に設定できる。またν’は、ステップS1242の更新前(1回の更新前)のνである。また、aはATAの対角項の各値の平方根を要素としたベクトルであり、その要素は0以上であるべきである。しかし、上記の方法で更新されたベクトルνの値によっては更新されたベクトルaが負の要素を持つ場合もある。そのため、ベクトルa=(a1,・・・,aQ)の更新のたびに、その各要素aq(ただし、q=1,・・・,Q)に対して以下の処理を行ってもよい。
aq=max(aq,0) (40)
ただし、max(aq,0)は、aqと0とのうち大きい方の値を意味する。ただし、aq=0の場合には、max(aq,0)=0とする。あるいは、更新の安定のために前述の式(32)によるソフトスレッショルディングを行ってもよい。すなわち、ベクトル更新部1243は、ベクトルaと、ベクトルνに応じたQ次元ベクトルとを加算したQ次元ベクトルに応じた新たなベクトルaを得ればよい。更新されたaは図示していないメモリに格納される(ステップS1243)。
ミニバッチ判定部1244は、ステップS123で分割されたすべてのミニバッチについてステップS1241〜S1243の処理を終了したかを判断する(ステップS1244)。ステップS1241〜S1243の処理を実行していないミニバッチが存在する場合にはステップS1241に戻り、これらの処理が実行されてないミニバッチについて処理を行う。一方、すべてのミニバッチについてステップS1241〜S1243の処理をしていた場合、ステップS125の収束判定に進む。
収束判定部215は、終了条件を満たしたか否かを判定する(ステップS125)。例えば、収束判定部215は、ステップS123,S124(S1241〜S1244)の処理の繰り返し回数が一定数以上となった場合に終了条件を満たしたと判断してもよいし、全ミニバッチに対する更新処理(ステップS124)前後でのベクトルaの変化量のノルムが一定値以下となった場合に終了条件を満たしたと判断してもよい。終了条件を満たしていないと判断した場合にはステップS123に戻って処理をやり直す。終了条件を満たしたと判断した場合には、ステップS126の選択行列の生成に進む。
生成部126は、ステップS124で更新されたベクトルaを入力とし、このベクトルaから選択行列Aの要素を得て出力する。生成部126は、例えば、ベクトルa=(a1,・・・,aQ)の要素aqのうち閾値αth以上の要素数をD’とし、閾値αth以上の要素の次元をqd(ただし、d=1,・・・,D’)とし、選択行列Aのd行qd列の要素A(d,qd)を正値(例えば1)とし、他の要素を0とする。なお、閾値αthは正値であり、D’が所定値以上(例えば、1以上)となるように設定されてもよいし、予め定められていてもよい。具体的には以下の手順によって選択行列Aを生成できる。
1.生成部126は、Aを要素がすべて0のD’×Q行列として初期化する。
2.生成部126は、d=1,・・・,D’に対し,以下の処理を実行する。
3.生成部126は、aのd番目の閾値αth以上の要素の次元をqdとして、d行qd列の要素をA(d,qd)=1とする。
1.生成部126は、Aを要素がすべて0のD×Q行列として初期化する。
2.生成部126は、d=1からDに対し、以下の処理を実行する。
3.生成部126は、aの要素を降順に並び替え、aのd番目の要素に対応する次元をqdとして、d行qd列の要素をA(d,qd)=1とする。
以上のように、本形態では、相互共分散作用素の大きさ(コスト関数の大きさ)を最大化するAを探索する問題を、相互共分散作用素の大きさを最大化する行列ATAの対角成分に対応するベクトルaを探索する問題に置き換えた。これによって偏微分が可能となり、非線形最適化問題として解を求めることができる。その結果、従来よりも演算量を削減することができる。
なお、本発明は上述の実施形態に限定されるものではない。本発明は、例えば、音響信号強調フィルタ(出力変数)を元に、複数の音響特徴量の候補(入力変数)の中から音響信号強調フィルタとの相関が小さな音響特徴量を除外するための選択行列を求めるために利用できる。しかしながら、本発明の用途はこれに限定されない。すなわち、本発明は、出力変数を元に、当該出力変数とある程度の相関を持つように入力変数を最適化する用途、例えば、相互情報量最大化に基づき、ある入力変数からそれに対応する出力変数を推定する際に、出力変数を推定するために有効な情報を残すように、入力変数のサブセットを選択する用途であれば、どのような用途にも適用できる。そのため、この使用用途は音源強調や事前SNRの推定に限らない。つまり入力変数は音響特徴量(音響信号の特徴量)に限らず、画像やセンサなどのなんらかのデータから特徴抽出した結果(画像信号の特徴量やセンサ信号の特徴量)であってもよいし、音響信号、画像信号、センサ信号、位置座標などの生データであってもよい。すなわち、入力変数が、音響信号、画像信号、センサ信号、位置座標、その他の時系列データ(例えば、生データ)や、それらの特徴量を含んでもよい。同様に出力変数も事前SNRに限らず、画像の属するクラスを表す変数でもよいし、元信号の振幅スペクトル|Sω,τ|であってもよい。すなわち、出力変数が音響信号、画像信号、またはセンサ信号、位置座標、その他の時系列データの何れかに対応する情報を含んでもよい。その他、入力変数が時系列データ以外のデータまたはその特徴量を含んでもよく、出力変数が時系列データ以外のデータに対応する情報を含んでもよい。すなわち、入力変数および出力変数が時系列の情報でなくてもよく、本発明は時系列信号以外にも適用可能である。
120 更新処理部
Claims (6)
- Q>D≧1であり、Fが正整数であり、所定区間[1,…,F]に属するインデックスτ,τ’,tがτ=1,・・・,F,τ’=1,・・・,F,t=1,・・・,Fであり、(・)Tが(・)の転置であり、gtがインデックスtでのQ個の入力変数の候補を要素とするベクトルであり、Aが前記ベクトルgtのD個の要素に応じたD個の要素からなるベクトルAgtを得るための選択行列であり、ξtが前記ベクトルgtの少なくとも一部の要素と相関を持つ出力変数であり、
前記出力変数ξtを入力として前記所定区間[1,…,F]に属する各インデックスτ=1,・・・,F,τ’=1,・・・,Fでのガウシアンカーネルks(ξτ,ξτ’)に対応する中心化グラム行列Ksを得、前記ベクトルgtを入力として前記選択行列Aを変数とした前記インデックスτ=1,・・・,F,τ’=1,・・・,Fでのガウシアンカーネルkg(Agτ,Agτ’)に対応する中心化グラム行列Kgを得る行列生成部と、
Σss=KsKs,Σsg=KsKg,Σgs=KgKs,Σgg=KgKgとした相互共分散作用素Σss|g=Σgg−ΣsgΣgg −1Σgsの大きさが大きくなるように、ATAの対角成分に対応するベクトルaを更新するベクトル更新部と、
更新された前記ベクトルaから前記選択行列Aの要素を得て出力する生成部と、
を有し、
- 請求項1の最適化装置であって、
HがH>Fを満たす正整数であり、前記出力変数ξ t の集合(ξ 1 ,・・・,ξ H )および前記ベクトルg t の集合(g 1 ,・・・,g H )が学習データであり、
前記行列生成部は、前記学習データを構成する部分集合(ξ 1 ,・・・,ξ F )および(g 1 ,・・・,g F )ごとに前記中心化グラム行列Ksおよび前記中心化グラム行列Kgを得、
前記ベクトル更新部は、前記部分集合(ξ 1 ,・・・,ξ F )および(g 1 ,・・・,g F )ごとに前記ベクトルaを更新し、
前記生成部は、前記部分集合(ξ 1 ,・・・,ξ F )および(g 1 ,・・・,g F )ごとに更新された前記ベクトルaから前記選択行列Aの要素を得て出力する最適化装置。 - 請求項1または2の最適化装置であって、
γが0以上1未満の定数であり、εが定数であり、J=−Tr{Ks(Kg+εIF)−1}であり、Tr(・)が(・)のトレースであり、
Q個の要素からなるベクトルr=(r1,…,rQ),s=(s1,…,sQ)および前記ベクトルa=(a1,…,aQ)を初期化する初期化部と、
γsq+(1−γ)νq 2をq番目の要素とするQ次元のベクトルを新たな前記ベクトルsとする第3更新部と、をさらに有し、
前記ベクトル更新部は、前記ベクトルaと、前記ベクトルνに応じたQ次元ベクトルと、を加算したQ次元ベクトルに応じた新たな前記ベクトルaを得る第4ベクトル更新部と、
を含む最適化装置。 - 請求項1から3の何れかの最適化装置であって、
前記入力変数が、音響信号、画像信号、センサ信号、音響信号の特徴量、画像信号の特徴量、またはセンサ信号の特徴量を含み、
前記出力変数が、音響信号、画像信号、またはセンサ信号の何れかに対応する情報を含む、最適化装置。 - Q>D≧1であり、Fが正整数であり、所定区間[1,…,F]に属するインデックスτ,τ’,tがτ=1,・・・,F,τ’=1,・・・,F,t=1,・・・,Fであり、(・)Tが(・)の転置であり、gtがインデックスtでのQ個の入力変数の候補を要素とするベクトルであり、Aが前記ベクトルgtのD個の要素に応じたD個の要素からなるベクトルAgtを得るための選択行列であり、ξtが前記ベクトルgtの少なくとも一部の要素と相関を持つ出力変数であり、
行列生成部が、前記出力変数ξtを入力として前記所定区間[1,…,F]に属する各インデックスτ=1,・・・,F,τ’=1,・・・,Fでのガウシアンカーネルks(ξτ,ξτ’)に対応する中心化グラム行列Ksを得、前記ベクトルgtを入力として前記選択行列Aを変数とした前記インデックスτ=1,・・・,F,τ’=1,・・・,Fでのガウシアンカーネルkg(Agτ,Agτ’)に対応する中心化グラム行列Kgを得る行列生成ステップと、
ベクトル更新部が、Σss=KsKs,Σsg=KsKg,Σgs=KgKs,Σgg=KgKgとした相互共分散作用素Σss|g=Σgg−ΣsgΣgg −1Σgsの大きさが大きくなるように、ATAの対角成分に対応するベクトルaを更新するベクトル更新ステップと、
生成部が、更新された前記ベクトルaから前記選択行列Aの要素を得て出力する生成ステップと、
を有し、
- 請求項1から4の何れかの最適化装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016022569A JP6466863B2 (ja) | 2016-02-09 | 2016-02-09 | 最適化装置、最適化方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016022569A JP6466863B2 (ja) | 2016-02-09 | 2016-02-09 | 最適化装置、最適化方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017142593A JP2017142593A (ja) | 2017-08-17 |
JP6466863B2 true JP6466863B2 (ja) | 2019-02-06 |
Family
ID=59627414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016022569A Active JP6466863B2 (ja) | 2016-02-09 | 2016-02-09 | 最適化装置、最適化方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6466863B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04302328A (ja) * | 1991-03-29 | 1992-10-26 | Omron Corp | ファジィ処理装置および方法 |
JP5988419B2 (ja) * | 2012-01-11 | 2016-09-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 予測方法、予測システムおよびプログラム |
JP6078461B2 (ja) * | 2013-12-18 | 2017-02-08 | 本田技研工業株式会社 | 音響処理装置、音響処理方法、及び音響処理プログラム |
-
2016
- 2016-02-09 JP JP2016022569A patent/JP6466863B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017142593A (ja) | 2017-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koutini et al. | CP-JKU submissions to DCASE’19: Acoustic scene classification and audio tagging with receptive-field-regularized CNNs | |
Mohamed et al. | Understanding how deep belief networks perform acoustic modelling | |
Vu et al. | Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition | |
JP7124427B2 (ja) | マルチビューベクトルの処理方法及び装置 | |
CN109065028A (zh) | 说话人聚类方法、装置、计算机设备及存储介质 | |
JPWO2009133719A1 (ja) | 音響モデル学習装置および音声認識装置 | |
US20220208198A1 (en) | Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
Patel et al. | Speech recognition using hidden Markov model with MFCC-subband technique | |
WO2020045313A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
KR101704925B1 (ko) | Evs 코덱 파라미터를 이용한 심화 신경망 기반의 음성 검출 장치 및 그 방법 | |
JP6563874B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
JP6466863B2 (ja) | 最適化装置、最適化方法、およびプログラム | |
JP6370751B2 (ja) | ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム | |
JP6404780B2 (ja) | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム | |
JP2022519391A (ja) | 話者認識システムおよびその使用方法 | |
Memon et al. | Speaker verification based on different vector quantization techniques with gaussian mixture models | |
CN111524536A (zh) | 信号处理方法和信息处理设备 | |
JP2019184747A (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
Bhaskar et al. | Analysis of language identification performance based on gender and hierarchial grouping approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6466863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |