JP2007304445A - 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 - Google Patents
周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2007304445A JP2007304445A JP2006134556A JP2006134556A JP2007304445A JP 2007304445 A JP2007304445 A JP 2007304445A JP 2006134556 A JP2006134556 A JP 2006134556A JP 2006134556 A JP2006134556 A JP 2006134556A JP 2007304445 A JP2007304445 A JP 2007304445A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- feature vector
- frequency component
- matrix
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】入力音響信号の消えた周波数の成分を修復しながら、元の音響信号の周波数の成分を分離抽出する。
【解決手段】入力音響信号に対し、周波数解析を行い、スペクトログラムx(i,j)を算出し(iは時間、jは周波数)、x(i,j)の各位置について、ベクトル量xk(k=1〜K)の各要素を計算し、観測値行列集合Xkを生成し、周波数成分状態行列ΘFの各位置について、要素(i,j)を除くその前後の要素と観測値行列を特徴ベクトルf(i,j)として出力し、各位置において、特徴ベクトルf(i,j)を与えた時に任意の周波数成分状態が出現する事後確率を計算し、x(i,j)の各位置の事後確率を用いて事後同時確率を増大させるΘFを推定し、このΘFより入力音響信号の周波数成分を出力する。
【選択図】図1
【解決手段】入力音響信号に対し、周波数解析を行い、スペクトログラムx(i,j)を算出し(iは時間、jは周波数)、x(i,j)の各位置について、ベクトル量xk(k=1〜K)の各要素を計算し、観測値行列集合Xkを生成し、周波数成分状態行列ΘFの各位置について、要素(i,j)を除くその前後の要素と観測値行列を特徴ベクトルf(i,j)として出力し、各位置において、特徴ベクトルf(i,j)を与えた時に任意の周波数成分状態が出現する事後確率を計算し、x(i,j)の各位置の事後確率を用いて事後同時確率を増大させるΘFを推定し、このΘFより入力音響信号の周波数成分を出力する。
【選択図】図1
Description
この発明は、複数の音響信号や雑音が混在した入力信号のスペクトログラムから各音響信号の成分を抽出すると同時に失われた成分を修復する周波数成分の修復・抽出方法、装置、プログラム、および記録媒体に関するものである。
観測された混合信号を分離して、混ざり合う前のオリジナルの信号を推定するブラインド音源分離技術がある。この技術は、複数の信号源から発せられる未知の原信号から混合された混合信号を分離し、復元する技術である。ブラインド音源分離技術の中の有効な方法に、統計的に独立な成分を分解抽出する独立成分分析法(ICA:Independent Componenet Analysis)がある。この手法によれば、例えば、複数の音信号をA個のマイクロホン(Aは整数とする)で受信し、各音源から到来する音信号同士が統計的に独立であることを利用して前記の受信信号を処理することで、マイクロホンと同数のA個もしくはA個以下の音源からの信号を分離することができる。
また、独立成分分析法に類似の方法として特許文献1に示す周波数成分抽出装置がある。この装置は、周波数成分抽出に対して、合理的な制約条件を導入し、その制約条件のものとでの周波数成分の状態の最適化を図ることによって、制約に反した周波数成分すなわち雑音の影響を軽減した周波数成分抽出を行うものである。
また、画像の修復技術として、非特許文献1に示すマルコフ確率場とギブス・サンプラーを使う方法があるが、条件付確率を手作業で設計しなければならず、そのまま音響信号に適用しても、精度の高い修復・抽出を行うことが難しいという問題があった。
特許第3262204号
S.Geman and D.Geman.Stochastic relaxation,Gibbs distributions and the Bayesian restoration of images.IEEE Transactions on Pattern Analysis and Machine Intelligence,PAMI−6(6):721−741,1984
上記の独立成分分析法では、少なくとも、信号源の個数と等しい数以上の入力信号が必要であり、通信断、雑音などにより、消えてしまった信号を修復することは出来ないという問題があった。
また、上記の周波数成分抽出装置は、着目時間位置iの近傍として、前の時間位置i−1のみしか利用しておらず、着目時間位置iの後の近傍時間i+1以後については、観測信号を利用できず、それだけ正しく周波数成分を修復・抽出することができなかった。
また、上記の周波数成分抽出装置は、着目時間位置iの近傍として、前の時間位置i−1のみしか利用しておらず、着目時間位置iの後の近傍時間i+1以後については、観測信号を利用できず、それだけ正しく周波数成分を修復・抽出することができなかった。
入力音響信号に対して周波数解析を行い、サウンドスペクトログラム(以下、スペクトログラムという)を計算して、時間×周波数の実数値行列を求め、実数値行列で表現されたスペクトログラムから、スペクトログラムの各位置(i、j)について、K個の特徴量xk(i、j)(k=1、...、K)の各要素を計算し、観測値行列集合[X1、X2、...、XK]を生成する。ここで(i、j)はスペクトログラムの時間iと周波数jの行列の要素、Kは特徴数である。周波数成分の存在の確からしさを示す離散値を表す行列(以下、周波数成分状態行列ΘFという)の上記各位置(i、j)について、その要素(i、j)を除くその前後の要素と上記観測値行列を特徴ベクトルf(i、j)として出力し、スペクトログラム上の各位置(i、j)において、上記特徴ベクトルf(i、j)を与えたときに、任意の周波数成分状態が出現する確率を計算し、上記スペクトログラムの各位置の上記事後確率を用いて、事後同時確率を増大させる周波数成分状態行列を推定し、上記周波数成分状態行列の推定値より入力音響信号の周波数成分を出力する。
着目時間位置iの前のみならず後の近傍時間位置i+1以後の観測信号をも利用しているため、種々の音響信号に対し、従来より正確に周波数成分を修復・抽出することが出来る。
実施例1
この発明のハードウェア構成例を図1に示し、この実施例で説明する信号等の具体的形態図を図2に示し、この発明の主要な処理の流れを図13に示す。特徴抽出手段4は、スペクトログラム生成手段6と観測値行列生成手段10とで構成されている。観測値行列生成手段10は、第k特徴量生成手段12kと(k=1、...、K)と第k観測値行列記憶手段14kとで構成されている。
この発明のハードウェア構成例を図1に示し、この実施例で説明する信号等の具体的形態図を図2に示し、この発明の主要な処理の流れを図13に示す。特徴抽出手段4は、スペクトログラム生成手段6と観測値行列生成手段10とで構成されている。観測値行列生成手段10は、第k特徴量生成手段12kと(k=1、...、K)と第k観測値行列記憶手段14kとで構成されている。
複数の音響信号や雑音が混在した入力音声信号がサンプリングされ、ディジタル信号化された状態で、入力端子2に入力される。この入力音声信号の具体的波形例を図2Aに示す。入力された音声信号は、時間iについて、スペクトログラム生成手段6で公知の周波数解析方法を用いて、信号波形のパワースペクトルx(i、j)(i=1、...、I、j=1、...、J)を導出する。ここで、iは時間を表し、jは周波数の数を表し、公知の周波数解析方法とは、離散フーリエ変換(DFT:Discrete Fourier Transform)や高速フーリエ変換(FFT:Fast Fourier Transform)等が考えられる。このようにして、入力信号のサウンドスペクトログラム(以下、スペクトログラムという)が生成される(S300)。
スペクトログラムの具体的形態例を図2Bに示し、その時間、周波数の位置(i、j)の関係の概念図を図3に示す。図2Bにおいて、黒の濃度が高い部分がパワー値が大きいことを表し、特に、濃度の強い黒でノイズ部分を表している。時間i、周波数jの部分を位置(i、j)と表す。非特許文献1に示す技術では、画像の各ピクセルが1つの属性(白色、黒色、またはグレー色)で表現されていたのに対し、この発明では、各位置に複数の属性(パワー値、ピークの有無等)を特徴として与えることが出来る。このスペクトログラムの各位置(i、j)のパワースペクトルx(i、j)はそれぞれ第k特徴量生成手段12k(k=1、...、K)に入力される。ただし、Kは特徴数を表す。第k特徴量生成手段12kでスペクトログラムx(i、j)から特徴量xk(i、j)(k=1、...、K)を生成し、第k観測値行列記憶手段14kに特徴量xk(i、j)を記憶する。
この処理をスペクトログラムの全ての時間について行い、第k観測値行列記憶手段14kに記憶する。その際に、各特徴量xk(i、j)がi行j列の要素となる第k観測値行列Xkとして記憶し、生成する(ステップS302)。これらK個の観測値行列記憶手段14k(k=1、...、K)により、観測値行列集合[X1、...、Xk、...、XK]を記憶する観測値行列集合記憶手段16が構成される。
また、音声信号の周波数特性によるパワー損失を補填するためにパワースペクトルの周波数方向の正規化を行い、正規化により得られた値を要素とする入力信号の特徴を抽出する構成も考えられる。この場合は、図1に破線で示すように正規化手段8を設け、スペクトログラム生成手段6で計算されたパワースペクトルx(i、j)が正規化手段8により、正規化される。
正規化の具体的手法を説明すると、パワースペクトルx(i、j)の値が減衰した周波数帯域におけるパワー値を補正する。例えば、各位置(i、j)の値x(i、j)を、その周波数軸方向の±NFの位置のパワースペクトルの最大値と最小値を使って0〜1の値を持つように、正規化する方法などが考えられる。具体的に説明すると、音声信号が周波数領域に変換された場合の、波形例を図4Aに示す。
図4Aにおいて、横軸は周波数、横軸はパワー値を表す。周波数の範囲j±NF
内で、最大レベルを「1」とし、最小レベルを「0」として、周波数jの値を0〜1の値で表す。このようにすれば、図4Aに示す波形は図4Bに示すようになる。ピークになっている周波数をjとすると、図4Bは図4Aと同様、横軸が周波数方向、縦軸がレベル(パワー値)を表す。なお、この正規化パワースペクトルもディジタル値で表す。正規化方法はこの方法に限らず、様々な方法が考えられる。
図4Aにおいて、横軸は周波数、横軸はパワー値を表す。周波数の範囲j±NF
内で、最大レベルを「1」とし、最小レベルを「0」として、周波数jの値を0〜1の値で表す。このようにすれば、図4Aに示す波形は図4Bに示すようになる。ピークになっている周波数をjとすると、図4Bは図4Aと同様、横軸が周波数方向、縦軸がレベル(パワー値)を表す。なお、この正規化パワースペクトルもディジタル値で表す。正規化方法はこの方法に限らず、様々な方法が考えられる。
そして、正規化手段8で正規化された場合の、第k特徴量生成手段12kの具体的構成例を図5に説明する。第k特徴量生成手段12kは例えば、量子化部19jで位置(i、j)のパワー値をD個のビンで量子化される。即ち正規化されたパワーの取りうる最大値「1」と最小値「0」との範囲がD個の範囲(ビン)に分割され、量子化部19jでは、これに入力されたパワースペクトルx(i、j)が、属するビンd(d=1、...、D)を「1」とし、ほかのD−1個のビンd’(d≠d’、d’=1、...、D)は「0」とする。例えば、図6に示すように、周波数j1の場合は、ビンd1の範囲にあるので、ビンd1については「1」、それ以外のビンについては「0」とする。
量子化部191〜19Jの各第dビン(d=1、...D)の値xd(i、1)、...、xd(i、j)、...、xd(i、J)が各時間iごとに第d観測値行列記憶手段14dにそれぞれ入力され、観測値行列Xd[xd(i、1)、...、xd(i、j)、...、xd(i、J)]として出力される。
スペクトログラムの各位置の観測信号値の特徴を表す観測値行列としては例えば、図4Bに示す波形において、ピークとなっている周波数成分が存在する位置(i、j)のx(i、j)の特徴として、xk(i、j)を「1」とし、ピークになっていないx(i、j)の特徴xk(i、j)は「0」として、観測値行列Xkを2値で表す方法や、観測値行列Xkをスペクトログラムの各位置(i、j)におけるx(i、j)のパワー値を連続値として表す方法などが考えられる。これら特徴の数Kは複数が好ましい。
観測値行列生成手段10よりの観測値行列集合X=[X1、...、XK]は周波数成分修復・抽出手段18に入力される。
周波数成分修復・抽出手段18の具体的構成例を図7に示す。周波数成分修復・抽出手段18は特徴ベクトル生成手段22、特徴ベクトル記憶手段24、事後確率計算手段31、同時確率増大化手段32、繰り返し処理判定手段33、周波数成分出力手段34とで構成されている。
周波数成分修復・抽出手段18の具体的構成例を図7に示す。周波数成分修復・抽出手段18は特徴ベクトル生成手段22、特徴ベクトル記憶手段24、事後確率計算手段31、同時確率増大化手段32、繰り返し処理判定手段33、周波数成分出力手段34とで構成されている。
観測値行列生成手段10よりの観測値行列集合Xは特徴ベクトル生成手段22に入力されると、スペクトログラムにおける全ての位置(i、j)について、位置(i、j)の観測値とその近傍の位置(i’’、j’’)の観測値および状態からなる観測特徴ベクトルfxを求める。ここで、図8Aに示すようにスペクトログラムの周波数成分の数がJ、単位時間数がIとし、位置(i、j)を着目位置と呼び、その近傍の位置(i’’、j’’)とは着目位置(i、j)の周波数方向前後の各m個の位置、時間方向前後の各n個の位置で定義される矩形状の範囲に含まれる位置を表す。また、観測特徴ベクトルは各x1、...、xkのそれぞれの(i、j)の要素から構成し、[x1(i、j)、...、xk(i、j)、...、xK(i、j)]となる。
図8Aにスペクトログラムの観測値行列を示し、その位置(i、j)を中心にして、太線で囲っている矩形範囲(領域)が前記近傍を含む部分である。図8Bにその矩形範囲の拡大の詳細図を示す。横辺の位置数が2n+1、縦辺の位置数が2m+1である。この矩形内の位置の総数N1は以下の式(1)で表すことが出来る。
N1=(2m+1)・(2n+1)・・・(1)
着目位置(i、j)に対する矩形範囲に含まれる各位置の特徴ベクトルを含む多次元観測特徴ベクトルfxを生成する。この多次元観測特徴ベクトルfxの次元数は位置の総数N1と観測特徴ベクトルの次元数(特徴数)Kを乗算したK・N1個の次元となる。
スペクトログラムの各位置(i、j)における周波数成分の有無を表す行列を周波数状態行列ΘFとするこれを図8Cに示す。
N1=(2m+1)・(2n+1)・・・(1)
着目位置(i、j)に対する矩形範囲に含まれる各位置の特徴ベクトルを含む多次元観測特徴ベクトルfxを生成する。この多次元観測特徴ベクトルfxの次元数は位置の総数N1と観測特徴ベクトルの次元数(特徴数)Kを乗算したK・N1個の次元となる。
スペクトログラムの各位置(i、j)における周波数成分の有無を表す行列を周波数状態行列ΘFとするこれを図8Cに示す。
着目位置(i、j)に対する前記矩形範囲において、その位置(i、j)を除いた位置(i’’、j’’)に周波数成分の有無を表すベクトルを周波数成分特徴ベクトルfhとする。この周波数成分特徴ベクトルfhは図8Dに示すように、×印で示す着目位置(i、j)を除いた近傍の位置(i’’、j’’)の状態を要素とするN1−1個の次元数N2を持つ。なお、スペクトログラムの全位置(i、j)における周波数成分の有無を表す、つまり周波数成分状態の存在の確からしさを表す行列を、周波数状態行列ΘFといい、周波数状態行列ΘFを生成する(ステップS304)。この周波数状態行列ΘFは修復したい信号の周波数成分についての状態を表す行列である。周波数状態行列ΘFは例えば、各時間、各周波数における原信号の有無を表す2値、つまり原信号があれば「1」を示し、原信号がなければ「0」を示すことや、周波数成分の確率(0%〜100%)を離散値で表したりすることが考えられる。また、着目位置(i、j)を中心にする前記矩形内の全近傍位置(i’’、j’’)に対する周波数成分状態θF(i、j)の全要素を表す周波数特徴ベクトルfhはN2個である。
これにより、着目位置(i、j)における特徴ベクトルf(i、j)として以下の式(3)に示すものを生成する(ステップS306)。
f(i、j)=(fx、fh)・・・(3)
またf(i、j)の要素数(次元数)Naは、
Na=N1×d+N2・・・(4)
また、この実施例では更に、隠れ状態がある場合に、この発明を適用した例である。隠れ状態とは、各位置(i、j)にノイズがあるか否かを表すノイズ状態である。位置(i、j)に、ノイズがあれば、「1」とし、ノイズがなければ「0」として表示する。あるいは、ノイズのレベルを離散値で表したりすることが考えられる。
f(i、j)=(fx、fh)・・・(3)
またf(i、j)の要素数(次元数)Naは、
Na=N1×d+N2・・・(4)
また、この実施例では更に、隠れ状態がある場合に、この発明を適用した例である。隠れ状態とは、各位置(i、j)にノイズがあるか否かを表すノイズ状態である。位置(i、j)に、ノイズがあれば、「1」とし、ノイズがなければ「0」として表示する。あるいは、ノイズのレベルを離散値で表したりすることが考えられる。
着目位置(i、j)を中心とする前記矩形範囲内の全ての近傍位置(i’’、j’’)における隠れ状態θF(i、j)の各要素よりなるベクトルを隠れ特徴ベクトルfnとする。この隠れ特徴ベクトルfnの要素の個数は特徴ベクトルfhと同様、N2個である。なお、実施例1の以下の説明については一般性を持たせるため、隠れ状態を考慮した場合を説明する。
これにより、着目位置(i、j)における特徴ベクトルf(i、j)として、以下の式(5)に示すものを生成する。
f(i、j)=(fx、fh、fn)・・・(5)
よって隠れ状態を考慮した場合のf(i、j)の要素数Nbは、以下の式で表すことが出来る。
Nb=N1×d+2×N2・・・(6)
上述の処理で求められた特徴ベクトルf(i、j)は特徴ベクトル記憶手段24に一旦記憶される。
f(i、j)=(fx、fh、fn)・・・(5)
よって隠れ状態を考慮した場合のf(i、j)の要素数Nbは、以下の式で表すことが出来る。
Nb=N1×d+2×N2・・・(6)
上述の処理で求められた特徴ベクトルf(i、j)は特徴ベクトル記憶手段24に一旦記憶される。
周波数成分修復・抽出手段18は、モデルパラメータ蓄積手段28に予め格納された事後確率のモデルP(ΘF、ΘN│X)のためのパラメータと、特徴ベクトル記憶手段24よりの特徴ベクトルf(i、j)を用いて、位置(i、j)における周波数成分状態θF(i、j)の推定値であるθ〜F(i、j)と隠れ状態θN(i、j)の推定値であるθ〜N(i、j)を計算する。(ステップS308)なお、事後確率のモデルP(ΘF、ΘN│X)のためのパラメータの詳細は後述する。ここで、P(状態A│データB)はデータBが与えられた時の、状態Aになる確率を表す。
事後確率計算手段31と同時確率増大化手段32と繰り返し処理判定手段33により以下の一連の処理を行う。例えばギブス・サンプラーなどの手法を用いて、同時確率P(ΘF、ΘN│X)を増大させる。推定値θ〜F(i、j)、θ〜N(i、j)を繰り返し求め、最終的に推定値をθF(i、j)、θN(i、j)とする。なお、同時確率とは、周波数成分状態θF(i、j)、隠れ状態θN(i、j)の各要素の全てが同時に起こる確率を示し、隠れ状態θN(i、j)を用いない場合は、周波数状態θF(i、j)の各要素が同時に出現する確率である。
前記事後確率のモデルはマルコフ確率場によって表現される。マルコフ確率場は、格子などのグラフにおいて、ある格子点(ノード)における状態はその近傍のみによって決まるという考え方に基づいて作られる確率モデルである。なお、マルコフ確率場および上述のギブス・サンプラーの詳細は例えば、非特許文献1などに記載されている。この実施例の場合は、以下の式(7)のように定式化される。
P(θF(i、j)、θN(i、j)│θF(i’、j’)、θN(i’、j’)、X;i≠i’、j≠j’)=
P(θF(i、j)、θN(i、j)│θF(i’’、j’’)、θN(i’’、j’’)、X;(i’’、j’’)∈G)1≦i≦I、1≦j≦J・・・(7)
式(7)の右辺の条件「θF(i’’、j’’)、θN(i’’、j’’)、X;(i’’、j’’)∈G」として、特徴抽出手段4で抽出された特徴ベクトルf(i、j)を用いる。つまり、位置(i、j)における周波数成分状態および隠れ状態の取る確率が以下の式(8)で表される。
P(θF(i、j)、θN(i、j)│f(i、j))・・・式(8)
P(θF(i、j)、θN(i、j)│θF(i’、j’)、θN(i’、j’)、X;i≠i’、j≠j’)=
P(θF(i、j)、θN(i、j)│θF(i’’、j’’)、θN(i’’、j’’)、X;(i’’、j’’)∈G)1≦i≦I、1≦j≦J・・・(7)
式(7)の右辺の条件「θF(i’’、j’’)、θN(i’’、j’’)、X;(i’’、j’’)∈G」として、特徴抽出手段4で抽出された特徴ベクトルf(i、j)を用いる。つまり、位置(i、j)における周波数成分状態および隠れ状態の取る確率が以下の式(8)で表される。
P(θF(i、j)、θN(i、j)│f(i、j))・・・式(8)
また、ギブス・サンプラーは、θF(i、j)、θN(i、j)を同時確率P(ΘF、ΘN│X)に従って、生成する方法である。全ての位置(i、j)に対して、同時に生成するのではなく、各位置(i、j)において式(8)の条件付確率に従って、θF(i、j)、θN(i、j)を繰り返し生成することで、同時確率を増大させる周波数成分状態行列ΘFと隠れ状態行列ΘNを求める方法である。
具体的処理の流れを、図9に示し、同時確率増大化手段32と事後確率計算手段31と、の具体的構成例とその他、関係のある手段を図10に示す。
図10に示すように、同時確率増大化手段32は温度パラメータ生成手段42、候補状態生成手段47、遷移確率生成手段48、一様乱数生成手段50、比較手段52、更新手段54と、で構成されている。また事後確率計算手段31は遷移前確率計算手段44と遷移後確率計算手段46とで構成されている。
まず、周波数成分状態行列生成手段40で、例えば、ΘF、ΘNの各要素にランダムな値を与えるなどして、初期推定値θF(i、j)(0)、θN(i、j)(0)を生成する。(ステップS200)。
図10に示すように、同時確率増大化手段32は温度パラメータ生成手段42、候補状態生成手段47、遷移確率生成手段48、一様乱数生成手段50、比較手段52、更新手段54と、で構成されている。また事後確率計算手段31は遷移前確率計算手段44と遷移後確率計算手段46とで構成されている。
まず、周波数成分状態行列生成手段40で、例えば、ΘF、ΘNの各要素にランダムな値を与えるなどして、初期推定値θF(i、j)(0)、θN(i、j)(0)を生成する。(ステップS200)。
繰り返し処理判定手段33で、繰り返し処理判定パラメータの1つである繰り返し回数tを「1」に初期化する(ステップS202)。温度パラメータ生成手段42で温度降下関数T(t)を以下の式(9)で計算する(ステップS204)。
T(t)=C/log(1+t)・・・(9)
ただし、Tは温度パラメータであり、Cを定数とする。温度降下関数T(t)は遷移確率生成手段48に入力される。
T(t)=C/log(1+t)・・・(9)
ただし、Tは温度パラメータであり、Cを定数とする。温度降下関数T(t)は遷移確率生成手段48に入力される。
次に、繰り返し処理判定手段33において、繰り返し処理判定パラメータの時間iの初期値を「n+1」と設定し(ステップS206)、続いて、繰り返し処理判定パラメータの周波数jの初期値を「m+1」と設定する(ステップS208)。特徴ベクトル生成手段22で特徴ベクトルf(i、j)を生成し(ステップS210)、遷移前確率計算手段44と遷移後確率計算手段46に入力される。特徴ベクトルf(i、j)に対する現在の周波数状態θF(i、j)(t−1)および隠れ状態θN(i、j)(t−1)の遷移前の出現確率(式(10))をモデルパラメータ蓄積手段28中のモデルパラメータを使用して、遷移前確率計算手段44で求める(ステップS212、ステップS308)。
Q=P(θF(i、j)(t−1)、θN(i、j)(t−1)│f(i、j))
・・・(10)
ここで、[θF(i、j)(t−1)、θN(i、j)(t−1)]はそれぞれ周波数成分状態と隠れ状態の現在の状態を表す。この遷移前の出現確率Qは遷移確率生成手段48に入力される。
Q=P(θF(i、j)(t−1)、θN(i、j)(t−1)│f(i、j))
・・・(10)
ここで、[θF(i、j)(t−1)、θN(i、j)(t−1)]はそれぞれ周波数成分状態と隠れ状態の現在の状態を表す。この遷移前の出現確率Qは遷移確率生成手段48に入力される。
そして、次の状態θF(i、j)(t)、θN(i、j)(t)の候補である新しい状態[φF(i、j)、φN(i、j)]を候補状態生成部47でランダムに生成する(ステップS214)。
そして、特徴ベクトルf(i、j)に対するこれら新候補の周波数状態行列および隠れ状態行列の遷移後の出現確率Rを、モデルパラメータを用いて遷移後確率計算手段46で、以下の式(11)で求める(ステップS308)。
R=P(φF(i、j)、φN(i、j)│f(i、j))・・・(11)
遷移後確率Rは遷移確率生成手段48に入力される。
そして、特徴ベクトルf(i、j)に対するこれら新候補の周波数状態行列および隠れ状態行列の遷移後の出現確率Rを、モデルパラメータを用いて遷移後確率計算手段46で、以下の式(11)で求める(ステップS308)。
R=P(φF(i、j)、φN(i、j)│f(i、j))・・・(11)
遷移後確率Rは遷移確率生成手段48に入力される。
上述の遷移前の確率Q、遷移後の確率R、温度降下関数T(t)、とにより遷移確率αを遷移確率生成手段48で、以下の式(12)で求める(ステップS218)。
α=min[1、(R/Q)1/T(t)]・・・(12)
ここで、min(a、b)は、aとbのうち、小さい方の値を示す。遷移確率αは比較手段52に入力される。
α=min[1、(R/Q)1/T(t)]・・・(12)
ここで、min(a、b)は、aとbのうち、小さい方の値を示す。遷移確率αは比較手段52に入力される。
一方、一様乱数生成手段50で一様乱数rを生成する(ステップS220)。ここで、rは0≦r<1を満たす実数である。遷移確率αと一様乱数rとを比較手段52で比較して(ステップS222)、一様乱数rより遷移確率αの方が大きい場合は、比較手段52が更新指示信号を生成して、更新指示信号が更新手段54に入力され、以下の式(13)(14)に示すように、更新手段54で次の状態へ遷移させる(ステップS224、S310)。
θF(i、j)(t)=φF(i、j)・・・(13)
θN(i、j)(t)=φN(i、j)・・・(14)
θF(i、j)(t)=φF(i、j)・・・(13)
θN(i、j)(t)=φN(i、j)・・・(14)
また、一様乱数rより遷移確率αの方が大きくない場合は、更新指示信号が生成されず、以下の(15)(16)に示すように、更新手段54で次の状態へ遷移しない(S226)。
θF(i、j)(t)=θF(i、j)(t−1)・・・(15)
θN(i、j)(t)=θN(i、j)(t−1)・・・(16)
ステップS224、S226の後、j=J―m+1でなければ(ステップS228)、jを「1」インクリメントして、ステップS210に戻り、ステップS228でj=J―m+1であり、i=I−n+1でなければ、iを「1」インクリメントして、ステップS208に戻り(ステップS234)、このようにして、ステップS210、S212、S214、S216、S218、S220、S222、S224、S226の処理を全ての時間(i=n+1、...、I−n+1)、全ての周波数(j=m+1、...J−m+1)で行うように、繰り返し処理判定手段33が制御する(ステップS312)。
θF(i、j)(t)=θF(i、j)(t−1)・・・(15)
θN(i、j)(t)=θN(i、j)(t−1)・・・(16)
ステップS224、S226の後、j=J―m+1でなければ(ステップS228)、jを「1」インクリメントして、ステップS210に戻り、ステップS228でj=J―m+1であり、i=I−n+1でなければ、iを「1」インクリメントして、ステップS208に戻り(ステップS234)、このようにして、ステップS210、S212、S214、S216、S218、S220、S222、S224、S226の処理を全ての時間(i=n+1、...、I−n+1)、全ての周波数(j=m+1、...J−m+1)で行うように、繰り返し処理判定手段33が制御する(ステップS312)。
次に、状態の変化がある程度、収束した場合は、すなわち、iとjの1巡中にステップS224で状態が更新される数が予め決められたしきい値以下になった場合、あるいはこの更新される状態数がほぼ一定値になった場合、繰り返し処理判定手段33が、更新停止信号を生成し、更新停止信号が更新手段54に入力され、更新処理が停止される(ステップS236)。また、繰り返し回数tが予め決められた回数Maxtを超えても、繰り返し処理判定手段33が更新手段54の更新処理を停止させる。なお、しきい値は例えば、スペクトログラムの時間方向の位置の個数Iと周波数方向の位置の個数Jを用いて、およそI・J・1000の値であることが好ましい。
このようにして更新が停止されると、同時確率が増大された周波数状態行列ΘF’が周波数成分出力手段34から出力される(ステップS314)。
このようにして、消滅した周波数成分が修復され、またノイズに埋もれた信号の周波数成分が取り出され、かつノイズ成分を除した周波数状態行列ΘFが得られる。
また、必要に応じて、この同時確率が増大され、推定された周波数状態行列ΘF’(以下、周波数状態行列ΘF’という)入力音響信号のスペクトログラムを用いて、抽出された周波数成分のみから構成された音響信号を合成し、出力する構成も考えられる。その場合、図7中の破線で示す周波数記憶手段36と、音響信号合成手段38が周波数成分修復手段18に付加される。
このようにして、消滅した周波数成分が修復され、またノイズに埋もれた信号の周波数成分が取り出され、かつノイズ成分を除した周波数状態行列ΘFが得られる。
また、必要に応じて、この同時確率が増大され、推定された周波数状態行列ΘF’(以下、周波数状態行列ΘF’という)入力音響信号のスペクトログラムを用いて、抽出された周波数成分のみから構成された音響信号を合成し、出力する構成も考えられる。その場合、図7中の破線で示す周波数記憶手段36と、音響信号合成手段38が周波数成分修復手段18に付加される。
周波数成分出力手段34よりの周波数状態行列ΘF’が周波数記憶手段36に一旦記憶される。周波数状態行列ΘF’は音響信号合成手段38で例えば、図1中のスペクトログラム生成手段6で得られた入力音響信号のスペクトログラムと周波数状態行列ΘF’の各成分同士の積をとることにより、存在する周波数成分の振幅を計算し、各時間フレーム(各時間i)において存在する周波数成分の正弦波を生成し、和を取る方法などで実現する。出力される周波数成分信号の具体的形態図を図2Cに、ノイズ信号の具体的形態図を図2Dに示す。図2Cにおいては、太線で囲まれた部分がノイズ信号が取り除かれ、破線部分は修復された信号成分を示す。なお、縦軸が周波数方向、横軸は時間方向を示す。
実施例2
上述の実施例1では、予め、人間の手作業での試行錯誤によりマルコフ確率場における式(11)に示す条件付確率を推定してモデルパラメータをモデルパラメータ蓄積手段28に格納した。
実施例2では、学習モデル生成手段を設けて、式(11)の条件付確率を計算するためのパラメータを学習モデル生成手段が予め学習して生成する。
上述の実施例1では、予め、人間の手作業での試行錯誤によりマルコフ確率場における式(11)に示す条件付確率を推定してモデルパラメータをモデルパラメータ蓄積手段28に格納した。
実施例2では、学習モデル生成手段を設けて、式(11)の条件付確率を計算するためのパラメータを学習モデル生成手段が予め学習して生成する。
図11は実施例1のハードウェア構成に、確率モデル生成手段59を付加させた実施例2のハードウェア構成を示す。確率モデル生成手段59は学習音響信号入力部60と学習周波数成分状態入力部62と学習特徴ベクトル生成手段63と確率モデル学習手段64とモデルパラメータ蓄積手段28とで構成されている。なお、その他の部分は実施例1と同様であり、それらは図11では省略している。
まず、学習音響信号入力部60から、学習音響信号が入力されると、特徴抽出手段4に入力されて、上述と同様の処理で、学習音響信号から学習スペクトログラムが生成され、その学習スペクトログラムから学習観測値行列が生成され、この学習観測値行列が学習特徴ベクトル生成手段63に入力される。学習特徴ベクトル生成手段63で、学習スペクトログラムの各位置(i、j)の特徴ベクトルf(i、j)を学習特徴ベクトルf(i、j)として生成する。この学習特徴ベクトルf(i、j)は確率モデル学習手段64に入力される。
また、学習音響信号の学習用周波数状態行列ΘFが学習周波数成分状態入力部62に入力され、これより各位置(i、j)に対応する学習周波数成分状態θF(i、j)が生成出力され、学習周波数成分状態θF(i、j)は確率モデル学習手段64に入力される。確率モデル学習手段64では、各学習特徴ベクトルf(i、j)とこれに対応する学習周波数成分状態θF(i、j)の組から、確率モデルP(θF(i、j)│f(i、j))を学習する。
また、隠れ状態を考慮した場合は、原学習音響信号とノイズとを独立に生成し、原学習音響信号の一部をノイズで置き換えて、学習音響信号とし、これを学習音響信号入力部60に入力し、原学習音響信号の周波数成分状態行列ΘFとノイズの隠れ状態行列ΘNとを学習周波数成分状態入力部62に入力する。学習周波数成分状態入力部62から、各位置(i、j)に対応する学習周波数成分状態θF(i、j)と隠れ状態θN(i、j)が生成出力され、確率モデル学習手段64で、各学習特徴ベクトルf(i、j)とこれに対応する学習周波数成分状態θF(i、j)の組から、確率モデルP(θF(i、j)、θN(i、j)│f(i、j))を学習する。
学習された確率モデルPのパラメータをモデルパラメータ蓄積手段28に蓄積し、周波数成分修復・抽出手段18では、このモデルパラメータ蓄積手段28中のモデルパラメータを使用して、特徴ベクトルf(i、j)と周波数成分状態θF(i、j)から事後確率を計算すればよい。
学習特徴ベクトルf(i、j)と学習周波数成分状態θF(i、j)の組み合わせを用いて、確率モデルPを学習する手法として、パルツェンウィンドウ法がある。パルツェンウィンドウ法は確率密度関数を推定する方法の一つであり、特徴ベクトルが多値をとる場合に用いられる手法である。パルツェンウィンドウ法において、ベクトルYが与えられたときの確率密度関数P(Y)は、例えば、以下の式(17)で表される。
P(Y)=C/MΣM i=1exp[−(Y−Yi)・(Y−Yi)/2σ2]・・・(17)
と表現される。ここで、C、σは任意の定数となり、Mは学習データの個数、Yiは学習特徴ベクトルであり、A・BはベクトルA、Bの内積を表す。
P(Y)=C/MΣM i=1exp[−(Y−Yi)・(Y−Yi)/2σ2]・・・(17)
と表現される。ここで、C、σは任意の定数となり、Mは学習データの個数、Yiは学習特徴ベクトルであり、A・BはベクトルA、Bの内積を表す。
隠れ状態θN(i、j)を考慮しない場合は、学習特徴ベクトルf(i、j)と学習周波数成分状態θF(i、j)の全ての組み合わせについて、P(Y)を計算し、全ての組み合わせにおけるP(Y)の和が「1」となるように正規化することで、確率モデルP(θF(i、j)│f(i、j))を学習することが可能である。
また、隠れ状態θN(i、j)を考慮する場合は、学習特徴ベクトルf(i、j)と学習周波数成分状態θF(i、j)と隠れ状態θN(i、jの全ての組み合わせについて、P(Y)を計算し、全ての組み合わせにおけるP(Y)の和が「1」となるように正規化することで、確率モデルP(θF(i、j)、θN(i、j)│f(i、j))を学習することが可能である。
なお、パルツェンウィンドウ法の詳細は「Donald F.Specht.Generation of polynomial discriminant functions for pattern recognition IEEE Transactions on Electronic Computers EC−16(3):308−319,1967」等に記載されている。
なお、パルツェンウィンドウ法の詳細は「Donald F.Specht.Generation of polynomial discriminant functions for pattern recognition IEEE Transactions on Electronic Computers EC−16(3):308−319,1967」等に記載されている。
また確率モデルPを学習する手法として、最大エントロピー法がある。最大エントロピー法では、学習データ中にいくつかの特性に着目して、モデル化を行うが、このために素性関数(feature function)と呼ばれる2値の関数を用い、特徴ベクトルf(i、j)が「1」もしくは「0」をとる場合に用いられる手法である。
最大エントロピー法によると、あるデータdを与えた時に、そのデータdが番号cで表現されるカテゴリに属する確率P(c│d)を以下の式(18)で表現する。
P(c│d)=1/Z(d)exp[ΣNfe i=1λiFi(d、c)]・・・(18)
Fi(d、c)はデータdとカテゴリcの組み合わせから計算されるNfe個の関数の一つであり、特徴関数と呼ばれ、λiは学習によって決まるパラメータである。Z(d)は正規化のための関数で以下の式(19)で定義される。
Z(d)=ΣNcat c=1exp[ΣNfe i=1λiFi(d、c)]・・・(19)
ここで、Ncatはカテゴリ数とする。
P(c│d)=1/Z(d)exp[ΣNfe i=1λiFi(d、c)]・・・(18)
Fi(d、c)はデータdとカテゴリcの組み合わせから計算されるNfe個の関数の一つであり、特徴関数と呼ばれ、λiは学習によって決まるパラメータである。Z(d)は正規化のための関数で以下の式(19)で定義される。
Z(d)=ΣNcat c=1exp[ΣNfe i=1λiFi(d、c)]・・・(19)
ここで、Ncatはカテゴリ数とする。
以下、一般性を持たせるために、隠れ状態がある場合について説明する。周波数成分状態θF(i、j)、隠れ状態θN(i、j)はともに離散値をとるので、値の全ての組み合わせに対して番号を振り、これをcとする。例えば、θF(i、j)、θN(i、j)がともに2値の場合はカテゴリ数Ncatは4となる。
次にFi(d、c)を以下のように定義する。まず、データdをスペクトログラム上の位置(i、j)とみなす。f(i、j)の要素をfe(i、j)(e=1、2、...、Nb)とする。任意のd、cに対し、サイズNbのブロックNcat個からなるNcat×Nb個のF1(d、c)を次のように定義する。つまり、F1(d、c)におけるc番目のブロックのNb個の要素それぞれをfe(i、j)で表し、それ以外の値を「0」とする。なお、最大エントロピー法の詳細は「A maximum entropy approach to adaptive statistical language modelling.Computer Speech and Language」などに記載されている。
また、サポートベクターマシン(SVM:Support Vector machine)等の識別関数の演算結果を例えばシグモイド関数(1/1+exp(−x))に入力して得られた値、つまり0〜1の実数を事後確率とみなして、事後確率のモデルを学習する手法も利用可能である。
サポートベクターマシンなどのパターン識別手法においては、識別関数g(X)は以下の式(20)のように表現される。
g(X)=α0+ΣM i=1αixi・・・(20)
ここで、MはベクトルXの次元、xiはベクトルXの要素、α1は係数、α0は定数である。識別問題では、g(X)の符号で、Xがあるカテゴリに含まれる否かを判断する。ここでは、g(X)は一般に全ての実数をとるので、g(X)をシグモイド関数に入力して得られた出力
P(X)=1/1+exp(−Cg(X))を擬似的に確率であるとみなす。なお、Cは定数である。
ここで、Xを特徴ベクトルf(i、j)、Xpを学習サンプルの特徴ベクトルとし、θF(i、j)、θN(i、j)のすべての組み合わせについて、P(X)を学習し、全ての組み合わせにおけるP(X)の和が「1」となるように、正規化することで、確率モデルP(θF(i、j)、θN(i、j)│f(i、j))を得ることが可能となる。
サポートベクターマシンなどのパターン識別手法においては、識別関数g(X)は以下の式(20)のように表現される。
g(X)=α0+ΣM i=1αixi・・・(20)
ここで、MはベクトルXの次元、xiはベクトルXの要素、α1は係数、α0は定数である。識別問題では、g(X)の符号で、Xがあるカテゴリに含まれる否かを判断する。ここでは、g(X)は一般に全ての実数をとるので、g(X)をシグモイド関数に入力して得られた出力
P(X)=1/1+exp(−Cg(X))を擬似的に確率であるとみなす。なお、Cは定数である。
ここで、Xを特徴ベクトルf(i、j)、Xpを学習サンプルの特徴ベクトルとし、θF(i、j)、θN(i、j)のすべての組み合わせについて、P(X)を学習し、全ての組み合わせにおけるP(X)の和が「1」となるように、正規化することで、確率モデルP(θF(i、j)、θN(i、j)│f(i、j))を得ることが可能となる。
実施例3
実施例3は先の実施例とは特徴ベクトルf(i、j)の生成が異なり、これに伴って、処理計算が異なる。この異なる部分について主として説明する。
スペクトログラム上の位置(i、j)において観測特徴ベクトルfx(i、j)を特徴ベクトルf(i、j)とする。即ち、実施例3における特徴ベクトルf(i、j)は位置(i、j)とその近傍位置(i’’、j’’)の各観測値行列Xk(k=1、…、K)の各成分よりなるベクトルfxのみであり、周波数成分状態行列ΘFの位置(i、j)を中心とする近傍の位置の(i’’、j’’)の各成分のベクトルfhは特徴ベクトルf(i、j)に含まれない。
実施例3は先の実施例とは特徴ベクトルf(i、j)の生成が異なり、これに伴って、処理計算が異なる。この異なる部分について主として説明する。
スペクトログラム上の位置(i、j)において観測特徴ベクトルfx(i、j)を特徴ベクトルf(i、j)とする。即ち、実施例3における特徴ベクトルf(i、j)は位置(i、j)とその近傍位置(i’’、j’’)の各観測値行列Xk(k=1、…、K)の各成分よりなるベクトルfxのみであり、周波数成分状態行列ΘFの位置(i、j)を中心とする近傍の位置の(i’’、j’’)の各成分のベクトルfhは特徴ベクトルf(i、j)に含まれない。
事後確率計算では特徴ベクトルf(i、j)(先の実施例と区別して書くとfx(i、j)に対し、位置(i、j)における成分ベクトルがθF(i、j)である事後確率P2(θF(i、j)|f(i、j))、つまりP2(θF(i、j)|fx(i、j))を求める。
ここで、(θF(i,j)の取りうるすべての値について、確率P2(θF(i,j)|fx)を計算し、最も高い確率を与える(θF(i,j)を周波数成分状態行列の(i,j)成分に設定する。
ここで、(θF(i,j)の取りうるすべての値について、確率P2(θF(i,j)|fx)を計算し、最も高い確率を与える(θF(i,j)を周波数成分状態行列の(i,j)成分に設定する。
この場合、隠れ状態を導入する場合は特徴ベクトルf(i、j)として観測特徴ベクトルfx(i、j)とするが、事後確率はP2(θF(i、j)、θN(i、j)|fx(i、j))を計算すればよい。確率P2(θF(i、j)|fx(i、j))やP2(θF(i、j)、θN(i、j)|fx(i、j))は、例えば、上述の最大エントロピー法、パルツェン窓法、識別関数を利用する方法などを用いて、学習して事前に用意しておく。これらの手法の適用は、確率モデル学習手段64におけるf(i、j)の代わりに、fx(i、j)を用いる方法で実現できる。
また、この方法により周波数成分状態行列の(i、j)成分を設定した場合には、同時確率増大化過程で用いられる温度降下関数T(t)の定数Cは0が望ましい。
また、この方法により周波数成分状態行列の(i、j)成分を設定した場合には、同時確率増大化過程で用いられる温度降下関数T(t)の定数Cは0が望ましい。
実験結果
以下にこの発明の実験結果を示す。
実験データとして、6種類の楽器音(ピアノ、バイオリン、フルート、トランペット、アルト(声)、マリンバ)および1種類の人工音を使って、それぞれ7、5秒間の音楽のフレーズを作成し、それぞれのスペクトログラムをとる。このスペクトログラムの周波数方向においてピークとなる位置を「1」、それ以外を「0」としたマトリクスを正解データ(周波数成分状態)とする。そして、この正解データそれぞれに150msec〜300msecの白色雑音を5箇所加えた音響データをテストデータとして使う。
以下にこの発明の実験結果を示す。
実験データとして、6種類の楽器音(ピアノ、バイオリン、フルート、トランペット、アルト(声)、マリンバ)および1種類の人工音を使って、それぞれ7、5秒間の音楽のフレーズを作成し、それぞれのスペクトログラムをとる。このスペクトログラムの周波数方向においてピークとなる位置を「1」、それ以外を「0」としたマトリクスを正解データ(周波数成分状態)とする。そして、この正解データそれぞれに150msec〜300msecの白色雑音を5箇所加えた音響データをテストデータとして使う。
サンプリング周波数は全てにおいて、11、025Hzであり、スペクトログラム作成には、窓幅1024のハニング窓をかけた高速フーリエ変換を用いて、時間軸上のフレームのオーバーラップは無しとし、単位はdbとした。
スペクトログラムから観測値行列Xを作成する方法は、各位置(i、j)においてスペクトログラムのパワー値を3個のビンに量子化し、パワー値に該当するビンのみ「1」とし、その他のビンには「0」を入れる方法に加え、位置(i、j)が周波数特性波形におけるピークになっていれば「1」、なっていなければ「0」を入れる方法を使った。
スペクトログラムから観測値行列Xを作成する方法は、各位置(i、j)においてスペクトログラムのパワー値を3個のビンに量子化し、パワー値に該当するビンのみ「1」とし、その他のビンには「0」を入れる方法に加え、位置(i、j)が周波数特性波形におけるピークになっていれば「1」、なっていなければ「0」を入れる方法を使った。
事後確率の学習方法として、最大エントロピー法を用いた。また近傍の位置の範囲は、周波数方向に±3位置(m=3)とし、時間方向に±3位置(n=3)とした。
上記の実験データで、周波数成分の修復および抽出精度を計測し、従来の技術の結果と、この発明の結果と、を比較した表を図12に示す。図12A、Bともに周波数成分の抽出度、修復度、抽出度と修復度の調和平均を示したものである。括弧内の数値は、この発明の手法を適用せず、単純なスペクトログラムのピーク抽出による結果である。
図12Aは、7、5秒の音楽フレーズ全ての領域について、位置(i、j)単位で正解データと比べた結果であり、図12Bは、図12Aと同様の評価をノイズをかけた領域(時間帯)のみについて行ったものである。単純ピーク抽出での精度を表している括弧内の数値と比較すると、この発明の方が大きな精度を得ることが出来ることがわかる。
上記の実験データで、周波数成分の修復および抽出精度を計測し、従来の技術の結果と、この発明の結果と、を比較した表を図12に示す。図12A、Bともに周波数成分の抽出度、修復度、抽出度と修復度の調和平均を示したものである。括弧内の数値は、この発明の手法を適用せず、単純なスペクトログラムのピーク抽出による結果である。
図12Aは、7、5秒の音楽フレーズ全ての領域について、位置(i、j)単位で正解データと比べた結果であり、図12Bは、図12Aと同様の評価をノイズをかけた領域(時間帯)のみについて行ったものである。単純ピーク抽出での精度を表している括弧内の数値と比較すると、この発明の方が大きな精度を得ることが出来ることがわかる。
以上の各実施形態の他、本発明である周波数修復・抽出方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、周波数修復・抽出方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明の周波数修復・抽出方法における処理をコンピュータによって実現する場合、周波数修復・抽出方法が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、周波数修復・抽出方法における処理機能がコンピュータ上で実現される。
また、この発明の周波数修復・抽出方法における処理をコンピュータによって実現する場合、周波数修復・抽出方法が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、周波数修復・抽出方法における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、周波数修復・抽出方法を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (15)
- 入力音響信号の周波数成分を抽出するとともに失われた成分を修復する周波数成分修復・抽出方法であって、
入力音響信号に対し、周波数解析を行い、サウンドスペクトログラム(以下、スペクトログラムという)x(i、j)(iは時間、jは周波数を示す)を算出するスペクトログラム生成過程と、
上記スペクトログラム生成過程で生成されたスペクトログラムx(i、j)の各位置(i、j)の値から、K(K>1)個の特徴量xk(i、j)(k=1、...、K)を算出し、それぞれの特徴に関して、xk(i、j)をi行j列の要素とする観測値行列Xk(k=1、...、K)を生成する観測値行列生成過程と、
周波数成分状態の存在の確からしさを表す周波数成分状態行列ΘFを生成する周波数成分状態行列生成過程と、
上記観測値行列生成手段で生成されたそれぞれの観測値行列Xk内の位置(i、j)を中心とする近傍の値(位置(i、j)を含む)から、位置(i、j)に関する特徴ベクトルf(i、j)を生成する特徴ベクトル生成過程と、
上記特徴ベクトル生成過程で生成された特徴ベクトルf(i、j)から、スペクトログラム上の位置(i、j)の任意の周波数成分状態が出現する確率を計算する事後確率計算過程と、
位置(i、j)に対して上記特徴ベクトル生成過程と、上記事後確率計算過程と、による処理を行った後、上記事後確率を用いて、事後同時確率が大きくなるように、上記周波数成分状態行列を変更する同時確率増大化過程と、
全ての位置(i、j)に対する上記同時確率増大化過程の処理後、所定の条件により、上記特徴ベクトル生成過程と、上記事後確率計算過程と、上記同時確率増大化過程と、を更に繰り返しを行うかどうかを判定する繰り返し処理判定過程と、
上記繰り返し処理判定過程が繰り返しを行わないと判定すれば、上記周波数成分状態行列の値に基づき入力音響信号の周波数成分を出力する周波数成分出力過程と、を有することを特徴とする周波数成分修復・抽出方法。 - 請求項1に記載の周波数修復・抽出方法において、
上記特徴ベクトル生成過程は、上記観測値行列生成手段で生成されたそれぞれの観測値行列Xk内の位置(i、j)を中心とする近傍の値(位置(i、j)を含む)と、上記周波数成分状態行列生成過程で生成された周波数成分状態行列ΘF内の上記位置(i、j)を中心とする近傍の位置(位置(i、j)を除く)とを含めたものから、位置(i、j)に関する特徴ベクトルf(i、j)を生成する過程であることを特徴とする周波数成分修復・抽出方法。 - 請求項1に記載の周波数修復・抽出方法において、
上記特徴ベクトル生成過程は、上記スペクトログラム上の位置(i、j)およびその前後の近傍の各位置(i’’、j’’)における観測値行列の各要素値x(i、j)により上記特徴ベクトルf(i、j)として生成する過程であり、
上記事後確率計算過程は、上記与えられた特徴ベクトルf(i、j)から周波数成分状態行列ΘFの上記位置(i、j)の成分θF(i、j)が出現する事後確率モデルに上記特徴ベクトルf(i、j)を適用して上記確率を計算する過程であることを特徴とする周波数修復・抽出方法。 - 請求項2に記載の周波数修復・抽出方法において、
上記特徴ベクトル生成過程は、上記スペクトログラム上の位置(i、j)およびその前後の近傍の各位置(i’’、j’’)における観測値行列の各要素値x(i、j)、と、上記位置(i、j)の前後の近傍の各位置(i’’、j’’)における周波数成分状態θ(i’’、j’’)Fとにより上記特徴ベクトルf(i、j)として生成する過程であり、
上記事後確率計算過程は、上記与えられた特徴ベクトルf(i、j)から周波数成分状態行列ΘFの上記位置(i、j)の成分θF(i、j)が出現する事後確率モデルに上記特徴ベクトルf(i、j)を適用して上記確率を計算する過程であることを特徴とする周波数修復・抽出方法。 - 請求項2または4何れかに記載の周波数修復・抽出方法において、
学習音響信号からそのスペクトログラムの各位置の特徴ベクトルf(i、j)を学習特徴ベクトルf(i、j)として生成する学習特徴ベクトル生成過程と、
上記各学習特徴ベクトルf(i、j)とその各位置(i、j)と対応する学習周波数成分状態θ(i、j)Fの組を用いて、事後確率のモデルを学習し、その学習されたモデルのパラメータをモデルパラメータ蓄積手段に蓄積する確率モデル学習過程とを更に有し、
上記事後確率計算過程は、上記蓄積されたパラメータを使って、上記特徴ベクトルf(i、j)と周波数成分状態θ(i、j)Fから事後確率を計算する過程であることを、特徴とする周波数修復・抽出方法。 - 請求項5に記載の周波数修復・抽出方法において、
上記確率モデル学習過程はパルツェン窓(Parzen Window)法を用いて、事後確率のモデルを学習する過程であることを特徴とする周波数修復・抽出方法。 - 請求項5に記載の周波数修復・抽出方法において、
上記観測値行列生成過程は、上記観測値行列の各要素の値を全て「0」もしくは「1」(以下、2値という)として各観測値行列を生成する過程であり、
上記確率モデル学習過程は、最大エントロピー法を用いて、事後確率のモデルを学習する過程であることを特徴とする周波数修復・抽出方法。 - 請求項5に記載の周波数修復・抽出方法において、
上記確率モデル学習過程は、上記学習特徴ベクトルにつき識別関数を演算し、その演算結果をシグモイド関数に入力して得られた値を事後確率とみなして、事後確率のモデルを学習する過程であることを特徴とする周波数修復・抽出方法。 - 請求項2又は4に記載の周波数修復・抽出方法において、
上記特徴ベクトル生成過程は、上記スペクトログラム上の各位置(i、j)において、1つ以上の隠れ状態θ(i、j)Nで構成される行列(以下、隠れ状態行列ΘNという)の上記位置(i、j)の要素を除く成分をも含めて上記特徴ベクトルf(i、j)を生成する過程であり、
上記事後確率計算過程は、上記与えられた特徴ベクトルf(i、j)から周波数成分状態θ(i、j)Fおよび隠れ状態θ(i、j)Nが出現する事後確率モデルに、上記特徴ベクトルf(i、j)を適用して確率を計算する過程であり、
上記同時確率増大化過程において、上記初期状態生成過程はスペクトログラム上の各位置について、隠れ状態行列の初期値も発生させる過程であり、
上記要素推定過程は周波数成分状態および隠れ状態を更新し、事後確率を増大させることで、周波数成分状態行列ΘFおよび隠れ状態行列ΘNの各要素の値を推定する過程であることを特徴とする周波数修復・抽出方法。 - 請求項5〜8のいずれかに記載の周波数修復・抽出方法において、
上記特徴ベクトル生成過程は、上記スペクトログラム上の各位置(i、j)において、1つ以上の隠れ状態θ(i、j)Nで構成される行列(以下、隠れ状態行列ΘNという)の上記位置(i、j)の要素を除く成分をも含めて上記特徴ベクトルを生成する過程であり、
上記事後確率計算過程は、上記与えられた特徴ベクトルf(i、j)から周波数成分状態θ(i、j)Fおよび隠れ状態θ(i、j)Nが出現する事後確率モデルに、上記特徴ベクトルを適用して確率を計算する過程であり、
上記学習特徴ベクトル生成過程は、上記学習音響信号より、隠れ状態行列から上記位置(i、j)の要素を除く成分をも含む学習特徴ベクトルを生成する過程であり、
上記確率モデル学習過程は、上記学習特徴ベクトルf(i、j)とその各位置と対応する学習周波数成分状態θ(i、j)Fと隠れ状態θ(i、j)Nとの組を用いて事後確率のモデルを学習し、その学習されたモデルのパラメータをモデルパラメータ蓄積手段に蓄積する過程であり、
上記同時確率増大化過程において、上記初期状態生成過程はスペクトログラム上の各位置について、隠れ状態行列の初期値も発生させる過程であり、
上記要素推定過程は周波数成分状態および隠れ状態を更新し、事後確率を増大させることで、周波数成分状態行列ΘFおよび隠れ状態行列ΘNの各要素の値を推定する過程であることを特徴とする周波数修復・抽出方法。 - 請求項1〜10のいずれかに記載の周波数修復・抽出方法において、
正規化手段が、上記スペクトログラムにおける各位置(i、j)のパワースペクトルを局所的に正規化し、正規化された値を上記観測値行列生成過程で処理する実数値行列とする過程を、有することを特徴とする周波数修復・抽出方法。 - 請求項1〜11のいずれかに記載の周波数修復・抽出方法において、
音響信号合成手段が、上記周波数成分出力過程により出力された周波数成分で構成される音響信号を合成する過程を、有することを特徴とする周波数修復・抽出方法。 - 入力音響信号の周波数成分を抽出するとともに失われた成分を修復する周波数成分修復・抽出装置であって、
入力音響信号に対し、周波数解析を行い、サウンドスペクトログラム(以下、スペクトログラムという)x(i、j)(iは時間、jは周波数を示す)を算出するスペクトログラム生成部と、
上記スペクトログラム生成過程で生成されたスペクトログラムx(i、j)の各位置(i、j)の値から、K(K>1)個の特徴量xk(i、j)(k=1、...、K)を算出し、それぞれの特徴に関して、xk(i、j)をi行j列の要素とする観測値行列Xk(k=1、...、K)を生成する観測値行列生成過程と、
周波数成分状態の存在の確からしさを表す周波数成分状態行列ΘFを生成する周波数成分状態行列生成部と、
上記観測値行列生成手段で生成されたそれぞれの観測値行列Xk内の位置(i、j)を中心とする近傍の値(位置(i、j)を含む)から、位置(i、j)に関する特徴ベクトルf(i、j)を生成する特徴ベクトル生成部と、
上記特徴ベクトル生成過程で生成された特徴ベクトルf(i、j)から、スペクトログラム上の位置(i、j)の任意の周波数成分が出現する確率を計算する事後確率計算部と、
位置(i、j)に対して上記特徴ベクトル生成過程と、上記事後確率計算過程と、による処理を行った後、上記事後確率を用いて、事後同時確率が大きくなるように、上記周波数成分状態行列を変更する同時確率増大化部と、
全ての位置(i、j)に対する上記同時確率増大化過程の処理後、所定の条件により、上記特徴ベクトル生成過程と、上記事後確率計算過程と、上記同時確率増大化過程と、を更に繰り返しを行うかどうかを判定する繰り返し処理判定部と、
上記繰り返し処理判定過程が繰り返しを行わないと判定すれば、上記周波数成分状態行列の値に基づき入力音響信号の周波数成分を出力する周波数成分出力部と、を有することを特徴とする周波数成分修復・抽出装置。 - 請求項1〜12の何れかに記載した周波数修復・抽出方法の各過程をコンピュータに実行させるための周波数修復・抽出プログラム。
- 請求項14記載の周波数修復・抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006134556A JP2007304445A (ja) | 2006-05-12 | 2006-05-12 | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006134556A JP2007304445A (ja) | 2006-05-12 | 2006-05-12 | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007304445A true JP2007304445A (ja) | 2007-11-22 |
Family
ID=38838409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006134556A Pending JP2007304445A (ja) | 2006-05-12 | 2006-05-12 | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007304445A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110118A1 (ja) * | 2008-03-05 | 2009-09-11 | 国立大学法人 東京大学 | 音信号の分離方法 |
JP2013511045A (ja) * | 2009-11-12 | 2013-03-28 | ポール リード スミス ギターズ、リミテッド パートナーシップ | デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム |
US9390066B2 (en) | 2009-11-12 | 2016-07-12 | Digital Harmonic Llc | Precision measurement of waveforms using deconvolution and windowing |
US9600445B2 (en) | 2009-11-12 | 2017-03-21 | Digital Harmonic Llc | Precision measurement of waveforms |
JP2020003536A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
-
2006
- 2006-05-12 JP JP2006134556A patent/JP2007304445A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110118A1 (ja) * | 2008-03-05 | 2009-09-11 | 国立大学法人 東京大学 | 音信号の分離方法 |
JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
JP2013511045A (ja) * | 2009-11-12 | 2013-03-28 | ポール リード スミス ギターズ、リミテッド パートナーシップ | デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム |
US9279839B2 (en) | 2009-11-12 | 2016-03-08 | Digital Harmonic Llc | Domain identification and separation for precision measurement of waveforms |
US9390066B2 (en) | 2009-11-12 | 2016-07-12 | Digital Harmonic Llc | Precision measurement of waveforms using deconvolution and windowing |
US9600445B2 (en) | 2009-11-12 | 2017-03-21 | Digital Harmonic Llc | Precision measurement of waveforms |
JP2020003536A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
JP7448053B2 (ja) | 2018-06-25 | 2024-03-12 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Donahue et al. | Adversarial audio synthesis | |
Morrison et al. | Chunked autoregressive gan for conditional waveform synthesis | |
JP2009139949A (ja) | 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置 | |
Collins et al. | Bridging the audio-symbolic gap: The discovery of repeated note content directly from polyphonic music audio | |
JP6452591B2 (ja) | 合成音声品質評価装置、合成音声品質評価方法、プログラム | |
Zhao et al. | Transferring neural speech waveform synthesizers to musical instrument sounds generation | |
JP2007304445A (ja) | 周波数成分の修復・抽出方法、周波数成分の修復・抽出装置、周波数成分の修復・抽出プログラムならびに周波数成分の修復・抽出プログラムを記録した記録媒体 | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
Avila et al. | Bayesian restoration of audio signals degraded by impulsive noise modeled as individual pulses | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP2018028580A (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
US20240013775A1 (en) | Patched multi-condition training for robust speech recognition | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP6567478B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 | |
JP2009204808A (ja) | 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体 | |
JP4981579B2 (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
JP2004287010A (ja) | 波形認識方法及び装置、並びにプログラム | |
JP6157926B2 (ja) | 音声処理装置、方法およびプログラム | |
Reddy et al. | Inverse filter based excitation model for HMM‐based speech synthesis system | |
Lacerda et al. | Automatic classification of laryngeal mechanisms in singing based on the audio signal | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
Miragaia et al. | Multi pitch estimation of piano music using cartesian genetic programming with spectral harmonic mask | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム |