JP2013167698A - 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム - Google Patents

音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム Download PDF

Info

Publication number
JP2013167698A
JP2013167698A JP2012029791A JP2012029791A JP2013167698A JP 2013167698 A JP2013167698 A JP 2013167698A JP 2012029791 A JP2012029791 A JP 2012029791A JP 2012029791 A JP2012029791 A JP 2012029791A JP 2013167698 A JP2013167698 A JP 2013167698A
Authority
JP
Japan
Prior art keywords
sound source
spectral
spectrum
spectral shape
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012029791A
Other languages
English (en)
Other versions
JP5881454B2 (ja
Inventor
Tomohiro Nakatani
智広 中谷
Takuya Yoshioka
拓也 吉岡
Akiko Araki
章子 荒木
Marc Delcroix
マーク デルクロア
Masakiyo Fujimoto
雅清 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012029791A priority Critical patent/JP5881454B2/ja
Publication of JP2013167698A publication Critical patent/JP2013167698A/ja
Application granted granted Critical
Publication of JP5881454B2 publication Critical patent/JP5881454B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】スペクトルの値が周波数間で相関を持つようなモデルを用いる場合でも、目的音のスペクトル推定が効率的に行えるように、音源ごとに信号のスペクトル形状特徴量を推定する技術を提供する。
【解決手段】各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられた下でのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とを用いる。各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持ち、全音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される最適化関数を、スペクトル形状モデルとスペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量および音源占有度を推定する。
【選択図】図2

Description

本発明は、複数の音源から出た音響信号が混ざってマイクロホンで収音された観測信号から、音源ごとに信号のスペクトル形状特徴量を推定する技術ならびに目的信号のスペクトル特徴量を推定する技術に関する。
図1に、非特許文献1,2,3に開示された従来の目的信号スペクトル特徴量推定装置の機能構成例を示す。この目的信号スペクトル特徴量推定装置900は、観測信号に含まれる個々の音源(以下、番号m=1,2,・・・で区別する)について、当該音源に関連付けられた離散状態番号モデル記憶部901−mと状態依存スペクトルモデル記憶部902−mと離散状態番号選択部903−mを具備し、さらに、特徴抽出部904、音源占有度推定部905、目的音スペクトル推定部906を具備している。図1では、簡単のため音源数が2の場合を例示しているが、一般に3個以上の音源も考慮することができ、この場合は、離散状態番号モデル記憶部901−mと状態依存スペクトルモデル記憶部902−mとスペクトル番号選択部903−mは、音源数だけ別々のものが用意されているものとする。
以下の説明では、音源数はN(m)と仮定して説明する。音源m=1は目的音源とし、音源m>1は背景音源とする。nは時間、k(=1,2,・・・,N(k))は周波数を表すものとし、或る時間周波数点(n,k)で値をとる変数をxn,kのように表記し、その値を全周波数でまとめてできるベクトル(例えば、スペクトル特徴量など)を参照する場合にxn(=[xn,1,・・・,xn,N(k)]T)と表記するものとする。Tは、行列やベクトルの非共役転置を表す。
離散状態番号モデル記憶部901−mは、音源mについて、短時間フレームに対するスペクトル特徴量の離散状態を表す離散状態番号q(m)に関する事前確率関数p(q(m))を記憶している。離散状態番号q(m)は、Nq (m)(>0)個の番号(1からNq (m)の自然数値)のいずれかを取るものとする。
状態依存スペクトルモデル記憶部902−mは、音源mについて、離散状態番号q(m)が与えられた場合の音源mのスペクトル特徴量s(m)の条件付き確率密度関数p(s(m)|q(m))を記憶している。
特徴抽出部904は、マイクロホンで収音した時間領域信号x(t)を入力として、各短時間フレームnに対する観測信号のスペクトル特徴量xnを抽出する。
離散状態番号選択部903−mは、観測信号のスペクトル特徴量xn、音源mに関する離散状態番号の事前確率関数p(q(m))とスペクトル特徴量の条件付き確率密度関数p(s(m)|q(m))、音源占有度の推定値M^n (m)(=[M^n,1 (m),・・・,M^n,N(k) (m)]T)を受け取り、観測音に最も適合する音源mの離散状態番号の推定値q^n (m)を求める。
音源占有度推定部905は、観測音のスペクトル特徴量xnと、すべての音源mに関するスペクトル特徴量の条件付き確率密度関数p(s(m)|q(m))と、すべての音源mのそれぞれに関して選択された離散状態番号の推定値の組合せ{q^n (1),・・・,q^n (N(m))}を受け取り、各時間周波数点において各音源mが最も大きなエネルギーを持つ事後確率である音源占有度の推定値M^n,k (m)を求める。
さらに、目的音スペクトル推定部906は、目的音の音源占有度の推定値M^n (1)と目的音の離散状態番号の推定値q^n (1)と、特徴抽出部904が出力する観測信号のスペクトル特徴量xnと、目的音のスペクトル特徴量の条件付き確率密度関数p(s(1)|q(1))とを入力として、目的音のスペクトルの推定値を求める。
従来の目的信号スペクトル特徴量推定装置900は、音源占有度推定部905と各離散状態番号選択部903−mのそれぞれが、音源占有度と観測信号のスペクトル特徴量に最も適合するスペクトル番号を効率的に求められるようにするために、以下の二つの前提を置いていた。
〈1〉
各時間周波数点(n,k)において、観測信号のスペクトル特徴量xn,kは、各音源mのスペクトル特徴量sn,k (m)のうち、値が大きいものに一致する。すなわち、
xn,k=max{sn,k (1),・・・,sn,k (N(m))} (1)
〈2〉
各音源信号のスペクトル特徴量sn (m)は、離散状態番号q(m)が与えられたもとで、周波数ごとに独立である。すなわち、スペクトル特徴量の条件付き確率密度関数p(sn (m)|q(m))は、以下のように分解できる。ただし、sn (m)=[sn,1 (m),・・・,sn,N(k) (m)]Tである。
Figure 2013167698
非特許文献1,2,3に開示されるように、上記の二つの仮定の下で、各音源の離散状態番号と音源占有度を交互に繰り返し更新することで、離散状態番号と音源占有度を推定できる。このとき、各繰り返しにおいて、離散状態番号は音源ごとに別々(独立)に更新することができ、また、音源占有度は周波数ごとに別々(独立)に更新することができる。すなわち、それぞれの更新において、音源間の組合せ、および周波数間の組合せを考慮する必要がないため、少ない計算コストで各更新を行うことができる。
中谷智広、荒木章子、吉岡拓也、藤本雅清、"DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離," 日本音響学会2010年秋季研究発表会講演論文集、pp.577-580, 9月, 2010年. 中谷智広、荒木章子、吉岡拓也、藤本雅清、"音源スペクトルHMMと音源方向モデルの教師無し同時学習に基づく多チャンネル音源分離," 日本音響学会2011年春季研究発表会講演論文集, pp.805-808, 3月, 2011年. 中谷智広、荒木章子、マーク・デルクロア、吉岡拓也、藤本雅清、"非定常雑音に頑健な統合的音声認識アプローチ:音源方向GMMと対数スペクトルGMMに基づく統計モデルベース音声強調," 日本音響学会2011年秋季研究発表会講演論文集, 9月, 2011年.
従来の目的信号スペクトル特徴量推定装置は、上記<2>の仮定が成立しない場合は、これらの値を求めるための計算コストが膨大になるという問題があった。したがって、少ない計算コストで目的信号のスペクトル推定を行うために、上記の仮定に従うようにする必要があった。このため、各信号のスペクトルのモデルとして、対数パワースペクトルの分布を離散状態モデルで表現した混合ガウス分布(もしくは、その離散状態の時間遷移もモデル化した隠れマルコフモデル)などを用い、特に、上記<2>の仮定を満たすために、混合ガウス分布(もしくは、隠れマルコフモデル)を構成する各ガウス分布の共分散行列は対角行列のみに限定する必要があった。
しかし、この限定は、スペクトルモデルが表現できる信号の分布を限定してしまい、信号が本来持つ分布を精度よく表現できるとは限らない。この結果、限定された分布で表現できるスペクトルの精度以上に、目的音および背景音のスペクトルの推定精度を高くできないという問題があった。例えば、より具体的には、音声認識でしばしば用いられるメル周波数ケプストラム係数(以下、MFCCという)に関する混合ガウス分布(もしくは、MFCCに関する隠れマルコフモデル)は、現在、音声信号のスペクトル形状のモデルとして最良なものの一つとして考えられているが、従来の方法では、これを信号のスペクトルモデルとして用いることはできなかった。この理由は、このモデルでは、各離散状態に対応する各ガウス分布がMFCCの分布を規定しており、かつ、MFCCの各係数は周波数間にまたがるスペクトル形状全体に関連するものであるため、各離散状態に対応する信号のスペクトルの分布は、一般的には、周波数間で独立になりえないからである。
このような課題に鑑みて、本発明は、従来技術における制限的なモデルと異なり、制限を持たないより一般的なモデル(スペクトルの値が周波数間で相関を持つような高精度なモデル)を用いる場合でも、目的信号のスペクトル推定が効率的に行えるように、複数の音源から出た音響信号が混ざってマイクロホンで収音された観測信号から、音源ごとに信号のスペクトル形状特徴量を推定する技術ならびに目的信号のスペクトル特徴量を推定する技術を提供することを目的とする。
本発明のスペクトル形状特徴量推定は、複数の音源それぞれからの音響信号が混ざって収音された観測信号から、各音響信号のスペクトル特徴量に対応するスペクトル形状特徴量を推定するものであって、各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられたもとでのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とを用いる。具体的には、各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持つ最適化関数を、スペクトル形状モデルとスペクトル観測モデルを用いて最大化するとともに、音源ごとのスペクトル形状特徴量、および、全ての音源のスペクトル形状特徴量が与えられたもとで各音源が占有的音源番号で表される音源である事後確率(音源占有度)、を推定する。最適化関数は、全ての音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される。
本発明の目的信号スペクトル特徴量推定技術は、本発明のスペクトル形状特徴量推定技術によって推定された、音源ごとのスペクトル形状特徴量および音源占有度のうち、目的信号の音源に対応するスペクトル形状特徴量と、目的信号の音源の音源占有度と、目的信号の音源に対応するスペクトル観測モデルと、観測信号のスペクトル特徴量とから、目的信号のスペクトル特徴量を推定する。
本発明に拠ると、詳細は実施形態の説明に譲るが、スペクトル形状モデルとして、スペクトルの値が周波数間で相関を持つような高精度なモデルを導入することができる。そして、低い計算コストで、従来例よりも高精度に目的信号のスペクトルが推定できる。
従来例の目的信号スペクトル特徴量推定装置の機能構成例を示す図。 目的信号スペクトル特徴量推定装置の機能構成例を示す図。 目的信号スペクトル特徴量推定装置の機能構成例を示す図。
《本技術の概略》
まず本技術の概略を説明してから、本技術の詳細を説明する。
図2にスペクトル形状特徴量推定装置/目的信号スペクトル特徴量推定装置の構成例を示す。この目的信号スペクトル特徴量推定装置100は、観測信号に含まれる複数の音源のうち、m番目の音源ごとに、当該音源に関連付けられたスペクトル形状モデル記憶部101−mとスペクトル観測モデル記憶部102−mとスペクトル形状推定部103−mを具備し、さらに、特徴抽出部104、音源占有度更新部105、および目的音スペクトル推定部106を具備している。スペクトル形状特徴量推定装置100pは、目的音スペクトル推定部106を具備しない点で、目的信号スペクトル特徴量推定装置100と異なる。図2では、簡単のため音源数が2の場合を例示しているが、3個以上の音源を考慮する場合は、スペクトル形状モデル記憶部101−mとスペクトル観測モデル記憶部102−mとスペクトル形状推定部103−mは、音源数だけ別々のものが用意されているものとする。
実施形態におけるスペクトル形状特徴量推定装置は、それ単体で独立に存在するよりは、得られた最尤スペクトル形状特徴量などを用いて目的信号のスペクトル特徴量を推定する装置(実施形態における目的信号スペクトル特徴量推定装置)を構成する構成要素として存在することが実用的な場合がある。さらに云えば、スペクトル形状特徴量推定装置は、目的信号スペクトル特徴量推定装置とは容易に分離可能に目的信号スペクトル特徴量推定装置を構成する構成要素ではなく、目的信号スペクトル特徴量推定装置自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、スペクトル形状特徴量推定装置は、目的信号スペクトル特徴量推定装置そのものであることが凡そ実用的と言うことができる場合がある。
ただし、スペクトル形状特徴量推定装置が、単体独立の構成要素として存在すること、目的信号スペクトル特徴量推定装置とは容易に分離可能に目的信号スペクトル特徴量推定装置を構成する構成要素であることを排除する趣旨ではない。例えば各音源のスペクトル形状特徴量を推定すること自体を目的とするならば、スペクトル形状特徴量推定装置を単体独立の構成要素として実現することに何らの妨げは無い。
ここでは、目的信号スペクトル特徴量推定装置/スペクトル形状特徴量推定装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、スペクトル形状特徴量推定装置は、目的信号スペクトル特徴量推定装置を構成する構成要素として説明する。
目的信号スペクトル特徴量推定装置/スペクトル形状特徴量推定装置を単体単独の構成要素として、これをコンピュータで実現する場合のハードウェア構成例は後述する。
以下の説明では、音源数はN(m)と仮定して説明する。音源m=1は目的音源とし、音源m>1は背景音源とする。nは時間、k(=1,2,・・・,N(k))は周波数を表すものとし、或る時間周波数点(n,k)で値をとる変数をxn,kのように表記し、その値を全周波数でまとめてできるベクトル(例えば、スペクトル特徴量など)を参照する場合にxn(=[xn,1,・・・,xn,N(k)]T)と表記するものとする。Tは、行列やベクトルの非共役転置を表す。
スペクトル形状モデル記憶部101−mは、音源mについて、短時間フレームに対するスペクトル形状特徴量c(m)の事前確率密度関数p(c(m))を記憶している。この事前確率密度関数を、以下、スペクトル形状モデルと呼ぶ。
スペクトル観測モデル記憶部102−mは、音源mについて、スペクトル形状特徴量c(m)が得られたもとでのスペクトル特徴量s(m)の条件付き確率密度関数p(s(m)|c(m))を記憶している。与えられたスペクトル形状特徴量c(m)に対応してスペクトル特徴量s(m)をユニークには決定できないため、確率的な揺らぎが含まれると仮定している。この揺らぎをモデル化したものがスペクトル特徴量s(m)の条件付き確率密度関数p(s(m)|c(m))である。以下、この関数をスペクトル観測モデルと呼ぶ。
特徴抽出部104は、マイクロホンで収音した時間領域信号x(t)を入力として、各短時間フレームnにおける観測信号のスペクトル特徴量xnを抽出する。
スペクトル形状推定部103−mは、観測信号のスペクトル特徴量xn、音源mの音源占有度M^n (m)、音源mに関するスペクトル形状モデルp(c(m))、音源mのスペクトル観測モデルp(s(m)|c(m))を受け取り、音源mのスペクトル形状特徴量c^n (m)を推定する。
音源占有度更新部105は、特徴抽出部104から観測信号のスペクトル特徴量xnを受け取り、すべてのスペクトル形状推定部103−mのそれぞれから、各音源mのスペクトル形状特徴量c^n (m)を受け取り、すべてのスペクトル観測モデルから各音源mのスペクトル観測モデルp(s(m)|c(m))を受け取り、各音源mの音源占有度の推定値M^n (m)を推定する。
目的音スペクトル推定部106は、特徴抽出部104から観測信号のスペクトル特徴量xnを受け取り、スペクトル形状推定部103−1から目的信号のスペクトル形状特徴量の推定値c^n (1)を受け取り、音源占有度更新部105から目的信号の音源占有度の推定値M^n (1)を受け取り、スペクトル観測モデル記憶部102−1から目的信号のスペクトル特徴量の条件付き確率密度関数p(s(1)|c(1))を受け取り、目的信号のスペクトルの推定値を求める。
さらに、本技術では、各音源mのスペクトル形状特徴量を効率的に求めるために、以下の前提を置く。
<1>
各時間周波数点(n,k)において、観測信号のスペクトル特徴量xn,kは、音源mのスペクトル特徴量sn,k (m)のうち、値が大きいものに一致する。すなわち、式(3)が成立する。以下、この仮定をLogMaxモデルと呼ぶ。
xn,k=max{sn,k (1),・・・,sn,k (N(m))} (3)
〈2〉
各音源信号のスペクトル特徴量sn (m)は、各音源のスペクトル形状特徴量cn (m)が与えられたもとで、周波数ごとに独立である。すなわち、スペクトル特徴量の条件付き確率密度関数p(sn (m)|cn (m))は、以下のように分解できる。ただし、sn (m)=[sn,1 (m),・・・,sn,N(k) (m)]Tである。
Figure 2013167698
この仮定のうち、仮定<1>は従来例と同じであり、仮定<2>が従来例と異なる。
上記の構成において、従来例との違いで最も重要な点は、従来例では、各音源のスペクトル特徴量のモデルを、離散状態モデルと状態依存スペクトルモデルの二つの組合せで表現していたのに対し、本発明では、スペクトル形状モデルとスペクトル観測モデルの二つの組合せで表現している点である。
従来例では、スペクトルの形状に関する特徴量はスペクトル観測過程と混在して状態依存スペクトルモデルで表現されており、そのモデルにおいて、スペクトルの値が周波数間で独立であると仮定する必要があった。
他方、本発明では、周波数間で独立であると仮定する必要があるのはスペクトル観測モデルのみであり、スペクトル形状モデルについては何も規定されない。その結果、スペクトルの値が周波数間で相関を持つようなスペクトル形状モデルを導入することができる。例えば、MFCCの混合ガウスモデルなど、高精度なスペクトル形状モデルを利用することができる。
また、上記の二つの仮定の下で、各音源のスペクトル形状特徴量と音源占有度を交互に繰り返し更新することで、スペクトル形状特徴量と音源占有度を推定できる。この時、各繰り返しにおいて、スペクトル形状特徴量は音源ごとに別々に更新することができ、また、音源占有度の更新は周波数ごとに別々に更新することができる。すなわち、それぞれの更新において、音源間で値の組合せ、および周波数間で値の組合せを考慮する必要がないため、少ない計算コストで各更新を行うことができる。
《本技術の詳細》
cn=H(sn)を、信号のスペクトル特徴量snからスペクトル形状特徴量cnを抽出する特徴量変換関数とする。ここで、nは短時間フレームの番号を表し、スペクトル特徴量snは各周波数に対応する連続スカラー値sn,kを要素にもつベクトルsn=[sn,1,sn,2,・・・,sn,N(k)]Tと定義され、スペクトル形状特徴量cnは形状パラメータの各次元に対応する連続スカラー値cn,hを要素に持つベクトルcn=[cn,1,cn,2,・・・,cn,N(h)]Tと定義され、H(・)は、スペクトルの形状に関する特徴量を抽出する任意の関数とする。例えば、snを音声認識などでしばしば用いられる対数メルフィルタバンクの出力、cnをそのMFCCとすると、H(sn)はsnの離散コサイン変換D(sn)に対応する。すなわち、H(sn)=D(sn)となる。また、snを対数パワースペクトルとし、cnを対応するMFCCとすると、H(sn)は、snに対数関数の逆変換、すなわち指数関数(exp(・)と表記)を適用したのち、メルフィルタバンク処理(mfb(・)と表記)を施し、再度、対数変換(log(・))を適用することに対応する。すなわち、H(sn)=log(mfb(exp(sn)))である。
以下の議論では、基本的に、複数の短時間フレームを観測信号から特徴抽出部104が抽出することを前提とするが、下記の説明(例えば実施形態1,2)においては、議論を簡単にするため、一つの短時間フレームnに閉じた処理として説明する。複数の短時間フレームに対しては、各短時間フレームに対して同じ処理を個別に適用するものとする。その他の実施形態では、必ずしもその限りではない。
[最適化関数の定義]
いま、sn (m)を音源mの短時間フレームnにおけるスペクトル特徴量とする。また、すべての音源mに関するスペクトル特徴量およびスペクトル形状特徴量をひとまとめにして、以下のように記述することにする。ここで、N(m)は音源数を表す。
Sn={sn (1),・・・,sn (N(m))} (5)
Sn,k={sn,k (1),・・・,sn,k (N(m))} (6)
Cn={cn (1),・・・,cn (N(m))} ただし、cn (m)=H(sn (m)) (7)
本技術では、目的音スペクトル推定のためのステップとして、以下で定義されるように、各音源mのスペクトル形状特徴量を事後確率最大化(MAP)推定で求める。
Figure 2013167698
このMAP推定は、後述するように、主としてスペクトル形状推定部103−mと音源占有度推定部105による繰り返し処理により実現される。
MAP推定を行うために、本技術では、音源mのスペクトル形状モデル(すなわち、スペクトル形状特徴量の事前確率密度関数)p(cn (m))、および、スペクトル観測モデル(すなわち、スペクトル形状特徴量が与えられたもとのでスペクトル特徴量の条件付き確率密度関数)p(sn (m)|cn (m))が事前に与えられているものとする(もしくは、後述するように目的音スペクトルを推定する対象となる観測信号から推定できるものとする)。
スペクトル形状モデルp(cn (m))に関して、特段の前提を置いていないので、cn (m)の確率密度関数を表すものであれば、どんなものでもモデルとして利用することができる。代表的なものとして、cn (m)に関する正規分布、ガウス混合モデル、隠れマルコフモデルなどがあげられる。
スペクトル観測モデルp(sn (m)|cn (m))は、前述の特徴量変換H(s)の逆過程として定義される。しかし、一般には、cn=H(sn)は多対1の変換となるため、その逆変換はユニークには定められない。したがって、その定め方には任意性がある。ここでは、一例をあげる。いま、s=G(c)を、c=H(s)を満たすsの集合の中の代表点に変換する関数とし、H(s)の疑似逆変換と呼ぶ。さらに、e=s-G(H(s))を逆変換誤差と呼ぶ。そして、eを期待値0、共分散行列Ξの正規分布に従うと仮定すると、スペクトル観測モデルは、以下のように定義できる。ここで、Nd(x;μ,Σ)は、平均μ、共分散行列Σの正規分布の確率密度関数を表す。
p(sn (m)|cn (m))=Nd(sn (m);G(sn (m)),Ξ) (9)
さらに、このスペクトル観測モデルp(sn (m)|cn (m))は、式(4)に基づき、各周波数で定義される条件付き確率密度関数の積に分解できることが仮定される。これは、上記のモデルの場合、共分散行列は対角行列Ξ=diag{ξk}で規定されることを意味する。s=G(c)となるs=[s1,s2,・・・,sN(k)]のk番目の要素を与える関数をsk=Gk(c)と表すとすると、式(9)は、以下のように分解可能である。
Figure 2013167698
なお、上記では、eの期待値がE{e}=0となることを仮定した(ここで、E{・}は確率変数の期待値をとる関数である)。他方、この値が0でない場合も、G'(c)=G(c)-E{e}としたG'(c)を疑似逆変換とすることで、逆変換誤差の期待値を0としたモデル化が可能である。さらに、上記では、スペクトル観測モデル(すなわち、逆変換誤差)が正規分布に従うと仮定したが、正規分布に限らず一般の分布を用いても同様の定義が可能である。
次に、本発明で導入した式(3)の仮定を確率的に扱うために、従来例と同様に、以下の関係式を導入する。
Figure 2013167698
ここで、dn=[dn,1,・・・,dn,N(k)]は、各時間周波数において、最もエネルギーの大きな音源の番号を示す占有的音源番号を表す。例えば、dn,k=1は、時間周波数点(n,k)において、m=1番の音源(すなわち、目的音)が最も占有的な音源であることを示す。δ(・)は、ディラックのデルタ関数である。式(11)は、観測信号のスペクトル特徴量xn,kと占有的音源番号で示された音源のスペクトル特徴量sn,k (m)[m=dn,k]は一致することを意味し、式(12)は、占有的音源番号が最もスペクトル特徴量の値が大きい音源の番号に一致することを意味している。これは、式(3)と等価であることは明らかである。すると、xn,k,dn,kおよびCnの間の関係は、式(4),式(11)および式(12)に基づき以下のように導出できる。
Figure 2013167698
式(13)は、全音源のスペクトル形状特徴量が与えられたもとでの、各周波数における、観測信号のスペクトル特徴量と占有的音源番号の条件付き同時確率密度関数であって、以下の二種類の確率関数の積によって定められる関数を表している。
1.占有的音源番号に一致する音源のスペクトル観測モデルにおいて、当該音源のスペクトル特徴量が観測信号のスペクトル特徴量と同一の値をとると規定された場合の確率関数(右辺の第一要素)
2.占有的音源番号に一致する音源以外の音源のスペクトル観測モデルにおいて、当該音源のスペクトル特徴量が観測信号のスペクトル特徴量の値以下の値をとると規定された場合の確率関数(右辺の第二要素中の各積分項)
最終的に、式(13)を用いて、式(8)中のMAP関数p(xn,Cn)は、以下のように定義される。
Figure 2013167698
ここで、dn,kは隠れ変数として扱われている。式(14)の右辺第一項は、スペクトル観測モデルとLogMaxモデルに対応し、式(14)の右辺第二項は、各音源のスペクトル形状モデルに対応する。本技術では、式(14)を最大にするスペクトル形状特徴量を全音源に関して求めることで、スペクトル形状モデル、スペクトル観測モデル、LogMaxモデルのすべてを考慮した推定を実現する。
より詳しくは、式(14)は、観測信号のスペクトル特徴量xnと全音源のスペクトル形状特徴量Cnの同時確率密度関数であり、右辺のように二つの要素の積からなる。式(14)の右辺の一つ目の要素は、全音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数(すなわち、p(xn|Cn))である。以下、これを、観測信号スペクトル観測モデルと呼ぶ。式(14)の右辺の二つ目の要素は、音源ごとに定められるスペクトル形状特徴量の事前確率密度関数であるスペクトル形状モデルの積(すなわち、Πl p(cn (l)))である。
観測信号スペクトル観測モデルは、式(14)の右辺にあるように以下の特徴を持つ。
1.観測信号スペクトル観測モデルは、各周波数に対応する条件付き確率密度関数の積に分解可能(すなわち、p(xn|Cn)=Πk p(xn,k|Cn))。
2.各周波数に対応する条件付き確率密度関数は、当該周波数において、どの音源が最も占有的な音源であるかを示す占有的音源番号を潜在変数として持つ。(すなわち、p(xn,k|Cn)=Σd p(xn,k,dn,k|Cn))
3.各周波数に対応する条件付き確率密度関数は、音源ごとに定められるスペクトル観測モデルとLogMaxモデルに基づき、式(13)のように定められる。
本技術は、式(14)を最大化する各音源のスペクトル形状特徴量を推定するとともに、各音源が占有的音源番号に一致する事後確率関数である各音源の音源占有度を推定する。さらに、目的信号について推定されたスペクトル形状特徴量および音源占有度と、目的信号のスペクトル観測モデルに基づき、目的信号のスペクトルを推定する。
[最適化のアルゴリズム]
式(14)を最大化するアルゴリズムとしては、共役勾配法、準ニュートン法などの一般の非線形最適化アルゴリズムを適用することができる。これらの方法は、各非線形最適化アルゴリズムに基づき、一般的な方法で導出できるので、ここでは説明を省略する。
他方、式(14)は隠れ変数を含む関数であるので、期待値最大化(EM)アルゴリズムを用いて効率的に最大化することもできる。以下では、この最適化アルゴリズムについて詳しく述べる。EMアルゴリズムで用いられる補助関数は、以下のように定義される。
Figure 2013167698
いま、音源mの音源占有度の推定値をM^n,k (m)=E{p(dn,k=m|xn,k,Cn)|C^n}と表記すると、式(17)はさらに以下のように展開できる。
Figure 2013167698
EMアルゴリズムに従うと、E-stepにおいて式(18)を計算し、M-stepにおいて式(19)を最大化するCnを求め、E-stepとM-stepを繰り返すことによって、前記の最適化関数を最大化するスペクトル形状特徴量Cnを求めることができる。
ここで注意すべきは、E-stepにおいて、式(18)は、各周波数で独立に計算できることである。このため、音源占有度の更新において、周波数間の値の組合せを考慮する必要がない。さらに、M-stepにおいて、式(19)は、式(20)のように、音源ごとの最適化関数に分解して最大化することができる。したがって、式(20)に従い、音源ごとに独立にスペクトル形状特徴量を更新することができる。このため、音源間の値の組合せを考慮する必要がない。その結果、EMアルゴリズムの繰り返し推定に基づき、音源mの音源占有度とスペクトル形状特徴量を、効率的に更新することができる。
[目的信号のスペクトル特徴量の推定]
目的音スペクトル推定部106は、観測信号のスペクトル特徴量xn,kと、目的信号の音源占有度の推定値M^n,k (1)と、スペクトル形状特徴量の推定値c^n (1)と、スペクトル観測モデルp(sn (1)|cn (1))と、を入力として、目的信号のスペクトルの推定値s^n,k (1)を最小自乗誤差推定により求める。推定の方法は次式によって行う。
Figure 2013167698
[実施形態1]
上記の説明に基づき、本技術では、以下の手順で目的音スペクトルの推定が行える。
ステップ1.各短時間フレームnに対して、特徴抽出部104が、観測信号のスペクトル特徴量xnを抽出する。
ステップ2.各音源mに対応するスペクトル形状推定部103−mが、スペクトル形状特徴量の推定値c^n (1)を初期化する。例えば、観測信号のスペクトル特徴量xnと特徴量変換関数H(・)を用いて、c^n (1)=H(xn)とする。
ステップ3.(a)(b)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(18)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(20)を最大化するcn (m)を求めることで、スペクトル形状特徴量の推定値c^n (m)を更新する(M-step)。このとき、式(20)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される。
ステップ4.目的音スペクトル推定部106は、式(21)により、目的信号のスペクトル特徴量の推定値s^n,k (1)を求める。
なお、一例として、上記3.(b)において、ニュートン法に従ってスペクトル形状特徴量を更新する場合の更新式は、以下のようになる。
Figure 2013167698
[実施形態2]
実施形態1より、さらに具体的な実施形態について説明する。まず、観測信号のスペクトル徴量としてメルフィルタバンクの出力を用い、スペクトル形状特徴量としてMFCCを用い、スペクトル形状モデルとしてMFCCの混合ガウス分布を用いるとする。
各音源mのスペクトル形状特徴量cn (m)は、混合ガウス分布を用いて、以下のようにモデル化されているものとする。ここで、p(cn (m)|i)とαiは、それぞれ、混合番号iに対するガウス分布とその混合比を表す。各ガウス分布の平均μi (m)と共分散行列Σi (m)は、事前に、音響信号のデータベースなどを用いて求められているものとする。このモデルにおいて、混合番号iは隠れ変数として扱われる。
Figure 2013167698
実施形態2において、実施形態1との最も大きな違いは、EMアルゴリズムの隠れ変数として新たに各音源mのスペクトル形状モデルにおける混合ガウス分布の混合番号iを含んでいることである。これにともない、EMアルゴリズムで用いる補助関数は、以下のように修正される。
Figure 2013167698
さらに、Z^n,i (m)=E{p(i|cn (m))|c^n (m)}と表記すると、式(20)は以下のように修正される。
Figure 2013167698
この結果、以下の手順で目的音スペクトルの推定が行えることになる。
ステップ1.各短時間フレームnに対して、特徴抽出部104が、観測信号に関するメルフィルタバンク出力xnを抽出する。
ステップ2.各音源mに対応するスペクトル形状推定部103−mが、MFCCの推定値c^n (m)を初期化する。例えば、H(xn)を離散コサイン変換とし、c^n (m)=H(xn)とする。
ステップ3.(a)(b)(c)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(18)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step1)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(28)に基づき、Z^n,i (m)を更新する(E-step2)。
(c)各音源mについて、スペクトル形状推定部103−mが、式(27)を最大化するMFCC cn (m)を求めることで、MFCCの推定値c^n (m)を更新する。このとき、式(27)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される(M-step)。
ステップ4.目的音スペクトル推定部106は、式(21)により、目的信号のフィルタバンク出力(=スペクトル特徴量)の推定値s^n,k (m)を求める。
次に、実施形態2において、さらに、各音源mに対するスペクトル観測モデルp(sn,k (m)|cn (m))について、より具体的なモデルを用いた場合について説明する。
この実施形態2では、疑似逆行列G(c)を、以下によって定義される線形回帰モデルでモデル化するものとする。ただし、Aは行列(N(k)×N(m))、bはベクトル(N(k)×1)を表す。
G(c)=Ac+b (29)
Aとbの値は、事前に音響信号のデータベースにより学習されるか、観測信号を用いて学習されるものとする。すなわち、いま学習用のデータベース(もしくは、観測信号)から、複数のスペクトル特徴量xnと対応するスペクトル形状特徴量cn=H(xn)の組合せが与えられているときに、Aとbは、以下のように定められるものとする。
Figure 2013167698
また、逆変換誤差eの分散ξkの値は、式(30)で得られたAとbを用いて得られる平均自乗回帰誤差E{|xn-(Acn+b)|2}の、各周波数kに対応する値として定められるものとする。上記の定義に基づき、スペクトル観測モデルp(sn,k (m)|cn (m))を、式(10)により定めることができる。なお、Aとbの推定に用いることができるデータに基づき、各音源ごとに個別のスペクトル観測モデルを用意してもよいし、すべての音源で共通のスペクトル観測モデルを用意してもよい。
この場合のアルゴリズムは、実施形態2のアルゴリズムと比べて、疑似逆変換G(c)の定義が変わるのみである。
G(c)の定義に関する、もうひとつの別の例として、Aを離散コサイン変換行列に対するムーアペンローズ疑似逆変換行列、b=0と定めることも考えられる。これは、離散コサイン変換の逆変換のうち、変換後の特徴量のノルムが最小になるものを選択したことになる。このように、本技術では、様々な基準に基づく逆変換を、疑似逆変換G(c)として採用することができる。
[実施形態2の変形例]
実施形態2において、観測信号や各音源のスペクトル特徴量として対数パワースペクトルを用いる場合について説明する。これは、上記のアルゴリズムにおいて、メルフィルタバンク出力に関する処理を対数パワースペクトルに関する処理に、単純に置き換えるだけで実現できる。上記のアルゴリズムに基づき、変更点をまとめると以下の通りである。
=1=
ステップ1.において、特徴抽出部104は、メルフィルタバンク出力のかわりに対数パワースペクトルを観測信号のスペクトル特徴量xnとして抽出する。
=2=
ステップ2.の初期化においては、特徴量変換関数として、一例として挙げた、対数パワースペクトルからMFCCに変換する関数H(xn)=log(mfb(exp(xn)))を用いる。
=3=
ステップ3.(a), 3.(c)において用いる、各音源mに対するスペクトル観測モデルは、MFCCから対数パワースペクトルを求める逆変換G(c)に基づき定められるとする。
=4=
ステップ4.においては、目的信号のスペクトル推定値として、対数パワースペクトルを推定する。このため、観測信号のスペクトル特徴量xnとして、観測信号の対数パワースペクトを用い、ステップ3.(a), ステップ3.(c)と同様に、スペクトル観測モデルは、MFCCから対数パワースペクトルを求める逆変換G(c)に基づき定められるものを用いる。
上記のアルゴリズムでは、最終的に得られるものが目的信号の対数パワースペクトルの推定値s^n,k (m)である。したがって、ここから目的信号のパワースペクトルの推定値も、exp(s^n,k (m))として求めることができる。さらに観測信号の位相情報を用いて、離散逆フーリエ変換とオーバラップ加算合成技術などにより、目的信号の波形の推定値をも得ることができる。
[実施形態3]
実施形態2において、スペクトル形状モデルとしてMFCCに関する混合ガウス分布を用いる代わりに、MFCCに関する隠れマルコフモデルを用いる場合を構成する。本実施形態では、簡単のためすべての観測信号が与えられてからすべての推定処理を行うバッチ処理を前提として説明する。ただし、隠れマルコフモデルを逐次処理で動作させることは周知の技術を用いれば可能であり、それらの技術を用いて本実施形態を逐次的に動作させることも可能である。
まず、{cn (m)}をすべての短時間フレームnに関するcn (m)の集合を表すとする。各音源mのスペクトル形状モデルp({cn (m)})は、隠れマルコフモデルを用いると、以下のようにモデル化できる。ただし、i0は初期状態、in for n>0は、短時間フレームnにおける状態、πi0は初期状態がi0となる確率、πi,jは、状態iから状態jへの遷移確率、p(cn (m)|i)は状態iにおけるスペクトル形状特徴量の出力確率密度関数、ΣIは、すべての状態系列の組合せに関する総和を表す。
Figure 2013167698
隠れマルコフモデルでは、観測特徴量の系列が与えられたもとで、各短時間フレームにおいて各状態iをとる事後確率関数Zn,i=p(in=i|{cn (m)})は、forward-backwardアルゴリズムやViterbiアルゴリズムなどを用いて効率的に求められることが知られている。
スペクトル形状モデルに隠れマルコフモデルを用いた場合、EMアルゴリズムで用いる補助関数は、以下のように修正される。
Figure 2013167698
さらに、Z^n,i (m)=E{p(in|{cn (m)})|{c^n (m)}}と表記すると、式(19)、式(20)は以下のように修正される。
Figure 2013167698
したがって、実施形態2の補助関数との主な違いは、式(35)のZ^n,i (m)の計算方法のみとなる。Z^n,i (m)は、M-stepにおいて更新されたスペクトル形状特徴量の推定値{c^n (m)}を出力値として持つ隠れマルコフモデルが短時間フレームnで状態iをとる事後確率p(in|{c^n (m)})と同一であるので、前記のように、forward-backwardアルゴリズムやViterbiアルゴリズムなどを用いて効率的に求めることができる。
最終的に、実施形態2とのアルゴリズムの違いは、ステップ3.(b)の処理が以下のように修正されるのみである。
ステップ3.(b)各音源mごとに、スペクトル形状推定部103−mが、forward-backwardアルゴリズムなどを用いて、Z^n,i (m)=p(in|{c^n (m)})を求める。
[実施形態4]
これまでの実施形態では、すべての音源に関して、スペクトル形状モデルが事前に与えられていると仮定しているが、実際の環境では、必ずしもそのような状況は期待できない。例えば、目的信号のスペクトル形状モデルは事前に学習しておくことは可能だが、背景雑音のスペクトル形状モデルは事前に学習しておくことができない場合などがある。この場合、観測信号から得られる情報のみで、事前学習されていない音源のスペクトル形状モデルを学習する必要がある。そのような状況に対応するための方法として、実施形態4を説明する。
実施形態4では、実施形態2や実施形態3で、スペクトル形状特徴量cn (m)のみをEMアルゴリズムにより求めるべきパラメータとして推定していたのに対し、スペクトル形状モデルである混合ガウス分布のパラメータ(混合比、各ガウス分布の平均と共分散)や隠れマルコフモデルのパラメータ(初期状態確率、状態遷移確率、出力確率分布の平均と共分散)なども求めるべきパラメータに含めて推定する。まず、スペクトル形状特徴量を求める問題を、以下の最適化関数を最大化する問題として定義する。ここで、θは、求めるべき全パラメータを含んだ集合であり、スペクトル形状特徴量Cn以外に、スペクトル形状モデルの未知パラメータも含まれているとする。
Figure 2013167698
ここでは、スペクトル形状モデルのパラメータが、一つ以上の音源に関して、事前に与えられていない場合のアルゴリズムについて説明する。簡単のため、実施形態2や実施形態3のアルゴリズムとの違いについてのみ説明する。実施形態2に対する実施形態3の修正の場合と同様に、この場合も、アルゴリズムの修正は、ステップ3.(b)についてのみになる。具体的には、実施形態4では、スペクトル形状モデルが事前に与えられていない音源mについて、ステップ3.(b)の処理が以下の二つの処理で構成される。
ステップ3.(b)-1:初期化処理、もしくはM-stepにおいて更新されたc^n (m)を用いて、まず、スペクトル形状モデルのパラメータを推定する。すなわち、スペクトル形状特徴量としてc^n (m)が生成される尤度が最大になるように、スペクトル形状モデルのパラメータを推定する。パラメータの推定には、スペクトル形状モデルが採用している確率分布に適したアルゴリズムを用いればよい。例えば、混合ガウス分布や隠れマルコフモデルの場合は、EMアルゴリズムを用いて効率的に、パラメータ推定が行えることが知られている。
ステップ3.(b)-2:スペクトル形状モデルのパラメータ推定後に、実施形態2や実施形態3と同様の手続きにより、Z^n,k (m)を求める。
以上の処理により、スペクトル形状モデルが事前に与えられていない場合でも、ステップ3.(b)の処理を遂行できることになる。また、上記以外の目的信号スペクトル推定の処理においても、上記で求めたスペクトル形状モデルを利用することができるので、特に、アルゴリズムの変更は生じない。
なお、上記のスペクトル形状モデルのパラメータ推定は、スペクトル形状特徴量の推定値c^n (m)が与えられたもとで、この推定値をスペクトル形状モデルが出力する尤度が大きくなるように実施される。したがって、実施形態4の構成に利用できるスペクトル形状モデルは上記で挙げたものに限定されず、与えられた出力系列に基づきパラメータ推定が可能な任意のスペクトル形状モデルが含まれる。
[実施形態5]
本技術は、非特許文献1−3に示された従来例と同じく、音源占有度をEMアルゴリズムのE-stepで更新しながら繰り返し推定する構成をとる。したがって、観測信号が複数のマイクロホンから同時に収録されている場合には、従来例と同じ方法に基づき、観測信号から各音源の位置情報に基づく特徴量を抽出しつつ、E-stepで、音源位置の情報を考慮して音源占有度の更新を行うような構成が可能である。本実施形態では、この構成について説明する。
以下、図3を参照して、本実施形態の説明を行う。図中では、複数のマイクロホン信号を区別するために、x(1)(t)のように右肩にマイクロホン番号を記入している。簡単のため、マイクロホン数が2の場合を例示しているが、従来例のようにマイクロホンの数は2以上であればいくつでもよい。特徴抽出部104は、これまでの実施形態と同様に、どれか一つの観測信号から観測信号のスペクトル特徴量xnを抽出する。ただし、複数のマイクロホンを用いて、何らかの処理(例えば、他の音声強調技術を用いて目的音を強調するなど)を加えた結果得られるスペクトル特徴量を抽出するような構成も可能である。各音源に対するスペクトル形状モデル、スペクトル観測モデル、スペクトル形状推定部、および目的音スペクトル推定部は、これまでに実施形態として説明したもののいずれかと同じ、もしくは、同様の方法で構成されるものを用いるとする。本実施形態では、これらの機能部についての説明は、特に必要な場合を除き省略する。
他方、本実施形態では、新たな機能部として、スペクトル形状特徴量推定装置100p(つまり目的信号スペクトル特徴量推定装置100)は、音源位置特徴抽出部111と、各音源mに関連付けられた音源位置状態推定部112−mを具備している。図中では、音源位置状態推定部112−mの数が2の場合を例示しているが、実際には、音源数に応じて音源位置状態推定部112−mを用意することを前提としている。これまでの実施形態と同様、m=1が目的音に対応する音源位置状態推定部112−mである。
音源位置特徴抽出部111は、複数のマイクロホンによる観測信号x(m)(t)から音源位置特徴量an=[an,1,an,2,・・・,an,N(k)]Tを抽出する。ここで、an,kは、時間周波数点(n,k)における、音源位置特徴量である。非特許文献1−3などと同様に、音源位置特徴量としては、音源位置に依存して異なる値を取る傾向を持つものを採用すればよく、例えば、マイクロホン間位相差、マイクロホン間時間差、マイクロホン間強度差など様々な選択肢がある。本明細書では、一例として、以下の正規化複素スペクトルを音源位置特徴量として採用する場合について説明する。ただし、Xn,k=[Xn,k (1),Xn,k (2),・・・,Xn,k (N(m))]Tとし、Xn,k (m)を短時間フレームnに対応するx(m)(t)の短時間フーリエ変換のk番目の周波数要素である。また、|・|はベクトルのノルムを表す。
an,k=Xn,k/|Xn,k| (37)
次に、各音源位置状態推定部112−mは、音源位置特徴量an,kと音源位置パラメータの推定値φ^(m)とに基づき、以下の値を求める。p(an,k(m))は、周波数kにおける、音源mの音源位置特徴量に関する確率密度関数を表し、以下では、w^n,k (m)を音源mの音源位置状態の推定値と呼ぶ。
w^n,k (m)=p(an,k(m)) (38)
音源位置特徴量に関する確率密度関数としては、音源位置特徴量に依存して、様々なものが知られている。例えば、上記で示した正規化複素スペクトルを音源位置特徴量とする場合の確率密度関数は、参考文献1などに記載されている。
(参考文献1)Hiroshi Sawada, Shoko Araki, and Shoji Makino, ”Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech, and Language Processing, vol. 19, No.3, pp.516-527, 2011.
音源位置パラメータの推定値φ^(m)は、観測信号と同じ収録条件のもと複数のマイクロホンで収音した音響信号を学習データとして、事前に学習するか、もしくは、観測信号から直接学習することができる。これらの学習方法は、音源位置特徴量に依存して、様々なものが知られている。例えば、上記で示した正規化複素スペクトルを音源位置特徴量とする場合の学習方法は、参考文献1に詳しい。また、本技術の目的信号スペクトル推定において、音源占有度の推定値とスペクトル形状特徴量の推定値を繰り返し更新するのと並行して、各繰り返しにおいて、各音源位置状態推定部112−mが音源占有度更新部105から音源占有度の推定値を受け取り、音源位置パラメータの推定値を更新することも可能である。目的信号スペクトル推定において、音源位置パラメータの推定値を繰り返し更新する方法については、非特許文献2に記載されている。
さらに、音源占有度更新部105は、観測信号のスペクトル特徴量xnを受け取り、各音源mのそれぞれに関するスペクトル形状特徴量の推定値c^n (m)とスペクトル観測モデルp(sn (m)|cn (m))を受け取るのに加えて、各音源mの音源位置状態の推定値w^n,k (m)を受け取り、各音源の音源占有度の推定値M^n,k (m)を更新する。この更新は、非特許文献2と同様、以下のように実現できる。
Figure 2013167698
実施形態2でスペクトル特徴量として対数パワースペクトルを用いる場合の変形として、本実施形態のアルゴリズムをまとめると以下のようになる。
ステップ1.(a)(b)の処理によって特徴抽出する。
(a)各短時間フレームnに対して、特徴抽出部104が、観測信号に関する対数パワースペクトルxnを抽出する。
(b)音源位置特徴抽出部111が観測信号に関する音源位置特徴量を式(37)により抽出する。
ステップ2.(a)(b)の処理によって初期化を行う。
(a)各音源mに対応するスペクトル形状推定部103−mが、MFCCの推定値c^n (m)を初期化する。例えば、H(xn)=log(mfb(exp(xn)))とし、c^n (m)=H(xn)とする。
(b)各音源mごとに、音源位置状態推定部112−mが、式(38)により、音源位置状態の推定値w^n,k (m)を求める。
ステップ3.(a)-(c)を収束するまで繰り返す。
(a)音源占有度更新部105は、各周波数ごとに独立に、式(39)を計算することで、各音源mの音源占有度の推定値M^n,k (m)を更新する(E-step1)。
(b)各音源mについて、スペクトル形状推定部103−mが、式(28)に基づき、Z^n,i (m)を更新する(E-step2)。
(c)各音源mについて、スペクトル形状推定部103−mが、式(27)を最大化するMFCC cn (m)を求めることで、MFCCの推定値c^n (m)を更新する。このとき、式(27)は、一般には、非線形関数となるため、その最大化は、共役勾配法、準ニュートン法、ニュートン法などの一般的な非線形最適化法により実現される(M-step)。
ステップ4.目的音スペクトル推定部106は、式(21)により、対数パワースペクトル(=スペクトル特徴量)の推定値s^n,k (m)を求める。
[確認実験]
目的信号スペクトル推定技術を評価する目的で確認実験を行った。実験条件を説明する。残響のある部屋で、二本のマイクロホンを用いて、マイクロホンの正面にいる話者の音声が様々な周囲の背景音と同時に収録された音を、観測信号として用いた。この観測信号を用いて、非特許文献3(従来例)および実施形態5(本技術)に示された目的信号スペクトル推定法の比較実験を行った。従来例と本技術はともに、対数パワースペクトルを観測信号のスペクトル特徴量とし、本技術では、MFCCをスペクトル形状特徴量とし、スペクトル形状モデルとしてガウス混合モデルを採用した。また、従来例と本技術はともに、非特許文献3と同じ音源位置特徴量のモデルを用いて、そのパラメータを事前学習により用意した。
観測信号および目的信号のスペクトルを推定した信号に対して、自動音声認識を適用した結果を示す。観測信号をそのまま音声認識した場合の単語正解率は、69.4%であったのに対し、従来例と本技術で推定した目的信号のスペクトルに対し音声認識を適用した場合の単語正解率は、それぞれ、83.7%と87.2%であった。従来例でも、大幅な音声認識率の改善が得られているが、本技術により、さらに大幅な改善が得られた。
以上の結果より、本技術は、MFCCに関する混合ガウス分布をスペクトル形状モデルとして用いることで、従来例に比べて、大幅に目的信号のスペクトル推定精度を改善できることが確認された。
<スペクトル形状特徴量推定装置/目的信号スペクトル特徴量推定装置のハードウェア構成例>
上述の実施形態に関わるスペクトル形状特徴量推定装置/目的信号スペクトル特徴量推定装置(以下、単に推定装置という)は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
推定装置の外部記憶装置には、スペクトル形状特徴量などを推定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
推定装置の記憶部には、観測信号からスペクトル特徴量を抽出するためのプログラム、最適化関数に基づいて最も尤もらしいスペクトル形状特徴量を推定するためのプログラム(具体的には、スペクトル形状特徴量を更新するためのプログラムと、音源占有度を更新するためのプログラム)、目的信号のスペクトル特徴量を推定するためのプログラム、必要に応じて更に、音源位置特徴量を推定するためのプログラム、音源位置状態を推定するためのプログラムが記憶されている。
推定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(特徴抽出部、スペクトル形状推定部、音源占有度更新部、目的音スペクトル推定部、音源位置特徴抽出部、音源位置状態推定部)を実現することでスペクトル推定が実現される。なお、目的音スペクトル推定部は、スペクトル形状特徴量推定装置の必須の構成要素ではない。
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明したハードウェアエンティティ(推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (11)

  1. 複数の音源それぞれからの音響信号が混ざって収音された観測信号から、各音響信号のスペクトル特徴量に対応するスペクトル形状特徴量を推定するスペクトル形状特徴量推定装置であって、
    上記各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられたもとでのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とを記憶している記憶部と、
    各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持つ最適化関数を、上記スペクトル形状モデルと上記スペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量、および、全ての上記音源のスペクトル形状特徴量が与えられたもとで上記各音源が上記占有的音源番号で表される音源である事後確率(音源占有度)、を推定する推定手段とを含み、
    上記最適化関数は、全ての上記音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、上記音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される
    スペクトル形状特徴量推定装置。
  2. 請求項1に記載のスペクトル形状特徴量推定装置であって、
    上記推定手段は、
    音源ごとのスペクトル形状特徴量に基づいて、上記音源占有度を更新する音源占有度更新部と、
    上記音源占有度に基づいて、上記音源ごとのスペクトル形状特徴量を更新するスペクトル形状推定部とを含む
    ことを特徴とするスペクトル形状特徴量推定装置。
  3. 請求項2に記載のスペクトル形状特徴量推定装置であって、
    上記スペクトル形状特徴量はメル周波数ケプストラム係数であり、
    上記スペクトル形状モデルはメル周波数ケプストラム係数の混合ガウス分布である
    ことを特徴とするスペクトル形状特徴量推定装置。
  4. 請求項2または請求項3に記載のスペクトル形状特徴量推定装置であって、
    複数のマイクロホンによって得られた上記観測信号から上記各音源の位置に関する特徴量である音源位置特徴量を抽出する音源位置特徴抽出部と、
    上記音源ごとに、上記音源位置特徴量に関する確率密度関数で表される音源位置状態の推定値を求める音源位置状態推定部とを含み、
    上記音源占有度更新部は、上記各音源の上記音源位置状態の推定値をも用いて上記音源占有度を更新する
    ことを特徴とするスペクトル形状特徴量推定装置。
  5. 請求項1から請求項4のいずれかに記載のスペクトル形状特徴量推定装置によって推定された、音源ごとのスペクトル形状特徴量および音源占有度のうち、目的信号の音源に対応するスペクトル形状特徴量と、目的信号の音源の音源占有度と、目的信号の音源に対応するスペクトル観測モデルと、観測信号のスペクトル特徴量とから、目的信号のスペクトル特徴量を推定する目的音スペクトル推定部を含む
    目的信号スペクトル特徴量推定装置。
  6. 複数の音源それぞれからの音響信号が混ざって収音された観測信号から、各音響信号のスペクトル特徴量に対応するスペクトル形状特徴量を推定するスペクトル形状特徴量推定方法であって、
    記憶部には、上記各音源に対応する、スペクトル形状特徴量の事前確率密度関数(スペクトル形状モデル)と、スペクトル形状特徴量が与えられたもとでのスペクトル特徴量の条件付き確率密度関数(スペクトル観測モデル)とが記憶されており、
    各時間周波数点において最大のエネルギーを持つ音響信号の音源を表す占有的音源番号を潜在変数に持つ最適化関数を、上記スペクトル形状モデルと上記スペクトル観測モデルを用いて最大化し、音源ごとのスペクトル形状特徴量、および、全ての上記音源のスペクトル形状特徴量が与えられたもとで上記各音源が上記占有的音源番号で表される音源である事後確率(音源占有度)、を推定する推定ステップを含み、
    上記最適化関数は、全ての上記音源のスペクトル形状特徴量が与えられたもとでの観測信号のスペクトル特徴量の条件付き確率密度関数と、上記音源ごとに定められるスペクトル形状特徴量の事前確率密度関数の積とで表される
    スペクトル形状特徴量推定方法。
  7. 請求項6に記載のスペクトル形状特徴量推定方法であって、
    上記推定ステップは、
    音源ごとのスペクトル形状特徴量に基づいて、上記音源占有度を更新する音源占有度更新ステップと、
    上記音源占有度に基づいて、上記音源ごとのスペクトル形状特徴量を更新するスペクトル形状推定ステップとを含む
    ことを特徴とするスペクトル形状特徴量推定方法。
  8. 請求項7に記載のスペクトル形状特徴量推定方法であって、
    上記スペクトル形状特徴量はメル周波数ケプストラム係数であり、
    上記スペクトル形状モデルはメル周波数ケプストラム係数の混合ガウス分布である
    ことを特徴とするスペクトル形状特徴量推定方法。
  9. 請求項7または請求項8に記載のスペクトル形状特徴量推定方法であって、
    複数のマイクロホンによって得られた上記観測信号から上記各音源の位置に関する特徴量である音源位置特徴量を抽出する音源位置特徴抽出ステップと、
    上記音源ごとに、上記音源位置特徴量に関する確率密度関数で表される音源位置状態の推定値を求める音源位置状態推定ステップとを含み、
    上記音源占有度更新ステップは、上記各音源の上記音源位置状態の推定値をも用いて上記音源占有度を更新する
    ことを特徴とするスペクトル形状特徴量推定方法。
  10. 請求項6から請求項9のいずれかに記載のスペクトル形状特徴量推定方法によって推定された、音源ごとのスペクトル形状特徴量および音源占有度のうち、目的信号の音源に対応するスペクトル形状特徴量と、目的信号の音源の音源占有度と、目的信号の音源に対応するスペクトル観測モデルと、観測信号のスペクトル特徴量とから、目的信号のスペクトル特徴量を推定する目的音スペクトル推定ステップを含む
    目的信号スペクトル特徴量推定方法。
  11. コンピュータを、請求項1から請求項4のいずれかに記載のスペクトル形状特徴量推定装置として、あるいは、請求項5に記載の目的信号スペクトル特徴量推定装置として、機能させるためのプログラム。
JP2012029791A 2012-02-14 2012-02-14 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム Active JP5881454B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012029791A JP5881454B2 (ja) 2012-02-14 2012-02-14 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012029791A JP5881454B2 (ja) 2012-02-14 2012-02-14 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2013167698A true JP2013167698A (ja) 2013-08-29
JP5881454B2 JP5881454B2 (ja) 2016-03-09

Family

ID=49178158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012029791A Active JP5881454B2 (ja) 2012-02-14 2012-02-14 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP5881454B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
KR101621827B1 (ko) 2015-03-18 2016-05-17 동국대학교 산학협력단 음원 방향 추정 시스템 및 방법
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
WO2021033296A1 (ja) * 2019-08-21 2021-02-25 日本電信電話株式会社 推定装置、推定方法及び推定プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216659A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2009145895A (ja) * 2007-12-14 2009-07-02 Ind Technol Res Inst ケプストラムノイズ減算を用いた音声認識システム及び方法
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
JP2011215357A (ja) * 2010-03-31 2011-10-27 Sony Corp 信号処理装置、信号処理方法及びプログラム
JP2012042664A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP2012173592A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216659A (ja) * 2007-03-05 2008-09-18 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2009145895A (ja) * 2007-12-14 2009-07-02 Ind Technol Res Inst ケプストラムノイズ減算を用いた音声認識システム及び方法
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
JP2011215357A (ja) * 2010-03-31 2011-10-27 Sony Corp 信号処理装置、信号処理方法及びプログラム
JP2012042664A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP2012173592A (ja) * 2011-02-23 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201110018331; 中谷 智広,他: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 201009, pp.577-580, 日本音響学会 *
JPN6014051298; 中谷 智広,他: 'DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離' 日本音響学会2010年秋季研究発表会講演論文集CD-ROM , 201009, pp.577-580, 日本音響学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
US10347273B2 (en) 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
KR101621827B1 (ko) 2015-03-18 2016-05-17 동국대학교 산학협력단 음원 방향 추정 시스템 및 방법
WO2016148379A1 (ko) * 2015-03-18 2016-09-22 동국대학교 산학협력단 음원 방향 추정 시스템 및 방법
CN110602494A (zh) * 2019-08-01 2019-12-20 杭州皮克皮克科技有限公司 基于深度学习的图像编码、解码系统及编码、解码方法
WO2021033296A1 (ja) * 2019-08-21 2021-02-25 日本電信電話株式会社 推定装置、推定方法及び推定プログラム
JPWO2021033296A1 (ja) * 2019-08-21 2021-02-25
JP7243840B2 (ja) 2019-08-21 2023-03-22 日本電信電話株式会社 推定装置、推定方法及び推定プログラム

Also Published As

Publication number Publication date
JP5881454B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
CN101416237B (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
CN110914899A (zh) 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP6976804B2 (ja) 音源分離方法および音源分離装置
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Baby et al. Speech dereverberation using variational autoencoders
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160202

R150 Certificate of patent or registration of utility model

Ref document number: 5881454

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150