JP2017134321A

JP2017134321A - 信号処理方法、信号処理装置及び信号処理プログラム

Info

Publication number: JP2017134321A
Application number: JP2016015464A
Authority: JP
Inventors: 厚徳小川; Atsunori Ogawa; 慶介木下; Keisuke Kinoshita; マークデルクロア; Marc Delcroix; 拓也吉岡; Takuya Yoshioka; 智広中谷; Tomohiro Nakatani
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2017-08-03
Anticipated expiration: 2036-01-29
Also published as: JP6499095B2

Abstract

【課題】入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減する。【解決手段】信号処理装置１は、入力信号から生成された、例えばメル周波数ケプストラム係数を、雑音又は残響（音響歪み）の低減処理を施したボトルネック特徴量に変換する特徴量変換部１４と、混合分布モデルで表現された事例モデルのパラメータを基に、ボトルネック特徴量が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求めるマッチング部１５と、該求めたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング部１６と、を有する。【選択図】図１

Description

本発明は、信号処理方法、信号処理装置及び信号処理プログラムに関する。

従来、音声認識システム、補聴器、ＴＶ会議システム、機械制御インターフェース、楽曲の検索及び採譜のための音楽情報処理システム等において、マイクロホンを用いて音響信号を収音し、目的の音声信号の成分を抽出する技術が利用されている。

一般的に、雑音や残響のある実環境でマイクロホンを用いて音響信号を収音すると、収音目的の音声信号だけでなく、雑音や残響（音響歪み）が重畳された信号が観測される。しかしながら、これらの雑音や残響が信号に重畳されると、収音目的の音声信号の成分の抽出が困難となり、音声信号の明朗度や聞き取りやすさを大きく低下させてしまう要因となる。この結果、例えば、音声認識システムの認識率が低下してしまうという問題があった。

そこで、音声信号に重畳した雑音や残響を取り除く技術が提案されている（例えば、非特許文献１参照）。例えば、図１０を参照して、従来の音声信号の信号処理装置について説明する。図１０は、従来の信号処理装置の構成の一例を示すブロック図である。なお、図１０に示す信号処理装置１Ｐは、ガウス混合分布モデル（ＧＭＭ：Gaussian Mixture Model）によって表現された事例モデルを用いて、入力音声を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルを収音目的の音声信号候補としていく。

この従来の信号処理装置１Ｐには、事例モデル記憶部１１Ｐに、事前に学習された混合分布モデルによって表現された事例モデルが記憶されている。具体的には、事例モデル記憶部１１Ｐには、各事例に対応したクリーン音声の振幅スペクトルと、フレームごとの特徴量（例えば、メル周波数ケプストラム係数）に対して最大の尤度を与えるガウス混合分布のインデックスの系列（セグメント）を含む事例モデルとが記憶されている。

まず、フーリエ変換部１２Ｐが、音響歪みを含む入力信号を離散フーリエ変換して振幅スペクトルを取得し、特徴量生成部１３Ｐが、振幅スペクトルから、特徴量のセグメントを生成する。

続いて、マッチング部１５Ｐは、特徴量生成部１３Ｐが生成した特徴量のセグメントと事例モデル記憶部１１Ｐの事例モデルに含まれるセグメントとのマッチングを行い、事例モデルの中から、特徴量生成部１３Ｐが生成した特徴量のセグメントに対して最も高い類似度を示すセグメントを探索する。具体的には、マッチング部１５Ｐが、事例モデルのセグメントの中から、特徴量生成部１３Ｐが生成した特徴量のセグメントに対して最大の事後確率を与えるセグメントを探索する。

そして、音声強調フィルタリング部１６Ｐが、マッチング部１５Ｐが探索した事例モデルのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部１１Ｐから、このクリーン音声の振幅スペクトルを読み出して音声強調のためのフィルタを作成する。このフィルタで入力信号をフィルタリングすることによって、入力信号から音響歪みが除去された強調音声信号が得られる。

J. Ming and R. Srinivasan, and D. Crookes, "A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise," IEEE Transactions on Audio, Speech, and Language Processing, Vol.19, No.4, pp.822-836, 2011

このように、従来の信号処理装置１Ｐは、入力音声に最も類似するクリーン音声の振幅スペクトルを求めるために、特徴量生成部１３Ｐが生成した特徴量のセグメントを用いて、事例モデル記憶部１１Ｐの事例モデルの中から、最大の事後確率を与えるセグメントを探索する。

しかしながら、セグメント探索に用いるメル周波数ケプストラム係数は、振幅スペクトルから得られる単純な特徴量である。このため、入力信号に雑音や残響が含まれる場合には、メル周波数ケプストラム係数も雑音や残響の影響を含むものとなり、マッチング部１５Ｐによるセグメント探索は、必ずしも高精度であるとは言えなかった。

また、事例モデルは、種々の音響歪み環境を想定して準備するものの、現実的に、全ての音響歪み環境に対応する事例モデルを準備することは困難であるため、マッチング部１５Ｐは、特徴量生成部１３Ｐが生成した特徴量のセグメントと高い類似度を有するセグメントを事例モデルの中から探索できない場合があった。

したがって、従来の信号処理装置では、探索に用いる特徴量が雑音や残響の影響を受けるため、入力信号に類似するクリーン音声の特徴量を探索する精度にも限界があった。

本発明は、上記に鑑みてなされたものであって、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減した信号処理方法、信号処理装置及び信号処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る信号処理方法は、信号処理装置で実行される信号処理方法であって、前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、前記信号処理装置が、入力信号から第１の特徴量を生成する特徴量生成工程と、前記信号処理装置が、前記第１の特徴量を、雑音又は音響歪みの低減処理を施した第２の特徴量に変換する特徴量変換工程と、前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第２の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、を含んだことを特徴とする。

本発明によれば、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減することができる。

図１は、実施の形態１に係る信号処理装置の構成の一例を模式的に示す図である。図２は、セグメントの一例を説明するための図である。図３は、図１に示す特徴量変換部の処理を説明するための概念図である。図４は、図１に示す信号処理装置が実行する処理手順を示すフローチャートである。図５は、実施の形態１に係る事例モデル生成装置の機能構成例を示すブロック図である。図６は、図５に示す事例モデル生成装置による事例モデル生成処理の処理手順を示すフローチャートである。図７は、実施の形態２に係る信号処理装置の構成を示すブロック図である。図８は、図７に示す信号処理装置が実行する処理手順を示すフローチャートである。図９は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。図１０は、従来の信号処理装置の構成の一例を示すブロック図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態１］
まず、実施の形態１に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響（音響歪み）を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。

［信号処理装置の構成］
図１は、実施の形態１に係る信号処理装置の構成の一例を模式的に示す図である。実施の形態１に係る信号処理装置１は、例えば、例えばＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。

図１に示すように、信号処理装置１は、事例モデル記憶部１１、フーリエ変換部１２、特徴量生成部１３、特徴量変換部１４、マッチング部１５（照合部）及び音声強調フィルタリング部１６（出力部）を有する。信号処理装置１は、ＧＭＭによって表現された事例モデルＭを用いて、入力信号を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルＭを収音目的の音声信号候補として利用する。

事例モデル記憶部１１は、音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する。具体的には、事例モデル記憶部１１は、事例に対応したクリーン音声のデータと、事例モデルＭとが記憶される。クリーン音声のデータは、例えば、事例に対応したクリーン音声の振幅スペクトルのことである。また、事例モデルＭは、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列（セグメント）を、混合分布モデルのパラメータとして含む。

ここで、事例モデルＭは、事前に事例モデル生成装置２（後述）によって生成され、事例モデル記憶部１１に格納される。事例モデル生成装置２は、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ（雑音信号の波形や、室内インパルス応答等）とを用い、様々な環境での観測信号を学習用の音声信号として模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事例モデルＭを生成する。

具体的には、事例モデル生成装置２（後述）によって、学習用の音声信号の特徴量を基に、各時間フレームｉに対して最大の尤度を与えるガウス混合モデルｇの中のガウス分布のインデックスｍ_ｉが求められ、該求められたインデックスｍ_ｉの時間系列（セグメント）が、事例モデルＭの一つとなる。この事例モデルＭは、ガウス混合モデルｇの中のガウス分布のインデックスｍ_ｉの集合とガウス混合モデルｇとを用いて以下の（１）式に示すように表される。

なお、ｍ_ｉは、ｉ番目のフレームの特徴量ｋ_ｉに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布ｍの中のガウス分布ｇ（ｋ_ｉ｜ｍ）を表している。Ｉは学習用の音声信号の総フレーム数を表す。例えば、１時間の学習データを仮定すると、Ｉ＝３．５×１０^５となる。

そして、事例モデルＭに含まれるセグメントの例を説明する。図２は、セグメントの一例を説明するための図である。例えば、図２に示すセグメントの各セルは、Ｉフレームのうちｉ番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合モデルｇ中のガウス分布のインデックスｍ_ｉを表す。

フーリエ変換部１２は、入力信号をフレームごとに振幅スペクトルに変換する。この入力信号として、雑音及び残響を含む音声信号がフーリエ変換部１２に入力される。まず、フーリエ変換部１２は、入力信号の波形データを短い時間幅で切り出す。例えば、フーリエ変換部１２は、３０（ｍｓｅｃ）程度の短時間ハミング窓等の窓関数を掛け合わせて入力信号を短い時間幅で切り出す。続いて、フーリエ変換部１２は、切り出した入力信号に離散フーリエ変換処理を実行し、振幅スペクトルに変換する。なお、振幅スペクトルとは、周波数スペクトルの振幅データのことである。フーリエ変換部１２は、変換後の振幅スペクトルを、特徴量生成部１３及び音声強調フィルタリング部１６に入力する。

特徴量生成部１３は、フーリエ変換部１２から出力された振幅スペクトルから特徴量（第１の特徴量）ｘ_ｔを生成する。言い換えると、特徴量生成部１３は、フーリエ変換部１２から入力された振幅スペクトルから特徴量ｘ_ｔのセグメントを生成する。なお、ｔは、処理対象のフレームとする。特徴量生成部１３は、フーリエ変換部１２から出力された振幅スペクトルの全てを、例えば、メル周波数ケプストラム係数に変換する。これによって、入力信号は、フレームごとに、特徴量ベクトルのセグメントとして表される。

ここで、一般的に使用されているメル周波数ケプストラム係数は、１０〜２０次程度である。信号処理装置１では、事例モデルＭを正確に表すために、一般的に使用されている次数よりも高い次数（例えば、３０〜１００次程度）のメル周波数ケプストラム係数を用いる。このため、特徴量生成部１３は、フーリエ変換部１２から出力された振幅スペクトルの全てを、例えば、３０〜１００次程度のメル周波数ケプストラム係数に変換する。なお、特徴量生成部１３は、メル周波数ケプストラム係数以外の特徴量（例えば、ケプストラム係数等）を用いてもよい。特徴量生成部１３は、生成した特徴量ｘ_ｔを、特徴量変換部１４に入力する。

特徴量変換部１４は、特徴量生成部１３が生成した特徴量ｘ_ｔを、雑音又は残響（音響歪み）の低減処理を施した特徴量（第２の特徴量）に変換する。すなわち、特徴量変換部１４は、特徴量生成部１３で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高い特徴量に変換する。

具体的には、特徴量変換部１４は、特徴量生成部１３が生成した特徴量ｘ_ｔを、ＤＮＮ（Deep Neural Network；ディープニューラルネットワーク）−ＨＭＭ（Hidden Markov Model；隠れマルコフモデル）音響モデルにおける非線形な特徴量変換を多段に適用して変換した、音響歪み耐性の高いボトルネック特徴量ｂ_ｔを生成する。この場合、特徴量変換部１４は、処理対象フレームの特徴量のセグメントのみでなく、その前後の所定数のフレームの特徴量のセグメントも用いて、ボトルネック特徴量ｂ_ｔを生成する。ボトルネック特徴量ｂ_ｔは、ニューラルネットワークの中間層のユニットを少なく抑えたボトルネック構造のネットワークから抽出される。ボトルネック構造の中間層で抽出している特徴量は、入力特徴量を次元圧縮された音響歪み耐性がある特徴量である。特徴量変換部１４は、生成したボトルネック特徴量ｂ_ｔを、マッチング部１５に入力する。

なお、「音響歪み耐性がある特徴量」とは、同じ入力音声に対して、例えば、異なる二つの音響歪みが付加されていると仮定した場合に、これら二つの異なる音響歪みが付加された入力音声に対して生成した二つの特徴量が「似通っている」ことをいう。言い換えれば、「音響歪み耐性がある特徴量」は、音響歪みの影響が軽減された特徴量である。

マッチング部１５は、事例モデルＭを用いて、入力された入力音声の特徴量との類似度を調べ、高い類似度を示した事例モデルＭに対応するクリーン音声を収音目的の音声信号候補としていく。具体的には、マッチング部１５は、事例モデル記憶部１１に記憶された混合分布モデルのパラメータを基に、入力された特徴量（特徴量変換部１４が変換したボトルネック特徴量ｂ_ｔ）が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声の特徴量として求める。

言い換えると、マッチング部１５は、特徴量変換部１４から入力された特徴量（ボトルネック特徴量ｂ_ｔ）のセグメントと事例モデル記憶部１１の事例モデルＭに含まれるセグメントとのマッチングを行い、事例モデル記憶部１１の事例モデルＭの中から、入力された特徴量のセグメントに対して最も高い事後確率をとるセグメントを探索する。マッチング部１５は、探索により見つかった事例モデルＭ中のセグメントについての情報を、音声強調フィルタリング部１６に入力する。なお、マッチング部１５の処理の詳細については、後述する。

音声強調フィルタリング部１６は、マッチング部１５によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声信号を出力する。具体的には、音声強調フィルタリング部１６は、マッチング部１５が探索した事例モデルＭのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部１１から、このクリーン音声の振幅スペクトルを読み出す。続いて、音声強調フィルタリング部１６は、読み出したクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを用いて入力信号をフィルタリングする。この結果、音声強調フィルタリング部１６から、入力信号から音響歪みが除去された強調音声信号が出力される。

［特徴量変換部の処理］
次に、特徴量変換部１４の処理について詳細に説明する。特徴量変換部１４は，特徴量生成部１３で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高いボトルネック特徴量ｂ_ｔに変換する。この特徴量変換部１４には、前述したように、ＤＮＮ−ＨＭＭ音響モデルが適用される。そこで、図３を参照して、特徴量変換部１４の処理を説明する。

図３は、ＤＮＮ−ＨＭＭ音響モデルを用いて構成した特徴量変換部１４の処理を説明するための概念図である。特徴量変換部１４は、特徴量生成部１３で生成された、例えばメル周波数ケプストラム係数等の特徴量ｘ_ｔを入力データとして受け取る。このとき、特徴量変換部１４は、処理対象のフレームｔの特徴量ｘ_ｔだけでなく、その前後数フレーム分の特徴量も受け取る。

例えば、特徴量変換部１４は、当該フレームｔの４０次元の特徴量ｘ_ｔ（行ベクトル）に加えて、前後５フレーム分の特徴量ｘ_ｔ−５，ｘ_ｔ−４，ｘ_ｔ−３，ｘ_ｔ−２，ｘ_ｔ−１，ｘ_ｔ＋１，ｘ_ｔ＋２，ｘ_ｔ＋３，ｘ_ｔ＋４，ｘ_ｔ＋５を受け取る。この場合、特徴量変換部１４は、合計１１フレーム分で４４０次元の特徴量［ｘ_ｔ−５＾Ｔ，・・・，ｘ_ｔ＾Ｔ，・・・，ｘ_ｔ＋５＾Ｔ］＾Ｔ(Ｔはベクトルの転置を表す)を受け取ることになる。

なお、処理対象のフレームｔの特徴量ｘ_ｔは、静的な特徴量だけでなく、例えば、その１次，２次回帰係数で構成される場合もある。この場合、特徴量変換部１４が受け取る特徴量の次元数も増える。例えば、ｘ_ｔが静的な４０次元の特徴量と、その１次，２次回帰係数とで構成されるとすると、次元数は合計で１２０次元となる。これの前後５フレーム分を考慮すると、特徴量変換部１４が受け取る特徴量の次元数は、１３２０次元となる。

続いて、４４０次元の特徴量を受け取った特徴量変換部１４は、これをＤＮＮ-ＨＭＭ音響モデルによる、例えば２０４８ノードの中間層を何層か(典型的には５〜１０層程度)通し、最終的に、例えば８０ノードのボトルネック層により８０次元程度に次元圧縮されたボトルネック特徴量ｂ_ｔを取得する。特徴量変換部１４は、このボトルネック特徴量ｂ_ｔをマッチング部１５に入力する。

特徴量変換部１４は、ＤＮＮ−ＨＭＭ音響モデルにおいて非線形な特徴量変換を多段に適用することにより，音響歪み耐性が高いボトルネック特徴量ｂ_ｔを得ることができる。そして、マッチング部１５は、特徴量変換部１４から入力されたボトルネック特徴量ｂ_ｔを用いてセグメントの探索を行うことで、精度の高いセグメント探索を行うことができる。そこで、このボトルネック特徴量ｂ_ｔを用いたマッチング部１５の処理について説明する。

［マッチング部の処理］
ここでは、説明の簡易化のため、あるひとつの雑音／残響環境の事例モデルＭのみを考える。また、説明の簡易化のため、入力信号の特徴量のセグメントｙ_ｔと学習データセグメントのマッチングの際の時間伸縮は考えないものとする。実施の形態１では、入力信号の特徴量のセグメントｙ_ｔとして、前段の特徴量変換部１４から、特徴量変換部１４が変換したボトルネック特徴量ｂ_ｔが入力される。

まず、マッチング部１５は、入力された特徴量のセグメントｙ_ｔと事例モデル記憶部１１に記憶された事例モデルＭのセグメントとのマッチングを行う。続いて、マッチング部１５は、事例モデルＭのセグメントの中から、入力信号の特徴量の系列ｙ_{ｔ：ｔ＋τ}に最も近いセグメントを探索し、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われるセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}を求めて、出力する。これは、（２）式のように定式化することができる。

ここで、入力される特徴量ｙ_ｔは、Ｌ個の時間フレームから成るとし、その入力信号の特徴量系列をｙ＝｛ｙ_ｔ:ｔ=１，２，・・・，Ｌ｝とする。また、ｙ_{ｔ：ｔ＋τ}を入力信号の特徴量の時間フレームｔからｔ＋τまでの系列とする。そして、Ｍ_{ｕ：ｕ＋τ}＝｛ｇ，ｍ_ｉ：ｉ＝ｕ，ｕ＋１，・・・，ｕ＋τ｝を、事例モデルＭの中のｕ番目からｕ＋τ番目までの連続する時間フレームに対応するガウス分布系列とする。

入力信号の特徴量の系列ｙ_{ｔ：ｔ＋τ}と事例モデルＭの中のあるセグメントとの距離の定義や、入力信号の特徴量系列ｙ_{ｔ：ｔ＋τ}と一番近い事例モデルＭの探索方法として、ユークリッド距離など、他のいくつかの方法を考えることができる。ここでは、入力信号の特徴量系列に対する一番近い事例モデルＭのセグメントは、入力信号の特徴量系列によく一致する事例モデルＭのセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い事例モデルＭのセグメントＭ^ｔ _{ｕ：ｕ＋τ}は、（３）式に示す事後確率を最大化することで求めることができる。

この場合、ｐ（Ｍ_ｕ:ｕ+τ|ｙ_ｔ:ｔ+τ）は、事後確率を表し、ｙ_ｔ:ｔ+τとＭ_ｕ:ｕ+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方法を取ることで、ある時間に局所的に存在する雑音などの影響を受けにくくなり、雑音などに対して比較的ロバストなマッチングが行われると思われる。

なお、（３）式の分子の項ｐ（ｙ_ｔ:ｔ+τ|Ｍ_ｕ:ｕ+τ）は、Ｍ_ｕ:ｕ+τに対応する事例モデルＭのセグメントに対するｙ_ｔ:ｔ+τの尤度である。この尤度は、（４）式で計算される。

ここでは、簡単のため、隣り合うフレームは独立であることを仮定している。（３）式の分母の第１項は、事例モデルＭの中のあらゆる時間フレームｕ’を開始点として，ｐ（ｙ_ｔ:ｔ+τ｜Ｍ_{ｕ’:ｕ’+τ}）の和を取ったものである。そして、（３）式の分母の第２項は、ガウス混合モデルｇに対するｙ_ｔ:ｔ+τの尤度であり、（５）式で計算される。

続いて、マッチング部１５におけるセグメント探索処理の手順をさらに具体的に記述する。まず、セグメントの最大長を（τ_ｌｉｍ＋１）フレームに制限する。例えば、セグメントの最大長を３０フレームと制限するならば、τ_ｌｉｍ＝２９である。

まず、マッチング部１５は、この制限の下で、τ＝０、すなわち、セグメント長＝１として、（３）式に従い、最大事後確率を与えるセグメント長＝１のセグメントを探索する。次に、マッチング部１５は、τ＝１、すなわち、セグメント長＝２として、（３）式に従い、最大事後確率を与えるセグメント長＝２のセグメントを探索する。

マッチング部１５は、この処理をτ＝τ_ｌｉｍまで繰り返す。そして、マッチング部１５は、探索した長さの異なるセグメント候補の中から、最大事後確率を与えるセグメントを見つける。τ_ｍａｘは、この最大事後確率を与えるセグメントの長さである。このようなマッチング部１５におけるセグメント探索処理は、図２に示すような、Ｉフレーム分のリニアなメモリで表現できる事例モデルＭ上で行うことができる。

そして、マッチング部１５は、探索した最大事後確率を与えるセグメント、すなわち、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われる事例モデルＭのセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}についての情報を、音声強調フィルタリング部１６に入力する。これによって、音声強調フィルタリング部１６は、セグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}に対応する事例モデル記憶部１１内のクリーン音声の振幅スペクトルを用いて、音声強調のためのフィルタを作成し、該フィルタで入力信号をフィルタリングすることによって、強調音声信号を出力する。

［信号処理装置における信号処理方法］
次に、信号処理装置１における信号処理方法について説明する。図４は、図１に示す信号処理装置１が実行する処理手順を示すフローチャートである。

まず、フーリエ変換部１２は、入力信号を振幅スペクトルに変換するフーリエ変換処理（ステップＳ１）を行う。特徴量生成部１３は、フーリエ変換部１２から出力された振幅スペクトルから、メル周波数ケプストラム係数等の特徴量を生成する特徴量生成処理（ステップＳ２）を行う。

特徴量変換部１４は、特徴量生成部１３が生成した特徴量を、雑音又は残響（音響歪み）の低減処理を施したボトルネック特徴量に変換する特徴量変換処理（ステップＳ３）を行う。

マッチング部１５は、事例モデル記憶部１１の事例モデルＭのセグメントと、入力されたボトルネック特徴量のセグメントとのマッチングを行い、事例モデルＭのセグメントの中から、入力されたボトルネック特徴量のセグメントに対して最も高い事後確率をとるセグメントをとるセグメントを探索するマッチング処理（ステップＳ４）を行う。

音声強調フィルタリング部１６は、マッチング部１５が探索した事例モデルＭのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング処理（ステップＳ５）を行う。

［本実施の形態１の効果］
このように、本実施の形態１に係る信号処理装置１は、マッチング部１５がセグメント探索に用いる特徴量ｙ_ｔとして、メル周波数ケプストラム係数等の振幅スペクトルから単純に得られる特徴量ｘ_ｔではなく、この特徴量ｘ_ｔに対して、さらに雑音又は残響（音響歪み）の低減処理を施したボトルネック特徴量ｂ_ｔを用いている。言い換えれば，マッチング部１５は、音響歪み耐性が高いボトルネック特徴量ｂ_ｔを用いてセグメント探索を行うため、セグメント探索に対する雑音又は残響の影響を低減でき、セグメント探索の精度を高めることができる。したがって、信号処理装置１によれば、入力信号に類似するクリーン音声の特徴量を高精度で探索でき、入力信号を明瞭な強調音声信号に変換することができる。

［事例モデル生成装置］
また、信号処理装置１の事例モデル記憶部１１に記憶される事例モデルＭを生成する事例モデル生成装置２について説明する。この事例モデル生成装置２においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量ｘ_ｔに対して、雑音又は残響（音響歪み）の低減処理を施したボトルネック特徴量ｂ_ｔを用いて、事例モデルＭの生成を行っている。

図５は、事例モデル生成装置２の機能構成例を示すブロック図である。図５に示す事例モデル生成装置２は、例えば、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。事例モデル生成装置２は、フーリエ変換部１２、特徴量生成部１３、特徴量変換部１４、ガウス混合モデル学習部２５及び最尤ガウス分布計算部２６を有する。

まず、事例モデル生成装置２に入力される学習用の音声信号について説明する。事例モデル生成装置２に入力される信号は、様々な雑音／残響環境の音声信号である。この様々な雑音／残響環境の音声信号の中には、クリーン環境の音声信号が含まれている。具体的には、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ（雑音信号の波形や、室内インパルス応答等）とを用い、さまざまな環境での観測信号を模擬生成した模擬観測信号が、学習用の音声信号として事例モデル生成装置２に入力される。これらの学習用の音声信号のそれぞれについて以下の処理が行われる。

フーリエ変換部１２、特徴量生成部１３及び特徴量変換部１４は、図１に示す信号処理装置１におけるフーリエ変換部１２、特徴量生成部１３及び特徴量変換部１４とそれぞれ同様の処理を、学習用の音声信号に対して実行する。特徴量変換部１４は、学習用の音声信号に対応する特徴量ｘ_ｔをボトルネック特徴量ｂ_ｔに変換し、ガウス混合モデル学習部２５に入力する。

ガウス混合モデル学習部２５は、各短時間フレームｔでの特徴量ｂ_ｉを学習データとして、通常の最尤推定法によりガウス混合モデルｇを得る。ここで、ガウス混合モデル学習部２５では、前段の特徴量変換部１４から入力されたボトルネック特徴量ｂ_ｔを学習データとして用いてガウス混合モデルｇを得る。このガウス混合モデルｇは、（６）式により示される。また、ガウス混合モデルｇの中のガウス分布を表すｇ（ｂ_ｉ｜ｍ）は、（７）式により示される。なお、ｂ_ｉは、ｉ番目のフレームのボトルネック特徴量である。

ｇ（ｂ_ｉ｜ｍ）は、平均μ_ｍ、分散Σ_ｍを持つｍ番目のガウス分布を表す。ｇ（ｂ_ｉ｜ｍ）は、多くの場合多次元ガウス分布であり、その次元数は特徴量ｂ_ｉの次元数と同じである。ｇ（ｂ_ｉ｜ｍ）が多次元ガウス分布である場合、平均μ_ｍ及び分散Σ_ｍのそれぞれはベクトルとなる。ここでは、ｇ（ｂ_ｉ｜ｍ）が多次元ガウス分布であっても、記載の簡略化のため、ｇ（ｂ_ｉ｜ｍ）のことを単にガウス分布と表現する。ｗ（ｍ）は、ｍ番目のガウス分布に対する混合重みを表す。Ｑは、混合数を表す。Ｑには、例えば、４０９６や８１９２など、かなり大きな値を設定する。

最尤ガウス分布計算部２６は、各時間フレームｉに対して最大の尤度を与えるガウス混合モデルｇの中のガウス分布のインデックスｍ_ｉを求め、そのインデックスｍ_ｉの時間系列を、事例モデルＭの一つのセグメントとして取得する。なお、事例モデルＭは、ガウス分布のインデックスｍ_ｉの集合とガウス混合モデルｇを用いて、前述した（１）式のように表される。

事例モデルＭのセグメントの生成は、学習用の音声信号のそれぞれに対して行われ、生成された各セグメントを含む事例モデルＭは、事例モデル記憶部１１（図１）に記憶される。また、環境がクリーンの場合は、フーリエ変換部１２から出力された振幅スペクトルデータもクリーン音声の振幅スペクトルとして事例モデル記憶部１１（図１）に記憶される。

［事例モデル生成処理］
次に、事例モデル生成処理について説明する。図６は、事例モデル生成装置２による事例モデル生成処理の処理手順を示すフローチャートである。

事例モデル生成装置２において、フーリエ変換部１２、特徴量生成部１３及び特徴量変換部１４は、入力された学習用の音声信号に対し、図４に示すステップＳ１〜Ｓ３と同様の手順でステップＳ１１〜ステップＳ１３の処理を行う。

ガウス混合モデル学習部２５は、前段の特徴量変換部１４から入力されたボトルネック特徴量ｂ_ｔを学習データとして用い、通常の最尤推定法によりガウス混合モデルｇを得るガウス混合モデル学習処理を行う（ステップＳ１４）。

続いて、最尤ガウス分布計算部２６は、各時間フレームｉに対して最大の尤度を与えるガウス混合モデルｇの中のガウス分布のインデックスｍ_ｉを求め、求めたインデックスｍ_ｉの時間系列を、事例モデルＭの一つのセグメントとして取得する最尤ガウス分布計算処理を行う（ステップＳ１５）。そして、事例モデル生成装置２は、このインデックスｍ_ｉの時間系列を、事例モデルＭの一つのセグメントとして信号処理装置１の事例モデル記憶部１１に格納する格納処理を行う（ステップＳ１６）。

このように、事例モデル生成装置２では、信号処理装置１に対応させて、ボトルネック特徴量ｂ_ｔを用いて事例モデルＭの生成を行っている。

［実施の形態２］
次に、実施の形態２について説明する。実施の形態２では、音響歪みの影響を軽減させるとともに、話者性を考慮したセグメント探索を行う信号処理装置について説明する。

［信号処理装置の構成］
図７は、実施の形態２に係る信号処理装置の構成を示すブロック図である。図７に示すように、実施の形態２に係る信号処理装置２０１は、図１に示す信号処理装置１と比して、特徴量変換部１４と並列に設けられた話者特徴量生成部２１７と、特徴量変換部１４及び話者特徴量生成部２１７の後段に設けられた連結部２１８と、をさらに有する。

話者特徴量生成部２１７は、話者の特徴を表現した話者特徴量を生成する。話者特徴量生成部２１７は、特徴量生成部１３から出力されるメルケプストラム等の特徴量ｘ_ｔを受け取り、この特徴量ｘ_ｔを用いて、話者性を表現する例えばi-vector等の数十〜数百次元程度の話者特徴量ｗ_ｔを生成する。

連結部２１８は、特徴量変換部１４が変換したボトルネック特徴量ｂ_ｔと、話者特徴量生成部２１７が生成した話者特徴量ｗ_ｔとを連結した連結特徴量［ｂ_ｔ＾Ｔ，ｗ_ｔ^Ｔ］＾Ｔ(Ｔはベクトルの転置を表す)を生成し、後段のマッチング部１５に入力する。

そして、マッチング部１５は、連結特徴量［ｂ_ｔ＾Ｔ，ｗ_ｔ^Ｔ］＾Ｔが混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求める。

［話者特徴量生成部の処理］
ここで、話者特徴量生成部２１７による話者特徴量ｗ_ｔの生成処理について説明する。ここでは、話者特徴量生成部２１７が、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトル（ベクトルｗ_ｅ）を生成する場合について説明する。また、ここでは、ＧＭＭ−ＵＢＭ（Universal Background Model）アプローチで、話者認識におけるi-vectorを抽出する方法について説明する。ＧＭＭ−ＵＢＭアプローチは、「音声らしい」モデル(ＵＢＭ)を多数の不特定話者の大量のＵＢＭ学習用の音声データを用いて学習しておき、新たな話者のモデル（ＧＭＭ）は、当該話者の少量の音声データを用いてＵＢＭを適応して得るという手法である。ＵＢＭは、図示しない記憶部に記憶されている。

以下、i-vectorであるベクトルｗ_ｅの具体的な一連の抽出手順について述べる。i-vectorｗ_ｅを求めるため、まず、実施の形態１に示した（３）式を用いて、信号処理装置２０１に入力された入力信号ｅから得られるＬフレームの特徴量ベクトル系列Ｘ_ｅの各フレームの特徴量ｘ_ｔ（ｔ=１，２，・・・，Ｌ）がＵＢＭのｍ番目のガウス分布から生成される事後確率γ_ｔ(ｍ)を計算する。続いて、（３）式で計算した事後確率γ_t(ｍ)を用いて、下記の（８）式〜（１２）式に従い、i-vectorｗ_ｅを計算する。

事後確率γ_t(ｍ)を用いると、ＵＢＭを用いた入力信号ｅに対する０次、１次のBaum-Welch統計量Ｎ_ｅ,ｍ、ベクトルＦ_ｅ,ｍは、下記の（８）式及び（９）式のようにそれぞれ書くことができる。ただし、ベクトルＦ_ｅ,ｍは、Ｄ次元のベクトルである。

さらに、（８）式及び（９）式を用いて、（１０）式及び（１１）式のように、０次、１次のBaum-Welch統計量である行列Ｎ_ｅ、ベクトルＦ_ｅを定義する。ただし、行列Ｎ_ｅはＣＤ次元×ＣＤ次元の行列であり、ベクトルＦ_ｅはＤ次元のベクトルである。

ここで、上記の（１０）式の対角成分に現れる行列Ｉ_Ｄは、Ｄ次元×Ｄ次元の単位行列である。また、行列Ｔは、全変動行列と呼ばれるＣＤ次元×Ｍ次元の矩形行列（Ｍ＜＜ＣＤ)である。行列Σを全変動行列Ｔで表現できない残留変動成分をモデル化するＤ次元×Ｄ次元の対角共分散行列とする。以上を用いてi-vectorｗ_ｅは、（１２）式のように計算できる。

なお、（１２）式における行列Ｉ_Ｍは、Ｍ次元×Ｍ次元の単位行列である。（１２）式に示すベクトルｗ_ｅが入力音声データｅに対するＭ次元のi-vectorである。話者特徴量生成部２１７は、このベクトルｗ_ｅを、話者特徴量ｗ_ｔとして、連結部２１８に出力する。

［信号処理装置の処理］
そこで、信号処理装置２０１が強調音声信号を出力するまでの処理について説明する。
図８は、信号処理装置２０１が実行する処理手順を示すフローチャートである。

ステップＳ２１〜ステップＳ２３は、図１に示すステップＳ１〜Ｓ３である。そして、話者特徴量生成部２１７は、入力された特徴量ｘ_ｔを用いて、話者特徴量ｗ_ｔを生成する話者特徴量生成処理を行う（ステップＳ２４）。なお、ステップＳ２３及びステップＳ２４は、例えば、並列に実行される。

連結部２１８は、特徴量変換部１４が変換したボトルネック特徴量ｂ_ｔと、話者特徴量生成部２１７が生成した話者特徴量ｗ_ｔとを連結した連結特徴量［ｂ_ｔ＾Ｔ，ｗ_ｔ^Ｔ］＾Ｔ(Ｔはベクトルの転置を表す)を生成する連結処理を行う（ステップＳ２５）。

マッチング部１５は、事例モデル記憶部１１の事例モデルＭのセグメントに対するマッチング対象として、連結部２１８が生成した連結特徴量［ｂ_ｔ＾Ｔ，ｗ_ｔ^Ｔ］＾Ｔを用い、図４のステップＳ４と同様の処理手順を行って、マッチング処理を行う（ステップＳ２６）。図８に示すステップＳ２７は、図４に示すステップＳ５である。

［実施の形態２の効果］
音声認識においては、話者性は不要な情報であるので、ＤＮＮ−ＨＭＭ音響モデルを通す特徴量変換処理では、話者性を軽減するような特徴量変換を行う。したがって、特徴量変換部１４においては、ＤＮＮ−ＨＭＭ音響モデルを通してボトルネック特徴量を抽出する際に、話者性も軽減している。そこで、実施の形態２では、話者性が軽減されたボトルネック特徴量ｂ_ｔに話者特徴量ｗ_ｔを連結した連結特徴量を用いて、マッチング部１５によるセグメント探索を行ことによって、最終的に信号処理装置２０１から出力される強調音声信号を、話者性を含ませたものとすることができる。

このように、実施の形態２では、音響歪みの影響を軽減したボトルネック特徴量と話者性を表現する話者特徴量とを連結して用いることで、マッチング部１５において、音響歪みの影響が軽減し、かつ、話者性を考慮したセグメント探索を行うことが可能になる。

［信号処理装置及び事例モデル生成装置の構成について］
なお、この発明は、複数の音響歪み(雑音／残響環境)の事例モデルを考慮する際の時間、及び、マッチング時に時間伸縮について考慮する際の時間は、非特許文献１に記載されているように、拡張可能である。また、事例モデル記憶部１１は、例えば、出願人による特開２０１５−１５２７０４号公報に記載された木構造化構成を適用したセグメントを含む事例モデルＭを記憶していてもよい。この場合、マッチング部１５は、この木構造化構成のセグメントを含む事例モデルＭから、入力信号に対応するセグメントに最も類似したセグメントを探索してもよい。また、マッチング部１５は、例えば、出願人による特開２０１５−１５２７０５号公報に記載されたセグメント評価関数を用いてセグメント探索を行ってもよい。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置１，２０１及び事例モデル生成装置２は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図９は、プログラムが実行されることにより、信号処理装置或いは学習モデル生成装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置、学習モデル生成装置の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０３１に記憶される。例えば、信号処理装置、学習モデル生成装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。なお、ハードディスクドライブ１０３１は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１，１Ｐ，２０１信号処理装置
２事例モデル生成装置
１１，１１Ｐ事例モデル記憶部
１２，１２Ｐフーリエ変換部
１３，１３Ｐ特徴量生成部
１４特徴量変換部
１５，１５Ｐマッチング部
１６，１６Ｐ音声強調フィルタリング部
２５ガウス混合モデル学習部
２６最尤ガウス分布計算部
２１７話者特徴量生成部
２１８連結部

Claims

信号処理装置で実行される信号処理方法であって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
前記信号処理装置が、入力信号から第１の特徴量を生成する特徴量生成工程と、
前記信号処理装置が、前記第１の特徴量を、雑音又は音響歪みの低減処理を施した第２の特徴量に変換する特徴量変換工程と、
前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第２の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、
前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、
を含んだことを特徴とする信号処理方法。
前記低減処理は、ＤＮＮ（Deep Neural Network；ディープニューラルネットワーク）−ＨＭＭ（Hidden Markov Model；隠れマルコフモデル）音響モデルからボトルネック特徴量を得る処理であることを特徴とする請求項１に記載の信号処理方法。
前記信号処理装置が、話者の特徴を表現した話者特徴量を生成する話者特徴量生成工程と、
前記信号処理装置が、前記第２の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結工程と、
をさらに含み、
前記照合工程は、前記特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算することを特徴とする請求項１または２に記載の信号処理方法。
前記信号処理装置が、学習用の入力信号から第３の特徴量を生成する学習用特徴量生成工程と、
前記信号処理装置が、前記第３の特徴量に対して前記雑音又は音響歪みの低減処理を施した第４の特徴量を生成する学習用特徴量変換工程と、
前記信号処理装置が、前記第４の特徴量を学習データとして、最尤推定法によりガウス混合分布モデルを取得するガウス混合モデル学習工程と、
前記信号処理装置が、各時間に対して最大の尤度を与える前記ガウス混合分布モデルの中のガウス分布のインデックスを求め、該インデックスの時間系列を取得する最尤ガウス分布計算工程と、
前記信号処理装置が、前記インデックスの時間系列を、前記混合分布モデルのパラメータとして前記記憶部に格納する格納工程と、
を含んだことを特徴とする請求項１〜３のいずれか一つに記載の信号処理方法。
雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部と、
入力信号から第１の特徴量を生成する特徴量生成部と、
前記第１の特徴量を、雑音又は音響歪みの低減処理を施した第２の特徴量に変換する特徴量変換部と、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第２の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合部と、
前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
を有することを特徴とする信号処理装置。
信号処理装置に実行させるための信号処理プログラムであって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
入力信号から第１の特徴量を生成する特徴量生成ステップと、
前記第１の特徴量を、雑音又は音響歪みの低減処理を施した第２の特徴量に変換する特徴量変換ステップと、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第２の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合ステップと、
前記照合ステップにおいて求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力ステップと、
を前記信号処理装置に実行させるための信号処理プログラム。