JP5662276B2

JP5662276B2 - 音響信号処理装置および音響信号処理方法

Info

Publication number: JP5662276B2
Application number: JP2011172409A
Authority: JP
Inventors: 誠広畑
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2015-01-28
Anticipated expiration: 2031-08-05
Also published as: US20130035933A1; JP2013037152A; US9224392B2

Description

本発明の実施形態は、音響信号処理装置および音響信号処理方法に関する。

音声認識などにおいてマイクロホンで取得した音響信号には、ユーザの音声である音声信号だけでなく背景雑音や音楽などの非音声信号が含まれる。音声信号と非音声信号が混入した音響信号から所望の信号のみを抽出する技術が音源分離技術であり、その１つに非負行列因子分解を用いた方式がある。音響信号から音声信号を分離する場合、この方式ではまず、非音声信号を含む蓋然性が高い区間における音響信号のスペクトログラムから非音声信号の基底行列を作成する。次に、この非音声信号の基底行列を用いて、分離対象となる音響信号のスペクトログラムから音声信号の基底行列と係数行列を作成する。そして、この音声信号の基底行列と係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定された音声信号のスペクトログラムを時間信号に変換して、音響信号から音声信号を分離する。

しかしながら、この方式では、非音声信号の基底行列を求める際の音響信号に音声信号が混入していた場合、非音声信号の基底行列を正確に作成することができなかった。結果として、音声信号の分離性能が劣化するという問題があった。

特開２００９−１２８９０６号公報

Eric Scheirer, Malcolm Slaney, "Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator," Proc. Of ICASSP, April 1997, Vol 2, p.1331-1334.

発明が解決しようとする課題は、音声信号の分離性能を向上させる音響信号処理装置を実現することである。

実施形態の音響信号処理装置における尤度計算手段は、取得した音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して音響信号に音声信号が含まれる尤もらしさを表す尤度を計算する。スペクトル抽出手段は、音響信号を周波数解析してスペクトル特徴を抽出する。第１基底行列作成手段は、スペクトル特徴を利用して、非音声信号の特徴を表す第１の基底行列を作成する。第２基底行列作成手段は、尤度を利用して、第１の基底行列において音声信号と関連性が高い成分を特定し、この成分を除外して第２の基底行列を作成する。スペクトル特徴推定手段は、スペクトル特徴を第２の基底行列を用いて非負行列因子分解することにより、音声信号のスペクトル特徴あるいは非音声信号のスペクトル特徴を推定する。

第１の実施形態の音響信号処理装置を示すブロック図。実施形態の音響信号処理装置のハードウェア構成を示す図。実施形態の第２基底行列作成部における処理内容を示す図。実施形態のスペクトル推定部における処理内容を示す図。実施形態の音響信号処理装置のフローチャート。実施形態の第２基底行列作成部のフローチャート。実施形態の音声信号のスペクトログラムの推定結果を示す図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の音響信号処理装置は、音声信号および非音声信号を含んだ音響信号から音声信号を分離するものである。例えば、本実施形態の音響信号処理装置を音声認識の前処理として利用することにより、音声認識の認識性能を向上させることができる。

本実施形態の音響信号処理装置は、非負行列因子分解を用いた音源分離技術（特許文献１）であり、非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラム（スペクトル特徴）から、非音声信号の特徴を表す第１の基底行列を作成する。そして、音声信号が含まれる尤もらしさを表す音声尤度を利用して、第１の基底行列から音声信号との関連性が高い成分を除外して第２の基底行列を作成する。この第２の基底行列を用いて音声信号の特徴を表す第３の基底行列と第１の係数行列を計算し、第３の基底行列と第１の係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定された音声信号のスペクトログラムを時間信号に変換することで、音響信号から音声信号を分離する。

このように、本実施形態の音響信号処理装置は、作成された非音声信号の第１の基底行列から音声信号との関連性が高い成分を除外した第２の基底行列を作成する。これにより、非音声信号の特徴を正確に表す基底行列を作成することができ、結果として、音声信号の分離性能を向上させることができる。

（全体のブロック構成）
図１は、第１の実施形態にかかる音響信号処理装置を示すブロック図である。本実施形態の音響信号処理装置は、音声信号と非音声信号を含んだ音響信号を取得する音響取得部１０１と、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声信号が含まれる尤もらしさを表す非音声尤度を計算する尤度計算部１０２と、音声尤度と非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する音声・非音声判別部１０３と、音響信号をフーリエ変換してスペクトログラムを抽出するスペクトル特徴抽出部１０４と、非音声信号と判別された区間の音響信号から抽出されたスペクトログラムを利用して、非音声信号の特徴を表す第１の基底行列を作成する第１基底行列作成部１０５と、音声尤度を利用して、第１の基底行列から音声信号との関連性が高い列ベクトルの成分を除外して第２の基底行列を作成する第２基底行列作成部１０６と、スペクトログラムを前記第２の基底行列を用いて非負行列因子分解することにより、音声信号の特徴を表す第３の基底行列および第１の係数行列を計算し、この第３の基底行列および第１の係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定するスペクトル特徴推定部１０７と、推定された音声信号のスペクトログラムを逆フーリエ変換により時間信号に変換する逆変換部１０８とを備える。

（ハードウェア構成）
本実施形態の音響信号処理装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、ユーザの発声を取得するマイク２０６と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（各ブロックの機能）
音響取得部１０１は、マイク２０６に入力された音響信号を取得する。この音響信号には、ユーザの音声である音声信号だけでなく背景雑音や音楽などの非音声信号が含まれる。なお、本実施形態の音響信号は、１６ｋＨｚでサンプリングされたデジタル信号であるとする。なお、音響取得部１０１は、マイク２０６ではなく、外部記憶部２０３や通信部２０５によって接続された外部装置から音響信号を取得してもよい。

尤度計算部１０２は、音響取得部１０１で取得された音響信号から、音声信号および非音声信号の特徴を表す音響特徴を抽出する。そして、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさ（音声尤度）および非音声信号が含まれる尤もらしさ（非音声尤度）を計算する。具体的には、尤度計算部１０２は、音響信号を長さ２５ｍｓ（４００サンプル）、間隔８ｍｓ（１２８サンプル）のフレームに分割する。フレーム分割にはハミング窓を使用する。次に、各フレームから音響特徴を抽出する。音響特徴としては、各フレームの音響信号をフーリエ変換して得られるスペクトルだけでなく、ＬＰＣケプストラムやＭＦＣＣ等のケプストラム系の特徴量を用いることができる。そして、抽出された音響特徴を予め学習した音声モデルおよび非音声モデルと照合して、各フレームの音声尤度および非音声尤度を計算する。

音声・非音声判別部１０３は、尤度計算部１０２で計算されたフレーム毎の音声尤度および非音声尤度を用いて、所定区間ごとに音声信号が音声であるか非音声であるかを判別する。本実施形態では、所定区間の長さを４００ｍｓ（５０フレーム分）に設定する。音声・非音声判別部１０３は、５０フレーム分の音声尤度および非音声尤度の平均値を計算し、その大小を比較することで音声・非音声を判別する。この他にも、各平均値を予め設定した閾値と比較して音声・非音声を判別してもよい。また、非特許文献１に記載の方法を利用することもできる。

スペクトル特徴抽出部１０４は、音響信号を長さ２５ｍｓ（４００サンプル）、間隔８ｍｓ（１２８サンプル）のフレームに分割し、各フレームの音響信号をフーリエ変換（周波数解析）してスペクトルを抽出する。なお、本実施形態では、各フレームに対して１１２点の零詰めを行った後、５１２点の離散フーリエ変換を実行する。

第１基底行列作成部１０５は、スペクトル特徴抽出部１０４で抽出された複数フレームのスペクトル（スペクトログラム）を利用して、非音声信号の特徴を表す第１の基底行列Ｈを作成する。ここで本実施形態では、音声・非音声判別部１０３において非音声と判別された区間の音響信号から抽出されたスペクトログラムを利用して、第１の基底行列Ｈを作成する。

第１基底行列作成部１０５は、まず、Ｔ個のフレームから抽出した各Ｆ次元のスペクトルの全要素を格納した行数Ｆ、列数Ｔの行列Ｚを作成する。次に、この行列Ｚを、行数Ｆ・列数Ｄの第１の基底行列Ｈと、行数Ｄ・列数Ｔの係数行列Ｕの積で近似する。ここで、Ｄは基底の数を表し、経験的に３２に設定する。第１の基底行列Ｈと係数行列Ｕの導出は、第１の基底行列Ｈと係数行列Ｕの積と行列Ｚの二乗誤差を基準とした反復法により行う。この際、第１の基底行列Ｈおよび係数行列Ｕの初期行列には、ランダム値を用いることができる。

第２基底行列作成部１０６は、尤度計算部１０２で計算された音声尤度を利用して、第１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分を除外した第２の基底行列Ｂを作成する。

図３を用いて、第２基底行列作成部１０６の動作を説明する。同図の３０１は、４個のフレームから抽出された各４次元のスペクトルの要素で構成される行列Ｚを、行数４・列数４の第１の基底行列Ｈと、行数４・列数４の係数行列Ｕの積で近似している。３０２は、行列Ｚの各フレーム（列ベクトル）に対応する音声尤度を表している。３０２の閾値は、音声信号を含むフレームを判別するための値であり、予め所定値を設定しておく。閾値と音声尤度の比較により、この例ではｔ番目のフレームの音響信号に音声信号が含まれると判別される。したがって、第２基底行列作成部１０６は、ｔ番目のフレームに起因する成分を第１の基底行列Ｈから除外して第２の基底行列Ｂを作成する。

まず、第２基底行列作成部１０６は、係数行列Ｕの各行ごとに正規化処理を行い正規化後の係数行列Ｕ’を得る。正規化は、各列ベクトルの要素の大きさを比較するための処理であり、各行の要素を平均０・分散１になるよう実行する。次に、第２基底行列作成部１０６は、ｔ番目のフレームに対応する係数行列Ｕ’の列ベクトルの中で最大の値を持つ要素を選択する。要素は、Ｕ’のＸ行Ｙ列目のように特定する。この例では、２行３列目の要素３０３が最大となる。次に、第２基底行列作成部１０６は、第１の基底行列Ｈと係数行列Ｕの積において、係数行列ＵのＸ行Ｙ列目の要素との積が計算されるＸ列目の列ベクトルを除外する。この例では、Ｕ’の２行３列目の要素が選択されていることから、第１の基底行列Ｈから２列目の列ベクトルを除外して第２の基底行列Ｂを作成する。

このように、本実施形態の音響信号処理装置は、第１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分を除外した第２の基底行列Ｂを作成する。これにより、非音声信号の特性を表す第２の基底行列Ｂを正確に作成することができる。

なお、第２基底行列作成部１０６は、複数の列ベクトルを除外して第２の基底行列Ｂを作成してもよい。また、列ベクトルを除外するのではなく、列ベクトルの要素の値を０または０に近い値に置き換えることもできる。また、作成された第２の基底行列Ｂを記憶部２０２や外部記憶部２０３に記憶しておき、記憶された第２の基底行列Ｂを再利用して他の音響信号に対する分離処理を実行してもよい。

本実施形態では音声尤度そのものを用いて音声信号との関連性が高い成分を特定したが、非音声尤度と音声尤度の比を用いてもよい。また、非音声尤度だけを用いて音声信号との関連性が高い成分を特定することもできる。例えば、非音声尤度が低いフレームを音声信号との関連性が高い成分とみなすことができる。

スペクトル特徴推定部１０７は、スペクトル特徴抽出部１０４で抽出されたスペクトル特徴を第２の基底行列Ｂを用いて非負行列因子分解することにより、音声信号の特徴を表す第３の基底行列Ｍおよび第１の係数行列Ｖを計算する。そして、この第３の基底行列Ｍと第１の係数行列Ｖの積を取ることにより、音響信号に含まれる音声信号のスペクトル特徴を推定する。

まず、スペクトル特徴推定部１０７は、図４の４０１に示すように、音声信号を分離する対象となる音響信号のスペクトログラムＸを第２の基底行列Ｂを用いて非負行列因子分解する。第１の基底行列Ｈの導出と同様に、基底行列と係数行列の積とスペクトログラムＸの二乗誤差を基準とした反復法を適用する。この際、基底行列の列数は第２の基底行列Ｂの列数Ｄ−１より大きい値Ｅ＋Ｄ−１とし、基底行列のＥ列目以降の初期値は第２基底行列Ｂの要素とする。基底行列のＥ列目以降の要素は反復法の適用外とする。反復法を適用した結果、基底行列の１列目からＥ列目までの行列が第３の基底行列Ｍ、係数行列の１行目からＥ行目までの行列が第１の第１の係数行列Ｖ、Ｅ行目以降の行列が第２の係数行列Ｗとなる。

次に、スペクトル特徴推定部１０７は、この第３の基底行列Ｍと第１の係数行列Ｖの積を取ることにより、音響信号に含まれる音声信号のスペクトログラムを推定する（図４の４０２）。この他にも、非音声信号の特徴を表す第２の基底行列Ｂと第２の係数行列Ｗの積により、音響信号に含まれる非音声信号のスペクトログラムを推定することもできる。

また、スペクトル特徴推定部１０７は、第３の基底行列Ｍと第１の係数行列Ｖの積で推定した音声信号のスペクトログラムと、第２の基底行列Ｂと第２の係数行列Ｗの積で推定した非音声信号のスペクトログラムからスペクトログラムの要素ごとに音声信号に起因する成分の比率を算出し、分離対象となるスペクトログラムにこの比率をかけることで音声信号のスペクトログラムを推定してもよい。

逆変換部１０８は、推定された音声信号のスペクトログラムを離散逆フーリエ変換することにより時間信号に変換する。これにより、音響信号から音声信号を分離することができる。なお、分離された音声信号を後段の音声認識部（図示なし）に出力することにより、非音声信号の影響を取り除いた音声認識処理を実行できる。

（フローチャート：全体処理）
図５のフローチャートを利用して、本実施形態にかかる音声信号処理装置の処理を説明する。まず、ステップＳ５０１では、音響取得部１０１は、分離対象となる音響信号を取得する。

ステップＳ５０２では、スペクトル特徴抽出部１０４は、フレームに分割した音響信号から離散フーリエ変換によりスペクトルを抽出する。フレームの間隔は８ｍｓとする。

ステップＳ５０３では、尤度計算部１０２は、音響信号からＬＰＣケプストラムやＭＦＣＣ等のケプストラム系の音響特徴を抽出する。そして、この音響特徴と予め学習した音声モデルおよび非音声モデルを照合して、音声尤度および非音声尤度を計算する。

ステップＳ５０４では、音声・非音声判別部１０３は、長さ４００ｍｓ（５０フレーム分）の所定区間ごとに音声・非音声を判別する。判別には、ステップＳ５０３で計算された音声尤度および非音声尤度を用いる。

ステップＳ５０５では、判別対象となった区間が最初の区間であるか否かに応じて処理を分岐する。最初の区間である場合は、非音声信号の基底行列は作成されていないため、ステップ５０４での判別結果によらずステップＳ５０７に移行する。最初の区間でない場合は、ステップＳ５０６に移行する。

ステップＳ５０６では、判別対象となった区間の判別結果に応じて処理を分岐する。判別結果が非音声である場合はステップＳ５０７へ、音声である場合はステップＳ５０９へ移行する。

ステップＳ５０７では、第１基底行列作成部１０５は、判別対象となった区間から抽出されたスペクトログラムを利用して、非音声信号の特徴を表す第１の基底行列Ｈおよび係数行列を作成する。

ステップＳ５０８では、第２基底行列作成部１０６は、ステップＳ５０３で計算された音声尤度を利用して、第１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分を除外した第２の基底行列Ｂを作成する。ステップＳ５０８の詳細は後述する。

ステップＳ５０９では、スペクトル特徴推定部１０７は、ステップＳ５０４で音声・非音声が判別された４００ｍｓ（５０フレーム）の区間から抽出されたスペクトログラムを第２の基底行列Ｂを用いて非負行列因子分解し、音声信号の特徴を表す第３の基底行列Ｍおよび第１の係数行列Ｖを計算する。

ステップＳ５１０では、スペクトル特徴推定部１０７は、第３の基底行列Ｍと第１の係数行列Ｖの積により、音声信号のスペクトログラムの推定値を得る。推定された音声スペクトログラムのフレーム数は５０になる。

ステップＳ５１１では、逆変換部１０８は、ステップＳ５１０で推定された音声信号のスペクトログラムを離散逆フーリエ変換により時間信号に変換する。

ステップＳ５１２では、音響信号処理装置は、全ての区間について音声信号の分離処理が終了したか否かを判別する。終了していない場合はステップＳ５０４に移行して、次の４００ｍｓ区間について音声・非音声を判別する。

（フローチャート：第２基底行列作成部）
図６のフローチャートを利用して、第２の基底行列Ｂを作成する図５のステップＳ５０８の詳細を説明する。まず、ステップＳ６０１では、第２基底行列作成部１０６は、係数行列Ｕの各行ごとに正規化を実行することにより係数行列Ｕ’を得る。

ステップＳ６０２では、第２基底行列作成部１０６は、正規化された係数行列Ｕ’の各列ベクトルに対応する音声尤度を取得する。

ステップＳ６０３では、第２基底行列作成部１０６は、音声尤度と予め設定した閾値を比較する。

ステップＳ６０４では、第２基底行列作成部１０６は、閾値を超えた音声尤度に対応づけられた係数行列Ｕ’の列ベクトルを選択する。音声尤度が閾値を超えるフレームが複数ある場合は、列ベクトルも複数選択する。

ステップＳ６０５では、第２基底行列作成部１０６は、ステップＳ６０４で選択された各列ベクトルにおいて最大の値を示す要素を選択する。要素は、係数行列Ｕ’のＸ行Ｙ列目のように選択する。列ベクトルが複数ある場合は、選択される要素も複数になる。

ステップＳ６０６では、第２基底行列作成部１０６は、第１の基底行列Ｈと係数行列Ｕの積において、係数行列ＵのＸ行Ｙ列目の要素との積が計算されるＸ列目の列ベクトルを第１の基底行列Ｈから除外する。以上の処理により、第２基底行列作成部１０６は、音声信号の影響を取り除いた第２の基底行列Ｂを作成できる。

図７に、本実施形態の音響信号装置で推定された音声スペクトルの例を示す。同図の７０１は、音声信号と非音声信号が混ざり合った音響信号のスペクトログラムを示している。このスペクトログラムでは、黒色が音声信号の成分を灰色が非音声信号の成分をそれぞれ表している。推定された音声信号のスペクトログラムにおいて、黒色の表示が残り、灰色の表示が白色に変換されることが理想的な結果である。

７０２および７０３は、非音声と判別された区間７０５のスペクトログラムから作成された非音声信号の基底行列を用いて推定された音声信号のスペクトログラムを示している。７０２は第１の基底行列Ｈを用いた非負行列因子分解により音声信号のスペクトログラムを推定しており、７０３は第２の基底行列Ｂを用いた非負行列因子分解により音声信号のスペクトログラムを推定している。一方、７０４は、各フレームにおける音声尤度が低くかつ７０５より短い区間である７０６のスペクトログラムから作成された非音声信号の基底行列を用いて推定された音声信号のスペクトログラムを示している。図７の各スペクトログラムを比較すると、７０２および７０４は音声信号の成分を表す黒色の部分が削除されている。７０２は７０５の区間に含まれる音響信号の影響により、７０４は区間７０６が十分な長さを有していないことにより、非音声信号の基底行列の作成精度が低下したものと考えられる。一方、本実施形態の音響信号処理装置を用いた７０３のスペクトログラムは、音声信号の成分を残した上で非音声信号の成分を除去しており、より理想的な推定結果を示していることが分かる。

（効果）
このように、本実施形態の音響信号処理装置は、作成された非音声信号の第１の基底行列から音声信号との関連性が高い成分を除外することで第２の基底行列を作成する。これにより、非音声信号の基底行列を正確に作成することができ、結果として、音声信号の分離性能を向上させることができる。

（変形例）
本実施形態の音響信号処理装置では、音声信号と非音声信号の分離を対象としていたが、他の信号の分離に応用することもできる。例えば、音楽信号と非音楽信号の分離も同様な方法で実現することができる。

また、尤度計算部１０２がスペクトル特徴を用いて尤度を計算する場合は、スペクトル特徴抽出部１０４で抽出されたスペクトル特徴を用いてもよい。この場合、尤度計算部１０２は、スペクトル特徴抽出部１０４で抽出されたスペクトル特徴を音響特徴として利用することができる。

また、図７のステップＳ５０７およびＳ５０８では、ステップＳ５０６において非音声と判別されるたびに非音声信号の基底行列を作成したが、対象となる区間の１つ前の区間までに非音声信号の基底行列が既に作成されている場合は、ステップＳ５０７およびＳ５０８をスキップして既に作成された非音声信号の基底行列を用いて音声信号のスペクトログラムを推定することもできる。

また、本実施形態の音響信号処理装置は、音声・非音声判別部１０３で非音声と判別された区間のスペクトログラムから非音声信号の基底行列を作成したが、音響信号の先頭４００ｍｓの区間のスペクトログラムから非音声信号の基底行列を作成することもできる。この区間に音声信号が含まれていたとしても、第２基底行列作成部１０６によって音声信号の成分が除外されるため、作成される非音声信号の基底行列の精度を保つことができる。

なお、以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１響取得部
１０２尤度計算部
１０３音声・非音声判別部
１０４スペクトル特徴抽出部
１０５第１基底行列作成部
１０６第２基底行列作成部
１０７スペクトル特徴推定部
１０８逆変換部
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０６マイク
２０８バス
３０１非負行列因子分解
３０２音声尤度
３０３最大値を示す要素
４０１非負行列因子分解
４０２音声信号のスペクトログラム
７０１音響信号のスペクトログラム
７０２〜７０４推定された音声信号のスペクトログラム
７０５非音声信号と判別された区間
７０６音声尤度が低い区間

Claims

音声信号と非音声信号を含んだ音響信号を取得する音響取得手段と、
前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる尤もらしさを表す尤度を計算する尤度計算手段と、
前記音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行列を作成する第１基底行列作成手段と、
前記尤度を利用して、前記第１の基底行列において前記音声信号との関連性が高い成分を特定し、この成分を除外して第２の基底行列を作成する第２基底行列作成手段と、
前記スペクトル特徴を前記第２の基底行列を用いて非負行列因子分解することにより、前記音声信号のスペクトル特徴あるいは前記非音声信号のスペクトル特徴を推定するスペクトル特徴推定手段と、
を備えた音響信号処理装置。
前記スペクトル特徴推定手段が、前記第２の基底行列を用いた非負行列因子分解により、前記音声信号の特徴を表す第３の基底行列および第１の係数行列を作成し、この第３の基底行列と第１の係数行列の積により、前記音響信号に含まれる音声信号のスペクトル特徴を推定する請求項１記載の音響信号処理装置。
前記第２基底行列作成手段が、前記第１の基底行列から前記音声信号との関連性が高い列ベクトルを除外して前記第２の基底行列を作成する請求項１乃至請求項２記載の音響信号処理装置。
前記第２基底行列作成手段が、前記第１の基底行列から前記音声信号との関連性が高い列ベクトルの値を０に置き換えて前記第２の基底行列を作成する請求項１乃至請求項２記載の音響信号処理装置。
前記第２基底行列作成手段が、前記尤度と所定の閾値を比較することにより前記第１の基底行列において前記音声信号との関連性が高い成分を特定する請求項１から請求項４の何れか１項に記載の音響信号処理装置。
前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記音響信号が音声信号であるか非音声信号であるかを判別する音声・非音声判別手段を更に備え、
前記第１基底行列作成手段が、前記音声・非音声判別手段で非音声信号であると判別された前記音響信号のスペクトル特徴を利用して、前記非音声信号の特徴を表す第１の基底行列を作成する請求項１から請求項５の何れか１項に記載の音響信号処理装置。
前記スペクトル特徴推定手段が、前記第２の基底行列を用いた非負行列因子分解により、非音声信号の特徴を表す第２の係数行列を作成し、前記第２の基底行列とこの第２の係数行列の積により、前記音響信号に含まれる非音声信号のスペクトル特徴を推定する請求項１から請求項６の何れか１項に記載の音響信号処理装置。
前記スペクトル特徴推定手段で推定されたスペクトル特徴を時間信号に変換する逆変換手段を更に備える請求項１から請求項７の何れか１項に記載の音響信号処理装置。
第１の音響信号および前記第１の音響信号とは異なる第２の音響信号を含んだ第３の音響信号を取得する音響取得手段と、
前記第３の音響信号から前記第１の音響信号および前記第２の音響信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記第３の音響信号に前記第１の音響信号が含まれる尤もらしさを表す尤度を計算する尤度計算手段と、
前記第３の音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記第２の音響信号の特徴を表す第１の基底行列を作成する第１基底行列作成手段と、
前記尤度を利用して、前記第１の基底行列において前記第１の音響信号との関連性が高い成分を特定し、この成分を除外して第２の基底行列を作成する第２基底行列作成手段と、
前記スペクトル特徴を前記第２の基底行列を用いて非負行列因子分解することにより、前記第１の音響信号のスペクトル特徴あるいは前記第２の音響信号のスペクトル特徴を推定するスペクトル特徴推定手段と、
を備えた音響信号処理装置。
第１の音響信号および前記第１の音響信号とは異なる第２の音響信号を含んだ第３の音響信号を取得するステップと、
前記第３の音響信号から前記第１の音響信号および前記第２の音響信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記第３の音響信号に前記第１の音響信号が含まれる尤もらしさを表す尤度を計算するステップと、
前記第３の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第２の音響信号の特徴を表す第１の基底行列を作成するステップと、
前記尤度を利用して、前記第１の基底行列において前記第１の音響信号との関連性が高い成分を特定し、この成分を除外して第２の基底行列を作成するステップと、
前記スペクトル特徴を前記第２の基底行列を用いて非負行列因子分解することにより、前記第１の音響信号のスペクトル特徴あるいは前記第２の音響信号のスペクトル特徴を推定するステップと、
を備えた音響信号処理方法。