JP2015138100A

JP2015138100A - 音処理装置、音処理方法

Info

Publication number: JP2015138100A
Application number: JP2014008859A
Authority: JP
Inventors: 船越　正伸; Masanobu Funakoshi; 正伸船越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2015-07-30
Anticipated expiration: 2034-01-21
Also published as: US20150208167A1; US9648411B2; JP6274872B2

Abstract

【課題】目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元する技術を提供すること。
【解決手段】音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する。音響行列を基底スペクトル行列とアクティビティ行列とに分解する。基底スペクトル行列に含まれている基底を目的音に係る基底と雑音に係る基底とに分類する。アクティビティ行列に含まれている基底を目的音に係る基底と雑音に係る基底とに分類する。基底スペクトル行列から分類された雑音に係る基底から目的音に係る基底を求める。基底スペクトル行列から分類された目的音に係る基底とアクティビティ行列から分類された目的音及び雑音に係る基底と該求めた目的音に係る基底とを用いて目的音の周波数振幅値を要素とする行列を求める。該行列を用いて目的音の音響信号を生成する。
【選択図】図１

Description

本発明は、雑音を抑制しつつ目的音を収音するための技術に関するものである。

近年、カムコーダーやカメラ、スマートフォン等の普及により気軽に映像が撮影できるようになった。また、高音質録音が可能なポータブルオーディオレコーダーも多く普及しており、映像が付随する・しないに関わらず、あるいは屋内、屋外を問わず、周囲、もしくは目的物の音を録音、あるいは収音する機会が増えている。

このような収音信号において、屋内では空調やPC等の動作音、屋外では風雑音（風切り音）といった、目的とする音ではない雑音が混入すると、聴感上不快であり、また、音声認識する場合も阻害要因となる。そこで、収音信号における不要な雑音を抑制することは従来から重要な課題となっている。

音響信号から雑音を抑制する技術として、非負値行列因子分解（ＮＭＦ）を用いたものがある。これは、音響信号を短時間フーリエ変換し、係数の振幅絶対値を時間系列で並べた行列（以下、音響行列と呼称）を非負値行列因子分解によって基底スペクトル行列とアクティビティ行列とに分解するものである。そしてこれらの行列を、それぞれの音源に由来する成分に分離できるという仮定に基づいて、目的音に係る部分行列と雑音に係る部分行列に分類する。そして、目的音に関わる部分基底スペクトル行列である目的音基底スペクトル行列と、目的音に関わる部分アクティビティ行列である目的音アクティビティ行列を用いて、雑音が除去された目的音復元信号を復元する。なお、音響行列をその値によって色付けしてマップ表示したものを一般にスペクトログラムと呼称している。

例えば、特許文献１では、雑音除去対象である音響信号とは別に目的音と雑音をそれぞれ用意し、それらを事前学習することで目的音と雑音それぞれの教師基底スペクトル行列および教師アクティビティ行列を得る。そして教師基底スペクトル行列および、教師アクティビティ行列の統計量情報を用い、音響信号を時間周波数変換した行列を分解して目的音復元信号を得る。

特許文献２では、２ｃｈの音響信号それぞれを時間周波数変換した２つの行列を非負値行列因子分解する。そして、各ｃｈの基底行列の各列を構成する基底スペクトルについて、ｃｈ間の相関が高いものを雑音基底スペクトル、それ以外のものを目的音基底スペクトルとする。そして、目的音基底スペクトルで構成される目的音基底行列と、それに対応する目的音アクティビティ行列を用いて目的音復元信号を生成する。

特開２００９−１２８９０６号公報特開２０１２−２２１２０号公報

しかしながら、ＮＭＦを用いて音源を分離する従来の技術では、各基底スペクトルの成分が完全に唯一の音源の成分に由来するのではなく、複数の音源の成分が混じる場合がある。よって、雑音をＮＭＦで抑制する場合では、雑音基底スペクトル行列の一部に目的音の成分が含まれてしまうために、復元した目的音が劣化してしまうという課題があった。

例えば、特許文献１に開示の技術では、基底スペクトルとアクティビティの学習を事前に行うことにより、厳密に音源を分離することを試みているが、分離の結果、雑音基底スペクトル行列に目的音成分が含まれてしまうと、それを補正することはできない。そこで、ＮＭＦによって分離、復元した雑音信号に対して、目的音成分を抽出しようと試みる先行技術がある。

例えば、特許文献２に開示の技術では、ＮＭＦによって復元した目的音信号の調波構造に基づいて、復元雑音信号から残留成分を抽出しているが、目的音信号が調波構造を持たない場合はこの方法では抽出が難しい。

本発明はこのような問題に鑑み、目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元する技術を提供する。

本発明の一様態は、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第１の計算手段と、前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第１の計算手段が求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第２の計算手段と、前記第２の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段とを備えることを特徴とする。

本発明の構成によれば、目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元することができる。

音処理装置の機能構成例を示すブロック図。音処理装置が行う処理のフローチャート。ステップＳ８における処理の詳細を示すフローチャート。音処理装置の機能構成例を示すブロック図。音処理装置が行う処理のフローチャート。音処理装置の機能構成例を示すブロック図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の１つである。

［第１の実施形態］
本実施形態では、目的音を含む環境音の信号である音響信号を収集し、該収集した音響信号から、該目的音を高精度に復元して出力する音処理技術について説明する。先ず、本実施形態に係る音処理装置の機能構成例について、図１のブロック図を用いて説明する。

マイクロフォンユニット１は、目的音を含む環境音を収集し、該収集した環境音をアナログ音響信号に変換してマイクロフォンアンプ２に出力するものである。マイクロフォンアンプ２は、マイクロフォンユニット１から出力された微弱なアナログ音響信号を増幅して出力する。アナログデジタル変換器（ＡＤＣ）３は、マイクロフォンアンプ２によって増幅されたアナログ音響信号をデジタル音響信号に変換し、該変換したデジタル音響信号を収音信号として出力する。

ＳＴＦＴ（短時間フーリエ変換器）４は、ＡＤＣ３から出力された収音信号を予め定められたフレーム長ごとにフーリエ変換して、予め定められたフレーム長ごとの周波数領域信号（フーリエ係数群）を出力する。

音響行列生成器５は、ＳＴＦＴ４から出力される周波数領域信号（フーリエ係数群）を予め定められた時間長分まとめて、各フーリエ係数の絶対値振幅を計算することにより、収音信号の音響行列を生成する。また、音響行列生成器５は、この音響行列に対応する位相行列も生成する。

ＮＭＦ（非負値行列因子分解器）６は、音響行列生成器５が生成した音響行列に対して非負値行列因子分解を行い、該音響行列を基底スペクトル行列Ｈとアクティビティ行列Ｕとに分解して出力する。

基底分類器７は、ＮＭＦ６から出力された基底スペクトル行列Ｈから、目的音に係る基底から成る行列Ｈ_Ｔと、雑音に係る基底から成る行列Ｈ_Ｎと、を生成する。同様に、基底分類器７は、ＮＭＦ６から出力されたアクティビティ行列Ｕから、目的音に係る基底から成る行列Ｕ_Ｔと、雑音に係る基底から成る行列Ｕ_Ｎと、を生成する。

スペクトルヒストグラム計算器８は、音響行列生成器５が生成した音響行列において、各行のフーリエ係数値を加算することにより、音響行列における各スペクトル成分のヒストグラムを生成する。

雑音周波数閾値計算器９は、スペクトルヒストグラム計算器８が生成したヒストグラムを参照して、行列Ｈ_Ｎにおける雑音成分と目的音成分を判定する指標である雑音周波数閾値を計算する。

目的音成分抽出器１０は、雑音周波数閾値計算器９が求めた雑音周波数閾値を参照して、行列Ｈ_Ｎから目的音成分を抽出し、該抽出した目的音成分のフーリエ係数から成る抽出目的音基底スペクトル行列Ｈ_Ｅを生成して出力する。

目的音復元器１１は、行列Ｈ_Ｔ、Ｕ_Ｔ、Ｈ_Ｅ、Ｕ_Ｎを用いて、高精度の目的音の周波数領域信号を生成する。

ＳＴＩＦＴ（短時間逆フーリエ変換器）１２は、目的音復元器１１が生成した目的音の周波数領域信号に対して、フレーム単位の逆フーリエ変換を行い、時間領域信号に変換する。そしてＳＴＩＦＴ１２は、この変換した時間領域信号を、目的音の音響信号として出力する。

次に、このような構成を有する音処理装置により行われる、収音信号に含まれる雑音を抑制しつつ目的音を高精度に復元する一連の処理について、同処理のフローチャートを示す図２を用いて説明する。

上記の通り、マイクロフォンユニット１は、目的音を含む環境音を収集し、該収集した環境音をアナログ音響信号に変換し、マイクロフォンアンプ２は、マイクロフォンユニット１から出力された微弱なアナログ音響信号を増幅して出力する。そして、アナログデジタル変換器（ＡＤＣ）３は、マイクロフォンアンプ２によって増幅されたアナログ音響信号をデジタル音響信号に変換し、該変換したデジタル音響信号を収音信号として出力する。

ステップＳ１では、ＳＴＦＴ４は、ＡＤＣ３から出力された収音信号から、予め定められたフレーム長の部分収音信号（フレーム）を切り出す。ここで、今回切り出すフレームは、その前半部分が、前回切り出したフレームの後半部分と重なるように切り出す。

ステップＳ２では、ＳＴＦＴ４は、ステップＳ１で切り出したフレームに対して短時間フーリエ変換を施すことで、該フレームのフーリエ係数群を計算する。そして、音響行列生成器５は、ＳＴＦＴ４が求めたそれぞれのフーリエ係数の振幅絶対値を計算し、この計算したそれぞれの振幅絶対値を、音響行列においてまだ振幅絶対値が登録されていない列（未登録列）に登録する。なお、音響行列は、初期状態では、全ての列が未登録列である。つまり、音響行列の行は周波数を示し、列は時間を示すように、この音響行列にはフーリエ係数を登録する。また、音響行列生成器５は、各フーリエ係数の位相を、音響行列と同サイズの位相行列に登録する。

ステップＳ３では、音響行列生成器５は、音響行列に未登録列が残っているか否か、すなわち、予め定められた時間長分のフーリエ係数が登録された音響行列が完成したか否かを判断する。

この判断の結果、完成した場合には、処理はステップＳ４に進む。一方、まだ完成していない場合には、処理はステップＳ１に戻り、次のフレームについてステップＳ１以降の処理を繰り返す。

ステップＳ４では、ＮＭＦ６は、音響行列生成器５が生成した音響行列に対して非負値行列因子分解を行うことで、この音響行列を、基底スペクトル行列Ｈとアクティビティ行列Ｕとに分解する。ここで、音響行列をＶとすると、次の関係が成立する。

Ｖ≒ＨＵ（１）
ここで、基底スペクトル行列Ｈの各列を基底スペクトルと呼ぶ。また、アクティビティ行列Ｕの各行をアクティビティと呼ぶ。基底スペクトル行列Ｈにおけるｉ列目の基底スペクトルとアクティビティ行列Ｕにおけるｉ行目のアクティビティとは１対１で対応しており、この二つの行列積を取ることによって、音響行列を構成する基底毎の音響行列を求めることができる。

ステップＳ５では、基底分類器７は、基底スペクトル行列Ｈを構成する各基底を、目的音に係る基底と、雑音に係る基底と、に分類し、目的音に係る基底から成る行列Ｈ_Ｔと、雑音に係る基底から成る行列Ｈ_Ｎと、を生成する。同様に、基底分類器７は、アクティビティ行列Ｕを構成する各基底を、目的音に係る基底と、雑音に係る基底と、に分類し、目的音に係る基底から成る行列Ｕ_Ｔと、雑音に係る基底から成る行列Ｕ_Ｎと、を生成する。

基底分類の具体的な手法には様々なものが存在し、基底スペクトルの特性に着目して分類する手法や、アクティビティの特性に着目して分類する手法などがある。本実施形態においては、周波数特性に偏りを持つ風雑音などの雑音を想定し、基底スペクトルの重心周波数に着目して目的音に係る基底と雑音に係る基底とに分類する。雑音がある周波数成分に偏っているのに対して、一般に音声や音楽などの目的音は広い帯域に成分を持つと考えられるため、この性質を利用することによって基底を分類することが可能である。具体的には、基底スペクトル行列を構成する各基底スペクトルの重心周波数を求め、基底スペクトルとアクティビティをともに重心周波数順にソートすることによって分類できる。風雑音の場合は低域に偏った成分を持つため、その基底も重心周波数が低くなる。一方、目的音の基底の成分はより高域に広がって分布しているため、重心周波数が高くなる。よって、昇順にソートすると、ソート結果は雑音の度合いが高い基底から順に並ぶことになる。ここで、別の基準、例えば、分類後の基底を復元した信号のＳＮＲ、もしくは、既定の周波数閾値などによって目的音に係る基底と雑音に係る基底とを区分けすることによって、目的音に係る基底と雑音に係る基底の分類ができる。

ステップＳ６では、スペクトルヒストグラム計算器８は、音響行列生成器５が生成した音響行列における各スペクトル成分のヒストグラムを計算する。このヒストグラムは上記の通り、音響行列の行毎に、該行内のフーリエ係数値の総和を計算することで、各行に対するスペクトル成分のヒストグラムを生成することができる。

ステップＳ７では、雑音周波数閾値計算器９は、ステップＳ６で生成したヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域と、の境界部分を閾値（雑音成分の周波数閾値）として求める。

音響行列における周波数成分のバラつきを考えると、例えば、風雑音の場合は低域において一定の頻度で生じるのに対し、目的音は広い帯域でまばらに分散する。そこで、ヒストグラムは、風雑音成分が占める帯域では大きい値になるのに対し、目的音成分が存在する帯域では小さい値になる。つまり、風雑音が占める周波数帯域と、目的音成分が占める周波数帯域との間には、ヒストグラム上に値（ヒストグラム値）の段差ができる。この段差を検知することによって、雑音成分の周波数閾値を決定する。たとえば規定値以上の段差の部分を雑音成分の周波数閾値として決定する。

ステップＳ８では、目的音成分抽出器１０は、ステップＳ７で求めた閾値を用いて、行列Ｈ_Ｎから目的音成分を抽出し、該抽出した目的音成分のフーリエ係数から成る抽出基底スペクトル行列Ｈ_Ｅを生成する。ステップＳ８における処理を実施する方法には様々な方法が考えられるが、そのうちの１つを一例として、図３のフローチャートを用いて後述する。

ステップＳ９では、目的音復元器１１は、ステップＳ５で生成した行列Ｈ_Ｔ，Ｕ_Ｔ，Ｕ_Ｎと、ステップＳ８で求めた抽出基底スペクトル行列Ｈ_Ｅと、を用いて、高精度の目的音の周波数領域信号（音響行列）を復元する。具体的には、以下の式に従って、高精度の目的音の音響行列Ｖ_Ｔを復元する。

Ｖ_Ｔ＝Ｈ_ＴＵ_Ｔ＋Ｈ_ＥＵ_Ｎ（２）
この式（２）に示すように、本実施形態においては、従来は雑音成分とともに排除していた目的音成分（行列Ｈ_Ｅ）も目的音として復元されるため、より高精度な目的音を復元することができる。

ステップＳ１０で目的音復元器１１は、ステップＳ９で生成した目的音の音響行列（Ｖ_Ｔ）の各要素である周波数振幅値に対し、ステップＳ２で生成した位相行列の各要素（位相）を適用し、音響行列の各要素を位相情報を含むフーリエ係数に変換する。

ステップＳ１１では、ＳＴＩＦＴ１２は、ステップＳ１０で位相行列を適用した音響行列の各列に対して短時間逆フーリエ変換を行い、得られた時間領域信号をフレーム長を半分ずつずらして加算することにより、復元した目的音の時間信号を出力する。出力先については特定の出力先に限るものではなく、データとしてメモリに格納しても良いし、アナログ信号に変換してからスピーカを介して音として出力しても構わない。

本装置に収音終了指示が入力されるなど、図２のフローチャートに従った処理の終了条件が満たされた場合には、処理はステップＳ１２を介して終了する。一方、終了条件が満たされていない場合には、処理はステップＳ１２を介してステップＳ１に戻る。

次に、上記のステップＳ８における処理の詳細について、図３のフローチャートを用いて説明する。ここで、図３（ａ）に示したフローチャートは、行列Ｈ_Ｎを構成する全ての基底から、目的音に係る基底を求める処理のフローチャートである。また、図３（ｂ）のフローチャートは、行列Ｈ_Ｎを構成する全ての基底のうち目的音の成分を含む基底から、目的音に係る基底を求める処理のフローチャートである。ステップＳ８には、図３（ａ）に示したフローチャートに従った処理、図３（ｂ）のフローチャートに従った処理、の何れも適用可能である。先ず、図３（ａ）のフローチャートに従った処理について説明する。

ステップＳ１０１では、ステップＳ７で求めた雑音周波数閾値をカットオフ周波数とするハイパスフィルタ（ＨＰＦ）を生成する。このとき、フィルタのゲインとＱ値は予め定めた値を用いて生成する。なお、生成したＨＰＦのフィルタ係数は時間領域から、行列Ｈ_Ｎを構成する基底と同じ解像度を持つ周波数領域係数に変換し、さらに振幅絶対値に変換しておく。

ステップＳ１０２では、行列Ｈ_Ｎに含まれる基底スペクトルのうち、次の処理対象となる基底スペクトル（雑音基底スペクトル）を選択する。本実施形態では、行列Ｈ_Ｎにおいて左端の列の基底スペクトルを第１回目の選択対象とし、左端から２列目の基底スペクトルを第２回目の選択対象とする。このように、左端から右端にいたるまでの各列の基底スペクトルを順次選択する。

ステップＳ１０３では、ステップＳ１０２で選択した雑音基底スペクトルに対して、ステップＳ１０１で生成したＨＰＦのフィルタ係数を周波数領域で畳み込む。ここで、フィルタ係数は振幅の絶対値、つまり、各周波数成分の重みとなっているので、この処理によって、雑音基底スペクトルを構成する各周波数成分がフィルタ係数によって重み付けされることになる。この処理の結果、ステップＳ１０２で選択した雑音基底スペクトルにおいて、雑音周波数閾値以下の成分が抑制されるため、結果的に雑音周波数閾値より高域の成分が抽出されることになる。

ステップＳ１０４では、行列Ｈ_Ｎに含まれる全ての基底スペクトルを選択したか否か、即ち、行列Ｈ_Ｎに含まれる全ての雑音基底スペクトルに対してステップＳ１０３の処理を施したか否かを判断する。この判断の結果、全ての基底スペクトルを選択した場合には、処理はステップＳ１０５に進み、まだ選択していない基底スペクトルが残っている場合には、処理はステップＳ１０２に戻り、未選択の基底スペクトルについて以降の処理を繰り返す。

ステップＳ１０５では、各基底スペクトルについて上記の畳み込み演算がなされた行列Ｈ_Ｎを、抽出基底スペクトル行列Ｈ_Ｅとして、目的音復元器１１に対して送出する。

このように、図３（ａ）のフローチャートに従った処理では、全ての雑音基底スペクトル列に対して一律に周波数閾値より高域の成分を抽出することによって、目的音成分を抽出する。しかし、全ての雑音基底に目的音成分が含まれているかどうかは分からないので、図３（ａ）のフローチャートに従った処理では、結果として無駄な処理をしている場合があるし、また、目的音成分以外の微小な雑音を抽出している可能性もある。そこで、各雑音基底スペクトルに目的音が含まれているかどうかを検出し、その状況に応じてより高精度に抽出することを試みている処理が、図３（ｂ）に示されている。なお、図３（ｂ）のフローチャートに従った処理を実行する場合、上記のステップＳ６及びＳ７における処理は不要となる。

ステップＳ１１１では、目的音成分が行列Ｈ_Ｎに含まれているかどうかを判定するための指標であるレベル閾値を決定する。例えば、行列Ｈ_Ｎ中の周波数成分の絶対振幅値のうち、最大の振幅値を規準として、その値から５０ｄＢ減じた値をレベル閾値とする。もちろん、レベル閾値を決定する方法はこれに限るものではない。ステップＳ１１２では、上記のステップＳ１０２と同様の処理を実行する。

ステップＳ１１３では、ステップＳ１１２で選択された雑音基底スペクトルの振幅が、ステップＳ１１１で決定したレベル閾値以下となる最低の周波数を探索し、この周波数を雑音周波数閾値として決定する。雑音基底スペクトルには、必ず雑音成分が含まれているので、低域に周波数成分の塊が存在する。この処理では、その塊の切れ目となっている周波数を探索し、その周波数までの成分を雑音成分として取り扱う。

ステップＳ１１４では、ステップＳ１１２で選択された雑音基底スペクトルにおいて、ステップＳ１１３で決定した雑音周波数閾値よりも高い周波数帯域において、ステップＳ１１１で決定したレベル閾値より大きい振幅を持つ成分があるかどうかを探索する。この探索の結果、ステップＳ１１１で決定したレベル閾値より大きい振幅を持つ成分がある場合には、処理はステップＳ１１５に進み、ない場合は、この雑音基底スペクトルには目的音成分が含まれていないとみなし、処理はステップＳ１１２に戻る。

ステップＳ１１５では、ステップＳ１１４で見つかったレベル閾値以上の振幅を持つ成分が現れる最低の周波数を、抽出周波数閾値として決定する。つまり、図３（ｂ）のフローチャートに従った処理では、雑音基底スペクトル毎に、目的音成分として抽出する周波数帯域を変化させる。こうすることにより、無駄な情報を抽出することを避け、目的音成分のみを高精度で抽出することができる。

ステップＳ１１６では、ステップＳ１１５で決定した抽出周波数閾値をカットオフ周波数とするハイパスフィルタを生成する。上記のステップＳ１０１と同様に、フィルタのゲインとＱ値は予め定めた値を用い、フィルタ係数は時間領域から、行列Ｈ_Ｎを構成する基底と同じ解像度を持つ周波数領域係数に変換し、さらに絶対振幅値に変換しておく。そして、ステップＳ１１７、Ｓ１１８、Ｓ１１９ではそれぞれ、ステップＳ１０３、Ｓ１０４、Ｓ１０５と同様の処理を行うので、これらのステップに係る説明は省略する。

このように、本実施形態によれば、ＮＭＦによって分解、分離した雑音基底に含まれる目的音成分を抽出し、新たな目的音基底として用いるので、より高精度に目的音を復元することができる。

［第２の実施形態］
第１の実施形態では、規定スペクトル行列Ｈから分類された行列Ｈ_Ｎから、目的音に係る基底から成る行列Ｈ_Ｅを生成し、該生成した行列Ｈ_Ｅを用いて目的音の復元を行っていた。

本実施形態では、規定スペクトル行列Ｈから分類された行列Ｈ_Ｎから、高精度に復元した雑音に係る基底から成る行列Ｈ_ＦＮを生成し、該生成した行列Ｈ_ＦＮを用いて収音信号に含まれている雑音を抑制することで、目的音の復元を行う。

先ず、本実施形態に係る音処理装置の機能構成例について、図４のブロック図を用いて説明する。図４において図１と同じ機能部には同じ参照番号を付しており、この機能部に係る説明は省略する。

目的音成分除去器１０１は、雑音周波数閾値計算器９が求めた雑音周波数閾値を参照して、行列Ｈ_Ｎから目的音成分を抑制した行列である高精度雑音基底スペクトル行列Ｈ_ＦＮを生成する。

雑音復元器１０２は、高精度雑音基底スペクトル行列Ｈ_ＦＮとＵ_Ｎとを用いて、高精度の雑音の音響行列を生成する。スペクトル減算器１０３は、収音信号の音響行列から、高精度の雑音の音響行列を減算することにより、高精度の目的音の音響行列を生成する。また、雑音復元器１０２は、目的音復元器１１と同様に、この音響行列に対して位相行列を適用して、音響行列の各要素を位相情報を含むフーリエ係数に変換する。

ＳＴＩＦＴ（短時間逆フーリエ変換器）１０４は、スペクトル減算器１０３が生成した高精度の目的音の音響行列に対して、フレーム単位の逆フーリエ変換を行い、時間領域信号に変換することにより、高精度の目的音信号を出力する。

次に、このような構成を有する音処理装置により行われる、収音信号に含まれる雑音を抑制しつつ目的音を高精度に復元する一連の動作について、同処理のフローチャートを示す図５を用いて説明する。なお、ステップＳ２０１〜Ｓ２０７のそれぞれにおける処理は、図２のステップＳ１〜Ｓ７における処理と同様であるので、これらのステップに係る説明は省略する。

ステップＳ２０８では、目的音成分除去器１０１は、ステップＳ２０７で決定した雑音周波数閾値を参照して、行列Ｈ_Ｎから目的音成分を抑制した行列である高精度雑音基底スペクトル行列Ｈ_ＦＮを生成する。

本ステップでは、例えば、図３（ａ）に示したフローチャートにおいて、ステップＳ１０１でハイパスフィルタを生成する代わりに、雑音周波数閾値をカットオフ周波数とするローパスフィルタを生成する。そしてステップＳ１０３では、選択した基底スペクトルに対してローパスフィルタを適用して、該基底スペクトルから目的音成分（高周波数帯域の成分）を排除し、高精度雑音基底スペクトル行列Ｈ_ＦＮを生成する。

ステップＳ２０９では、雑音復元器１０２は、ステップＳ２０８で求めた高精度雑音基底スペクトル行列Ｈ_ＦＮと、上記の行列Ｕ_Ｎと、の行列積を計算して、高精度の雑音の音響行列を求める。すなわち、高精度の雑音の音響行列をＶ_Ｎとすると、この音響行列Ｖ_Ｎは以下の式に従って求める。

Ｖ_Ｎ＝Ｈ_ＦＮＵ_Ｎ（３）
この式（３）に示すように、本実施形態では、目的音成分を排除してより高精度化した基底スペクトル行列を用いるため、より高精度な雑音の音響行列を復元することができる。

ステップＳ２１０では、スペクトル減算器１０３は、収音信号の音響行列から、ステップＳ２０９で求めた音響行列を減算することにより、高精度の目的音の音響行列を生成する。

ステップＳ２１１では、雑音復元器１０２は、目的音復元器１１と同様に、ステップＳ２１０で生成した音響行列に対して位相行列を適用して、音響行列の各要素を位相情報を含むフーリエ係数に変換する。ステップＳ２１２〜Ｓ２１３のそれぞれにおける処理は、図２のステップＳ１１〜Ｓ１２における処理と同様であるので、これらのステップに係る説明は省略する。

このように、本実施形態によれば、雑音に係る基底から目的音成分を排除することにより、高精度に雑音を復元することができるため、入力信号から復元雑音信号を抑制する場合においても、より高精度に抑制を行うことができる。

＜第１，２の実施形態の変形例＞
第１，２の実施形態では、具体的な説明を行うために、いくつか具体例を挙げて説明したが、上記の実施形態の適用対象は、上記の具体例に限るものではない。例えば、第２の実施形態では、目的音成分を排除した高精度な雑音復元信号を用いて収音信号に含まれる雑音成分を抑制する方法として、スペクトル減算を用いているが、その代わりにウィナーフィルタを用いて実施することもできる。ウィナーフィルタを用いて収音信号に含まれる雑音信号を抑制する音処理装置の機能構成例を図６に示す。図６において、図４に示した機能部と同じ機能部については同じ参照番号を付しており、これらの機能部に係る説明は省略する。

スペクトル係数計算器１１１は、雑音復元器１０２が生成した高精度の周波数領域の雑音復元信号を参照し、雑音成分を抑制するようにスペクトル成分の重み付けを行い、その重み付けを用いてウィナーフィルタ１１２を設計する。然るに、収音信号の音響行列に対してウィナーフィルタ１１２が適用されることで、収音信号に含まれる雑音を高精度に抑制することができる。

また、上記の実施形態では、外部から収音した音の音響信号から目的音の音響信号を高精度に復元するようにしていた。しかし、本装置の内部若しくは外部に設けられているメモリに予めに記録しておいた音響信号から目的音の音響信号を高精度に復元するようにしても良い。

また、図１，４，６に示した各機能部は何れもハードウェアで構成しても良いが、マイクロフォンユニット１、マイクロフォンアンプ２、ＡＤＣ３、を除く各機能部のうち１以上をソフトウェア（コンピュータプログラム）で実装しても良い。この場合、音処理装置が有するＣＰＵ等のプロセッサがこのコンピュータプログラムを実行することで、対応する機能部の機能が実現されることになる。

また、第１，２の実施形態では、周波数変換としてフーリエ変換を行ったが、これ以外の周波数変換方法を用いても構わない。また、上記で説明した様々な実施形態や変形例は適宜組み合わせて使用することも可能である。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、
前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、
前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、
前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第１の計算手段と、
前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第１の計算手段が求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第２の計算手段と、
前記第２の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段と
を備えることを特徴とする音処理装置。
前記第１の計算手段は、
前記音響行列の各行に対するスペクトル成分のヒストグラムを生成する手段と、
前記ヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域との境界部分を閾値として求める手段と、
前記基底スペクトル行列から分類された雑音に係る基底に対し、前記閾値をカットオフ周波数とするハイパスフィルタを適用して、目的音に係る基底を求める手段と
を備えることを特徴とする請求項１に記載の音処理装置。
前記第１の計算手段は、
前記基底スペクトル行列から分類された雑音に係る基底から成る行列の各列のうち、目的音の成分を含む列を特定し、該特定した列のスペクトル成分に応じたカットオフ周波数を有するハイパスフィルタを該列に適用して、目的音に係る基底を求める手段と
を備えることを特徴とする請求項１に記載の音処理装置。
前記第２の計算手段は、前記基底スペクトル行列から分類された目的音に係る基底から成る行列と前記アクティビティ行列から分類された目的音に係る基底から成る行列との行列積と、前記アクティビティ行列から分類された雑音に係る基底から成る行列と前記第１の計算手段が求めた目的音に係る基底から成る行列との行列積と、の和を、前記目的音の周波数振幅値を要素とする行列として求めることを特徴とする請求項１乃至３の何れか１項に記載の音処理装置。
目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、
前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、
前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、
前記基底スペクトル行列から分類された雑音に係る基底から、該基底の高周波数帯域の成分を抑制した基底を求める第１の計算手段と、
前記アクティビティ行列から分類された雑音に係る基底と、前記第１の計算手段が求めた基底と、を用いて、前記雑音の周波数振幅値を要素とする行列を求める第２の計算手段と、
前記音響行列と前記第２の計算手段が求めた行列とを用いて、前記目的音の周波数振幅値を要素とする行列を求める第３の計算手段と、
前記第３の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段と
を備えることを特徴とする音処理装置。
前記第１の計算手段は、
前記音響行列の各行に対するスペクトル成分のヒストグラムを生成する手段と、
前記ヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域との境界部分を閾値として求める手段と、
前記基底スペクトル行列から分類された雑音に係る基底に対し、前記閾値をカットオフ周波数とするローパスフィルタを適用する手段と
を備えることを特徴とする請求項５に記載の音処理装置。
前記第２の計算手段は、前記アクティビティ行列から分類された雑音に係る基底から成る行列と、前記第１の計算手段が求めた基底から成る行列と、の行列積を、前記雑音の周波数振幅値を要素とする行列として求めることを特徴とする請求項５又は６に記載の音処理装置。
前記第３の計算手段は、前記音響行列から前記第２の計算手段が求めた行列を減算することで、前記目的音の周波数振幅値を要素とする行列を求めることを特徴とする請求項５乃至７の何れか１項に記載の音処理装置。
前記第３の計算手段は、前記第２の計算手段が求めた行列を用いて、雑音成分を抑制するためのウィナーフィルタを生成し、該ウィナーフィルタを前記音響行列に対して適用することで、前記目的音の周波数振幅値を要素とする行列を求めることを特徴とする請求項５乃至７の何れか１項に記載の音処理装置。
音処理装置が行う音処理方法であって、
前記音処理装置の音響行列を生成する手段が、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する工程と、
前記音処理装置の分解手段が、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する工程と、
前記音処理装置の分類手段が、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する工程と、
前記音処理装置の第１の計算手段が、前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第１の計算工程と、
前記音処理装置の第２の計算手段が、前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第１の計算工程で求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第２の計算工程と、
前記音処理装置の生成手段が、前記第２の計算工程で求めた行列を用いて、前記目的音の音響信号を生成する生成工程と
を備えることを特徴とする音処理方法。
音処理装置が行う音処理方法であって、
前記音処理装置の音響行列を生成する手段が、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する工程と、
前記音処理装置の分解手段が、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する工程と、
前記音処理装置の分類手段が、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する工程と、
前記音処理装置の第１の計算手段が、前記基底スペクトル行列から分類された雑音に係る基底から、該基底の高周波数帯域の成分を抑制した基底を求める第１の計算工程と、
前記音処理装置の第２の計算手段が、前記アクティビティ行列から分類された雑音に係る基底と、前記第１の計算工程で求めた基底と、を用いて、前記雑音の周波数振幅値を要素とする行列を求める第２の計算工程と、
前記音処理装置の第３の計算手段が、前記音響行列と前記第２の計算工程で求めた行列とを用いて、前記目的音の周波数振幅値を要素とする行列を求める第３の計算工程と、
前記音処理装置の生成手段が、前記第３の計算工程で求めた行列を用いて、前記目的音の音響信号を生成する生成工程と
を備えることを特徴とする音処理方法。
コンピュータを、請求項１乃至９の何れか１項に記載の音処理装置の各手段として機能させるためのコンピュータプログラム。