JP2012163676A - 音響処理装置 - Google Patents

音響処理装置 Download PDF

Info

Publication number
JP2012163676A
JP2012163676A JP2011022633A JP2011022633A JP2012163676A JP 2012163676 A JP2012163676 A JP 2012163676A JP 2011022633 A JP2011022633 A JP 2011022633A JP 2011022633 A JP2011022633 A JP 2011022633A JP 2012163676 A JP2012163676 A JP 2012163676A
Authority
JP
Japan
Prior art keywords
band
normality
component
acoustic
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011022633A
Other languages
English (en)
Other versions
JP5621637B2 (ja
Inventor
Yu Takahashi
祐 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011022633A priority Critical patent/JP5621637B2/ja
Publication of JP2012163676A publication Critical patent/JP2012163676A/ja
Application granted granted Critical
Publication of JP5621637B2 publication Critical patent/JP5621637B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)

Abstract

【課題】音響成分の定常性の有無に関わらず特定の音響成分を高精度に抑圧または強調する。
【解決手段】変化度算定部42は、音響信号x(t)の複数の帯域成分X[k,m]の各々について、音響信号x(t)の強度分布の非正規性と音響信号x(t)から当該帯域成分X[k,m]を除去した場合の強度分布の非正規性との相違を示す非正規性変化度V[k,m]を算定する。要素値設定部44は、複数の帯域成分X[k,m]の各々について当該帯域成分X[k,m]の非正規性変化度V[k,m]に応じた要素値g[k,m]を設定する。信号処理部36は、音響信号x(t)の各帯域成分X[k,m]に当該帯域成分X[k,m]の要素値g[k,m]を作用させる。
【選択図】図1

Description

本発明は、音響信号のうち特定の音響成分を強調または抑圧する技術に関する。
複数の音響成分の混合音を収音した音響信号のうち特定の音響成分を選択的に強調または抑圧する技術が従来から提案されている。例えば非特許文献1には、周波数領域で音響信号から雑音成分を減算(スペクトル減算)することで目標の音響成分を強調する技術が開示されている。また、非特許文献2には、音響信号と雑音成分とから算定されるSN比(事前SN比,事後SN比)を利用して振幅推定誤差が最小となるように目標の音響成分を抽出する技術(MMSE-STSA:Minimum Mean Square Error Short Time Spectral Amplitude)が開示されている。
S.F.Boll, "Suppression of acoustic noise in using spectral subtraction", IEEE Trans., Acoust. Speech Signal Process., vol. ASSP-27, no.2, p.113-120, Apr., 1979 Ephraim U., Malah D.,"Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator", IEEE Trans., Acoust. Speech Signal Process., vol. ASSP-32, no.6, p.1109-1121, Dec., 1984
非特許文献1および非特許文献2では、音響信号のうち目標の音響成分が存在しない区間内で音響信号の周波数スペクトルを累算することで雑音成分が推定される。したがって、抑圧対象となる雑音成分は、時間的な変動が少ない定常的な音響成分である必要がある。以上の事情を考慮して、本発明は、音響成分の定常性の有無に関わらず特定の音響成分を高精度に抑圧または強調することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音響処理装置は、音響信号(例えば音響信号x(t))の強度分布の非正規性と音響信号から特定の帯域成分(例えば帯域成分X[k,m])を除去した場合の強度分布の非正規性との相違を示す非正規性変化度(例えば非正規性変化度V[k,m])を算定する変化度算定手段(例えば変化度算定部42)と、非正規性変化度に応じて要素値(例えば要素値g[k,m])を設定する要素値設定手段(例えば要素値設定部44)と、帯域成分に要素値を作用させる信号処理手段(例えば信号処理部36)とを具備する。以上の構成では、音響信号から帯域成分を除去した場合の強度分布の非正規性の変化の度合(すなわち音源分離に寄与する度合)を示す非正規性変化度に応じて要素値が可変に設定される。したがって、音響信号の各音響成分の定常性の有無に関わらず、音響信号の特定の音響成分を高精度に強調または抑圧することが可能である。
本発明の好適な態様において、要素値設定手段は、非正規性変化度が示す非正規性の相違が大きい場合に帯域成分の要素値を第1値(例えば数値γ0および数値γ1の一方)に設定し、非正規性変化度が示す非正規性の相違が小さい場合に帯域成分の要素値を第1値とは相違する第2値(例えば数値γ0および数値γ1の他方)に設定する。以上の態様では、要素値が第1値および第2値の何れかに設定されるから、要素値の設定を簡素化しながら各音響成分を明確に区別することが可能である。
本発明の好適な態様において、変化度算定手段は、音響信号の複数の帯域(例えばK個の帯域W[1]〜W[K])の各々について非正規性変化度を算定し、要素値設定手段は、複数の帯域の各々について当該帯域の非正規性変化度に応じた要素値を算定し、信号処理手段は、複数の帯域成分の各々に当該帯域の要素値を作用させる。以上の態様では、非正規性変化度の算定と要素値の設定と要素値を適用した処理とを音響信号の複数の帯域の各々について個別に実行することが可能である。
本発明の好適な態様において、変化度算定手段は、第1音響信号(例えば音響信号xL(t))と第2音響信号(例えば音響信号xR(t))とを含むステレオ形式の音響信号の帯域毎に非正規性変化度を算定し、要素値設定手段は、各帯域の非正規性変化度に応じた要素値を設定し、信号処理手段は、第1音響信号および第2音響信号の各々の各帯域成分に要素値を作用させる。以上の態様では、特定の音響成分を強調または抑圧したステレオ形式の音響信号を生成することが可能である。なお、以上の態様の具体例は例えば第2実施形態として後述される。
音響信号がステレオ信号である構成の第1態様の音響処理装置は、第1音響信号と第2音響信号との間で各帯域成分の類否を示す類否指標(例えば類否指標λ[k,m])を算定する類否指標算定手段(例えば類否指標算定部46)を具備し、要素値設定手段は、各帯域の非正規性変化度と当該帯域の類否指標とに応じた要素値を算定する。以上の態様では、音響信号の各帯域の非正規性変化度と当該帯域成分の類否指標とに応じて要素値が設定されるから、音響成分の定位方向(類否指標)と各音響成分の音源分離に対する寄与度(非正規性変化度)との双方を加味して第1音響信号および第2音響信号を処理することが可能である。なお、以上の態様の具体例は例えば第3実施形態として後述される。
音響信号がステレオ信号である構成の第2態様の音響処理装置は、第1音響信号と第2音響信号との間で各帯域成分の類否を示す類否指標(例えば類否指標λ[k,m])を算定する類否指標算定手段(例えば類否指標算定部46)と、類否指標に応じて帯域を選択する帯域選択手段(例えば帯域選択部48)とを具備し、変化度算定手段は、複数の帯域のうち帯域選択手段が選択した帯域について非正規性変化度を算定する。以上の態様では、類否指標に応じて選択された帯域(すなわち特定の方向に定位する音響成分を含む帯域)について選択的に非正規性変化度が算定されるから、全部の帯域について非正規性変化度を算定する構成と比較して変化度算定手段による処理負荷が軽減されるという利点がある。なお、以上の態様の具体例は例えば第4実施形態として後述される。
本発明の好適な態様に係る音響処理装置は、音響信号の複数の処理帯域(例えば処理帯域B[f])の各々について閾値(例えば閾値Vth[f])を設定する閾値設定手段(例えば閾値設定部52)を具備し、変化度算定手段は、複数の処理帯域の各々について、当該処理帯域内の帯域成分毎に、当該処理帯域内の強度分布の非正規性と当該処理帯域から当該帯域成分を除去した場合の強度分布の非正規性との相違を示す非正規性変化度を算定し、要素値設定手段は、複数の処理帯域の各々について、当該処理帯域内の帯域成分毎に、当該帯域成分の非正規性変化度と当該処理帯域について閾値設定手段が設定した閾値との比較の結果に応じて要素値を算定する。以上の態様では、音響信号を区分した処理帯域毎の閾値を利用して各帯域成分の要素値が設定されるから、所望の音響成分を高精度に強調または抑圧することが可能である。複数の処理帯域の各々は、相異なる帯域幅に設定され得る。なお、以上の態様の具体例は例えば第5実施形態として後述される。
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音響信号の強度分布の非正規性と音響信号から特定の帯域成分を除去した場合の強度分布の非正規性との相違を示す非正規性変化度を算定する変化度算定処理と、非正規性変化度に応じて要素値を設定する要素値設定処理と、帯域成分に要素値を作用させる信号処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音響処理装置のブロック図である。 音響成分の混合/分離と強度分布の非正規性との関係を示す模式図である。 数値列生成部の動作のフローチャートである。 第2実施形態の音響処理装置のブロック図である。 第3実施形態における数値列生成部のブロック図である。 第4実施形態における数値列生成部のブロック図である。 第5実施形態における数値列生成部のブロック図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号x(t)を音響処理装置100に供給する。音響信号x(t)は、以下の数式(1)で表現されるように、相異なる発音源から発音された音響成分xA(t)と音響成分xB(t)との混合音の波形を示す時間領域信号(t:時間)である。例えば、音響成分xA(t)は歌唱音や発話音等の音声であり、音響成分xB(t)は楽器の演奏音等の複数種の楽音の混合音である。
Figure 2012163676
例えば周囲の音響を収音して音響信号x(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号x(t)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号x(t)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
音響処理装置100は、音響信号x(t)に対する信号処理で音響信号y(t)を生成する信号処理装置である。具体的には、音響処理装置100は、音響信号x(t)のうちの音響成分xB(t)を抑圧する(音響成分xA(t)と音響成分xB(t)とを分離する)ことで音響信号y(t)を生成する。音響処理装置100による処理後の音響信号y(t)は放音装置14に供給される。放音装置14(例えばスピーカやヘッドホン)は、音響信号y(t)に応じた音響を再生する。
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種の情報を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に利用される。音響信号x(t)を記憶装置24に格納した構成(したがって信号供給装置12は省略され得る)も好適である。演算処理装置22は、記憶装置24に格納されたプログラムを実行することで複数の機能(周波数解析部32,数値列生成部34,信号処理部36,波形合成部38)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
周波数解析部32は、音響信号x(t)を周波数軸上の帯域W[k](k=1,2,……,K)毎に区分したK個の帯域成分X[k,m](X[1,m]〜X[K,m])を単位期間毎に順次に生成する。記号mは時間軸上の時点(例えば単位期間の番号)を指定する変数である。例えば周波数解析部32は、短時間フーリエ変換等の公知の周波数分析により音響信号x(t)の周波数スペクトルを単位期間毎に算定することでK個の帯域成分X[1,m]〜X[K,m]を単位期間毎に生成する。なお、通過帯域が相違する複数の帯域通過フィルタ(フィルタバンク)も周波数解析部32として採用され得る。
数値列生成部34は、音響信号x(t)の音響成分xB(t)を抑圧するための処理係数列G[m]を単位期間毎に順次に生成する。処理係数列G[m]は、相異なる帯域W[k](帯域成分X[k,m])に対応するK個の要素値g[k,m](g[1,m]〜g[K,m])の系列である。要素値g[k,m]は、音響信号x(t)の帯域成分X[k,m]に対する利得(スペクトルゲイン)を意味する。
信号処理部36は、数値列生成部34が生成した処理係数列G[m]を音響信号x(t)の各帯域成分X[k,m](X[1,m]〜X[K,m])に作用させることで音響信号y(t)の帯域成分Y[k,m](Y[1,m]〜Y[K,m])を単位期間毎に順次に生成する。具体的には、以下の数式(2)で表現されるように、帯域W[k]と時刻(単位期間)とが相互に共通する帯域成分X[k,m]と要素値g[k,m]との乗算で音響信号y(t)の帯域成分Y[k,m]が算定される。
Figure 2012163676
処理係数列G[m]の各要素値g[k,m]は、音響信号x(t)の特性に応じて数値γ0または数値γ1に設定される。数値γ0は、信号処理部36による処理で帯域成分X[k,m]を抑圧する数値であり、数値γ1は、信号処理部36による処理で帯域成分X[k,m]を維持する数値(帯域成分X[k,m]を通過させる数値)である。例えば数値γ0は0に設定され、数値γ1は1に設定される。数値列生成部34は、音響信号x(t)のうち音響成分xA(t)が優勢な帯域成分X[k,m]に対応する要素値g[k,m]を数値γ1に設定し、音響信号x(t)のうち音響成分xB(t)が優勢な帯域成分X[k,m]に対応する要素値g[k,m]を数値γ0に設定する。したがって、音響成分xA(t)を強調するとともに音響成分xB(t)を抑圧したK個の帯域成分Y[k,m](Y[1,m]〜Y[K,m])が信号処理部36による処理で単位期間毎に生成される。
波形合成部38は、信号処理部36が単位期間毎に生成した各帯域成分Y[k,m]から時間領域の音響信号y(t)を生成する。具体的には、波形合成部38は、単位期間毎のK個の帯域成分Y[k,m]の系列を逆フーリエ変換で時間領域に変換するとともに前後の単位期間について相互に連結することで音響信号y(t)を生成する。波形合成部38が生成した音響信号y(t)が放音装置14から再生される。
数値列生成部34による各要素値g[k,m]の設定について以下に詳述する。以下の説明では、図2に示すように音響の強度分布(度数分布)の非正規性に着目する。強度分布の非正規性とは、正規分布との相違の度合を意味する。すなわち、強度分布の形状が正規分布から乖離するほど非正規性は上昇する。
前述のように音響信号x(t)は音響成分xA(t)と音響成分xB(t)との混合音である。音響成分xA(t)と音響成分xB(t)との混合の結果、音響信号x(t)の強度分布は、図2に示すように、混合前の音響成分xA(t)および音響成分xB(t)の各々の強度分布と比較して正規分布に近付く(中心極限定理)。すなわち、音響成分xA(t)と音響成分xB(t)との混合は、強度分布の非正規性を低下させる処理に相当する。他方、音響信号x(t)を音響成分xA(t)と音響成分xB(t)とに分離する処理(音源分離)は、強度分布の非正規性を上昇させる処理に相当する。
以上の説明から理解されるように、K個の帯域成分X[1,m]〜X[K,m]のうち音響信号x(t)から除去した場合に強度分布の非正規性が大きく上昇する帯域成分X[k,m]は音源分離に寄与し、音響信号x(t)から除去しても強度分布の非正規性がそれほど上昇しない帯域成分X[k,m]は音源分離に寄与しないと評価できる。そこで、第1実施形態では、帯域成分X[k,m]を除去した場合に強度分布の非正規性が変化(上昇)する度合に応じて音響成分xA(t)と音響成分xBとを区別する。
前述のように音響成分xA(t)は歌唱音や発話音等の音声であり、音響成分xB(t)は複数種の楽音の混合音である。音響成分の混合で強度分布の非正規性は低下するから(中心極限定理)、音響成分xA(t)の強度分布の非正規性は音響成分xB(t)の強度分布の非正規性を上回る。非正規性が高い音響成分xA(t)が帯域成分X[k,m]にて優勢である場合、帯域成分X[k,m]を音響信号x(t)から除去することで強度分布の非正規性は大きく上昇する(すなわち音源分離に大きく寄与する)。他方、非正規性が低い音響成分xB(t)が帯域成分X[k,m]にて優性である場合、帯域成分X[k,m]を音響信号x(t)から除去しても強度分布の非正規性はそれほど上昇しない(すなわち音源分離にそれほど寄与しない)。
以上の傾向を考慮して、第1実施形態の数値列生成部34は、音響信号x(t)から除去した場合に強度分布の非正規性が大きく上昇する帯域成分X[k,m]を音響成分xA(t)と推定して要素値g[k,m]を数値γ1(帯域成分X[k,m]を通過させる数値)に設定し、音響信号x(t)から除去した場合に非正規性がそれほど上昇しない帯域成分X[k,m]を音響成分xB(t)と推定して要素値g[k,m]を数値γ0(帯域成分X[k,m]を抑圧させる数値)に設定する。
図1に示すように、数値列生成部34は、変化度算定部42と要素値設定部44とを含んで構成される。変化度算定部42は、相異なる帯域成分X[k,m]に対応するK個の非正規性変化度V[k,m](V[1,m]〜V[K,m])を単位期間毎に順次に生成する。非正規性変化度V[k,m]は、音響信号x(t)から帯域成分X[k,m]を除去した場合に強度分布の非正規性が上昇する度合(帯域成分X[k,m]が音源分離に寄与する度合)の尺度である。すなわち、非正規性変化度V[k,m]は、音響信号x(t)のK個の帯域成分X[1,m]〜X[K,m]にわたる強度分布の非正規性と、音響信号x(t)から1個の帯域成分X[k,m]を除去した場合の強度分布((K-1)個の帯域成分Xの強度分布)の非正規性との相違に相当する。
第1実施形態では、強度分布の非正規性の尺度として尖度(カートシス)を利用する。音響信号x(t)のK個の帯域成分X[1,m]〜X[K,m]の強度分布の尖度κは、強度分布の2次モーメントμ2および4次モーメントμ4を含む以下の数式(3)で表現される。
Figure 2012163676
K個の帯域成分X[1,m]〜X[K,m]の強度分布のn次モーメントμnは以下の数式(4)で定義される。
Figure 2012163676
数式(4)の記号z[i](i=1〜K)は帯域成分X[i,m]の強度(信号値)を意味する。第1実施形態では帯域成分X[i,m]のパワー|X[i,m]|2を強度z[i]として例示するが、例えば帯域成分X[k,m]の振幅|X[k,m]|や振幅|X[k,m]|の任意乗を強度z[k]とすることも可能である。また、数式(4)の記号μは強度z[1]〜z[K]の平均を意味する。
4次モーメントμ4に関する数式(5A)と2次モーメントμ2に関する数式(5B)とが数式(4)から導出される。
Figure 2012163676
他方、音響信号x(t)から帯域成分X[k,m]を除去した場合の強度分布((K-1)個の帯域成分Xの強度分布)のn次モーメントμn[k]は以下の数式(6)で表現される。
Figure 2012163676
数式(6)に数式(5A)を適用することで、帯域成分X[k,m]の除去後の4次モーメントμ4[k]を表現する数式(7A)が導出される。同様に、数式(6)に数式(5B)を適用することで、帯域成分X[k,m]の除去後の2次モーメントμ2[k]を表現する数式(7B)が導出される。
Figure 2012163676
したがって、帯域成分X[k,m]の除去後の尖度κ[k]は以下の数式(8)で表現される。
Figure 2012163676
数式(3)および数式(8)から、帯域成分X[k,m]の除去前の尖度κに対する除去後の尖度κ[k]の比(以下「尖度比」という)R[k]は以下の数式(9)で表現される。
Figure 2012163676
第1実施形態の変化度算定部42は、数式(9)の尖度比R[k]を非正規性変化度V[k,m]として算定する。数式(9)から理解されるように、帯域成分X[k,m]の除去で強度分布の非正規性が上昇する(帯域成分X[k,m]の除去前の尖度κに対して除去後の尖度κ[k]が大きい)ほど非正規性変化度V[k,m]は大きい数値となる。すなわち、非正規性が高い音響成分xA(t)が帯域成分X[k,m]にて優勢であるほど非正規性変化度V[k,m]は大きい数値となる。図1の要素値設定部44は、変化度算定部42が算定した非正規性変化度V[k,m]に応じて処理係数列G[m]の各要素値g[k,m](g[1,m]〜g[K,m])を単位期間毎に生成する。
図3は、数値列生成部34の動作のフローチャートである。図3の処理は単位期間毎に実行される。数値列生成部34は、K個の帯域成分X[1,m]〜X[K,m]から1個の帯域成分(以下「選択帯域成分」という)X[k,m]を選択する(SA11)。変化度算定部42は、現在の単位期間に対応する各帯域成分X[k,m]の強度z[1]〜z[K]について数式(9)の演算を実行することで選択帯域成分X[k,m]の非正規性変化度V[k,m](尖度比R[k])を算定する(SA12)。
要素値設定部44は、処理SA12で算定された非正規性変化度V[k,m]が所定の閾値Vthを上回るか否かを判定する(SA13)。閾値Vthは、音響成分xA(t)が優勢な帯域成分X[k,m]の非正規性変化度V[k,m]を下回り、かつ、音響成分xB(t)が優勢な帯域成分X[k,m]の非正規性変化度V[k,m]を上回るように、音響成分xA(t)および音響成分xB(t)に想定される音響特性(強度分布の非正規性)の傾向に応じて実験的または統計的に選定される。
非正規性が高い音響成分xA(t)が選択帯域成分X[k,m]にて優勢である場合には、処理SA13での判定の結果が肯定となる。処理SA13の結果が肯定である場合、要素値設定部44は、処理係数列G[m]のうち現在の選択帯域成分X[k,m]に対応する要素値g[k,m]を数値γ1(γ1=1)に設定する(SA14)。他方、非正規性が低い音響成分xB(t)が選択帯域成分X[k,m]にて優勢である場合には、処理SA13での判定の結果が否定となる。処理SA13の結果が否定である場合、要素値設定部44は、処理係数列G[m]のうち現在の選択帯域成分X[k,m]に対応する要素値g[k,m]を数値γ0(γ0=0)に設定する(SA15)。
数値列生成部34は、音響信号x(t)のK個の帯域成分X[k,m]について要素値g[k,m]を設定したか否かを判定する(SA16)。要素値g[k,m]の未設定の帯域成分X[k,m]が残存する場合(SA16:NO)、数値列生成部34は、現在の選択帯域成分X[k,m]とは異なる帯域成分X[k,m]を新たな選択帯域成分X[k,m]として選択(SA11)したうえで処理SA12から処理SA16を実行する。他方、K個の帯域成分X[k,m]について要素値g[k,m]の設定が完了した場合(SA16:YES)、数値列生成部34は図3の処理を終了する。
以上に説明した第1実施形態では、帯域成分X[k,m]を除去した場合の強度分布の非正規性の変化の度合(すなわち音源分離に寄与する度合)を示す非正規性変化度V[k,m]に応じて要素値g[k,m]が可変に設定される。したがって、音響成分xA(t)および音響成分xB(t)の定常性の有無に関わらず、音響成分xA(t)を音響成分xB(t)に対して高精度に強調することが可能である。
ところで、例えば特開2002−78100号公報(以下「特許文献1」という)には、ステレオ信号の左右チャネル間の振幅や位相の類似度が高い帯域成分(すなわち正面方向の定位成分)を選択的に強調または抑圧する技術が開示されている。しかし、特許文献1の技術のもとではステレオ信号が必要であるという制約がある。第1実施形態では、以上の例示の通り、音響信号x(t)がモノラル信号でも音響成分xA(t)と音響成分xB(t)とを適切に分離できるという利点がある。
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図4は、第2実施形態の音響処理装置100のブロック図である。図4に示すように、信号供給装置12から音響処理装置100に供給される音響信号x(t)は、再生音の音像が所定の方向(以下の例示では正面方向)に定位するように収音または加工されたステレオ信号であり、左チャネルの音響信号xL(t)と右チャネルの音響信号xR(t)とで構成される。音響処理装置100は、音響信号yL(t)および音響信号yR(t)で構成されるステレオ形式の音響信号y(t)を音響信号x(t)から生成する。
周波数解析部32は、音響信号xL(t)のK個の帯域成分XL[k,m]と音響信号xR(t)のK個の帯域成分XR[k,m]とを単位期間毎に生成する。数値列生成部34は、音響信号xL(t)と音響信号xR(t)とに応じた処理係数列G[m](要素値g[k,m]の系列)を単位期間毎に生成する。具体的には、変化度算定部42は、各帯域成分XL[k,m]のK個の強度z[1]〜z[K]と各帯域成分XR[k,m]のK個の強度z[1]〜z[K]とを含む2K個の強度zについて数式(9)(ただしKは2Kに置換される)の演算を実行することで、各帯域W[k]の非正規性変化度V[k,m](V[1,m]〜V[K,m])を単位期間毎に順次に生成する。要素値設定部44が各非正規性変化度V[k,m]に応じた要素値g[k,m]を生成する方法は第1実施形態と同様である。
信号処理部36は、帯域成分XL[k,m]に要素値g[k,m]を作用させて帯域成分YL[k,m]を生成し(YL[k,m]=g[k,m]×XL[k,m])、帯域成分XR[k,m]に要素値g[k,m]を作用させて帯域成分YR[k,m]を生成する(YR[k,m]=g[k,m]×XR[k,m])。波形合成部38は、各帯域成分YL[k,m]から音響信号yL(t)を生成し、各帯域成分YR[k,m]から音響信号yR(t)を生成する。
第2実施形態でも第1実施形態と同様の効果が実現される。なお、例えばHE-AAC(High-Efficiency Advanced Audio Coding)等の符号化技術で生成されたステレオ信号では、左右チャネル間の差異が符号化の過程で低減される(音響成分の多くがモノラル化する)という傾向がある。したがって、左右チャネル間の類似度を利用する前掲の特許文献1の技術では、例えば、本来的には左右方向に定位すべき音響成分(左右チャネル間で相違する成分)が左右チャネル間で類似すると判断され、結果的に正面方向以外から到来する音響成分まで強調または抑圧される可能性がある。他方、第2実施形態では左右チャネル間の類似度を前提としないから、例えば前述の符号化に起因して左右チャネル間の差異が低減された場合でも、音響成分xA(t)と音響成分xB(t)とを高精度に分離できる(例えば音響成分xA(t)を選択的に強調できる)という利点がある。
<C:第3実施形態>
本発明の第3実施形態を説明する。第3実施形態では、第2実施形態の数値列生成部34が図5の数値列生成部34Aに置換される。図5に示すように、数値列生成部34Aは、変化度算定部42と要素値設定部44と類否指標算定部46とを含んで構成される。変化度算定部42は、第2実施形態と同様に、音響信号xL(t)と音響信号xR(t)とに応じた各帯域W[k]の非正規性変化度V[k,m](V[1,m]〜V[K,m])を単位期間毎に生成する。
類否指標算定部46は、音響信号xL(t)と音響信号xR(t)との間(左右チャネル間)で帯域W[k]が相互に共通する帯域成分XL[k,m]と帯域成分XR[k,m]との類否を示す類否指標λ[k,m](λ[1,m]〜λ[K,m])を単位期間毎に算定する。類否指標λ[k,m]は、例えば帯域成分XL[k,m]と帯域成分XR[k,m]とで振幅や位相が類似(または相違)する度合の指標値である。具体的には、類否指標λ[k,m]は、帯域成分XL[k,m]と帯域成分XR[k,m]とが類似するほど大きい数値となるように0以上かつ1以下の範囲内で可変に設定される。
第3実施形態の要素値設定部44は、類否指標算定部46が算定した類否指標λ[k,m]と変化度算定部42が算定した非正規性変化度V[k,m]とに応じて要素値g[k,m]を設定する。要素値設定部44の具体的な動作を以下に詳述する。
要素値設定部44は、非正規性変化度V[k,m]に応じた基礎値a[k,m]を設定する。基礎値a[k,m]は、第1実施形態の要素値g[k,m]と同様に、非正規性変化度V[k,m]に応じて数値γ1または数値γ0に設定される。要素値設定部44は、類否指標λ[k,m]と基礎値a[k,m]との加算値または平均値を要素値g[k,m]として算定する(例えばg[k,m]={λ[k,m]+a[k,m]}/2)。したがって、類否指標λ[k,m]および基礎値a[k,m](非正規性変化度V[k,m])の少なくとも一方が大きい帯域W[k]の帯域成分XL[k,m]および帯域成分XR[k,m]は信号処理部36による処理を通過し、類否指標λ[k,m]および基礎値a[k,m]の双方が小さい帯域W[k]の帯域成分XL[k,m]および帯域成分XR[k,m]は抑圧される。
第3実施形態でも第1実施形態や第2実施形態と同様の効果が実現される。また、第3実施形態では、非正規性変化度V[k,m]に加えて左右チャネル間の類否指標λ[k,m]が要素値g[k,m]の設定に適用されるから、音響信号x(t)における所望の音響成分を適切に分離できるという利点がある。
例えば、非正規性変化度V[k,m]のみに応じて要素値g[k,m]を算定する第1実施形態の構成では、音響成分xA(t)を含む帯域成分X[k,m]でも、非正規性変化度V[k,m]が何らかの原因(例えば帯域成分X[k,m]に音響成分xA(t)および音響成分xB(t)の双方を含むこと)で低い場合には信号処理部36による抑圧の対象となる可能性がある。他方、類否指標λ[k,m]と基礎値a[k,m]との加算値または平均値を要素値g[k,m]とする第3実施形態では、帯域W[k]の非正規性変化度V[k,m]が小さい場合でも、左右チャネル間の類否指標λ[k,m]が大きい帯域W[k](すなわち正面方向の定位成分を含む帯域W[k])については要素値g[k,m]が数値γ1に近い数値に設定される。したがって、音響成分xA(t)が正面方向に定位する場合には、非正規性変化度V[k,m]が低い場合でも、音響成分xA(t)を維持することが可能である。
なお、非正規性変化度V[k,m]と類否指標λ[k,m]とに応じて要素値g[k,m]を設定する方法は適宜に変更される。例えば、非正規性変化度V[k,m]に応じた基礎値a[k,m]と類否指標λ[k,m]との乗算値を要素値g[k,m]として算定する構成では(g[k,m]=a[k,m]×λ[k,m])、類否指標λ[k,m]および非正規性変化度V[k,m]の双方が大きい帯域W[k]の帯域成分XL[k,m]および帯域成分XR[k,m](すなわち、正面方向の定位成分のうち特に音源分離に寄与する成分)を選択的に強調することが可能である。以上の例示から理解されるように、非正規性変化度V[k,m]と類否指標λ[k,m]とに応じて要素値g[k,m]を設定する方法は、音響処理装置100に要求される音源分離の精度等に応じて適宜に選定される。
<D:第4実施形態>
本発明の第4実施形態を説明する。第4実施形態では、第2実施形態の数値列生成部34が図6の数値列生成部34Bに置換される。図6に示すように、数値列生成部34Bは、変化度算定部42と要素値設定部44と類否指標算定部46と帯域選択部48とを含んで構成される。
類否指標算定部46は、第3実施形態と同様に、各帯域成分XL[k,m]と各帯域成分XR[k,m]との類否を示す類否指標λ[k,m](λ[1,m]〜λ[K,m])を単位期間毎に算定する。帯域選択部48は、類否指標算定部46が算定した各類否指標λ[k,m]に応じて帯域W[k]を選択する。例えば、帯域選択部48は、K個の帯域W[1]〜W[K]のうち類否指標λ[k,m]が所定値を上回る1個以上の帯域W[k](正面方向の定位成分を含む帯域W[k])を単位期間毎に選択する。
変化度算定部42は、帯域選択部48が選択した帯域W[k]について非正規性変化度V[k,m]を算定し、非選択の帯域W[k]については非正規性変化度V[k,m]の算定を省略する。要素値設定部44は、帯域選択部48が選択した帯域W[k]について非正規性変化度V[k,m]に応じた要素値g[k,m]を設定し、非選択の帯域W[k]の要素値g[k,m]を所定値(例えば数値γ1および数値γ0の何れか)に設定する。
第4実施形態では、類否指標λ[k,m]に応じて選択された帯域W[k](すなわち所定方向の定位成分を含む帯域W[k])について選択的に非正規性変化度V[k,m]の算定と非正規性変化度V[k,m]に応じた要素値g[k,m]の設定とが実行される。したがって、所定方向の定位成分のうち特に音源分離に寄与する音響成分xA(t)を適切に強調できるという利点に加え、K個の帯域W[1]〜W[K]の全部について非正規性変化度V[k,m]を算定する構成と比較して数値列生成部34Bの処理負荷が軽減されるという利点がある。
<E:第5実施形態>
本発明の第5実施形態を説明する。第5実施形態では、第1実施形態の数値列生成部34が図7の数値列生成部34Cに置換される。図7に示すように、数値列生成部34Cは、変化度算定部42と要素値設定部44と閾値設定部52とを含んで構成される。
閾値設定部52は、周波数軸上の複数(F個)の処理帯域B[1]〜B[F]の各々について閾値Vth[f](f=1〜F)を設定する。各処理帯域B[f]の帯域幅は、1個以上の帯域W[k]を含むように処理帯域B[f]毎に個別に設定される。したがって、各処理帯域B[f]に包含される帯域成分X[k,m]の個数K[f]は処理帯域B[f]毎に相違し得る(K[1]+K[2]+……+K[F]=K)。具体的には、利用者からの指示(例えば入力装置に対する操作)に応じて処理帯域B[f]毎の帯域幅が可変に設定される。閾値設定部52が処理帯域B[f]毎に閾値Vth[f]を設定する方法は任意であるが、例えば、記憶装置24に事前に格納された各閾値Vth[f]を閾値設定部52が読出す構成や、利用者からの指示(例えば入力装置に対する操作)に応じて閾値設定部52が各閾値Vth[f]を可変に設定する構成が採用され得る。
変化度算定部42は、F個の処理帯域B[1]〜B[F]の各々について帯域成分X[k,m]毎に非正規性変化度V[k,m]を算定する。すなわち、1個の処理帯域B[f]内の帯域成分X[k,m]の非正規性変化度V[k,m]は、音響信号x(t)のうち処理帯域B[f]内の音響成分(K[f]個の帯域成分X[k,m])の強度分布の非正規性と、処理帯域B[f]から帯域成分X[k,m]を除去した場合の強度分布の非正規性との相違に相当する。
要素値設定部44は、閾値設定部52が各処理帯域B[f]について設定した閾値Vth[k]と変化度算定部42が算定した非正規性変化度V[k,m]との比較の結果に応じて、その処理帯域B[f]内の帯域成分X[k,m]の要素値g[k,m]を設定する(SA13〜SA15)。具体的には、処理帯域B[f]内の帯域成分X[k,m]の要素値g[k,m]は、非正規性変化度V[k,m]がその処理帯域B[f]の閾値Vth[f]を上回る場合に数値γ1に設定され(SA14)、非正規性変化度V[k,m]が閾値Vth[f]を下回る場合には数値γ0に設定される(SA15)。
第5実施形態では、音響信号x(t)(K個の帯域成分X[k,m])がF個の処理帯域B[f]に区分され、処理帯域B[f]毎の閾値Vth[f]を利用して各帯域成分X[k,m]の要素値g[k,m]が設定される。したがって、例えば目標の音響成分xA(t)が存在する可能性が高い処理帯域B[f]ほど狭い帯域幅に設定したり閾値Vth[f]を処理帯域B[f]毎に適切な数値に設定したりすることで、音響成分xA(t)を高精度に抽出できるという利点がある。なお、以上の説明では、第1実施形態に閾値設定部52を追加した構成を例示したが、音響信号x(t)がステレオ信号である第2実施形態から第4実施形態にも同様の閾値設定部52が追加され得る。
<F:変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)変形例1
前述の各形態では、1個の単位期間毎に非正規性変化度V[k,m]を算定したが、複数(M個)の単位期間にわたる(M×K)個の帯域成分X[k,m]から非正規性変化度V[k,m]を算定することも可能である。すなわち、非正規性変化度V[k,m]は、(M×K)個の帯域成分X[k,m]の強度分布の非正規性と、(M×K)個から特定の帯域成分X[k,m]を除去した場合の強度分布の非正規性との相違を示す指標として各帯域W[k]について単位期間毎に算定される。
また、前述の各形態では、単位期間毎に処理係数列G[m]を生成したが、処理係数列G[m]の生成の周期は適宜に変更される。例えば、相前後する所定個の単位期間の時間程度では音響信号x(t)の特性が変化しない場合、単位期間の複数個を周期として処理係数列G[m]を算定する構成(1周期内の各単位期間の帯域成分X[k,m]には共通の処理係数列G[m]を適用する構成)が採用され得る。
(2)変形例2
前述の各形態では、非正規性が高い音響成分xA(t)を強調するとともに非正規性が低い音響成分xB(t)を抑圧したが、音響成分xA(t)を抑圧するとともに音響成分xB(t)を強調する構成も実現される。具体的には、図3の処理SA13の判定において、選択帯域成分X[k,m]の非正規性変化度V[k,m]が閾値Vthを上回る場合(選択帯域成分X[k,m]にて音響成分xA(t)が優勢である場合)に要素値g[k,m]を数値γ0に設定し、非正規性変化度V[k,m]が閾値Vthを下回る場合(選択帯域成分X[k,m]にて音響成分xB(t)が優勢である場合)に要素値g[k,m]を数値γ1に設定すれば、音響成分xA(t)の抑圧と音響成分xB(t)の強調とが実現される。
また、前述の各形態では、音響成分xA(t)を音声として音響成分xB(t)を楽音としたが、音響成分xA(t)および音響成分xB(t)の種類は任意である。例えば、強度分布の非正規性が高い音声や楽音を音響成分xA(t)とし、強度分布の非正規性が低い定常的な雑音(例えば空調設備の動作音や人混み内での雑踏音)を音響成分xB(t)とした構成も採用され得る。以上の例示から理解されるように、音響成分xA(t)および音響成分xB(t)は、強度分布の非正規性が相違する成分(すなわち、帯域成分X[k]を除去した場合に強度分布の非正規性を変化させる度合が相違する成分)として包括される。
(3)変形例3
音響信号x(t)の強度分布の非正規性の指標となる統計量は尖度κに限定されない。例えば、以下の数式(10)で定義されるネゲントロピーJを強度分布の非正規性の指標として利用することが可能である。
Figure 2012163676
数式(10)の記号S(p(z[k]))は、音響信号x(t)のエントロピーを意味し、記号S(ψ(z[k]))は、音響信号x(t)の強度分布p(z[k])と分散および平均が共通する正規分布のエントロピーを意味する。数式(10)から理解されるように、強度分布の非正規性が高いほどネゲントロピーJは大きい数値となる。なお、ネゲントロピーJを近似的に算定する方法は、例えばR. Prasad, H. Saruwatari, and K. Shikano, "Approximating negentropy of time-frequency series of speech for fixed poont ICA by negentropy maximization", International Workshop on Acoustic Echo and Noise Control, p.225-228, 2005に開示されている。
また、以下の数式(11)で定義されるキュムラントcumn(z[k])を利用することも可能である。数式(11)から理解されるように、キュムラントcumn(z[k])は、キュムラント母関数Kz[k](θ)をn回微分して補助変数θを0とした統計量である。
Figure 2012163676
なお、数式(11)のキュムラント母関数Kz[k](θ)はモーメント母関数の対数であることを考慮すると、キュムラントcumn(z[k])を利用して尖度κを定義することも可能である。例えば中心化モーメントを使用して定義される尖度κは以下の数式(12)で表現され、中心化モーメントを使用せずに定義される尖度κは以下の数式(13)で表現される。なお、数式(12)および数式(13)では強度z[k]を記号zで簡略化した。
Figure 2012163676
帯域成分X[k,m]の振幅|X[k,m]|を強度z[k]とした場合、実際には、数式(11)のキュムラントcumn(z[k])と正規分布のキュムラントとの差分が強度分布の非正規性の指標として利用される。なお、時間領域にて正規分布の3次以降のキュムラントは0であるから、3次以降のキュムラントcumn(z[k])を強度分布の非正規性の指標とすることも可能である。また、帯域成分X[k,m]のパワー|X[k,m]|2を強度z[k]とした場合、数式(11)のキュムラントcumn(z[k])と正規分布に対応するカイ2乗分布のキュムラントとの差分が強度分布の非正規性の指標として利用される。なお、高次のキュムラントcumn(z[k])まで演算するのは現実的ではなく、音源分離の通常の精度を実現するには4次程度のキュムラントcumn(z[k])で充分である。したがって、実際には尖度κを演算することと殆ど等価となる。
以上に例示した尖度κ,ネゲントロピーJおよびキュムラントcumn(z[k])以外にも、KL(Kullback-Leibler)情報量や相互情報量等の公知の統計量を、音響信号x(t)の強度分布の非正規性の指標として利用することが可能である。
また、以上の各形態では、帯域成分X[k,m]の除去の前後にわたる尖度比R[k]を非正規性変化度V[k,m]として例示したが、非正規性変化度V[k,m]の形式は任意である。例えば、帯域成分X[k,m]の除去の前後にわたる強度分布の非正規性の指標の差分(例えば尖度κ[k]と尖度κとの差分)を非正規性変化度V[k,m]として算定することも可能である。以上の例示から理解されるように、非正規性変化度V[k,m]は、強度分布の非正規性の指標として例示した各種の統計量が帯域成分X[k,m]の除去の前後で変化する程度を示す数値として包括される。
(4)変形例4
以上の各形態では、帯域成分X[k,m]の実際の強度分布(強度z[k]の数値分布)から非正規性変化度V[k,m]を算定したが、実際の強度z[k]のみを使用した構成では、強度z[k]の数値が過度に変動して音源分離の精度が低下するという問題や、尖度κ等の高次統計量を算定する場合に外れ値に脆弱であるという問題がある。そこで、帯域成分X[k,m]の強度分布を各種の確率分布で近似して非正規性変化度V[k,m]を算定する構成が好適である。
具体的には、帯域成分X[k,m]の強度分布(z[k]=|X[k,m]|2)は、例えば以下の数式(14)の確率密度関数P(x;α,θ)で定義されるガンマ分布として近似される。
Figure 2012163676
数式(14)の記号Γ()はガンマ関数である。記号αは形状母数を意味し、記号θは尺度母数を意味する。数式(14)のガンマ分布の尖度κは以下の数式(15)で表現される。数式(15)の形状母数αは数式(15A)で表現され、数式(15A)の変数γは数式(15B)で表現される。
Figure 2012163676
音響信号x(t)から帯域成分X[k,m]を除去した場合の変数γは以下の数式(15C)で表現される。
Figure 2012163676
数式(15B)の変数γで算定される形状母数αを数式(15)に適用した尖度κと、数式(15C)の変数γで算定される形状母数αを数式(15)に適用した尖度κ[k]との相違に応じて非正規性変化度V[k,m]が算定される。以上の例示のように帯域成分X[k,m]の強度分布を所定の確率分布で近似する構成によれば、例えば強度z[k]が過度に変動する場合や外れ値を含む場合でも、尖度κや非正規性変化度V[k,m]を安定的に算定できるという利点がある。
(5)変形例5
要素値g[k,m]の数値は任意である。例えば、数値γ0を0を上回る数値に設定し、数値γ1を1未満の数値や1以上の数値に設定した構成も採用され得る。また、要素値g[k,m]を2値的に設定する構成は本発明において必須ではない。例えば、要素値g[k,m]を0以上かつ1以下の範囲内で非正規性変化度V[k,m]に応じて多値的(3値以上)に設定することも可能である。すなわち、以上の各形態の要素値設定部44は、非正規性変化度V[k,m]に応じた要素値g[k,m]を設定する要素として包括され、要素値g[k,m]の設定方法(非正規性変化度V[k,m]との関係)や要素値g[k,m]の数値範囲は任意に選定される。
(6)変形例6
第2実施形態から第4実施形態では、音響信号xL(t)のK個の強度z[1]〜z[K]と音響信号xR(t)のK個の強度z[1]〜z[K]とを含む2K個の強度について数式(9)の演算を実行することでK個の非正規性変化度V[k,m](V[1,m]〜V[K,m])を算定したが、ステレオ形式の音響信号x(t)に応じた非正規性変化度V[k,m]を算定する方法は適宜に変更される。例えば、音響信号xL(t)と音響信号xR(t)とを加算した信号のK個の強度z[1]〜z[K]について数式(9)の演算を実行してK個の非正規性変化度V[k,m]を算定する構成や、音響信号xL(t)および音響信号xR(t)の一方の強度z[1]〜z[K]について数式(9)の演算を実行してK個の非正規性変化度V[k,m]を算定する構成も採用され得る。
また、第2実施形態から第4実施形態では、左右チャネルで共通の要素値g[k,m]を算定したが、左右チャネルで個別に要素値g[k,m](gL[k,m],gR[k,m])を算定する構成も採用され得る。すなわち、周波数解析部32と数値列生成部34と信号処理部36と波形合成部38とによる処理が音響信号xL(t)および音響信号xR(t)について並列に実行される。例えば、変化度算定部42は、音響信号xL(t)の各非正規性変化度VL[k,m]と音響信号xR(t)の各非正規性変化度VR[k,m]とを単位期間毎に個別に算定し、要素値設定部44は、各非正規性変化度VL[k,m]に応じた要素値gL[k,m]と各非正規性変化度VR[k,m]に応じた要素値gR[k,m]とを生成する。信号処理部36は、帯域成分XL[k,m]に要素値gL[k,m]を作用させて帯域成分YL[k,m]を生成し、帯域成分XR[k,m]に要素値gR[k,m]を作用させて帯域成分YR[k,m]を生成する。ただし、以上の構成では、左チャネルの要素値gL[k,m]と右チャネルの要素値gR[k,m]とが相異なる数値に設定されるから、左右チャネル間の音量のバランス(定位感)が音響処理装置100による処理の前後で変化し得る。したがって、左右チャネル間の音量のバランスを維持する観点からは、前述の各形態での例示のように左右チャネルで共通の要素値g[k,m]を算定する構成が好適である。
(7)変形例7
第2実施形態から第4実施形態では左右2チャネルの音響信号x(t)を例示したが、音響信号x(t)が3チャネル以上である場合にも第2実施形態から第4実施形態は適用される。例えば第3実施形態や第4実施形態の音響信号x(t)をNtチャネル(Nt≧3)で構成した場合(5.1チャネルであればNt=6)、Ntチャネルの全部を対象として類否指標λ[k,m]を算定する構成や、Ntチャネルから選択されたNチャネル(N<Nt)の間で類否指標λ[k,m]を算定する構成が採用され得る。
100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……周波数解析部、34,34A,34B,34C……数値列生成部、36……信号処理部、38……波形合成部、42……変化度算定部、44……要素値設定部。

Claims (5)

  1. 音響信号の強度分布の非正規性と前記音響信号から特定の帯域成分を除去した場合の強度分布の非正規性との相違を示す非正規性変化度を算定する変化度算定手段と、
    前記非正規性変化度に応じて要素値を設定する要素値設定手段と、
    前記帯域成分に前記要素値を作用させる信号処理手段と
    を具備する音響処理装置。
  2. 前記変化度算定手段は、前記音響信号の複数の帯域の各々について非正規性変化度を算定し、
    前記要素値設定手段は、前記複数の帯域の各々について当該帯域の非正規性変化度に応じて要素値を設定し、
    前記信号処理手段は、前記複数の帯域成分の各々に当該帯域の要素値を作用させる
    請求項1の音響処理装置。
  3. 前記音響信号を構成するステレオ形式の第1音響信号と第2音響信号との間で前記各帯域成分の類否を示す類否指標を算定する類否指標算定手段を具備し、
    前記変化度算定手段は、前記音響信号の帯域毎に非正規性変化度を算定し、
    前記要素値設定手段は、各帯域の非正規性変化度と当該帯域の類否指標とに応じた要素値を設定し、
    前記信号処理手段は、前記第1音響信号および前記第2音響信号の各々の各帯域成分に前記当該帯域の要素値を作用させる
    請求項2の音響処理装置。
  4. 前記音響信号を構成するステレオ形式の第1音響信号と第2音響信号との間で前記各帯域成分の類否を示す類否指標を算定する類否指標算定手段と、
    前記類否指標に応じて帯域を選択する帯域選択手段とを具備し、
    前記変化度算定手段は、前記複数の帯域のうち前記帯域選択手段が選択した帯域について非正規性変化度を算定する
    請求項2の音響処理装置。
  5. 前記音響信号の複数の処理帯域の各々について閾値を設定する閾値設定手段を具備し、
    前記変化度算定手段は、前記複数の処理帯域の各々について、当該処理帯域内の帯域成分毎に、当該処理帯域内の強度分布の非正規性と当該処理帯域から当該帯域成分を除去した場合の強度分布の非正規性との相違を示す非正規性変化度を算定し、
    前記要素値設定手段は、前記複数の処理帯域の各々について、当該処理帯域内の帯域成分毎に、当該帯域成分の前記非正規性変化度と当該処理帯域について前記閾値設定手段が設定した閾値との比較の結果に応じて要素値を算定する
    請求項2の音響処理装置。
JP2011022633A 2011-02-04 2011-02-04 音響処理装置 Expired - Fee Related JP5621637B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011022633A JP5621637B2 (ja) 2011-02-04 2011-02-04 音響処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011022633A JP5621637B2 (ja) 2011-02-04 2011-02-04 音響処理装置

Publications (2)

Publication Number Publication Date
JP2012163676A true JP2012163676A (ja) 2012-08-30
JP5621637B2 JP5621637B2 (ja) 2014-11-12

Family

ID=46843133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011022633A Expired - Fee Related JP5621637B2 (ja) 2011-02-04 2011-02-04 音響処理装置

Country Status (1)

Country Link
JP (1) JP5621637B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141542A1 (ja) * 2016-02-16 2017-08-24 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2002523948A (ja) * 1998-08-25 2002-07-30 フォード、グローバル、テクノロジーズ、インコーポレーテッド 信号中のインパルス成分と非インパルス成分を分離する方法及びその装置
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置
JP2010020013A (ja) * 2008-07-09 2010-01-28 Nara Institute Of Science & Technology 雑音抑圧評価装置およびプログラム
JP2010020012A (ja) * 2008-07-09 2010-01-28 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
JP2010271411A (ja) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002523948A (ja) * 1998-08-25 2002-07-30 フォード、グローバル、テクノロジーズ、インコーポレーテッド 信号中のインパルス成分と非インパルス成分を分離する方法及びその装置
JP2002078100A (ja) * 2000-09-05 2002-03-15 Nippon Telegr & Teleph Corp <Ntt> ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置
JP2010020013A (ja) * 2008-07-09 2010-01-28 Nara Institute Of Science & Technology 雑音抑圧評価装置およびプログラム
JP2010020012A (ja) * 2008-07-09 2010-01-28 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
JP2010271411A (ja) * 2009-05-19 2010-12-02 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200600443001; 半田晶寛他: '"周波数領域ICAの後処理としてWienerフィルタを用いた短時間混合音声の分離"' 情報処理学会研究報告 Vol.2006,No.12, 200602, pp.1-6 *
JPN6013004064; 坂本真一他: '"短時間平均音圧レベルの出現頻度分布を用いた騒音のレベルと変動量の推定"' 騒音制御 Vol.25,No.6, 200112, pp.388-399, 日本騒音制御工学会 *
JPN6013028116; 半田晶寛他: '"周波数領域ICAの後処理としてWienerフィルタを用いた短時間混合音声の分離"' 情報処理学会研究報告 Vol.2006,No.12, 200602, pp.1-6 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141542A1 (ja) * 2016-02-16 2017-08-24 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
JPWO2017141542A1 (ja) * 2016-02-16 2018-07-12 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
US10878832B2 (en) 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program

Also Published As

Publication number Publication date
JP5621637B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
JP7091411B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
US10210883B2 (en) Signal processing apparatus for enhancing a voice component within a multi-channel audio signal
JP5528538B2 (ja) 雑音抑圧装置
US8712074B2 (en) Noise spectrum tracking in noisy acoustical signals
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
CN110114827B (zh) 使用可变阈值来分解音频信号的装置和方法
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP6339896B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP2013130857A (ja) 音響処理装置
KR102427414B1 (ko) 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
JP5915281B2 (ja) 音響処理装置
JP2023536104A (ja) 機械学習を用いたノイズ削減
JP5454330B2 (ja) 音響処理装置
JP5621637B2 (ja) 音響処理装置
JP5609157B2 (ja) 係数設定装置および雑音抑圧装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP2006178333A (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
JP5316127B2 (ja) 音処理装置およびプログラム
JPWO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP2014102318A (ja) 雑音除去装置、雑音除去方法、及びプログラム
JP5321171B2 (ja) 音処理装置およびプログラム
JP6554853B2 (ja) 雑音抑圧装置及びプログラム
Anushiravani Example-based audio editing
FitzGerald et al. Improved stereo instrumental track recovery using median nearest-neighbour inpainting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140908

R150 Certificate of patent or registration of utility model

Ref document number: 5621637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees