JP5034734B2 - 音処理装置およびプログラム - Google Patents

音処理装置およびプログラム Download PDF

Info

Publication number
JP5034734B2
JP5034734B2 JP2007185040A JP2007185040A JP5034734B2 JP 5034734 B2 JP5034734 B2 JP 5034734B2 JP 2007185040 A JP2007185040 A JP 2007185040A JP 2007185040 A JP2007185040 A JP 2007185040A JP 5034734 B2 JP5034734 B2 JP 5034734B2
Authority
JP
Japan
Prior art keywords
target sound
frequency
sound
spectrum
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007185040A
Other languages
English (en)
Other versions
JP2009020471A (ja
Inventor
健一 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007185040A priority Critical patent/JP5034734B2/ja
Publication of JP2009020471A publication Critical patent/JP2009020471A/ja
Application granted granted Critical
Publication of JP5034734B2 publication Critical patent/JP5034734B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、所期の音源から発生した音(以下「目的音」という)と目的音以外の音(以下「非目的音」という)との混合音から非目的音を抑圧する技術に関する。
人間による発声音と雑音との混合音から雑音を抑圧する技術が従来から提案されている。例えば非特許文献1には、非発音区間の音声に基づいて推定された雑音の周波数スペクトルを発音区間の音声の周波数スペクトルから減算することで雑音を抑圧する技術(スペクトルサブトラクション)が開示されている。音声を時間軸上で発音区間と非発音区間とに区分する技術としては、発声音と雑音との周波数スペクトルの形状の相違を利用する技術(例えば特許文献1)や、発声音と雑音とのピッチの相違を利用する技術(例えば特許文献2)がある。
STEVEN F.BOLL, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", April 1979, IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL. ASSP-27, NO.2, p. 113-120 特開2004−272052号公報 特開平1−286643号公報
しかし、発声音と雑音との音響的な特性の相違に基づいて発音区間と非発音区間とを区別する前述の技術においては、音響的な特性が目的音に類似する非目的音の区間を目的音の区間から分離することが困難である。したがって、音響的な特性が類似する目的音と非目的音との混合音(例えば複数の人間による発声音の混合)から非目的音のみを高精度に抑圧することはできない。以上の事情を背景として、本発明は、目的音と非目的音との音響的な特性が類似する場合であっても非目的音を効果的に抑圧するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明のひとつの態様に係る音処理装置は、相互に離間する複数の収音器の各々が生成した音信号から、複数の周波数のうち目的音が優勢な目的音周波数の各成分と複数の周波数のうち非目的音が優勢な非目的音周波数の各成分とを、時間軸上のフレーム毎に抽出する音源分離手段と、複数のフレームの各々における非目的音周波数の成分の強度に応じて当該周波数における強度が設定された非目的音スペクトルを生成する非目的音推定手段と、目的音周波数の各成分を含む目的音スペクトルから非目的音スペクトルを減算する非目的音抑圧手段とを具備し、非目的音推定手段は、一のフレームにおける非目的音周波数の成分の強度(例えば式(1)における強度tB(n,k))と、一のフレームの直前のフレームについて生成した非目的音スペクトルの当該周波数における強度(例えば式(1)における強度μn-1(k))との加重和を、一のフレームにおける非目的音スペクトルの当該周波数における強度(例えば式(1)における強度μn(k))に設定し、加重和に使用する加重値(例えば式(1)の係数α)を、一のフレームにおける目的音周波数または非目的音周波数の個数に応じて可変に制御する。以上の構成においては、複数の収音器が生成した音信号に基づいて目的音周波数と非目的音周波数とが分離され、複数のフレームの各々における非目的音周波数の強度に応じて非目的音スペクトルが生成される。したがって、発音区間と非発音区間とを時間軸上で区分する特許文献1や特許文献2の処理は原理的に不要であり、目的音と非目的音との音響的な特徴(周波数スペクトルやピッチ)が類似する場合であっても非目的音のみを有効に抑圧することが可能である。すなわち、各フレームについて生成される非目的音スペクトルは、当該フレームに対して過去の複数のフレームにおける非目的音周波数の成分の強度を累積的に反映したものとなる。また、一のフレームの非目的音スペクトルが直前のフレームにおける非目的音スペクトルの強度に基づいて算定されるから、過去の複数のフレームにわたって非目的音スペクトルを保持しておく必要がないという利点がある。
例えば、非目的音推定手段は、一のフレームにおける目的音周波数の個数が多い(非目的音周波数の個数が少ない)ほど、直前のフレームにおける非目的音スペクトルの強度の加重値が一のフレームにおける非目的音周波数の強度の加重値に対して相対的に増加するように、各加重値を可変に制御する。以上の構成によれば、一のフレームにおける非目的音周波数の強度や直前のフレームにおける非目的音スペクトルが一のフレームの非目的音スペクトルに寄与する程度が適宜に変更されるから、聴感上において自然な再生音を生成することが可能である。
本発明の好適な態様において、非目的音抑圧手段は、目的音周波数の各成分の強度を複数のフレームにわたって平滑化した目的音スペクトルから非目的音スペクトルを減算する。本態様における目的音スペクトルは目的音周波数の強度を複数のフレームにわたって平滑化したスペクトルであるから、再生音の音量の急激な変化が抑制される。
本発明の好適な態様に係る音処理装置は、非目的音周波数の各成分の強度に第1係数を乗算する乗算手段と、非目的音抑圧手段による減算後の目的音スペクトルにおける目的音周波数の各成分と乗算手段による乗算後の非目的音周波数の各成分とを周波数軸上に配列した出力スペクトルを生成する合成手段とを具備する。本形態においては、乗算手段による乗算後の非目的音周波数の成分が目的音周波数の各成分に付加されることで出力スペクトルが生成されるから、非目的音抑圧手段による減算後の目的音スペクトルが出力スペクトルとされる構成(非目的音周波数の強度がゼロである構成)と比較して自然な再生音を生成することが可能となる。
さらに好適な態様において、非目的音抑圧手段は、目的音スペクトルから非目的音スペクトルを減算したときの各周波数における強度が、非目的音スペクトルにおける当該周波数の強度と第2係数との乗算値である閾値を下回る場合には、閾値を当該周波数における強度として設定し、閾値と乗算手段による乗算値とが近づくように第1係数および第2係数の少なくとも一方を制御する係数制御手段を具備する。本態様においては、非目的音抑圧手段による処理後の目的音スペクトルのうち目的音周波数について閾値以上の強度が確保されるから、目的音周波数の強度に下限がない構成と比較して自然な再生音を生成することが可能となる。さらに、閾値と乗算手段による乗算値とが近づく(理想的には略一致する)ように第1係数または第2係数が制御されるから、出力スペクトルのうち目的音周波数の強度の最低値と非目的音周波数の強度とが接近する。したがって、両者が顕著に相違する場合と比較して、聴感上において自然な再生音を生成することができる。
本発明に係る音処理装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、相互に離間する複数の収音器の各々が生成した音信号から、複数の周波数のうち目的音が優勢な目的音周波数の各成分と複数の周波数のうち非目的音が優勢な非目的音周波数の各成分とを、時間軸上のフレーム毎に抽出する音源分離処理と、複数のフレームの各々における非目的音周波数の成分の強度に応じて当該周波数における強度が設定された非目的音スペクトルを生成する非目的音推定処理と、目的音周波数の各成分を含む目的音スペクトルから非目的音スペクトルを減算する非目的音抑圧処理とをコンピュータに実行させるプログラムであって、非目的音推定処理では、一のフレームにおける非目的音周波数の成分の強度と、一のフレームの直前のフレームについて生成した非目的音スペクトルの当該周波数における強度との加重和を、一のフレームにおける非目的音スペクトルの当該周波数における強度に設定し、加重和に使用する加重値を、一のフレームにおける目的音周波数または非目的音周波数の個数に応じて可変に制御する。以上のプログラムによっても、本発明に係る音処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
また、非目的音を抑圧する方法としても本発明は特定される。本発明のひとつの態様に係る音処理方法は、相互に離間する複数の収音器の各々が生成した音信号から、複数の周波数のうち目的音が優勢な目的音周波数の各成分と複数の周波数のうち非目的音が優勢な非目的音周波数の各成分とを、時間軸上のフレーム毎に抽出する音源分離手順と、複数のフレームの各々における非目的音周波数の成分の強度に応じて当該周波数における強度が設定された非目的音スペクトルを生成する非目的音推定手順と、目的音周波数の各成分を含む目的音スペクトルから非目的音スペクトルを減算する非目的音抑圧手順とを含み、非目的音推定手順では、一のフレームにおける非目的音周波数の成分の強度と、一のフレームの直前のフレームについて生成した非目的音スペクトルの当該周波数における強度との加重和を、一のフレームにおける非目的音スペクトルの当該周波数における強度に設定し、加重和に使用する加重値を、一のフレームにおける目的音周波数または非目的音周波数の個数に応じて可変に制御する。以上の方法によっても、本発明に係る音処理装置と同様の作用および効果が奏される。
図1は、本発明の実施の形態に係る音処理装置の構成を示すブロック図である。音処理装置100は、目的音と非目的音との混合音から非目的音を低減する装置である。図1に示すように、音処理装置100には、第1収音器71と第2収音器72とが接続される。第1収音器71および第2収音器72の各々は、周囲の音に応じた波形の信号を生成する無指向性または略無指向性のマイクロホンである。第1収音器71は音信号S1を生成し、第2収音器72は音信号S2を生成する。
図1に示すように、目的音は、第1収音器71および第2収音器72に対して所定の方向D0から到来する。例えば、音処理装置100が携帯電話機に搭載された場合を想定すると、携帯電話機の筐体のうち通話時に利用者の顔と対向する表面に垂直な方向D0から、当該利用者の発声音が目的音として到来する。第1収音器71と第2収音器72とは、目的音が到来する方向D0に垂直な方向に沿って相互に離間して配置される。図1に示すように、非目的音は、例えば、方向D0に対して時計回りに45°の角度をなす方向DR(右斜め前方)や、方向D0に対して反時計回りに45°の角度をなす方向DL(左斜め前方)から第1収音器71や第2収音器72に到来する。
図1に示すように、音処理装置100は、周波数分析部10と音源分離部20と非目的音推定部32と非目的音抑圧部34と波形合成部40とを具備する。以上の各要素は、例えばCPUなどの演算処理装置がプログラムを実行することで実現されてもよいし、音声の処理に専用されるDSPなどの電子回路によって実現されてもよい。また、音処理装置100の各要素が別個の集積回路に搭載された構成も採用される。
周波数分析部10は、音信号S1から周波数スペクトルX1を特定するとともに音信号S2から周波数スペクトルX2を特定する。さらに詳述すると、周波数分析部10は、窓関数の乗算によって音信号S1を時間軸上で複数のフレームに区分し、FFT(Fast Fourier Transform)処理などの周波数分析を各フレームの音信号S1に実施することで各フレームの周波数スペクトル(パワースペクトル)X1を特定する。また、周波数分析部10は、周波数スペクトルX1の特定と同様の方法で、音信号S2の各フレームについて周波数スペクトルX2を特定する。
図1の音源分離部20は、周波数軸上に離散的に設定されたK個(Kは自然数)の周波数のうち目的音が優勢な周波数(以下では「目的音周波数」という)FAの成分CAと非目的音が優勢な周波数(以下では「非目的音周波数」という)FBの成分CBとを、音信号S1の周波数スペクトルX1と音信号S2の周波数スペクトルX2とからフレーム毎に抽出する手段である。目的音周波数FAと非目的音周波数FBとの選別には、以下に詳述するように、例えば特開2006−197552号公報に開示された技術が好適に採用される。
図1に示すように、本形態の音源分離部20は、信号処理部22と周波数選別部24と成分特定部26とを含む。信号処理部22は、複数の方向(D0,DR,DL)の各々からの到来音を他の方向からの到来音と比較して抑制(または強調)した複数の周波数スペクトル(X0,XR,XL)を周波数スペクトルX1と周波数スペクトルX2とに基づいて生成する。図2は、信号処理部22による処理の内容を説明するためのグラフである。同図において、横軸は、方向D0を基準(0°)とした角度θを意味し、縦軸は、信号の強度(パワー)を意味する。
図1に示すように、信号処理部22は、第1処理部221と第2処理部222と第3処理部223とで構成される。第1処理部221は、周波数スペクトルX1から周波数スペクトルX2を減算することで周波数スペクトルX0を生成する。方向D0から到来する目的音は略同じ位相で第1収音器71と第2収音器72とに到達するから、周波数スペクトルX0は、図2に符号B0(実線)で示すように、方向D0からの目的音を他の方向からの到来音と比較して抑制した音のスペクトルに相当する。
第2処理部222は、音信号S1を時間Dだけ遅延させた信号の周波数スペクトルD(X1)を周波数スペクトルX2から減算することで周波数スペクトルXRを生成する。遅延時間Dは、方向DRからの到来音が第1収音器71に到達する時点と第2収音器72に到達する時点との時間差に設定される。したがって、周波数スペクトルXRは、図2に符号BR(破線)で示すように、方向DRから到来する非目的音を他の方向からの到来音と比較して抑制した音のスペクトルに相当する。同様に、第3処理部223は、音信号S2を時間Dだけ遅延させた信号の周波数スペクトルD(X2)を周波数スペクトルX1から減算することで、方向DLから到来する非目的音を抑制した周波数スペクトルXL(図2の符号BL)を生成する。なお、特定の方向(DR,DL)からの到来音が抑制されるのであれば、第2処理部222と第3処理部223とで別個の遅延時間を適用してもよい。
図1の周波数選別部24は、信号処理部22が生成した3種類の周波数スペクトル(X0,XR,XL)の強度を周波数毎に比較することでK個の周波数の各々を目的音周波数FAと非目的音周波数FBとに選別する。さらに詳述すると、周波数選別部24は、以下に説明する第1処理と第2処理とを実行する。
第1処理は、周波数スペクトルXRと周波数スペクトルXLとを対比する処理である。すなわち、周波数選別部24は、周波数スペクトルXRおよび周波数スペクトルXLについて同じ周波数での強度をK個の周波数の各々について比較することで周波数スペクトルXRLを生成する。周波数スペクトルXRの強度が周波数スペクトルXLを下回る周波数における周波数スペクトルXRLの強度は周波数スペクトルXRと同じ強度に設定される。また、周波数スペクトルXLの強度が周波数スペクトルXRを下回る周波数における周波数スペクトルXRLの強度は周波数スペクトルXLと同じ強度に設定される。
第2処理は、周波数スペクトルXRLと周波数スペクトルX0とを対比する処理である。前述のように周波数スペクトルX0は目的音の強度を抑制したスペクトルであり、周波数スペクトルXRLは方向DRおよび方向DLからの非目的音の強度を抑制したスペクトルである。したがって、周波数選別部24は、周波数スペクトルX0と周波数スペクトルXRLとについて同じ周波数での強度をK個の周波数の各々について比較し、K個の周波数のうち周波数スペクトルX0の強度が周波数スペクトルXRLを下回る周波数を目的音周波数(目的音が優勢な周波数)FAに選別するとともに、K個の周波数のうち周波数スペクトルXRLの強度が周波数スペクトルX0を下回る周波数を非目的音周波数FBに選別する。
図1の成分特定部26は、各目的音周波数FAの成分CAの強度tAと非目的音周波数の成分CBの強度tBとを特定する手段である。図2に示すように、周波数スペクトルX0(符号B0)は非目的音を強調したスペクトルであり、周波数スペクトルXRLは目的音を強調したスペクトルである。そこで、成分特定部26は、目的音周波数FAにおける強度tAを、周波数スペクトルXRLの当該周波数における強度(主に目的音に由来する強度)から周波数スペクトルX0の当該周波数における強度(主に非目的音に由来する強度)を減算した数値に設定する。
周波数スペクトルXRLの目的音周波数FAにおける成分は、目的音が優勢ではあるけれども非目的音も包含する。以上のように周波数スペクトルXRLから周波数スペクトルX0を減算することで目的音周波数FAにおける強度tAを選定する構成によれば、方向DRや方向DLから到来した非目的音の影響を効果的に抑圧することが可能である。なお、方向DRや方向DLから到来した非目的音の影響を除去する必要性が低い場合には、目的音を強調した周波数スペクトルXRLの強度を成分CAの強度tAとして設定してもよい。目的音周波数FAの成分CAを強度tAとしたスペクトル(すなわち成分CAを周波数軸上に配列したスペクトル)を以下では「目的音スペクトルX」と表記する。
さらに、成分特定部26は、非目的音周波数FBにおける強度tBを、周波数分析部10が生成した周波数スペクトルX1の当該周波数における強度に設定する。なお、非目的音周波数FBにおける強度tBは、周波数スペクトルX2の当該周波数における強度でもよいし、周波数スペクトルX0の当該周波数における強度(主に非目的音に由来する強度)から周波数スペクトルXRLの当該周波数における強度(主に目的音に由来する強度)を減算した数値でもよい。
図1の非目的音推定部32は、複数のフレームの各々における非目的音周波数FBの強度tBに基づいて非目的音のスペクトル(以下では「非目的音スペクトル」という)Qをフレーム毎に推定する手段である。第n番目のフレームの非目的音スペクトルQは、K個の周波数の各々における強度μn(1)〜μn(K)として定義される。強度μn(k)(k=1〜K)は、直前の第(n-1)番目のフレームにおける非目的音スペクトルQのうち同じ周波数における強度μn-1(k)に応じて設定される。さらに詳述すると、第n番目のフレームについて第k番目の周波数が非目的音周波数FBに選別された場合、非目的音スペクトルQの強度μn(k)は、式(1)に示すように、第(n-1)番目のフレームにおける非目的音スペクトルQの強度μn-1(k)と、第n番目のフレームにおける第k番目の周波数(非目的音周波数FB)の強度tB(n,k)との加重和として算定される。式(1)における係数αは所定値(例えばα=0.9)に設定される。係数αが大きいほど、第n番目のフレームにおける非目的音周波数FBの強度tB(n,k)の影響が減少する(過去の各フレームにおける強度tBの影響が増大する)。
μn(k)=α・μn-1(k)+(1−α)・tB(n,k) ……(1)
また、第n番目のフレームについて第k番目の周波数が目的音周波数FAに選別された場合、式(2)に示すように、非目的音スペクトルQの強度μn(k)は、直前のフレームにおける同じ周波数の強度μn-1(k)に設定される。
μn(k)=μn-1(k) ……(2)
式(1)および式(2)から理解されるように、第n番目のフレームにおける非目的音スペクトルQの強度μn(k)は、過去(第(n-1)番目以前)の複数のフレームについて算定された非目的音スペクトルQの強度を累積的に反映した数値となる。すなわち、非目的音スペクトルQの強度μn(k)は、第k番目の周波数が非目的音周波数FBに選別された複数のフレームにわたって成分CBの強度tBを平滑化した数値となる。
図1の非目的音抑圧部34は、目的音周波数FAの各成分CAを配列した目的音スペクトルXから非目的音スペクトルQを減算する手段である。さらに詳述すると、非目的音抑圧部34は、第n番目のフレームの目的音スペクトルXのうち目的音周波数FAに選別された第k番目の周波数における強度tA(n,k)(tA(n,k)=|Xn(k)|)から、同じフレームにおける非目的音スペクトルQのうち第k番目の周波数における強度μn(k)を減算することで目的音スペクトルSn(k)を算定する。すなわち、非目的音抑圧部34による演算の内容は式(3a)または式(3b)で表現される。式(3a)におけるejθx(k)は、目的音スペクトルXn(k)の位相成分(ejθx(k)=Xn(k)/|Xn(k)|)である。
Sn(k)={|Xn(k)|−μn(k)}ejθx(k) ……(3a)
={1−μn(k)/|Xn(k)|}・Xn(k) ……(3b)
図1の波形合成部40は、非目的音抑圧部34の生成した目的音スペクトルSn(k)から時間領域の音信号SOUTを生成する手段である。図1に示すように、波形合成部40は、乗算部42と合成部44と逆変換部46とで構成される。乗算部42は、非目的音周波数FBの各成分CBの強度tBに係数pを乗算する。係数pは所定値(例えばp=0.01)に設定される。
合成部44は、非目的音抑圧部34による処理後の成分CA(目的音スペクトルSn(k))と乗算部42による演算後の成分CBとを周波数軸に沿って配列することで各フレームの出力スペクトルRを合成する。すなわち、第n番目のフレームの出力スペクトルRにおいて、K個の周波数のうち目的音周波数FAに選別された第k番目の周波数の強度は、目的音スペクトルSn(k)の当該周波数における強度(|Sn(k)|)に設定される。また、第n番目のフレームの出力スペクトルRのうち非目的音周波数FBに選別された第k番目の周波数の強度は、第n番目のフレームの当該周波数における成分CBの強度tB(n,k)と係数pとの乗算値に設定される。
逆変換部46は、各フレームの出力スペクトルRに逆FFT処理を実行することで時間領域の信号を生成し、各フレームの信号を時間軸上で相互に連結することで音信号SOUTを生成する。スピーカやヘッドホンなどの放音機器(図示略)に音信号SOUTが出力されることで、非目的音が抑圧されて目的音が強調された再生音が放音される。
以上に説明したように、本形態においては、目的音の方向D0と非目的音の方向(DR,DL)との相違に基づいて目的音周波数FAと非目的音周波数FBとが選別され、複数のフレームにわたる非目的音周波数FBの強度tBに応じて生成された非目的音スペクトルQが目的音スペクトルXから減算される。したがって、発音区間と非発音区間とを時間軸上で区分する特許文献1や特許文献2の処理は原理的に不要であり、目的音と非目的音との音響的な特徴(周波数スペクトルやピッチ)が類似する場合であっても非目的音のみを有効に抑圧することができる。また、特許文献2の技術においては雑音が多い環境においてピッチの抽出が困難であるという問題があるが、本形態においてはピッチの抽出が不要であるから、雑音が多い環境であっても非目的音を有効に抑制できるという利点がある。
ところで、本形態の成分特定部26は、目的音が強調された周波数スペクトルXRLから非目的音が強調された周波数スペクトルX0を減算することで目的音スペクトルXを生成する。すなわち、成分特定部26による処理の段階でも非目的音の抑圧は実行される。しかし、周波数スペクトルX0においては方向D0からの到来音が抑制されているから、例えば方向D0からの到来音に非目的音が含まれる場合には周波数スペクトルXRLから周波数スペクトルX0を減算しても非目的音を充分に抑制することができない。例えば、空調設備の動作音や人込み内での雑踏音(ガヤガヤ音)など方向性のない非目的音が存在する環境では方向D0から到来する非目的音の成分が抑制されない。これに対して本形態においては、非目的音周波数FBの強度tBを複数のフレームにわたって平滑化することで非目的音スペクトルQが生成されるから、非目的音スペクトルQは、方向性がない定常的な雑音をも反映した特性となる。したがって、本形態によれば、成分特定部26による処理(周波数スペクトルXRLから周波数スペクトルX0を減算する処理)のみで非目的音を抑制する構成と異なり、空調設備の動作音や人込み内での雑踏音といった方向性のない非目的音も効果的に抑圧することが可能である。
<変形例>
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
式(3a)のように目的音スペクトルXn(k)の強度|Xn(k)|から非目的音スペクトルQの強度μn(k)を単純に減算する形態においては、目的音スペクトルSn(k)が負数となる可能性がある。そこで、目的音周波数FAの強度|Xn(k)|から強度μn(k)を減算した結果が閾値を下回る周波数について、非目的音抑圧部34が目的音スペクトルSn(k)の強度を当該閾値に設定する構成も採用される。例えば以下に例示する各態様が好適である。
(1−1)第1の態様
非目的音抑圧部34は、K個の周波数の各々について|Xn(k)|−μn(k)をゼロ(閾値)と比較する。|Xn(k)|−μn(k)がゼロを上回る周波数について、非目的音抑圧部34は、前述と同様の式(3a)に基づいて目的音スペクトルSn(k)の強度を算定する。一方、|Xn(k)|−μn(k)がゼロ以下である周波数について、非目的音抑圧部34は、|Xn(k)|−μn(k)の数値に拘わらず、目的音スペクトルSn(k)の強度をゼロに設定する。以上の態様によれば、目的音スペクトルSn(k)の強度が負数とならないから、聴感上において自然な音を生成することが可能である。
(1−2)第2の態様
非目的音抑圧部34は、K個の周波数の各々について、|Xn(k)|−β・μn(k)をγ・μn(k)(閾値)と比較する。係数βは1以上の数値(例えば3〜6)に設定され、係数γは1よりも充分に小さい正数(例えば0.01)に設定される。|Xn(k)|−β・μn(k)がγ・μn(k)を上回る周波数について、非目的音抑圧部34は、以下の式(4a)に基づいて目的音スペクトルSn(k)の強度を算定する。
Sn(k)={|Xn(k)|−β・μn(k)}ejθx(k) ……(4a)
一方、|Xn(k)|−β・μn(k)がγ・μn(k)以下である周波数について、非目的音抑圧部34は、以下の式(4b)に基づいて目的音スペクトルSn(k)の強度を算定する。
Sn(k)={γ・μn(k)}ejθx(k) ……(4b)
強度|Xn(k)|が非目的音スペクトルQの強度μn(k)と比較して充分に大きい周波数(|Xn(k)|−β・μn(k)>γ・μn(k)を満たす周波数)については、非目的音に相当する成分が過剰に強度|Xn(k)|から減算(オーバーサブトラクション)されるから、非目的音が充分に抑圧された高品位な音を生成することができる。一方、|Xn(k)|−β・μn(k)がγ・μn(k)以下である周波数については非目的音スペクトルSn(k)が強度|Xn(k)|とは無関係にγ・μn(k)に基づいて設定されるから、目的音スペクトルSn(k)の強度が負数まで低下するのを防止して自然な再生音の生成が可能となる。
なお、第2の態様においては、出力スペクトルRのうち目的音周波数FA(目的音スペクトルSn(k))における強度の最低値はγ・μn(k)に設定され、非目的音周波数FBにおける強度は成分CBの強度tB(n,k)と係数pとの乗算値に設定される。ここで、目的音周波数FAにおける強度の最低値γ・μn(k)と非目的音周波数FBにおける強度p・tB(n,k)とが出力スペクトルRにおいて顕著に相違する場合には、再生音が聴感上において不自然となる可能性がある。そこで、さらに好適な態様に係る音処理装置100は、目的音周波数FAにおける強度の最低値γ・μn(k)と非目的音周波数FBにおける強度p・tB(n,k)とが近づくように係数γおよび係数pの少なくとも一方を可変に制御してもよい。以上の構成によれば、出力スペクトルRのうち目的音周波数FAにおける強度の最低値γ・μn(k)と非目的音周波数FBにおける強度p・tB(n,k)とが近づく(理想的には略一致する)から、聴感上において自然な再生音を生成することが可能である。
(2)変形例2
以下に例示するように式(1)の係数αを非目的音推定部32が可変に制御する構成も好適である。
目的音スペクトルSn(k)は、目的音スペクトルXn(k)から非目的音スペクトルQの強度μn(k)を減算することで算定されるから、非目的音の特性(例えば音量)が変化すると目的音スペクトルSn(k)における目的音周波数FAの特性も変化する。一方、式(1)から理解されるように、最新(第n番目)のフレームにおける非目的音周波数FBの強度tB(n,k)の影響は、係数αが大きい(係数(1−α)が小さい)ほど抑制される。したがって、非目的音の音量が変化したときの目的音の音量の変化は、係数αが大きいほど低減される。
目的音が優勢である期間(目的音周波数FAが多い期間)にて目的音の音量が顕著に変動すると受聴者に不自然な印象を与えるから、第n番目のフレームにおける目的音周波数FAの個数が多い(非目的音周波数FBの個数が少ない)ほど係数αが増加する(係数(1−α)が減少する)ように、非目的音推定部32が係数αを可変に制御する構成が好適である。以上の構成によれば、目的音が優勢である期間においては、非目的音の音量が変化しても目的音の音量の変化は抑制されるから、聴感上において自然な音を生成することが可能となる。
(3)変形例3
式(3b)において、非目的音スペクトルQの強度μn(k)は非目的音の成分CBの強度tBを複数のフレームにわたって平滑化した数値であるのに対し、目的音スペクトルXn(k)の強度|Xn(k)|はひとつのフレームにおける瞬時値である。したがって、ひとつのフレームにて強度|Xn(k)|が急に低下した場合、式(3b)におけるμn(k)/|Xn(k)|の増大に伴なって目的音スペクトルSn(k)の強度が過度に低下する可能性がある。そこで、例えば、目的音スペクトルXn(k)の強度|Xn(k)|を式(1)と同様の方法で複数のフレームにわたって平滑化した数値を、式(3b)における強度|Xn(k)|の代わりに使用することで目的音スペクトルSn(k)を算定してもよい。以上の構成によれば、目的音の音量の瞬間的な変動が抑制されるから、聴感上において自然な音を生成することができる。
(4)変形例4
非目的音スペクトルQの強度μn(k)が目的音スペクトルXn(k)の強度|Xn(k)|と比較して充分に小さい場合、式(3b)の{1−μn(k)/|Xn(k)|}は1に近い数値となる。そこで、{1−μn(k)/|Xn(k)|}が1未満の所定の閾値を上回る場合(またはμn(k)/|Xn(k)|が所定の閾値を下回る場合)、非目的音抑圧部34は、強度μn(k)や強度|Xn(k)|に拘わらず、{1−μn(k)/|Xn(k)|}を1に設定して式(3b)から目的音スペクトルSn(k)を算定してもよい。以上の構成によれば、非目的音抑圧部34の処理の負荷が軽減されるという利点がある。
(5)変形例5
目的音周波数FAと非目的音周波数FBとを選別する方法は適宜に変更される。例えば、以上の形態においては2個の周波数スペクトルに(パワースペクトル)のパワーを比較することで目的音周波数FAと非目的音周波数FBとを選別する構成を例示したが、2個の周波数スペクトル(振幅スペクトル)について同じ周波数における振幅を比較することで目的音周波数FAと非目的音周波数FBとを選別してもよい。
また、例えば特開平10−313497号公報に開示された技術を目的音周波数FAと非目的音周波数FBとの選別に利用してもよい。第1収音器71は、第2収音器72と比較して目的音の音源に近い位置に配置される(第2収音器72は第1収音器71と比較して非目的音の音源に近い)。周波数選別部24は、周波数スペクトルX1と周波数スペクトルX2とについて同じ周波数における強度をK個の周波数の各々について比較し、周波数スペクトルX1の強度が大きい周波数を目的音周波数FAに選別するとともに、周波数スペクトルX2の強度が大きい周波数を非目的音周波数FBに選別する。そして、周波数スペクトルX1における目的音周波数FAの強度が成分CAの当該周波数における強度tAとされ、周波数スペクトルX2における非目的音周波数FBの強度が成分CBの当該周波数における強度tBとされる。以上の構成によれば、信号処理部22が不要となるから音処理装置100の処理や構成が簡素化されるという利点がある。
(6)変形例6
非目的音スペクトルQの強度μn(k)を算定する方法は適宜に変更される。例えば、所定個のフレームにわたる第k番目の周波数の強度tBの移動平均が非目的音スペクトルQの強度μn(k)として算定される。移動平均(強度μn(k))の算定には、第n番目のフレームの直前の所定個のフレームや、第n番目のフレームを含む前後の所定個のフレームなど、第n番目のフレームの近傍にある複数のフレームが使用される。また、例えば、複数のフレームにわたる強度tBの時系列にローパスフィルタ処理を施すことで強度μn(k)を算定する構成も好適である。
(7)変形例7
時間領域の音信号S1および音信号S2を信号処理部22が処理してもよい。すなわち、信号処理部22は、音信号S1から音信号S2を減算した信号S0と、時間Dだけ遅延させた音信号S1を音信号S2から減算した信号SRと、時間Dだけ遅延させた音信号S2を音信号S1から減算した信号SLとを生成する。周波数分析部10は、信号処理部22の後段に配置され、信号S0を周波数スペクトルX0に変換し、信号SRを周波数スペクトルXRに変換し、信号SLを周波数スペクトルXLに変換する。以上の形態においても図1の構成と同様の効果が奏される。
(8)変形例8
非目的音抑圧部34が生成した目的音スペクトルSn(k)を出力スペクトルRとして逆変換部46に出力する構成(すなわち乗算部42や合成部44を省略した構成)も採用される。ただし、目的音スペクトルSn(k)において非目的音周波数FBの強度はゼロとなるから、目的音スペクトルSn(k)から再生される再生音は聴感上において不自然となる可能性がある。したがって、自然な音の生成という観点からすると、非目的音周波数FBの成分CBの強度tBと係数pとの乗算値を目的音スペクトルSn(k)に付加する図1の構成が好適である。
本発明の実施形態にかかる音処理装置の構成を示すブロック図である。 信号処理部による処理を説明するためのグラフである。
符号の説明
100……音処理装置、10……周波数分析部、20……音源分離部、22……信号処理部、24……周波数選別部、26……成分特定部、32……非目的音推定部、34……非目的音抑圧部、40……波形合成部、42……乗算部、44……合成部、46……逆変換部、71……第1収音器、72……第2収音器。

Claims (6)

  1. 相互に離間する複数の収音器の各々が生成した音信号から、複数の周波数のうち目的音が優勢な目的音周波数の各成分と前記複数の周波数のうち非目的音が優勢な非目的音周波数の各成分とを、時間軸上のフレーム毎に抽出する音源分離手段と、
    複数のフレームの各々における非目的音周波数の成分の強度に応じて当該周波数における強度が設定された非目的音スペクトルを生成する非目的音推定手段と、
    前記目的音周波数の各成分を含む目的音スペクトルから前記非目的音スペクトルを減算する非目的音抑圧手段とを具備し、
    前記非目的音推定手段は、一のフレームにおける非目的音周波数の成分の強度と、前記一のフレームの直前のフレームについて生成した非目的音スペクトルの当該周波数における強度との加重和を、前記一のフレームにおける非目的音スペクトルの当該周波数における強度に設定し、前記加重和に使用する加重値を、前記一のフレームにおける目的音周波数または非目的音周波数の個数に応じて可変に制御する
    音処理装置。
  2. 前記非目的音推定手段は、前記一のフレームにおける目的音周波数の個数が多いほど、直前のフレームにおける非目的音スペクトルの強度の加重値が一のフレームにおける非目的音周波数の強度の加重値に対して相対的に増加するように、各加重値を可変に制御する
    請求項1の音処理装置。
  3. 前記非目的音抑圧手段は、前記目的音周波数の各成分の強度を複数のフレームにわたって平滑化することで生成された前記目的音スペクトルから前記非目的音スペクトルを減算する
    請求項1または請求項2の音処理装置。
  4. 前記非目的音周波数の各成分の強度に第1係数を乗算する乗算手段と、
    前記非目的音抑圧手段による減算後の目的音スペクトルにおける目的音周波数の各成分と前記乗算手段による乗算後の非目的音周波数の各成分とを周波数軸上に配列した出力スペクトルを生成する合成手段と
    を具備する請求項1から請求項3の何れかの音処理装置。
  5. 前記非目的音抑圧手段は、前記目的音スペクトルから前記非目的音スペクトルを減算したときの各周波数における強度が、前記非目的音スペクトルにおける当該周波数の強度と第2係数との乗算値である閾値を下回る場合には、前記閾値を当該周波数における強度として設定し、
    前記閾値と前記乗算手段による乗算値とが近づくように前記第1係数および前記第2係数の少なくとも一方を制御する係数制御手段を具備する
    請求項4の音処理装置。
  6. コンピュータに、
    相互に離間する複数の収音器の各々が生成した音信号から、複数の周波数のうち目的音が優勢な目的音周波数の各成分と前記複数の周波数のうち非目的音が優勢な非目的音周波数の各成分とを、時間軸上のフレーム毎に抽出する音源分離処理と、
    複数のフレームの各々における非目的音周波数の成分の強度に応じて当該周波数における強度が設定された非目的音スペクトルを生成する非目的音推定処理と、
    前記目的音周波数の各成分を含む目的音スペクトルから前記非目的音スペクトルを減算する非目的音抑圧処理とを実行させるプログラムであって、
    前記非目的音推定処理では、一のフレームにおける非目的音周波数の成分の強度と、前記一のフレームの直前のフレームについて生成した非目的音スペクトルの当該周波数における強度との加重和を、前記一のフレームにおける非目的音スペクトルの当該周波数における強度に設定し、前記加重和に使用する加重値を、前記一のフレームにおける目的音周波数または非目的音周波数の個数に応じて可変に制御する
    プログラム。
JP2007185040A 2007-07-13 2007-07-13 音処理装置およびプログラム Expired - Fee Related JP5034734B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007185040A JP5034734B2 (ja) 2007-07-13 2007-07-13 音処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007185040A JP5034734B2 (ja) 2007-07-13 2007-07-13 音処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020471A JP2009020471A (ja) 2009-01-29
JP5034734B2 true JP5034734B2 (ja) 2012-09-26

Family

ID=40360122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007185040A Expired - Fee Related JP5034734B2 (ja) 2007-07-13 2007-07-13 音処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5034734B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5555987B2 (ja) * 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP5321171B2 (ja) * 2009-03-17 2013-10-23 ヤマハ株式会社 音処理装置およびプログラム
JP5316127B2 (ja) * 2009-03-17 2013-10-16 ヤマハ株式会社 音処理装置およびプログラム
JP5347902B2 (ja) 2009-10-22 2013-11-20 ヤマハ株式会社 音響処理装置
JP5772151B2 (ja) * 2011-03-31 2015-09-02 沖電気工業株式会社 音源分離装置、プログラム及び方法
JP6729187B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
JP6729186B2 (ja) 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2656069B2 (ja) * 1988-05-13 1997-09-24 富士通株式会社 音声検出装置
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP4594629B2 (ja) * 2004-02-19 2010-12-08 学校法人早稲田大学 音源分離方法およびそのシステム
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置

Also Published As

Publication number Publication date
JP2009020471A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
JP5018193B2 (ja) 雑音抑圧装置およびプログラム
JP5034734B2 (ja) 音処理装置およびプログラム
JP5347902B2 (ja) 音響処理装置
US8654990B2 (en) Multiple microphone based directional sound filter
JP5207479B2 (ja) 雑音抑圧装置およびプログラム
EP2210427B1 (en) Apparatus, method and computer program for extracting an ambient signal
CN106663445B (zh) 声音处理装置、声音处理方法及程序
JP6019969B2 (ja) 音響処理装置
JP2008311866A (ja) 音響信号処理方法及び装置
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
US20110022361A1 (en) Sound processing device, sound processing method, and program
TW202117706A (zh) 具多麥克風之語音增強裝置及方法
US10937418B1 (en) Echo cancellation by acoustic playback estimation
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP5034735B2 (ja) 音処理装置およびプログラム
US11380312B1 (en) Residual echo suppression for keyword detection
US11386911B1 (en) Dereverberation and noise reduction
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP5376635B2 (ja) 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
JP5321171B2 (ja) 音処理装置およびプログラム
JP5316127B2 (ja) 音処理装置およびプログラム
JP2006126841A (ja) 周期信号増強システム
JP5463924B2 (ja) 音響処理装置
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees