JP2015138100A - 音処理装置、音処理方法 - Google Patents

音処理装置、音処理方法 Download PDF

Info

Publication number
JP2015138100A
JP2015138100A JP2014008859A JP2014008859A JP2015138100A JP 2015138100 A JP2015138100 A JP 2015138100A JP 2014008859 A JP2014008859 A JP 2014008859A JP 2014008859 A JP2014008859 A JP 2014008859A JP 2015138100 A JP2015138100 A JP 2015138100A
Authority
JP
Japan
Prior art keywords
matrix
base
sound
target sound
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014008859A
Other languages
English (en)
Other versions
JP2015138100A5 (ja
JP6274872B2 (ja
Inventor
船越 正伸
Masanobu Funakoshi
正伸 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014008859A priority Critical patent/JP6274872B2/ja
Priority to US14/598,323 priority patent/US9648411B2/en
Publication of JP2015138100A publication Critical patent/JP2015138100A/ja
Publication of JP2015138100A5 publication Critical patent/JP2015138100A5/ja
Application granted granted Critical
Publication of JP6274872B2 publication Critical patent/JP6274872B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/39Aspects relating to automatic logging of sound environment parameters and the performance of the hearing aid during use, e.g. histogram logging, or of user selected programs or settings in the hearing aid, e.g. usage logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/001Adaptation of signal processing in PA systems in dependence of presence of noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Abstract

【課題】 目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元する技術を提供すること。
【解決手段】 音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する。音響行列を基底スペクトル行列とアクティビティ行列とに分解する。基底スペクトル行列に含まれている基底を目的音に係る基底と雑音に係る基底とに分類する。アクティビティ行列に含まれている基底を目的音に係る基底と雑音に係る基底とに分類する。基底スペクトル行列から分類された雑音に係る基底から目的音に係る基底を求める。基底スペクトル行列から分類された目的音に係る基底とアクティビティ行列から分類された目的音及び雑音に係る基底と該求めた目的音に係る基底とを用いて目的音の周波数振幅値を要素とする行列を求める。該行列を用いて目的音の音響信号を生成する。
【選択図】 図1

Description

本発明は、雑音を抑制しつつ目的音を収音するための技術に関するものである。
近年、カムコーダーやカメラ、スマートフォン等の普及により気軽に映像が撮影できるようになった。また、高音質録音が可能なポータブルオーディオレコーダーも多く普及しており、映像が付随する・しないに関わらず、あるいは屋内、屋外を問わず、周囲、もしくは目的物の音を録音、あるいは収音する機会が増えている。
このような収音信号において、屋内では空調やPC等の動作音、屋外では風雑音(風切り音)といった、目的とする音ではない雑音が混入すると、聴感上不快であり、また、音声認識する場合も阻害要因となる。そこで、収音信号における不要な雑音を抑制することは従来から重要な課題となっている。
音響信号から雑音を抑制する技術として、非負値行列因子分解(NMF)を用いたものがある。これは、音響信号を短時間フーリエ変換し、係数の振幅絶対値を時間系列で並べた行列(以下、音響行列と呼称)を非負値行列因子分解によって基底スペクトル行列とアクティビティ行列とに分解するものである。そしてこれらの行列を、それぞれの音源に由来する成分に分離できるという仮定に基づいて、目的音に係る部分行列と雑音に係る部分行列に分類する。そして、目的音に関わる部分基底スペクトル行列である目的音基底スペクトル行列と、目的音に関わる部分アクティビティ行列である目的音アクティビティ行列を用いて、雑音が除去された目的音復元信号を復元する。なお、音響行列をその値によって色付けしてマップ表示したものを一般にスペクトログラムと呼称している。
例えば、特許文献1では、雑音除去対象である音響信号とは別に目的音と雑音をそれぞれ用意し、それらを事前学習することで目的音と雑音それぞれの教師基底スペクトル行列および教師アクティビティ行列を得る。そして教師基底スペクトル行列および、教師アクティビティ行列の統計量情報を用い、音響信号を時間周波数変換した行列を分解して目的音復元信号を得る。
特許文献2では、2chの音響信号それぞれを時間周波数変換した2つの行列を非負値行列因子分解する。そして、各chの基底行列の各列を構成する基底スペクトルについて、ch間の相関が高いものを雑音基底スペクトル、それ以外のものを目的音基底スペクトルとする。そして、目的音基底スペクトルで構成される目的音基底行列と、それに対応する目的音アクティビティ行列を用いて目的音復元信号を生成する。
特開2009−128906号公報 特開2012−22120号公報
しかしながら、NMFを用いて音源を分離する従来の技術では、各基底スペクトルの成分が完全に唯一の音源の成分に由来するのではなく、複数の音源の成分が混じる場合がある。よって、雑音をNMFで抑制する場合では、雑音基底スペクトル行列の一部に目的音の成分が含まれてしまうために、復元した目的音が劣化してしまうという課題があった。
例えば、特許文献1に開示の技術では、基底スペクトルとアクティビティの学習を事前に行うことにより、厳密に音源を分離することを試みているが、分離の結果、雑音基底スペクトル行列に目的音成分が含まれてしまうと、それを補正することはできない。そこで、NMFによって分離、復元した雑音信号に対して、目的音成分を抽出しようと試みる先行技術がある。
例えば、特許文献2に開示の技術では、NMFによって復元した目的音信号の調波構造に基づいて、復元雑音信号から残留成分を抽出しているが、目的音信号が調波構造を持たない場合はこの方法では抽出が難しい。
本発明はこのような問題に鑑み、目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元する技術を提供する。
本発明の一様態は、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第1の計算手段と、前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第1の計算手段が求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第2の計算手段と、前記第2の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段とを備えることを特徴とする。
本発明の構成によれば、目的音を含む環境音の信号である音響信号から、より高精度に目的音を復元することができる。
音処理装置の機能構成例を示すブロック図。 音処理装置が行う処理のフローチャート。 ステップS8における処理の詳細を示すフローチャート。 音処理装置の機能構成例を示すブロック図。 音処理装置が行う処理のフローチャート。 音処理装置の機能構成例を示すブロック図。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。
[第1の実施形態]
本実施形態では、目的音を含む環境音の信号である音響信号を収集し、該収集した音響信号から、該目的音を高精度に復元して出力する音処理技術について説明する。先ず、本実施形態に係る音処理装置の機能構成例について、図1のブロック図を用いて説明する。
マイクロフォンユニット1は、目的音を含む環境音を収集し、該収集した環境音をアナログ音響信号に変換してマイクロフォンアンプ2に出力するものである。マイクロフォンアンプ2は、マイクロフォンユニット1から出力された微弱なアナログ音響信号を増幅して出力する。アナログデジタル変換器(ADC)3は、マイクロフォンアンプ2によって増幅されたアナログ音響信号をデジタル音響信号に変換し、該変換したデジタル音響信号を収音信号として出力する。
STFT(短時間フーリエ変換器)4は、ADC3から出力された収音信号を予め定められたフレーム長ごとにフーリエ変換して、予め定められたフレーム長ごとの周波数領域信号(フーリエ係数群)を出力する。
音響行列生成器5は、STFT4から出力される周波数領域信号(フーリエ係数群)を予め定められた時間長分まとめて、各フーリエ係数の絶対値振幅を計算することにより、収音信号の音響行列を生成する。また、音響行列生成器5は、この音響行列に対応する位相行列も生成する。
NMF(非負値行列因子分解器)6は、音響行列生成器5が生成した音響行列に対して非負値行列因子分解を行い、該音響行列を基底スペクトル行列Hとアクティビティ行列Uとに分解して出力する。
基底分類器7は、NMF6から出力された基底スペクトル行列Hから、目的音に係る基底から成る行列Hと、雑音に係る基底から成る行列Hと、を生成する。同様に、基底分類器7は、NMF6から出力されたアクティビティ行列Uから、目的音に係る基底から成る行列Uと、雑音に係る基底から成る行列Uと、を生成する。
スペクトルヒストグラム計算器8は、音響行列生成器5が生成した音響行列において、各行のフーリエ係数値を加算することにより、音響行列における各スペクトル成分のヒストグラムを生成する。
雑音周波数閾値計算器9は、スペクトルヒストグラム計算器8が生成したヒストグラムを参照して、行列Hにおける雑音成分と目的音成分を判定する指標である雑音周波数閾値を計算する。
目的音成分抽出器10は、雑音周波数閾値計算器9が求めた雑音周波数閾値を参照して、行列Hから目的音成分を抽出し、該抽出した目的音成分のフーリエ係数から成る抽出目的音基底スペクトル行列Hを生成して出力する。
目的音復元器11は、行列H、U、H、Uを用いて、高精度の目的音の周波数領域信号を生成する。
STIFT(短時間逆フーリエ変換器)12は、目的音復元器11が生成した目的音の周波数領域信号に対して、フレーム単位の逆フーリエ変換を行い、時間領域信号に変換する。そしてSTIFT12は、この変換した時間領域信号を、目的音の音響信号として出力する。
次に、このような構成を有する音処理装置により行われる、収音信号に含まれる雑音を抑制しつつ目的音を高精度に復元する一連の処理について、同処理のフローチャートを示す図2を用いて説明する。
上記の通り、マイクロフォンユニット1は、目的音を含む環境音を収集し、該収集した環境音をアナログ音響信号に変換し、マイクロフォンアンプ2は、マイクロフォンユニット1から出力された微弱なアナログ音響信号を増幅して出力する。そして、アナログデジタル変換器(ADC)3は、マイクロフォンアンプ2によって増幅されたアナログ音響信号をデジタル音響信号に変換し、該変換したデジタル音響信号を収音信号として出力する。
ステップS1では、STFT4は、ADC3から出力された収音信号から、予め定められたフレーム長の部分収音信号(フレーム)を切り出す。ここで、今回切り出すフレームは、その前半部分が、前回切り出したフレームの後半部分と重なるように切り出す。
ステップS2では、STFT4は、ステップS1で切り出したフレームに対して短時間フーリエ変換を施すことで、該フレームのフーリエ係数群を計算する。そして、音響行列生成器5は、STFT4が求めたそれぞれのフーリエ係数の振幅絶対値を計算し、この計算したそれぞれの振幅絶対値を、音響行列においてまだ振幅絶対値が登録されていない列(未登録列)に登録する。なお、音響行列は、初期状態では、全ての列が未登録列である。つまり、音響行列の行は周波数を示し、列は時間を示すように、この音響行列にはフーリエ係数を登録する。また、音響行列生成器5は、各フーリエ係数の位相を、音響行列と同サイズの位相行列に登録する。
ステップS3では、音響行列生成器5は、音響行列に未登録列が残っているか否か、すなわち、予め定められた時間長分のフーリエ係数が登録された音響行列が完成したか否かを判断する。
この判断の結果、完成した場合には、処理はステップS4に進む。一方、まだ完成していない場合には、処理はステップS1に戻り、次のフレームについてステップS1以降の処理を繰り返す。
ステップS4では、NMF6は、音響行列生成器5が生成した音響行列に対して非負値行列因子分解を行うことで、この音響行列を、基底スペクトル行列Hとアクティビティ行列Uとに分解する。ここで、音響行列をVとすると、次の関係が成立する。
V≒HU (1)
ここで、基底スペクトル行列Hの各列を基底スペクトルと呼ぶ。また、アクティビティ行列Uの各行をアクティビティと呼ぶ。基底スペクトル行列Hにおけるi列目の基底スペクトルとアクティビティ行列Uにおけるi行目のアクティビティとは1対1で対応しており、この二つの行列積を取ることによって、音響行列を構成する基底毎の音響行列を求めることができる。
ステップS5では、基底分類器7は、基底スペクトル行列Hを構成する各基底を、目的音に係る基底と、雑音に係る基底と、に分類し、目的音に係る基底から成る行列Hと、雑音に係る基底から成る行列Hと、を生成する。同様に、基底分類器7は、アクティビティ行列Uを構成する各基底を、目的音に係る基底と、雑音に係る基底と、に分類し、目的音に係る基底から成る行列Uと、雑音に係る基底から成る行列Uと、を生成する。
基底分類の具体的な手法には様々なものが存在し、基底スペクトルの特性に着目して分類する手法や、アクティビティの特性に着目して分類する手法などがある。本実施形態においては、周波数特性に偏りを持つ風雑音などの雑音を想定し、基底スペクトルの重心周波数に着目して目的音に係る基底と雑音に係る基底とに分類する。雑音がある周波数成分に偏っているのに対して、一般に音声や音楽などの目的音は広い帯域に成分を持つと考えられるため、この性質を利用することによって基底を分類することが可能である。具体的には、基底スペクトル行列を構成する各基底スペクトルの重心周波数を求め、基底スペクトルとアクティビティをともに重心周波数順にソートすることによって分類できる。風雑音の場合は低域に偏った成分を持つため、その基底も重心周波数が低くなる。一方、目的音の基底の成分はより高域に広がって分布しているため、重心周波数が高くなる。よって、昇順にソートすると、ソート結果は雑音の度合いが高い基底から順に並ぶことになる。ここで、別の基準、例えば、分類後の基底を復元した信号のSNR、もしくは、既定の周波数閾値などによって目的音に係る基底と雑音に係る基底とを区分けすることによって、目的音に係る基底と雑音に係る基底の分類ができる。
ステップS6では、スペクトルヒストグラム計算器8は、音響行列生成器5が生成した音響行列における各スペクトル成分のヒストグラムを計算する。このヒストグラムは上記の通り、音響行列の行毎に、該行内のフーリエ係数値の総和を計算することで、各行に対するスペクトル成分のヒストグラムを生成することができる。
ステップS7では、雑音周波数閾値計算器9は、ステップS6で生成したヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域と、の境界部分を閾値(雑音成分の周波数閾値)として求める。
音響行列における周波数成分のバラつきを考えると、例えば、風雑音の場合は低域において一定の頻度で生じるのに対し、目的音は広い帯域でまばらに分散する。そこで、ヒストグラムは、風雑音成分が占める帯域では大きい値になるのに対し、目的音成分が存在する帯域では小さい値になる。つまり、風雑音が占める周波数帯域と、目的音成分が占める周波数帯域との間には、ヒストグラム上に値(ヒストグラム値)の段差ができる。この段差を検知することによって、雑音成分の周波数閾値を決定する。たとえば規定値以上の段差の部分を雑音成分の周波数閾値として決定する。
ステップS8では、目的音成分抽出器10は、ステップS7で求めた閾値を用いて、行列Hから目的音成分を抽出し、該抽出した目的音成分のフーリエ係数から成る抽出基底スペクトル行列Hを生成する。ステップS8における処理を実施する方法には様々な方法が考えられるが、そのうちの1つを一例として、図3のフローチャートを用いて後述する。
ステップS9では、目的音復元器11は、ステップS5で生成した行列H,U,Uと、ステップS8で求めた抽出基底スペクトル行列Hと、を用いて、高精度の目的音の周波数領域信号(音響行列)を復元する。具体的には、以下の式に従って、高精度の目的音の音響行列Vを復元する。
=H+H (2)
この式(2)に示すように、本実施形態においては、従来は雑音成分とともに排除していた目的音成分(行列H)も目的音として復元されるため、より高精度な目的音を復元することができる。
ステップS10で目的音復元器11は、ステップS9で生成した目的音の音響行列(V)の各要素である周波数振幅値に対し、ステップS2で生成した位相行列の各要素(位相)を適用し、音響行列の各要素を位相情報を含むフーリエ係数に変換する。
ステップS11では、STIFT12は、ステップS10で位相行列を適用した音響行列の各列に対して短時間逆フーリエ変換を行い、得られた時間領域信号をフレーム長を半分ずつずらして加算することにより、復元した目的音の時間信号を出力する。出力先については特定の出力先に限るものではなく、データとしてメモリに格納しても良いし、アナログ信号に変換してからスピーカを介して音として出力しても構わない。
本装置に収音終了指示が入力されるなど、図2のフローチャートに従った処理の終了条件が満たされた場合には、処理はステップS12を介して終了する。一方、終了条件が満たされていない場合には、処理はステップS12を介してステップS1に戻る。
次に、上記のステップS8における処理の詳細について、図3のフローチャートを用いて説明する。ここで、図3(a)に示したフローチャートは、行列Hを構成する全ての基底から、目的音に係る基底を求める処理のフローチャートである。また、図3(b)のフローチャートは、行列Hを構成する全ての基底のうち目的音の成分を含む基底から、目的音に係る基底を求める処理のフローチャートである。ステップS8には、図3(a)に示したフローチャートに従った処理、図3(b)のフローチャートに従った処理、の何れも適用可能である。先ず、図3(a)のフローチャートに従った処理について説明する。
ステップS101では、ステップS7で求めた雑音周波数閾値をカットオフ周波数とするハイパスフィルタ(HPF)を生成する。このとき、フィルタのゲインとQ値は予め定めた値を用いて生成する。なお、生成したHPFのフィルタ係数は時間領域から、行列Hを構成する基底と同じ解像度を持つ周波数領域係数に変換し、さらに振幅絶対値に変換しておく。
ステップS102では、行列Hに含まれる基底スペクトルのうち、次の処理対象となる基底スペクトル(雑音基底スペクトル)を選択する。本実施形態では、行列Hにおいて左端の列の基底スペクトルを第1回目の選択対象とし、左端から2列目の基底スペクトルを第2回目の選択対象とする。このように、左端から右端にいたるまでの各列の基底スペクトルを順次選択する。
ステップS103では、ステップS102で選択した雑音基底スペクトルに対して、ステップS101で生成したHPFのフィルタ係数を周波数領域で畳み込む。ここで、フィルタ係数は振幅の絶対値、つまり、各周波数成分の重みとなっているので、この処理によって、雑音基底スペクトルを構成する各周波数成分がフィルタ係数によって重み付けされることになる。この処理の結果、ステップS102で選択した雑音基底スペクトルにおいて、雑音周波数閾値以下の成分が抑制されるため、結果的に雑音周波数閾値より高域の成分が抽出されることになる。
ステップS104では、行列Hに含まれる全ての基底スペクトルを選択したか否か、即ち、行列Hに含まれる全ての雑音基底スペクトルに対してステップS103の処理を施したか否かを判断する。この判断の結果、全ての基底スペクトルを選択した場合には、処理はステップS105に進み、まだ選択していない基底スペクトルが残っている場合には、処理はステップS102に戻り、未選択の基底スペクトルについて以降の処理を繰り返す。
ステップS105では、各基底スペクトルについて上記の畳み込み演算がなされた行列Hを、抽出基底スペクトル行列Hとして、目的音復元器11に対して送出する。
このように、図3(a)のフローチャートに従った処理では、全ての雑音基底スペクトル列に対して一律に周波数閾値より高域の成分を抽出することによって、目的音成分を抽出する。しかし、全ての雑音基底に目的音成分が含まれているかどうかは分からないので、図3(a)のフローチャートに従った処理では、結果として無駄な処理をしている場合があるし、また、目的音成分以外の微小な雑音を抽出している可能性もある。そこで、各雑音基底スペクトルに目的音が含まれているかどうかを検出し、その状況に応じてより高精度に抽出することを試みている処理が、図3(b)に示されている。なお、図3(b)のフローチャートに従った処理を実行する場合、上記のステップS6及びS7における処理は不要となる。
ステップS111では、目的音成分が行列Hに含まれているかどうかを判定するための指標であるレベル閾値を決定する。例えば、行列H中の周波数成分の絶対振幅値のうち、最大の振幅値を規準として、その値から50dB減じた値をレベル閾値とする。もちろん、レベル閾値を決定する方法はこれに限るものではない。ステップS112では、上記のステップS102と同様の処理を実行する。
ステップS113では、ステップS112で選択された雑音基底スペクトルの振幅が、ステップS111で決定したレベル閾値以下となる最低の周波数を探索し、この周波数を雑音周波数閾値として決定する。雑音基底スペクトルには、必ず雑音成分が含まれているので、低域に周波数成分の塊が存在する。この処理では、その塊の切れ目となっている周波数を探索し、その周波数までの成分を雑音成分として取り扱う。
ステップS114では、ステップS112で選択された雑音基底スペクトルにおいて、ステップS113で決定した雑音周波数閾値よりも高い周波数帯域において、ステップS111で決定したレベル閾値より大きい振幅を持つ成分があるかどうかを探索する。この探索の結果、ステップS111で決定したレベル閾値より大きい振幅を持つ成分がある場合には、処理はステップS115に進み、ない場合は、この雑音基底スペクトルには目的音成分が含まれていないとみなし、処理はステップS112に戻る。
ステップS115では、ステップS114で見つかったレベル閾値以上の振幅を持つ成分が現れる最低の周波数を、抽出周波数閾値として決定する。つまり、図3(b)のフローチャートに従った処理では、雑音基底スペクトル毎に、目的音成分として抽出する周波数帯域を変化させる。こうすることにより、無駄な情報を抽出することを避け、目的音成分のみを高精度で抽出することができる。
ステップS116では、ステップS115で決定した抽出周波数閾値をカットオフ周波数とするハイパスフィルタを生成する。上記のステップS101と同様に、フィルタのゲインとQ値は予め定めた値を用い、フィルタ係数は時間領域から、行列Hを構成する基底と同じ解像度を持つ周波数領域係数に変換し、さらに絶対振幅値に変換しておく。そして、ステップS117、S118、S119ではそれぞれ、ステップS103、S104、S105と同様の処理を行うので、これらのステップに係る説明は省略する。
このように、本実施形態によれば、NMFによって分解、分離した雑音基底に含まれる目的音成分を抽出し、新たな目的音基底として用いるので、より高精度に目的音を復元することができる。
[第2の実施形態]
第1の実施形態では、規定スペクトル行列Hから分類された行列Hから、目的音に係る基底から成る行列Hを生成し、該生成した行列Hを用いて目的音の復元を行っていた。
本実施形態では、規定スペクトル行列Hから分類された行列Hから、高精度に復元した雑音に係る基底から成る行列HFNを生成し、該生成した行列HFNを用いて収音信号に含まれている雑音を抑制することで、目的音の復元を行う。
先ず、本実施形態に係る音処理装置の機能構成例について、図4のブロック図を用いて説明する。図4において図1と同じ機能部には同じ参照番号を付しており、この機能部に係る説明は省略する。
目的音成分除去器101は、雑音周波数閾値計算器9が求めた雑音周波数閾値を参照して、行列Hから目的音成分を抑制した行列である高精度雑音基底スペクトル行列HFNを生成する。
雑音復元器102は、高精度雑音基底スペクトル行列HFNとUとを用いて、高精度の雑音の音響行列を生成する。スペクトル減算器103は、収音信号の音響行列から、高精度の雑音の音響行列を減算することにより、高精度の目的音の音響行列を生成する。また、雑音復元器102は、目的音復元器11と同様に、この音響行列に対して位相行列を適用して、音響行列の各要素を位相情報を含むフーリエ係数に変換する。
STIFT(短時間逆フーリエ変換器)104は、スペクトル減算器103が生成した高精度の目的音の音響行列に対して、フレーム単位の逆フーリエ変換を行い、時間領域信号に変換することにより、高精度の目的音信号を出力する。
次に、このような構成を有する音処理装置により行われる、収音信号に含まれる雑音を抑制しつつ目的音を高精度に復元する一連の動作について、同処理のフローチャートを示す図5を用いて説明する。なお、ステップS201〜S207のそれぞれにおける処理は、図2のステップS1〜S7における処理と同様であるので、これらのステップに係る説明は省略する。
ステップS208では、目的音成分除去器101は、ステップS207で決定した雑音周波数閾値を参照して、行列Hから目的音成分を抑制した行列である高精度雑音基底スペクトル行列HFNを生成する。
本ステップでは、例えば、図3(a)に示したフローチャートにおいて、ステップS101でハイパスフィルタを生成する代わりに、雑音周波数閾値をカットオフ周波数とするローパスフィルタを生成する。そしてステップS103では、選択した基底スペクトルに対してローパスフィルタを適用して、該基底スペクトルから目的音成分(高周波数帯域の成分)を排除し、高精度雑音基底スペクトル行列HFNを生成する。
ステップS209では、雑音復元器102は、ステップS208で求めた高精度雑音基底スペクトル行列HFNと、上記の行列Uと、の行列積を計算して、高精度の雑音の音響行列を求める。すなわち、高精度の雑音の音響行列をVとすると、この音響行列Vは以下の式に従って求める。
=HFN (3)
この式(3)に示すように、本実施形態では、目的音成分を排除してより高精度化した基底スペクトル行列を用いるため、より高精度な雑音の音響行列を復元することができる。
ステップS210では、スペクトル減算器103は、収音信号の音響行列から、ステップS209で求めた音響行列を減算することにより、高精度の目的音の音響行列を生成する。
ステップS211では、雑音復元器102は、目的音復元器11と同様に、ステップS210で生成した音響行列に対して位相行列を適用して、音響行列の各要素を位相情報を含むフーリエ係数に変換する。ステップS212〜S213のそれぞれにおける処理は、図2のステップS11〜S12における処理と同様であるので、これらのステップに係る説明は省略する。
このように、本実施形態によれば、雑音に係る基底から目的音成分を排除することにより、高精度に雑音を復元することができるため、入力信号から復元雑音信号を抑制する場合においても、より高精度に抑制を行うことができる。
<第1,2の実施形態の変形例>
第1,2の実施形態では、具体的な説明を行うために、いくつか具体例を挙げて説明したが、上記の実施形態の適用対象は、上記の具体例に限るものではない。例えば、第2の実施形態では、目的音成分を排除した高精度な雑音復元信号を用いて収音信号に含まれる雑音成分を抑制する方法として、スペクトル減算を用いているが、その代わりにウィナーフィルタを用いて実施することもできる。ウィナーフィルタを用いて収音信号に含まれる雑音信号を抑制する音処理装置の機能構成例を図6に示す。図6において、図4に示した機能部と同じ機能部については同じ参照番号を付しており、これらの機能部に係る説明は省略する。
スペクトル係数計算器111は、雑音復元器102が生成した高精度の周波数領域の雑音復元信号を参照し、雑音成分を抑制するようにスペクトル成分の重み付けを行い、その重み付けを用いてウィナーフィルタ112を設計する。然るに、収音信号の音響行列に対してウィナーフィルタ112が適用されることで、収音信号に含まれる雑音を高精度に抑制することができる。
また、上記の実施形態では、外部から収音した音の音響信号から目的音の音響信号を高精度に復元するようにしていた。しかし、本装置の内部若しくは外部に設けられているメモリに予めに記録しておいた音響信号から目的音の音響信号を高精度に復元するようにしても良い。
また、図1,4,6に示した各機能部は何れもハードウェアで構成しても良いが、マイクロフォンユニット1、マイクロフォンアンプ2、ADC3、を除く各機能部のうち1以上をソフトウェア(コンピュータプログラム)で実装しても良い。この場合、音処理装置が有するCPU等のプロセッサがこのコンピュータプログラムを実行することで、対応する機能部の機能が実現されることになる。
また、第1,2の実施形態では、周波数変換としてフーリエ変換を行ったが、これ以外の周波数変換方法を用いても構わない。また、上記で説明した様々な実施形態や変形例は適宜組み合わせて使用することも可能である。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (12)

  1. 目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、
    前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、
    前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、
    前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第1の計算手段と、
    前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第1の計算手段が求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第2の計算手段と、
    前記第2の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段と
    を備えることを特徴とする音処理装置。
  2. 前記第1の計算手段は、
    前記音響行列の各行に対するスペクトル成分のヒストグラムを生成する手段と、
    前記ヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域との境界部分を閾値として求める手段と、
    前記基底スペクトル行列から分類された雑音に係る基底に対し、前記閾値をカットオフ周波数とするハイパスフィルタを適用して、目的音に係る基底を求める手段と
    を備えることを特徴とする請求項1に記載の音処理装置。
  3. 前記第1の計算手段は、
    前記基底スペクトル行列から分類された雑音に係る基底から成る行列の各列のうち、目的音の成分を含む列を特定し、該特定した列のスペクトル成分に応じたカットオフ周波数を有するハイパスフィルタを該列に適用して、目的音に係る基底を求める手段と
    を備えることを特徴とする請求項1に記載の音処理装置。
  4. 前記第2の計算手段は、前記基底スペクトル行列から分類された目的音に係る基底から成る行列と前記アクティビティ行列から分類された目的音に係る基底から成る行列との行列積と、前記アクティビティ行列から分類された雑音に係る基底から成る行列と前記第1の計算手段が求めた目的音に係る基底から成る行列との行列積と、の和を、前記目的音の周波数振幅値を要素とする行列として求めることを特徴とする請求項1乃至3の何れか1項に記載の音処理装置。
  5. 目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する手段と、
    前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する手段と、
    前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する手段と、
    前記基底スペクトル行列から分類された雑音に係る基底から、該基底の高周波数帯域の成分を抑制した基底を求める第1の計算手段と、
    前記アクティビティ行列から分類された雑音に係る基底と、前記第1の計算手段が求めた基底と、を用いて、前記雑音の周波数振幅値を要素とする行列を求める第2の計算手段と、
    前記音響行列と前記第2の計算手段が求めた行列とを用いて、前記目的音の周波数振幅値を要素とする行列を求める第3の計算手段と、
    前記第3の計算手段が求めた行列を用いて、前記目的音の音響信号を生成する生成手段と
    を備えることを特徴とする音処理装置。
  6. 前記第1の計算手段は、
    前記音響行列の各行に対するスペクトル成分のヒストグラムを生成する手段と、
    前記ヒストグラムを用いて、目的音が占める周波数帯域と雑音が占める周波数帯域との境界部分を閾値として求める手段と、
    前記基底スペクトル行列から分類された雑音に係る基底に対し、前記閾値をカットオフ周波数とするローパスフィルタを適用する手段と
    を備えることを特徴とする請求項5に記載の音処理装置。
  7. 前記第2の計算手段は、前記アクティビティ行列から分類された雑音に係る基底から成る行列と、前記第1の計算手段が求めた基底から成る行列と、の行列積を、前記雑音の周波数振幅値を要素とする行列として求めることを特徴とする請求項5又は6に記載の音処理装置。
  8. 前記第3の計算手段は、前記音響行列から前記第2の計算手段が求めた行列を減算することで、前記目的音の周波数振幅値を要素とする行列を求めることを特徴とする請求項5乃至7の何れか1項に記載の音処理装置。
  9. 前記第3の計算手段は、前記第2の計算手段が求めた行列を用いて、雑音成分を抑制するためのウィナーフィルタを生成し、該ウィナーフィルタを前記音響行列に対して適用することで、前記目的音の周波数振幅値を要素とする行列を求めることを特徴とする請求項5乃至7の何れか1項に記載の音処理装置。
  10. 音処理装置が行う音処理方法であって、
    前記音処理装置の音響行列を生成する手段が、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する工程と、
    前記音処理装置の分解手段が、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する工程と、
    前記音処理装置の分類手段が、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する工程と、
    前記音処理装置の第1の計算手段が、前記基底スペクトル行列から分類された雑音に係る基底から、目的音に係る基底を求める第1の計算工程と、
    前記音処理装置の第2の計算手段が、前記基底スペクトル行列から分類された目的音に係る基底と、前記アクティビティ行列から分類された目的音に係る基底及び雑音に係る基底と、前記第1の計算工程で求めた目的音に係る基底と、を用いて、前記目的音の周波数振幅値を要素とする行列を求める第2の計算工程と、
    前記音処理装置の生成手段が、前記第2の計算工程で求めた行列を用いて、前記目的音の音響信号を生成する生成工程と
    を備えることを特徴とする音処理方法。
  11. 音処理装置が行う音処理方法であって、
    前記音処理装置の音響行列を生成する手段が、目的音を含む環境音の信号である音響信号を周波数変換することで得られる各係数の振幅絶対値から成る音響行列を生成する工程と、
    前記音処理装置の分解手段が、前記音響行列に対して非負値行列因子分解を行うことで、該音響行列を基底スペクトル行列とアクティビティ行列とに分解する工程と、
    前記音処理装置の分類手段が、前記基底スペクトル行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類すると共に、前記アクティビティ行列に含まれている各基底を、目的音に係る基底と、雑音に係る基底と、に分類する工程と、
    前記音処理装置の第1の計算手段が、前記基底スペクトル行列から分類された雑音に係る基底から、該基底の高周波数帯域の成分を抑制した基底を求める第1の計算工程と、
    前記音処理装置の第2の計算手段が、前記アクティビティ行列から分類された雑音に係る基底と、前記第1の計算工程で求めた基底と、を用いて、前記雑音の周波数振幅値を要素とする行列を求める第2の計算工程と、
    前記音処理装置の第3の計算手段が、前記音響行列と前記第2の計算工程で求めた行列とを用いて、前記目的音の周波数振幅値を要素とする行列を求める第3の計算工程と、
    前記音処理装置の生成手段が、前記第3の計算工程で求めた行列を用いて、前記目的音の音響信号を生成する生成工程と
    を備えることを特徴とする音処理方法。
  12. コンピュータを、請求項1乃至9の何れか1項に記載の音処理装置の各手段として機能させるためのコンピュータプログラム。
JP2014008859A 2014-01-21 2014-01-21 音処理装置、音処理方法 Active JP6274872B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014008859A JP6274872B2 (ja) 2014-01-21 2014-01-21 音処理装置、音処理方法
US14/598,323 US9648411B2 (en) 2014-01-21 2015-01-16 Sound processing apparatus and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014008859A JP6274872B2 (ja) 2014-01-21 2014-01-21 音処理装置、音処理方法

Publications (3)

Publication Number Publication Date
JP2015138100A true JP2015138100A (ja) 2015-07-30
JP2015138100A5 JP2015138100A5 (ja) 2017-02-23
JP6274872B2 JP6274872B2 (ja) 2018-02-07

Family

ID=53545970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014008859A Active JP6274872B2 (ja) 2014-01-21 2014-01-21 音処理装置、音処理方法

Country Status (2)

Country Link
US (1) US9648411B2 (ja)
JP (1) JP6274872B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696568A (zh) * 2020-06-16 2020-09-22 中国科学技术大学 一种半监督瞬态噪声抑制方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7140542B2 (ja) 2018-05-09 2022-09-21 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
CN111050250B (zh) * 2020-01-15 2021-11-02 北京声智科技有限公司 降噪方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227417A (ja) * 2010-04-23 2011-11-10 Yamaha Corp 音響処理装置
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
EP1752969A4 (en) * 2005-02-08 2007-07-11 Nippon Telegraph & Telephone SIGNAL SEPARATION DEVICE, SIGNAL SEPARATION METHOD, SIGNAL SEPARATION PROGRAM, AND RECORDING MEDIUM
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8015003B2 (en) 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
JP5688406B2 (ja) * 2009-04-09 2015-03-25 株式会社ポーラファルマ 抗真菌医薬組成物
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227417A (ja) * 2010-04-23 2011-11-10 Yamaha Corp 音響処理装置
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696568A (zh) * 2020-06-16 2020-09-22 中国科学技术大学 一种半监督瞬态噪声抑制方法
CN111696568B (zh) * 2020-06-16 2022-09-30 中国科学技术大学 一种半监督瞬态噪声抑制方法

Also Published As

Publication number Publication date
US20150208167A1 (en) 2015-07-23
US9648411B2 (en) 2017-05-09
JP6274872B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
JP6482173B2 (ja) 音響信号処理装置およびその方法
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
JP6371516B2 (ja) 音響信号処理装置および方法
EP3133833B1 (en) Sound field reproduction apparatus, method and program
US9715884B2 (en) Information processing apparatus, information processing method, and computer-readable storage medium
Dufour et al. Clusterized mel filter cepstral coefficients and support vector machines for bird song identification
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP6274872B2 (ja) 音処理装置、音処理方法
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP4705480B2 (ja) 高調波信号の基本周波数を求める方法
JP4543731B2 (ja) 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム
WO2005029463A1 (en) A method for recovering target speech based on speech segment detection under a stationary noise
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US9398387B2 (en) Sound processing device, sound processing method, and program
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
US20180061433A1 (en) Signal processing device, signal processing method, and computer program product
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP2005062096A (ja) 話者位置検出方法、装置、プログラム、および記録媒体
JP2006072163A (ja) 妨害音抑圧装置
JP2020010196A (ja) 方向別収音装置及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180109

R151 Written notification of patent or utility model registration

Ref document number: 6274872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151