JP2015096921A - 音響信号処理装置および方法 - Google Patents

音響信号処理装置および方法 Download PDF

Info

Publication number
JP2015096921A
JP2015096921A JP2013237353A JP2013237353A JP2015096921A JP 2015096921 A JP2015096921 A JP 2015096921A JP 2013237353 A JP2013237353 A JP 2013237353A JP 2013237353 A JP2013237353 A JP 2013237353A JP 2015096921 A JP2015096921 A JP 2015096921A
Authority
JP
Japan
Prior art keywords
base
spectrum
matrix
acoustic signal
base spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013237353A
Other languages
English (en)
Other versions
JP2015096921A5 (ja
JP6371516B2 (ja
Inventor
典朗 多和田
Noriaki Tawada
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013237353A priority Critical patent/JP6371516B2/ja
Priority to US14/527,682 priority patent/US9704505B2/en
Publication of JP2015096921A publication Critical patent/JP2015096921A/ja
Publication of JP2015096921A5 publication Critical patent/JP2015096921A5/ja
Application granted granted Critical
Publication of JP6371516B2 publication Critical patent/JP6371516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音響信号の各々の基底スペクトルを高精度に分類する。【解決手段】音響分離装置は、入力された音響信号を時間周波数変換して行列を取得する。音響分離装置は、取得された行列を少なくとも基底行列とアクティビティ行列に分解し、基底行列の各列を構成する基底スペクトルの周波数軸上での分布状態に基づいて、基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する。【選択図】 図3

Description

本発明は、音響信号をたとえば目的音と雑音といったように複数の音響信号に分離する音響信号処理装置および方法に関する。
音響信号から非目的音である雑音を除去する技術は、音響信号に含まれる目的音に対する聴感を改善し、また、音声認識においては認識率を高めるために重要な技術である。
音響信号から雑音を除去する技術として、非負値行列因子分解を用いたものがある。これは、音響信号を時間周波数変換した行列を非負値行列因子分解によって基底行列とアクティビティ行列に分解するもので、これらの行列が目的音に係る部分行列と雑音に係る部分行列に分けられるという仮定に基づく。そして、目的音に係る部分基底行列である目的音基底行列と、目的音に係る部分アクティビティ行列である目的音アクティビティ行列を用いて、雑音が除去された目的音復元信号を生成する。
特許文献1では、雑音除去対象である音響信号とは別に目的音と雑音をそれぞれ用意し、それらを事前学習することで目的音と雑音それぞれの教師基底行列および教師アクティビティ行列を得る。そして教師基底行列および、教師アクティビティ行列の統計量情報を用い、音響信号を時間周波数変換した行列を分解して目的音復元信号を得る。
特許文献2では、2chの音響信号それぞれを時間周波数変換した2つの行列を非負値行列因子分解する。そして、各chの基底行列の各列を構成する基底スペクトルについて、ch間の相関が高いものを雑音基底スペクトル、それ以外のものを目的音基底スペクトルとする。そして、目的音基底スペクトルで構成される目的音基底行列と、それに対応する目的音アクティビティ行列を用いて目的音復元信号を生成する。
特開2009−128906号公報 特開2012−022120号公報
特許文献1の方法では、別に用意した音から基底行列を事前学習し、これを用いて復元信号を生成することになる。これは、調波楽器の音階のように、基底スペクトルの形状(調波構造)が大体決まっている場合の楽器音分離(例えば自動採譜に用いる)などには好適であると考えられる。しかし、それ以外の場合は、分離対象の音響信号に含まれる音とは異なる基底スペクトルを用いて復元信号を生成する可能性があるため、音質劣化につながり得る。
特許文献2の方法は、雑音除去対象の音響信号から基底行列を得るため、目的音基底行列と雑音基底行列にうまく分けられれば、実際の目的音に対応する基底スペクトルを用いて目的音復元信号を生成できると期待される。しかしながら、目的音基底スペクトルと雑音基底スペクトルへの分類はch間の相関に基づいて行うため、複数chの音響信号を必要としている。
また、相関は2つの基底スペクトルの組み合わせに対して算出される量であるが、基底スペクトル間のユークリッド距離や内積を用いるとしている。しかし、このような単純な相関指標は物理的な意味が不明瞭であり、基底スペクトルの分類において必ずしも好適ではない。
本発明は上述した問題を解決するためになされたものであり、音響信号の各々の基底スペクトルを高精度に分類することが可能な音響信号処理装置および制御方法を提供することを目的とする。
上記目的を達成するための本発明の一態様による音響信号処理装置は以下の構成を備える。すなわち、
前記音響信号を時間周波数変換した行列を得る変換手段と、
前記行列を少なくとも基底行列とアクティビティ行列に分解する分解手段と、
前記基底行列の各列を構成する基底スペクトルの周波数軸上での分布状態に基づいて、前記基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する分類手段と、を備える。
本発明によれば、音響信号の各々の基底スペクトルから算出された指標を用いて基底スペクトルを分類するので、基底スペクトルを高精度に分類することができる。
実施形態に係る音源分離装置のブロック図。 音響信号および振幅スペクトログラムを説明するための図。 実施形態に係る音響分離処理のフローチャート。 第一実施形態に係る基底スペクトルの評価指標を説明する図。 第一実施形態に係る基底番号のソートおよび目的音復元信号のSNRを説明する図。 実施形態に係る目的音復元信号を説明する図。 実施形態に係る基底スペクトルの分類を説明する図。 第二実施形態に係る基底スペクトルの評価指標を説明する図。 第二実施形態に係る基底番号のソートおよび目的音復元信号のSNRを説明する図。 第三実施形態に係る基底スペクトルの評価指標を説明する図。 第三実施形態に係る基底番号のソートおよび目的音復元信号のSNRを説明する図。
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示され、以下に説明される構成に限定されるものではない。
<第一実施形態>
図1は、第一実施形態による音響信号処理装置としての音源分離装置の構成例を示すブロック図である。図1に示す音源分離装置は、主たるシステムコントローラ100の中に、全構成要素の制御を行うシステム制御部101、各種データを記憶しておく記憶部102、信号の解析処理を行う信号解析処理部103を備える。また、システムコントローラ100は、音響信号を入出力するための音響信号入出力部104を備える。
図1に示す音源分離装置は、音響信号入出力部104を介して、例えば外部の記憶媒体やネットワークから音響信号が入力され、記憶部102へ記録される。ここで、音響信号とは、目的音に除去対象となる雑音が混合した混合音を指すものとする。なお、たとえば、不図示のマイクによって収音されたマイク信号に、増幅およびAD変換が施されたものが音響信号として入力され、記憶部102へ逐次記録されるようにしてもよい。
第一実施形態においては、目的音を図2(a)に示すような音声、雑音を図2(b)に示すような風雑音とし、これらが混合した図2(c)に示すような混合音を雑音除去の対象である音響信号とする。以下、信号解析処理部103が中心となり、図3のフローチャートに沿って雑音除去処理が行われる。なお、図3のフローチャートは、音響信号の所定の時間ブロック長ごとの処理を表すものとし、第一実施形態では時間ブロック長を3秒としている。
S301において、信号解析処理部103は、音響信号入出力部104より入力され記憶部102に記憶されている音響信号から時間ブロック長の音響信号を得て、これを時間周波数変換して音響信号の複素スペクトログラムYを取得する。具体的には、時間ブロック長より短い所定の時間フレーム長ずつ音響信号を切り出して行き、フーリエ変換することで複素フーリエ係数を得る。このとき、切り出される時間フレームは時間フレーム長の半分ずつシフトして行くものとし、時間フレーム長によって時間周波数変換における時間解像度および周波数解像度が決まる。時間ブロックに含まれる時間フレーム数をT、ナイキスト周波数までの周波数分割数をFとすると、上記の処理によってF×T個の複素フーリエ係数が得られる。複素スペクトログラムYは、これらのフーリエ係数を要素とするサイズ{F×T}の複素行列である。なお、フーリエ変換の前に時間信号に対して窓掛けを行うのが好適であり、窓掛けは逆フーリエ変換によって再び時間信号に戻した後にも行う。このため、50%ずつオーバーラップする時間フレームに対し、2回の窓掛けにおける再構成条件を考慮して、窓関数にはサイン窓などを用いる。
次にS302において、信号解析処理部103は、音響信号の振幅スペクトログラム|Y|を、基底行列Hとアクティビティ行列Uに非負値行列因子分解する。ここで、振幅スペクトログラム|Y|とは、S301で取得した複素スペクトログラムYについて、要素ごとに複素数の絶対値を取った非負値行列である。
図2(d)は、図2(c)の音響信号の振幅スペクトログラムを表している。ただし、表示においては振幅値を二値化しており、白が大きい方を、黒が小さい方を表す。図2(d)より、低域では風雑音が卓越しており、また中高域では音声の調波成分による縞模様が見えていることが分かる。
非負値行列因子分解に際して指定する基底数をKとすると、サイズ{F×T}の振幅スペクトログラム|Y|を、式(1)のようにサイズ{F×K}の基底行列Hとサイズ{K×T}のアクティビティ行列Uに分解できる。ここで、「*」は行列(ベクトル、スカラ含む)の積を表すものとする。
|Y|≒H*U … (1)
なお、式(1)の収束計算におけるHとUの更新式は、(H*U)の|Y|からの乖離度を表す規準に応じたものを用いればよい。行列の乖離度を表す規準としては、ユークリッド距離(二乗誤差)、一般化Kullback-Leiblerダイバージェンス、板倉斎藤距離などが挙げられる。
図2(d)の振幅スペクトログラム|Y|を例えば基底数K=20で非負値行列因子分解すると、サイズ{F×20}の基底行列Hとサイズ{20×T}のアクティビティ行列Uが得られる。図4(b)は、基底行列Hの各列を構成する、サイズ{F×1}の20個の基底スペクトルを正規化して表示したものであり、図の縦軸の番号は基底番号を表している。なお、人の聴感に合わせて周波数軸は対数で、振幅はデシベルで表示している。また、図4(c)は、アクティビティ行列Uの各行を構成する、サイズ{1×T}の20個のアクティビティベクトルを正規化して表示したものである。
ここで、同じ基底番号の基底スペクトルとアクティビティベクトルを掛け合わせることで、サイズ{F×T}の基底別振幅スペクトログラム|Yi|が式(2)のように得られる。ただし、(:,i)は行列の第i列を取り出す操作を、(i,:)は行列の第i行を取り出す操作を表すものとする。
|Yi|=H(:,i)*U(i,:) [i=1〜K] … (2)
さらに、基底別振幅スペクトログラム|Yi|に複素スペクトログラムYの位相成分を掛け合わせることで、サイズ{F×T}の基底別複素スペクトログラムYiが式(3)のように得られる。ここで、「.*」は行列の要素ごとの積を、jは虚数単位を表すものとする。また、arg(Y)はYの要素ごとに複素数の偏角を取った行列を表すものとする。
Yi=|Yi|.*exp(j*arg(Y)) [i=1〜K] … (3)
そして、基底別複素スペクトログラムYiを逆時間周波数変換することで、基底別復元信号yi[i=1〜K]を生成することができる。具体的には、複素スペクトログラムをサンプリング周波数まで対称復元した後、列ごとに逆フーリエ変換することで各時間フレームの復元信号が得られるため、これを窓掛けしてオーバーラップ加算すればよい。
図4(d)は、20個の基底別復元信号を正規化して表示したものである。図4(d)の一番上に示す目的音の波形と見比べてみると、例えば基底番号4番や16番は、目的音と雑音のうち目的音に係るものであると予想できる。このように、例えば基底別復元信号を人が見たり聴いたりすれば、各基底を目的音と雑音のものに高精度に分類できそうだが、本実施形態では以下のように、各々の基底スペクトルから物理的意味が明確な指標を算出することで自動的に行う。
S303において、信号解析処理部103は、各々の基底スペクトルから算出する評価指標に基づいて、基底番号のソートを行う。具体的には、風雑音の基底スペクトルなら低域が卓越しており、音声の基底スペクトルなら中高域含む広い周波数範囲に分布しているであろうという考え方に基づく。そこで、このような基底スペクトルの周波数軸上での分布状態を数値化するため、第一実施形態では各々の基底スペクトルの評価指標として、各基底スペクトルの周波数分布における重心周波数を算出する。
まず、図4(b)に示すような基底スペクトルの表現を得るため、基底スペクトルをデシベル表現する。ただし、微小な値がデシベル表現によって負の大きな値となると不都合であるため、基底行列の最大値−60dB未満の値は、最大値−60dBに丸めるなどする。そして、例えば0から1の範囲内に正規化した後、対数周波数軸上で等間隔に振幅値を得るためオクターブスムージングを行う。
このような表現を行った基底スペクトルをh、対数周波数軸上の対象周波数範囲(例えば50〜3kHz)における等間隔なサンプル点の番号をs(=0〜)とすると、重心周波数に対応するサンプル点番号sgを式(4)のように算出することができる。ただし、h(s)は基底スペクトルhのサンプル点番号sにおける値を表し、Σはsに関して和を取る操作を表すものとする。
sg=Σ(s*h(s))/Σ(h(s)) … (4)
式(4)で算出されるsgは一般に小数値であり、これを対数周波数軸上に対応付けた値が重心周波数となる。
図4(b)の各々の基底スペクトルについて、上記のようにして求めた重心周波数を模式的に示したのが図4(b)の黒丸であり、また重心周波数の値を棒グラフで示したのが図4(a)である。これらの図より、目的音に係ると予想した基底番号4番や16番の基底スペクトルは広い周波数範囲に分布しており、それゆえ重心周波数も他と比べて高くなっていることが分かる。
図5(a)は、図4(a)の重心周波数に従って基底スペクトルを重心周波数の昇順にソートしたものであり、横軸がソートされた基底番号を表している。ここで、左の基底番号ほど、基底スペクトルの重心周波数が低いため、低域が卓越した風雑音である可能性が高い。また、右の基底番号ほど重心周波数が高いため、基底スペクトルが広い周波数範囲に分布した音声である可能性が高いと考えられる。
S304において、信号解析処理部103は、基底スペクトルを第一の基底スペクトルとしての目的音基底スペクトルと、第二の基底スペクトルとしての非目的音基底スペクトル(雑音基底スペクトルともいう)とに分類する。そして、分類された基底スペクトルを用いて音響復元信号を生成する。はじめに、信号解析処理部103は、S303でソートされた基底番号に基づいて、基底行列Hの各列(基底スペクトル)を並べ替える。すなわち、図5(a)に示されるソート結果に従って元の基底行列の第15列を並べ替え後の基底行列の第1列とし、元の基底行列の第12列を並べ替え後の基底行列の第2列とする、といった具合に20個の基底スペクトルを並べ替える。また、アクティビティ行列Uの各行(アクティビティベクトル)も同様に並べ替える。
このように、ソートされた基底番号に基づいて基底行列を並べ替えれば、後は目的音基底数または雑音基底数を定めることで、基底スペクトルを目的音基底スペクトルと雑音基底スペクトルに分類することができる。すなわち、雑音基底数をKnとすれば、並べ替えられた基底行列Hの第1列から第Kn列までの基底スペクトルが雑音基底スペクトルとして、第Kn+1列から第K列までの基底スペクトルが目的音基底スペクトルとして分類される。そして、雑音基底スペクトルで構成される雑音基底行列Hnと、目的音基底スペクトルで構成される目的音基底行列Hsが、それぞれ式(5)と式(6)のように得られる。ただし、(:,1:Kn)は行列の第1列から第Kn列を取り出す操作を、(:,Kn+1:K)は行列の第Kn+1列から第K列を取り出す操作を表すものとする。
Hn=H(:,1:Kn) … (5)
Hs=H(:,Kn+1:K) … (6)
また、基底スペクトルと同様に、アクティビティベクトルも第一のアクティビティベクトルとしての目的音アクティビティベクトルと第二のアクティビティベクトルとしての雑音アクティビティベクトル(非目的音アクティビティベクトル)に分類できる。雑音アクティビティベクトルで構成される雑音アクティビティ行列Unと、目的音アクティビティベクトルで構成される目的音アクティビティ行列Usが、それぞれ式(7)と式(8)のように得られる。ただし、(1:Kn,:)は行列の第1行から第Kn行を取り出す操作を、(Kn+1:K,:)は行列の第Kn+1行から第K行を取り出す操作を表すものとする。
Un=U(1:Kn,:) … (7)
Us=U(Kn+1:K,:) … (8)
目的音基底数をKs(=K−Kn)とすると、サイズ{F×Ks}の目的音基底行列Hsと、サイズ{Ks×T}の目的音アクティビティ行列Usを掛け合わせることで、サイズ{F×T}の目的音振幅スペクトログラム|Ys|が式(9)のように得られる。
|Ys|=Hs*Us … (9)
さらに、複素スペクトログラムYの位相成分を掛け合わせることで、サイズ{F×T}の目的音複素スペクトログラムYsが式(10)のように得られる。
Ys=|Ys|.*exp(j*arg(Y)) … (10)
そして、目的音複素スペクトログラムYsを逆時間周波数変換することで、音響復元信号として目的音復元信号ysを生成することができる。なお、サイズ{F×Kn}の雑音基底行列Hnと、サイズ{Kn×T}の雑音アクティビティ行列Unを用いて、音響復元信号としての雑音復元信号ynも同様に生成することができる。
図6(a)は、雑音基底数を0から20まで増やして行ったときの、それぞれの目的音復元信号を示したものである。図6(a)より、雑音基底数Knを多くするにつれて、言い換えれば目的音基底数Ksを絞って行くにつれて、風雑音が除去されて音声が復元されて行く様子が分かる。また図5(b)は、雑音基底数と目的音復元信号のSNRの関係を示したグラフであり、雑音基底数Kn=17(目的音基底数Ks=3)のとき、SNRが最大の2.21dBとなる。このとき図5(a)より、基底番号16番、4番、7番が用いられていることが分かる。しかしながら図5(b)より、さらに雑音基底数を増やして目的音基底数を絞って行くと、SNRが低下してしまう。このため、目的音基底数または雑音基底数を適切に定めることが大切と考えられる。
目的音基底数の決め方としては、重心周波数は[Hz]の単位を持つ物理的意味が明らかな指標であるため、例えば閾値を200Hzとして、重心周波数が閾値以上の基底スペクトルの数を目的音基底数としてもよい。図7(c)は、図4(a)をヒストグラム化して重心周波数の分布を表したものであり、閾値を200Hzとすると図7(c)の実線で分けることになるため、目的音基底数は3となる。また、図7(c)のヒストグラムを混合正規分布と見なして、EMアルゴリズムにより2群に分類することで目的音基底数を決定してもよい。
他にも、音響信号とは別に音声と風雑音を用意し、それぞれから求めた重心周波数のヒストグラムを利用してもよい。例えば、図7(b)に示す風雑音のみの音響信号から得られたヒストグラムの範囲を考慮して、図7の実線で図7(c)を分けると目的音基底数は3となる。または、図7(a)に示す音声のみの音響信号から得られたヒストグラムの範囲を考慮して、図7の点線で図7(c)を分けると目的音基底数は4となる。この方法は、特許文献1の事前学習に似ているようにも見えるが、別に用意する目的音または雑音は、目的音基底数または雑音基底数の決定に用いるだけであり、基底行列は音響信号から得るため特許文献1とは異なる。
なお、システム制御部101と相互に結ばれた不図示の入出力GUI部(例えばタッチパネルで構成される)を介して、ユーザが目的音基底数または雑音基底数を調整できるようにしてもよい。
以上のようにして、目的音基底数または雑音基底数を適切に定めて生成された目的音復元信号は、記憶部102へ記録される。記録された目的音復元信号は、音響信号入出力部104を介して外部に出力されたり、DA変換および増幅を行ったのち、不図示のイヤホン、ヘッドホン、スピーカ等によって再生されたりする。
<第二実施形態>
第一実施形態では、S303において、各々の基底スペクトルから重心周波数という評価指標を算出したが、評価指標の算出はこれに限られるものではない。第二実施形態においては、基底スペクトルを変換することで得られるケプストラム(以下、基底ケプストラムと呼ぶ)から評価指標を算出する例を説明する。
基底ケプストラムは、サンプリング周波数まで対称復元した基底スペクトルに対し、対数を取って逆フーリエ変換した結果の実部として得られる。図8(c)は、図8(b)の各々の基底スペクトルから求めた基底ケプストラムを正規化して表示したものであり、横軸は時間の次元を持つケフレンシーとなる。なお、図8(b)、(d)は、それぞれ図4(b)、(d)と同じものである。
図8(c)において、基底番号4番や16番の基底ケプストラムは、図8(b)の点線丸で示すように低ケフレンシー部分が一際大きくなっている。ここで、一般にケプストラムの低ケフレンシー部分はスペクトルの包絡成分に対応するが、スペクトルの包絡成分の大きさは、スペクトルの広がり状態を表していると考えることもできる。実際に、基底ケプストラムにおいて低ケフレンシー部分に大きい値を持つ基底番号4番や16番では、図8(b)の点線丸で示すように、基底スペクトルが広い周波数範囲に分布していることが確認できる。なお、低ケフレンシー部分とは、ケフレンシーが所定値以下の部分であり、本実施形態では、たとえば2ms以下の部分とする。
そこで、第二実施形態では、S303において基底スペクトルの周波数軸上での分布状態を数値化するための評価指標を、各々の基底ケプストラムから算出する。例えば、基底スペクトルの広がり状態を表す包絡成分の大きさを数値化するため、基底ケプストラムの所定のケフレンシー以下の部分について、その最大値を評価指標とする。より簡単には、図8(c)より基底ケプストラムの低ケフレンシー部分の最大値は、基底ケプストラム全体の最大値であるとして差し支えなさそうであるため、これを評価指標として用いてもよい。
図8(c)の各々の基底ケプストラムについて、基底ケプストラム全体の最大値を棒グラフで示したのが図8(a)であり、これを昇順にソートしたものが図9(a)である。図8(a)において、棒グラフが右へ延びる基底番号ほど基底スペクトルの包絡成分が大きいため、基底スペクトルが広い周波数範囲に分布した音声である可能性が高い。逆に、棒グラフが左側にとどまる基底番号ほど、基底スペクトルの包絡成分が小さいため、基底スペクトルが狭い周波数範囲(低域)に集中した風雑音である可能性が高いと考えられる。
ここで、第一実施形態と第二実施形態はともに、基底スペクトルの周波数軸上での分布状態を数値化するという考えに基づいている。このため、図5(a)と図9(a)の棒グラフは全体的に傾向が似ており、ソートされた基底番号の並び順も類似している。特に、上位4つ(16番、4番、7番、2番)は同じである。そのため、第二実施形態における雑音基底数と目的音復元信号のSNRの関係を示した図9(b)は、図5(b)と同じく雑音基底数が17(目的音基底数が3)のときにSNRが最大の2.21dBとなる。
なお、S304の目的音基底数または雑音基底数の決定において、図7の実線や点線のように評価指標の値で分ける場合、音響信号の大きさに評価指標の値が依存しないことが望ましい。第一実施形態の重心周波数はその性質上、音響信号の大きさには依存しないが、一般に基底スペクトルや基底ケプストラムの大きさは音響信号の大きさに依存する。そこで、式(1)の非負値行列因子分解において基底行列Hを正規化しておけば、基底スペクトルや基底ケプストラムが音響信号の大きさに依存しなくなり、基底ケプストラムから算出する評価指標も音響信号の大きさに依存しなくなるため好適である。
なお、図3のフローチャートにおいて上述したS303の処理以外は、第一実施形態と同様である。
<第三実施形態>
上述の第一実施形態、第二実施形態では、S303において、基底スペクトルの周波数軸上での分布状態を数値化した評価指標を用いた。第三実施形態においては、音声の基底スペクトルなら風雑音の基底スペクトルより調波成分が大きいであろうという考え方に基づき、このような調波成分の大きさを数値化するため、各々の基底ケプストラムから評価指標を算出する。
一般にケプストラムのピークは、スペクトルの調波成分の大きさと、その基本周波数を示している。例えば、ケプストラムがケフレンシー5msの位置にピークを持てば、スペクトルはその逆数の200Hzを基本周波数とする調波成分を持つ。
基底スペクトルの調波成分の大きさを数値化するためには、基底ケプストラムのピークの大きさを調べればよいため、簡単には基底ケプストラムの最大値を算出することが考えられる。しかしながら第二実施形態で述べたように、基底ケプストラム全体の最大値は、実際上は低ケフレンシー部分の最大値であるため、結局は基底スペクトルの周波数軸上での分布状態を見ていることになる。そこで第三実施形態では、基底ケプストラムの音声の基本周波数範囲に対応する部分においてその最大値を取ることで調波成分の大きさを数値化した評価指標とする。
図10(c)は、図10(b)の各々の基底スペクトルから求めた基底ケプストラムについて、音声の基本周波数範囲である100〜400Hzに対応する部分、すなわちケフレンシーで2.5〜10msの部分を拡大して表示したものである。なお、図10(b)、(d)は、それぞれ図4(b)、(d)と同じものである。
図10(c)の点線丸で示すように、目的音に係ると予想される基底番号4番や16番の基底ケプストラムは、音声の基本周波数範囲に対応する部分にピークを持っており、このようなピークは基底番号7番や11番の基底ケプストラムにも見られる。
音声の基本周波数範囲に対応する部分である、図10(c)の各々の基底ケプストラムについて最大値を棒グラフで示したのが図10(a)であり、これを昇順にソートしたものが図11(a)である。図11(a)において、右の基底番号ほど、基底スペクトルの調波成分が大きいため音声である可能性が高く、逆に左の基底番号ほど、基底スペクトルの調波成分が小さいため風雑音である可能性が高いと考えられる。なお、上位4つ(7番、4番、11番、16番)の組み合わせを見ると、上記第一、第二実施形態における2番の代わりに、11番が含まれていることが分かる。
図11(b)は、本実施形態における雑音基底数と目的音復元信号のSNRの関係を示したグラフである。第一、第二実施形態と少し異なり、雑音基底数が16(目的音基底数が4)のときSNRが最大の2.98dBとなっており、上記第一、第二実施形態における2.21dBよりも高い。これは、先に述べた基底番号11番が用いられたためと考えられる。特に、図10(d)の基底別復元信号で示される点線丸の部分が加わることで、第三実施形態の目的音復元信号を示した図6(b)において、図6(a)と比較して点線丸の部分の音声が復元されていることが分かる。
なお、特許文献2には、雑音復元信号から調波成分を抽出して目的音復元信号に合成する処理があるが、このような処理は特に、目的音基底スペクトルが雑音基底スペクトルとして分類されてしまった場合に必要になると考えられる。第三実施形態は、基底スペクトルの分類における評価指標を調波成分の大きさとすることで、上記のような分類ミスを防止しようとするものであり、特許文献2とは異なる。
なお、時間ブロック長は3秒として説明を行ってきたが、第三実施形態において音声の音素(好ましくは母音)ごとに基底スペクトルを得るために、例えば0.3秒といった短い時間ブロック長を用いてもよい。この場合、非負値行列因子分解における行列サイズが縮小されるため、計算時間の短縮にもつながる。
なお、図3のフローチャートにおいて上述したS303の処理以外は、第一実施形態と同様である。
ここで、風雑音に音声が少し混ざったような基底スペクトルがある場合、各実施形態でどのように分類され得るかを考える。基底スペクトルの概形としては、低域が卓越した風雑音が支配的となるため、第一実施形態では、重心周波数が低くなって雑音基底スペクトルに分類される可能性が高い。また、基底スペクトルが狭い周波数範囲(低域)に集中しており、基底スペクトルの包絡成分が小さくなるため、第二実施形態においても雑音基底スペクトルに分類されると考えられる。一方、音声の調波成分は含まれているため、第三実施形態では目的音基底スペクトルに分類される可能性がある。以上より、第一実施形態や第二実施形態のように、基底スペクトルの周波数軸上での分布状態を見る方法は、雑音の除去を重視した方法であると解釈することができる。一方で、第三実施形態のように基底スペクトルに含まれる調波成分を見る方法は、目的音の保存を重視した方法であると解釈でき、このような重視する点の違いが、目的音復元信号のSNRの値にも表れたと考えられる。
以上の各実施形態においては、目的音を音声、雑音を風雑音として説明を行ってきたが、本発明は他の音の組み合わせに対しても適用できることは言うまでもない。第一実施形態や第二実施形態の方法は、たとえ目的音と雑音で調波成分の強さが同程度であっても、基底スペクトルの周波数軸上での分布状態が異なっていればよいため、例えば目的音がせせらぎの音で、雑音が車のロードノイズであるような場合にも適用できる。また、第三実施形態の方法は、たとえ目的音と雑音で周波数帯が重なっていても、基底スペクトルの調波成分の大きさが異なっていればよい。よって、例えば音声や鳥の鳴き声のように調波成分を持つ目的音と、ざわめきのような雑音の組み合わせに対しても適用可能であるし、調波楽器と打楽器のような音の組み合わせにも用いることができる。このように、基底スペクトルの周波数軸上での分布状態を見る方法と、基底スペクトルに含まれる調波成分を見る方法によって、本発明は様々な音の組み合わせに対応することができる。
なお、目的音復元信号と雑音復元信号の少なくとも一方を用いて、元の音響信号から雑音除去を行うようにしてもよい。例えば、雑音復元信号を音響信号からスペクトル減算することで雑音除去を行ってもよいし、目的音復元信号と雑音復元信号から生成したウィナーフィルタを音響信号に適用してもよい。
なお、雑音をもう一つの目的音と考えれば、本発明を雑音除去ではなく音源分離に用いることもできる。さらに、ソートされた基底番号を2つではなく3つ以上に分けることで、音響信号を3つ以上の音に分離することも可能である。また、複数chの音響信号に対しても、chごとに本発明の処理を適用できることは言うまでもない。
なお、以上の実施形態においては、音響信号の振幅スペクトログラム|Y|を非負値行列因子分解することで、基底行列とアクティビティ行列を得ていたがこれに限られるものではない。たとえば、複素NMFを用いることで、音響信号の複素スペクトログラムYを、基底行列とアクティビティ行列および、サイズ{F×T}のK個の位相スペクトログラムPi[i=1〜K]に分解することができる。このとき、例えば目的音複素スペクトログラムYsは、式(11)のように算出することになる。ただし、Σは目的音に対応するKs個のiに関して、和を取る操作を表すものとする。
Ys=Σ(H(:,i)*U(i,:).*Pi) … (11)
なお、振幅スペクトログラム|Y|は、複素スペクトログラムYの要素ごとに複素数の絶対値を取ったものとしていたが、代わりに絶対値の指数乗(例えば0.5乗や2乗)を取ったものとしてもよい。また、時間周波数変換において、フーリエ変換の他にウェーブレット変換などを用いてもよく、その場合はスカログラムが振幅スペクトログラムの代わりとなる。
以上説明したように、上記各実施形態によれば、音響信号の各々の基底スペクトルから物理的意味が明確な指標を算出し、算出された指標により基底スペクトルを目的音と雑音に分類するため、音響信号から高精度に雑音を除去することができる。また、単一の音響信号から教師基底なしで高精度に雑音除去することができる。
<その他の実施形態>
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、Webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

Claims (15)

  1. 音響信号を時間周波数変換した行列を得る変換手段と、
    前記行列を少なくとも基底行列とアクティビティ行列に分解する分解手段と、
    前記基底行列の各列を構成する基底スペクトルの周波数軸上での分布状態に基づいて、前記基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する分類手段と、を備えることを特徴とする音響信号処理装置。
  2. 前記分類手段は、前記基底スペクトルの前記周波数軸上の分布における重心周波数に基づいて前記基底スペクトルを前記第一の基底スペクトルと前記第二の基底スペクトルに分類することを特徴とする請求項1に記載の音響信号処理装置。
  3. 前記分類手段は、前記重心周波数と閾値との比較により、前記基底スペクトルを前記第一の基底スペクトルと前記第二の基底スペクトルに分類することを特徴とする請求項2に記載の音響信号処理装置。
  4. 前記分類手段は、前記基底スペクトルより求めた基底ケプストラムの、ケフレンシーが所定値以下である低ケフレンシー部分の値に基づいて、該基底スペクトルを前記第一の基底スペクトルと前記第二の基底スペクトルに分類することを特徴とする請求項1に記載の音響信号処理装置。
  5. 前記分類手段は、前記低ケフレンシー部分の基底ケプストラムの最大値と閾値との比較により前記基底スペクトルを前記第一の基底スペクトルと前記第二の基底スペクトルに分類することを特徴とする請求項4に記載の音響信号処理装置。
  6. 音響信号を時間周波数変換した行列を得る変換手段と、
    前記行列を少なくとも基底行列とアクティビティ行列に分解する分解手段と、
    前記基底行列の各列を構成する基底スペクトルの調波成分の大きさに基づいて、前記基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する分類手段と、を備えることを特徴とする音響信号処理装置。
  7. 前記分類手段は、前記基底スペクトルの調波成分の大きさを、前記基底スペクトルより求めた基底ケプストラムの所定の基本周波数範囲に対応する部分を用いて決定することを特徴とする請求項6に記載の音響信号処理装置。
  8. 前記分類手段は、前記基底ケプストラムの前記所定の基本周波数範囲に対応する部分の最大値と閾値との比較により、前記基底スペクトルを前記第一の基底スペクトルと前記第二の基底スペクトルに分類することを特徴とする請求項7に記載の音響信号処理装置。
  9. 前記第一の基底スペクトルへ分類される数である第一の基底数と、前記第二の音基底スペクトルへ分類される数である第二の基底数の少なくとも一方を調整する調整手段をさらに備える請求項1乃至8の何れか1項に記載の音響信号処理装置。
  10. 前記第一の基底スペクトルおよび、前記アクティビティ行列の各行を構成するアクティビティベクトルのうちの前記第一の基底スペクトルに対応する第一のアクティビティベクトルを用いて、第一の音響復元信号を合成する合成手段を更に備えることを特徴とする請求項1乃至9の何れか1項に記載の音響信号処理装置。
  11. 前記第二の基底スペクトルおよび、前記アクティビティ行列の各行を構成するアクティビティベクトルのうち前記第二の基底スペクトルに対応する第二のアクティビティベクトルを用いて、第二の音響復元信号を合成する合成手段を更に備えることを特徴とする請求項1乃至10の何れか1項に記載の音響信号処理装置。
  12. 前記第一の音響復元信号と前記第二の音響復元信号の少なくとも一方を用いて、前記音響信号から非目的音を除去することを特徴とする請求項11に記載の音響信号処理装置。
  13. 前記分解手段は、非負値行列因子分解により、前記行列を前記基底行列と前記アクティビティ行列に分解することを特徴とする請求項1乃至12のいずれか1項に記載の音響信号処理装置。
  14. 音響信号処理装置の制御方法であって、
    変換手段が、音響信号を時間周波数変換した行列を得る変換工程と、
    分解手段が、前記行列を少なくとも基底行列とアクティビティ行列に分解する分解工程と、
    分類手段が、前記基底行列の各列を構成する基底スペクトルの周波数軸上での分布状態に基づいて、前記基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する分類工程と、を有することを特徴とする音響信号処理装置の制御方法。
  15. 音響信号処理装置の制御方法であって、
    変換手段が、音響信号を時間周波数変換した行列を得る変換工程と、
    分解手段が、前記行列を少なくとも基底行列とアクティビティ行列に分解する分解工程と、
    分類手段が、前記基底行列の各列を構成する基底スペクトルの調波成分の大きさに基づいて、前記基底スペクトルを第一の基底スペクトルと第二の基底スペクトルに分類する分類工程と、を有することを特徴とする音響信号処理装置の制御方法。
JP2013237353A 2013-11-15 2013-11-15 音響信号処理装置および方法 Active JP6371516B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013237353A JP6371516B2 (ja) 2013-11-15 2013-11-15 音響信号処理装置および方法
US14/527,682 US9704505B2 (en) 2013-11-15 2014-10-29 Audio signal processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013237353A JP6371516B2 (ja) 2013-11-15 2013-11-15 音響信号処理装置および方法

Publications (3)

Publication Number Publication Date
JP2015096921A true JP2015096921A (ja) 2015-05-21
JP2015096921A5 JP2015096921A5 (ja) 2016-12-28
JP6371516B2 JP6371516B2 (ja) 2018-08-08

Family

ID=53173328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013237353A Active JP6371516B2 (ja) 2013-11-15 2013-11-15 音響信号処理装置および方法

Country Status (2)

Country Link
US (1) US9704505B2 (ja)
JP (1) JP6371516B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016207951A1 (ja) * 2015-06-22 2018-06-14 パイオニア株式会社 シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体
JP2019032242A (ja) * 2017-08-08 2019-02-28 株式会社竹中工務店 減衰時間分析方法、装置、及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI543151B (zh) * 2014-03-31 2016-07-21 Kung Lan Wang Voiceprint data processing method, trading method and system based on voiceprint data
JP6460676B2 (ja) 2014-08-05 2019-01-30 キヤノン株式会社 信号処理装置および信号処理方法
US9838782B2 (en) * 2015-03-30 2017-12-05 Bose Corporation Adaptive mixing of sub-band signals
US10037750B2 (en) * 2016-02-17 2018-07-31 RMXHTZ, Inc. Systems and methods for analyzing components of audio tracks
EP3242295B1 (en) * 2016-05-06 2019-10-23 Nxp B.V. A signal processor
JP2019020530A (ja) 2017-07-13 2019-02-07 キヤノン株式会社 信号処理装置、制御方法、及びプログラム
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2012133346A (ja) * 2010-11-30 2012-07-12 Jvc Kenwood Corp 音声処理装置および音声処理方法
JP2012163918A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013033196A (ja) * 2011-07-07 2013-02-14 Nara Institute Of Science & Technology 音響処理装置
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4559569A (en) * 1983-03-08 1985-12-17 Thomson-Brandt Circuit arrangement for correcting frequency response in accordance with frequency response of a sound field
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
JP5451188B2 (ja) 2009-06-02 2014-03-26 キヤノン株式会社 定在波検出装置およびその制御方法
US8498863B2 (en) * 2009-09-04 2013-07-30 Massachusetts Institute Of Technology Method and apparatus for audio source separation
JP5516169B2 (ja) 2010-07-14 2014-06-11 ヤマハ株式会社 音響処理装置およびプログラム
JP5606234B2 (ja) 2010-09-13 2014-10-15 キヤノン株式会社 音響装置
US9093056B2 (en) * 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
CN104685562B (zh) * 2012-11-21 2017-10-17 华为技术有限公司 用于从嘈杂输入信号中重构目标信号的方法和设备
JP6074263B2 (ja) 2012-12-27 2017-02-01 キヤノン株式会社 雑音抑圧装置及びその制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2012133346A (ja) * 2010-11-30 2012-07-12 Jvc Kenwood Corp 音声処理装置および音声処理方法
JP2012163918A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013033196A (ja) * 2011-07-07 2013-02-14 Nara Institute Of Science & Technology 音響処理装置
JP2013037152A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 音響信号処理装置および音響信号処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARKO HELEN AND TUOMAS VIRTANEN: "SEPARATION OF DRUMS FROM POLYPHONIC MUSIC USING NON-NEGATIVE MATRIX FACTORIZATION AND SUPPORT VECTOR", PROC. 13TH EUROPEAN SIGNAL PROCESSING CONFERENCE, JPN6017045166, September 2005 (2005-09-01), ISSN: 0003688052 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016207951A1 (ja) * 2015-06-22 2018-06-14 パイオニア株式会社 シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体
JP2019032242A (ja) * 2017-08-08 2019-02-28 株式会社竹中工務店 減衰時間分析方法、装置、及びプログラム

Also Published As

Publication number Publication date
US9704505B2 (en) 2017-07-11
JP6371516B2 (ja) 2018-08-08
US20150139446A1 (en) 2015-05-21

Similar Documents

Publication Publication Date Title
JP6371516B2 (ja) 音響信号処理装置および方法
EP2633524B1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
JP6482173B2 (ja) 音響信号処理装置およびその方法
US10373628B2 (en) Signal processing system, signal processing method, and computer program product
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
US11031028B2 (en) Information processing apparatus, information processing method, and recording medium
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP2016061968A (ja) 音声処理装置、音声処理方法およびプログラム
CN112992121B (zh) 基于注意力残差学习的语音增强方法
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
WO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体
Poorjam et al. A parametric approach for classification of distortions in pathological voices
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法
Li et al. Enhancing low-quality voice recordings using disentangled channel factor and neural waveform model
JP2011158515A (ja) 音声認識装置および音声認識方法
Cabañas-Molero et al. Compositional model for speech denoising based on source/filter speech representation and smoothness/sparseness noise constraints
JP7304301B2 (ja) 音響診断方法、音響診断システム、及び音響診断プログラム
Wichern et al. Removing lavalier microphone rustle with recurrent neural networks
El-Alfi et al. A computer-based sound recognition system for the diagnosis of pulmonary disorders
Lyubimov et al. Exploiting non-negative matrix factorization with linear constraints in noise-robust speaker identification
WO2020218597A1 (ja) 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
Poblete et al. Optimization of the parameters characterizing sigmoidal rate-level functions based on acoustic features

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180713

R151 Written notification of patent or utility model registration

Ref document number: 6371516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151