JP6732944B2 - 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム - Google Patents

目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム Download PDF

Info

Publication number
JP6732944B2
JP6732944B2 JP2018556185A JP2018556185A JP6732944B2 JP 6732944 B2 JP6732944 B2 JP 6732944B2 JP 2018556185 A JP2018556185 A JP 2018556185A JP 2018556185 A JP2018556185 A JP 2018556185A JP 6732944 B2 JP6732944 B2 JP 6732944B2
Authority
JP
Japan
Prior art keywords
microphone
noise
target sound
transfer function
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018556185A
Other languages
English (en)
Other versions
JPWO2018110008A1 (ja
Inventor
悠馬 小泉
悠馬 小泉
翔一郎 齊藤
翔一郎 齊藤
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018110008A1 publication Critical patent/JPWO2018110008A1/ja
Application granted granted Critical
Publication of JP6732944B2 publication Critical patent/JP6732944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、大規模な空間において、離れた位置に配置した複数のマイクを連携させて目的音の強調を行う技術に関し、目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラムに関する。
ある方向から到来する雑音を抑圧する技術として、マイクロホンアレーを用いたビームフォーミングが代表的である。放送用途のスポーツ音の収音では、ビームフォーミングを用いる代わりに、ショットガンマイクやパラボラマイクなどの指向性マイクロホンを用いることが多い。どちらの技術も特定の方向から到来する音を強調し、それ以外の方向から到来する音を抑圧する。
野球場やサッカー場、製造工場など、大規模な空間で目的音のみを収音したい状況を考える。具体例を挙げれば、野球場であればバッティング音や審判の声、製造工場であれば、ある製造機の稼働音を収音したい場合などである。このような環境下では、目的音と同じ方向から雑音が到来する場合があり、上述の技術では目的音だけを強調することはできない。
目的音と同方向から到来する雑音を抑圧する技術に、時間周波数マスキングがある。以下、数式を用いてこれらの手法を説明する。なお、以下の数式に登場する観測信号を表すXや伝達特性を表すHなどの右肩の数字は、対応するマイクロホンの番号(インデックス)を意味するものとする。例えば右肩の数字が(1)である場合、対応するマイクロホンは「1番目のマイクロホン」であるものとする。また、以下の説明で登場する「1番目のマイクロホン」は、常に目的音を観測するための所定のマイクロホンであるものとする。すなわち、「1番目のマイクロホン」で観測された観測信号X(1)は、常に目的音を十分に含んだ
所定の観測信号であるものとし、音源強調に用いる信号として相応しい観測信号であるものとする。
一方、以下の説明では「m番目のマイクロホン」も登場するが、「m番目のマイクロホン」という場合、「1番目のマイクロホン」と対比される「任意のマイクロホン」であることを含意しているものとする。
従って、「1番目のマイクロホン」や「m番目のマイクロホン」という場合、その番号は概念的なものであり、その番号によりそのマイクロホンの位置や性質が特定されることはない。例えば、野球場の例で説明すると、「1番目のマイクロホン」といった場合、例えばそのマイクロホンが「バックネット裏」などの特定の位置に存在することを意味しない。「1番目のマイクロホン」は目的音を観測するのに適した所定のマイクロホンであることを意味するから、「1番目のマイクロホン」の位置は、目的音の位置が移動すればそれに従って移動する(より正確には、マイクロホンに割り当てられている番号(インデックス)が、目的音の移動に伴って適宜変更される)。
まずビームフォーミングや指向性マイクで収音した観測信号をX(1) ω,τ∈CΩ×Tとする。ここでω∈{1,...,Ω}とτ∈{1,...,T}はそれぞれ、周波数と時間のインデックスである。目的音をS(1) ω,τ∈CΩ×T、抑圧しきれなかった雑音群をNω,τ∈CΩ×Tとしたとき、観測信号は以下のように記述できる。
Figure 0006732944
ここでHω (1)は、目的音位置からマイクロホン位置までの伝達特性である。式(1)から、所定の(1番目の)マイクロホンの観測信号は目的音と雑音を含んでいることが分かる。時間周波数マスキングでは、時間周波数マスクGω,τを用いて目的音を強調した信号Yω,τを得る。ここで理想的な時間周波数マスクGω,τ^{ideal}は以下の式で求まる。
Figure 0006732944
ところが|Hω (1)S(1) ω,τ|や|Nω,τ|は未知のため、観測信号やその他の情報を用いて推定する必要がある。
スペクトル減算法に基づく時間周波数マスキングは、何らかの形で|N^ω,τ|が推定できた時に用いる手法である。時間周波数マスクは推定した|N^ω,τ|を用いて以下のように決定する。
Figure 0006732944
代表的な|N^ω,τ|の推定法には、|X(1) ω,τ|の定常成分を用いる方法がある(非特許文献1)。ところがNω,τ∈CΩ×Tには、スポーツフィールドでは太鼓をたたく音、工場では打鋲音など、非定常な雑音も含まれるため、|Nω,τ|は別の方法で推定しなくてはならない。
直観的な|Nω,τ|の推定方法として、雑音をマイクロホンで直接観測する方法がある。野球場であれば、外野スタンドにマイクロホンを取り付けて歓声|X(m) ω,τ|を収音し、それを瞬時混合を仮定して以下のように補正し、|N^ω,τ|とすれば解決できそうにも思える。
Figure 0006732944
ここで、Hω (m)は、m番目のマイクからメインとなるマイクへの伝達特性である。
ところが、スポーツフィールドのような大規模な空間で、十分に離れた位置に配置した複数のマイクロホンを用いて雑音を除去するためには、以下の2つの課題がある。
<残響の問題>
標本化周波数が48.0[kHz]で短時間フーリエ変換(STFT)の分析幅が512点の時、瞬時混合として記述できる残響(インパルス応答)の時間長は10[ms]である。一般にスポーツ場や製造工場の残響時間はこれ以上である。ゆえに単純な瞬時混合モデルは仮定できない。
<時間フレーム差の問題>
例えば野球場では、外野スタンドからホームベースまでは約100[m]離れている。音速がC=340[m/s]の時、外野スタンドの応援は約300[ms]遅れて到達する。標本化周波数が48.0[kHz]でSTFTのシフト幅が256点の時、
Figure 0006732944
の時間フレーム差が生じる。この時間フレーム差のため、単純なスペクトル減算法は実行できない。
そこで本発明では、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる雑音推定用パラメータ学習装置を提供することを目的とする。
本発明の雑音推定用パラメータ学習装置は、複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する装置であって、モデル化部と、尤度関数設定部と、パラメータ更新部を含む。
モデル化部は、複数のマイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化する。
尤度関数設定部は、モデル化された確率分布に基づいて、時間フレーム差に関する尤度関数と、伝達関数ゲインに関する尤度関数を設定する。
パラメータ更新部は、時間フレーム差に関する尤度関数の変数と伝達関数ゲインに関する尤度関数の変数とを交互に繰り返し更新し、収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータとして出力する。
本発明の雑音推定用パラメータ学習装置によれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。
実施例1の雑音推定用パラメータ学習装置の構成を示すブロック図。 実施例1の雑音推定用パラメータ学習装置の動作を示すフローチャート。 実施例1のモデル化部の動作を示すフローチャート。 実施例1の尤度関数設定部の動作を示すフローチャート。 実施例1のパラメータ更新部の動作を示すフローチャート。 実施例2の目的音強調装置の構成を示すブロック図。 実施例2の目的音強調装置の動作を示すフローチャート。 変形例2の目的音強調装置の構成を示すブロック図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施例1では、上記二つの問題を解決する。実施例1では、大規模な空間で遠く離れた位置に配置したマイクを連携させて音源強調を行うために、時間フレーム差や残響を推定する技術を提供する。具体的には、時間フレーム差と残響(伝達関数ゲイン(注*1))を統計モデルで記述し、観測信号の尤度最大化基準に則り推定する。また、十分に離れた距離によって生じる、瞬時混合で記述できないほどの残響をモデル化するために、音源の振幅スペクトルと伝達関数ゲインの時間周波数領域での畳み込みでモデル化する。
(注*1)残響は周波数領域で伝達関数として記述でき、そのゲインを伝達関数ゲインと呼ぶ。
以下、図1を参照して実施例1の雑音推定用パラメータ学習装置について説明する。図1に示すように、本実施例の雑音推定用パラメータ学習装置1は、モデル化部11と、尤度関数設定部12と、パラメータ更新部13を含む。より詳細には、モデル化部11は、観測信号モデル化部111と、時間フレーム差モデル化部112と、伝達関数ゲインモデル化部113を含む。尤度関数設定部12は、目的関数設定部121と、対数化部122と、項分解部123を含む。パラメータ更新部13は、伝達関数ゲイン更新部131と、時間フレーム差更新部132と、収束判定部133を含む。
以下、図2を参照して本実施例の雑音推定用パラメータ学習装置1の動作の概要について説明する。
まず、モデル化部11は、複数のマイクロホンのうち、所定のマイクロホン(1番目のマイクロホン)の観測信号の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホン(m番目のマイクロホン)と雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化する(S11)。
次に、尤度関数設定部12は、モデル化された確率分布に基づいて、時間フレーム差に関する尤度関数と、伝達関数ゲインに関する尤度関数を設定する(S12)。
次に、パラメータ更新部13は、時間フレーム差に関する尤度関数の変数と伝達関数ゲインに関する尤度関数の変数とを交互に繰り返し更新し、収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータとして出力する(S13)。
上記の雑音推定用パラメータ学習装置1の動作についてさらに詳細に説明するために、以下の<準備>の章において必要な説明を行う。
<準備>
今、目的音S(1) ω,τを、M本のマイクロホン(Mは2以上の整数)での観測から推定する問題を考える。なお、マイクロホンのうちの1本以上は、メインとなるマイクロホンと十分離れた位置(注*2)に配置されているものとする。
(注*2)短時間フーリエ変換(STFT)のシフト幅以上の到達時間差が発生する距離。すなわち時間周波数分析において時間フレーム差が発生してしまうほどの距離。例えば音速がC=340[m/s]、標本化周波数が48.0[kHz]でSTFTのシフト幅が512点の時、マイク間隔が2[m]以上あると時間フレーム差が生じる。すなわち、観測信号はマイクロホンが集音した音響信号を周波数変換した信号であり、雑音源から所定のマイクロホンまでの雑音の到達時間と、雑音源から任意のマイクロホンまでの雑音の到達時間と、の2つの到達時間の差が周波数変換のシフト幅以上であることを意味する。
S(1) ω,τに最も近い位置に配置した所定のマイクロホンの番号を1とし、その観測信号X(1) ω,τは式(1)で得られるものとする。また空間内にはM-1個の点雑音源(e.g.場内アナウンス)もしくは群雑音源(e.g.応援団の声援)
Figure 0006732944
が存在するものとし、m番目(m=2,...,M)の雑音源の近傍にはm番目のマイクロホンが配置されているものとする。m番目のマイクロホンの近傍では、
Figure 0006732944
が成り立つものとし、その観測信号X(m) ω,τは近似的に、
Figure 0006732944
と記述できるものとする。式(7)から、任意の(m番目の)マイクロホンの観測信号は雑音を含んでいることが分かる。1番目のマイクロホンに到達する雑音Nω,τは、
Figure 0006732944
のみから構成されているものとし、その振幅スペクトルは近似的に以下のように記述できるものとする。
Figure 0006732944
ここで、Pm∈N+は、1番目のマイクロホンとm番目のマイクロホンと、雑音源S(m) ω,τの相対位置差に応じて生じる、時間周波数領域の時間フレーム差である。またa(m) ω,k∈R+は、1番目のマイクロホンとm番目のマイクロホンと、雑音源S(m) ω,τの相対位置差に応じて生じる、伝達関数ゲインである。
以下、音源の振幅スペクトル
Figure 0006732944
と伝達関数ゲインa(m) ω,kの時間周波数領域での畳み込みによる残響の記述について詳細に説明する。伝達特性は、インパルス応答のタップ数が短時間フーリエ変換(STFT)の分析幅より長い場合、時間周波数領域の瞬時混合で記述できない(参考非特許文献1)。例えば、標本化周波数が48.0[kHz]でSTFTの分析幅が512点の時、瞬時混合として記述できる残響(インパルス応答)の時間長は10[ms]である。一般にスポーツ場や製造工場の残響時間はこれ以上である。ゆえに単純な瞬時混合モデルは仮定できない。長い残響を近似的に記述するために、m番目の音源は、時間周波数領域でX(m) ω,τの振幅スペクトルに伝達関数ゲインa(m) ω,kが畳み込まれて到達すると仮定している。なお、参考非特許文献1ではこれを複素スペクトルの畳み込みとして記述しているが、本発明ではより簡潔に記述するために振幅スペクトルで記述している。
(参考非特許文献1:T. Higuchi and H. Kameoka, “Joint audio source separation and dereverberation based on multichannel factorial hidden Markov model,” in Proc MLSP 2014, 2014.)
以上の議論より、式(8)より、各雑音源の時間フレーム差P2,...,Mと伝達関数ゲイン
Figure 0006732944
が推定できれば、雑音の振幅スペクトルが推定できるため、スペクトル減算法が実行できる。つまり、本実施例および実施例2では
Figure 0006732944
を推定し、スペクトル減算法を実行することにより、大規模な空間で目的音を収音することを可能にする。
まず、式(1)が振幅スペクトル領域でも成り立つと仮定し、|X(1) ω,τ|を近似的に以下のように記述する。
Figure 0006732944
ここで記述の簡単のためにHω (1)を省略した。そしてすべての周波数ビンω∈{1,...,Ω}とτ∈{1,...,T}を同時に表現するために、式(9)を以下のような行列演算で表現する。
Figure 0006732944
ただし○はアダマール積である。ここで、
Figure 0006732944
である。diag(x)はベクトルxを対角要素に持つ対角行列を表す。ここでS(1) ω,τは多くの場合、時間フレーム方向にスパースである(目的音がなっていない時間がほとんどである)。具体例を挙げれば、サッカーボールのキック音や審判の声は、時間的にごく短く、また稀にしか発生しないことを意味する。したがって、多くの時間で
Figure 0006732944
が成り立つ。
<モデル化部11の動作の詳細>
以下、図3を参照してモデル化部11の動作の詳細を説明する。観測信号モデル化部111には、学習に必要なデータが入力される。具体的には観測信号
Figure 0006732944
が入力される。
観測信号モデル化部111は、所定のマイクロホンの観測信号X(1) τの確率分布をNτを平均、共分散行列diag(σ)とするガウス分布
Figure 0006732944
でモデル化する(S111)。
Figure 0006732944
ここでΛ=(diag(σ))-1であり、σ=(σ1,...,σΩ)TはX(1) τの各周波数ごとのパワーであり、
Figure 0006732944
で求める。これは、各周波数ごとに振幅の平均が異なることを補正することを目的としている。
なお観測信号は、STFTなどの手法を用いて、時間波形から複素スペクトルに変換すればいい。観測信号は、バッチ学習であれば学習データを短時間フーリエ変換したMチャネル分のX(m) ω,τを入力する。オンライン学習であれば、Tフレーム分データをバッファリングしたものを入力する。ここでバッファサイズは時間フレーム差や残響の長さによってチューニングすべきだが、T=500程度に設定すればいい。
時間フレーム差モデル化部112には、マイク距離パラメータと、信号処理パラメータが入力される。マイク距離パラメータとして、各マイク距離φ2,...,M,と、各マイク距離φ2,...,Mから推測される音源距離の最小値と最大値
Figure 0006732944
を含む。また信号処理パラメータとして、フレーム数K、標本化周波数fs、STFTの分析幅とシフト長fshiftなどを含む。ここでK=15程度を推奨する。信号処理パラメータは録音環境に応じて設定すればいいが、標本化周波数が16.0[kHz]ならば、分析幅は512点、シフト長は256点程度に設定すればいい。
時間フレーム差モデル化部112は、時間フレーム差の確率分布をポワソン分布でモデル化する(S112)。m番目のマイクロホンはm番目の雑音源の近傍に配置されているならば、Pmはおおよそ1番目のマイクロホンとm番目のマイクロホンの距離で推測できる。つまり、1番目のマイクロホンとm番目のマイクロホンの距離をφm、音速をC、標本化周波数をfs、STFTのシフト幅をfshiftとしたとき、おおよその時間フレーム差Dm
Figure 0006732944
で求まる。ここでround{・}は整数への四捨五入を表す。ただし実際にはm番目のマイクロホンとm番目の雑音源の距離はゼロではないため、PmはDmの近傍で確率的に揺らぐであろう。このことをモデル化するために、時間フレーム差モデル化部112は、時間フレーム差の確率分布を、平均値Dmを持つポアソン分布でモデル化する(S112)。
Figure 0006732944
伝達関数ゲインモデル化部113には、伝達関数ゲインパラメータが入力される。伝達関数ゲインパラメータとして、伝達関数ゲインの初期値
Figure 0006732944
、伝達関数ゲインの平均値α、伝達関数ゲインの時間減衰重みβ、ステップサイズλなどが含まれる。伝達関数ゲインの初期値は知見があるのであればそれに応じた設定をすればよいが、ない場合は
Figure 0006732944
に設定すればよい。αも知見があるのであればそれに応じた設定をすればよいが、ない場合は、αkをフレームの経過に従って減少させるために、以下のように設定してもよい。
Figure 0006732944
ここでαはα0の値、βはフレームの経過に従う減衰重み、εはゼロ除算を避けるための小さな係数である。各種パラメータはα=1.0程度、β=0.05、λ=10-3程度を推奨する。
伝達関数ゲインモデル化部113は、伝達関数ゲインの確率分布を指数分布でモデル化する(S113)。a(m) ω,kは正の実数であり、また一般に伝達関数ゲインは時間kが大きくなれば値は小さくなる。このことをモデル化するために、伝達関数ゲインモデル化部113は、伝達関数ゲインの確率分布を平均値αkを持つ指数分布でモデル化する(S113)。
Figure 0006732944
以上により、観測信号と各パラメータについて確率分布が定義できた。本実施例では尤度最大化によってパラメータを推定する。
<尤度関数設定部12の動作の詳細>
以下、図4を参照して尤度関数設定部12の動作の詳細を説明する。具体的には、目的関数設定部121は、上記のモデル化された確率分布に基づいて、その目的関数を以下のように設定する(S121)。
Figure 0006732944
ここで、
Figure 0006732944
は非負の値である必要があるため、この最適化は、以下のようなLの制約付き多変数最大化問題となる。
Figure 0006732944
ここでLは確率値の積の形になっているため、計算の途中でアンダーフローを起こす可能性がある。そこで、対数関数が単調増加関数であることを利用し、両辺に対数をとる。具体的には、対数化部122は、目的関数の両辺を対数化し、式(34)(33)をそれぞれ以下のように変形する(S122)。
Figure 0006732944
ここで
Figure 0006732944
であり、各要素は以下のように記述できる。
Figure 0006732944
以上の変形により、
Figure 0006732944
を構成する各尤度関数の最大化は容易になった。式(35)は、coordinate descent (CD)法を用いて最大化する。具体的には、項分解部123は、尤度関数(対数化された目的関数)を、aに関する項(伝達関数ゲインに関する項)とPに関する項(時間フレーム差に関する項)に分解する(S123)。
Figure 0006732944
各変数を交互に最適化(繰り返し更新)することで、
Figure 0006732944
を近似的に最大化する。
Figure 0006732944
式(42)は制約付き最適化のため、近接勾配法を用いて最適化する。
<パラメータ更新部13の動作の詳細>
以下、図5を参照してパラメータ更新部13の動作の詳細を説明する。伝達関数ゲイン更新部131は、伝達関数ゲインを非負の値に限定する制約を付し、近接勾配法により伝達関数ゲインに関する尤度関数の変数を繰り返し更新する(S131)。
より詳細には、伝達関数ゲイン更新部131は、
Figure 0006732944
に関する勾配ベクトルを以下の式で求め、
Figure 0006732944
式(47)の勾配法と、式(48)のフロアリングを交互に行う繰り返し最適化で実行する。
Figure 0006732944
ここでλは更新のステップサイズである。勾配法、つまり式(47)(48)の繰り返し回数は、バッチ学習なら30回、オンライン学習なら1回程度に設定すればいい。また式(44)の勾配は、慣性項(参考非特許文献2)などを利用して調整してもいい。
(参考非特許文献2:麻生英樹、外7名、「深層学習 Deep Learning」、株式会社近代科学社、2015年11月)
式(43)は離散変数の組み合わせ最適化であるため、グリッド・サーチで更新する。具体的には、時間フレーム差更新部132は、すべてのmについてPmのとりえる最大値と最小値を定義し、すべてのPmの最小から最大の組み合わせについて、時間フレーム差に関する尤度関数である
Figure 0006732944
を評価し、これが最大となる組み合わせでPmを更新する(S132)。実用的には、各マイク距離φ2,...,Mから推測される音源距離の最小値
Figure 0006732944
と最大値
Figure 0006732944
を入力し、そこからPmのとりえる最大値と最小値を計算すればいい。音源距離の最大値と最小値は、環境に合わせて設定すべきだが、φm minm-20,φm maxm+20程度に設定すればよい。
以上の更新は、学習データを用いて事前にΘを推定するバッチ処理でも実行できるし、オンライン処理にしたければ、一定時間、観測信号をバッファリングをし、そのバッファを用いてΘの推定を実行すればいい。
以上の更新によりΘが推定できたなら、式(8)で雑音を推定し、式(4)(5)で目的音を強調すればよい。
収束判定部133は、アルゴリズムが収束したか否かを判定する(S133)。収束条件については、バッチ学習なら判定方法は例えば、a(m) ω,kの更新量の絶対値の総和や一定回数以上(たとえば1000回)学習を繰り返したか、などがある。オンライン学習の場合は、学習の頻度によるが、一定回数以上(たとえば1〜5回)学習を繰り返したら終了すればいい。
収束判定部133は、アルゴリズムが収束した場合(S133Y)収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータΘとして出力する。
このように、本実施例の雑音推定用パラメータ学習装置1によれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。
実施例2では、実施例1で求めた雑音推定用パラメータΘに基づいて目的音を強調する装置である目的音強調装置について説明する。図6を参照して本実施例の目的音強調装置2の構成について説明する。図6に示すように、本実施例の目的音強調装置2は、雑音推定部21と、時間周波数マスク生成部22と、フィルタリング部23を含む。以下、図7を参照して本実施例の目的音強調装置2の動作について説明する。
雑音推定部21には、強調に必要なデータが入力される。具体的には観測信号
Figure 0006732944
と雑音推定用パラメータΘが入力される。観測信号は、STFTなどの手法を用いて、時間波形から複素スペクトルに変換すればいい。ただし、m=2,...,Mに関しては、時間フレーム差Pmおよび伝達関数ゲインのフレーム数Kに応じてバッファリングしたスペクトル
Figure 0006732944
が入力される。
雑音推定部21は、観測信号と雑音推定用パラメータΘに基づいて、式(8)によりM個の(複数の)マイクロホンによる観測信号に含まれる雑音を推定する(S21)。
上述の雑音推定用パラメータΘおよび式(8)は、複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、所定のマイクロホンと、複数のマイクロホンのうち所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けたパラメータおよび数式であると解すればよい。
また目的音強調装置2は、雑音推定用パラメータ学習装置1に依存しない構成としてもよい。すなわち、雑音推定部21は、雑音推定用パラメータΘによらず、式(8)により、複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、所定のマイクロホンと、複数のマイクロホンのうち所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の所定のマイクロホンによる観測信号に含まれる雑音を推定してもよい。
時間周波数マスク生成部22は、所定のマイクロホンの観測信号|X(1) ω,τ|と推定された雑音|Nω,τ|に基づいて、式(4)によりスペクトル減算法に基づく時間周波数マスクGω,τを生成する(S22)。時間周波数マスク生成部22を、フィルタ生成部と呼んでもよい。フィルタ生成部は、少なくとも推定された雑音に基づき、式(4)などによりフィルタを生成する。
フィルタリング部23は、生成された時間周波数マスクGω,τに基づいて、所定のマイクロホンの観測信号|X(1) ω,τ|をフィルタリングし(式(5))、所定のマイクロホンの近傍に存在する音(目的音)が強調された音響信号(複素スペクトルYω,τ)を取得し、これを出力する(S23)。複素スペクトルYω,τを波形に戻すためには、逆短時間フーリエ変換(ISTFT)などを利用すればよく、ISTFTの機能をフィルタリング部23に持たせてもよい。
[変形例1]
実施例2では、雑音推定部21が別の装置(雑音推定用パラメータ学習装置1)から雑音推定用パラメータΘを都度受信する(受け取る)構成とした。もちろん目的音強調装置としては別の形態も考えられる。例えば、図8に示す変形例1の目的音強調装置2aのように、別の装置(雑音推定用パラメータ学習装置1)から雑音推定用パラメータΘを前もって受信しておき、これをパラメータ記憶部20に予め記憶しておいてもよい。
この場合、パラメータ記憶部20には、上述の三つの確率分布に基づいて設定された上述の二つの尤度関数の変数を交互に繰り返し更新して収束させた時間フレーム差および伝達関数ゲインが、雑音推定用パラメータΘとして予め記憶・保存されていることになる。
このように、本実施例および本変形例の目的音強調装置2、2aによれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (15)

  1. 複数のマイクロホンから観測信号を得る観測信号取得部と、
    複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、前記所定のマイクロホンと、前記複数のマイクロホンのうち前記所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、前記所定のマイクロホンと任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の前記所定のマイクロホンによる観測信号に含まれる雑音を推定する雑音推定部と、
    少なくとも前記推定された雑音に基づきフィルタを生成するフィルタ生成部と、
    前記所定のマイクロホンから得た観測信号を前記フィルタでフィルタリングするフィルタリング部と、
    を含む目的音強調装置。
  2. 請求項1に記載の目的音強調装置であって、
    前記所定のマイクロホンの観測信号は目的音と雑音を含み、前記任意のマイクロホンの観測信号は雑音を含んでいる
    目的音強調装置。
  3. 請求項2に記載の目的音強調装置であって、
    前記観測信号はマイクロホンが集音した音響信号を周波数変換した信号であり、前記雑音源から前記所定のマイクロホンまでの前記雑音の到達時間と、前記雑音源から前記任意のマイクロホンまでの前記雑音の到達時間と、の2つの到達時間の差が前記周波数変換のシフト幅以上である
    目的音強調装置。
  4. 請求項2または3に記載の目的音強調装置であって、
    前記雑音推定部は、
    前記所定のマイクロホンの観測信号の確率分布と、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差をモデル化した確率分布と、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインをモデル化した確率分布と、を関連付けて複数の前記マイクロホンによる観測信号に含まれる雑音を推定する
    目的音強調装置。
  5. 請求項4に記載の目的音強調装置であって、
    前記雑音推定部は、
    前記所定のマイクロホンの観測信号の確率分布と、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差をモデル化した確率分布と、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインをモデル化した確率分布と、からなる三つの前記確率分布に基づいて設定された二つの尤度関数を関連付けて、複数の前記マイクロホンによる観測信号に含まれる雑音を推定し、第1の尤度関数は少なくとも前記時間フレーム差をモデル化した確率分布に基づき、第2の尤度関数は少なくとも前記伝達関数ゲインをモデル化した確率分布に基づく
    目的音強調装置。
  6. 請求項5に記載の目的音強調装置であって、
    前記雑音推定部は、前記第1の尤度関数の変数と、前記第2の尤度関数の変数を交互に繰り返し更新する
    目的音強調装置。
  7. 請求項6に記載の目的音強調装置であって、
    前記第1の尤度関数の変数と、前記第2の尤度関数の変数の更新は、前記伝達関数ゲインを非負の値に限定する制約を付して行われる
    目的音強調装置。
  8. 請求項7に記載の目的音強調装置であって、
    前記時間フレーム差の前記確率分布を、ポワソン分布でモデル化し、前記伝達関数ゲインの前記確率分布を、指数分布でモデル化する
    目的音強調装置。
  9. 複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する雑音推定用パラメータ学習装置であって、
    複数の前記マイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化するモデル化部と、
    前記モデル化された前記確率分布に基づいて、前記時間フレーム差に関する尤度関数と、前記伝達関数ゲインに関する尤度関数を設定する尤度関数設定部と、
    前記時間フレーム差に関する前記尤度関数の変数と前記伝達関数ゲインに関する前記尤度関数の変数とを交互に繰り返し更新し、更新後の前記時間フレーム差および前記伝達関数ゲインを前記雑音推定用パラメータとして出力するパラメータ更新部
    を含む雑音推定用パラメータ学習装置。
  10. 請求項9に記載の雑音推定用パラメータ学習装置であって、
    前記パラメータ更新部は、
    前記伝達関数ゲインを非負の値に限定する制約を付し、近接勾配法により前記伝達関数ゲインに関する前記尤度関数の変数を繰り返し更新する伝達関数ゲイン更新部
    を含む雑音推定用パラメータ学習装置。
  11. 請求項9または10に記載の雑音推定用パラメータ学習装置であって、
    前記モデル化部は、
    前記観測信号の前記確率分布を、ガウス分布でモデル化する観測信号モデル化部と、
    前記時間フレーム差の前記確率分布を、ポワソン分布でモデル化する時間フレーム差モデル化部と、
    前記伝達関数ゲインの前記確率分布を、指数分布でモデル化する伝達関数ゲインモデル化部
    を含む雑音推定用パラメータ学習装置。
  12. 目的音強調装置が実行する目的音強調方法であって、
    複数のマイクロホンから観測信号を得るステップと、
    複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、前記所定のマイクロホンと、前記複数のマイクロホンのうち前記所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、前記所定のマイクロホンと任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の前記所定のマイクロホンによる観測信号に含まれる雑音を推定するステップと、
    少なくとも前記推定された雑音に基づきフィルタを生成するステップと、
    前記所定のマイクロホンから得た観測信号を前記フィルタでフィルタリングするステップ
    を含む目的音強調方法。
  13. 複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する雑音推定用パラメータ学習装置が実行する雑音推定用パラメータ学習方法であって、
    複数の前記マイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化するステップと、
    前記モデル化された前記確率分布に基づいて、前記時間フレーム差に関する尤度関数と、前記伝達関数ゲインに関する尤度関数を設定するステップと、
    前記時間フレーム差に関する前記尤度関数の変数と前記伝達関数ゲインに関する前記尤度関数の変数とを交互に繰り返し更新し、更新後の前記時間フレーム差および前記伝達関数ゲインを前記雑音推定用パラメータとして出力するステップ
    を含む雑音推定用パラメータ学習方法。
  14. コンピュータを、請求項1から8の何れかに記載の目的音強調装置として機能させるプログラム。
  15. コンピュータを、請求項9から11の何れかに記載の雑音推定用パラメータ学習装置として機能させるプログラム。
JP2018556185A 2016-12-16 2017-09-12 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム Active JP6732944B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016244169 2016-12-16
JP2016244169 2016-12-16
PCT/JP2017/032866 WO2018110008A1 (ja) 2016-12-16 2017-09-12 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2018110008A1 JPWO2018110008A1 (ja) 2019-10-24
JP6732944B2 true JP6732944B2 (ja) 2020-07-29

Family

ID=62558463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018556185A Active JP6732944B2 (ja) 2016-12-16 2017-09-12 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム

Country Status (6)

Country Link
US (1) US11322169B2 (ja)
EP (1) EP3557576B1 (ja)
JP (1) JP6732944B2 (ja)
CN (1) CN110036441B (ja)
ES (1) ES2937232T3 (ja)
WO (1) WO2018110008A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207580A1 (en) * 2019-04-10 2020-10-15 Huawei Technologies Co., Ltd. Audio processing apparatus and method for localizing an audio source
JP7444243B2 (ja) * 2020-04-06 2024-03-06 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
ATE405925T1 (de) * 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
US20080152167A1 (en) * 2006-12-22 2008-06-26 Step Communications Corporation Near-field vector signal enhancement
US7983428B2 (en) * 2007-05-09 2011-07-19 Motorola Mobility, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone
US8174932B2 (en) * 2009-06-11 2012-05-08 Hewlett-Packard Development Company, L.P. Multimodal object localization
JP5143802B2 (ja) * 2009-09-01 2013-02-13 日本電信電話株式会社 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム
JP5337072B2 (ja) * 2010-02-12 2013-11-06 日本電信電話株式会社 モデル推定装置、音源分離装置、それらの方法及びプログラム
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
JP6193823B2 (ja) * 2014-08-19 2017-09-06 日本電信電話株式会社 音源数推定装置、音源数推定方法および音源数推定プログラム
US10127919B2 (en) * 2014-11-12 2018-11-13 Cirrus Logic, Inc. Determining noise and sound power level differences between primary and reference channels
CN105225672B (zh) * 2015-08-21 2019-02-22 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN105590630B (zh) * 2016-02-18 2019-06-07 深圳永顺智信息科技有限公司 基于指定带宽的定向噪音抑制方法

Also Published As

Publication number Publication date
US11322169B2 (en) 2022-05-03
US20200388298A1 (en) 2020-12-10
EP3557576A4 (en) 2020-08-12
EP3557576B1 (en) 2022-12-07
JPWO2018110008A1 (ja) 2019-10-24
CN110036441A (zh) 2019-07-19
ES2937232T3 (es) 2023-03-27
WO2018110008A1 (ja) 2018-06-21
CN110036441B (zh) 2023-02-17
EP3557576A1 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6723120B2 (ja) 音響処理装置および音響処理方法
JP7276470B2 (ja) 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム
JP4977062B2 (ja) 残響除去装置とその方法と、そのプログラムと記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
JP2014041308A (ja) 信号処理装置、方法及びプログラム
JP6732944B2 (ja) 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
CN113470685A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP2014021315A (ja) 音源分離定位装置、方法、及びプログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JP2017083566A (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP7159928B2 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
JP7024615B2 (ja) 音響信号分離装置、学習装置、それらの方法、およびプログラム
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP6167062B2 (ja) 分類装置、分類方法、およびプログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
JP6314393B2 (ja) 音響信号分析装置、音響信号分析方法及びコンピュータプログラム
JP6063843B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP2019035851A (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200708

R150 Certificate of patent or registration of utility model

Ref document number: 6732944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150