JP2020034882A - マスク推定装置、マスク推定方法及びマスク推定プログラム - Google Patents

マスク推定装置、マスク推定方法及びマスク推定プログラム Download PDF

Info

Publication number
JP2020034882A
JP2020034882A JP2018163856A JP2018163856A JP2020034882A JP 2020034882 A JP2020034882 A JP 2020034882A JP 2018163856 A JP2018163856 A JP 2018163856A JP 2018163856 A JP2018163856 A JP 2018163856A JP 2020034882 A JP2020034882 A JP 2020034882A
Authority
JP
Japan
Prior art keywords
mask
estimating
target
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018163856A
Other languages
English (en)
Other versions
JP6992709B2 (ja
Inventor
中谷 智広
Tomohiro Nakatani
智広 中谷
マーク デルクロア
Marc Delcroix
マーク デルクロア
慶介 木下
Keisuke Kinoshita
慶介 木下
信貴 伊藤
Nobutaka Ito
信貴 伊藤
荒木 章子
Akiko Araki
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018163856A priority Critical patent/JP6992709B2/ja
Priority to US17/270,448 priority patent/US20210216687A1/en
Priority to PCT/JP2019/033184 priority patent/WO2020045313A1/ja
Publication of JP2020034882A publication Critical patent/JP2020034882A/ja
Application granted granted Critical
Publication of JP6992709B2 publication Critical patent/JP6992709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

【課題】オンラインで精度良くマスク推定を行うこと。【解決手段】第1マスク推定部12は、複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、観測信号に対する目的信号の占有度である第1のマスクを推定する。第2マスク推定部14は、対象セグメントにおける第1のマスクの推定結果と、観測信号から得られる第2の特徴量と、を基に、第2の特徴量をモデル化するパラメータと、観測信号に対する目的信号の占有度である第2のマスクとを推定する。【選択図】図1

Description

本発明は、マスク推定装置、マスク推定方法及びマスク推定プログラムに関する。
従来、音声を観測して得られた観測信号から、当該観測信号における目的の信号の占有度であるマスクを推定する技術が知られている。ここで、推定されたマスクは、自動音声認識(ASR:automatic speech recognition)における雑音除去のためのビームフォーミング等に用いられる。
非特許文献1には、複数のマイクロホンで収録された観測信号から精度良くマスクを推定するために、ニューラルネットワークを用いたマスク推定の方法と、空間クラスタリングによりマスクを推定する方法とを組み合わせる技術が開示されている。
Tomohiro Nakatani, Nobutaka Ito, Takuya Higuchi, Shoko Araki, and Keisuke Kinoshita, "INTEGRATING DNN-BASED AND SPATIAL CLUSTERING-BASED MASK ESTIMATION FOR ROBUST MVDR BEAMFORMING," Proc. IEEE ICASSP2017, pp.286-290, 2017.
非特許文献1に開示された技術は、全ての観測信号を読み込んでからバッチ処理によりマスクを推定するものである。ここで、マスクに基づく自動音声認識をスマートスピーカ等へ応用することを考えた場合、時々刻々と変化する環境に応じてマスクを逐次的に推定するオンライン型の技術が要求されることもある。しかしながら、非特許文献1に開示された技術では、オンラインでマスク推定を行うことができなかった。このように、従来の技術には、オンラインで精度良くマスク推定を行うことができない場合があるという問題がある。
上述した課題を解決し、目的を達成するために、マスク推定装置は、連続する時間のセグメントのうち、処理対象とするセグメントを対象セグメントとして、複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、前記対象セグメントの観測信号に対する目的信号の占有度である第1のマスクを推定する第1マスク推定部と、前記対象セグメントにおける前記第1のマスクの推定結果と、前記対象セグメントの観測信号から得られる第2の特徴量と、を基に、前記第2の特徴量をモデル化するパラメータと前記観測信号に対する前記目的信号の占有度である第2のマスクとを推定する第2マスク推定部と、を有することを特徴とする。
本発明によれば、オンラインで精度良くマスク推定を行うことができる。
図1は、第1の実施形態に係るマスク推定装置の構成の一例を示す図である。 図2は、第1の実施形態に係る第2マスク推定部の構成の一例を示す図である。 図3は、第1の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。 図4は、第1の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。 図5は、第2の実施形態に係るマスク推定装置の構成の一例を示す図である。 図6は、第2の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。 図7は、実験に用いた音声のデータを示す図である。 図8は、実験におけるハイパーパラメータを示す図である。 図9は、実験結果を示す図である。 図10は、実験結果を示す図である。 図11は、マスク推定プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係るマスク推定装置、マスク推定方法及びマスク推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
第1の実施形態のマスク推定装置には、連続する時間のセグメントのうちの対象セグメントにおいて複数の位置で収録した観測信号、又は観測信号から抽出された特徴量が入力される。ここで、観測信号には、目的音源から発生する目的音声及び背景雑音の両方が含まれる。また、観測信号は、複数の異なる位置に設置されたマイクロホンによって収録される。
マスク推定装置10は、観測信号から目的信号を抽出するためのマスクを推定することができる。この場合、マスクは、各時間周波数点における、観測信号を目的音声の信号が占有している確率である。つまり、マスクは、各時間周波数点における観測信号に対する目的音声の信号の占有度である。同様に、マスク推定装置10は、観測信号から雑音を抽出するためのマスクを推定することができる。この場合、マスクは、各時間周波数点における、観測信号を雑音信号が占有している確率である。つまり、マスクは、各時間周波数点における観測信号に対する雑音信号の占有度である。以降、目的音声の信号を目的信号と呼び、目的音声以外の音の信号を雑音信号と呼ぶ。例えば、目的音声は、特定の話者が発する音声である。
[第1の実施形態の構成]
図1を用いて、第1の実施形態のマスク推定装置の構成について説明する。図1は、第1の実施形態に係るマスク推定装置の構成の一例を示す図である。図1に示すように、マスク推定装置10は、第1特徴量抽出部11、第1マスク推定部12、第2特徴量抽出部13及び第2マスク推定部14を有する。
まず、マスク推定装置10は、ミニバッチ単位で観測信号の入力を受け付ける。ここで、ミニバッチは所定の時間セグメントの単位である。例えば、観測信号の収録を開始してから0ms〜500msを1番目のミニバッチに設定し、500ms〜750msを2番目のミニバッチに設定し、以降250msごとにミニバッチを設定することができる。また、各ミニバッチの長さは一定であってもよいし、異なっていてもよい。以降、Bは、l番目のミニバッチを表すものとする。つまり、観測信号全体を所定時間ごとに分割した部分区間をミニバッチという。
マスク推定装置10は、ミニバッチ単位で入力された観測信号に対し、短時間周波数分析に基づき短時間フレームごとの周波数領域信号に変換する。なお、マスク推定装置10には、この変換が行われた後の観測信号が入力されてもよい。以下では、この変換のために、一例として、短時間フーリエ変換(STFT:short-time Fourier transform)を用いるものとして説明する。yn,f,mは、観測信号のSTFTを表すものとする。ここで、n及びfは、それぞれ時間及び周波数のインデックスである。また、mは、観測信号を収録したマイクロホンを表すインデックスである。また、1≦n≦N、0≦f≦N、及び1≦m≦Nが成り立つものとする。
第1特徴量抽出部11は、観測信号のSTFTyn,f,mからスペクトル特徴量Yn,mを抽出する。具体的には、第1特徴量抽出部11は、(1)式に示すように、yn,f,mの対数を要素とするベクトルYn,mをスペクトル特徴量として抽出する。
Figure 2020034882
Figure 2020034882
第1マスク推定部12は、1つ、もしくは、複数の位置で収録した対象セグメントの観測信号から得られるスペクトル特徴量を基に、第1のマスクを推定する。ここで、対象セグメントは、マスク推定装置10に入力された観測信号に対応するミニバッチである。また、スペクトル特徴量は、第1の特徴量の一例である。
具体的には、第1マスク推定部12は、ニューラルネットワークを用いて第1のマスクを推定する。第1マスク推定部12は、第1特徴量抽出部11によって抽出されたスペクトル特徴量Yn,mをニューラルネットワークに入力し、当該ニューラルネットワークの出力として、m番目のマイクで収録した観測信号のみに基づきマスクMn,f d,DNNを得る。
また、第1マスク推定部12は、複数のマイクのそれぞれで収録した観測信号に基づきマスクを推定し、複数のマスクの推定値を得たのち、複数のマスクの推定値を統合して1つのマスクの推定値とすることもできる。マスクの統合法としては、推定値間で平均値をとる、中央値(メジアン)をとる等の方法がある。
要するに、第1マスク推定部12は、複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、前記対象セグメントの観測信号に対する目的信号の占有度である第1のマスクを推定すればよく、第1のマスクの計算には、対象セグメントの観測信号の一部(例えば、m番目のマイクについての観測信号)を用いてもよいし、観測信号全体(M個のマイクについての観測信号)を用いてもよい。
第1マスク推定部12では、逐次的に入力されるスペクトル特徴量をオンラインで処理可能なニューラルネットワークが用いられる。例えば、第1マスク推定部12では、LSTM(long short-term memory)ネットワークが用いられる。また、ニューラルネットワークのパラメータは、目的音声又は雑音の両方を含むシミュレーション音声等を用いて学習済みであるものとする。
ここで、dは、0又は1をとる。また、第1マスク推定部12は、Mn,f 0,DNN、及びMn,f 1,DNNの2種類のマスクを得ることができる。Mn,f 0,DNNは、時間周波数点(n,f)における観測信号から雑音信号を抽出するマスクである。一方、Mn,f 1,DNNは、時間周波数点(n,f)における観測信号から目的信号を抽出するマスクである。Mn,f d,DNNは、0から1の範囲の数値である。
また、Mn,f 0,DNN+Mn,f 1,DNN=1のように決めておけば、第1マスク推定部12は、いずれか一方のマスクをニューラルネットワークから出力し、他方のマスクは、当該出力したマスクを1から引くことで計算することもできる。このため、第1マスク推定部12は、ニューラルネットワークからMn,f 0,DNN及びMn,f 1,DNNの両方を出力するようにしてもよいし、どちらか一方を出力するようにしてもよい。
第2特徴量抽出部13は、ベクトルyn,fから、(4)式に示すように、空間特徴量Xn,fを抽出する。つまり、第2特徴量抽出部13は、対象セグメントの観測信号から空間特徴量Xn,fを抽出する。また、(3)式に示すように、ベクトルyn,fの要素は、マイクロホンごとの観測信号のSTFTである。ここで、||・||は、ユークリッドノルムを表す。また、Tは、非共役転置を表す。
Figure 2020034882
Figure 2020034882
第2マスク推定部14は、対象セグメントにおける第1のマスクの推定結果と、対象セグメントの観測信号から得られる空間特徴量と、を基に、対象セグメントの空間特徴量をモデル化する空間パラメータと観測信号に対する目的信号の占有度である第2のマスクとを推定する。ここで、空間特徴量は、第2の特徴量の一例である。
具体的には、第2マスク推定部14は、対象セグメントごとに、空間パラメータを条件とした場合の空間特徴量の分布モデル及び第1のマスクを基に、第2のマスクを推定する。このとき、第2マスク推定部14は、空間特徴量の分布モデルとして、複素角度ガウス混合モデル(cACGMM:complex angular central Gaussian mixture model)を用いる。cACGMMは(5)式のように定義される。
Figure 2020034882
ここで、パラメータ集合θSCは、{{w },{R }}と表される。また、w は、混合重みであり、dn,fの事前確率である。つまり、w =p(dn,f=d)と書ける。なお、後述([0046]段落)のように、本実施形態では、w は、第1のマスクと等価であり、その推定値で置き換えられるものとする。また、(5)式は、dが与えられたときの、複素角度ガウス(cACG:complex angular central Gaussian)分布で定義される空間特徴量Xの条件付き分布を表す。このとき、空間パラメータR は、複素角度ガウス分布の形状を定めるパラメータであり、N×N次元の正定値エルミート行列である。ここで、detは行列式を表す。また、Hは共役転置を表す。
第2マスク推定部14は、上記の複素角度ガウス混合モデルを用いて、EM(expectation-maximization)アルゴリズムにより第2のマスクを推定する。図2は、第1の実施形態に係る第2マスク推定部の構成の一例を示す図である。図2に示すように、第2マスク推定部14は、設定部141、第1更新部142、第2更新部143、判定部144、及び記憶部145を有する。なお、図2では記憶部145が第2マスク推定部14内に設けられているが、記憶部145を第2マスク推定部14の外側、つまり、マスク推定装置10内の記憶部として設けてもよいことは言うまでもない。
設定部141は、対象セグメントにおける第2のマスク及び空間パラメータの初期値として、対象セグメントに対して推定された第1のマスク及び1つ前のセグメントにおける空間パラメータをそれぞれ設定する。具体的には、設定部141は、(6)式のように第2のマスクMn,f d,INTの初期値を設定する。なお、第2マスク推定部14は、第1マスク推定部12から第1のマスクMn,f d,DNNを取得する。また、対象セグメントに対応するミニバッチをBとすると、設定部141は、(7)式のように空間パラメータRf,l の初期値を設定する。また、設定部141は、第1のマスクの累積和Λf,l−1 を(8)式のように設定する。
Figure 2020034882
Figure 2020034882
Figure 2020034882
第1更新部142は、対象セグメントまでの第1のマスクの累積和と、対象セグメントの空間特徴量及び第2のマスクと、を基に空間パラメータを更新する。具体的には、第1更新部142は、(9)式のように空間パラメータRf,l を更新する。このとき、第1更新部142は、(10)式のように更新空間パラメータRf,new を計算する。
Figure 2020034882
Figure 2020034882
第2更新部143は、対象セグメントの空間特徴量、第1のマスク、及び空間パラメータを基に、第2のマスクを更新する。具体的には、第2更新部143は、(11)式のように第2のマスクMn,f d,INTを更新する。
Figure 2020034882
判定部144は、第2更新部143によって第2のマスクが更新された場合、所定の収束条件が満たされているか否かを判定し、収束条件が満たされていないと判定した場合、第1更新部142及び第2更新部143に処理をさらに実行させる。つまり、第1更新部142及び第2更新部143は、所定の収束条件が満たされるまで処理を繰り返すことになる。その際、繰り返しのたびに第2のマスク及び空間パラメータが更新され、第2のマスクの目的音声の抽出精度が向上していく。
また、判定部144の収束条件は、繰り返し数が閾値を超えたことであってもよい。このとき、繰り返し数の閾値は1回とすることができる。すなわち、第1更新部142及び第2更新部143は、1つのミニバッチに対し、それぞれ1回のみ更新処理を行うようにしてもよい。また、判定部144が収束を判定する条件は、1回の更新における第2のマスクの更新量や空間パラメータの更新量が一定値以下になったことであってもよい。
また、判定部144は、(12)式で表される尤度関数L(θSC)の値の更新量が一定値以下になった場合に収束したと判定してもよい。Xは、ミニバッチBまでに観測された空間特徴量Xn,fの集合である。また、Yは、ミニバッチBまでに観測された空間パラメータYn,mの集合である。また、θDNNは、第1マスク推定部12のニューラルネットワークのパラメータである。
Figure 2020034882
また、(12)式は、(13)式のように書き換えられる。このとき、(13)式の右辺のp(dn,f=d|y;θDNN)は、第1マスク推定部12によって推定される第1のマスクMn,f d,DNNと等価であるとみなすことができる。したがって、本実施形態では、p(dn,f=d|y;θDNN)をMn,f d,DNNに置き換えて、尤度関数を最大化する。このため、第2マスク推定部14は、非特許文献1に記載された方法と同様の方法で、各ミニバッチごとに尤度関数L(θSC)を最大化し、第2のマスクMn,f d,INT及びパラメータθSCの推定を行うことができる。また、各ミニバッチで推定された空間パラメータを記憶部が記憶し、次のミニバッチで空間パラメータの初期値として用い、更新するようにすることで、ミニバッチごとにバラバラに尤度関数を最大化するよりも、高い精度でマスク推定をすることができる。
Figure 2020034882
記憶部145は、前のセグメントでの計算値であって、対象セグメントの初期設定で用いられる値を記憶する。つまり、記憶部145は、ミニバッチBl−1において計算された空間パラメータRf,l−1 及び第1のマスクの累積和Λf,l−1 を記憶する。そして、設定部141は、ミニバッチBにおいて空間パラメータRf,l 及び第1のマスクの累積和Λf,l を設定する際に、記憶部145から空間パラメータRf,l−1 及び第1のマスクの累積和Λf,l−1 を取得する。
なお、ミニバッチが先頭である場合、すなわち、l=1の場合、空間パラメータRf,l−1 は未計算である。この場合、設定部141は、非特許文献1に記載された方法と同様に、空間パラメータの初期値Rf,0 に所定の学習データを使って学習した値を設定してもよい。例えば、目的信号の空間パラメータRf,0 の学習データは、特定の話者が雑音のない環境で発話した際に得られる観測信号である。また、設定部141は、空間パラメータの初期値Rf,0 に単位行列を設定してもよい。さらに、雑音信号の空間パラメータRf,0 は、雑音のみが含まれている観測信号から推定してもよい。
[第1の実施形態の処理]
図3を用いて、本実施形態のマスク推定装置10の処理の流れを説明する。図3は、第1の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。
図3に示すように、まず、マスク推定装置10は、ミニバッチ単位の観測信号の入力を受け付ける(ステップS11)。ここで、マスク推定装置10は、観測信号のSTFTを計算してもよい。また、マスク推定装置10に入力される観測信号は、STFTが行われたものであってもよい。
次に、マスク推定装置10は、マイクロホンごとの観測信号のSTFTからスペクトル特徴量を抽出する(ステップS12)。そして、マスク推定装置10は、スペクトル特徴量から第1のマスクを推定する(ステップS13)。このとき、マスク推定装置10は、ニューラルネットワークを用いて第1のマスクを推定することができる。
さらに、マスク推定装置10は、観測信号のSTFTから空間特徴量を抽出する(ステップS14)。そして、マスク推定装置10は、第1のマスク及び空間特徴量から第2のマスクを推定する(ステップS15)。
ここで、マスク推定装置10は、未処理のミニバッチがあるか否かを判定する(ステップS16)。未処理のミニバッチがある場合(ステップS16、Yes)、マスク推定装置10は、ステップS11に戻り、次のミニバッチの観測信号の入力を受け付ける。一方、未処理のミニバッチがない場合(ステップS16、No)、マスク推定装置10は処理を終了する。
図4を用いて、マスク推定装置10が第2のマスクを推定する処理(図3のステップS15)を詳細に説明する。図4は、第1の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。
図4に示すように、まず、マスク推定装置10は、第2のマスク、空間パラメータ、及び第1のマスクの累積和の初期値を設定する(ステップS151)。次に、マスク推定装置10は、第1のマスクの累積和、空間特徴量及び第2のマスクを用いて空間パラメータを更新する(ステップS152)。そして、マスク推定装置10は、空間特徴量、第1のマスク、及び空間パラメータを基に第2のマスクを更新する(ステップS153)。
ここで、マスク推定装置10は、第2のマスクが収束したか否かを判定する(ステップS154)。マスク推定装置10は、第2のマスクが収束していないと判定した場合(ステップS154、No)、ステップS152に戻り、さらに空間パラメータを更新する。一方、マスク推定装置10は、第2のマスクが収束したと判定した場合(ステップS154、Yes)、マスク推定装置10は処理を終了する。
[第1の実施形態の効果]
これまで説明してきたように、第1マスク推定部12は、連続する時間のセグメントのうち、処理対象とするセグメントを対象セグメントとして、複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、対象セグメントの観測信号に対する目的信号の占有度である第1のマスクを推定する。また、第2マスク推定部14は、対象セグメントにおける第1のマスクの推定結果と、対象セグメントの観測信号から得られる第2の特徴量と、を基に、第2の特徴量をモデル化するパラメータと観測信号に対する目的信号の占有度である第2のマスクを推定する。このように、マスク推定装置10は、2つのマスク推定方法を組み合わせることで、最終的なマスクを精度良く推定することができる。さらに、マスク推定装置10は、対象セグメントごとの観測信号に対して逐次的にマスクを推定することができる。このため、第1の実施形態によれば、オンラインで精度良くマスク推定を行うことができる。
また、マスク推定装置10は、スペクトル特徴量を入力するニューラルネットワークを用いた手法と、分布モデルを用いた手法を組み合わせている。このため、例えば、事前学習したニューラルネットワークのパラメータと観測信号との間にミスマッチがある場合でも、空間パラメータを用いることでマスクの精度を向上させることができる。また、信号対雑音比が特別に悪い周波数帯がある場合でも、スペクトル特徴量に基づき目的信号の周波数パターンを考慮することで、高精度なマスク推定が可能になる。
[第2の実施形態]
第2の実施形態では、マスク推定装置10は、先頭のミニバッチから所定のミニバッチまでは、第1のマスクの推定値を第2のマスクの推定値として代用し、以降のミニバッチでは、空間パラメータの計算値を用いて第2のマスクの推定を行う。
ここで、目的信号を含む観測信号の量が多いほど、目的信号に対する空間パラメータの精度は向上する。逆に、目的信号を含む観測信号が少ないと、計算された目的信号に対する空間パラメータの精度が低く、実用的でない場合がある。つまり、目的信号を含む観測信号が少ないミニバッチで計算された目的信号に対する空間パラメータを第2マスク推定部14の推定に用いると、結果として推定される対象セグメントにおける第2のマスクの推定精度も低くなってしまうことがある。そこで、第2の実施形態では、マスク推定装置10は、十分な量の目的信号を含む観測信号を用いて空間パラメータが計算されるようになるまでの間、第1のマスクを第2のマスクの推定値として代用し、十分な量の目的信号を含む観測信号を用いて空間パラメータが計算されてからは、空間パラメータの計算値(推定値)を用いて第2のマスクの推定を行う。
[第2の実施形態の構成]
図5に示すように、第2の実施形態では、マスク推定装置10は、第1の実施形態と同様の処理部に加えて、制御部15をさらに有する。図5は、第2の実施形態に係るマスク推定装置の構成の一例を示す図である。
制御部15は、マスクの推定対象のセグメントである対象セグメントまでの観測信号に含まれている目的信号の量が、所定の閾値を超えているか否かを判定する。ここで、制御部15は、目的信号の量が閾値を超えている場合は、第1の実施形態と同様に、第2マスク推定部14が、空間パラメータの計算値を用いて、第2のマスクを推定するように制御する。一方、制御部15は、目的信号の量が閾値を超えていない場合は、第2マスク推定部14が、第1のマスクの推定値を第2のマスクを推定値として代用するように制御する。これにより、第2の実施形態において、マスク推定装置10は、空間パラメータに適正な初期値が与えられない場合であっても、第2のマスクを精度良く推定することができる。
制御部15は、所定の推定値を基に、対象セグメントを含む過去のセグメントの観測信号に含まれる目的信号の量が閾値を超えているか否かを判定する。例えば、制御部15は、目的信号についての第1のマスクの累積和Λf,l が閾値を超えているか否かを判定する。ここで、Λf,l は、目的信号が含まれるフレームの数が多いほど大きくなる。
制御部15の判定の対象は、Λf,l に限られない。例えば、処理したミニバッチの数が増えるほど、目的信号を含む観測信号の量は増える(少なくとも減ることはない)ため、制御部15は、処理したミニバッチの数によって判定を行ってもよい。また、制御部15は、観測信号中に音声が含まれるか否かを判定する音声区間検出に基づいて検出した音声区間の長さを用いて判定を行ってもよい。
[第2の実施形態の処理]
図6を用いて、マスク推定装置10が第2のマスクを推定する処理を詳細に説明する。図6は、第2の実施形態に係るマスク推定装置の処理の流れを示すフローチャートである。図6の処理は、図4の処理と同様に、図3のステップS15に対応している。このため、図6の処理は、図3のステップS11で入力されたミニバッチ単位の観測信号を対象とする。
図6に示すように、まず、マスク推定装置10は、各ミニバッチにおいて、第2のマスク、空間パラメータ、及び第1のマスクの累積和の初期値を設定する(ステップS251)。次に、マスク推定装置10は、第1のマスクの累積和、空間特徴量及び第2のマスクを用いて空間パラメータを更新する(ステップS252)。
ここで、マスク推定装置10は、第1のマスクの累積和が閾値以上であるか否かを判定する(ステップS253)。第1のマスクの累積和が閾値以上である場合(ステップS253、Yes)、マスク推定装置10は、ステップS252で更新した空間パラメータを用いて第2のマスクを更新する(ステップS254)。一方、第1のマスクの累積和が閾値以上でない場合(ステップS253、No)、マスク推定装置10は、第1のマスクの推定値を第2のマスクの推定値の代用として用いる(ステップS255)。
ここで、マスク推定装置10は、空間パラメータの更新が収束したか否かを判定する(ステップS256)。マスク推定装置10は、空間パラメータの更新が収束していないと判定した場合(ステップS256、No)、ステップS252に戻り、さらに空間パラメータを更新する。一方、マスク推定装置10は、空間パラメータの更新が収束したと判定した場合(ステップS256、Yes)、マスク推定装置10は処理を終了する。
なお、ここで、マスク推定装置10は、第1のマスクの累積和が閾値以上でない場合でも(ステップS253、No)、ステップS252の空間パラメータの更新を行うようにしている。第1のマスクの累積値が閾値以下の場合でも、目的信号に対する空間パラメータの更新を行っていくことで、第1のマスクの累積和が閾値を超えた時点で、目的信号に対する空間パラメータの推定精度を高くすることができるからである。
[実験結果]
ここで、従来の手法と実施形態とを比較するために行った実験について説明する。実験には、CHiME−3の音声認識用の音声データを用いた。音声データは、複数の雑音環境下で新聞を読み上げる音声を、複数のマイクロホンを備えたタブレット端末で収録したものである。また、図7に示すように、音声データは複数のサブセットを含む。また、各サブセットは、実際に収録したデータ(real data)及びシミュレーションにより生成したデータ(simu data)を含む。図7に各データの発話数を示す。図7は、実験に用いた音声のデータを示す図である。
また、実験では、従来の手法及び実施形態の手法を含む複数の手法でマスクを推定し、推定したマスクを用いて目的音声を抽出した上で音声認識を行った。従来の手法は、DNNによるマスク推定手法(LSTM)及び空間クラスタリングによるマスク推定手法(cACGMM)である。
空間パラメータの初期値は、事前学習を行ったものとした。また、先頭のミニバッチの長さを500msとし、2番目以降のミニバッチの長さを250msとした。その他の各ハイパーパラメータの設定は、図8の通りである。図8は、実験におけるハイパーパラメータを示す図である。
図8に示すように、Number of EM iterationsの値は1である。これは、ミニバッチごとに、マスク推定装置10が第2のマスクを推定する際に、空間パラメータ及び第2のマスクの更新を1回のみ行うことを示している。
図9に、各手法でマスクを推定し音声認識を行った際のWER(単語誤り率:Word error rate)を示す。図9は、実験結果を示す図である。図9に示すように、実施形態の手法(Proposed)でマスクを推定した場合の単語誤り率が、従来の手法と比べて概ね低かった。これより、実施形態のマスク推定手法は、従来の手法と比べて、音声認識の精度を向上させる効果があるといえる。
さらに、第2のマスクを推定する際の空間パラメータの設定方法を変化させて同様の実験を行った結果を図10に示す。図10は、実験結果を示す図である。なお、Bus、Caf、Ped、及びStrは、前述の複数の雑音環境を表している。
図10のNoPriorは、第1の実施形態で空間パラメータの初期値に単位行列を設定する手法である。また、PostTrainedは、第2の実施形態の手法、すなわち制御部15によって第2のマスクの推定値に、第1のマスクの推定値を代用するかどうかを制御する手法である。なお、PostTrainedでは、制御部15は第1のマスクの累積和を用いて判定を行うものとし、閾値を1.5とした。図10に示すように、NoPrior及びPostTrainedの単語誤り率が、従来の手法と比べて低かった。また、NoPrior及びPostTrainedは、いずれも空間パラメータの事前学習を必要としない手法である。これより、実施形態のマスク推定手法は、事前学習を行うことなく、従来の手法よりも音声認識の精度を向上させることができるといえる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、マスク推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスク推定処理を実行するマスク推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、マスク推定装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスク推定処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、マスク推定サーバ装置は、観測信号を入力とし、第2のマスクを出力とするマスク推定サービスを提供するサーバ装置として実装される。この場合、マスク推定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスク推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図11は、マスク推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、マスク推定装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、マスク推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 マスク推定装置
11 第1特徴量抽出部
12 第1マスク推定部
13 第2特徴量抽出部
14 第2マスク推定部
15 制御部
141 設定部
142 第1更新部
143 第2更新部
144 判定部
145 記憶部

Claims (6)

  1. 連続する時間のセグメントのうち、処理対象とするセグメントを対象セグメントとして、
    複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、前記対象セグメントの観測信号に対する目的信号の占有度である第1のマスクを推定する第1マスク推定部と、
    前記対象セグメントにおける前記第1のマスクの推定結果と、前記対象セグメントの観測信号から得られる第2の特徴量と、を基に、前記第2の特徴量をモデル化するパラメータと前記観測信号に対する前記目的信号の占有度である第2のマスクとを推定する第2マスク推定部と、
    を有することを特徴とするマスク推定装置。
  2. 前記第2マスク推定部は、
    前記対象セグメントまでの前記第1のマスクの累積和と、前記対象セグメントの前記第2の特徴量及び前記第2のマスクと、を基に前記パラメータを更新する第1更新部と、
    前記対象セグメントの前記第2の特徴量、前記第1のマスク、及び前記パラメータを基に、前記第2のマスクを更新する第2更新部と、
    所定の収束条件が満たされるまで、前記第1更新部及び前記第2更新部を繰り返し実行させる判定部と、
    を有することを特徴とする請求項1に記載のマスク推定装置。
  3. 前記第1マスク推定部は、ニューラルネットワークを用いて前記第1のマスクを推定し、
    第2マスク推定部は、前記パラメータを条件とした場合の前記第2の特徴量の分布モデル及び前記第1のマスクを基に、前記第2のマスクを推定することを特徴とする請求項1又は2に記載のマスク推定装置。
  4. マスクの推定対象のセグメントである対象セグメントまでの観測信号に含まれている目的信号の量が、所定の閾値を超えているか否かを判定し、
    前記目的信号の量が前記閾値を超えている場合は、前記第2マスク推定部が、推定済みの前記パラメータを基に前記第2のマスクを推定するように制御し、
    前記目的信号の量が前記閾値を超えていない場合は、前記第2マスク推定部が、前記第1のマスクの推定結果を前記第2のマスクの推定値として代用するように制御する制御部をさらに有することを特徴とする請求項1から3のいずれか1項に記載のマスク推定装置。
  5. コンピュータによって実行されるマスク推定方法であって、
    連続する時間のセグメントのうち、処理対象とするセグメントを対象セグメントとして、
    複数の位置で収録した対象セグメントの観測信号から得られる第1の特徴量を基に、前記対象セグメントの観測信号に対する目的信号の占有度である第1のマスクを推定する第1マスク推定工程と、
    前記対象セグメントにおける前記第1のマスクの推定結果と、前記対象セグメントの観測信号から得られる第2の特徴量と、を基に、前記第2の特徴量をモデル化するパラメータと前記観測信号に対する前記目的信号の占有度である第2のマスクとを推定する第2マスク推定工程と、
    を含むことを特徴とするマスク推定方法。
  6. コンピュータを、請求項1から4のいずれか1項に記載のマスク推定装置として機能させるためのマスク推定プログラム。
JP2018163856A 2018-08-31 2018-08-31 マスク推定装置、マスク推定方法及びマスク推定プログラム Active JP6992709B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018163856A JP6992709B2 (ja) 2018-08-31 2018-08-31 マスク推定装置、マスク推定方法及びマスク推定プログラム
US17/270,448 US20210216687A1 (en) 2018-08-31 2019-08-23 Mask estimation device, mask estimation method, and mask estimation program
PCT/JP2019/033184 WO2020045313A1 (ja) 2018-08-31 2019-08-23 マスク推定装置、マスク推定方法及びマスク推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018163856A JP6992709B2 (ja) 2018-08-31 2018-08-31 マスク推定装置、マスク推定方法及びマスク推定プログラム

Publications (2)

Publication Number Publication Date
JP2020034882A true JP2020034882A (ja) 2020-03-05
JP6992709B2 JP6992709B2 (ja) 2022-01-13

Family

ID=69644228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018163856A Active JP6992709B2 (ja) 2018-08-31 2018-08-31 マスク推定装置、マスク推定方法及びマスク推定プログラム

Country Status (3)

Country Link
US (1) US20210216687A1 (ja)
JP (1) JP6992709B2 (ja)
WO (1) WO2020045313A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021201555A1 (de) 2020-03-02 2021-09-02 Ngk Insulators, Ltd. Wabenfilter

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
US11610061B2 (en) * 2019-12-02 2023-03-21 Asapp, Inc. Modifying text according to a specified attribute
CN111816200B (zh) * 2020-07-01 2022-07-29 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法
JP2023541472A (ja) * 2020-10-15 2023-10-02 日本電気株式会社 ハイパーパラメータ最適化システム、方法およびプログラム
CN113903334B (zh) * 2021-09-13 2022-09-23 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4406428B2 (ja) * 2005-02-08 2010-01-27 日本電信電話株式会社 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
US10553236B1 (en) * 2018-02-27 2020-02-04 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021201555A1 (de) 2020-03-02 2021-09-02 Ngk Insulators, Ltd. Wabenfilter

Also Published As

Publication number Publication date
WO2020045313A1 (ja) 2020-03-05
US20210216687A1 (en) 2021-07-15
JP6992709B2 (ja) 2022-01-13

Similar Documents

Publication Publication Date Title
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
JPWO2019017403A1 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
WO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
US20220101859A1 (en) Speaker recognition based on signal segments weighted by quality
JP2019016239A (ja) 学習プログラム、学習方法及び学習装置
JP2010078650A (ja) 音声認識装置及びその方法
JP2012181579A (ja) パターン分類の学習装置
JP2007041499A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
WO2019194300A1 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP5006888B2 (ja) 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム
JP5070591B2 (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
JP2008298844A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
US11996086B2 (en) Estimation device, estimation method, and estimation program
JP5438703B2 (ja) 特徴量強調装置、特徴量強調方法、及びそのプログラム
JP7485050B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R150 Certificate of patent or registration of utility model

Ref document number: 6992709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150