JP7333878B2 - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法、及び信号処理プログラム Download PDFInfo
- Publication number
- JP7333878B2 JP7333878B2 JP2022577446A JP2022577446A JP7333878B2 JP 7333878 B2 JP7333878 B2 JP 7333878B2 JP 2022577446 A JP2022577446 A JP 2022577446A JP 2022577446 A JP2022577446 A JP 2022577446A JP 7333878 B2 JP7333878 B2 JP 7333878B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- sequence
- normalization
- normalization parameter
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 115
- 238000003672 processing method Methods 0.000 title claims description 5
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000010606 normalization Methods 0.000 claims description 291
- 239000013598 vector Substances 0.000 claims description 99
- 238000000034 method Methods 0.000 claims description 93
- 238000012937 correction Methods 0.000 claims description 74
- 238000000605 extraction Methods 0.000 claims description 64
- 238000004364 calculation method Methods 0.000 claims description 52
- 239000000284 extract Substances 0.000 claims description 23
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 12
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 67
- 238000010586 diagram Methods 0.000 description 22
- 230000005236 sound signal Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 101100457838 Caenorhabditis elegans mod-1 gene Proteins 0.000 description 14
- 101150110972 ME1 gene Proteins 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108091093126 WHP Posttrascriptional Response Element Proteins 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1は、実施の形態1の信号処理システムを示す図である。信号処理システムは、信号処理装置100と学習装置200とを含む。
信号処理装置100は、信号処理方法を実行する装置である。例えば、信号処理装置100は、エッジデバイス又はサーバである。
学習装置200は、学習用信号に基づいて、正規化パラメータと学習済モデルとを生成する。
図2は、実施の形態1の信号処理装置が有するハードウェアを示す図である。信号処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース104を有する。
インタフェース104は、学習装置200と通信する。また、例えば、インタフェース104は、マイクロホンと通信する。なお、マイクロホンの図示は、省略されている。
図3は、実施の形態1の信号処理装置の機能を示すブロック図である。信号処理装置100は、正規化パラメータ記憶部111、学習済モデル記憶部112、一時正規化パラメータ記憶部113、取得部120、特徴量抽出部130、特徴量正規化部140、算出部150、信号生成部160、及び出力部170を有する。
特徴量正規化部140は、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が得られる。ここで、正規化処理とは、学習済モデルに入力されるデータに対して、予め定められた手続きに則った変換を行う処理を指す。例えば、正規化処理により、当該データの値が分布している範囲が、変更される。また、例えば、正規化処理により、当該データの値のばらつきが、吸収される。このように、特徴量正規化部140は、学習済モデルから出力される情報の正確性を高めるために、正規化処理を実行する。また、特徴量正規化部140の機能の詳細については、後で説明する。
図5は、実施の形態1の特徴量正規化部の機能を示すブロック図である。特徴量正規化部140は、一時正規化パラメータ算出部141、一時正規化パラメータ補正部142、及び正規化部143を含む。
正規化部143は、補正済正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。
図6は、実施の形態1の学習装置が有するハードウェアを示す図である。学習装置200は、プロセッサ201、揮発性記憶装置202、不揮発性記憶装置203、及びインタフェース204を有する。
インタフェース204は、信号処理装置100と通信する。また、例えば、インタフェース204は、マイクロホンと通信する。なお、当該マイクロホンの図示は、省略されている。
図7は、実施の形態1の学習装置の機能を示すブロック図である。学習装置200は、正規化パラメータ記憶部211、モデルパラメータ記憶部212、取得部220、特徴量抽出部230、正規化パラメータ算出部240、特徴量正規化部250、算出部260、更新部270、及び出力部280を有する。
取得部220は、学習用信号を取得する。例えば、取得部220は、学習用信号をマイクロホンから取得する。また、例えば、取得部220は、揮発性記憶装置202又は不揮発性記憶装置203から学習用信号を取得する。なお、学習用信号は、上述した通りである。
このように、学習装置200は、学習用信号を取得する度に、モデルパラメータの更新を繰り返す。モデルパラメータの更新が繰り返されることで、学習済モデルが生成される。
図8は、実施の形態1の信号処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、対象入力信号を取得する。
(ステップS12)特徴量抽出部130は、対象入力信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
Xin(f,t)とXraw(f,t)との関係は、式(1)で表される。
ここで、学習済モデルは、マスクと呼ばれる時系列データを、目的音の数だけ出力することができる。例えば、マスクは、第2の特徴量系列を示す行列の各要素において、目的音に由来する成分が含まれている割合を示す行列である。ここで、n番目の目的音に対応するマスクを示す行列の各要素を、Mn(f,t)と表記する。なお、nは、“1≦n≦N”を満たす整数である。Nは、信号処理装置100が出力すべき目的音の総数である。学習済モデルでは、Xmod(f,t)に基づいて、Mn(f,t)が算出される。n番目の目的音特徴量系列がYn(f,t)である場合、Mn(f,t)とXraw(f,t)との関係は、式(2)で表される。
(ステップS16)出力部170は、対象出力信号を出力する。
(ステップS21)一時正規化パラメータ算出部141は、第1の特徴量系列に基づいて、一時正規化パラメータを算出する。前述したように、一時正規化パラメータは、平均ベクトル及び分散ベクトルである。平均ベクトルの要素は、μin(f)と表記する。平均ベクトルの要素μin(f)は、式(3)を用いて表現される。
例えば、wmod1(f,f’)は、式(9)を用いて表現される。
図10は、実施の形態1の学習装置が実行する処理の例を示すフローチャートである。
(ステップS31)第1の学習処理が実行される。
(ステップS32)終了条件が満たされているか否かが判定される。例えば、当該終了条件は、ステップS31が実行された回数が予め設定された回数を超えているか否かである。当該終了条件を満たす場合、処理は、ステップS33に進む。当該終了条件を満たさない場合、処理は、ステップS31に進む。
(ステップS33)第2の学習処理が実行される。
当該終了条件を満たす場合、処理は、ステップS35に進む。当該終了条件を満たさない場合、処理は、ステップS33に進む。
(ステップS41)取得部220は、学習用信号を取得する。
(ステップS42)特徴量抽出部230は、学習用信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
(ステップS51)取得部220は、学習用信号を取得する。
(ステップS52)特徴量抽出部230は、学習用信号に基づいて、第1の特徴量系列と第2の特徴量系列とを抽出する。
(ステップS53)特徴量正規化部250は、正規化パラメータ記憶部211に格納されている正規化パラメータを用いて、第1の特徴量系列を正規化する。これにより、正規化済特徴量系列が、生成される。当該正規化済特徴量系列を示す行列は、式(17)を用いて表現される。なお、当該式(17)のμmod(f)は、正規化パラメータの平均ベクトルの要素を示す。当該式(17)のσmod^2(f)は、正規化パラメータの分散ベクトルの要素を示す。
(ステップS55)更新部270は、学習用信号に含まれている目的音信号に基づいて、教師特徴量系列を抽出する。更新部270は、目的音特徴量系列と教師特徴量系列との差分が小さくなるように、モデルパラメータを更新する。
図13は、実施の形態1の正規化パラメータ記憶部に格納されている正規化パラメータの分散ベクトルの一例を示す図である。図13は、分散ベクトル301を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
図14は、実施の形態1の一時正規化パラメータ算出部により算出された正規化パラメータの分散ベクトルの一例を示す図である。図14は、分散ベクトル302を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
図15は、実施の形態1の第1の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図15は、分散ベクトル303を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
図16は、実施の形態1の第2の補正方法を用いることで得られた分散ベクトルの一例を示す図である。図16は、分散ベクトル304を示すグラフを示している。グラフの縦軸は、分散ベクトルの大きさである分散を示している。グラフの横軸は、特徴量次元番号を示している。
式(17)で示したように、正規化部143及び特徴量正規化部250により、第1の特徴量系列が、正規化される。正規化部143及び特徴量正規化部250は、公知のバッチ正規化法(Batch Normalization)を用いて、第1の特徴量系列を正規化してもよい。また、正規化パラメータ記憶部111に格納されている正規化パラメータは、学習装置200で移動平均として算出された値でもよい。
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
一時正規化パラメータ算出部251の機能は、一時正規化パラメータ算出部141の機能と同じである。
一時正規化パラメータ補正部252の機能は、一時正規化パラメータ補正部142の機能と同じである。
正規化部253の機能は、正規化部143の機能と同じである。
なお、一時正規化パラメータ補正部252は、第1の補正方法を実行した後に、第2の補正方法を実行してもよい。
270 更新部、 280 出力部、 301 分散ベクトル、 302 分散ベクトル、 303 分散ベクトル、 304 分散ベクトル。
Claims (14)
- 目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得する取得部と、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
を有する信号処理装置。 - 前記重み付けで用いられる重みは、前記特徴量系列のフレーム数に応じて決定される、
請求項1に記載の信号処理装置。 - 前記取得部は、前記重み付けで用いられる重みの複数の候補を取得し、
前記特徴量正規化部は、前記複数の候補の中から、前記一時正規化パラメータを所望の値に近づけられる候補を前記重みとして、選択する、
請求項1に記載の信号処理装置。 - 目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得する取得部と、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出する特徴量抽出部と、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化する特徴量正規化部と、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出する算出部と、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する信号生成部と、
を有する信号処理装置。 - 前記特徴量抽出部は、前記対象入力信号に基づいて、複数の特徴量を示す第2の特徴量系列を抽出し、前記第2の特徴量系列に基づいて、第1の特徴量系列を抽出し、
前記特徴量正規化部は、前記第1の特徴量系列に基づいて前記一時正規化パラメータを算出し、前記第1の補正方法又は前記第2の補正方法を用いて前記一時正規化パラメータを補正することにより得られた前記補正済正規化パラメータを用いて、前記第1の特徴量系列を正規化し、
前記第2の特徴量系列は、前記対象入力信号の一部の区間を切り出すことで得られる信号断片に、高速フーリエ変換、ウェーブレット変換、又は定Q変換を用いて抽出される第2の特徴量を複数並べることで生成され、
前記第1の特徴量系列は、前記第2の特徴量系列の絶対値を算出し、得られた値に対して自然対数を用いることで抽出される、
請求項1から4のいずれか1項に記載の信号処理装置。 - 前記算出部は、前記第2の特徴量系列と前記正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音特徴量系列を算出する、
請求項5に記載の信号処理装置。 - 前記取得部は、過去に算出された一時正規化パラメータを取得し、
前記特徴量正規化部は、算出によって得られた前記一時正規化パラメータと、前記過去に算出された一時正規化パラメータとに基づいて、新たな一時正規化パラメータを算出し、前記第1の補正方法又は前記第2の補正方法を用いて前記新たな一時正規化パラメータを補正する、
請求項1から6のいずれか1項に記載の信号処理装置。 - 前記特徴量正規化部は、前記混合音に無音区間が含まれている場合、前記特徴量系列に基づいて、前記無音区間を特定し、前記無音区間以外の前記特徴量系列に基づいて、一時正規化パラメータを算出する、
請求項1から7のいずれか1項に記載の信号処理装置。 - 前記学習済モデルは、正規化済特徴量系列に基づいて学習装置により生成された学習済モデルであり、
当該正規化済特徴量系列は、補正済正規化パラメータを用いて、複数の特徴量を示す特徴量系列を正規化することにより得られた値であり、
当該補正済正規化パラメータは、前記第1の補正方法又は前記第2の補正方法を用いて、一時正規化パラメータを補正により得られた値であり、
当該一時正規化パラメータは、当該特徴量系列に基づいて算出された値であり、
当該特徴量系列は、前記対象入力信号に基づく音を収録する環境と一致又は類似する環境で収録された音を含む学習用信号を用いて、前記学習装置により抽出された値である、
請求項1から8のいずれか1項に記載の信号処理装置。 - 前記対象出力信号を出力する出力部をさらに有する、
請求項1から9のいずれか1項に記載の信号処理装置。 - 信号処理装置が、
目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、
補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
信号処理方法。 - 信号処理装置が、
目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
信号処理方法。 - 信号処理装置に、
目的音を含む混合音を示す対象入力信号、及び学習済モデルを取得し、
前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、
前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記一時正規化パラメータが示す第1の次元を含み、かつ連続する複数の次元を重み付けし統合することで、前記第1の次元を補正する方法である第1の補正方法を用いて、前記一時正規化パラメータを補正し、
補正により得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
処理を実行させる信号処理プログラム。 - 信号処理装置に、
目的音を含む混合音を示す対象入力信号、学習済モデル、及び学習装置に入力された学習用信号に基づいて、抽出された、複数の特徴量を示す特徴量系列を正規化する際に用いられた正規化パラメータを取得し、前記対象入力信号に基づいて、複数の特徴量を示す特徴量系列を抽出し、前記特徴量系列に基づいて、平均ベクトル及び分散ベクトルである一時正規化パラメータを算出し、
前記正規化パラメータを用いる方法である第2の補正方法を用いて、前記一時正規化パラメータを補正することにより得られた補正済正規化パラメータを用いて、前記特徴量系列を正規化し、
正規化により得られた正規化済特徴量系列と前記学習済モデルとを用いて、前記目的音の複数の特徴量を示す目的音特徴量系列を算出し、
前記目的音特徴量系列に基づいて、前記目的音を示す対象出力信号を生成する、
処理を実行させる信号処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/004220 WO2022168251A1 (ja) | 2021-02-05 | 2021-02-05 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022168251A1 JPWO2022168251A1 (ja) | 2022-08-11 |
JPWO2022168251A5 JPWO2022168251A5 (ja) | 2023-03-15 |
JP7333878B2 true JP7333878B2 (ja) | 2023-08-25 |
Family
ID=82740984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022577446A Active JP7333878B2 (ja) | 2021-02-05 | 2021-02-05 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7333878B2 (ja) |
WO (1) | WO2022168251A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008311866A (ja) | 2007-06-13 | 2008-12-25 | Toshiba Corp | 音響信号処理方法及び装置 |
JP2009020460A (ja) | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
US20190066713A1 (en) | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US20190318757A1 (en) | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
JP2020122896A (ja) | 2019-01-31 | 2020-08-13 | 日本電信電話株式会社 | 時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラム |
-
2021
- 2021-02-05 WO PCT/JP2021/004220 patent/WO2022168251A1/ja active Application Filing
- 2021-02-05 JP JP2022577446A patent/JP7333878B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008311866A (ja) | 2007-06-13 | 2008-12-25 | Toshiba Corp | 音響信号処理方法及び装置 |
JP2009020460A (ja) | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
US20190066713A1 (en) | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US20190318757A1 (en) | 2018-04-11 | 2019-10-17 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
JP2020122896A (ja) | 2019-01-31 | 2020-08-13 | 日本電信電話株式会社 | 時間周波数マスク推定器学習装置、時間周波数マスク推定器学習方法、プログラム |
Non-Patent Citations (1)
Title |
---|
LIN,Kin wah et al.,"ZERO-MEAN CONVOLUTIONAL NETWORK WITH DATA AUGMENTATION FOR SOUND LEVEL INVARIANT SINGING VOICE SEPARATION",2019 IEEE International Conference on Acoustics, Speech and Signal Processing,2019年04月17日,251-255 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022168251A1 (ja) | 2022-08-11 |
WO2022168251A1 (ja) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
US9355649B2 (en) | Sound alignment using timing information | |
US10373604B2 (en) | Noise compensation in speaker-adaptive systems | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
WO2012036305A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
CN111292763B (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6157926B2 (ja) | 音声処理装置、方法およびプログラム | |
JPWO2019044401A1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP2013114151A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2014029407A (ja) | 雑音抑圧装置、方法、及びプログラム | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
Badeau et al. | Nonnegative matrix factorization | |
JP6139430B2 (ja) | 信号処理装置、方法及びプログラム | |
JP4762176B2 (ja) | 音声認識装置および音声認識プログラム | |
Jonathan et al. | Implementation of Recursive Least Square for Basic Piano Chords Noise Reduction | |
JPWO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム | |
JP6734233B2 (ja) | 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム | |
JP2023079258A (ja) | 音抽出システム及び音抽出方法 | |
Bosshard et al. | Prosodic Feature Modelling in Transformers for Speaker Verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221215 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7333878 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |