JP7376895B2 - 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム - Google Patents
学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム Download PDFInfo
- Publication number
- JP7376895B2 JP7376895B2 JP2020092462A JP2020092462A JP7376895B2 JP 7376895 B2 JP7376895 B2 JP 7376895B2 JP 2020092462 A JP2020092462 A JP 2020092462A JP 2020092462 A JP2020092462 A JP 2020092462A JP 7376895 B2 JP7376895 B2 JP 7376895B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- mask
- model
- label
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000004364 calculation method Methods 0.000 claims description 107
- 238000013507 mapping Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 25
- 230000005236 sound signal Effects 0.000 description 23
- 238000000926 separation method Methods 0.000 description 20
- 230000000704 physical effect Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Description
第1の実施形態に係る学習装置は、音源分離のための音源分離モデルの学習を行う。本実施形態における音源分離モデルは、ラベルを特定可能な情報及び音響信号の入力を受け付け、音響信号から目的音声の成分を抽出するためのマスクを推定する。なお、目的音声を発する音源を目的音源と呼ぶ。ラベルは、目的音源を識別するための情報である。また、ラベルを特定可能な情報を、ラベル情報と呼ぶ。
まず、図1を用いて、第1の実施形態に係る生成装置の構成について説明する。図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、ラベル特徴量算出部101、スペクトログラム特徴量算出部102、マスク生成部103、指標算出部104、更新部105を有する。また、学習装置10は、ラベルエンコーダ情報111及びオーディオエンコーダ情報112を記憶する。
参考文献1:Shota Ikawa, Kunio Kashino, “Acoustic event search with an onomatopoeic query: measuring distance between onomatopoeic words and sounds,” In Proc. Detection and Classification of Acoustic Scenes and Events (DCASE), 2018.
参考文献2:Rouditchenko, Andrew, et al. “Self-supervised Audio-visual Co-segmentation.” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.
参考文献3:Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
参考文献4:Yair Movshovitz-Attias, Alexander Toshev, Thomas K. Leung, Sergey Ioffe, and Saurabh Singh. No fuss distance metric learning using proxies. In ICCV, pages 360-368, 2017.
図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS101)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS102)。ここで、ステップS101とステップS102が実行される順番は逆であってもよい。また、ステップS101とステップS102は並行して実行されてもよい。
これまで説明してきたように、ラベル特徴量算出部101は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部102は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。指標算出部104は、第1の特徴量及び第2の特徴量を基に生成されるマスクであって、音響信号からラベルに対応する成分を抽出するためのマスクを評価するための指標を算出する。更新部105は、指標が最適化されるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。このように、学習装置10は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第1の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
第1の実施形態では、学習用のデータとして、入力音響信号とラベル情報とを組み合わせたデータが入力される。第1の実施形態では、入力音響信号にラベルを付与する方法は任意の方法であってよい。例えば、専門家が入力音響信号を聴き、組み合わせるべきラベルを判断し付与することが考えられる。このように付与されたラベルを使った学習を、ここでは網羅的な教師あり学習と呼ぶ。
第1の実施形態では、学習装置10は、ラベル特徴量及びスペクトログラム特徴量の内積を基に損失関数を算出していた。一方で、内積を基に生成されたマスクによれば、ラベルに対応する目的音声の成分を実際に分離し、合成した音響信号を出力することができる。第2の実施形態では、学習装置10は、合成した音響信号が最適化されるように学習を行う。
図5を用いて、第2の実施形態に係る学習装置の構成について説明する。図5は、第2の実施形態に係る学習装置の構成例を示す図である。なお、図5において、第1の実施形態と同様の部分については、図1等と同様の符号を付し説明を省略する。図5に示すように、学習装置10aは、抽出部106、合成部107及び更新部108を有する。
参考文献5:R. J. McAulay, T. F. Quatieri. Speech Analysis/Synthesis Based on a Sinusoidal Representation, IEEE Trans. ASSP, vol.34, no.4, pp.744-754, 1986.
参考文献6:D. W. Griffin and J. S. Lim. Signal estimation from modified short-time Fourier transform," IEEE Trans. ASSP, vol.32, no.2, pp. 236-243, 1984.
図7は、第2の実施形態に係る学習装置の処理の流れを示すフローチャートである。図7に示すように、まず、ラベル特徴量算出部101は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS121)。次に、スペクトログラム特徴量算出部102は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS122)。ここで、ステップS121とステップS122が実行される順番は逆であってもよい。また、ステップS121とステップS122は並行して実行されてもよい。
第2の実施形態の学習装置10aは、第1の実施形態の学習装置10と同様に、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、各モデルの学習を行うことができる。このため、第2の実施形態でも同様に、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
第3の実施形態に係る生成装置は、学習済みの音源分離モデルを使って、マスクの生成やマスクを使った目的音声の分離を行う。音源分離モデルには、ラベルエンコーダ及びオーディオエンコーダが含まれる。
まず、図8を用いて、第3の実施形態に係る生成装置の構成について説明する。図8は、第3の実施形態に係る学習装置の構成例を示す図である。図8に示すように、生成装置20は、ラベル特徴量算出部201、スペクトログラム特徴量算出部202、マスク生成部203、指標算出部204、抽出部206、合成部207を有する。また、生成装置20は、ラベルエンコーダ情報211及びオーディオエンコーダ情報212を記憶する。
図10は、第3の実施形態に係る生成装置の処理の流れを示すフローチャートである。図10に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS201)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号からスペクトログラム特徴量を算出する(ステップS202)。ここで、ステップS201とステップS202が実行される順番は逆であってもよい。また、ステップS201とステップS202は並行して実行されてもよい。
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に、音響信号からラベルに対応する成分を抽出するためのマスクを生成する。このように、生成装置20は、意味を解釈可能な態様で目的音声の音源を識別可能なラベルが表現されていれば、当該ラベルに応じたマスクを生成することができる。このため、第3の実施形態によれば、目的音声の物理的性質が未知であっても、音響信号中に目的音声と類似の物理的性質を有する音声の信号が含まれていても精度良く音源分離を行うことができる。
これまでの実施形態では、マスクは、時間周波数点ごとの成分を抽出するためのものであった。一方で、マスクによって時間方向の音源分離を行いたい場合がある。特に、一定期間において、異なるラベルの音声が時間的に重複なく存在する場合、マスクによって各ラベルに対応する時間帯を特定できれば、各ラベルに対応する目的音声を分離することができると考えられる。
図12は、第4の実施形態に係る生成装置の処理の流れを示すフローチャートである。図12に示すように、まず、ラベル特徴量算出部201は、ラベルエンコーダにより、ラベル情報からラベル特徴量を算出する(ステップS221)。次に、スペクトログラム特徴量算出部202は、オーディオエンコーダにより、入力音響信号から周波数成分を集約したスペクトログラム特徴量を算出する(ステップS222)。ここで、ステップS221とステップS222が実行される順番は逆であってもよい。また、ステップS221とステップS222は並行して実行されてもよい。
これまで説明してきたように、ラベル特徴量算出部201は、意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する。スペクトログラム特徴量算出部202は、音響信号を第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する。マスク生成部203は、第1の特徴量及び第2の特徴量を基に生成される第1のマスクであって、音響信号からラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを生成する。このため、第4の実施形態によれば、特に、異なるラベルの音声が時間的に重複なく存在する場合に、目的音声の分離を効率良く行うことができる。
各実施形態を基に行った実験について説明する。実験は、2種の音源からなる時間的な重畳のない混合音に対して、スペクトログラムマスクを生成した。さらに、実験では、潜在変数の次元数hを音源クラス数l以下に設定することで、潜在変数を媒介にすることの有用性を検証した。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、学習装置10及び生成装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は生成処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は生成装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20 生成装置
101、201 ラベル特徴量算出部
102、202 スペクトログラム特徴量算出部
103、203 マスク生成部
104、204 指標算出部
105、108 更新部
106、206 抽出部
107、207 合成部
111、211 ラベルエンコーダ情報
112、212 オーディオエンコーダ情報
Claims (11)
- 意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出部と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 前記第1の特徴量算出部は、文字列で表現されたラベルから作成されたベクトルを前記第1のモデルに入力して得られる出力を、前記第1の特徴量として算出することを特徴とする請求項1に記載の学習装置。
- 前記第1の特徴量算出部は、第1の次元数の変数を少なくとも含む特徴量を前記第1の特徴量として算出し、
前記第2の特徴量算出部は、前記第1の次元数の変数と、時間に対応する変数と、周波数成分に対応する変数とを少なくとも含む特徴量を前記第2の特徴量として算出し、
前記指標算出部は、前記第1の特徴量と前記第2の特徴量の類似度を基に前記指標を算出することを特徴とする請求項1又は2に記載の学習装置。 - 前記指標算出部は、前記音響信号に対応付けられたラベルから算出された前記第1の特徴量と前記第2の特徴量との類似度が大きいほど小さくなり、かつ、前記音響信号に対応付けられたラベルと異なるラベルから算出された前記第1の特徴量と前記第2の特徴量との類似度が大きいほど大きくなるような指標を算出し、
前記更新部は、前記指標が最小化されるように前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新することを特徴とする請求項1から3のいずれか1項に記載の学習装置。 - 第1の特徴量算出部は、所定の単語を表すラベルから作成されたs次元(sはあらかじめ設定された単語数)のOne-hotベクトルを、前記第1のモデルであるニューラルネットワークに入力して得られる1×1×h(hはあらかじめ設定された任意の数)次元の特徴量を前記第1の特徴量として算出し、
前記第2の特徴量算出部は、前記音響信号から作成されたf(fは周波数ビンの数)×t(tは時間ビンの数)次元のスペクトログラムを、前記第2のモデルであるニューラルネットワークに入力して得られるf×t×h次元の特徴量を前記第2の特徴量として算出することを特徴とする請求項1から4のいずれか1項に記載の学習装置。 - ラベルを特定可能な情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出部と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出部と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出部と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 学習装置が実行する学習方法であって、
意味を解釈可能な態様でラベルを表現した情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出する第1の特徴量算出工程と、
音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出する指標算出工程と、
前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。 - コンピュータを、請求項1から6のいずれか1項に記載の学習装置として機能させるための学習プログラム。
- 意味を解釈可能な態様でラベルを表現した第1の情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、第1の音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記第1の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する方法によって学習済みの前記第1のモデル及び前記第2のモデルを用いる生成装置であって、
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第3の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出部と、
第2の音響信号を前記第1の空間にマッピングした第4の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出部と、
前記第3の特徴量及び前記第4の特徴量を基に生成される第3のマスクであって、前記第2の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第3のマスクの、周波数成分を集約した第4のマスクを生成するマスク生成部と、
を有することを特徴とする生成装置。 - 意味を解釈可能な態様でラベルを表現した第1の情報を第1の空間にマッピングした第1の特徴量を、第1のモデルを用いて算出し、第1の音響信号を前記第1の空間にマッピングした第2の特徴量を、第2のモデルを用いて算出し、前記第1の特徴量及び前記第2の特徴量を基に生成される第1のマスクであって、前記第1の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第1のマスクの、周波数成分を集約した第2のマスクを評価するための指標を算出し、前記指標が最適化されるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する方法によって学習済みの前記第1のモデル及び前記第2のモデルを用いる生成装置が実行する生成方法であって、
意味を解釈可能な態様でラベルを表現した第2の情報を前記第1の空間にマッピングした第3の特徴量を、前記第1のモデルを用いて算出する第1の特徴量算出工程と、
第2の音響信号を前記第1の空間にマッピングした第4の特徴量を、前記第2のモデルを用いて算出する第2の特徴量算出工程と、
前記第3の特徴量及び前記第4の特徴量を基に生成される第3のマスクであって、前記第2の音響信号から前記ラベルに対応する成分を抽出するための時間周波数点ごとの値を持つ第3のマスクの、周波数成分を集約した第4のマスクを生成するマスク生成工程と、
を含むことを特徴とする生成方法。 - コンピュータを、請求項9に記載の生成装置として機能させるための生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020092462A JP7376895B2 (ja) | 2020-05-27 | 2020-05-27 | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020092462A JP7376895B2 (ja) | 2020-05-27 | 2020-05-27 | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189246A JP2021189246A (ja) | 2021-12-13 |
JP7376895B2 true JP7376895B2 (ja) | 2023-11-09 |
Family
ID=78849552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020092462A Active JP7376895B2 (ja) | 2020-05-27 | 2020-05-27 | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7376895B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234150A (ja) | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2020034870A (ja) | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
-
2020
- 2020-05-27 JP JP2020092462A patent/JP7376895B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234150A (ja) | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2020034870A (ja) | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
Andrew Rouditchenko, et al.,SELF-SUPERVISED AUDIO-VISUAL CO-SEGMENTATION,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年05月12日,pp. 2357-2360 |
Hang Zhao, et al.,Open Vocabulary Scene Parsing,2017 IEEE International Conference on Computer Vision (ICCV),2017,2017年10月22日,pp. 2021-2029 |
Also Published As
Publication number | Publication date |
---|---|
JP2021189246A (ja) | 2021-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
US10014002B2 (en) | Real-time audio source separation using deep neural networks | |
Sriram et al. | Robust speech recognition using generative adversarial networks | |
WO2016100231A1 (en) | Systems and methods for speech transcription | |
JPS62231996A (ja) | 音声認識方法 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
US11810546B2 (en) | Sample generation method and apparatus | |
Luo et al. | Group communication with context codec for lightweight source separation | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
Agrawal et al. | A review on speech separation in cocktail party environment: challenges and approaches | |
Sharma et al. | Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
Koszewski et al. | Musical instrument tagging using data augmentation and effective noisy data processing | |
Kadyan et al. | Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation | |
JP7376895B2 (ja) | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム | |
JP7376896B2 (ja) | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム | |
Dua et al. | Noise robust automatic speech recognition: review and analysis | |
CN114627885A (zh) | 一种基于asrt算法的小样本数据集乐器识别方法 | |
Mangla et al. | Intelligent audio analysis techniques for identification of music in smart devices | |
Xu et al. | Meta learning based audio tagging. | |
Chetry et al. | Musical instrument identification using LSF and K-means | |
Kumar et al. | Effect of background Indian music on performance of speech recognition models for Hindi databases | |
Reddy et al. | MusicNet: Compact Convolutional Neural Network for Real-time Background Music Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200528 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376895 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |