JP2022158736A - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP2022158736A JP2022158736A JP2021066028A JP2021066028A JP2022158736A JP 2022158736 A JP2022158736 A JP 2022158736A JP 2021066028 A JP2021066028 A JP 2021066028A JP 2021066028 A JP2021066028 A JP 2021066028A JP 2022158736 A JP2022158736 A JP 2022158736A
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- feature amount
- similar
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000007423 decrease Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 26
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 241000282472 Canis lupus familiaris Species 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
第1の実施形態に係る学習装置は、入力された学習用データを用いて、画像エンコーダ及び音声エンコーダを訓練する。そして、学習装置は、訓練済みの各エンコーダを出力する。例えば、学習装置は、各エンコーダのパラメータを出力する。なお、学習装置は、複数の言語のそれぞれに対応した音声エンコーダを訓練してもよい。また、学習用データは、画像及び当該画像と対応付けられた音声を含むデータである。
図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、画像特徴量算出部111、音声特徴量算出部121、損失関数構成部131及び更新部132を有する。また、学習装置10は、画像エンコーダ情報112、音声エンコーダ情報122a及び音声エンコーダ情報122bを記憶する。
参考文献1:K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. ICLR, 2015.
参考文献2:H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Self-attention generative adversarial networks,” in Proc. ICML, 2019.
参考文献3:D. Harwath, G. Chuang, and J. Glass, “Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech,” in Proc. ICASSP, 2018.
参考文献4:G. Ilharco, Y. Zhang, and J. Baldridge, “Large-scale representation learning from visually grounded untranscribed speech,” in Proc. CoNLL, 2019.
慣性項(Momentum):0.9
重み減衰(Weight Decay):5×10-7
初期学習率:0.001
学習率の低減:10エポックごとに学習率を1/40にする
なお、更新部132は、確率的勾配降下法ではなく、AdamやRMSPropのようなその他の最適化アルゴリズムを利用してもよい。
図5は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図5に示すように、まず、学習装置10には、言語Xのペア(言語Xに対応する画像+言語Xの音声キャプション)及び言語Yのペア(言語Yに対応する画像+言語Yの音声キャプション)のそれぞれのデータセットが入力される(ステップS11)。
第2の実施形態では、第1の実施形態において訓練されたモデルを用いて、実際に推論を行う処理について説明する。訓練済みの画像エンコーダ及び音声エンコーダによれば、クロスモーダル探索が可能になる。クロスモーダル探索とは、異なる形態のデータを探索することである。例えば、クロスモーダル探索には、音声から画像を探索すること、画像から音声を探索すること、ある言語の音声から他の言語の音声を探索すること等が含まれる。また、各実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。
図7は、第2の実施形態に係る探索装置の構成例を示す図である。図7に示すように、探索装置20は、画像特徴量算出部211、音声特徴量算出部221、探索部232を有する。また、探索装置20は、画像エンコーダ情報212及び音声エンコーダ情報222を記憶する。
図8は、第2の実施形態に係る探索装置の処理の流れを示すフローチャートである。図8に示すように、まず、探索装置20には、クエリである画像と、言語Xの音声キャプション及び言語Yの音声キャプションが入力される(ステップS21)。
このように、第2の実施形態によれば、音声から画像を探索するクロスモーダル探索を行うことができる。また、探索装置20は、音声をクエリとして、異なる言語の音声を探索するクロスリンガル探索を行うこともできる。
第2の実施形態の探索装置を用いて行った実験について説明する。実験では、第1の実施形態の学習装置により訓練したエンコーダを用いて、第2の実施形態の探索装置により探索を行った。
音声キャプションの長さT:20秒
潜在空間の次元数d:1024
損失関数:(7)式
損失関数のハイパーパラメータη:1
バッチサイズB:100
評価尺度:Recall@N
これまで、主にモダリティが画像と言語が指定された音声とである場合の例について説明してきた。一方で、前述の通り、実施形態には、これまで説明したもの以外にも様々なモダリティを適用することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、学習装置10及び探索装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は探索処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は探索装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20 探索装置
112、212 画像エンコーダ情報
122a、122b、222a、222b 音声エンコーダ情報
111、211 画像特徴量算出部
113 画像エンコーダ
121、221 音声特徴量算出部
123a、123b 音声エンコーダ
131 損失関数構成部
132 更新部
232 探索部
Claims (7)
- 複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出部と、
前記データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する選択部と、
前記第1のデータセット及び前記第2のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 前記更新部は、前記第1のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記第2のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量との類似度が大きいほど小さくなる項であって、ハイパーパラメータとして重みを設定可能な項と、を含む損失関数が最小化されるように、前記パラメータを更新することを特徴とする請求項1に記載の学習装置。
- 前記特徴量算出部は、画像、映像、言語が指定された音声、所定のセンシングデータのうち、2つをモダリティとして組み合わせたペアのデータセットに含まれる各データの特徴量を算出することを特徴とする請求項1又は2に記載の学習装置。
- 前記選択部は、前記データセットのうちの第2のデータセットの第2のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第1のデータセットに含まれる第1のモダリティのデータの中からさらに選択することを特徴とする請求項1から3のいずれか1項に記載の学習装置。
- 学習装置によって実行される学習方法であって、
複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出工程と、
前記データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する選択工程と、
前記第1のデータセット及び前記第2のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。 - コンピュータを、請求項1から4のいずれか1項に記載の学習装置として機能させるための学習プログラム。
- 画像を入力とし、前記画像を埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、画像と第1の言語の音声のペアのデータセットである第1のデータセットと、画像と第2の言語の音声のペアのデータセットである第2のデータセットと、に含まれる各画像の特徴量である画像特徴量を算出する画像特徴量算出部と、
音声を入力とし、前記音声を前記埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、前記第1のデータセットと、前記第2のデータセットと、に含まれる各音声の特徴量である音声特徴量を算出する音声特徴量算出部と、
前記第1のデータセットの画像である対象画像のそれぞれに類似する類似画像を、前記第2のデータセットに含まれる画像の中から選択する選択部と、
前記第1のデータセット及び前記第2のデータセットに含まれる画像の前記画像特徴量と、前記画像とペアである音声の前記音声特徴量とが類似し、かつ、前記対象画像とペアである音声の前記音声特徴量と、前記類似画像とペアである音声の前記音声特徴量と、が類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/219,893 US11830478B2 (en) | 2021-04-01 | 2021-04-01 | Learning device, learning method, and learning program for images and sound which uses a similarity matrix |
US17/219,893 | 2021-04-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7100737B1 JP7100737B1 (ja) | 2022-07-13 |
JP2022158736A true JP2022158736A (ja) | 2022-10-17 |
Family
ID=82399173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021066028A Active JP7100737B1 (ja) | 2021-04-01 | 2021-04-08 | 学習装置、学習方法及び学習プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11830478B2 (ja) |
JP (1) | JP7100737B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11817081B2 (en) * | 2021-03-31 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program |
CN115392389B (zh) * | 2022-09-01 | 2023-08-29 | 北京百度网讯科技有限公司 | 跨模态信息匹配、处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180039859A1 (en) * | 2016-06-15 | 2018-02-08 | Massachusetts Institute Of Technology | Joint acoustic and visual processing |
US20200250538A1 (en) * | 2019-02-01 | 2020-08-06 | Google Llc | Training image and text embedding models |
WO2020179378A1 (ja) * | 2019-03-04 | 2020-09-10 | 日本電気株式会社 | 情報処理システム、情報処理方法および記録媒体 |
CN111753116A (zh) * | 2019-05-20 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像检索方法、装置、设备及可读存储介质 |
US20200380403A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Visually Guided Machine-learning Language Model |
US20200380298A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Text-to-Visual Machine Learning Embedding Techniques |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538957B1 (en) * | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
US9436891B2 (en) * | 2013-07-30 | 2016-09-06 | GlobalFoundries, Inc. | Discriminating synonymous expressions using images |
EP3596666A1 (en) * | 2017-05-19 | 2020-01-22 | Google LLC | Multi-task multi-modal machine learning model |
US11645478B2 (en) * | 2020-11-04 | 2023-05-09 | Adobe Inc. | Multi-lingual tagging for digital images |
US20220147743A1 (en) * | 2020-11-09 | 2022-05-12 | Nvidia Corporation | Scalable semantic image retrieval with deep template matching |
-
2021
- 2021-04-01 US US17/219,893 patent/US11830478B2/en active Active
- 2021-04-08 JP JP2021066028A patent/JP7100737B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180039859A1 (en) * | 2016-06-15 | 2018-02-08 | Massachusetts Institute Of Technology | Joint acoustic and visual processing |
US20200250538A1 (en) * | 2019-02-01 | 2020-08-06 | Google Llc | Training image and text embedding models |
WO2020179378A1 (ja) * | 2019-03-04 | 2020-09-10 | 日本電気株式会社 | 情報処理システム、情報処理方法および記録媒体 |
CN111753116A (zh) * | 2019-05-20 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像检索方法、装置、设备及可读存储介质 |
US20200380403A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Visually Guided Machine-learning Language Model |
US20200380298A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Text-to-Visual Machine Learning Embedding Techniques |
Non-Patent Citations (1)
Title |
---|
大石康智ほか: "画像を説明する多言語音声データを利用したクロスモーダル探索", 電子情報通信学会技術研究報告 [ONLINE], vol. 119, no. 64, JPN6022025257, 23 May 2019 (2019-05-23), pages 283 - 288, ISSN: 0004804521 * |
Also Published As
Publication number | Publication date |
---|---|
US11830478B2 (en) | 2023-11-28 |
JP7100737B1 (ja) | 2022-07-13 |
US20220319495A1 (en) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948066B2 (en) | Processing sequences using convolutional neural networks | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
US20240013055A1 (en) | Adversarial pretraining of machine learning models | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US8494850B2 (en) | Speech recognition using variable-length context | |
US20210081503A1 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
JP2021108096A (ja) | 情報を出力する方法および装置 | |
US11817081B2 (en) | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program | |
JP7108259B2 (ja) | 情報を生成するための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム | |
JP2015162244A (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
JP7100737B1 (ja) | 学習装置、学習方法及び学習プログラム | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
US20220398500A1 (en) | Partially local federated learning | |
US20220188636A1 (en) | Meta pseudo-labels | |
CN106503066B (zh) | 基于人工智能的处理搜索结果方法和装置 | |
US20220198274A1 (en) | Method and system for unstructured information analysis using a pipeline of ml algorithms | |
US10978076B2 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
Kilimci et al. | Evaluating raw waveforms with deep learning frameworks for speech emotion recognition | |
Bykov et al. | Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 | |
JP6490989B2 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
JP7318062B1 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210506 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7100737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |