JP2020038343A - 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム - Google Patents
言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2020038343A JP2020038343A JP2019086005A JP2019086005A JP2020038343A JP 2020038343 A JP2020038343 A JP 2020038343A JP 2019086005 A JP2019086005 A JP 2019086005A JP 2019086005 A JP2019086005 A JP 2019086005A JP 2020038343 A JP2020038343 A JP 2020038343A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- data
- training
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 332
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 238000012546 transfer Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 59
- 238000013500 data storage Methods 0.000 claims description 33
- 238000011161 development Methods 0.000 claims description 29
- 210000002569 neuron Anatomy 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 description 34
- 238000012545 processing Methods 0.000 description 25
- 238000002474 experimental method Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005354 coacervation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
この発明の第3の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の各手段として機能させる。
<構成>
[訓練の概略]
図6に、この発明の第1の実施の形態に係る発話言語識別モデルの訓練方法200の構成の概略を示す。図6を参照して、この実施の形態に係る訓練方法200は、訓練済のティーチャーネットワーク210を用いてスチューデントネットワーク220を訓練する。
図7にこの実施の形態に係る発話言語識別モデルの訓練方法を実現する訓練装置の概略構成をブロック図形式で示す。図7を参照して、この訓練装置250は、ティーチャーネットワーク210の訓練に用いる訓練サンプルを含む訓練データを記憶するためのティーチャーネットワーク訓練データ記憶部260と、ティーチャーネットワーク210を、動作可能な形式で記憶するための第1の言語識別モデル記憶部262と、ティーチャーネットワーク訓練データ記憶部260に記憶された訓練データを用いて第1の言語識別モデル記憶部262に記憶されたティーチャーネットワーク210を通常の誤差逆伝播法を用いて訓練するためのティーチャーネットワーク訓練部264とを含む。各訓練サンプルは、この実施の形態では例えば発話時間4秒の発話データとその発話の言語を識別する言語ラベルとを含む。
図6〜図10を参照して、この実施の形態に係る訓練装置250は以下のように動作する。最初に、ティーチャーネットワーク訓練データ記憶部260にティーチャーネットワーク210の訓練データを準備する。ティーチャーネットワークプログラム記憶部280には、ティーチャーネットワーク210のアルゴリズムを規定するプログラムが予め記憶されている。ティーチャーネットワーク訓練部264は、この訓練データとティーチャーネットワークプログラム記憶部280に記憶されたプログラムとを用いてティーチャーネットワーク210を訓練する(図8のステップ320)。
上記実施の形態にしたがった訓練方法により訓練したスチューデントネットワークによる実験を行い、上記訓練方法が有効か否かを確認した。
上記実施の形態では、ティーチャーネットワークを4秒の発話データで、スチューデントネットワークを2秒の発話データで、それぞれ訓練した。しかし発話データ長の長さはこの組合わせには限定されない。またスチューデントネットワークの発話長がティーチャーネットワークの発話長より短ければよい。ただし、今回の発明の目的から考えて、スチューデントネットワークを訓練するための発話長は2秒以下であることが望ましい。さらに、上記実施の形態では4秒と2秒というように、一方が他方の倍数、すなわち他方が一方の約数という関係になっている。しかしそのような組合わせに限定されるわけではない。ただし、訓練データの準備の容易さ、畳込みネットワークのハイパーパラメータの決定の容易さから考えて、倍数と約数という関係の発話長で訓練データを準備することが現実的である。
以下に説明する第2の実施の形態は、第1の実施の形態により得られたモデルに対して、ティーチャーネットワークとスチューデントネットワークとの対話型訓練(対話型パラメータ調整)という、新規な方法で改良を加えたものである。後述するように、この方法で訓練したスチューデントネットワークは、第1の実施の形態において訓練したものよりもさらに高い精度を示した。また、同じ発話時間での精度もより高くなることが確認できた。したがって、同じ精度で言語識別するのであれば、必要な発話長をより短くできる。
図16に、この第2の実施の形態に係る訓練装置400の概略構成をブロック図形式で示す。図16を参照して、訓練装置400は、第1の実施の形態と同様に構成されたティーチャーネットワーク訓練データ記憶部260、第1の言語識別モデル記憶部262、ティーチャーネットワーク訓練部264、訓練データ変換部266、スチューデントネットワーク訓練データ記憶部268、スチューデントネットワーク訓練部272及び第2の言語識別モデル記憶部270を含む。
図16を参照して、ティーチャーネットワーク210及びスチューデントネットワーク220の訓練は第1の実施の形態と同様にティーチャーネットワーク訓練部264、訓練データ変換部266及びスチューデントネットワーク訓練部272により行われる。これらの訓練が終了すると、ティーチャーネットワーク訓練データ記憶部260にはティーチャーネットワーク210が記憶されている。第2の言語識別モデル記憶部270にはスチューデントネットワーク220が記憶されている。
この第2の実施の形態に係る訓練装置400により訓練されたスチューデントネットワークの性能を確認するための実験を行った。実験の結果を、第1の実施の形態による訓練装置250及びそのパータ―ベーションによる結果とあわせて図20に示す。ここで、バーターベーションとは、第1の実施の形態による訓練装置において、損失Lktにランダムノイズを重畳させて(Lkt=||UT−US+Noise||)学習させることを意味している。実験によれば、第1の実施の形態による訓練装置の学習時にバーターベーションを行うことにより、精度が若干上がる場合があった。この実験では、図20に示した第1の実施の形態の結果に鑑みて、λ=0.3に設定した上で、γの値を0.1、0.2及び0.3に変化させた。「ValId.」はスチューデントネットワークによる、検証データセットに対する精度(URE%)を示し、「Test」はテストデータセットに対する精度を示す。
この発明の実施の形態に係る訓練装置250及び400並びにそれらによる言語識別モデルの訓練方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図22はこのコンピュータシステム630の外観を示し、図23はコンピュータシステム630の内部構成を示す。
50、110、210 ティーチャーネットワーク
52、62 除算
54、64、68 ソフトマックス層
56 ソフトラベル
60、120、220 スチューデントネットワーク
66 第1の損失関数
70 第2の損失関数
72 ハードラベル
74 合計損失
112 WHint層
114 転送元の隠れ層
122 WGuided層
124 転送先の隠れ層
126 リグレッサ
200 訓練方法
212、222、522 出力ベクトル
214、224、526 特徴抽出部
216、226 全結合層ネットワーク
218、228、528 畳込みブロック
230、232 発話データサンプル
250、400 訓練装置
260 ティーチャーネットワーク訓練データ記憶部
262 第1の言語識別モデル記憶部
264 ティーチャーネットワーク訓練部
266 訓練データ変換部
268 スチューデントネットワーク訓練データ記憶部
270 第2の言語識別モデル記憶部
272 スチューデントネットワーク訓練部
280 ティーチャーネットワークプログラム記憶部
282 ティーチャーネットワークパラメータ記憶部
290 スチューデントネットワークプログラム記憶部
292 スチューデントネットワークパラメータ記憶部
336、338、366 訓練処理
Claims (8)
- 第1の発話時間の発話データにより訓練済の、所定数の言語の集合に関する発話の言語識別のための第1のニューラルネットワークを用いて、前記第1の発話時間より短い第2の発話時間の発話データにより、前記言語の集合に関する発話の言語識別のための第2のニューラルネットワークを訓練する言語識別モデルの訓練方法であって、
前記第2の発話時間の発話データの各々は、前記第1の発話時間の発話データのいずれかの一部であり、
前記第1のニューラルネットワークは、前記第1の発話時間の発話データを入力として各層の出力を伝搬するように配置された第1の数の畳込み層群と、当該第1の数の畳込み層群の出力を受け、言語識別情報を出力する第1の分類ネットワークとを含み、
前記第2のニューラルネットワークは、前記第2の発話時間の発話データを入力として各層の出力を伝搬するように配置された第2の数の畳込み層群と、当該第2の数の畳込み層群の出力を受け、前記言語識別情報を出力するための第2の分類ネットワークとを含み、
前記第1の数の畳込み層群のある層は、前記第2のニューラルネットワークに対する知識の転送元となる転送元層であり、
前記第2の数の畳込み層群のある層は、前記知識の転送先となる転送先層であり、
前記方法は、
前記第1のニューラルネットワークを動作可能な形式で準備するステップと、
前記第1のニューラルネットワークの訓練を行ったときの前記第1の発話時間の発話データと、前記第1の発話時間の発話データに含まれる前記第2の発話時間の発話データと、当該第1の発話時間の発話データの発話言語を示す言語情報とからなる訓練データを互いに関連付けて含む訓練データを機械読取可能な形式で準備するステップと、
前記訓練データの前記第1の発話時間の発話データが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力と、当該第1の発話時間の発話データと関連付けられた前記第2の発話時間の発話データが前記第2の数の畳込み層群に入力されたときの前記転送先層の出力と、当該第2の発話時間の発話データの言語情報とを少なくとも用いて、前記第2のニューラルネットワークを訓練するステップとを含む、言語識別モデルの訓練方法。 - 前記転送元層のニューロン数は、前記転送先層のニューロン数と同じである、請求項1に記載の言語識別モデルの訓練方法。
- 前記転送元層は前記第1の数の畳込み層群の最上位層であり、前記転送先層は、前記第2の数の畳込み層群の最上位層である、請求項1又は請求項2に記載の言語識別モデルの訓練方法。
- 前記第2のニューラルネットワークを訓練するステップは、
前記訓練データの前記第1の発話時間の発話データxTが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力uT(xT;ΘT)、ただしΘTは前記転送元層のパラメータ集合を表す、を算出するステップと、
前記発話データxTに関連する前記第2の発話時間の発話データxSが前記第2の畳込み層群に入力されたときの前記転送先層の出力uS(xS;ΘS)、ただしΘSは前記転送先層のパラメータ集合を表す、を算出するステップと、
前記転送先層において以下の損失関数LFRKDを算出するステップと、
前記発話データxSが与えられたときの前記第2のニューラルネットワークの出力と、当該発話データxSに関連付けられた前記言語情報yとを用いて誤差逆伝播法により前記第2のニューラルネットワークのパラメータを更新するステップとを含む、請求項1〜請求項3のいずれかに記載の言語識別モデルの訓練方法。 - さらに、訓練データセット及び開発データセットを用いて、前記第1のニューラルネットワークのパラメータと、前記第2のニューラルネットワークのパラメータとを、前記開発データセットの入力に対する前記第2のニューラルネットワークの出力の誤差、前記訓練データセットに対する前記第1のニューラルネットワークの誤差、及び前記訓練データセットに対する前記第2のニューラルネットワークの誤差とを用いて定義される損失関数を最小化するよう、対話型で調整する対話型パラメータ調整ステップを含む、請求項1から請求項4のいずれかに記載の言語識別モデルの訓練方法。
- 前記対話型パラメータ調整ステップは、
訓練データセット及び開発データセットから抽出されたミニバッチデータセットを用いて、前記開発データセットの入力に対する前記第2のニューラルネットワークの出力の誤差、前記訓練データセットに対する前記第1のニューラルネットワークとの誤差とを用いて定義される第1の誤差関数を最小化するよう、前記第1のニューラルネットワークのパラメータを調整する第1の調整ステップと、
前記訓練データセットから抽出されたミニバッチデータセットに対する前記第2のニューラルネットワークの誤差を用いて定義される第2の損失関数を最小化するよう、前記第2のニューラルネットワークのパラメータを調整する第2の調整ステップと、
前記第1の調整ステップ及び前記第2の調整ステップを、前記ミニバッチデータセットを変化させながら前記訓練データセット及び開発データセットに対して所定の終了条件が成立するまで交互に繰返すステップとを含む、請求項5に記載の言語識別モデルの訓練方法。 - 第1の発話時間の発話データにより訓練済の、所定数の言語の集合に関する発話の言語識別のための第1のニューラルネットワークを用いて、前記第1の発話時間より短い第2の発話時間の発話データにより、前記言語の集合に関する発話の言語識別をするための第2のニューラルネットワークを訓練する言語識別モデルの訓練装置であって、
前記第2の発話時間の発話データの各々は、前記第1の発話時間の発話データのいずれかの一部であり、
前記第1のニューラルネットワークは、前記第1の発話時間の発話データを入力として各層の出力を伝搬するように配置された第1の数の畳込み層群と、当該第1の数の畳込み層群の出力を受け、言語識別情報を出力する第1の分類ネットワークとを含み、
前記第2のニューラルネットワークは、前記第2の発話時間の発話データを入力として各層の出力を伝搬するように配置された第2の数の畳込み層群と、当該第2の数の畳込み層群の出力を受け、前記言語情報を出力するための第2の分類ネットワークとを含み、
前記第1の数の畳込み層群のある層は、前記第2のニューラルネットワークに対する知識の転送元となる転送元層であり、
前記第2の数の畳込み層群のある層は、前記知識の転送先となる転送先層であり、
前記装置は、
前記第1のニューラルネットワークを動作可能な形式で記憶するモデル記憶装置と、
前記第1のニューラルネットワークの訓練を行ったときの前記第1の発話時間の発話データと、前記第1の発話時間の発話データに含まれる前記第2の発話時間の発話データと、当該第2の発話時間の発話データの発話言語を示す言語情報とからなる訓練データを互いに関連付けて含む訓練データを機械読取可能な形式で記憶する訓練データ記憶装置と、
前記訓練データの前記第1の発話時間の発話データが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力と、当該第1の発話時間の発話データと関連付けられた前記第2の発話時間の発話データが前記第2の数の畳込み層群に入力されたときの前記転送先層の出力と、当該第2の発話時間の発話データの言語情報とを少なくとも用いて、前記第2のニューラルネットワークを訓練するための訓練手段とを含む言語識別モデルの訓練装置 - コンピュータを、請求項1〜請求項6のいずれかに記載の訓練方法の各ステップを実行するよう機能させる、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161489 | 2018-08-30 | ||
JP2018161489 | 2018-08-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038343A true JP2020038343A (ja) | 2020-03-12 |
JP7282363B2 JP7282363B2 (ja) | 2023-05-29 |
Family
ID=69737911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019086005A Active JP7282363B2 (ja) | 2018-08-30 | 2019-04-26 | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7282363B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN113077812A (zh) * | 2021-03-19 | 2021-07-06 | 北京声智科技有限公司 | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
CN113160801A (zh) * | 2021-03-10 | 2021-07-23 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN114283402A (zh) * | 2021-11-24 | 2022-04-05 | 西北工业大学 | 基于知识蒸馏训练与时空联合注意力的车牌检测方法 |
CN117252213A (zh) * | 2023-07-06 | 2023-12-19 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
CN117252213B (zh) * | 2023-07-06 | 2024-05-31 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126213A1 (en) * | 2016-12-30 | 2018-07-05 | Google Llc | Multi-task learning using knowledge distillation |
-
2019
- 2019-04-26 JP JP2019086005A patent/JP7282363B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018126213A1 (en) * | 2016-12-30 | 2018-07-05 | Google Llc | Multi-task learning using knowledge distillation |
Non-Patent Citations (2)
Title |
---|
SHEN, PENG ET AL.: "Feature Representation of Short Utterances based on Knowledge Distillation for Spoken Language Ident", INTERSPEECH 2018, JPN6023000137, 6 September 2018 (2018-09-06), ISSN: 0004958586 * |
SHEN, PENG ET AL.: "INTERACTIVE LEARNING OF TEACHER-STUDENT MODEL FOR SHORT UTTERANCE SPOKEN LANGUAGE IDENTIFICATION", ICASSP 2019, JPN6023000138, 17 April 2019 (2019-04-17), ISSN: 0004958585 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832514A (zh) * | 2020-07-21 | 2020-10-27 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN111832514B (zh) * | 2020-07-21 | 2023-02-28 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN111816159B (zh) * | 2020-07-24 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN113160801A (zh) * | 2021-03-10 | 2021-07-23 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN113160801B (zh) * | 2021-03-10 | 2024-04-12 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN113077812A (zh) * | 2021-03-19 | 2021-07-06 | 北京声智科技有限公司 | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
CN114283402A (zh) * | 2021-11-24 | 2022-04-05 | 西北工业大学 | 基于知识蒸馏训练与时空联合注意力的车牌检测方法 |
CN114283402B (zh) * | 2021-11-24 | 2024-03-05 | 西北工业大学 | 基于知识蒸馏训练与时空联合注意力的车牌检测方法 |
CN117252213A (zh) * | 2023-07-06 | 2023-12-19 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
CN117252213B (zh) * | 2023-07-06 | 2024-05-31 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7282363B2 (ja) | 2023-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
JP7282363B2 (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
US11222621B2 (en) | Variational embedding capacity in expressive end-to-end speech synthesis | |
Fer et al. | Multilingually trained bottleneck features in spoken language recognition | |
US9984682B1 (en) | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items | |
US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
CN111771213B (zh) | 语音风格迁移 | |
US11538455B2 (en) | Speech style transfer | |
CN107851434A (zh) | 使用自适应增量学习方法的语音识别系统和方法 | |
Deng et al. | Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications | |
US20220238116A1 (en) | A Method Of Sequence To Sequence Data Processing And A System For Sequence To Sequence Data Processing | |
Michalek et al. | A survey of recent DNN architectures on the TIMIT phone recognition task | |
CN114021524A (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
Ahmed et al. | Acoustic modeling using deep belief network for Bangla speech recognition | |
Lin | Reinforcement learning and bandits for speech and language processing: Tutorial, review and outlook | |
Poncelet et al. | Low resource end-to-end spoken language understanding with capsule networks | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
Wu et al. | Speech synthesis with face embeddings | |
Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Wen et al. | Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning | |
Shinozaki et al. | Automated development of dnn based spoken language systems using evolutionary algorithms | |
Vaněk et al. | Recurrent DNNs and its Ensembles on the TIMIT Phone Recognition Task | |
Ahmed et al. | Acoustic Modeling of Bangla Words using Deep Belief Network | |
Kaewprateep et al. | Evaluation of small-scale deep learning architectures in Thai speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7282363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |