JP2023542057A - グラフベースの時間的分類を用いたニューラルネットワークの訓練 - Google Patents
グラフベースの時間的分類を用いたニューラルネットワークの訓練 Download PDFInfo
- Publication number
- JP2023542057A JP2023542057A JP2023541142A JP2023541142A JP2023542057A JP 2023542057 A JP2023542057 A JP 2023542057A JP 2023541142 A JP2023541142 A JP 2023541142A JP 2023541142 A JP2023541142 A JP 2023541142A JP 2023542057 A JP2023542057 A JP 2023542057A
- Authority
- JP
- Japan
- Prior art keywords
- label
- sequence
- neural network
- directed graph
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 182
- 238000012549 training Methods 0.000 title claims abstract description 160
- 230000002123 temporal effect Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000009826 distribution Methods 0.000 claims abstract description 62
- 230000007704 transition Effects 0.000 claims abstract description 45
- 230000003121 nonmonotonic effect Effects 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 104
- 238000012544 monitoring process Methods 0.000 claims description 21
- 238000013518 transcription Methods 0.000 claims description 20
- 230000035897 transcription Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 8
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 36
- 241000282326 Felis catus Species 0.000 description 20
- 238000002372 labelling Methods 0.000 description 15
- 241000282472 Canis lupus familiaris Species 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012217 deletion Methods 0.000 description 9
- 230000037430 deletion Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013138 pruning Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 235000013580 sausages Nutrition 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100321992 Drosophila melanogaster ABCD gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
Description
ニューラルネットワークの入力および出力
非単調な整列の有向グラフ
有向グラフを用いたGTC目的関数での訓練
有向グラフの生成
A B C D ε
X B ε D E
ここで、εは、「ラベルがない」ことまたはイプシロンノードを示し、削除や挿入に対応する。
猫 犬 赤ちゃん 人間 ε
牛 犬 ε 人間 車
模範的な実施形態
模範的な実現例
実施形態
Claims (19)
- ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するためのコンピュータによって実現される方法であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
前記すべての前記ラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、方法。 - 前記有向グラフの構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項1に記載の方法。 - 1つのラベルから複数の他の非空白ラベルへの遷移を可能にすることによって、1つのラベルから複数の他の空白ラベルへの遷移を可能にすることによって、またはその両方によって、前記非単調な整列は、前記有向グラフの構造において符号化される、請求項2に記載の方法。
- 前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項1に記載の方法。
- 前記有向グラフを展開することは、生成された前記ラベルシーケンスの各々の長さが前記確率分布シーケンスの長さと一致するように、前記有向グラフの前記構造に従って、異なるラベルシーケンスおよび異なる整列経路の異なるシーケンスを生成することを含む、請求項1に記載の方法。
- 前記GTC目的関数を用いた訓練は、前記条件付き確率に基づいて損失関数を定義し、
前記GTC目的関数を用いた訓練は、勾配降下訓練を使用して前記ニューラルネットワークの前記パラメータを更新して、GTC損失を低減させる、請求項1に記載の方法。 - 前記GTC目的関数は、展開された前記有向グラフを通る前記ノードおよびエッジのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化し、
展開された前記有向グラフは、前記有向グラフ内のすべての有効なラベル整列経路とすべての有効な時間的整列経路とを定義する、展開された前記有向グラフを通る前記ノードとエッジとのすべての可能なシーケンスにわたって周辺化して、前記監視情報に関して前記ニューラルネットワーク出力を最適化する、請求項6に記載の方法。 - 前記有向グラフは、異なる重みに関連付けられた少なくとも複数のエッジを有する重み付きグラフであり、
前記訓練は、前記有向グラフにおける対応する前記エッジの前記重みと、前記ニューラルネットワークによって推定された前記確率分布とを用いて、前記ノードシーケンスの前記条件付き確率を計算する、請求項1に記載の方法。 - 前記有向グラフは、あるノードのトランスクリプション出力がある時間インスタンスにおける真のトランスクリプション出力である確率に対応する数値が関連付けられた、前記ノード間を接続するエッジを有する重み付き有向グラフであり、
前記GTC目的関数は、時間的整列およびラベル整列を学習して、前記重み付き有向グラフによって可能になる最適なラベルシーケンスを得るように構成され、
前記GTC目的関数を用いた前記ニューラルネットワークの訓練は、前記ニューラルネットワークを更新して、グラフ形式の前記監視情報および関連する訓練サンプルに関する損失を低減させる、請求項8に記載の方法。 - 前記GTC目的関数は、勾配降下訓練のための前記ニューラルネットワークの出力に関して微分される、請求項9に記載の方法。
- 複数のラベルシーケンスを受信することと、
前記複数のラベルシーケンスに基づいて、コンフュージョンネットワークを構築することとをさらに備え、前記コンフュージョンネットワークは、複数のアークを介して互いに接続された複数のノードを含み、前記複数のアークの各アークは、ラベルを有するアークまたはラベルを有さないアークのいずれかに対応し、前記方法はさらに、
前記構築されたコンフュージョンネットワークを最適化して、最適化されたコンフュージョンネットワークを生成することと、
最適化された前記コンフュージョンネットワークから前記有向グラフを生成することとをさらに備える、請求項1に記載の方法。 - 前記方法は、前記コンフュージョンネットワークを構築するために、動的計画法を用いて前記複数のラベルシーケンスを互いに整列させることをさらに備え、前記動的計画法は、前記複数のラベルシーケンス間の編集距離を最小化する、請求項11に記載の方法。
- 前記最適化されたコンフュージョンネットワークから前記有向グラフを生成するために、前記方法は、さらに、
開始ノードと終了ノードとを作成することと、
前記コンフュージョンネットワークの各ノードを空白ノードに、前記複数のノードの各アークを非空白ノードに置き換えることと、
非空白ノードの各ペアの間にエッジを作成することと、
前記空白ノードと前記非空白ノードとの各ペアの間にエッジを作成することと、
前記開始ノードから、第1の空白ノードおよび第1の非空白ノードへのエッジを作成することと、
最後の空白ノードと最後の非空白ノードとから、前記終了ノードへのエッジを作成することとを備える、請求項11に記載の方法。 - ラベル無し音声発話を示すデータを含む、ラベル無し訓練セットを受け付けることと、
ラベル付音声発話で事前訓練された前記ニューラルネットワークまたはシードニューラルネットワークを使用して、前記ラベル付けされていない訓練セットを復号して、前記ラベル無し音声発話の各々をラベル付けするための仮説のリストを生成することと、
各音声発話の前記仮説のリストから前記有向グラフを生成することと、
前記ラベル無し音声発話と前記有向グラフとの対応するペアを用いて、前記ニューラルネットワークを訓練することとをさらに備える、請求項1に記載の方法。 - 弱ラベルを示すデータを含む訓練セットを受け付けることと、
強ラベルで事前訓練されたニューラルネットワークを使用して前記訓練セットを復号して、前記複数の可能な弱ラベルシーケンスを生成することと、
前記複数の可能な弱ラベルシーケンスの前記有向グラフを生成することと、
前記有向グラフを用いて前記ニューラルネットワークを訓練することとをさらに備える、請求項1に記載の方法。 - ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するためのシステムであって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記システムは、少なくとも1つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを行わせ、
前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成され、
前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、システム。 - 前記有向グラフの前記構造を通る可能な経路によって複数の固有のラベルシーケンスが可能になり、それによって、前記ラベルシーケンスと前記確率分布シーケンスとの間に非単調な整列がもたらされるように、前記有向グラフは、前記確率分布シーケンスと前記ラベルシーケンスとに対する複数の可能な整列経路を表し、
前記複数の固有のラベルシーケンスは、ラベルの繰返しを折り畳み、前記複数の固有のラベルシーケンスから空白ラベルを削除した後に得られる、請求項16に記載のシステム。 - 前記有向グラフの構造は、ラベルを表すノードへの自己遷移を、同じラベルを表す接続ノードのシーケンスで置き換えることにより、ラベルの繰返しに対する前記制約を特定する、請求項16に記載のシステム。
- ラベルと前記ラベル間の遷移とを表すエッジによって接続されたノードの有向グラフからの監視情報を用いて、グラフベースの時間的分類(GTC)目的関数でニューラルネットワークを訓練するための方法を実行するためにプロセッサによって実行可能なプログラムが埋め込まれた非一時的コンピュータ読取可能記憶媒体であって、前記有向グラフは、ニューラルネットワークによって出力される確率分布シーケンスと前記ラベルとに対する可能な整列経路を表し、前記有向グラフの構造は、ラベルシーケンスと前記確率分布シーケンスとの間の非単調な整列と、前記ラベルシーケンスにおけるラベルの繰返しに対する制約とのうちの1つまたは組み合わせを特定し、前記ニューラルネットワークへの入力が観測値シーケンスであり、前記ニューラルネットワークの出力がラベルセットにおけるすべてのラベルにわたる前記確率分布シーケンスであり、前記方法は、
前記ニューラルネットワークを実行して、前記観測値シーケンスを前記確率分布シーケンスに変換することと、
前記GTC目的関数に基づいて、前記ニューラルネットワークのパラメータを更新することとを備え、
前記GTC目的関数は、前記有向グラフを前記確率分布シーケンスの長さに展開し、かつノードとエッジとの展開された各シーケンスをラベルシーケンスにマッピングすることによって生成されるすべての可能なラベルシーケンスの条件付き確率の合計を最大化するように構成されており、
前記すべてのラベルシーケンスの条件付き確率の合計は、前記ニューラルネットワークによって決定される前記確率分布シーケンスから推定される、非一時的コンピュータ読取可能記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063104627P | 2020-10-23 | 2020-10-23 | |
US63/104,627 | 2020-10-23 | ||
US17/235,074 US20220129749A1 (en) | 2020-10-23 | 2021-04-20 | Training a Neural Network using Graph-Based Temporal Classification |
US17/235,074 | 2021-04-20 | ||
PCT/JP2021/025874 WO2022085250A1 (en) | 2020-10-23 | 2021-07-02 | Training a neural network using graph-based temporal classification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023542057A true JP2023542057A (ja) | 2023-10-04 |
JP7466784B2 JP7466784B2 (ja) | 2024-04-12 |
Family
ID=81257068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023541142A Active JP7466784B2 (ja) | 2020-10-23 | 2021-07-02 | グラフベースの時間的分類を用いたニューラルネットワークの訓練 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220129749A1 (ja) |
EP (1) | EP4073715B1 (ja) |
JP (1) | JP7466784B2 (ja) |
CN (1) | CN116547674A (ja) |
WO (1) | WO2022085250A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11848838B2 (en) * | 2021-06-24 | 2023-12-19 | Hewlett Packard Enterprise Development Lp | Communicating node events in network configuration |
KR102478763B1 (ko) * | 2022-06-28 | 2022-12-19 | (주)액션파워 | 자소 정보를 이용한 음성 인식 방법 |
-
2021
- 2021-04-20 US US17/235,074 patent/US20220129749A1/en active Pending
- 2021-07-02 WO PCT/JP2021/025874 patent/WO2022085250A1/en active Application Filing
- 2021-07-02 EP EP21758477.0A patent/EP4073715B1/en active Active
- 2021-07-02 JP JP2023541142A patent/JP7466784B2/ja active Active
- 2021-07-02 CN CN202180071325.7A patent/CN116547674A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4073715A1 (en) | 2022-10-19 |
JP7466784B2 (ja) | 2024-04-12 |
US20220129749A1 (en) | 2022-04-28 |
CN116547674A (zh) | 2023-08-04 |
EP4073715B1 (en) | 2023-11-01 |
WO2022085250A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
CN109857845B (zh) | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 | |
US11210475B2 (en) | Enhanced attention mechanisms | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
JP7466784B2 (ja) | グラフベースの時間的分類を用いたニューラルネットワークの訓練 | |
JPWO2019167296A1 (ja) | 自然言語処理のための装置、方法及びプログラム | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN109637527B (zh) | 对话语句的语义解析方法及系统 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
CN111814489A (zh) | 口语语义理解方法及系统 | |
McGraw et al. | Automating Crowd-supervised Learning for Spoken Language Systems. | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
CN113628610A (zh) | 一种语音合成方法和装置、电子设备 | |
Wu et al. | Dual-mode nam: Effective top-k context injection for end-to-end asr | |
KR102075796B1 (ko) | 자동 음성인식 장치 및 방법 | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
US20240153508A1 (en) | End-to-End Speech Recognition Adapted for Multi-Speaker Applications | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
Kheddar et al. | Automatic speech recognition using advanced deep learning approaches: A survey | |
Ramadhelza et al. | Indonesian Phonemicization Model Using N-Gram-Based Bidirectional Long Short-Term Memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240402 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7466784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |