JP7280382B2 - 数字列のエンドツーエンド自動音声認識 - Google Patents
数字列のエンドツーエンド自動音声認識 Download PDFInfo
- Publication number
- JP7280382B2 JP7280382B2 JP2021565084A JP2021565084A JP7280382B2 JP 7280382 B2 JP7280382 B2 JP 7280382B2 JP 2021565084 A JP2021565084 A JP 2021565084A JP 2021565084 A JP2021565084 A JP 2021565084A JP 7280382 B2 JP7280382 B2 JP 7280382B2
- Authority
- JP
- Japan
- Prior art keywords
- transcription
- sequence
- training
- utterance
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 claims description 149
- 230000035897 transcription Effects 0.000 claims description 149
- 238000012549 training Methods 0.000 claims description 132
- 230000001537 neural effect Effects 0.000 claims description 85
- 238000000034 method Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 48
- 230000015654 memory Effects 0.000 claims description 45
- 238000012937 correction Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 13
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
102 ユーザデバイス
104 ユーザ
106 発言
107 ユーザインターフェース生成器
108 音声サブシステム
110 入力音響フレーム
115 中間転写
120 転写
200 RNN-Tモデル
201 遠隔コンピューティングバイス
210 符号化器ネットワーク
220 予測ネットワーク
230 結合ネットワーク
240 Softmax層
300 ニューラル補正器/非正規化器
310 符号化器部分
320 タグ付け器部分
330 アテンション/復号化器部分
400 処理
402 トレーニング発言セット
402A-N トレーニング発言セット
404 転写テンプレート
404a 転写テンプレート
404n 転写テンプレート
406 デフォルトフレーズ
406a デフォルトフレーズ
408 スロット
410 トレーニング数値入力テキスト
412 TTSシステム
416 合成音声表現
416a 合成音声表現
416b 合成音声表現
416c 合成音声表現
422 一意のトレーニング発言
422a 一意のトレーニング発言
422b 一意のトレーニング発言
422c 一意のトレーニング発言
424 テキスト形式の転写
426 テキスト形式の転写
600 コンピューティングデバイス
600a サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
Claims (26)
- データ処理ハードウェア(610)において、数字列を含有している発言(106)の音声データ(110)を受け取るステップと、
前記データ処理ハードウェア(610)によって、シーケンスツーシーケンス音声認識モデル(200)を使用して前記発言(106)の前記音声データ(110)を復号化し、前記シーケンスツーシーケンス音声認識モデル(200)からの出力として、前記発言(106)の中間転写(115)を生成するステップと、
前記データ処理ハードウェア(610)によって、トレーニングサンプルのセットに対してトレーニングされたニューラル補正器/非正規化器(300)を使用して、前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を処理し、前記発言(106)の前記数字列を表現する最終的な転写(120)を文字領域において生成するステップであって、各トレーニングサンプルが、対応するトレーニング発言(422)に関する音声認識仮説(115)および前記対応するトレーニング発言(422)のグラウンドトルース転写(424)を含み、前記対応するトレーニング発言(422)の前記グラウンドトルース転写(424)が前記文字領域にあり、前記ニューラル補正器/非正規化器(300)が、
前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)の符号化表現を生成するように構成された符号化器部分(310)と、
前記中間転写(115)におけるそれぞれの非数値語に自明なものとしてのタグを付け、前記中間転写(115)におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されたタグ付け器部分(320)と、
前記タグ付け器部分からの非自明なタグを処理して、前記発言(106)の数字列に関する数値表現を文字領域において取得するように構成されたアテンション/復号化器部分(330)とを備える、ステップと、
前記データ処理ハードウェア(610)によって、出力のために、前記文字領域に、前記発言(106)の前記数字列を表現する前記最終的な転写(120)を供給するステップと
を含む方法(500)。 - 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が音声領域にあり、
前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの前記音声認識仮説が前記音声領域にある、請求項1に記載の方法(500)。 - 前記中間転写(115)を処理するステップが、文字領域の非正規化モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
前記音声領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
前記文字領域における前記発言(106)の前記数字列を対応する数値表現として表現するものである前記最終的な転写(120)を出力として生成するように構成されている、請求項2に記載の方法(500)。 - 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が、前記文字領域にあって、前記数字列を数値語として表し、
前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおける各トレーニングの例の前記音声認識仮説が前記文字領域にある、請求項1から3のいずれか一項に記載の方法(500)。 - 前記中間転写(115)を処理するステップが、文字領域の補正モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
前記文字領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
初期の転写における数値語を、前記文字領域における前記数字列の対応する数値表現で置換する補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項4に記載の方法(500)。 - 前記文字領域の補正モデルが、前記数値語を含む前記中間転写(115)の第1の部分のみを処理する(非数値語を含む前記中間転写(115)の残りの第2の部分は処理しない)ことによって、前記補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項5に記載の方法(500)。
- 前記文字領域の補正モデルが、前記中間転写(115)からの前記非数値語を、前記補正された転写にコピーするように構成されている、請求項6に記載の方法(500)。
- 前記データ処理ハードウェア(610)または前記データ処理ハードウェア(610)と通信する遠隔コンピューティングバイス(201)が、
複数のトレーニング発言のセット(402)を取得するステップであって、それぞれのトレーニング発言のセット(402)が、異なるそれぞれの数値のカテゴリに関連付けられており、複数のそれぞれの転写テンプレート(404)を含み、各転写テンプレート(404)が、前記文字領域におけるそれぞれのデフォルトフレーズ(406)および数値スロット(408)を含む、ステップと、
各転写テンプレート(404)について、
数値の1つまたは複数の合成音声表現(416)を生成するステップと、
生成された数値の前記1つまたは複数の合成音声表現(416)の各々について、前記対応する転写テンプレート(404)の前記数値スロット(408)に、数値の前記対応する合成音声表現(416)を挿入して、数値の前記対応する転写テンプレート(404)向けの前記デフォルトフレーズ(406)の可聴表現および前記対応する合成音声表現(416)を含む一意のトレーニング発言(106)を生成するステップと、
前記シーケンスツーシーケンス音声認識モデル(200)を、各トレーニング発言セット(402)の前記複数の転写テンプレート(404)の各々向けに生成された数値の前記1つまたは複数の合成音声表現(416)の各々について生成された、前記一意のトレーニング発言(422)に対してトレーニングするステップと
によって、前記シーケンスツーシーケンス音声認識モデル(200)および前記ニューラル補正器/非正規化器(300)をトレーニングするように構成されている、請求項1から7のいずれか一項に記載の方法(500)。 - 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、匿名化された非合成音声を含む、請求項8に記載の方法(500)。
- 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、前記デフォルトフレーズの合成音声表現を含む、請求項8または9に記載の方法(500)。
- 前記一意のトレーニング発言(422)の文字領域の転写が、前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルの前記セットにおける前記トレーニングサンプルのそれぞれの前記グラウンドトルース転写(424)を含む、請求項8から10のいずれか一項に記載の方法(500)。
- 前記シーケンスツーシーケンス音声認識モデル(200)が、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを備える、請求項1から11のいずれか一項に記載の方法(500)。
- 前記符号化器部分(310)が双方向の再帰型ニューラルネットワーク(BiRNN)を備え、
前記タグ付け器部分(320)が再帰型ニューラルネットワーク(RNN)を備え、
前記アテンション/復号化器部分(330)がBiRNNを備える、請求項1に記載の方法(500)。 - データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)と通信するメモリハードウェア(620)とを備えるシステム(600)であって、前記メモリハードウェア(620)が命令を記憶しており、前記命令が前記データ処理ハードウェアによって実行されると、前記データ処理ハードウェアが、
数字列を含有している発言(106)の音声データ(110)を受け取るステップと、
シーケンスツーシーケンス音声認識モデル(200)を使用して前記発言(106)の前記音声データ(110)を復号化し、前記シーケンスツーシーケンス音声認識モデル(200)からの出力として、前記発言(106)の中間転写(115)を生成するステップと、
トレーニングサンプルのセットに対してトレーニングされたニューラル補正器/非正規化器(300)を使用して、前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を処理し、前記発言(106)の前記数字列を表現する最終的な転写(120)を文字領域において生成するステップであって、各トレーニングサンプルが、対応するトレーニング発言(422)に関する音声認識仮説(115)および前記対応するトレーニング発言(422)のグラウンドトルース転写(424)を含み、前記対応するトレーニング発言(422)の前記グラウンドトルース転写(424)が前記文字領域にあり、
前記ニューラル補正器/非正規化器(300)が、
前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)の符号化表現を生成するように構成された符号化器部分(310)と、
前記中間転写(115)におけるそれぞれの非数値語に自明なものとしてのタグを付け、前記中間転写(115)におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されたタグ付け器部分(320)と、
前記タグ付け器部分からの非自明なタグを処理して、前記発言(106)の数字列に関する数値表現を文字領域において取得するように構成されたアテンション/復号化器部分(330)と、を備える、ステップと、
前記発言(106)の前記数字列を表現する前記最終的な転写(120)を、前記文字領域において出力用に供給するステップと
を含む動作を実施する、システム(600)。 - 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が音声領域にあり、
前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの前記音声認識仮説が前記音声領域にある、請求項14に記載のシステム(600)。 - 前記中間転写(115)を処理するステップが、文字領域の非正規化モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
前記音声領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
前記文字領域における前記発言(106)の前記数字列を対応する数値表現として表現するものである前記最終的な転写(120)を出力として生成するように構成されている、請求項15に記載のシステム(600)。 - 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が、前記文字領域にあって、前記数字列を数値語として表し、
前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおける各トレーニングの例の前記音声認識仮説が前記文字領域にある、請求項14から16のいずれか一項に記載のシステム(600)。 - 前記中間転写(115)を処理するステップが、文字領域の補正モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
前記文字領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
初期の転写における数値語を、前記文字領域における前記数字列の対応する数値表現で置換する、補正された転写(120)としての前記最終的な転写を出力として生成するように構成されている、請求項17に記載のシステム(600)。 - 前記文字領域の補正モデルが、前記数値語を含む前記中間転写(115)の第1の部分のみを処理する(非数値語を含む前記中間転写(115)の残りの第2の部分は処理しない)ことによって、前記補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項18に記載のシステム(600)。
- 前記文字領域の補正モデルが、前記中間転写(115)からの前記非数値語を、前記補正された転写にコピーするように構成されている、請求項19に記載のシステム(600)。
- 前記データ処理ハードウェア(610)または前記データ処理ハードウェア(610)と通信する遠隔コンピューティングバイス(201)が、
複数のトレーニング発言のセット(402)を取得するステップであって、それぞれのトレーニング発言のセット(402)が、異なるそれぞれの数値のカテゴリに関連付けられており、複数のそれぞれの転写テンプレート(404)を含み、
各転写テンプレート(404)が、前記文字領域におけるそれぞれのデフォルトフレーズ(406)および数値スロット(408)を含む、ステップと、
各転写テンプレート(404)について、
数値の1つまたは複数の合成音声表現(416)を生成するステップと、
生成された数値の前記1つまたは複数の合成音声表現(416)の各々について、前記対応する転写テンプレート(404)の前記数値スロット(408)に、数値の前記対応する合成音声表現(416)を挿入して、数値の前記対応する転写テンプレート(404)向けの前記デフォルトフレーズ(406)の可聴表現および前記対応する合成音声表現(416)を含む、一意のトレーニング発言(106)を生成するステップと、
前記シーケンスツーシーケンス音声認識モデル(200)を、各トレーニング発言セット(402)の前記複数の転写テンプレート(404)の各々向けに生成された、数値の前記1つまたは複数の合成音声表現(416)の各々について生成された、前記一意のトレーニング発言(422)に対してトレーニングするステップと
によって、前記シーケンスツーシーケンス音声認識モデル(200)および前記ニューラル補正器/非正規化器(300)をトレーニングするように構成されている、請求項14から20のいずれか一項に記載のシステム(600)。 - 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、匿名化された非合成音声を含む、請求項21に記載のシステム(600)。
- 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、前記デフォルトフレーズの合成音声表現を含む、請求項21または22に記載のシステム(600)。
- 前記一意のトレーニング発言(422)の文字領域の転写が、前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルの前記セットにおける前記トレーニングサンプルのそれぞれの前記グラウンドトルース転写(424)を含む、請求項21から23のいずれか一項に記載のシステム(600)。
- 前記シーケンスツーシーケンス音声認識モデル(200)が、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを備える、請求項14から24のいずれか一項に記載のシステム(600)。
- 前記符号化器部分(310)が双方向の再帰型ニューラルネットワーク(BiRNN)を備え、
前記タグ付け器部分(320)が再帰型ニューラルネットワーク(RNN)を備え、
前記アテンション/復号化器部分(330)がBiRNNを備える、請求項14に記載のシステム(600)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962842566P | 2019-05-03 | 2019-05-03 | |
US62/842,566 | 2019-05-03 | ||
PCT/US2020/025036 WO2020226777A1 (en) | 2019-05-03 | 2020-03-26 | End-to-end automated speech recognition on numeric sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022531414A JP2022531414A (ja) | 2022-07-06 |
JP7280382B2 true JP7280382B2 (ja) | 2023-05-23 |
Family
ID=70334123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021565084A Active JP7280382B2 (ja) | 2019-05-03 | 2020-03-26 | 数字列のエンドツーエンド自動音声認識 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11367432B2 (ja) |
EP (1) | EP3948853A1 (ja) |
JP (1) | JP7280382B2 (ja) |
KR (1) | KR20210146368A (ja) |
CN (1) | CN113811946B (ja) |
WO (1) | WO2020226777A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200365143A1 (en) * | 2018-02-02 | 2020-11-19 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, and learning program |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11990134B2 (en) * | 2020-03-18 | 2024-05-21 | Sas Institute Inc. | Method for configuring and using a numeric-to-alphabetic expression machine learning model |
CN113470662B (zh) * | 2020-03-31 | 2024-08-27 | 微软技术许可有限责任公司 | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 |
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
US11715461B2 (en) * | 2020-10-21 | 2023-08-01 | Huawei Technologies Co., Ltd. | Transformer-based automatic speech recognition system incorporating time-reduction layer |
CN112580370B (zh) * | 2020-12-24 | 2023-09-26 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
US11908458B2 (en) * | 2020-12-29 | 2024-02-20 | International Business Machines Corporation | Customization of recurrent neural network transducers for speech recognition |
US20220284193A1 (en) * | 2021-03-04 | 2022-09-08 | Tencent America LLC | Robust dialogue utterance rewriting as sequence tagging |
US20220319506A1 (en) * | 2021-03-31 | 2022-10-06 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
WO2022261808A1 (en) * | 2021-06-15 | 2022-12-22 | Microsoft Technology Licensing, Llc | Contextual spelling correction (csc) for automatic speech recognition (asr) |
WO2023278952A1 (en) * | 2021-06-30 | 2023-01-05 | Google Llc | Injecting text in self-supervised speech pre-training |
US12014725B2 (en) * | 2021-09-30 | 2024-06-18 | Google Llc | Large-scale language model data selection for rare-word speech recognition |
CN118696371A (zh) * | 2021-10-05 | 2024-09-24 | 谷歌有限责任公司 | 优化Conformer的推理性能 |
US20230136842A1 (en) * | 2021-11-03 | 2023-05-04 | International Business Machines Corporation | Training data sequence for rnn-t based global english model |
US20230197064A1 (en) * | 2021-12-17 | 2023-06-22 | Snap Inc. | Speech to entity |
EP4227938A1 (en) * | 2022-02-09 | 2023-08-16 | Nuance Communications, Inc. | Automatic canonicalization in a semantic tagger and speech-to-text pipeline |
US20230335125A1 (en) * | 2022-04-14 | 2023-10-19 | Google Llc | Personalizable Probabilistic Models |
US20230335124A1 (en) * | 2022-04-14 | 2023-10-19 | Google Llc | Comparison Scoring For Hypothesis Ranking |
FI20225352A1 (en) * | 2022-04-27 | 2023-10-28 | Elisa Oyj | COMPUTER METHOD OF GETTING AT LEAST ONE NUMBER |
CN115132208A (zh) * | 2022-07-07 | 2022-09-30 | 湖南三湘银行股份有限公司 | 一种基于ctc算法构建的人工智能催收方法 |
WO2024096641A1 (ko) * | 2022-11-02 | 2024-05-10 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 음성 인식 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19709990C2 (de) * | 1997-03-11 | 2000-03-02 | Philips Corp Intellectual Pty | System zur Erkennung gesprochener Ziffernfolgen |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
-
2020
- 2020-03-26 US US16/830,996 patent/US11367432B2/en active Active
- 2020-03-26 KR KR1020217035057A patent/KR20210146368A/ko not_active Application Discontinuation
- 2020-03-26 EP EP20720649.1A patent/EP3948853A1/en active Pending
- 2020-03-26 WO PCT/US2020/025036 patent/WO2020226777A1/en unknown
- 2020-03-26 JP JP2021565084A patent/JP7280382B2/ja active Active
- 2020-03-26 CN CN202080032988.3A patent/CN113811946B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
Non-Patent Citations (1)
Title |
---|
YANZHANG HE; ET AL,STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES,ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),IEEE,2019年04月17日,PAGE(S):6381-6385,https://doi.org/10.1109/ICASSP.2019.8682336 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200365143A1 (en) * | 2018-02-02 | 2020-11-19 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, and learning program |
Also Published As
Publication number | Publication date |
---|---|
WO2020226777A1 (en) | 2020-11-12 |
CN113811946A (zh) | 2021-12-17 |
KR20210146368A (ko) | 2021-12-03 |
EP3948853A1 (en) | 2022-02-09 |
CN113811946B (zh) | 2024-07-16 |
US11367432B2 (en) | 2022-06-21 |
JP2022531414A (ja) | 2022-07-06 |
US20200349922A1 (en) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 | |
WO2023055410A1 (en) | Contrastive siamese network for semi-supervised speech recognition | |
KR20240089276A (ko) | 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝 | |
US20220310065A1 (en) | Supervised and Unsupervised Training with Contrastive Loss Over Sequences | |
KR20240051176A (ko) | 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기 | |
JP2024512606A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
Azim et al. | Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition | |
CN117378005A (zh) | 用于自动语音识别的多语言重新评分模型 | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition | |
US20240177706A1 (en) | Monte Carlo Self-Training for Speech Recognition | |
JP2024538019A (ja) | 多言語自動音声認識のための教師無しおよび教師有り共同トレーニング(just) | |
CN115114933A (zh) | 用于文本处理的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7280382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |