JP6661654B2 - 配置されたエンドツーエンド音声認識 - Google Patents
配置されたエンドツーエンド音声認識 Download PDFInfo
- Publication number
- JP6661654B2 JP6661654B2 JP2017544340A JP2017544340A JP6661654B2 JP 6661654 B2 JP6661654 B2 JP 6661654B2 JP 2017544340 A JP2017544340 A JP 2017544340A JP 2017544340 A JP2017544340 A JP 2017544340A JP 6661654 B2 JP6661654 B2 JP 6661654B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- model
- layers
- computer
- recurrent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 claims description 118
- 238000000034 method Methods 0.000 claims description 104
- 230000000306 recurrent effect Effects 0.000 claims description 69
- 230000006870 function Effects 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 238000013518 transcription Methods 0.000 claims description 23
- 230000035897 transcription Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 7
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 241001672694 Citrus reticulata Species 0.000 description 49
- 230000015654 memory Effects 0.000 description 42
- 238000012545 processing Methods 0.000 description 34
- 238000011161 development Methods 0.000 description 28
- 230000018109 developmental process Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 26
- 238000012360 testing method Methods 0.000 description 24
- 238000013135 deep learning Methods 0.000 description 19
- 230000002457 bidirectional effect Effects 0.000 description 18
- 238000001994 activation Methods 0.000 description 16
- 230000006872 improvement Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000002829 reductive effect Effects 0.000 description 15
- 238000007792 addition Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 13
- 239000000872 buffer Substances 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 6
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 5
- 241000282412 Homo Species 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002269 spontaneous effect Effects 0.000 description 4
- 241000288105 Grus Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 244000078856 Prunus padus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
本願は2015年11月25日に提出した、名称が「第2世代ディープ音声(deep speech):英語と標準中国語のエンドツーエンド音声認識」の共同所有の米国仮特許出願第62/260,206号(整理番号28888−1990P)の優先権を主張し、発明者として、Bryan Catanzaro、Jingdong Chen、Michael Chrzanowski、Erich Elsen、Jesse Engel、Christopher Fougner、Xu Han、Awni Hannun、Ryan Prenger、Sanjeev Satheesh、Shubhabrata Sengupta、Dani Yogatama、Chong Wang、Jun Zhan、Zhenyao Zhu及びDario Amodeiがリストされている。上記特許文献の全文を引用により本願に組み込む。
ここで、oは第i個のフィルタとの以前の層の活性化のコンテキストウィンドウとの要素ごとの積を示し、fは単項非線形関数を示す。実施形態では、クリップされた正規化線形(ReLU)関数σ(x)=min{max{x,0},20}を非線形として使用する。実施形態では、いくつかの層では、通常、第1層は、sフレーム間の畳み込みによって二次サンプリングを行う。上記リカレント層の時間ステップの数量を減少させることを目的とする。
と逆方向時間
のリカレント層の活性化の計算は以下の通りである。
の出力活性化を形成する。実施形態では、関数
は標準的な再帰演算(recurrent operation)
(式3)
であってもよい。
は入力隠れ重み行列、
はリカレント重み行列、
はバイアス項、
は予備活性化(pre-activation)を示す。実施形態では、リカレントの2つの方向について入力隠れ重みを共有する。実施形態では、関数
はより複雑な再帰演算、例えば長期短期記憶(LSTM)ユニットやゲートリカレントユニット(GRU)を示してもよい。
(式4)
(式5)
によって文字の確率分布を計算する(215)。
(x,y;θ)
及びその導関数
を計算する(220)。続いて、当該導関数を利用して時間アルゴリズムを介して、逆伝播によって当該ネットワークパラメータを更新する(230)。
(式6)
ここで、xは予備活性化を示し、用語EとVarは1つのミニバッチにおける経験的平均と分散である。その影響が平均除去法によって解消されるため、当該層のバイアスbが除去される。学習可能なパラメータγとβは当該層が必要に応じて各隠れユニットをスケーリングしたり移動したりすることを可能にする。定数
は小さい正の値であり、数値安定性を確保するために含まれている。
(式7)
となり、この場合、平均と分散統計量はミニバッチの単一時間ステップで累積する。時間ステップ間の順序依存性によって、すべての時間ステップでの平均を阻止する。実施形態では、当該技術は最適化についての改善をもたらさないことが分かった。
(式8)
深さの増加につれて、パラメータの数量を維持するため、各層の隠れユニットの数量が減少する。すべてのネットワークは3800万個のパラメータを有する。アーキテクチャ「M RNN、N total」とは、入力側の一次元畳み込みの1つの層、M個の連続した双方向RNN層で、残りが完全接続層で、ネットワークに計N個の層を有することを意味する。
(式9)
ここで、Align(x,y)はCTC演算子の下で転写yの文字と入力xのフレームのすべての可能なアライメントのセットである。式9では、内項は当該シーケンスの時間ステップの積であり、
であるため、シーケンスの長さにつれて小さくなる。カリキュラム学習戦略(ここで「SortaGrad」と呼称される)の実施形態の示唆を与える。SortaGradは発話の長さを難易度の探索として使用され、それは長い発話が短い発話より高いコストを有するからである。
(式10)
表3:簡単なRNN又はGRUを使用したネットワークの開発セットWERの比較
すべての場合、畳み込みに7個のリカレント層と1個の完全接続層が続く。2D不変畳み込みの場合、第1次元は周波数であり、第2次元は時間である。すべてのモデルはBatchNorm、SortaGrad及び3500万個のパラメータを有する。
すべてのモデルはBatchNorm、SortaGrad及び3500万個のパラメータを有する。5グラム言語モデルあり開発セットと5グラム言語モデルなし開発セットではモデルを比較する。
(式11)
の場合に適用。
ここで、iは現在層におけるニューロンのインデックス、dは現在層におけるニューロンの数を示す。式(11)における畳み込み状演算がWとht:t+τの行指向であるため、この層は行畳み込みと呼ばれる。
(式12)
これらモデルは1つの1D不変畳み込み層のみを有する簡単なRNNモデルである。
すべての時間は数秒内である。性能ゲインはOpenMPI all−reduce時間とall−reduce時間との比率である。
加速比はCPU CTC時間とGPU CTC時間との比率である。
「ウォールストリートジャーナル」(WSJ)、Switchboard及びFisherコーパスはいずれも言語データコンソーシアムによって発行される。LibriSpeechデータセットは無料でオンラインで入手することができる。ほかのデータセットはいずれも内部百度コーパスである。
(式13)
によってアライメントを最大化する。
当該アーキテクチャは9層のモデルであり、2個の2D不変畳み込み層及び7個のリカレント層を含み、68Mのパラメータを有する。
畳み込み層を除き、すべての層における隠れユニットの数量が変化する。GRUモデルは、1個の2D不変畳み込み層を含む3層の双方向GRUを有する。RNNモデルは、3個の2D不変畳み込み層を含む7層の双方向単純再帰を有する。これら2種類のモードはいずれも時間ストライド3でバイグラムを出力する。すべてのモデルは約3500万個のパラメータを含み、BatchNormとSortaGradを使用してトレーニングを行う。
表12:3300個の例を含む内部テストセット上でDS1とDS2のWERの比較
テストセットは様々ななまりのある音声、低信号対雑音比の音声、自発的音声及び会話音声を含む。
表13:2つの音声システムと人間レベルのパフォーマンスの朗読音声面でのWER比較
「CHiME eval clean」はノイズなしベースラインである。「CHiME eval real」データセットは実際のノイズの多い環境で収集され、「CHiME eval sim」データセットはクリーンな音声に合成された類似するノイズを有する。なお、6個のチャネルのうちの1つだけは各発話のテストに用いられる。
開発セットとテストセットが百度内部コーパスである。表中のすべてのモデルがそれぞれ約8000万個のパラメータを有する。
T全ストリーム処理<T最後のデータパケットの到達+Δ許容遅延
のように表してもよい。
a)当該データを前処理する。
b)前処理したデータを多くのユーザに共有されるバッチ行列にパッキングする。
c)当該バッチ行列を計算エンジンに転送する。
2)各ユーザの前処理バッファ;
3)バッチのリンクリスト(即ち、ニューラルネットワークへの行列入力)、バッチリストとして表されてもよい。例えば音声又はビデオ処理のアプリケーションでは、ニューラルネットワークは、計算エンジンが正確な出力を生成することを確保するように、所定の順序でバッチを処理する。実施形態では、バッチは2つ以上のユーザ間に共有される。実施形態では、前処理を実行しなくてもよい。
2)別のより構造化された方法として、
a)当該バッチはユーザのデータを含み、当該ユーザの最後のデータパケットが既に到達し、計算エンジンの処理時間とバッチプロデューサーによる追加反復に必要な時間との和が遅延制約を超える、
b)バッチバッチリストが十分に完全であり、任意のアクティブユーザの最後のデータパケットが現在到達した場合、遅延制約を満たすことができない
という条件のいずれかを満たす場合、1つのバッチを送信する。
Claims (19)
- 音声オーディオ転写用のコンピュータ実装方法であって、
複数の発話を含む入力オーディオをユーザから受信するステップと、
前記複数の発話のそれぞれに対して1組のスペクトログラムフレームを生成するステップと、
前記1組のスペクトログラムフレームをリカレントニューラルネットワーク(RNN)モデルに入力し、前記リカレントニューラルネットワーク(RNN)モデルは、1つ又は複数の畳み込み層及び1つ又は複数のリカレント層を含み、且つトレーニングデータセットからサンプリングされる複数のミニバッチのトレーニング発話シーケンスで事前にトレーニングされており、ここで、複数のミニバッチがトレーニング期間にバッチ正規化されて、前記1つ又は複数のリカレント層のうちの少なくとも1つにおける予備活性化を正規化するステップと、
前記RNNモデルから1つ又は複数の予測文字の確率出力を取得するステップと、
言語モデルにより拘束された前記確率出力によって探索を実行し、各発話の最も確からしい転写を検索し、前記言語モデルは前記予測文字の確率出力に基づいて決定された文字列を1つの単語又は複数の単語として解釈するステップと、を含み、
前記RNNモデルは前記1つ又は複数のリカレント層の上に位置する行畳み込み層をさらに含むことを特徴とする音声オーディオ転写用のコンピュータ実装方法。 - 前記バッチ正規化は、前記1つ又は複数の畳み込み層と前記1つ又は複数のリカレント層における各隠れユニットに対して、各ミニバッチにおける各トレーニング発話シーケンスの長さにわたって前記予備活性化の平均値と分散を計算するステップを含むことを特徴とする請求項1に記載のコンピュータ実装方法。
- 前記行畳み込み層は順方向のみの単方向層であることを特徴とする請求項1に記載のコンピュータ実装方法。
- 前記行畳み込み層の活性化は、現在の時間ステップ及び少なくとも1つの将来の時間ステップにおいて前記リカレント層からの情報を使用して取得され、前記行畳み込み層の活性化は前記現在の時間ステップに対応する文字予測に用いられることを特徴とする請求項3に記載のコンピュータ実装方法。
- 前記予測文字は英語アルファベット又は漢字であることを特徴とする請求項1に記載のコンピュータ実装方法。
- 前記入力オーディオは正規化されて、前記入力オーディオの総パワーを、前記RNNモデルを事前にトレーニングするための1組のトレーニングサンプルと一致させることを特徴とする請求項1に記載のコンピュータ実装方法。
- 前記言語モデルにおいてビーム探索を実行し、累積確率が少なくとも閾値である文字のみを考慮することを特徴とする請求項1に記載のコンピュータ実装方法。
- 前記1組のスペクトログラムフレームを取得する手順で、所定数のタイムスライスのステップをストライドとして前記発話の二次サンプリングを実現し、それにより前記1組のスペクトログラムフレームを生成することを特徴とする請求項1に記載のコンピュータ実装方法。
- 転写モデルからの前記予測文字は単語全体、音節及び単語レベルの非重複nグラムから選択される代替ラベルを含むことを特徴とする請求項8に記載のコンピュータ実装方法。
- 1つ又は複数の命令シーケンスを含む非一時的コンピュータ可読媒体又はメディアであって、
1つ又は複数のマイクロプロセッサにより実行される時に、前記命令シーケンスは、
複数の発話を含む入力オーディオをユーザから受信するステップと、
前記複数の発話のそれぞれに対して1組のスペクトログラムフレームを取得するステップと、
前記1組のスペクトログラムフレームをニューラルネットワークに入力し、前記ニューラルネットワークは、1つ又は複数の畳み込み層及び1つ又は複数のリカレント層を含み、且つトレーニングデータセットからサンプリングされる複数のミニバッチのトレーニング発話シーケンスで事前にトレーニングされており、ここで、複数のミニバッチがトレーニング期間に正規化されて、前記1つ又は複数のリカレント層のうちの少なくとも1つにおける予備活性化を正規化するステップと、
事前にトレーニングされたニューラルネットワークから1つ又は複数の予測文字の確率出力を取得するステップと、
言語モデルにより拘束された前記確率出力を利用によってビーム探索を実行し、各発話の最も確からしい転写を検索し、前記言語モデルは前記予測文字の確率出力に基づいて決定された文字列を1つの単語又は複数の単語として解釈するステップと、を実行し、
前記ニューラルネットワークは、前記1つ又は複数のリカレント層の上に位置する行畳み込み層をさらに含む、ことを特徴とする非一時的コンピュータ可読媒体又はメディア。 - 前記1組のスペクトログラムフレームを取得する手順で、所定数のタイムスライスのステップをストライドとして前記発話の二次サンプリングを実現するステップをさらに含むことを特徴とする請求項10に記載の非一時的コンピュータ可読媒体又はメディア。
- 前記1つ又は複数の予測文字は、英語アルファベットから豊富化された非重複バイグラムを含むことを特徴とする請求項10に記載の非一時的コンピュータ可読媒体又はメディア。
- 前記トレーニングデータセットからの統計情報を使用して前記入力オーディオを正規化するステップをさらに含むことを特徴とする請求項10に記載の非一時的コンピュータ可読媒体又はメディア。
- 事前にトレーニングされたニューラルネットワークは、トレーニングセットを使用して、コネクショニスト時間的分類アルゴリズム(CTC)損失関数によりトレーニングされることを特徴とする請求項10に記載の非一時的コンピュータ可読媒体又はメディア。
- 発話に対応する1組のスペクトログラムフレームを受信し、前記発話が前記1組のスペクトログラムフレームを取得する手順で所定数のタイムスライスのステップをストライドとして二次サンプリングされるステップと、
1つ又は複数のリカレント層を使用して、前記1組のスペクトログラムフレームに対応する特徴行列を取得し、前記特徴行列が現在の時間ステップでの隠れ状態及びN(Nは1を超える)倍の時間ステップでの将来の隠れ状態を含むステップと、
前記1つ又は複数のリカレント層の上に位置する行畳み込み層を使用し、取得した特徴行列に基づいて、前記現在の時間ステップに対応する1つ又は複数の予測文字を取得し、ここで、前記行畳み込み層が順方向のみの単方向層であり、前記予測文字が英語アルファベットから豊富化された非重複バイグラムを含むステップと、含むことを特徴とする音声転写用のコンピュータ実装方法。 - 前記1つ又は複数のリカレント層は順方向のみの層であることを特徴とする請求項15に記載のコンピュータ実装方法。
- 前記1つ又は複数のリカレント層は、トレーニングデータセットからサンプリングされる複数のミニバッチのトレーニング発話シーケンスによって事前にトレーニングされ、複数のミニバッチは、トレーニング期間に正規化されて、前記1つ又は複数のリカレント層のうちの少なくとも1つにおける予備活性化を正規化することを特徴とする請求項15に記載のコンピュータ実装方法。
- 前記文字予測は、取得した特徴行列とパラメータ行列との間で畳み込み演算によって行われることを特徴とする請求項15に記載のコンピュータ実装方法。
- 前記文字予測は、言語モデルにおいて前記予測文字に基づいて最も確からしい転写にビーム探索を行うステップをさらに含むことを特徴とする請求項15に記載のコンピュータ実装方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562260206P | 2015-11-25 | 2015-11-25 | |
US62/260,206 | 2015-11-25 | ||
US15/358,102 | 2016-11-21 | ||
US15/358,083 US10319374B2 (en) | 2015-11-25 | 2016-11-21 | Deployed end-to-end speech recognition |
US15/358,083 | 2016-11-21 | ||
US15/358,102 US10332509B2 (en) | 2015-11-25 | 2016-11-21 | End-to-end speech recognition |
PCT/US2016/063641 WO2017091751A1 (en) | 2015-11-25 | 2016-11-23 | Deployed end-to-end speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018513398A JP2018513398A (ja) | 2018-05-24 |
JP6661654B2 true JP6661654B2 (ja) | 2020-03-11 |
Family
ID=58721011
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017544340A Active JP6661654B2 (ja) | 2015-11-25 | 2016-11-23 | 配置されたエンドツーエンド音声認識 |
JP2017544352A Active JP6629872B2 (ja) | 2015-11-25 | 2016-11-23 | 配置されたエンドツーエンド音声認識 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017544352A Active JP6629872B2 (ja) | 2015-11-25 | 2016-11-23 | 配置されたエンドツーエンド音声認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10319374B2 (ja) |
EP (2) | EP3245652B1 (ja) |
JP (2) | JP6661654B2 (ja) |
KR (2) | KR102008077B1 (ja) |
CN (2) | CN107408111B (ja) |
WO (2) | WO2017091751A1 (ja) |
Families Citing this family (273)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8515052B2 (en) | 2007-12-17 | 2013-08-20 | Wai Wu | Parallel signal processing system and method |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
JP6706326B2 (ja) * | 2016-02-03 | 2020-06-03 | グーグル エルエルシー | リカレントニューラルネットワークモデルの圧縮 |
US9984683B2 (en) * | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
CN106251859B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
EP3822863B1 (en) | 2016-09-06 | 2022-11-02 | DeepMind Technologies Limited | Generating audio using neural networks |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497630B1 (en) * | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US10224058B2 (en) | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
EP3520036B1 (en) * | 2016-10-03 | 2020-07-29 | Google LLC | Processing text sequences using neural networks |
WO2018081089A1 (en) | 2016-10-26 | 2018-05-03 | Deepmind Technologies Limited | Processing text sequences using neural networks |
US10529320B2 (en) * | 2016-12-21 | 2020-01-07 | Google Llc | Complex evolution recurrent neural networks |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
KR101882906B1 (ko) * | 2017-01-17 | 2018-07-27 | 경북대학교 산학협력단 | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
US10049106B2 (en) * | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
US11907858B2 (en) * | 2017-02-06 | 2024-02-20 | Yahoo Assets Llc | Entity disambiguation |
US11100932B2 (en) * | 2017-02-10 | 2021-08-24 | Synaptics Incorporated | Robust start-end point detection algorithm using neural network |
US11853884B2 (en) * | 2017-02-10 | 2023-12-26 | Synaptics Incorporated | Many or one detection classification systems and methods |
US11080600B2 (en) * | 2017-02-10 | 2021-08-03 | Synaptics Incorporated | Recurrent neural network based acoustic event classification using complement rule |
US10762891B2 (en) * | 2017-02-10 | 2020-09-01 | Synaptics Incorporated | Binary and multi-class classification systems and methods using connectionist temporal classification |
US10762417B2 (en) * | 2017-02-10 | 2020-09-01 | Synaptics Incorporated | Efficient connectionist temporal classification for binary classification |
US11087213B2 (en) * | 2017-02-10 | 2021-08-10 | Synaptics Incorporated | Binary and multi-class classification systems and methods using one spike connectionist temporal classification |
US10373610B2 (en) * | 2017-02-24 | 2019-08-06 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
US10657955B2 (en) * | 2017-02-24 | 2020-05-19 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10762427B2 (en) * | 2017-03-01 | 2020-09-01 | Synaptics Incorporated | Connectionist temporal classification using segmented labeled sequence data |
US10878837B1 (en) * | 2017-03-01 | 2020-12-29 | Snap Inc. | Acoustic neural network scene detection |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US11410024B2 (en) * | 2017-04-28 | 2022-08-09 | Intel Corporation | Tool for facilitating efficiency in machine learning |
US11017291B2 (en) * | 2017-04-28 | 2021-05-25 | Intel Corporation | Training with adaptive runtime and precision profiling |
US10467052B2 (en) * | 2017-05-01 | 2019-11-05 | Red Hat, Inc. | Cluster topology aware container scheduling for efficient data transfer |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
KR20180124381A (ko) * | 2017-05-11 | 2018-11-21 | 현대자동차주식회사 | 운전자의 상태 판단 시스템 및 그 방법 |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN107240396B (zh) * | 2017-06-16 | 2023-01-17 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
EP3422518B1 (en) * | 2017-06-28 | 2020-06-17 | Siemens Aktiengesellschaft | A method for recognizing contingencies in a power supply network |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
KR102483643B1 (ko) * | 2017-08-14 | 2023-01-02 | 삼성전자주식회사 | 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치 |
US10706840B2 (en) * | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11694066B2 (en) * | 2017-10-17 | 2023-07-04 | Xilinx, Inc. | Machine learning runtime library for neural network acceleration |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
CN107680597B (zh) * | 2017-10-23 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US11556775B2 (en) | 2017-10-24 | 2023-01-17 | Baidu Usa Llc | Systems and methods for trace norm regularization and faster inference for embedded models |
US20190130896A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US11250314B2 (en) * | 2017-10-27 | 2022-02-15 | Cognizant Technology Solutions U.S. Corporation | Beyond shared hierarchies: deep multitask learning through soft layer ordering |
US10573295B2 (en) * | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US10535001B2 (en) * | 2017-11-06 | 2020-01-14 | International Business Machines Corporation | Reducing problem complexity when analyzing 3-D images |
WO2019099305A1 (en) | 2017-11-14 | 2019-05-23 | Magic Leap, Inc. | Meta-learning for multi-task learning for neural networks |
US11977958B2 (en) | 2017-11-22 | 2024-05-07 | Amazon Technologies, Inc. | Network-accessible machine learning model training and hosting system |
CN108334889B (zh) | 2017-11-30 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 摘要描述生成方法和装置、摘要描述模型训练方法和装置 |
CN108171117B (zh) * | 2017-12-05 | 2019-05-21 | 南京南瑞信息通信科技有限公司 | 基于多核异构并行计算的电力人工智能视觉分析系统 |
CN107945791B (zh) * | 2017-12-05 | 2021-07-20 | 华南理工大学 | 一种基于深度学习目标检测的语音识别方法 |
US10847137B1 (en) * | 2017-12-12 | 2020-11-24 | Amazon Technologies, Inc. | Trigger word detection using neural network waveform processing |
KR102462426B1 (ko) * | 2017-12-14 | 2022-11-03 | 삼성전자주식회사 | 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법 |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
US11443178B2 (en) | 2017-12-15 | 2022-09-13 | Interntional Business Machines Corporation | Deep neural network hardening framework |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
CN108089958B (zh) * | 2017-12-29 | 2021-06-08 | 珠海市君天电子科技有限公司 | Gpu测试方法、终端设备和计算机可读存储介质 |
CN108364662B (zh) * | 2017-12-29 | 2021-01-05 | 中国科学院自动化研究所 | 基于成对鉴别任务的语音情感识别方法与系统 |
FR3076378B1 (fr) * | 2017-12-29 | 2020-05-29 | Bull Sas | Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe |
CN108229659A (zh) * | 2017-12-29 | 2018-06-29 | 陕西科技大学 | 基于深度学习的钢琴单键音识别方法 |
KR102089076B1 (ko) * | 2018-01-11 | 2020-03-13 | 중앙대학교 산학협력단 | Bcsc를 이용한 딥러닝 방법 및 그 장치 |
CN108256474A (zh) * | 2018-01-17 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 用于识别菜品的方法和装置 |
CN108417201B (zh) * | 2018-01-19 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 单信道多说话人身份识别方法及系统 |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
US10657426B2 (en) * | 2018-01-25 | 2020-05-19 | Samsung Electronics Co., Ltd. | Accelerating long short-term memory networks via selective pruning |
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
US11182694B2 (en) | 2018-02-02 | 2021-11-23 | Samsung Electronics Co., Ltd. | Data path for GPU machine learning training with key value SSD |
US11527308B2 (en) | 2018-02-06 | 2022-12-13 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty-diversity selection |
WO2019157257A1 (en) | 2018-02-08 | 2019-08-15 | Cognizant Technology Solutions U.S. Corporation | System and method for pseudo-task augmentation in deep multitask learning |
US10776581B2 (en) * | 2018-02-09 | 2020-09-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
TWI659411B (zh) * | 2018-03-01 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種多語言混合語音識別方法 |
CN108564954B (zh) * | 2018-03-19 | 2020-01-10 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
KR102473447B1 (ko) * | 2018-03-22 | 2022-12-05 | 삼성전자주식회사 | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 |
US20190318229A1 (en) * | 2018-04-12 | 2019-10-17 | Advanced Micro Devices, Inc. | Method and system for hardware mapping inference pipelines |
CN108538311B (zh) * | 2018-04-13 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分类方法、装置及计算机可读存储介质 |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN112805780B (zh) * | 2018-04-23 | 2024-08-09 | 谷歌有限责任公司 | 使用端到端模型的讲话者分割 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
WO2019217836A1 (en) | 2018-05-10 | 2019-11-14 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for activation functions for photonic neural networks |
WO2019217835A1 (en) * | 2018-05-10 | 2019-11-14 | The Board Of Trustees Of The Leland Stanford Junior University | Training of photonic neural networks through in situ backpropagation |
US11086937B2 (en) * | 2018-05-11 | 2021-08-10 | The Regents Of The University Of California | Speech based structured querying |
KR102018346B1 (ko) * | 2018-05-11 | 2019-10-14 | 국방과학연구소 | 음향 신호를 분류하는 방법 및 시스템 |
US11462209B2 (en) * | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
US11138471B2 (en) * | 2018-05-18 | 2021-10-05 | Google Llc | Augmentation of audiographic images for improved machine learning |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DE112019001959T5 (de) * | 2018-06-21 | 2021-01-21 | International Business Machines Corporation | Segmentieren unregelmässiger formen in bildern unter verwendung von tiefem bereichswachstum |
CN108984535B (zh) * | 2018-06-25 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
US11361456B2 (en) * | 2018-06-29 | 2022-06-14 | Baidu Usa Llc | Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks |
CN109147766B (zh) * | 2018-07-06 | 2020-08-18 | 北京爱医声科技有限公司 | 基于端到端深度学习模型的语音识别方法及系统 |
WO2020013946A1 (en) | 2018-07-13 | 2020-01-16 | Google Llc | End-to-end streaming keyword spotting |
US11335333B2 (en) | 2018-07-20 | 2022-05-17 | Google Llc | Speech recognition with sequence-to-sequence models |
CN110752973B (zh) * | 2018-07-24 | 2020-12-25 | Tcl科技集团股份有限公司 | 一种终端设备的控制方法、装置和终端设备 |
CN108962230B (zh) * | 2018-07-27 | 2019-04-23 | 重庆因普乐科技有限公司 | 基于忆阻器的语音识别方法 |
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
JP7209330B2 (ja) * | 2018-07-30 | 2023-01-20 | 国立研究開発法人情報通信研究機構 | 識別器、学習済モデル、学習方法 |
US11107463B2 (en) | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN110825665B (zh) * | 2018-08-10 | 2021-11-05 | 昆仑芯(北京)科技有限公司 | 数据获取单元和应用于控制器的数据获取方法 |
US10650812B2 (en) * | 2018-08-13 | 2020-05-12 | Bank Of America Corporation | Deterministic multi-length sliding window protocol for contiguous string entity |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN112639964B (zh) * | 2018-09-04 | 2024-07-26 | Oppo广东移动通信有限公司 | 利用深度信息识别语音的方法、系统及计算机可读介质 |
US10963721B2 (en) | 2018-09-10 | 2021-03-30 | Sony Corporation | License plate number recognition based on three dimensional beam search |
CN109271926B (zh) * | 2018-09-14 | 2021-09-10 | 西安电子科技大学 | 基于gru深度卷积网络的智能辐射源识别方法 |
CN109215662B (zh) * | 2018-09-18 | 2023-06-20 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
JP7043373B2 (ja) * | 2018-09-18 | 2022-03-29 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10672382B2 (en) * | 2018-10-15 | 2020-06-02 | Tencent America LLC | Input-feeding architecture for attention based end-to-end speech recognition |
US10891951B2 (en) * | 2018-10-17 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
EP3640856A1 (en) * | 2018-10-19 | 2020-04-22 | Fujitsu Limited | A method, apparatus and computer program to carry out a training procedure in a convolutional neural network |
KR20200045128A (ko) * | 2018-10-22 | 2020-05-04 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
CN109447253B (zh) * | 2018-10-26 | 2021-04-27 | 杭州比智科技有限公司 | 显存分配的方法、装置、计算设备及计算机存储介质 |
EP3874495B1 (en) | 2018-10-29 | 2022-11-30 | Dolby International AB | Methods and apparatus for rate quality scalable coding with generative models |
US11640519B2 (en) * | 2018-10-31 | 2023-05-02 | Sony Interactive Entertainment Inc. | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization |
US11494612B2 (en) * | 2018-10-31 | 2022-11-08 | Sony Interactive Entertainment Inc. | Systems and methods for domain adaptation in neural networks using domain classifier |
US11526759B2 (en) * | 2018-11-05 | 2022-12-13 | International Business Machines Corporation | Large model support in deep learning |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN109492233B (zh) * | 2018-11-14 | 2023-10-17 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
US11250838B2 (en) * | 2018-11-16 | 2022-02-15 | Deepmind Technologies Limited | Cross-modal sequence distillation |
US11238845B2 (en) | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
US11736363B2 (en) * | 2018-11-30 | 2023-08-22 | Disney Enterprises, Inc. | Techniques for analyzing a network and increasing network availability |
US10388272B1 (en) | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11170761B2 (en) | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
KR102681637B1 (ko) | 2018-12-13 | 2024-07-05 | 현대자동차주식회사 | 문제소음 발음원 식별을 위한 소음데이터의 인공지능 장치 및 전처리 방법 |
CN113439447A (zh) | 2018-12-24 | 2021-09-24 | Dts公司 | 使用深度学习图像分析的房间声学仿真 |
JP7206898B2 (ja) * | 2018-12-25 | 2023-01-18 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
CN111369978B (zh) * | 2018-12-26 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
KR20200082227A (ko) | 2018-12-28 | 2020-07-08 | 한국전자통신연구원 | 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치 |
CN111429889B (zh) * | 2019-01-08 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 |
US11322136B2 (en) * | 2019-01-09 | 2022-05-03 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
US10740571B1 (en) | 2019-01-23 | 2020-08-11 | Google Llc | Generating neural network outputs using insertion operations |
CN109783822B (zh) * | 2019-01-24 | 2023-04-18 | 中国—东盟信息港股份有限公司 | 一种基于验证码的数据样本识别系统及其方法 |
CN111489742B (zh) * | 2019-01-28 | 2023-06-27 | 北京猎户星空科技有限公司 | 声学模型训练方法、语音识别方法、装置及电子设备 |
CN109859743B (zh) * | 2019-01-29 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统和机器设备 |
KR102691895B1 (ko) | 2019-01-29 | 2024-08-06 | 삼성전자주식회사 | 가속 컴퓨팅 환경을 제공하는 서버 및 제어 방법 |
KR102592585B1 (ko) * | 2019-02-01 | 2023-10-23 | 한국전자통신연구원 | 번역 모델 구축 방법 및 장치 |
JP7028203B2 (ja) * | 2019-02-07 | 2022-03-02 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
JP7218601B2 (ja) * | 2019-02-12 | 2023-02-07 | 日本電信電話株式会社 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
CN110059813B (zh) | 2019-02-13 | 2021-04-06 | 创新先进技术有限公司 | 利用gpu集群更新卷积神经网络的方法、装置及设备 |
US11037547B2 (en) * | 2019-02-14 | 2021-06-15 | Tencent America LLC | Token-wise training for attention based end-to-end speech recognition |
US10861441B2 (en) * | 2019-02-14 | 2020-12-08 | Tencent America LLC | Large margin training for attention-based end-to-end speech recognition |
US11481639B2 (en) | 2019-02-26 | 2022-10-25 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty pulsation |
CA3129731A1 (en) * | 2019-03-13 | 2020-09-17 | Elliot Meyerson | System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111709513B (zh) * | 2019-03-18 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 长短期记忆网络lstm的训练系统、方法及电子设备 |
US11783195B2 (en) | 2019-03-27 | 2023-10-10 | Cognizant Technology Solutions U.S. Corporation | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions |
US11182457B2 (en) | 2019-03-28 | 2021-11-23 | International Business Machines Corporation | Matrix-factorization based gradient compression |
US11011156B2 (en) * | 2019-04-11 | 2021-05-18 | International Business Machines Corporation | Training data modification for training model |
CN109887497B (zh) * | 2019-04-12 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN110033760B (zh) * | 2019-04-15 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
US11475880B2 (en) * | 2019-04-16 | 2022-10-18 | Google Llc | Joint endpointing and automatic speech recognition |
US11676006B2 (en) | 2019-04-16 | 2023-06-13 | Microsoft Technology Licensing, Llc | Universal acoustic modeling using neural mixture models |
US10997967B2 (en) | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
US11468879B2 (en) * | 2019-04-29 | 2022-10-11 | Tencent America LLC | Duration informed attention network for text-to-speech analysis |
US20200349425A1 (en) * | 2019-04-30 | 2020-11-05 | Fujitsu Limited | Training time reduction in automatic data augmentation |
KR20210146368A (ko) * | 2019-05-03 | 2021-12-03 | 구글 엘엘씨 | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
CN110211565B (zh) * | 2019-05-06 | 2023-04-04 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
KR20210150497A (ko) * | 2019-05-06 | 2021-12-10 | 구글 엘엘씨 | 음성 인식을 위한 컨텍스트 바이어싱 |
KR102460676B1 (ko) | 2019-05-07 | 2022-10-31 | 한국전자통신연구원 | 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법 |
WO2020225772A1 (en) * | 2019-05-07 | 2020-11-12 | Imagia Cybernetics Inc. | Method and system for initializing a neural network |
CN110222578B (zh) * | 2019-05-08 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 对抗测试看图说话系统的方法和装置 |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
JP7229847B2 (ja) * | 2019-05-13 | 2023-02-28 | 株式会社日立製作所 | 対話装置、対話方法、及び対話コンピュータプログラム |
KR20220007160A (ko) * | 2019-05-28 | 2022-01-18 | 구글 엘엘씨 | 스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식 |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
CN112017676B (zh) * | 2019-05-31 | 2024-07-16 | 京东科技控股股份有限公司 | 音频处理方法、装置和计算机可读存储介质 |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US10716089B1 (en) * | 2019-06-03 | 2020-07-14 | Mapsted Corp. | Deployment of trained neural network based RSS fingerprint dataset |
CN110189766B (zh) * | 2019-06-14 | 2021-04-06 | 西南科技大学 | 一种基于神经网络的语音风格转移方法 |
CN110299132B (zh) * | 2019-06-26 | 2021-11-02 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
CN110288682B (zh) * | 2019-06-28 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
WO2021010562A1 (en) | 2019-07-15 | 2021-01-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11244673B2 (en) * | 2019-07-19 | 2022-02-08 | Microsoft Technologly Licensing, LLC | Streaming contextual unidirectional models |
KR20210014949A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치 |
CN110473554B (zh) * | 2019-08-08 | 2022-01-25 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN114223029A (zh) | 2019-08-13 | 2022-03-22 | 三星电子株式会社 | 支持装置进行语音识别的服务器及服务器的操作方法 |
WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
CN110459209B (zh) * | 2019-08-20 | 2021-05-28 | 深圳追一科技有限公司 | 语音识别方法、装置、设备及存储介质 |
US11151979B2 (en) | 2019-08-23 | 2021-10-19 | Tencent America LLC | Duration informed attention network (DURIAN) for audio-visual synthesis |
US11158303B2 (en) * | 2019-08-27 | 2021-10-26 | International Business Machines Corporation | Soft-forgetting for connectionist temporal classification based automatic speech recognition |
US11551675B2 (en) | 2019-09-03 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device thereof |
CN110459208B (zh) * | 2019-09-09 | 2022-01-11 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
CN110600020B (zh) * | 2019-09-12 | 2022-05-17 | 上海依图信息技术有限公司 | 一种梯度传输方法及装置 |
US11302309B2 (en) * | 2019-09-13 | 2022-04-12 | International Business Machines Corporation | Aligning spike timing of models for maching learning |
CN110807365B (zh) * | 2019-09-29 | 2022-02-11 | 浙江大学 | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 |
US11681911B2 (en) * | 2019-10-15 | 2023-06-20 | Naver Corporation | Method and system for training neural sequence-to-sequence models by incorporating global features |
CN110704197B (zh) | 2019-10-17 | 2022-12-09 | 北京小米移动软件有限公司 | 处理内存访问开销的方法、装置及介质 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
KR102203786B1 (ko) * | 2019-11-14 | 2021-01-15 | 오로라월드 주식회사 | 스마트 토이를 이용한 인터렉션 서비스 제공방법 및 시스템 |
CN110930979B (zh) * | 2019-11-29 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种语音识别模型训练方法、装置以及电子设备 |
CN111312228A (zh) * | 2019-12-09 | 2020-06-19 | 中国南方电网有限责任公司 | 一种基于端到端的应用于电力企业客服的语音导航方法 |
CN111048082B (zh) * | 2019-12-12 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN113077785B (zh) * | 2019-12-17 | 2022-07-12 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及系统 |
CN111079945B (zh) | 2019-12-18 | 2021-02-05 | 北京百度网讯科技有限公司 | 端到端模型的训练方法及装置 |
CN111145729B (zh) * | 2019-12-23 | 2022-10-28 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111063336A (zh) * | 2019-12-30 | 2020-04-24 | 天津中科智能识别产业技术研究院有限公司 | 一种基于深度学习的端对端语音识别系统 |
US11183178B2 (en) | 2020-01-13 | 2021-11-23 | Microsoft Technology Licensing, Llc | Adaptive batching to reduce recognition latency |
CN111382581B (zh) * | 2020-01-21 | 2023-05-19 | 沈阳雅译网络技术有限公司 | 一种机器翻译中的一次剪枝压缩方法 |
WO2021154544A1 (en) * | 2020-01-28 | 2021-08-05 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
CN111292727B (zh) * | 2020-02-03 | 2023-03-24 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
CN111428750A (zh) * | 2020-02-20 | 2020-07-17 | 商汤国际私人有限公司 | 一种文本识别模型训练及文本识别方法、装置及介质 |
CN111210807B (zh) * | 2020-02-21 | 2023-03-31 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111397870B (zh) * | 2020-03-08 | 2021-05-14 | 中国地质大学(武汉) | 一种基于多样化集成卷积神经网络的机械故障预测方法 |
CN111246026A (zh) * | 2020-03-11 | 2020-06-05 | 兰州飞天网景信息产业有限公司 | 一种基于卷积神经网络和连接性时序分类的录音处理方法 |
US11747902B2 (en) | 2020-03-11 | 2023-09-05 | Apple Inc. | Machine learning configurations modeled using contextual categorical labels for biosignals |
CN111415667B (zh) * | 2020-03-25 | 2024-04-23 | 中科极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
US20210312258A1 (en) * | 2020-04-01 | 2021-10-07 | Sony Corporation | Computing temporal convolution networks in real time |
US12099934B2 (en) * | 2020-04-07 | 2024-09-24 | Cognizant Technology Solutions U.S. Corporation | Framework for interactive exploration, evaluation, and improvement of AI-generated solutions |
US12020693B2 (en) | 2020-04-29 | 2024-06-25 | Samsung Electronics Co., Ltd. | System and method for out-of-vocabulary phrase support in automatic speech recognition |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11796794B2 (en) | 2020-05-12 | 2023-10-24 | The Board Of Trustees Of The Leland Stanford Junior University | Multi-objective, robust constraints enforced global topology optimizer for optical devices |
US20210358490A1 (en) * | 2020-05-18 | 2021-11-18 | Nvidia Corporation | End of speech detection using one or more neural networks |
CN111798828B (zh) * | 2020-05-29 | 2023-02-14 | 厦门快商通科技股份有限公司 | 合成音频检测方法、系统、移动终端及存储介质 |
US11775841B2 (en) | 2020-06-15 | 2023-10-03 | Cognizant Technology Solutions U.S. Corporation | Process and system including explainable prescriptions through surrogate-assisted evolution |
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11875797B2 (en) * | 2020-07-23 | 2024-01-16 | Pozotron Inc. | Systems and methods for scripted audio production |
CN111816169B (zh) * | 2020-07-23 | 2022-05-13 | 思必驰科技股份有限公司 | 中英语种混杂语音识别模型训练方法和装置 |
KR102462932B1 (ko) * | 2020-08-03 | 2022-11-04 | 주식회사 딥브레인에이아이 | 텍스트 전처리 장치 및 방법 |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
KR102409873B1 (ko) * | 2020-09-02 | 2022-06-16 | 네이버 주식회사 | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 |
CN112233655B (zh) * | 2020-09-28 | 2024-07-16 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112188004B (zh) * | 2020-09-28 | 2022-04-05 | 精灵科技有限公司 | 基于机器学习的障碍呼叫检测系统及其控制方法 |
EP4200842A1 (en) * | 2020-10-05 | 2023-06-28 | Google LLC | Transformer transducer: one model unifying streaming and non-streaming speech recognition |
KR102429656B1 (ko) * | 2020-10-08 | 2022-08-08 | 서울대학교산학협력단 | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 |
CN112259080B (zh) * | 2020-10-20 | 2021-06-22 | 北京讯众通信技术股份有限公司 | 一种基于神经网络模型的语音识别方法 |
US11593560B2 (en) * | 2020-10-21 | 2023-02-28 | Beijing Wodong Tianjun Information Technology Co., Ltd. | System and method for relation extraction with adaptive thresholding and localized context pooling |
CN112466282B (zh) * | 2020-10-22 | 2023-11-28 | 北京仿真中心 | 一种面向航天专业领域的语音识别系统和方法 |
CN112420024B (zh) * | 2020-10-23 | 2022-09-09 | 四川大学 | 一种全端到端的中英文混合空管语音识别方法及装置 |
CN112329836A (zh) * | 2020-11-02 | 2021-02-05 | 成都网安科技发展有限公司 | 基于深度学习的文本分类方法、装置、服务器及存储介质 |
CN112614484B (zh) | 2020-11-23 | 2022-05-20 | 北京百度网讯科技有限公司 | 特征信息挖掘方法、装置及电子设备 |
CN112669852B (zh) * | 2020-12-15 | 2023-01-31 | 北京百度网讯科技有限公司 | 内存分配方法、装置及电子设备 |
CN112786017B (zh) * | 2020-12-25 | 2024-04-09 | 北京猿力未来科技有限公司 | 语速检测模型的训练方法及装置、语速检测方法及装置 |
US11790906B2 (en) * | 2021-01-25 | 2023-10-17 | Google Llc | Resolving unique personal identifiers during corresponding conversations between a voice bot and a human |
US20240127586A1 (en) | 2021-02-04 | 2024-04-18 | Deepmind Technologies Limited | Neural networks with adaptive gradient clipping |
CN113421574B (zh) * | 2021-06-18 | 2024-05-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法、音频识别方法及相关设备 |
CN113535510B (zh) * | 2021-06-24 | 2024-01-26 | 北京理工大学 | 一种大规模数据中心数据采集的自适应抽样模型优化方法 |
CN113327600B (zh) * | 2021-06-30 | 2024-07-23 | 北京有竹居网络技术有限公司 | 一种语音识别模型的训练方法、装置及设备 |
US12112200B2 (en) | 2021-09-13 | 2024-10-08 | International Business Machines Corporation | Pipeline parallel computing using extended memory |
EP4409568A1 (en) | 2021-09-30 | 2024-08-07 | Google Llc | Contrastive siamese network for semi-supervised speech recognition |
US20230186525A1 (en) * | 2021-12-13 | 2023-06-15 | Tencent America LLC | System, method, and computer program for content adaptive online training for multiple blocks in neural image compression |
CN114548501B (zh) * | 2022-01-14 | 2024-06-18 | 北京全路通信信号研究设计院集团有限公司 | 一种均衡性检查方法、系统及设备 |
CN114842829A (zh) * | 2022-03-29 | 2022-08-02 | 北京理工大学 | 一种抑制语音要素异常点的文本驱动语音合成方法 |
US11978436B2 (en) | 2022-06-03 | 2024-05-07 | Apple Inc. | Application vocabulary integration with a digital assistant |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
KR102547001B1 (ko) * | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
US20240339123A1 (en) * | 2023-04-06 | 2024-10-10 | Samsung Electronics Co., Ltd. | System and method for keyword spotting in noisy environments |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790754A (en) | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
US5749066A (en) | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
AUPQ439299A0 (en) * | 1999-12-01 | 1999-12-23 | Silverbrook Research Pty Ltd | Interface system |
US7035802B1 (en) * | 2000-07-31 | 2006-04-25 | Matsushita Electric Industrial Co., Ltd. | Recognition system using lexical trees |
US7219085B2 (en) * | 2003-12-09 | 2007-05-15 | Microsoft Corporation | System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit |
US20060031069A1 (en) * | 2004-08-03 | 2006-02-09 | Sony Corporation | System and method for performing a grapheme-to-phoneme conversion |
GB0507036D0 (en) | 2005-04-07 | 2005-05-11 | Ibm | Method and system for language identification |
US20110035215A1 (en) * | 2007-08-28 | 2011-02-10 | Haim Sompolinsky | Method, device and system for speech recognition |
JP4869268B2 (ja) * | 2008-03-04 | 2012-02-08 | 日本放送協会 | 音響モデル学習装置およびプログラム |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
US8781833B2 (en) | 2008-07-17 | 2014-07-15 | Nuance Communications, Inc. | Speech recognition semantic classification training |
US8886531B2 (en) | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US20130317755A1 (en) | 2012-05-04 | 2013-11-28 | New York University | Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
CN102760436B (zh) * | 2012-08-09 | 2014-06-11 | 河南省烟草公司开封市公司 | 一种语音词库筛选方法 |
US9177550B2 (en) | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US9153231B1 (en) * | 2013-03-15 | 2015-10-06 | Amazon Technologies, Inc. | Adaptive neural network speech recognition models |
US9418650B2 (en) | 2013-09-25 | 2016-08-16 | Verizon Patent And Licensing Inc. | Training speech recognition using captions |
CN103591637B (zh) | 2013-11-19 | 2015-12-02 | 长春工业大学 | 一种集中供热二次网运行调节方法 |
US9189708B2 (en) | 2013-12-31 | 2015-11-17 | Google Inc. | Pruning and label selection in hidden markov model-based OCR |
CN103870863B (zh) * | 2014-03-14 | 2016-08-31 | 华中科技大学 | 制备隐藏二维码图像全息防伪标签的方法及其识别装置 |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US20150309987A1 (en) | 2014-04-29 | 2015-10-29 | Google Inc. | Classification of Offensive Words |
CN104035751B (zh) * | 2014-06-20 | 2016-10-12 | 深圳市腾讯计算机系统有限公司 | 基于多图形处理器的数据并行处理方法及装置 |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
-
2016
- 2016-11-21 US US15/358,083 patent/US10319374B2/en active Active
- 2016-11-21 US US15/358,102 patent/US10332509B2/en active Active
- 2016-11-23 KR KR1020177023173A patent/KR102008077B1/ko active IP Right Grant
- 2016-11-23 EP EP16869294.5A patent/EP3245652B1/en active Active
- 2016-11-23 WO PCT/US2016/063641 patent/WO2017091751A1/en active Application Filing
- 2016-11-23 WO PCT/US2016/063661 patent/WO2017091763A1/en active Application Filing
- 2016-11-23 CN CN201680010873.8A patent/CN107408111B/zh active Active
- 2016-11-23 JP JP2017544340A patent/JP6661654B2/ja active Active
- 2016-11-23 EP EP16869302.6A patent/EP3245597B1/en active Active
- 2016-11-23 CN CN201680010871.9A patent/CN107408384B/zh active Active
- 2016-11-23 KR KR1020177023177A patent/KR102033230B1/ko active IP Right Grant
- 2016-11-23 JP JP2017544352A patent/JP6629872B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3245652A4 (en) | 2018-05-30 |
EP3245597B1 (en) | 2020-08-26 |
CN107408384B (zh) | 2020-11-27 |
EP3245652B1 (en) | 2019-07-10 |
EP3245597A4 (en) | 2018-05-30 |
WO2017091751A1 (en) | 2017-06-01 |
CN107408111A (zh) | 2017-11-28 |
US10332509B2 (en) | 2019-06-25 |
KR20170107015A (ko) | 2017-09-22 |
KR102008077B1 (ko) | 2019-08-06 |
KR102033230B1 (ko) | 2019-10-16 |
KR20170106445A (ko) | 2017-09-20 |
CN107408111B (zh) | 2021-03-30 |
US20170148433A1 (en) | 2017-05-25 |
JP2018513398A (ja) | 2018-05-24 |
JP2018513399A (ja) | 2018-05-24 |
US20170148431A1 (en) | 2017-05-25 |
US10319374B2 (en) | 2019-06-11 |
EP3245597A1 (en) | 2017-11-22 |
WO2017091763A1 (en) | 2017-06-01 |
JP6629872B2 (ja) | 2020-01-15 |
CN107408384A (zh) | 2017-11-28 |
EP3245652A1 (en) | 2017-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6661654B2 (ja) | 配置されたエンドツーエンド音声認識 | |
Li et al. | Improving RNN transducer modeling for end-to-end speech recognition | |
US11620986B2 (en) | Cold fusing sequence-to-sequence models with language models | |
Sriram et al. | Cold fusion: Training seq2seq models together with language models | |
CN107077842B (zh) | 用于语音转录的系统和方法 | |
Hannun et al. | Deep speech: Scaling up end-to-end speech recognition | |
Sundermeyer et al. | Comparison of feedforward and recurrent neural network language models | |
JP6346893B2 (ja) | ハイブリッドgpu/cpuデータ処理方法 | |
Huang et al. | SNDCNN: Self-normalizing deep CNNs with scaled exponential linear units for speech recognition | |
Scanzio et al. | Parallel implementation of artificial neural network training for speech recognition | |
Enarvi et al. | Automatic speech recognition with very large conversational finnish and estonian vocabularies | |
Abdelhamid et al. | End-to-end arabic speech recognition: A review | |
You et al. | Memory access optimized VLSI for 5000-word continuous speech recognition | |
Kanda et al. | Training data pseudo-shuffling and direct decoding framework for recurrent neural network based acoustic modeling | |
Chen | Cued rnnlm toolkit | |
Liu et al. | Speech recognition systems on the Cell Broadband Engine processor | |
Chen | CUED RNNLM Toolkit v1. 0 | |
박진환 | End-to-End Neural Network-based Speech Recognition for Mobile and Embedded Devices | |
Zenkel | Character Based Language Modeling and Applications in Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170829 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190926 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6661654 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |