JP7490804B2 - 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 - Google Patents
非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 Download PDFInfo
- Publication number
- JP7490804B2 JP7490804B2 JP2022558824A JP2022558824A JP7490804B2 JP 7490804 B2 JP7490804 B2 JP 7490804B2 JP 2022558824 A JP2022558824 A JP 2022558824A JP 2022558824 A JP2022558824 A JP 2022558824A JP 7490804 B2 JP7490804 B2 JP 7490804B2
- Authority
- JP
- Japan
- Prior art keywords
- fsd
- module
- lsd
- prefixes
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000013518 transcription Methods 0.000 claims description 159
- 230000035897 transcription Effects 0.000 claims description 159
- 238000013528 artificial neural network Methods 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 54
- 238000005192 partition Methods 0.000 claims description 32
- 230000001360 synchronised effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 15
- 244000141353 Prunus domestica Species 0.000 claims description 11
- 238000013138 pruning Methods 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 31
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 230000015654 memory Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
たとえば、一実現例では、エンコーダ出力は、サンプリングレートが100Hzである特徴行列Xと比べて4分の1のフレームレートにサブサンプリングされる。Z=(z1,…,zN)が長さNのフレーム単位のラベルシーケンスを表わすものとすると、
エンコーダネットワークモジュール203は、音響特徴シーケンスX=x1,…,xTを、
XE=Encoder(X) (2)
として埋込みベクトルシーケンス
いくつかの実施形態では、LSDモジュールは、アテンションベースのデコーダを用いて実現される。アテンションベースのデコーダネットワークモジュール206は、埋込みベクトルシーケンスXEを用いてラベルシーケンス確率p(Y|X)を計算するために用いられるデコーダネットワークを含む。Yを長さLのラベルシーケンスy1,y2,…yLとする。p(Y|X)を効率的に計算するために、以下のように確率を確率連鎖律によって因数分解することができる。
一実施形態では、FSDモジュールは、上述のようにCTCニューラルネットワークを用いて実現される。CTCモジュール211は、埋込みベクトルシーケンスXEを前提としてラベルシーケンスYのCTC順方向確率を計算する。
図4は、いくつかの実施形態に従ったコンピュータベースの自動音声認識システム400のブロック図を示す。コンピュータベースの音声認識システム400は、システム400を他のシステムおよびデバイスに接続するいくつかのインターフェイスを含む。システム400は、入力デバイス403からの音声発話の特徴を表わす音響フレームのストリームを受けるように構成された入力インターフェイス401を含む。入力デバイス403はマイクロフォンであり得る。付加的または代替的には、コンピュータベースの音声認識システム400は、他のさまざまなタイプの入力インターフェイスから音響信号を受取ることができる。いくつかの実施形態では、システム400は、音響入力デバイス403からの音響フレームのストリームに対して構成されたオーディオインターフェイスを含む。いくつかの他の実施形態では、入力インターフェイスは、有線ネットワークおよび無線ネットワークのうちの1つまたはこれらの組合わせであり得るネットワーク407を介して、音響フレーム409をストリーミングするように構成されたネットワークインターフェイスコントローラ(NIC:network interface controller)405を含む。
本明細書は、具体例としての実施形態のみを提供し、開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、具体例としての実施形態の以下の説明は、具体例としての1つ以上の実施形態を実現すること可能にする説明を、当業者に提供するであろう。添付の請求項に記載されている開示された主題の精神および範囲から逸脱することなく、要素の機能および構成に対してなされ得る各種変更が意図されている。
Claims (20)
- コンピュータベースの自動音声認識システムであって、前記システムは、前記システムのモジュールを実現する格納された命令と連結されたプロセッサを用い、前記命令を実行する前記プロセッサは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化し、
終了条件が満たされるまで、フレーム同期デコーダ(FSD:frame-synchronous decoder)モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理す
るように構成され、前記FSDモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、FSDプレフィックスの現在のリストを拡張して、FSDプレフィックスの候補リストおよび対応するFSDスコアを生成し、前記候補リスト内の各FSDプレフィックスは、前記FSDモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記FSDモジュールによる推定であり、FSDプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するFSDスコアによって定義され、前記FSDプレフィックスの候補リストを生成することに応答して、前記プロセッサは、
前記エンコーダ状態のうち、前記FSDモジュールによって識別されたエンコーダ状態を含む部分を選択し、前記エンコーダ状態の選択済み部分を処理するようにラベル同期デコーダ(LSD:label-synchronous decoder)モジュールをトリガして、前記LSDモ
ジュールに従って、前記FSDプレフィックスの候補リスト内の前記FSDプレフィックスが、前記エンコーダ状態の選択済み部分における前記復号済みトランスクリプション出力である確率を定義するLSDスコアを決定し、
対応するFSDスコアとLSDスコアとの組合わせによって定義されるジョイントスコアに従って前記FSDプレフィックスの候補リストをプルーニングし、
前記FSDプレフィックスの現在のリストを前記FSDプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成される、システム。 - プルーニングするステップにより、最高ジョイントスコアを有する前記FSDプレフィックスの候補リストにおいてn個の最適なFSDプレフィックスが保存されるように、前
記FSDプレフィックスの現在のリストのサイズは固定されており、前記FSDプレフィックスの候補リストのサイズよりも小さく、nは、前記FSDプレフィックスの現在のリストのサイズである、請求項1に記載のシステム。 - 前記プロセッサは、置換えられた前記FSDプレフィックスの現在のリストにおけるFSDスコアを置換えることなく、FSDプレフィックスのみを置換える、請求項1に記載のシステム。
- 前記プロセッサは、最高ジョイントスコアを有する前記FSDプレフィックスを、音響フレームの前記入来ストリームのうち前記エンコーダ状態のシーケンスの部分に対応する部分についての前記復号済みトランスクリプション出力として出力するように構成される、請求項1に記載のシステム。
- 前記FSDモジュールは、
各エンコーダ状態ごとにトランスクリプション出力確率を出力するコネクショニスト時系列分類(CTC:connectionist temporal classification)ニューラルネットワーク
と、
閾値を上回るFSDスコアを有する前記FSDプレフィックスの候補リストを生成するために前記CTCニューラルネットワークの出力をサーチするように構成されたプレフィックスビームサーチモジュールとを備え、各FSDスコアは、繰返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計であり、前記プレフィックスビームサーチモジュールは、前記ジョイントスコアに従ってプルーニングされた前記FSDプレフィックスの現在のリストの前記FSDスコアに基づいて、前記FSDプレフィックスの候補リストの前記FSDスコアを計算する、請求項1に記載のシステム。 - 前記FSDモジュールは、リカレントニューラルネットワークトランスデューサ(RNN-T:recurrent neural network-transducer)アーキテクチャを有するニューラルネ
ットワークを含む、請求項1に記載のシステム。 - 前記LSDモジュールは、アテンションベースのデコーダニューラルネットワークを含む、請求項1に記載のシステム。
- 前記LSDモジュールは、入力としてサブミットされたエンコーダ状態の各パーティションごとにLSDプレフィックスのリストおよび対応するLSDスコアを決定し、前記FSDプレフィックスと一致する前記LSDプレフィックスについてのみLSDスコアを出力する、請求項7に記載のシステム。
- 前記システムのモジュールは同期モジュールを含み、前記同期モジュールは、前記エンコーダ状態のうち、前記FSDモジュールによって識別された前記新しいトランスクリプション出力を含む部分を処理するように前記LSDモジュールをトリガすることによって、および、前記FSDモジュールによって生成された前記FSDプレフィックスについての前記LSDスコアを前記LSDモジュールが推定することを可能にすることによって、時間ドメインおよびプレフィックスドメインにおいて前記FSDモジュールと前記LSDモジュールとを同期させるように構成される、請求項1に記載のシステム。
- 前記同期モジュールは、前記エンコーダ状態のシーケンスのうち前記シーケンスの先頭からルックアヘッドエンコーダ状態までの部分を選択し、前記ルックアヘッドエンコーダ状態は、前記FSDモジュールによって識別された前記エンコーダ状態の位置を順方向に固定シフトだけシフトすることによって決定される、請求項9に記載のシステム。
- 前記同期モジュールは、前記エンコーダ状態のシーケンスのうち、前記FSDモジュールによって識別された前記エンコーダ状態の位置に対して予め定められた数のルックアヘッドエンコーダ状態およびルックバックエンコーダ状態を含む部分を選択する、請求項9に記載のシステム。
- 前記システムのモジュールは、トリガ型アテンション(TA:triggered attention)
ニューラルネットワークを形成するために前記FSDモジュールおよび前記LSDモジュールと共同でトレーニングされるエンコーダニューラルネットワークを含む、請求項1に記載のシステム。 - 前記エンコーダは、並列時間遅延型長・短期メモリ(PTDLSTM:parallel time-delayed long short-term memory)ストリームに基づく単方向エンコーダニューラルネットワークを含む、請求項12に記載のシステム。
- 前記エンコーダおよび前記LSDモジュールはトランスフォーマアーキテクチャを用いて実現される、請求項12に記載のシステム。
- 自動音声認識を実行するためにプロセッサによって実行可能なモジュールを含むプログラムが組込まれた非一時的なコンピュータ可読記憶媒体であって、前記モジュールは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するように構成されたエンコーダと、
フレーム同期デコーダ(FSD)モジュールとを備え、前記FSDモジュールは、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理して、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、FSDプレフィックスの現在のリストを拡張して、FSDプレフィックスの候補リストおよび対応するFSDスコアを生成するように構成され、前記候補リスト内の各FSDプレフィックスは、前記FSDモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記FSDモジュールによる推定であり、FSDプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するFSDスコアによって定義されるものであり、前記モジュールはさらに、
前記エンコーダ状態のうち、前記FSDモジュールによって識別された前記エンコーダ状態を含む部分を選択するように構成される同期モジュールと、
ラベル同期デコーダ(LSD)モジュールと、
ジョイントスコアリングモジュールとを備え、前記LSDモジュールは、前記エンコーダ状態の選択済み部分を処理し、前記ジョイントスコアリングモジュールは、前記FSDプレフィックスの前記FSDスコアを対応するLSDスコアと連結するように構成されており、前記対応するLSDスコアは、前記LSDモジュールに従って、前記FSDプレフィックスが前記復号済みトランスクリプション出力である確率を定義するものであり、
前記ジョイントスコアリングモジュールは、ジョイント型FSDスコアおよびLSDスコアに従って前記FSDプレフィックスをプルーニングし、前記FSDプレフィックスの現在のリストを前記FSDプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成され、前記モジュールはさらに、
出力インターフェイスを備え、前記出力インターフェイスは、最高ジョイントスコアを有する前記FSDプレフィックスを、前記FSDモジュールによって処理された前記エンコーダ状態についての音響フレームの前記入来ストリームの前記復号済みトランスクリプション出力として出力するように構成される、媒体。 - 前記同期モジュールは、前記エンコーダ状態のうち、前記FSDモジュールによって識
別された前記新しいトランスクリプション出力を含む部分を処理するように前記LSDモジュールをトリガすることによって、および、前記FSDプレフィックスを前記LSDモジュールに渡すことで前記LSDモジュールが前記FSDプレフィックスについての前記LSDスコアを推定することを可能にすることによって、時間ドメインおよびプレフィックスドメインにおいて前記FSDモジュールと前記LSDモジュールとを同期させるように構成される、請求項15に記載の媒体。 - 前記FSDモジュールは、
各エンコーダ状態ごとにトランスクリプション出力確率を出力するコネクショニスト時系列分類(CTC:connectionist temporal classification)ニューラルネットワーク
と、
閾値を上回るFSDスコアを有する前記FSDプレフィックスの候補リストを生成するために前記CTCニューラルネットワークの出力をサーチするように構成されたプレフィックスビームサーチモジュールとを備え、各FSDスコアは、繰返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計であり、前記プレフィックスビームサーチモジュールは、前記ジョイント型FSDスコアおよびLSDスコアに従ってプルーニングされた前記FSDプレフィックスの現在のリストの前記FSDスコアに基づいて、前記FSDプレフィックスの候補リストの前記FSDスコアを計算し、
前記LSDモジュールは、アテンションベースのデコーダニューラルネットワークを含む、請求項15に記載の媒体。 - 前記モジュールはさらに、
前記FSDプレフィックスの候補リストをスコアリングするように構成された外部言語モデルを含み、前記ジョイントスコアリングモジュールは、前記外部言語モデルによって決定されたスコアで前記ジョイント型FSDスコアおよびLSDスコアを更新し、更新された前記ジョイント型FSDスコアおよびLSDスコアに基づいて前記FSDプレフィックスの候補リストをプルーニングする、請求項15に記載の媒体。 - 自動音声認識のための方法であって、前記方法は、前記方法を実現する格納された命令と連結されたプロセッサを用い、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記方法のステップは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するステップと、
終了条件が満たされるまで、フレーム同期デコーダ(FSD)モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理するステップとを備え、前記FSDモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、FSDプレフィックスの現在のリストを拡張して、FSDプレフィックスの候補リストおよび対応するFSDスコアを生成し、前記候補リスト内の各FSDプレフィックスは、前記FSDモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記FSDモジュールによる推定であり、FSDプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するFSDスコアによって定義されるものであり、前記方法のステップはさらに、
前記エンコーダ状態のうち、前記FSDモジュールによって識別される前記エンコーダ状態を含む部分を選択するステップと、
エンコーダ状態の選択済み部分を処理するようにラベル同期デコーダ(LSD)モジュールをトリガして、前記LSDモジュールに従って、前記FSDプレフィックスの候補リストにおける前記FSDプレフィックスが、前記エンコーダ状態の選択済み部分における前記復号済みトランスクリプション出力である確率を定義するLSDスコアを決定するス
テップと、
対応するFSDスコアとLSDスコアとの組合わせによって定義されるジョイントスコアに従って前記FSDプレフィックスの候補リストをプルーニングするステップと、
前記FSDプレフィックスの現在のリストを前記FSDプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するステップとを備える、方法。 - 最高ジョイントスコアを有する前記FSDプレフィックスを、音響フレームの前記入来ストリームのうち前記エンコーダ状態のシーケンスの部分に対応する部分についての前記復号済みトランスクリプション出力として出力するステップをさらに含む、請求項19に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/712,423 US11373639B2 (en) | 2019-12-12 | 2019-12-12 | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
US16/712,423 | 2019-12-12 | ||
PCT/JP2020/046193 WO2021117844A1 (en) | 2019-12-12 | 2020-12-04 | System and method for streaming end-to-end speech recognition with asynchronous decoders |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023504219A JP2023504219A (ja) | 2023-02-01 |
JP7490804B2 true JP7490804B2 (ja) | 2024-05-27 |
Family
ID=74141788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022558824A Active JP7490804B2 (ja) | 2019-12-12 | 2020-12-04 | 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11373639B2 (ja) |
EP (1) | EP4073787B1 (ja) |
JP (1) | JP7490804B2 (ja) |
CN (1) | CN114787914A (ja) |
WO (1) | WO2021117844A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501761B2 (en) * | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
US11948561B2 (en) * | 2019-10-28 | 2024-04-02 | Apple Inc. | Automatic speech recognition imposter rejection on a headphone with an accelerometer |
US20210193147A1 (en) * | 2019-12-23 | 2021-06-24 | Descript, Inc. | Automated generation of transcripts through independent transcription |
US11361550B2 (en) * | 2019-12-30 | 2022-06-14 | Yahoo Assets Llc | Automatic digital content captioning using spatial relationships method and apparatus |
JP7222153B1 (ja) * | 2020-01-21 | 2023-02-14 | グーグル エルエルシー | デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 |
US11562745B2 (en) * | 2020-04-06 | 2023-01-24 | Microsoft Technology Licensing, Llc | Sequence-to-sequence speech recognition with latency threshold |
CN111667828B (zh) * | 2020-05-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
JP2023545988A (ja) * | 2020-10-05 | 2023-11-01 | グーグル エルエルシー | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル |
CN113380239B (zh) * | 2021-07-20 | 2022-09-09 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
US20230108275A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Language Agnostic Multilingual End-To-End Streaming On-Device ASR System |
WO2023183268A1 (en) * | 2022-03-21 | 2023-09-28 | Google Llc | Intended query detection using e2e modeling for continued conversation |
CN116052674B (zh) * | 2022-12-19 | 2023-06-09 | 北京数美时代科技有限公司 | 基于预测未来帧的流式语音识别方法、系统和存储介质 |
CN117275484B (zh) * | 2023-11-17 | 2024-02-20 | 深圳市友杰智新科技有限公司 | 命令词识别方法、装置、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018207390A1 (en) | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Corporation | Speech recognition system and method for speech recognition |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
CN108475505B (zh) * | 2015-11-12 | 2023-03-17 | 谷歌有限责任公司 | 使用部分条件从输入序列生成目标序列 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10373610B2 (en) * | 2017-02-24 | 2019-08-06 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
US10714076B2 (en) * | 2017-07-10 | 2020-07-14 | Sony Interactive Entertainment Inc. | Initialization of CTC speech recognition with standard HMM |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
US20210312294A1 (en) * | 2020-04-03 | 2021-10-07 | International Business Machines Corporation | Training of model for processing sequence data |
US11328731B2 (en) * | 2020-04-08 | 2022-05-10 | Salesforce.Com, Inc. | Phone-based sub-word units for end-to-end speech recognition |
-
2019
- 2019-12-12 US US16/712,423 patent/US11373639B2/en active Active
-
2020
- 2020-12-04 JP JP2022558824A patent/JP7490804B2/ja active Active
- 2020-12-04 WO PCT/JP2020/046193 patent/WO2021117844A1/en unknown
- 2020-12-04 CN CN202080083717.0A patent/CN114787914A/zh active Pending
- 2020-12-04 EP EP20838655.7A patent/EP4073787B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018207390A1 (en) | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Corporation | Speech recognition system and method for speech recognition |
Non-Patent Citations (1)
Title |
---|
Niko Moritz et al.,"Streaming End-to-End Speech Recognition with Joint CTC-Attention Based Models",2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU),2019年12月,p.936-943 |
Also Published As
Publication number | Publication date |
---|---|
JP2023504219A (ja) | 2023-02-01 |
US11373639B2 (en) | 2022-06-28 |
EP4073787A1 (en) | 2022-10-19 |
WO2021117844A1 (en) | 2021-06-17 |
EP4073787B1 (en) | 2024-01-10 |
CN114787914A (zh) | 2022-07-22 |
US20210183373A1 (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7490804B2 (ja) | 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 | |
JP7170920B2 (ja) | トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法 | |
JP7436760B1 (ja) | サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス | |
US11741947B2 (en) | Transformer transducer: one model unifying streaming and non-streaming speech recognition | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
KR20230086737A (ko) | 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들 | |
JP2024511176A (ja) | エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習 | |
KR20230158107A (ko) | 효율적인 스트리밍 비-순환 온-디바이스 엔드-투-엔드 모델 | |
JP2023175029A (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
US20220310097A1 (en) | Reducing Streaming ASR Model Delay With Self Alignment | |
CN117581233A (zh) | 适用于流应用的以双因果和非因果受限自注意力进行序列到序列处理的人工智能系统 | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
WO2024019859A1 (en) | Context-aware neural confidence estimation for rare word speech recognition | |
WO2024089962A1 (en) | End-to-end speech recognition adapted for multi- speaker applications | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
CN118176537A (zh) | 用于长形式语音识别的训练 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240306 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7490804 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |