JP6827548B2 - 音声認識システム及び音声認識の方法 - Google Patents
音声認識システム及び音声認識の方法 Download PDFInfo
- Publication number
- JP6827548B2 JP6827548B2 JP2019541213A JP2019541213A JP6827548B2 JP 6827548 B2 JP6827548 B2 JP 6827548B2 JP 2019541213 A JP2019541213 A JP 2019541213A JP 2019541213 A JP2019541213 A JP 2019541213A JP 6827548 B2 JP6827548 B2 JP 6827548B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- probability
- label sequence
- output label
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 74
- 239000013598 vector Substances 0.000 claims description 96
- 238000009826 distribution Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000001788 irregular Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000020411 cell activation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003121 nonmonotonic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Description
エンドツーエンド音声認識は、包括的には、入力音響特徴Xを与えられるときに、最確ラベル系列Y(ハット)を見つける問題と定義され、すなわち、
本発明の実施の形態による、エンドツーエンド音声認識モジュール200を用いてエンドツーエンド音声認識を実行する方法において、より正確なラベル系列確率を得るために、CTC順方向確率、式(34)が、式(14)において注意ベース確率と結合される。
ラベル系列探索モジュール206が、ラベル系列確率分布p(Y|X)に従って、最確ラベル系列Y(ハット)を見つける。すなわち、
第1の方法は2パス手法である。第1のパスがビーム探索を用いて1組の完全な仮説を見つけ、その場合に、注意ベーススコアのみが考慮される。第2のパスは、式(36)に示されるように、CTC確率及び注意確率の結合を用いて完全な仮説をリスコアリングし、最良のラベル系列仮説を見つける。
第2の方法は1パス手法であり、その手法は、ビーム探索中に各部分仮説のスコアをCTCベース確率及び注意ベース確率の結合として計算する。ここで、そのプレフィックスとしてhを有する全てのラベル系列の累積確率として定義されるCTCプレフィックス確率を利用し、
トレーニング段階において、損失関数を低減するために、全てのネットワークパラメーター203、205及び209が同時に最適化される。
図4は、本発明のいくつかの実施の形態による、エンドツーエンド音声認識システム400のブロック図を示す。エンドツーエンド音声認識システム400は、キーボード411及びポインティングデバイス/媒体412と接続可能なヒューマンマシンインターフェース(HMI)410と、1つ以上のプロセッサ420と、記憶デバイス430と、メモリ440と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク490と接続可能なネットワークインターフェースコントローラー450(NIC)と、ディスプレイインターフェース460と、マイクロフォンデバイス475と接続可能なオーディオインターフェース470と、印刷デバイス485と接続可能なプリンタインターフェース480とを含む。メモリ440は1つ以上のメモリユニットとすることができる。エンドツーエンド音声認識システム400は、NIC450に接続されるネットワーク490を介して電気的なオーディオ波形/スペクトルデータ495を受信することができる。記憶デバイス430は、エンドツーエンド音声認識モジュール200、注意デコーダーネットワークモジュール204、エンコーダーネットワークモジュール202、CTCモジュール208、及び音響特徴抽出モジュール434を含む。ラベル系列探索モジュール、エンコーダーネットワークパラメーター、デコーダーネットワークパラメーター及びCTCネットワークパラメーターは図において省略される。ポインティングデバイス/媒体412は、コンピューター可読記録媒体上に記憶されるプログラムを読み出すモジュールを含むことができる。注意デコーダーネットワークモジュール204、エンコーダーネットワークモジュール202及びCTCモジュール208は、ニューラルネットワークパラメーターによって形成することができる。音響特徴抽出モジュール434は、音響特徴系列を抽出するために使用されるプログラムである。音響特徴系列は、一次及び二次時間導関数及び/又はピッチ特徴を伴うメルスケールフィルターバンク係数の系列とすることができる。
本発明の有効性を示すために、日本語及び中国標準語音声認識ベンチマーク(Japanese and Mandarin Chinese speech recognition benchmarks)を使用した。
日本語話し言葉コーパス(CSJ:MAEKAWA, K., KOISO, H., FURUI, S., AND ISAHARA, H. Spontaneous speech corpus of Japanese in International Conference on Language Resources and Evaluation (LREC) (2000), vol. 2, pp. 947-952.)を使用することによって、音声認識実験を実施した。CSJは、学術講演及び模擬講演を含む、モノローグ音声データの集合体に基づく標準的な日本語音声認識タスクである。それは全部で581時間のトレーニングデータと、3つのタイプの評価データ(タスク1、タスク2、タスク3)を有し、各評価タスクは10回の講演(全部で5時間)からなる。入力特徴として、その一次及び二次時間導関数を伴う、40個のメルスケールフィルターバンク係数を用いて、フレームあたり全部で120次元の特徴ベクトルを取得した。エンコーダーは各層及び方向において320セルを有する4層BLSTMであり、線形射影層(linear projection layer)に各BLSTM層が後続した。エンコーダーの第2及び第3のボトム層は、下方のネットワークにおいて1つおきの隠れベクトルを読み出し、発話長を4分の1に削減する。ロケーションベース注意機構(location-based attention mechanism)が使用され、幅100の10個の中央畳み込みフィルター(centered convolution filter)を用いて、畳み込み特徴を抽出した。デコーダーネットワークは、320セルを有する1層LSTMであった。最適化のために、勾配クリッピングを有するAdaDeltaアルゴリズムが使用された。エンコーダーネットワーク、デコーダーネットワーク及びCTCネットワークはマルチタスク学習手法においてトレーニングされ、倍率λは0.1に設定された。
HKUST標準中国語会話電話音声認識(MTS)に関する実験を実施した。それは評価用の5時間の録音(Eval set)を有し、トレーニングセットから開発セット(Dev set)として5時間が抽出され、残り(167時間)はトレーニングセットとして使用された。予備調査に基づいて、トレーニング及び復号において0.1の代わりにλ=0.5が使用されたこと、及びピッチ特徴を有する80個のメルスケールフィルターバンク係数が使用されたことを除いて、全ての実験条件をCSJ実験の条件と同じにした。図6は、従来技術の注意ベース法より優れた本発明の有効性を示す。開発セット及び評価セットの両方において、CERが著しく低減される。CSJ実験と同様に、1パス法が両方のセットにおいてリスコアリング法よりわずかに良好であった。
Claims (20)
- 声音を受け取る入力デバイスと、
1つ以上のプロセッサと、
パラメーターと、前記1つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールとを記憶する1つ以上の記憶デバイスであって、該命令は、実行されるときに、前記1つ以上のプロセッサに動作を実行させ、該動作は、
音響特徴抽出モジュールを用いて、前記声音から変換されたオーディオ波形データから音響特徴系列を抽出することと、
エンコーダーネットワークパラメーターを有するエンコーダーネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
前記隠れベクトル系列を、デコーダーネットワークパラメーターを有するデコーダーネットワークに送り込むことによって、第1の出力ラベル系列確率を予測することと、
コネクショニスト時系列分類(CTC)ネットワークパラメーターを使用するCTCモジュールと、前記エンコーダーネットワークからの前記隠れベクトル系列とによって、第2の出力ラベル系列確率を予測することと、
ラベル系列探索モジュールを用いて、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
を含むものと、
を備える、音声認識システム。 - 前記デコーダーネットワークは、前記第1の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項1に記載の音声認識システム。
- 前記CTCモジュールは、前記第2の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項1に記載の音声認識システム。
- 前記エンコーダーネットワークは、スタックされた双方向長短期メモリ(BLSTM)を含む、請求項1に記載の音声認識システム。
- 前記デコーダーネットワークはスタックされた長短期メモリ(LSTM)を含み、前記隠れベクトル系列に関する注意機構を用いて、出力ラベル系列確率をそれぞれ予測する、請求項1に記載の音声認識システム。
- 前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合するために、対数領域における線形結合が使用される、請求項1に記載の音声認識システム。
- 前記探索することは、ビーム探索を用いて、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項1に記載の音声認識システム。
- 前記ビーム探索は、最初に、前記デコーダーネットワークから与えられた第1のラベル系列確率を用いて1組の完全なラベル系列仮説を見つけ、その後、前記1組の完全なラベル系列仮説の中から、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項7に記載の音声認識システム。
- 前記ビーム探索は、他の不完全なラベル系列仮説のうちいずれかの系列確率より低い系列確率を有する不完全なラベル系列仮説を取り除き、前記系列確率は、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られる、請求項7に記載の音声認識システム。
- 前記CTCモジュールは、前記第2の出力ラベル系列確率を予測するために、前記CTCネットワークパラメーター及び動的計画法を用いて、事後確率分布を計算する、請求項1に記載の音声認識システム。
- 音響特徴抽出モジュールを用いて、入力デバイスによって受け取られる声音から変換されるオーディオ波形データから音響特徴系列を抽出することと、
1つ以上の記憶デバイスからエンコーダーネットワークパラメーターを取得するエンコーダーネットワークを用いて、前記音響特徴系列を隠れベクトル系列に符号化することと、
前記1つ以上の記憶デバイスからデコーダーネットワークパラメーターを取得するデコーダーネットワークに前記隠れベクトル系列を送り込むことによって、第1の出力ラベル系列確率を予測することと、
コネクショニスト時系列分類(CTC)ネットワークパラメーターを使用するCTCモジュールと、前記エンコーダーネットワークからの前記隠れベクトル系列とによって、第2の出力ラベル系列確率を予測することと、
ラベル系列探索モジュールを用いて、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって、最も高い系列確率を有する出力ラベル系列を探索することと、
を含む、音声認識の方法。 - 前記デコーダーネットワークは、前記第1の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項11に記載の方法。
- 前記CTCモジュールは、前記第2の出力ラベル系列確率を予測する前に、前記ラベル系列探索モジュールから先行するラベルを受信する、請求項11に記載の方法。
- 前記エンコーダーネットワークはスタックされた双方向長短期メモリ(BLSTM)を含む、請求項11に記載の方法。
- 前記デコーダーネットワークはスタックされた長短期メモリ(LSTM)を含み、前記隠れベクトル系列に関する注意機構を用いて、出力ラベル系列確率をそれぞれ予測する、請求項11に記載の方法。
- 前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合するために、対数領域における線形結合が使用される、請求項11に記載の方法。
- 前記探索することは、ビーム探索を用いて、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項11に記載の方法。
- 前記ビーム探索は、最初に、前記デコーダーネットワークから与えられる第1のラベル系列確率を用いて1組の完全なラベル系列仮説を見つけ、その後、前記1組の完全なラベル系列仮説の中から、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られた最も高い系列確率を有する前記出力ラベル系列を見つける、請求項17に記載の方法。
- 前記ビーム探索は、他の不完全なラベル系列仮説のうちいずれかの系列確率より低い系列確率を有する不完全なラベル系列仮説を取り除き、前記系列確率は、前記デコーダーネットワーク及び前記CTCモジュールから与えられた前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を結合することによって得られる、請求項17に記載の方法。
- 前記CTCモジュールは、前記第2の出力ラベル系列確率を予測するために、前記CTCネットワークパラメーター及び動的計画法を用いて、事後確率分布を計算する、請求項11に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/592,527 US20180330718A1 (en) | 2017-05-11 | 2017-05-11 | System and Method for End-to-End speech recognition |
US15/592,527 | 2017-05-11 | ||
PCT/JP2017/041384 WO2018207390A1 (en) | 2017-05-11 | 2017-11-10 | Speech recognition system and method for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020505650A JP2020505650A (ja) | 2020-02-20 |
JP6827548B2 true JP6827548B2 (ja) | 2021-02-10 |
Family
ID=60655036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019541213A Active JP6827548B2 (ja) | 2017-05-11 | 2017-11-10 | 音声認識システム及び音声認識の方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180330718A1 (ja) |
EP (1) | EP3417451B1 (ja) |
JP (1) | JP6827548B2 (ja) |
CN (1) | CN110603583B (ja) |
WO (1) | WO2018207390A1 (ja) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN107680587A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 声学模型训练方法和装置 |
CN107680597B (zh) * | 2017-10-23 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110168535B (zh) * | 2017-10-31 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
KR102608469B1 (ko) * | 2017-12-22 | 2023-12-01 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
JP6831343B2 (ja) * | 2018-02-01 | 2021-02-17 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
JP6849621B2 (ja) * | 2018-02-02 | 2021-03-24 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
JP6911785B2 (ja) * | 2018-02-02 | 2021-07-28 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
US10580432B2 (en) * | 2018-02-28 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speech recognition using connectionist temporal classification |
WO2020003534A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
US11210475B2 (en) * | 2018-07-23 | 2021-12-28 | Google Llc | Enhanced attention mechanisms |
US11107463B2 (en) | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN111429889B (zh) * | 2019-01-08 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 |
CN109829579B (zh) * | 2019-01-22 | 2023-01-24 | 平安科技(深圳)有限公司 | 最短路线计算方法、装置、计算机设备和存储介质 |
CN111476258B (zh) * | 2019-01-24 | 2024-01-05 | 杭州海康威视数字技术股份有限公司 | 一种基于注意力机制的特征提取方法、装置及电子设备 |
US11037547B2 (en) | 2019-02-14 | 2021-06-15 | Tencent America LLC | Token-wise training for attention based end-to-end speech recognition |
CN111613215B (zh) * | 2019-02-22 | 2023-06-23 | 浙江大学 | 一种语音识别的方法及其装置 |
CN109902622B (zh) * | 2019-02-26 | 2020-06-09 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
US11404047B2 (en) * | 2019-03-08 | 2022-08-02 | International Business Machines Corporation | Feature and feature variant reconstruction for recurrent model accuracy improvement in speech recognition |
US11210547B2 (en) * | 2019-03-20 | 2021-12-28 | NavInfo Europe B.V. | Real-time scene understanding system |
US11100920B2 (en) * | 2019-03-25 | 2021-08-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for end-to-end speech recognition with triggered attention |
JP7417634B2 (ja) * | 2019-05-10 | 2024-01-18 | グーグル エルエルシー | 音声認識のためのエンドツーエンドモデルでコンテキスト情報を使用すること |
CN110287285B (zh) * | 2019-05-31 | 2023-06-16 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
WO2020247489A1 (en) * | 2019-06-04 | 2020-12-10 | Google Llc | Two-pass end to end speech recognition |
CN110348482B (zh) * | 2019-06-05 | 2023-06-02 | 华东理工大学 | 一种基于深度模型集成架构的语音情感识别系统 |
CN110444203B (zh) * | 2019-07-17 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN110556114B (zh) * | 2019-07-26 | 2022-06-17 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
US20220262356A1 (en) * | 2019-08-08 | 2022-08-18 | Nippon Telegraph And Telephone Corporation | Determination device, training device, determination method, and determination program |
US11158303B2 (en) | 2019-08-27 | 2021-10-26 | International Business Machines Corporation | Soft-forgetting for connectionist temporal classification based automatic speech recognition |
US11302309B2 (en) | 2019-09-13 | 2022-04-12 | International Business Machines Corporation | Aligning spike timing of models for maching learning |
WO2021117089A1 (ja) * | 2019-12-09 | 2021-06-17 | 日本電信電話株式会社 | モデル学習装置、音声認識装置、それらの方法、およびプログラム |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
CN111128191B (zh) * | 2019-12-31 | 2023-03-28 | 中国科学院声学研究所 | 一种在线端对端语音转写方法及系统 |
CN111242113B (zh) * | 2020-01-08 | 2022-07-08 | 重庆邮电大学 | 一种任意方向自然场景文本识别方法 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111243574B (zh) * | 2020-01-13 | 2023-01-03 | 苏州奇梦者网络科技有限公司 | 一种语音模型自适应训练方法、系统、装置及存储介质 |
CN111276131B (zh) * | 2020-01-22 | 2021-01-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
JP7274441B2 (ja) | 2020-04-02 | 2023-05-16 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
CN111540344B (zh) * | 2020-04-21 | 2022-01-21 | 北京字节跳动网络技术有限公司 | 声学网络模型训练方法、装置及电子设备 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
WO2021225699A1 (en) | 2020-05-07 | 2021-11-11 | Google Llc | Emitting word timings with end-to-end models |
US20210358490A1 (en) * | 2020-05-18 | 2021-11-18 | Nvidia Corporation | End of speech detection using one or more neural networks |
CN111524519B (zh) * | 2020-05-28 | 2022-09-30 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
JP7340199B2 (ja) | 2020-07-17 | 2023-09-07 | 日本電信電話株式会社 | 学習装置、推論装置、学習方法、推論方法及びプログラム |
WO2022024202A1 (ja) * | 2020-07-27 | 2022-02-03 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法、学習プログラム及び音声認識プログラム |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、系统及装置 |
KR102386627B1 (ko) * | 2020-08-25 | 2022-04-14 | 주식회사 카카오엔터프라이즈 | 음성 인식에 관한 빔 서치 방법 및 장치 |
CN111933115B (zh) * | 2020-10-12 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN112233664B (zh) * | 2020-10-15 | 2021-11-09 | 北京百度网讯科技有限公司 | 语义预测网络的训练方法、装置、设备以及存储介质 |
US20220122586A1 (en) | 2020-10-20 | 2022-04-21 | Google Llc | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization |
US11817117B2 (en) | 2021-01-29 | 2023-11-14 | Nvidia Corporation | Speaker adaptive end of speech detection for conversational AI applications |
CN113327600A (zh) * | 2021-06-30 | 2021-08-31 | 北京有竹居网络技术有限公司 | 一种语音识别模型的训练方法、装置及设备 |
CN113362812B (zh) * | 2021-06-30 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113488052B (zh) * | 2021-07-22 | 2022-09-02 | 深圳鑫思威科技有限公司 | 无线语音传输和ai语音识别互操控方法 |
CN113539244B (zh) * | 2021-07-22 | 2023-10-03 | 广州虎牙科技有限公司 | 端到端语音识别模型训练方法、语音识别方法及相关装置 |
CN113689866B (zh) * | 2021-08-18 | 2023-04-25 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782544B2 (ja) * | 1989-03-24 | 1995-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | マルチテンプレートを用いるdpマツチング方法及び装置 |
GB2313757B (en) * | 1995-06-30 | 1998-04-29 | Ricoh Kk | Method using an embedded codestream |
US6094476A (en) * | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
US6070136A (en) * | 1997-10-27 | 2000-05-30 | Advanced Micro Devices, Inc. | Matrix quantization with vector quantization error compensation for robust speech recognition |
US7031915B2 (en) * | 2003-01-23 | 2006-04-18 | Aurilab Llc | Assisted speech recognition by dual search acceleration technique |
US7464031B2 (en) * | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
ATE449403T1 (de) * | 2005-12-12 | 2009-12-15 | Gregory John Gadbois | Mehrstimmige spracherkennung |
US9128926B2 (en) * | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
GB2445279A (en) * | 2006-12-27 | 2008-07-02 | Yaron Mayer | System and method for improving the efficiency, comfort and/or reliability in operating systems. |
CA2912296C (en) * | 2007-06-27 | 2021-06-15 | Wanda G. Papadimitriou | Autonomous fitness for service assessment |
US8589162B2 (en) * | 2007-09-19 | 2013-11-19 | Nuance Communications, Inc. | Method, system and computer program for enhanced speech recognition of digits input strings |
US9743357B2 (en) * | 2011-12-16 | 2017-08-22 | Joseph Akwo Tabe | Energy harvesting computer device in association with a communication device configured with apparatus for boosting signal reception |
US9515676B2 (en) * | 2012-01-31 | 2016-12-06 | Life Technologies Corporation | Methods and computer program products for compression of sequencing data |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
US9842592B2 (en) * | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9865265B2 (en) * | 2015-06-06 | 2018-01-09 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
US9792897B1 (en) * | 2016-04-13 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Phoneme-expert assisted speech recognition and re-synthesis |
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
-
2017
- 2017-05-11 US US15/592,527 patent/US20180330718A1/en not_active Abandoned
- 2017-11-10 CN CN201780090477.5A patent/CN110603583B/zh active Active
- 2017-11-10 JP JP2019541213A patent/JP6827548B2/ja active Active
- 2017-11-10 WO PCT/JP2017/041384 patent/WO2018207390A1/en active Application Filing
- 2017-11-10 EP EP17812092.9A patent/EP3417451B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3417451B1 (en) | 2019-07-03 |
WO2018207390A1 (en) | 2018-11-15 |
CN110603583A (zh) | 2019-12-20 |
US20180330718A1 (en) | 2018-11-15 |
JP2020505650A (ja) | 2020-02-20 |
CN110603583B (zh) | 2023-10-24 |
EP3417451A1 (en) | 2018-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6827548B2 (ja) | 音声認識システム及び音声認識の方法 | |
JP6929466B2 (ja) | 音声認識システム | |
JP6818941B2 (ja) | 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
JP6870076B2 (ja) | ニューラル機械翻訳システム | |
Jelinek et al. | 25 Continuous speech recognition: Statistical methods | |
CN113574545A (zh) | 用于训练模型的训练数据修改 | |
US20050197838A1 (en) | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
Zhang et al. | Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2938865B1 (ja) | 音声認識装置 | |
JP4631076B2 (ja) | 音素単位セットを最適化する方法及びシステム | |
Kimura et al. | Expansion of wfst-based dialog management for handling multiple asr hypotheses | |
Zenkel | Character Based Language Modeling and Applications in Speech Recognition | |
JP2000250583A (ja) | 統計的言語モデル生成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6827548 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |