JP7308903B2 - ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 - Google Patents
ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP7308903B2 JP7308903B2 JP2021178830A JP2021178830A JP7308903B2 JP 7308903 B2 JP7308903 B2 JP 7308903B2 JP 2021178830 A JP2021178830 A JP 2021178830A JP 2021178830 A JP2021178830 A JP 2021178830A JP 7308903 B2 JP7308903 B2 JP 7308903B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- speech
- streaming
- recognized
- speech segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 68
- 238000000605 extraction Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
本出願の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本出願の第1の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行させる。
というオーディオコンテンツを例として、当該オーディオをSMLTAモデルを用いてリアルタイムに音声認識するときに、CTCモジュールの出力結果はエラー率がより高いため、ストリーミング画面表示の間、アテンションデコーダは、CTCモジュールに対するポスト切断に依存して復号化し、ストリーミング復号化中に、アテンションデコーダの出力長さがCTCモジュールの出力長さよりも短くなり、例えば、図1に示すように、アテンションデコーダの出力結果がCTCモジュールの出力結果よりも2文字少なく、スプライシングを行った結果は、
が得られ、これにより、当該画面表示の結果は正確ではないことが分かる。
というストリーミング音声セグメントを例として、当該音声セグメントの末尾で現在が文末であることをシミュレーションした後、アテンションデコーダは、完全な認識結果を出力でき、この時の認識結果は、往々にして実際の認識結果により近く、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示結果に基づいてTTSリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。
というストリーミング音声セグメントを例として、当該音声セグメントの末尾で現在が文末であることをシミュレーションした後、アテンションデコーダは、完全な認識結果を出力でき、この時の認識結果は、往々にして実際の認識結果により近く、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示結果に基づいてTTSリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるストリーミング音声認識結果の表示方法を実行させる。
Claims (13)
- ストリーミング音声認識結果の表示方法であって、
入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするステップと、
現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するステップと、を含み、
前記目標音声セグメントの末尾を文末としてシミュレーションすることは、
目標音声セグメントの末尾に、文末を識別するための記号を挿入することを含む、
ことを特徴とするストリーミング音声認識結果の表示方法。 - 前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定するステップと、
前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。 - 前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定するステップと、
前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定するステップと、
前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。 - 前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得するステップは、
前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得するステップと、
前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得するステップと、を含む、
ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。 - 前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力するステップの後に、前記方法は、
前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するステップをさらに含み、
前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記方法は、
前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するステップと、
前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得するステップと、をさらに含む、
ことを特徴とする請求項1~4のいずれかに記載のストリーミング音声認識結果の表示方法。 - ストリーミング音声認識結果の表示装置であって、
入力されたオーディオストリームの複数の連続的な音声セグメントを取得するための第1の取得モジュールと、
前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするためのシミュレーションモジュールと、
現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うための特徴抽出モジュールと、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力し、リアルタイム認識結果を取得して表示するための音声認識モジュールと、を含み、
前記目標音声セグメントの末尾を文末としてシミュレーションすることは、
目標音声セグメントの末尾に、文末を識別するための記号を挿入することを含む、
ことを特徴とするストリーミング音声認識結果の表示装置。 - 前記シミュレーションモジュールが、
前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定し、
前記目標音声セグメントの末尾を文末としてシミュレーションする、
ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。 - 前記シミュレーションモジュールが、
前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、
前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定し、
前記目標音声セグメントの末尾を文末としてシミュレーションする、
ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。 - 前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
前記音声認識モジュールが、
前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得し、
前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得する、
ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。 - 前記装置は、
前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するための状態記憶モジュールをさらに含み、
前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記装置は、
前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するための第2の取得モジュールをさらに含み、
前記音声認識モジュールが、さらに、前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得する、
ことを特徴とする請求項6~9のいずれかに記載のストリーミング音声認識結果の表示装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011295751.2A CN112382278B (zh) | 2020-11-18 | 2020-11-18 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN202011295751.2 | 2020-11-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022020724A JP2022020724A (ja) | 2022-02-01 |
JP7308903B2 true JP7308903B2 (ja) | 2023-07-14 |
Family
ID=74584277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021178830A Active JP7308903B2 (ja) | 2020-11-18 | 2021-11-01 | ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220068265A1 (ja) |
JP (1) | JP7308903B2 (ja) |
CN (1) | CN112382278B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470620A (zh) * | 2021-07-06 | 2021-10-01 | 青岛洞听智能科技有限公司 | 一种语音识别方法 |
CN113889076B (zh) * | 2021-09-13 | 2022-11-01 | 北京百度网讯科技有限公司 | 语音识别及编解码方法、装置、电子设备及存储介质 |
CN114564564A (zh) * | 2022-02-25 | 2022-05-31 | 山东新一代信息产业技术研究院有限公司 | 一种用于语音识别的热词增强方法、设备及介质 |
CN116052674B (zh) * | 2022-12-19 | 2023-06-09 | 北京数美时代科技有限公司 | 基于预测未来帧的流式语音识别方法、系统和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013029652A (ja) | 2011-07-28 | 2013-02-07 | Nippon Hoso Kyokai <Nhk> | 音声認識装置および音声認識プログラム |
JP2020112787A (ja) | 2019-01-08 | 2020-07-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP6004452B2 (ja) * | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
US9807473B2 (en) * | 2015-11-20 | 2017-10-31 | Microsoft Technology Licensing, Llc | Jointly modeling embedding and translation to bridge video and language |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN107195295B (zh) * | 2017-05-04 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US11126800B2 (en) * | 2018-09-28 | 2021-09-21 | Baidu Usa Llc. | Systems and methods for simultaneous translation with integrated anticipation and controllable latency (STACL) |
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
WO2020146873A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
US11461638B2 (en) * | 2019-03-07 | 2022-10-04 | Adobe Inc. | Figure captioning system and related methods |
CN110136715B (zh) * | 2019-05-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110428809B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110995943B (zh) * | 2019-12-25 | 2021-05-07 | 携程计算机技术(上海)有限公司 | 多用户流式语音识别方法、系统、设备及介质 |
CN111179918B (zh) * | 2020-02-20 | 2022-10-14 | 中国科学院声学研究所 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
US11538481B2 (en) * | 2020-03-18 | 2022-12-27 | Sas Institute Inc. | Speech segmentation based on combination of pause detection and speaker diarization |
CN111415667B (zh) * | 2020-03-25 | 2024-04-23 | 中科极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
US12073310B2 (en) * | 2020-04-01 | 2024-08-27 | Microsoft Technology Licensing, Llc | Deep neural network accelerator with independent datapaths for simultaneous processing of different classes of operations |
CN111754991A (zh) * | 2020-06-28 | 2020-10-09 | 汪秀英 | 一种采用自然语言的分布式智能交互的实现方法及其系统 |
US11630562B2 (en) * | 2020-09-10 | 2023-04-18 | Adobe Inc. | Interacting with hierarchical clusters of video segments using a video timeline |
US11527238B2 (en) * | 2020-10-30 | 2022-12-13 | Microsoft Technology Licensing, Llc | Internal language model for E2E models |
-
2020
- 2020-11-18 CN CN202011295751.2A patent/CN112382278B/zh active Active
-
2021
- 2021-11-01 JP JP2021178830A patent/JP7308903B2/ja active Active
- 2021-11-08 US US17/521,473 patent/US20220068265A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013029652A (ja) | 2011-07-28 | 2013-02-07 | Nippon Hoso Kyokai <Nhk> | 音声認識装置および音声認識プログラム |
JP2020112787A (ja) | 2019-01-08 | 2020-07-27 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
Non-Patent Citations (1)
Title |
---|
XIONG, Hao et al.,"DuTongChuan*: Context-aware Translation Model for Simultaneous Interpreting",[online],2019年08月16日,[retrieved on 2022.11.29], Retrieved from the Internet:<URL:https://arxiv.org/pdf/1907.12984v2.pdf> |
Also Published As
Publication number | Publication date |
---|---|
CN112382278B (zh) | 2021-08-17 |
CN112382278A (zh) | 2021-02-19 |
JP2022020724A (ja) | 2022-02-01 |
US20220068265A1 (en) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7308903B2 (ja) | ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
JP2022028887A (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
JP2021157802A (ja) | テキスト生成モデルのトレーニング方法、装置及び電子機器 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN112542155B (zh) | 歌曲合成方法及模型训练方法、装置、设备与存储介质 | |
JP7167106B2 (ja) | 口形特徴予測方法、装置及び電子機器 | |
CN112633017B (zh) | 翻译模型训练、翻译处理方法、装置、设备和存储介质 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
JP7246437B2 (ja) | 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム | |
CN112489637A (zh) | 语音识别方法和装置 | |
JP2023165012A (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
JP2021192119A (ja) | 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
KR20230086737A (ko) | 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들 | |
US20220375453A1 (en) | Method and apparatus for speech synthesis, and storage medium | |
CN112528605B (zh) | 文本风格处理方法、装置、电子设备和存储介质 | |
JP2022028897A (ja) | 文章翻訳方法、装置、電子機器及び記憶媒体 | |
JP2022028889A (ja) | 対話生成方法、装置、電子機器及び記憶媒体 | |
CN111328416A (zh) | 用于自然语言处理中的模糊匹配的语音模式 | |
JP7204861B2 (ja) | 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体 | |
JP7510562B2 (ja) | オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品 | |
JP7268113B2 (ja) | 音声認識方法、装置、電子機器及び記憶媒体 | |
JP7349523B2 (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
KR20230156795A (ko) | 단어 분할 규칙화 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211101 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7308903 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |