JP7278477B2 - 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 - Google Patents
復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 Download PDFInfo
- Publication number
- JP7278477B2 JP7278477B2 JP2022517515A JP2022517515A JP7278477B2 JP 7278477 B2 JP7278477 B2 JP 7278477B2 JP 2022517515 A JP2022517515 A JP 2022517515A JP 2022517515 A JP2022517515 A JP 2022517515A JP 7278477 B2 JP7278477 B2 JP 7278477B2
- Authority
- JP
- Japan
- Prior art keywords
- decoding network
- decoding
- language model
- general
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することとを含む。
前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルにだけ出現する部分にして補間を行うことと、
補間部分に基づいて前記領域復号化ネットワークを生成することとを含む。
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、対象復号化ネットワークを取得することを含む。
続することは、
前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することとを含む。
前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うこととを含む。
上記のいずれか1項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することとを含む。
予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される。
前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データに対応する復号化経路を取得することを含み、
このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの2つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び/又は前記領域復号化ネットワークに入力して復号化を継続する。
前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する、
前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成する、
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎
用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
前記領域復号化ネットワーク生成サブモジュールは、補間部分に基づいて前記領域復号化ネットワークを生成する。
前記復号化モジュールは、上記のいずれか1項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記対象復号化ネットワークの復号化経路を取得する、
前記音声認識結果決定モジュールは、前記対象復号化ネットワークの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する。
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する。
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか1項に記載の音声認識方法の各ステップを実現する。
定領域の専門語彙を含む音声を認識する際に、より正確な音声認識結果を取得することができる。
ットワーク(例えば、WFST)に再生成する必要がある。補間された汎用言語モデルの規模が大きいため、復号化ネットワークの生成にはかなり時間(数時間以上)がかかり、大量の記憶リソースを必要とする。したがって、実際のシステムへの適用は困難である。
S101:汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する。
このうち、領域言語モデルは特定領域のコーパスをトレーニングして得られ、汎用復号化ネットワークは汎用言語モデルをバイナリ変換して得られる。
S102:汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成する。
S103:領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
に低減される。
S201では、汎用言語モデルと領域言語モデルに対して補間を行う。
このうち、補間部分は、領域言語モデル及び汎用言語モデルのうち、領域言語モデルに出現する部分である。
復号化ネットワークと汎用復号化ネットワークを並列接続することができる。
S301:汎用復号化ネットワーク及び領域復号化ネットワークのそれぞれに仮想ノードを追加する。
このうち、仮想ノードは開始ノード及び終了ノードを含む。
S302:開始ノード及び終了ノードを用いて、汎用復号化ネットワークと領域復号化ネットワークとを直列接続する。
行い、汎用復号化ネットワーク内のノード3と汎用復号化ネットワークのために作成された終了ノードに対して有向接続(ノード3から終了ノードへの方向)を行い、汎用復号化ネットワークのために作成された終了ノードと汎用復号化ネットワークのために作成された開始ノードに対して有向接続(終了ノードから開始ノードへの方向)を行う。
S501:対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得する。
このうち、対象復号化ネットワークは、上述した実施例に係る復号化ネットワーク構築方法を用いて構築された復号化ネットワークである。
識結果を構成し、経路における各辺の音響重みを加算し、これに経路に対応する言語重みを加算したものを経路全体のスコアとする。
ークと領域復号化ネットワークとを直列接続する。
)、又は本発明の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決
定する。
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。
Claims (16)
- 汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することと、
を含むことを特徴とする復号化ネットワーク構築方法。 - 前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成することは、
前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であることと、
補間部分に基づいて前記領域復号化ネットワークを生成することと、
を含むことを特徴とする請求項1に記載の復号化ネットワーク構築方法。 - 前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することは、
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得することを含む、
ことを特徴とする請求項1に記載の復号化ネットワーク構築方法。 - 前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することと、
を含むことを特徴とする請求項3に記載の復号化ネットワーク構築方法。 - 前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
を含むことを特徴とする請求項4に記載の復号化ネットワーク構築方法。 - 請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することと、
を含むことを特徴とする音声認識方法。 - 前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することは、
予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される、
ことを特徴とする請求項6に記載の音声認識方法。 - 前記対象復号化ネットワークを用いて前記認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することは、
前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データの復号化経路を取得することを含み、
このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの2つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び/又は前記領域復号化ネットワークに入力して復号化を継続する、
ことを特徴とする請求項6に記載の音声認識方法。 - 復号化ネットワーク構築装置であって、言語モデル・汎用復号化ネットワーク取得モジュール、領域復号化ネットワーク生成モジュール及び復号化ネットワーク組み込みモジュールを含み、
前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成し、
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する、
ことを特徴とする復号化ネットワーク構築装置。 - 前記領域復号化ネットワーク生成モジュールは、補間サブモジュールと領域復号化ネットワーク生成サブモジュールとを含み、
前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
前記領域復号化ネットワーク生成サブモジュールは、前記補間部分に基づいて前記領域復号化ネットワークを生成する、
ことを特徴とする請求項9に記載の復号化ネットワーク構築装置。 - 前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得する、
ことを特徴とする請求項9に記載の復号化ネットワーク構築装置。 - 音声認識装置であって、復号化モジュール及び音声認識結果決定モジュールを含み、
前記復号化モジュールは、請求項9~11のいずれか1項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化して、前記認識対象音声データの復号化経路を取得し、
前記音声認識結果決定モジュールは、前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する、
ことを特徴とする音声認識装置。 - 復号化ネットワーク構築設備であって、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する、
ことを特徴とする復号化ネットワーク構築設備。 - コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。 - 音声認識設備であって、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、請求項6~8のいずれか1項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする音声認識設備。 - コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項6~8のいずれか1項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910983196.3 | 2019-10-16 | ||
CN201910983196.3A CN110610700B (zh) | 2019-10-16 | 2019-10-16 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
PCT/CN2019/124790 WO2021072955A1 (zh) | 2019-10-16 | 2019-12-12 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022548718A JP2022548718A (ja) | 2022-11-21 |
JP7278477B2 true JP7278477B2 (ja) | 2023-05-19 |
Family
ID=68894690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022517515A Active JP7278477B2 (ja) | 2019-10-16 | 2019-12-12 | 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220375459A1 (ja) |
EP (1) | EP4047597A4 (ja) |
JP (1) | JP7278477B2 (ja) |
KR (1) | KR102576505B1 (ja) |
CN (1) | CN110610700B (ja) |
WO (1) | WO2021072955A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402864A (zh) * | 2020-03-19 | 2020-07-10 | 北京声智科技有限公司 | 语音处理方法及电子设备 |
CN111508478B (zh) * | 2020-04-08 | 2023-04-11 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
CN111933118B (zh) * | 2020-08-17 | 2022-11-15 | 思必驰科技股份有限公司 | 进行语音识别优化的方法、装置及应用其的智能语音对话系统 |
CN112820277B (zh) * | 2021-01-06 | 2023-08-25 | 网易(杭州)网络有限公司 | 语音识别服务定制方法、介质、装置和计算设备 |
CN112951237B (zh) * | 2021-03-18 | 2022-03-04 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN113113024A (zh) * | 2021-04-29 | 2021-07-13 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113299280A (zh) * | 2021-05-12 | 2021-08-24 | 山东浪潮科学研究院有限公司 | 基于Kaldi的专业词汇语音识别方法 |
CN113779972B (zh) * | 2021-09-10 | 2023-09-15 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN113782001B (zh) * | 2021-11-12 | 2022-03-08 | 深圳市北科瑞声科技股份有限公司 | 一种特定领域语音识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113043A (ja) | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
JP2016512609A (ja) | 2013-01-29 | 2016-04-28 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及系统 |
CN103700369B (zh) * | 2013-11-26 | 2016-08-31 | 科大讯飞股份有限公司 | 语音导航方法及系统 |
CN104064184B (zh) * | 2014-06-24 | 2017-03-08 | 科大讯飞股份有限公司 | 异构解码网络的构建方法及系统、语音识别方法及系统 |
JP6358744B2 (ja) * | 2014-08-25 | 2018-07-18 | 日本放送協会 | 音声認識誤り修正装置 |
CN106294460B (zh) * | 2015-05-29 | 2019-10-22 | 中国科学院声学研究所 | 一种基于字和词混合语言模型的汉语语音关键词检索方法 |
CN108932944B (zh) * | 2017-10-23 | 2021-07-30 | 北京猎户星空科技有限公司 | 解码方法及装置 |
US10490183B2 (en) * | 2017-11-22 | 2019-11-26 | Amazon Technologies, Inc. | Fully managed and continuously trained automatic speech recognition service |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
CN108305634B (zh) * | 2018-01-09 | 2020-10-16 | 深圳市腾讯计算机系统有限公司 | 解码方法、解码器及存储介质 |
CN108538285B (zh) * | 2018-03-05 | 2021-05-04 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
JP6578049B2 (ja) * | 2018-09-18 | 2019-09-18 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN110322884B (zh) * | 2019-07-09 | 2021-12-07 | 科大讯飞股份有限公司 | 一种解码网络的插词方法、装置、设备及存储介质 |
-
2019
- 2019-10-16 CN CN201910983196.3A patent/CN110610700B/zh active Active
- 2019-12-12 WO PCT/CN2019/124790 patent/WO2021072955A1/zh active Application Filing
- 2019-12-12 US US17/761,217 patent/US20220375459A1/en active Pending
- 2019-12-12 EP EP19949233.1A patent/EP4047597A4/en active Pending
- 2019-12-12 KR KR1020227011705A patent/KR102576505B1/ko active IP Right Grant
- 2019-12-12 JP JP2022517515A patent/JP7278477B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113043A (ja) | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
JP2016512609A (ja) | 2013-01-29 | 2016-04-28 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 自動音声認識のための方法およびシステム |
Non-Patent Citations (1)
Title |
---|
奥貴裕他,放送音声と字幕テキストを利用した音声言語コーパスの開発,情報処理学会研究報告,情報処理学会,2014年10月,Vol.2014-SLP-103,No.2,pp. 1-5 |
Also Published As
Publication number | Publication date |
---|---|
CN110610700B (zh) | 2022-01-14 |
JP2022548718A (ja) | 2022-11-21 |
CN110610700A (zh) | 2019-12-24 |
EP4047597A1 (en) | 2022-08-24 |
KR102576505B1 (ko) | 2023-09-08 |
EP4047597A4 (en) | 2023-11-15 |
KR20220062349A (ko) | 2022-05-16 |
WO2021072955A1 (zh) | 2021-04-22 |
US20220375459A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7278477B2 (ja) | 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 | |
WO2017166650A1 (zh) | 语音识别方法及装置 | |
US10242667B2 (en) | Natural language generation in a spoken dialogue system | |
JP2021018797A (ja) | 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
US9047868B1 (en) | Language model data collection | |
WO2019076286A1 (zh) | 一种语句的用户意图识别方法和装置 | |
WO2019174450A1 (zh) | 一种对话生成的方法和装置 | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
CN112307188B (zh) | 对话生成方法、系统、电子设备和可读存储介质 | |
KR20230006625A (ko) | Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법 | |
CN116670757A (zh) | 用于简化的流式和非流式语音识别的级联编码器 | |
WO2022142823A1 (zh) | 人机对话方法、装置、计算机设备及可读存储介质 | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
CN116884391A (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP7278309B2 (ja) | 文章レベルテキストの翻訳方法及び装置 | |
WO2019161753A1 (zh) | 信息转换方法、装置、存储介质和电子装置 | |
JP6485941B2 (ja) | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 | |
CN111681661B (zh) | 语音识别的方法、装置、电子设备和计算机可读介质 | |
WO2023185896A1 (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN113689866B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
JP7335460B2 (ja) | テキストエコー消去 | |
RU2796047C1 (ru) | Способ построения сети декодирования, способ и устройство для распознавания речи, а также носитель данных | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN110110294B (zh) | 一种动态反向解码的方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230509 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7278477 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |