JP6712540B2 - モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム - Google Patents
モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム Download PDFInfo
- Publication number
- JP6712540B2 JP6712540B2 JP2016229859A JP2016229859A JP6712540B2 JP 6712540 B2 JP6712540 B2 JP 6712540B2 JP 2016229859 A JP2016229859 A JP 2016229859A JP 2016229859 A JP2016229859 A JP 2016229859A JP 6712540 B2 JP6712540 B2 JP 6712540B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech recognition
- model parameter
- model
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1に本変形例のモデルパラメータ製造装置の機能構成例を示す。図5に本変形例のモデルパラメータ製造方法を示す。本変形例のモデルパラメータ製造装置105も、K個の言語モデルを用いて音声認識を行う際に言語モデルごとの重みを決定する混合重み決定部210が用いるモデルパラメータの学習を行う。モデルパラメータ製造装置105は、混合重み決定部210、音声認識結果生成部115、最適混合重み決定部120、モデルパラメータ学習部130、記録部190を備える。記録部190は、学習用連続発話の音声データとその正解文、初期モデルパラメータおよびモデルパラメータを記録する。実施例1のモデルパラメータ製造装置100とは、混合重み決定部210を備えている点と、音声認識結果生成部115が異なる。実施例1の音声認識結果生成部110はあらかじめ定めた重み(例えばすべての重みが1/K)を用いていたが、本変形例の音声認識結果生成部115は混合重み決定部210が出力した重みλ1,…, λKを用いる点が異なっている。音声認識装置200は、実施例1と同じである。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
110,115 音声認識結果生成部
120 最適混合重み決定部
130 モデルパラメータ学習部
190,290 記録部
200 音声認識装置
210 混合重み決定部
220 適応型音声認識部
Claims (7)
- K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
Kはあらかじめ定めた2以上の整数、nは正の整数とし、
学習用連続発話の音声データが入力されると、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成部と、
前記学習用連続発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
を備えたモデルパラメータ生成装置。 - K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定部が用いるモデルパラメータの学習を行うモデルパラメータ生成装置であって、
Kはあらかじめ定めた2以上の整数、nは正の整数とし、
あらかじめ定めた初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定部と、
n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定部が出力した重みを用いて、n+1番目の発話の音声認識結果を出力する音声認識結果生成部と、
前記n+1番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定部と、
前記音声認識結果と前記最適混合重み決定部が決定した重みを入力とし、前記混合重み決定部が、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定部が決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習部
を備えたモデルパラメータ生成装置。 - K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップで用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
Kはあらかじめ定めた2以上の整数、nは正の整数とし、
学習用連続発話の音声データを入力とし、あらかじめ定めた重みで前記言語モデルを用いて音声認識を行い、発話ごとの音声認識結果を出力する音声認識結果生成ステップと、
前記学習用連続発話の正解文を入力とし、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記K個の言語モデルごとの重みを決定する最適混合重み決定ステップと、
前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
を実行するモデルパラメータ生成方法。 - K個の言語モデルを用いて音声認識を行う際に前記言語モデルごとの重みを決定する混合重み決定ステップが用いるモデルパラメータの学習を行うモデルパラメータ生成方法であって、
Kはあらかじめ定めた2以上の整数、nは正の整数とし、
あらかじめ定めた初期モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いる前記言語モデルごとの重みを出力する前記混合重み決定ステップと、
n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、n+1番目の発話の音声認識結果を出力する音声認識結果生成ステップと、
前記n+1番目の発話の正解文が入力されると、発話ごとに、当該発話の前記正解文の単語列を用いて、当該発話の音声認識に適した前記言語モデルごとの重みを決定する最適混合重み決定ステップと、
前記音声認識結果と前記最適混合重み決定ステップが決定した重みを入力とし、前記混合重み決定ステップが、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、前記最適混合重み決定ステップが決定したn+1番目の発話の音声認識に適した前記言語モデルごとの重みを出力するようにモデルパラメータの学習を行うモデルパラメータ学習ステップ
を実行するモデルパラメータ生成方法。 - 請求項4記載のモデルパラメータ生成方法であって、
所定の条件を満たすまで、前記初期モデルパラメータを前記モデルパラメータ学習ステップで学習したモデルパラメータに変更しながら、前記混合重み決定ステップ、前記音声認識結果生成ステップ、前記モデルパラメータ学習ステップを繰り返す
ことを特徴とするモデルパラメータ生成方法。 - Kはあらかじめ定めた2以上の整数、nは正の整数とし、
モデルパラメータを用いて、n番目までの発話に対する音声認識結果の中からあらかじめ定めた方法で選ばれた音声認識結果に基づいて、n+1番目の発話の音声認識に用いるK個の言語モデルごとの重みを出力する混合重み決定部と、
n+1番目の発話の音声データが入力されると、前記K個の言語モデルと前記混合重み決定ステップが出力した重みを用いて、n+1番目の発話の音声認識結果を出力する適応型音声認識部
を備える音声認識装置の作成方法であって、
前記モデルパラメータを生成するために、請求項3〜5のいずれかに記載のモデルパラメータ生成方法の各ステップを実行する
ことを特徴とする音声認識装置の作成方法。 - 請求項3〜5のいずれかに記載のモデルパラメータ生成方法の各ステップ、または請求項6記載の音声認識装置の作成方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229859A JP6712540B2 (ja) | 2016-11-28 | 2016-11-28 | モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229859A JP6712540B2 (ja) | 2016-11-28 | 2016-11-28 | モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018087842A JP2018087842A (ja) | 2018-06-07 |
JP6712540B2 true JP6712540B2 (ja) | 2020-06-24 |
Family
ID=62493567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016229859A Active JP6712540B2 (ja) | 2016-11-28 | 2016-11-28 | モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6712540B2 (ja) |
-
2016
- 2016-11-28 JP JP2016229859A patent/JP6712540B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018087842A (ja) | 2018-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
US11798535B2 (en) | On-device custom wake word detection | |
US11158305B2 (en) | Online verification of custom wake word | |
EP3857543B1 (en) | Conversational agent pipeline trained on synthetic data | |
US10032463B1 (en) | Speech processing with learned representation of user interaction history | |
US9818409B2 (en) | Context-dependent modeling of phonemes | |
US11462216B2 (en) | Hybrid arbitration system | |
KR102399535B1 (ko) | 음성 인식을 위한 학습 방법 및 장치 | |
US11113596B2 (en) | Select one of plurality of neural networks | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
CN113591462A (zh) | 弹幕回复生成方法、装置及电子设备 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
US9892726B1 (en) | Class-based discriminative training of speech models | |
JP6712540B2 (ja) | モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
Chung et al. | Rank‐weighted reconstruction feature for a robust deep neural network‐based acoustic model | |
US11804225B1 (en) | Dialog management system | |
US11837229B1 (en) | Interaction data and processing natural language inputs | |
JP7367609B2 (ja) | 応答文生成装置、強化学習装置、応答文生成方法、モデル生成方法、プログラム | |
JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
Raj | Seq2Seq learning Chatbot with Attention Mechanism | |
Iglesias et al. | Influence of the data codification when applying evolving classifiers to develop spoken dialog systems | |
JP2006098425A (ja) | 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6712540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |