JP6633556B2 - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム - Google Patents
音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP6633556B2 JP6633556B2 JP2017003893A JP2017003893A JP6633556B2 JP 6633556 B2 JP6633556 B2 JP 6633556B2 JP 2017003893 A JP2017003893 A JP 2017003893A JP 2017003893 A JP2017003893 A JP 2017003893A JP 6633556 B2 JP6633556 B2 JP 6633556B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- acoustic model
- context
- preserving
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
文脈保存ベクトルの計算では、過去の1シンボルの分布についての情報だけを保存する更新則を用いる例を説明したが、複数シンボルの分布についての情報を保存するように構成することも可能である。例えば、3シンボルの分布についての情報を保存する場合であれば、文脈保存ベクトル計算部13は、式(4)の計算により、文脈保存ベクトルKt=[kt,1, kt,2, kt,3, kt,4, …]Tと同様の事後確率ベクトルLt+1=[lt+1,1, lt+1,2, lt+1,3, lt+1,4, …]T, Mt+1=[mt+1,1, mt+1,2, mt+1,3, mt+1,4, …]Tを生成し、文脈保存ベクトルKt+1に事後確率ベクトルLt+1, Mt+1を連結したベクトルを文脈保存ベクトルKt+1として扱う。
4シンボル以上の分布についての情報を保持する場合は、同様にしてシンボル数分の事後確率ベクトルを生成し、文脈保存ベクトルKt+1に連結すればよい。例えば、Nシンボルの分布についての情報を保存する場合、i=1, …, N-1について式(5)を計算して事後確率ベクトルK(1) t+1, …, K(N-1) t+1を生成し、文脈保存ベクトルKt+1に連結する。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 文脈保存ベクトル生成部
12 事後確率計算部
13 文脈保存ベクトル計算部
14 文脈保存ベクトル連結部
20 音響モデル記憶部
21 言語モデル記憶部
22 音声認識部
Claims (9)
- 音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルを記憶する音響モデル記憶部と、
学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得る事後確率計算部と、
上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算する文脈保存ベクトル計算部と、
上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する文脈保存ベクトル連結部と、
を含む音響モデル学習装置。 - 請求項1から4のいずれかに記載の音響モデル学習装置であって、
上記文脈保存ベクトル計算部は、以前の時刻に計算した上記文脈保存ベクトルと上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルとの類似度を計算し、その類似度を上記空シンボル確率と統合した保持値を用いて上記文脈保存ベクトルを計算する、
音響モデル学習装置。 - 請求項1から5のいずれかに記載の音響モデル学習装置により学習した音響モデルを記憶する音響モデル記憶部と、
上記音響モデルを用いて入力音声の音声認識を行う音声認識部と、
を含む音声認識装置。 - 音響モデル記憶部に、音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルが記憶されており、
事後確率計算部が、学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得、
文脈保存ベクトル計算部が、上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算し、
文脈保存ベクトル連結部が、上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する、
音響モデル学習方法。 - 音響モデル記憶部に、請求項7に記載の音響モデル学習方法により学習した音響モデルが記憶されており、
音声認識部が、上記音響モデルを用いて入力音声の音声認識を行う、
音声認識方法。 - 請求項1から5のいずれかに記載の音響モデル学習装置もしくは請求項6に記載の音声認識装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219658 | 2016-11-10 | ||
JP2016219658 | 2016-11-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018081294A JP2018081294A (ja) | 2018-05-24 |
JP6633556B2 true JP6633556B2 (ja) | 2020-01-22 |
Family
ID=62198883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017003893A Active JP6633556B2 (ja) | 2016-11-10 | 2017-01-13 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6633556B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192224B (zh) * | 2018-09-14 | 2021-08-17 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109273003B (zh) * | 2018-11-20 | 2021-11-02 | 思必驰科技股份有限公司 | 用于行车记录仪的语音控制方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60158493A (ja) * | 1984-01-27 | 1985-08-19 | カシオ計算機株式会社 | エラ−除去装置 |
JP4381404B2 (ja) * | 2006-09-25 | 2009-12-09 | 株式会社エヌ・ティ・ティ・ドコモ | 音声合成システム、音声合成方法、音声合成プログラム |
-
2017
- 2017-01-13 JP JP2017003893A patent/JP6633556B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018081294A (ja) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902845B2 (en) | System and methods for adapting neural network acoustic models | |
US10395641B2 (en) | Modifying a language conversation model | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
CN110807515A (zh) | 模型生成方法和装置 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
WO2019037700A1 (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
JP6615736B2 (ja) | 音声言語識別装置、その方法、及びプログラム | |
JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN111950295A (zh) | 一种训练自然语言处理模型的方法和系统 | |
US20210073645A1 (en) | Learning apparatus and method, and program | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
CN114065915A (zh) | 网络模型的构建方法、数据处理方法、装置、介质及设备 | |
JP6691501B2 (ja) | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
CN111402864A (zh) | 语音处理方法及电子设备 | |
CN116842153A (zh) | 一种基于反馈特征学习的多模态情感分析方法、系统 | |
KR102663654B1 (ko) | 적응형 시각적 스피치 인식 | |
JP2021039220A (ja) | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム | |
JP6353408B2 (ja) | 言語モデル適応装置、言語モデル適応方法、プログラム | |
CN117355840A (zh) | 正则化词分割 | |
JP6965846B2 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6633556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |