JP2018081294A - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム - Google Patents
音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP2018081294A JP2018081294A JP2017003893A JP2017003893A JP2018081294A JP 2018081294 A JP2018081294 A JP 2018081294A JP 2017003893 A JP2017003893 A JP 2017003893A JP 2017003893 A JP2017003893 A JP 2017003893A JP 2018081294 A JP2018081294 A JP 2018081294A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- acoustic model
- context
- probability
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音響モデル記憶部20は、音響特徴ベクトルを入力として、事後確率ベクトルと空シンボル確率とを出力するニューラルネットワークを用いた音響モデルを記憶する。事後確率計算部12は、学習音声から抽出した音響特徴ベクトルをニューラルネットワークに入力して事後確率ベクトルと空シンボル確率とを得る。文脈保存ベクトル計算部13は、空シンボル確率に基づいてニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくはニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算する。文脈保存ベクトル連結部14は、文脈保存ベクトルが計算されるたびに文脈保存ベクトルをニューラルネットワークに連結する。
【選択図】図1
Description
文脈保存ベクトルの計算では、過去の1シンボルの分布についての情報だけを保存する更新則を用いる例を説明したが、複数シンボルの分布についての情報を保存するように構成することも可能である。例えば、3シンボルの分布についての情報を保存する場合であれば、文脈保存ベクトル計算部13は、式(4)の計算により、文脈保存ベクトルKt=[kt,1, kt,2, kt,3, kt,4, …]Tと同様の事後確率ベクトルLt+1=[lt+1,1, lt+1,2, lt+1,3, lt+1,4, …]T, Mt+1=[mt+1,1, mt+1,2, mt+1,3, mt+1,4, …]Tを生成し、文脈保存ベクトルKt+1に事後確率ベクトルLt+1, Mt+1を連結したベクトルを文脈保存ベクトルKt+1として扱う。
4シンボル以上の分布についての情報を保持する場合は、同様にしてシンボル数分の事後確率ベクトルを生成し、文脈保存ベクトルKt+1に連結すればよい。例えば、Nシンボルの分布についての情報を保存する場合、i=1, …, N-1について式(5)を計算して事後確率ベクトルK(1) t+1, …, K(N-1) t+1を生成し、文脈保存ベクトルKt+1に連結する。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 文脈保存ベクトル生成部
12 事後確率計算部
13 文脈保存ベクトル計算部
14 文脈保存ベクトル連結部
20 音響モデル記憶部
21 言語モデル記憶部
22 音声認識部
Claims (9)
- 音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルを記憶する音響モデル記憶部と、
学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得る事後確率計算部と、
上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算する文脈保存ベクトル計算部と、
上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する文脈保存ベクトル連結部と、
を含む音響モデル学習装置。 - 請求項1から4のいずれかに記載の音響モデル学習装置であって、
上記文脈保存ベクトル計算部は、以前の時刻に計算した上記文脈保存ベクトルと上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルとの類似度を計算し、その類似度を上記空シンボル確率と統合した保持値を用いて上記文脈保存ベクトルを計算する、
音響モデル学習装置。 - 請求項1から5のいずれかに記載の音響モデル学習装置により学習した音響モデルを記憶する音響モデル記憶部と、
上記音響モデルを用いて入力音声の音声認識を行う音声認識部と、
を含む音声認識装置。 - 音響モデル記憶部に、音響特徴ベクトルを入力として、上記音響特徴ベクトルに対応する出力シンボルに対する事後確率ベクトルと、上記出力シンボルが空シンボルである確率を表す空シンボル確率と、を出力するニューラルネットワークを用いた音響モデルが記憶されており、
事後確率計算部が、学習音声から抽出した音響特徴ベクトルを上記ニューラルネットワークに入力して上記事後確率ベクトルと上記空シンボル確率とを得、
文脈保存ベクトル計算部が、上記空シンボル確率に基づいて上記ニューラルネットワークが以前の時刻に出力した事後確率ベクトルもしくは上記ニューラルネットワークが現在の時刻に出力した事後確率ベクトルを選択して保持する文脈保存ベクトルを計算し、
文脈保存ベクトル連結部が、上記文脈保存ベクトルが計算されるたびに上記文脈保存ベクトルを上記ニューラルネットワークの入力層もしくは隠れ層に連結する、
音響モデル学習方法。 - 音響モデル記憶部に、請求項7に記載の音響モデル学習方法により学習した音響モデルが記憶されており、
音声認識部が、上記音響モデルを用いて入力音声の音声認識を行う、
音声認識方法。 - 請求項1から5のいずれかに記載の音響モデル学習装置もしくは請求項6に記載の音声認識装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016219658 | 2016-11-10 | ||
JP2016219658 | 2016-11-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018081294A true JP2018081294A (ja) | 2018-05-24 |
JP6633556B2 JP6633556B2 (ja) | 2020-01-22 |
Family
ID=62198883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017003893A Active JP6633556B2 (ja) | 2016-11-10 | 2017-01-13 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6633556B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192224A (zh) * | 2018-09-14 | 2019-01-11 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109273003A (zh) * | 2018-11-20 | 2019-01-25 | 苏州思必驰信息科技有限公司 | 用于行车记录仪的语音控制方法及系统 |
-
2017
- 2017-01-13 JP JP2017003893A patent/JP6633556B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192224A (zh) * | 2018-09-14 | 2019-01-11 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109192224B (zh) * | 2018-09-14 | 2021-08-17 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109273003A (zh) * | 2018-11-20 | 2019-01-25 | 苏州思必驰信息科技有限公司 | 用于行车记录仪的语音控制方法及系统 |
CN109273003B (zh) * | 2018-11-20 | 2021-11-02 | 思必驰科技股份有限公司 | 用于行车记录仪的语音控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6633556B2 (ja) | 2020-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902845B2 (en) | System and methods for adapting neural network acoustic models | |
JP6615736B2 (ja) | 音声言語識別装置、その方法、及びプログラム | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
JP7418991B2 (ja) | 音声認識方法及び装置 | |
US20190096388A1 (en) | Generating phonemes of loan words using two converters | |
CN113434683B (zh) | 文本分类方法、装置、介质及电子设备 | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP6691501B2 (ja) | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
JP6353408B2 (ja) | 言語モデル適応装置、言語モデル適応方法、プログラム | |
JP2024510816A (ja) | タイイングされ縮小されたrnn-t | |
JP2014160168A (ja) | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム | |
WO2019235191A1 (ja) | モデル学習装置、方法及びプログラム | |
JP2019021206A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル | |
JP6965846B2 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム | |
KR102674639B1 (ko) | 신경망 모델 기반 암호문을 복호화하기 위한 전자 장치 및 전자 장치의 제어 방법 | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
US11556783B2 (en) | Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program | |
CN117333192A (zh) | 业务对话的生成方法、装置、计算机设备和存储介质 | |
KR20240086286A (ko) | 음성 처리 장치 및 방법 | |
KR20240089276A (ko) | 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝 | |
KR20220160373A (ko) | 신경망 모델 기반 암호문을 복호화하기 위한 전자 장치 및 전자 장치의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6633556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |