JP5249967B2 - 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム - Google Patents
音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム Download PDFInfo
- Publication number
- JP5249967B2 JP5249967B2 JP2010026456A JP2010026456A JP5249967B2 JP 5249967 B2 JP5249967 B2 JP 5249967B2 JP 2010026456 A JP2010026456 A JP 2010026456A JP 2010026456 A JP2010026456 A JP 2010026456A JP 5249967 B2 JP5249967 B2 JP 5249967B2
- Authority
- JP
- Japan
- Prior art keywords
- arc
- vector
- wfst
- correct
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
次に、WFST型ログリニアデコーダ120の原理について説明する。本発明では、式(7)に示されたスコア計算式を、次式のようにベクトル同士の内積で表現する。
φ(X,A)=(φ1(X,A),φ2(X,A),…,φK(X,A))T
α=(α1,α2,…,αK)T
とし、アークIDごとの素性・重みベクトルを連結させると、音声データXが与えられた際の経路Aに対するスコアW(X,A)は次のように重みベクトルと素性ベクトルの内積で表現される。
つまり、図3のWFST型ログリニアデコーダ120の“対数領域でのアーク系列AのスコアW(X,A)を、特徴量ベクトルの時系列Xとアーク系列Aから得られる素性ベクトルφ(X,A)と、重みベクトルαとの線形表現で表現する”とは、例えば式(12)の表現である。
図5は、重みベクトル学習装置を備えた音声認識装置の機能構成を示す図であり、図6は重みベクトルの学習の処理フローを示している。音声認識装置200は、重みベクトル学習装置300も備えており、その他の構成は音声認識装置100と同じである。本発明の場合、従来のWFSTネットワークのアークに付随する情報(式(4))において、重みwをベクトル表現に拡張する必要がある。また、WFST型のデコーディングのみを目的とする場合は、WFSTネットワークのアークにID情報を付与しないのが通常である。そこで、本発明の重みベクトル学習装置300は、アークIDをWFSTネットワークのアークに埋め込む。したがって、重みベクトル学習装置300は、アーク系列Aごとに素性ベクトルφ(X,A)を蓄積し、重みベクトルαをN個の学習データ{(X1,y1),…,(XN,yN)}を用いて推定する(S300)。ここで、Xnはn番目の特徴量ベクトルの時系列、ynはn番目のシンボル系列(単語系列)を示している。本変形例の音声認識装置は、このような構成なので、実施例1と同様の効果が得られる。
本発明の音声認識装置は、従来のモデルでは表現できないコンテクストや単語モデルなどが表現でき、全体最適化ができる。以下では連続音素認識実験を使って本発明の効果を検証する。TIMIT連続音素認識実験では、音素音響モデルと音素言語モデル(音素バイグラム)モデルを用いた。この場合、WFST型デコーダは音素音響モデルと音素言語モデルを合成したネットワークの探索問題を扱うことになる。本発明では従来法として、音素音響モデルと音素言語モデル各々を学習データから個別に求める従来法と、それらが合成されたネットワーク上でのモデルを学習データにより求める本発明との比較を行う。合成されたネットワークにおいては、音素バイグラムの制約から、音素コンテクスト表現が内包されており、従来法に比べてより精細なモデルを構築していると期待される。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
120 WFST型ログリニアデコーダ
190、890、990 記録部
300 重みベクトル学習装置 305 重みベクトル更新手段
320 正解WFST型ログリニアデコーダ
325 仮説WFST型ログリニアデコーダ
330 正解WFST合成部 350 パラメータ更新部
360 重みベクトル平均化部 390 学習記録部
820 WFST型デコーダ 830 WFST合成部
840 出力シンボル抽出部 910 特徴量抽出部
920 単語列探索部
Claims (13)
- 発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録する記録部と、
前記発音辞書モデルと前記言語モデルと前記音響モデルを合成し、WFSTネットワークを出力するWFST合成部と、
音声データから特徴量を抽出し、特徴量ベクトルの時系列Xを出力する特徴量抽出部と、
前記特徴量ベクトルの時系列Xと前記WFSTネットワークにおけるアークa m により得られる素性ベクトルをφ(X,a m )とし、
前記WFSTネットワークにおけるm番目のアークa m に対する重みベクトルをα am とし、
前記WFSTネットワークにおけるアークの総数をKとしたとき、
前記重みベクトルαは、前記WFSTネットワークにおける各アークa m の重みベクトルα am を全てのアークについて連結したベクトルであり、
前記特徴量ベクトルの時系列Xが与えられたときの対数領域でのアーク系列AのスコアW(X,A)を、当該アーク系列Aに含まれる各アークa m についての前記素性ベクトルφ(X,a m )と重みベクトルα am との内積の、当該アーク系列Aに含まれる全てのアークa m についての総和に相当する値で表現し、最もスコアの高いアーク系列を出力するWFST型ログリニアデコーダと、
アーク系列に対する単語系列を求め、出力する出力シンボル抽出部と
を備える音声認識装置。 - 請求項1記載の音声認識装置であって、
前記素性ベクトルφ(X,a m )は、
当該アークa m に割り当てられたフレーム数と、当該アークに割り当てられた前記特徴量ベクトルの情報と、のいずれか一方または両方を含む
ことを特徴とする音声認識装置。 - 請求項1記載の音声認識装置であって、
前記記録部に記録された重みベクトルαは、あらかじめ定めた数の学習データを用いてアーク系列Aと素性ベクトルφ(X,A)のペアを蓄積し、蓄積した結果から推定したものである
ことを特徴とする音声認識装置。 - 請求項1記載の音声認識装置であって、
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Xを入力される学習データとし、
WFSTネットワークを用いて、特徴量ベクトルの時系列Xとアーク系列Aから得られる素性ベクトルφ(X,A)と最もスコアの高い正解アーク系列Aを、仮説素性ベクトルφ(X,A−)、仮説アーク系列A−として出力する仮説WFST型ログリニアデコーダと、
前記WFSTネットワークと前記単語系列を合成し、正解アーク系列A^を出力する正解WFSTネットワークを出力する正解WFST合成部と、
前記正解WFSTネットワークを用いて、特徴量ベクトルの時系列Xと正解アーク系列A^から得られる正解素性ベクトルφ(X,A^)と、最もスコアの高い正解アーク系列A^を出力する正解WFST型ログリニアデコーダと、
前記仮説WFST型ログリニアデコーダが出力した仮説アーク系列A−に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ(X,A^)と前記仮説素性ベクトルφ(X,A−)を用いて更新するパラメータ更新部
も備えることを特徴とする音声認識装置。 - あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Xを入力される学習データとし、
あらかじめ定められたWFSTネットワークと重みベクトルαとを記録する学習記録部と、
前記特徴量ベクトルの時系列Xと前記WFSTネットワークにおけるアークa m により得られる素性ベクトルをφ(X,a m )とし、
前記WFSTネットワークにおけるm番目のアークa m に対する重みベクトルをα am とし、
前記WFSTネットワークにおけるアークの総数をKとしたとき、
前記重みベクトルαは、前記WFSTネットワークにおける各アークa m の重みベクトルα am を全てのアークについて連結したベクトルであり、
前記特徴量ベクトルの時系列Xとアーク系列Aから得られる素性ベクトルφ(X,A)は、前記アーク系列に含まれる各アークa m についての素性ベクトルφ(X,a m )を連結して得られるベクトルであり、
前記WFSTネットワークを用いて、特徴量ベクトルの時系列Xとアークa m から得られる素性ベクトルφ(X,a m )をアーク系列に含まれる全てのアークについて連結して得られるベクトルφ(X,A)及び最もスコアの高い正解アーク系列Aを、仮説素性ベクトルφ(X,A−)及び仮説アーク系列A−として出力する仮説WFST型ログリニアデコーダと、
前記WFSTネットワークと前記単語系列を合成し、正解アーク系列A^を出力する正解WFSTネットワークを出力する正解WFST合成部と、
前記正解WFSTネットワークを用いて、特徴量ベクトルの時系列Xと正解アーク系列A^から得られる正解素性ベクトルφ(X,A^)と、最もスコアの高い正解アーク系列A^を出力する正解WFST型ログリニアデコーダと、
前記仮説WFST型ログリニアデコーダが出力した仮説アーク系列A−に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ(X,A^)と前記仮説素性ベクトルφ(X,A−)を用いて更新するパラメータ更新部
を備える重みベクトル学習装置。 - 請求項5記載の重みベクトル学習装置であって、
前記素性ベクトルφ(X,a m )は、
当該アークa m に割り当てられたフレーム数と、当該アークに割り当てられた前記特徴量ベクトルの情報と、のいずれか一方または両方を含む
ことを特徴とする重みベクトル学習装置。 - あらかじめ記録部に、発音辞書モデルと言語モデルと音響モデルと重みベクトルαとを記録しておき、
前記発音辞書モデルと前記言語モデルと前記音響モデルを合成し、WFSTネットワークを出力するWFST合成ステップと、
音声データから特徴量を抽出し、特徴量ベクトルの時系列Xを出力する特徴量抽出ステップと、
前記特徴量ベクトルの時系列Xと前記WFSTネットワークにおけるアークa m により得られる素性ベクトルをφ(X,a m )とし、
前記WFSTネットワークにおけるm番目のアークa m に対する重みベクトルをα am とし、
前記WFSTネットワークにおけるアークの総数をKとしたとき、
前記重みベクトルαは、前記WFSTネットワークにおける各アークa m の重みベクトルα am を全てのアークについて連結したベクトルであり、
前記特徴量ベクトルの時系列Xが与えられたときの対数領域でのアーク系列AのスコアW(X,A)を、当該アーク系列Aに含まれる各アークa m についての前記素性ベクトルφ(X,a m )と重みベクトルα am との内積の、当該アーク系列Aに含まれる全てのアークa m についての総和に相当する値で表現し、最もスコアの高いアーク系列を出力するWFST型ログリニアデコードステップと、
アーク系列に対する単語系列を求め、出力する出力シンボル抽出ステップと
を有する音声認識方法。 - 請求項7記載の音声認識方法であって、
前記素性ベクトルφ(X,a m )は、
当該アークa m に割り当てられたフレーム数と、当該アークに割り当てられた前記特徴量ベクトルの情報と、のいずれか一方または両方を含む
ことを特徴とする音声認識方法。 - 請求項7記載の音声認識方法であって、
前記記録部に記録された重みベクトルαは、アーク系列Aごとに素性ベクトルφ(X,A)を蓄積し、重みベクトルをあらかじめ定めた数の学習データを用いて推定したものである
ことを特徴とする音声認識方法。 - 請求項7記載の音声認識方法であって、
あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Xを入力される学習データとし、
WFSTネットワークを用いて、特徴量ベクトルの時系列Xとアーク系列Aから得られる素性ベクトルφ(X,A)と最もスコアの高い正解アーク系列Aを、仮説素性ベクトルφ(X,A−)、仮説アーク系列A−として出力する仮説WFST型ログリニアデコードステップと、
前記WFSTネットワークと前記単語系列を合成し、正解アーク系列A^を出力する正解WFSTネットワークを出力する正解WFST合成ステップと、
前記正解WFSTネットワークを用いて、特徴量ベクトルの時系列Xと正解アーク系列A^から得られる正解素性ベクトルφ(X,A^)と、最もスコアの高い正解アーク系列A^を出力する正解WFST型ログリニアデコードステップと、
前記仮説WFST型ログリニアデコードステップが出力した仮説アーク系列A−に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ(X,A^)と前記仮説素性ベクトルφ(X,A−)を用いて更新するパラメータ更新ステップ
も有することを特徴とする音声認識方法。 - あらかじめ定めた数の正解単語系列と対応する特徴量ベクトルの時系列Xを入力される学習データとし、
学習記録部に、あらかじめ定められたWFSTネットワークと重みベクトルαとを記録しておき、
前記特徴量ベクトルの時系列Xと前記WFSTネットワークにおけるアークa m により得られる素性ベクトルをφ(X,a m )とし、
前記WFSTネットワークにおけるm番目のアークa m に対する重みベクトルをα am とし、
前記WFSTネットワークにおけるアークの総数をKとしたとき、
前記重みベクトルαは、前記WFSTネットワークにおける各アークa m の重みベクトルα am を全てのアークについて連結したベクトルであり、
前記特徴量ベクトルの時系列Xとアーク系列Aから得られる素性ベクトルφ(X,A)は、前記アーク系列に含まれる各アークa m についての素性ベクトルφ(X,a m )を連結して得られるベクトルであり、
前記WFSTネットワークを用いて、特徴量ベクトルの時系列Xとアークa m から得られる素性ベクトルφ(X,a m )をアーク系列に含まれる全てのアークについて連結して得られるベクトルφ(X,A)及び最もスコアの高い正解アーク系列Aを、仮説素性ベクトルφ(X,A−)及び仮説アーク系列A−として出力する仮説WFST型ログリニアデコードステップと、
前記WFSTネットワークと前記単語系列を合成し、正解アーク系列A^を出力する正解WFSTネットワークを出力する正解WFST合成ステップと、
前記正解WFSTネットワークを用いて、特徴量ベクトルの時系列Xと正解アーク系列A^から得られる正解素性ベクトルφ(X,A^)と、最もスコアの高い正解アーク系列A^を出力する正解WFST型ログリニアデコードステップと、
前記仮説WFST型ログリニアデコードステップが出力した仮説アーク系列A−に対する単語系列が前記正解単語系列と異なる場合に、前記重みベクトルαを、前記正解素性ベクトルφ(X,A^)と前記仮説素性ベクトルφ(X,A−)を用いて更新するパラメータ更新ステップ
を有する重みベクトル学習方法。 - 請求項11記載の重みベクトル学習方法であって、
前記素性ベクトルφ(X,a m )は、
当該アークa m に割り当てられたフレーム数と、当該アークに割り当てられた前記特徴量ベクトルの情報と、のいずれか一方または両方を含む
ことを特徴とする重みベクトル学習方法。 - 請求項1から4のいずれかに記載の音声認識装置、もしくは請求項5または6記載の重みベクトル学習装置としてコンピュータを動作させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026456A JP5249967B2 (ja) | 2010-02-09 | 2010-02-09 | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026456A JP5249967B2 (ja) | 2010-02-09 | 2010-02-09 | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164336A JP2011164336A (ja) | 2011-08-25 |
JP5249967B2 true JP5249967B2 (ja) | 2013-07-31 |
Family
ID=44595085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010026456A Expired - Fee Related JP5249967B2 (ja) | 2010-02-09 | 2010-02-09 | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5249967B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5749187B2 (ja) * | 2012-02-07 | 2015-07-15 | 日本電信電話株式会社 | パラメタ推定装置、パラメタ推定方法、音声認識装置、音声認識方法及びプログラム |
KR102687184B1 (ko) * | 2017-02-10 | 2024-07-19 | 삼성전자주식회사 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
CN108682415B (zh) * | 2018-05-23 | 2020-09-29 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和系统 |
CN109036391B (zh) * | 2018-06-26 | 2021-02-05 | 华为技术有限公司 | 语音识别方法、装置及系统 |
CN111583910B (zh) * | 2019-01-30 | 2023-09-26 | 北京猎户星空科技有限公司 | 模型更新方法、装置、电子设备及存储介质 |
CN112151020B (zh) * | 2019-06-28 | 2024-06-18 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN115798277A (zh) * | 2021-09-10 | 2023-03-14 | 广州视源电子科技股份有限公司 | 一种在线课堂交互的方法及在线课堂系统 |
WO2024014324A1 (ja) * | 2022-07-14 | 2024-01-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、プログラム |
-
2010
- 2010-02-09 JP JP2010026456A patent/JP5249967B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011164336A (ja) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP6614639B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
Lu et al. | Acoustic data-driven pronunciation lexicon for large vocabulary speech recognition | |
CN104681036A (zh) | 一种语言音频的检测系统及方法 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Lu et al. | On minimum word error rate training of the hybrid autoregressive transducer | |
Huang et al. | Exploring model units and training strategies for end-to-end speech recognition | |
Zhang et al. | Oov recovery with efficient 2nd pass decoding and open-vocabulary word-level rnnlm rescoring for hybrid asr | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5249967 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |