JP2011039432A - 情報圧縮型モデルパラメータ推定装置、方法及びプログラム - Google Patents

情報圧縮型モデルパラメータ推定装置、方法及びプログラム Download PDF

Info

Publication number
JP2011039432A
JP2011039432A JP2009189112A JP2009189112A JP2011039432A JP 2011039432 A JP2011039432 A JP 2011039432A JP 2009189112 A JP2009189112 A JP 2009189112A JP 2009189112 A JP2009189112 A JP 2009189112A JP 2011039432 A JP2011039432 A JP 2011039432A
Authority
JP
Japan
Prior art keywords
model parameter
importance
parameter estimation
symbol
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009189112A
Other languages
English (en)
Other versions
JP5264649B2 (ja
Inventor
Takanobu Oba
隆伸 大庭
Takaaki Hori
貴明 堀
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009189112A priority Critical patent/JP5264649B2/ja
Publication of JP2011039432A publication Critical patent/JP2011039432A/ja
Application granted granted Critical
Publication of JP5264649B2 publication Critical patent/JP5264649B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】従来と同等な推定精度を確保しつつ汎用の計算機でモデルパラメータの推定処理を可能とする。
【解決手段】それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる1以上のリストiと各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータを推定する装置であり、グルーピング部とマージング部とモデルパラメータ推定部とを備える。グルーピング部はリストに属する複数のシンボル系列fi,jを複数のグループに分ける。マージング部はグループ内の複数のシンボル系列fi,jから代表シンボル系列fi,xを、グループ内の複数のシンボル系列fi,jに対応する複数の重要度ei,jから代表重要度ei,xをそれぞれ求める。モデルパラメータ推定部は代表シンボル系列fi,xと正解シンボル系列fi,0と代表重要度ei,xとからモデルパラメータを推定する。
【選択図】図1

Description

本発明は、シンボル系列の並べ替え問題におけるモデル学習に用いる情報圧縮型モデルパラメータ推定装置、方法及びプログラムに関する。
音声認識や機械翻訳では、暫定的な複数の認識結果や翻訳結果(単語系列)を出力し、その中から誤りの少ない(正解に近い)系列を見つけることで、認識や翻訳の精度を改善することができる。音声認識機や機械翻訳機が出力する個々の正解候補の単語列をシンボル系列、出力される複数の正解候補の組をリストと呼ぶとき、このようなリストからの正解シンボル系列の抽出は、一般に各シンボル系列にスコアを付与し、リスト内のシンボル系列をスコア順に並べ替えることにより行う。すなわち、通常は最も大きなスコアを持つ単語列が認識・翻訳結果であり、仮にそうでない場合にも順次スコアの高いシンボル系列を検証することで正解に近いシンボル系列の効率的な結果の抽出を実現している(音声認識につき非特許文献1、2、6参照、機械翻訳につき非特許文献3、4参照)。
シンボル系列からなるリストから目的のシンボル系列を抽出する際には、一般に、予め学習により得られたモデルが用いられる。以下、予め用意されたモデルを用いて正解に近い系列を見つける方法を図8を用いて説明する。
まず、複数のシンボル系列からなるリストを読み込む(S11)。各シンボル系列は一般に素性(特徴)ベクトルにより表現され、素性には単語、品詞、音素などのN-gramや共起、構文解析や係り受け解析を適応した結果から得られる依存関係の頻度、boolean(有無を二値表現したもの)などが用いられる。もっとも、リストの形態は必ずしも素性ベクトルの列に限られず、ネットワークのような表現形態であっても最終的に素性ベクトルが抽出できる形態であればよい。なお、シンボル系列は次のような方法により素性ベクトルで表現することができる(非特許文献3参照)。例えば、シンボル集合{○、×、△}からなるシンボル系列○○×○を素性ベクトルで表現する方法を考える。ある1つのシンボルがシンボル系列に出現した場合に1、出現しない場合に0の素性値をとるとした時、シンボル系列○○×○には、○と×は出現するため1、△は出現しないので0となる。素性ベクトルは、このような素性につき[1、1、0]のようにベクトル表現したものである。シンボル系列として自然言語の単語列を扱う時には、各シンボル系列の構文解析結果やそのスコアなどの付加的な情報を加えてから、それらの情報も含めて素性ベクトルを作成する場合もある。
次に、学習で得られたモデルを参照し、シンボル系列に応じたスコアを付与する(S12)。スコアの算出方法は多様である。ベクトルwが予め学習により得られたモデルパラメータであるとき、素性ベクトルにより表現されたシンボル系列fi,jのスコアS(fi,j)は、例えばS(fi,j)=w・fi,jにより算出することができる(iはリストのインデックス(i=1、2、・・・、N)、jは各リストiにおけるシンボル系列のインデックス(j=1、2、・・・、n))、Tは行列の転置)。
そして、付与されたスコアに従いシンボル系列fi,jを並べ替えることで、リスト内のシンボル系列を正解に近い順に整列することができる(S13)。
また、スコア算出に用いるモデルパラメータwを推定する方法を図9を用いて、以下説明する。
まず、複数のシンボル系列からなるリストを複数読み込む(S21)。読み込むリストの数が多いほど、様々なデータに対して高精度に機能するモデルパラメータが得られることを期待できる。また、各リストの正解シンボル系列もあわせて読み込む。ただし、正解のシンボル系列と同一のシンボル系列が各リストに含まれていても、含まれていなくてもよい。
次に、読み込まれた情報をもとにモデルパラメータwを学習により推定する(S22)。パラメータの推定は正解シンボル系列に他のシンボル系列より高いスコアが付与されるように行う。つまり、正解シンボル系列に付与されたスコアより大きなスコアが付与されるシンボル系列の数ErrorCountを小さくするようにモデルパラメータwを決めればよい。例えば、式(1)を最小化するwを求める。
Figure 2011039432
ここで、I(x)はxの値が正の時に0、それ以外の時に1を与える関数、fi,0は正解シンボル系列、Nはリストの数、nはリストiに含まれるシンボル系列の数である。また、非特許文献5にはGlobal Conditional Log-linear Model(GCLM)法によるモデルパラメータwの決定方法が開示されており、これによる場合は式(2)のLの値を最小化するwを求めればよい。
Figure 2011039432
ここで‖w‖はノルムであり、これを用いることでロバストな推定結果が得られることが知られている。また、Cはハイパーパラメータであり、開発セットなどを用いて決定する。式(2)によればモデルパラメータwの推定結果が大局的な最適解に収束することが保証されている。モデルパラメータwの推定は、具体的には公知のL−BFGSなどの手法により行うことができる。
もっとも、音声認識機や機械翻訳機から出力される各シンボル系列fi,jには通常、任意の評価尺度(例えばリスト内での順位など)に基づく重要度ei,jが付与されているため、これをパラメータの推定に用いることで推定精度を高めることができる。例えば、非特許文献3にて開示されているExpLoss Boosting(ELBst)法による場合は、式(3)のLの値を最小化するwを求めればよい。
Figure 2011039432
式(3)においては、特に素性値が0、1の二値である時に効率的にwを推定するアルゴリズムが存在する。また、非特許文献4にて開示されているMinimum Error Rate Training(MERT)法による場合は、式(4)のLの値を最小化するwを求めればよい。
Figure 2011039432
ここでCはハイパーパラメータであり、開発セットなどを用いて決定する。式(4)によれば正解シンボル系列を用いることなくモデルパラメータwの推定を行うことができる。なお、モデルパラメータwの推定は、具体的には公知のL−BFGSなどの手法により行うことができる。
以上のモデルパラメータ推定方法の説明は、学習データ全体(=すべてのリスト)を読み込み、全体最適化を行う学習方法(バッチ型)を前提としたものであるが、リストを1つずつ読み込み、その度にモデルパラメータを更新するオンライン型の学習方法も存在する。もっとも、オンライン型の学習でも良いパラメータ推定結果を得るため、一般には全てのリストを再帰的に複数回に渡って読み込ませる。通常の計算機ではデータ入力の時間がかかるため、全体を計算機上のメモリに読み込ませておく場合も多い。
Z.Zhou, J.Gao, F.K.Soong, and H.Meng,"A Comparative Study of Discriminative Methods for Reranking LVCSR N-Best Hypotheses in Domain Adaptation and Generalization," Proceedings of ICASSP, 2006, Vol.1, p.141-144 小林彰夫, 佐藤庄衛, 尾上和穂, 本間真一, 今井亨, 都木徹,「単語ラティスの識別的スコアリングによる音声認識」, 日本音響学会講演論文集, 2007年9月, p.233-234 M.Collins and T.Koo,"Discriminative Reranking for Natural Language Parsing," Association for Computational Linguistics, 2005, Vol.31, No.1, p.25-70 F.J.Och,"Minimum Error Rate Training in Statistical Machine Translation," Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, 2003, p.160-167 B.Roark, M.Saraclar and M.Collins,"Discriminative n-gram language modeling," Computer Speech and Language, 2007, Vol.21, No.2, p.373-392 B.Roark, M.Saraclar and M.Collins,"Corrective Language Modeling For Large Vocabulary ASR with The Perceptron Algorithm," Association for Computational Linguistics, Proceedings of ICASSP, 2004, Vol.1, p.749-752
モデルの学習には複数のリストを用意する必要があるが、ひとつのリストだけでも多くのシンボル系列を持つ。そのため全体では膨大な数のシンボル系列を扱う必要がある。例えば、音声認識や機械翻訳のように単語列をシンボル系列とする場合には、多くのデータに渡って高精度なモデルを生成するためにはリストも多数必要になり、各シンボル系列から多くの特徴を抽出する必要がある。例えば、非特許文献5ではそれぞれ100〜1000のシンボル系列を有するおよそ280,000リストで学習を行っている。この場合、各シンボル系列から抽出した特徴(素性)を記憶するのに必要なメモリ領域を平均100バイトと極めて小さく見積もっても、1000×280,000×100=28ギガバイトのメモリ領域を消費する。このように膨大な作業領域(コンピュータのメモリなど)を必要とするため、汎用の計算機で扱うことは困難である。
本発明は、このような問題を解消し、汎用の計算機で従来と同等な推定精度のモデルパラメータの推定処理を行うことが可能な情報圧縮型モデルパラメータ推定装置、方法及びプログラムを提供することを目的とする。
本発明の情報圧縮型モデルパラメータ推定装置は、それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる、1以上のリストi(iはリストのインデックス(i=1、2、・・・、N)、jは各iにおけるシンボル系列のインデックス(j=1、2、・・・、n))と、それぞれ素性ベクトルで表現された各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータwを推定する情報圧縮型モデルパラメータ推定装置であって、グルーピング部とマージング部とモデルパラメータ推定部とを備える。
グルーピング部は、上記リストiごとに、リストに属する複数のシンボル系列fi,jを所定の方法により複数のグループGi(x)(xはグループのインデックス)にグループ分けする。
マージング部は、上記グループGi(x)に属する複数のシンボル系列fi,jから代表シンボル系列fi,x及び上記グループGi(x)に属する複数のシンボル系列fi,jに対応する複数の重要度ei,jから代表重要度ei,xを求める。
モデルパラメータ推定部は、上記代表シンボル系列fi,xと上記正解シンボル系列fi,0と上記代表重要度ei,xとから、モデルパラメータwを推定する。
本発明の情報圧縮型モデルパラメータ推定装置、方法及びプログラムによれば、従来と同等な推定精度を確保しつつ、学習に使用するシンボル系列の情報を圧縮できるため、汎用の計算機でモデルパラメータの推定処理を行うことが可能となる。
情報圧縮型モデルパラメータ推定装置100の機能構成例を示す図。 情報圧縮型モデルパラメータ推定装置100の処理フロー例を示す図。 検証に用いた学習用・開発用・評価用の各セットの内容を示す図。 データ保持に要したメモリサイズを示す図。 モデルパラメータの推定にELBst法を用いた場合の本発明と従来技術の単語誤り率の比較検証結果を示す図。 モデルパラメータの推定にGCLM法を用いた場合の本発明と従来技術の単語誤り率の比較検証結果を示す図。 モデルパラメータの推定にMERT法を用いた場合の本発明と従来技術の単語誤り率の比較検証結果を示す図。 シンボル系列の並べ替え処理フローの例を示す図。 モデル学習の処理フローの例を示す図。
図1に本発明の情報圧縮型モデルパラメータ推定装置100の機能構成例を、図2にその処理フロー例をそれぞれ示す。情報圧縮型モデルパラメータ推定装置100は、それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる、1以上のリストi(iはリストのインデックス(i=1、2、・・・、N)、jは各iにおけるシンボル系列のインデックス(j=1、2、・・・、n))と、それぞれ素性ベクトルで表現された各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータwを推定して出力する装置であり、グルーピング部101とマージング部102とモデルパラメータ推定部103とを備える。
グルーピング部101は、リストに属する複数のシンボル系列fi,jを所定の方法により複数のグループGi(x)(xはグループのインデックス)にグループ分けする(S1)。グループ分けの仕方は任意であり、例えばK−meansなどの一般的な方法により、素性ベクトル空間上の素性ベクトル空間上での距離が近いものをグループ化する、又は重要度の値が近いものをグループ化することなどが考えられる。また、重要度が誤り率の場合に、正解シンボル系列に近いもののグループとその他のもののグループとに分け、更に正解シンボル系列を正解に近いもののグループに属させるなどの操作を行ってもよい。
マージング部102は、グループGi(x)ごとに当該グループGi(x)に属する複数のシンボル系列fi,jから代表シンボル系列fi,xを、また当該グループGi(x)に属する各シンボル系列に対応する複数の重要度ei,jから代表重要度ei,xをそれぞれ求める(S2)。具体的には、例えば代表シンボル系列fi,xについては式(5)のマージ関数Fにより、代表重要度ei,xについては式(6)のマージ関数Eによりそれぞれ求める。なお、式(5),(6)において(fi,j,ei,j)はシンボル系列とそれに対応する重要度の組を表す。
Figure 2011039432
マージ関数Fにより代表シンボル系列fi,xにマージする例として、例えば式(7)、(8)に示す方法が挙げられる。
Figure 2011039432
式(7)は代表シンボル系列をグループに属するシンボル系列のセントロイドとして求める方法である。また、式(8)は代表シンボル系列をグループに属するシンボル系列の重み付き内分点として求める方法であり、重要度を考慮することができないモデルパラメータ推定方法を採用する場合でも、代表ベクトル上で重要度を考慮することができるという利点がある。なお、これらのマージに加え、シンボル系列の素性ベクトルの各要素を量子化して小数桁の切り捨てを行うことで記憶領域を更に削減することができる。
マージ関数Eにより代表重要度ei,xにマージする方法についても、例えば式(9)に示す重要度の平均値を用いる方法などが挙げられる。
Figure 2011039432
モデルパラメータ推定部103は、代表シンボル系列fi,xと正解シンボル系列fi,0と代表重要度ei,xとから、モデルパラメータwを計算して出力する(S3)。例えば、非特許文献3にて開示されているELBst法による式(3)を式(10)のように変形し、式(10)のLの値を最小化するwを求めればよい。
Figure 2011039432
式(10)においては、特に素性値が0、1の二値である時に効率的にwを推定するアルゴリズムが存在する。また、非特許文献4にて開示されているMERT法による場合は、式(4)を式(11)のように変形し、式(11)のLの値を最小化するwを求めればよい。
Figure 2011039432
ここでCはハイパーパラメータであり、開発セットなどを用いて決定する。式(11)によれば正解シンボル系列を用いることなくモデルパラメータwの推定を行うことができる。なお、モデルパラメータwの推定は、具体的には公知のL−BFGSなどの手法により行うことができる。更に、非特許文献5にて開示されているGCLM法による場合は、式(2)を式(12)のように変形し、式(12)のLの値を最小化するwを求めればよい。
Figure 2011039432
ここで‖w‖はノルムであり、これを用いることでロバストな推定結果が得られることが知られている。また、Cはハイパーパラメータであり、開発セットなどを用いて決定する。式(12)によればモデルパラメータwの推定結果が最適解に収束することが保証されている。モデルパラメータwの推定は、具体的には公知のL−BFGSなどの手法により行うことができる。
<効果の検証>
日本語話し言葉コーパス(CSJ)を用い、本発明の効果を検証する。CSJは講演音声データとその書き起こしからなるデータベースである。なお、検証にあたり、図3に示す学習用と開発用と2つの評価用のセットを用意した。
講演を発話単位に分割し、音声認識システムで5000-bestリストを作成した。つまり、リストの数は発話数に一致する。そして、シンボル系列は音声認識結果であり、各リストに最大5000のシンボル系列が存在する。素性にはuni、bi-、tri-gram boolean及び音声認識スコアを用いた。また、重要度には各シンボル系列のリスト中の順位(単語誤り率の昇順)を用いた。なお、図3に示す単語誤り率は、音声認識システムの出力した5000-bestリストのうち、最も大きな認識スコアを持つ認識結果に対して算出されたものである。perplexityはデータの近さを表す指標であり、音声認識システム内の言語モデルにより算出されたものである。perplexityの大きさから評価用Bが他のセットと異なる性質を多く含むことがわかる。
モデルパラメータwを、全シンボル系列を用いて推定した場合と本発明のようにマージした場合(式(8)を用いてマージ)とについてそれぞれ求め、これらを用いてシンボル系列を並べ替えて、それぞれ最終的に最も高いスコアを持つシンボル系列を音声認識結果として、両者の単語誤り率を比較した。なお、図4は本検証においてデータ保持に要したメモリサイズであり、全データを使用した場合は数十ギガバイトの記憶領域を要するのに対し、式(8)を用いてシンボル系列をマージした場合は、汎用的なコンピュータで動作可能なメガオーダにまで記憶領域の消費量が削減されている。図5は、ELBst法に基づく式(10)により学習したモデルパラメータを用いて得られた音声認識結果における単語誤り率を比較したものである。全データを用いて学習した場合も式(8)でマージした圧縮データにより学習した場合も、同程度の誤り率となっていることがわかる。なお、全データを用いて学習した場合、すなわち、1つの正解に対して複数のシンボル系列を用いる場合、ELBst法によると正解シンボル系列にパラメータ推定値が強く影響を受ける恐れがある。これに対し、式(8)+重要度マージ無しではその影響が削除され、結果的に全データを使用した学習より高精度なモデルが生成されたと考えられる。本検証では、重要度マージを行うとリスト間の重要度のばらつきが大きくなり精度が低下する。もっとも、評価用Bセットでも全データを使用した場合と同程度の精度は得られている。これは、重要度マージ有りは重要度マージ無しを包含する表現力を備えることから、重要度の設計方法や本発明の適用対象に応じて、重要度のマージが効果的に働く場合があることを表していると考える。図6は、GCLM法に基づく式(12)により学習したモデルパラメータを用いて得られた音声認識結果における単語誤り率を比較したものである。GCLM法では重要度を扱う枠組みが無い。それでも、全データを用いた学習ではELBst法と同等以上の性能を持つモデルが生成されている。その理由のひとつとして、大局的最適解への収束が考えられる。シンボル系列のマージを行うと、素性ベクトル空間上に重要度が表現されるため、更に高精度なモデルが生成されることになる。図7は、MERT法に基づく式(11)により学習したモデルパラメータを用いて得られた音声認識結果における単語誤り率を比較したものである。全データを用いた場合と式(8)でマージした場合とを比較すると、評価用Bセットで大きく精度が低下したものの、学習・開発用セットと似た特徴を持つ評価用Aセットにおいては同等な性能が得られている。
以上のように、本発明の情報圧縮型モデルパラメータ推定装置及び方法によれば、学習精度を従来と同程度に確保しつつ、学習に使用するシンボル系列の情報を圧縮できるため、汎用の計算機でモデルパラメータの推定処理を行うことが可能となる。
上記の各装置をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、上記の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims (7)

  1. それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる、1以上のリストi(iはリストのインデックス(i=1、2、・・・、N)、jは各iにおけるシンボル系列のインデックス(j=1、2、・・・、n))と、それぞれ素性ベクトルで表現された各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータwを推定する情報圧縮型モデルパラメータ推定装置であって、
    上記リストiごとに、リストに属する複数のシンボル系列fi,jを所定の方法により複数のグループGi(x)(xはグループのインデックス)にグループ分けするグルーピング部と、
    上記グループGi(x)に属する複数のシンボル系列fi,jから代表シンボル系列fi,xを、また上記グループGi(x)に属する複数のシンボル系列fi,jに対応する複数の重要度ei,jから代表重要度ei,xをそれぞれ求めるマージング部と、
    上記代表シンボル系列fi,xと上記正解シンボル系列fi,0と上記代表重要度ei,xとから、モデルパラメータwを推定するモデルパラメータ推定部と、
    を備える情報圧縮型モデルパラメータ推定装置。
  2. 請求項1に記載の情報圧縮型モデルパラメータ推定装置において、
    上記グルーピング部は、素性ベクトル空間上での距離、又は重要度の値に基づいてグループ分けすることを特徴とする情報圧縮型モデルパラメータ推定装置。
  3. 請求項1又は2のいずれかに記載の情報圧縮型モデルパラメータ推定装置において、
    上記マージング部は、代表シンボル系列fi,xをグループGi(x)に属する複数のシンボル系列fi,jのセントロイド又は重み付き内分点として求め、代表重要度ei,xをグループGi(x)に属する複数のシンボル系列fi,jに対応する複数の重要度ei,jの平均値として求めることを特徴とする情報圧縮型モデルパラメータ推定装置。
  4. それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる、1以上のリストi(iはリストのインデックス(i=1、2、・・・、N)、jは各iにおけるシンボル系列のインデックス(j=1、2、・・・、n))と、それぞれ素性ベクトルで表現された各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータwを推定する情報圧縮型モデルパラメータ推定方法であって、
    上記リストiごとに、リストに属する複数のシンボル系列fi,jを所定の方法により複数のグループGi(x)(xはグループのインデックス)にグループ分けするグルーピングステップと、
    上記グループGi(x)に属する複数のシンボル系列fi,jから代表シンボル系列fi,xを、また上記グループGi(x)に属する複数のシンボル系列fi,jに対応する複数の重要度ei,jから代表重要度ei,xをそれぞれ求めるマージングステップと、
    上記代表シンボル系列fi,xと上記正解シンボル系列fi,0と上記代表重要度ei,xとから、モデルパラメータwを推定するモデルパラメータ推定ステップと、
    を実行する情報圧縮型モデルパラメータ推定方法。
  5. 請求項4に記載の情報圧縮型モデルパラメータ推定方法において、
    上記グルーピングステップは、素性ベクトル空間上での距離、又は重要度の値に基づいてグループ分けすることを特徴とする情報圧縮型モデルパラメータ推定方法。
  6. 請求項4又は5のいずれかに記載の情報圧縮型モデルパラメータ推定方法において、
    上記マージングステップは、代表シンボル系列fi,xをグループGi(x)に属する複数のシンボル系列fi,jのセントロイド又は重み付き内分点として求め、代表重要度ei,xをグループGi(x)に属する複数のシンボル系列fi,jに対応する複数の重要度ei,jの平均値として求めることを特徴とする情報圧縮型モデルパラメータ推定方法。
  7. 請求項1乃至3のいずれかに記載の装置としてコンピュータを機能させるためのプログラム。
JP2009189112A 2009-08-18 2009-08-18 情報圧縮型モデルパラメータ推定装置、方法及びプログラム Active JP5264649B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009189112A JP5264649B2 (ja) 2009-08-18 2009-08-18 情報圧縮型モデルパラメータ推定装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009189112A JP5264649B2 (ja) 2009-08-18 2009-08-18 情報圧縮型モデルパラメータ推定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011039432A true JP2011039432A (ja) 2011-02-24
JP5264649B2 JP5264649B2 (ja) 2013-08-14

Family

ID=43767243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009189112A Active JP5264649B2 (ja) 2009-08-18 2009-08-18 情報圧縮型モデルパラメータ推定装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5264649B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256198A (ja) * 2011-06-08 2012-12-27 Nippon Telegr & Teleph Corp <Ntt> 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法
JP2013084136A (ja) * 2011-10-11 2013-05-09 Nippon Hoso Kyokai <Nhk> 意味分析装置およびそのプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201553A (ja) * 2005-01-21 2006-08-03 Nippon Telegr & Teleph Corp <Ntt> 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
JP2010164780A (ja) * 2009-01-15 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム
JP2010250161A (ja) * 2009-04-17 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> 相違度利用型識別的学習装置とその方法、そのプログラム
JP2011039785A (ja) * 2009-08-11 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP2011039965A (ja) * 2009-08-18 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> モデルパラメータ推定装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201553A (ja) * 2005-01-21 2006-08-03 Nippon Telegr & Teleph Corp <Ntt> 識別的学習方法、装置、プログラム、音声認識装置、プログラム、これらのプログラムを記録した記録媒体
JP2010164780A (ja) * 2009-01-15 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム
JP2010250161A (ja) * 2009-04-17 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> 相違度利用型識別的学習装置とその方法、そのプログラム
JP2011039785A (ja) * 2009-08-11 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP2011039965A (ja) * 2009-08-18 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> モデルパラメータ推定装置、方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256198A (ja) * 2011-06-08 2012-12-27 Nippon Telegr & Teleph Corp <Ntt> 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法
JP2013084136A (ja) * 2011-10-11 2013-05-09 Nippon Hoso Kyokai <Nhk> 意味分析装置およびそのプログラム

Also Published As

Publication number Publication date
JP5264649B2 (ja) 2013-08-14

Similar Documents

Publication Publication Date Title
US8959014B2 (en) Training acoustic models using distributed computing techniques
US9176936B2 (en) Transliteration pair matching
Hall et al. Composition-based on-the-fly rescoring for salient n-gram biasing.
US20120323560A1 (en) Method for symbolic correction in human-machine interfaces
US9747893B2 (en) Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
US11232786B2 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Hifny Smoothing techniques for Arabic diacritics restoration
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Gondala et al. Error-driven pruning of language models for virtual assistants
Hifny Restoration of Arabic diacritics using dynamic programming
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP5264649B2 (ja) 情報圧縮型モデルパラメータ推定装置、方法及びプログラム
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP5268825B2 (ja) モデルパラメータ推定装置、方法及びプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
Evanini et al. Call classification for automated troubleshooting on large corpora
Ni et al. Investigation of using different Chinese word segmentation standards and algorithms for automatic speech recognition
Rasipuram et al. Probabilistic lexical modeling and unsupervised training for zero-resourced ASR
Xu et al. Continuous space discriminative language modeling

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130430

R150 Certificate of patent or registration of utility model

Ref document number: 5264649

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350