JP4981579B2 - 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 - Google Patents
誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4981579B2 JP4981579B2 JP2007213992A JP2007213992A JP4981579B2 JP 4981579 B2 JP4981579 B2 JP 4981579B2 JP 2007213992 A JP2007213992 A JP 2007213992A JP 2007213992 A JP2007213992 A JP 2007213992A JP 4981579 B2 JP4981579 B2 JP 4981579B2
- Authority
- JP
- Japan
- Prior art keywords
- error correction
- recognition
- score
- weight
- correction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、自然言語処理分野における誤り訂正学習方法として、非特許文献2を挙げることもできる。
Brian Roark, Murat Saraclar, Michael Collins, "Corrective Language Modeling for Large Vocabulary ASR with the Perceptron Algorithm,"Proceedings of ICASSP, vol.1, pp.749-752, 2004. Zhengyu Zhou, Jianfeng Gao, Frank K. Soong and Helen Meng, "A Comparative Study of Discriminative Methods for Reranking LVCSR Hypotheses in Domain Adaptation and Generalization," Proc. ICASSP, vol.1, pp.141-144, 2006.
従来では集合Aに含まれる全ての認識結果を用いて学習していたが、本発明では、認識誤り率基準で学習に使用する認識結果を制限する。このため、誤りの少ない認識結果の影響が除外され、誤りを多く含む認識結果の影響が強く反映された誤り訂正モデルの学習が実現される。これにより、効率的な誤りパターンの獲得が期待できる。
あるいは、スコア指標がスコア指標重みによって重み付けされた演算結果が認識結果のスコアと逆相関を持つように、スコア指標重みを設定してもよい。
実施形態の説明に先立ち、本発明の誤り訂正モデル学習の理論を説明する。本発明はパターン認識一般の誤り訂正モデル学習に適用可能であるが、説明を具体的なものとするため、音声認識を例にして説明を行う。まず、素性および素性ベクトルについて説明する。その後、リスコアリングによる誤り訂正と誤り訂正モデルのパラメータ学習方法について概説した後、本発明の要項を説明する。
パターン認識の認識結果にスコアを与える場合、各認識結果が如何なる特徴を有しているかを表現する必要がある。この特徴を表す指標が特徴量である。この特徴量としては、任意に種々のものを選択できる。特徴量は、一般にベクトルで表現されるが、1次元ベクトルという意味でスカラーも包含する。
私 は 朝 必ず 牛乳 を 飲む
が与えられた場合、朝という文字のある位置3番目における1-gramは‘朝’、2-gramは‘は+朝’、3-gramは‘私+は+朝’となる。ここでは、これらのそれぞれが属性である。単語列内に各単語N-gramが観測される個数を頻度とすると、上記3属性に対応する頻度はいずれも1であり、これらが各属性に対応する属性値である。一方、2-gram ‘私+朝’といった単語列に存在しない属性の属性値は0となる。
k番目の入力データに対するパターン認識処理によって出力された認識結果の集合をHypsk とし、そのn番目の認識結果をwk,n と表記する。認識結果wk,n の認識スコアをPk,n 、認識スコアPk,n に依存する指標(スコア指標)をΦ(Pk,n )とするとき、認識結果wk,n の特徴量φ(wk,n )、特徴量φ(wk,n )への重みα、スコア指標Φ(Pk,n )、およびスコア指標Φ(Pk,n )への重みλを用いて式(1)によって誤り訂正が実現される。関数fは、スコア指標Φ(Pk,n )と重みλを入力とし、スコア指標Φ(Pk,n )が所定の演算により重み付けされた演算結果を返す関数であり、関数gは、特徴量φ(wk,n )と重みαを入力とし、特徴量φ(wk,n )が所定の演算により重み付けされた演算結果を返す関数である。スコア指標Φ(Pk,n )およびスコア指標重みλはそれぞれ、一般にベクトルで表現されるが、1次元ベクトルという意味でスカラーも包含する。関数fおよび関数gは出力としてスカラー値を返すように設定されるのが通常である。式(1)において、f(Φ(Pk,n ),λ)は認識スコアに依存し、g(φ(wk,n ),α)は認識スコアに非依存である。
αは学習により推定された誤り訂正モデルのパラメータであり、次にこの学習方法について説明する。
学習にはパーセプトロンアルゴリズムや、条件付確率場,Minimum Sample Riskといった識別学習の技術を利用する場合が多い。いずれも正解から得られる特徴量に高いスコアを与え、それ以外に低いスコアを与える方針をとる。音声認識の例では、正解単語列から得られる素性に高いスコアを与え、それ以外に低いスコアを与える方針をとる。
学習によって得られた誤り訂正モデルを適用する場合、音声認識処理によって出力された認識結果の集合に対して、式(1)を適用して誤り訂正を行う。音声認識の例では、音声認識処理によって出力されたN-best仮説リストに対して、式(2)を適用すればよい。このときのαは、学習で得られたものを用いる。また、λは、学習時と同値に設定される。なお、λはαと同様の手順で学習することも可能である。この場合は、学習で得られたλを用いる。
正解とそれに近い認識結果との識別は、学習データに対するオーバーフィッティングの要因となる上、誤りのパターンの効率的な獲得を阻害する。しかし、通常の手順で学習を行うと、こうした認識結果の識別が学習の大半を占める傾向が強い。
そこで本発明では、誤りの多い認識結果との識別を支配的に行うため、以下の二つの処理を行う。
音声認識の例では、通常、N-best仮説リストに含まれる全仮説を用いて学習するが、単語誤り率(あるいは音声認識スコア)基準で制限された仮説集合(N-best仮説リストの部分集合)を使用する。つまり単語誤り率の高い仮説のみを学習で使用する。ただし使用上、学習の収束のためHypsk は正解単語列も要素に持つものとする。
このような場合、各認識結果に対するf(Φ(Pk,n ),λ)+g(φ(wk,n ),α)の大小関係が演算結果f(Φ(Pk,n ),λ)に対してほぼ非依存になるようにλを設定する。これは前記大小関係に対する演算結果f(Φ(Pk,n ),λ)の寄与度を低減させることを意味し、演算結果g(φ(wk,n ),α)との相関で定まる設計事項である。
以下、誤り訂正モデル学習装置・方法の実施形態を説明する。なお、説明を具体的にするため、パターン認識として音声認識を例に採り、学習アルゴリズムとしてパーセプトロンアルゴリズムを採用した場合について説明する。誤り訂正モデル学習装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ(汎用機)で実現する場合として説明する。
誤り訂正モデル学習装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、誤り訂正モデル学習装置外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、誤り訂正モデル学習装置に、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
制御部(19)は、kに1を加算したものを新たなkの値とし(ステップS106)、
k=Kであるか否かを判定する(ステップS107)。制御部(19)は、もしk≠Kならば、ステップS105の処理で得られたαを誤り訂正部(13)の入力として、ステップS103以降の処理を行うように制御する。
(参考文献)Michael Collins.“Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms,”Proceedings of the Conference on Empirical Methods for Natural Language Processing, pp.1-8, 2002.
12 選択部
13 誤り訂正部
14 パラメータ更新部
Claims (12)
- 選択部が、音声データに対する音声認識によって得られた複数の認識結果(単語列)からなる集合から、認識誤り率が高い順、または、認識結果の認識スコアであるスコア指標の低い順に当該集合に含まれる認識結果数より小さい所定数の認識結果を選択する選択ステップと、
誤り訂正部が、上記選択された集合(以下、認識結果集合という)に対して、上記スコア指標を記憶部から読み出したこのスコア指標への重みであるスコア指標重みによって重み付けした演算結果と、上記認識結果が有する特徴量を上記記憶部から読み出したこの特徴量への重みである特徴量重みによって重み付けした演算結果との和が最大となる認識結果を出力する誤り訂正ステップと、
パラメータ更新部が、上記誤り訂正ステップにおいて得られる認識結果を用いて、上記特徴量重みを更新する計算を行い、更新後の特徴量重みを上記記憶部に記憶するパラメータ更新ステップと
を有し、
複数の音声データの認識結果に対して、上記選択ステップと上記誤り訂正ステップと上記パラメータ更新ステップを実施する
ことを特徴とする誤り訂正モデルの学習方法。 - 上記認識結果集合は、音声認識の正解単語列を含む
ことを特徴とする請求項1に記載の誤り訂正モデルの学習方法。 - 上記演算結果の和において、上記スコア指標重みによって重み付けされた演算結果の寄与度を低減させるように、上記スコア指標重みが設定される
ことを特徴とする請求項1または請求項2に記載の誤り訂正モデルの学習方法。 - 上記演算結果の和において、上記スコア指標重みをゼロとする
ことを特徴とする請求項1から請求項3に記載の誤り訂正モデルの学習方法。 - 上記スコア指標が上記スコア指標重みによって重み付けされた演算結果が上記スコア指標と逆相関を持つように、スコア指標重みが設定される
ことを特徴とする請求項1または請求項2に記載の誤り訂正モデルの学習方法。 - 上記特徴量は、単語の並びに基づき上記単語列の特徴を表す指標である
ことを特徴とする請求項1から請求項5のいずれかに記載の誤り訂正モデルの学習方法。 - 音声データに対する音声認識によって得られた認識結果の認識スコアであるスコア指標への重みであるスコア指標重みと、当該認識結果が有する特徴量への重みである特徴量重みとを記憶する記憶部と、
音声データに対する音声認識によって得られた複数の認識結果(単語列)からなる集合から、認識誤り率が高い順、または、上記スコア指標の低い順に当該集合に含まれる認識結果数より小さい所定数の認識結果を選択する選択手段と、
上記選択された集合(以下、認識結果集合という)に対して、上記スコア指標を上記記憶部から読み出した上記スコア指標重みによって重み付けした演算結果と、上記特徴量を上記記憶部から読み出した上記特徴量重みによって重み付けした演算結果との和が最大となる認識結果を出力する誤り訂正手段と、
上記誤り訂正手段によって得られる認識結果を用いて、上記特徴量重みを更新する計算を行い、更新後の特徴量重みを上記記憶部に格納するパラメータ更新手段と、
複数の音声データの認識結果に対して、上記選択手段による処理と上記誤り訂正手段による処理と上記パラメータ更新手段による処理を実施する制御を行う制御部と
を含む
ことを特徴とする誤り訂正モデルの学習装置。 - 上記演算結果の和において、上記スコア指標重みによって重み付けされた演算結果の寄与度を低減させるように、上記スコア指標重みが設定される
ことを特徴とする請求項7に記載の誤り訂正モデルの学習装置。 - 上記演算結果の和において、上記スコア指標重みをゼロとする
ことを特徴とする請求項7または請求項8に記載の誤り訂正モデルの学習装置。 - 上記スコア指標が上記スコア指標重みによって重み付けされた演算結果が上記スコア指標と逆相関を持つように、スコア指標重みが設定される
ことを特徴とする請求項7に記載の誤り訂正モデルの学習装置。 - コンピュータに請求項1から請求項6のいずれかに記載の誤り訂正モデルの学習方法の各処理を実行させるためのプログラム。
- 請求項11に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007213992A JP4981579B2 (ja) | 2007-08-20 | 2007-08-20 | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007213992A JP4981579B2 (ja) | 2007-08-20 | 2007-08-20 | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009047929A JP2009047929A (ja) | 2009-03-05 |
JP4981579B2 true JP4981579B2 (ja) | 2012-07-25 |
Family
ID=40500205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007213992A Expired - Fee Related JP4981579B2 (ja) | 2007-08-20 | 2007-08-20 | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4981579B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10770070B2 (en) | 2018-06-07 | 2020-09-08 | Hyundai Motor Company | Voice recognition apparatus, vehicle including the same, and control method thereof |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5268825B2 (ja) * | 2009-08-18 | 2013-08-21 | 日本電信電話株式会社 | モデルパラメータ推定装置、方法及びプログラム |
JP6047364B2 (ja) * | 2012-10-10 | 2016-12-21 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN110764647B (zh) * | 2019-10-21 | 2023-10-31 | 科大讯飞股份有限公司 | 输入纠错方法、装置、电子设备和存储介质 |
-
2007
- 2007-08-20 JP JP2007213992A patent/JP4981579B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10770070B2 (en) | 2018-06-07 | 2020-09-08 | Hyundai Motor Company | Voice recognition apparatus, vehicle including the same, and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2009047929A (ja) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
JP3948747B2 (ja) | ツリー構成確率密度に基づくパターン認識の方法及びシステム | |
JP7052866B2 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
Lugosch et al. | Donut: Ctc-based query-by-example keyword spotting | |
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
CN1391211A (zh) | 对识别系统中的参数进行训练的方法和系统 | |
JP4981579B2 (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
JPWO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP5079760B2 (ja) | 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP2020126141A (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP7326596B2 (ja) | 音声データ作成装置 | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP2018132678A (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP5264649B2 (ja) | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110506 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110704 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120420 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |