JP2010118001A - Language model update device, method, and program - Google Patents
Language model update device, method, and program Download PDFInfo
- Publication number
- JP2010118001A JP2010118001A JP2008292584A JP2008292584A JP2010118001A JP 2010118001 A JP2010118001 A JP 2010118001A JP 2008292584 A JP2008292584 A JP 2008292584A JP 2008292584 A JP2008292584 A JP 2008292584A JP 2010118001 A JP2010118001 A JP 2010118001A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- data
- score
- pseudo
- model update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、言語モデル更新装置、方法およびプログラムに関し、特に、識別学習に基づく言語モデル更新装置、方法およびプログラムに関する。 The present invention relates to a language model update device, method and program, and more particularly to a language model update device, method and program based on discriminative learning.
言語モデルは、例えば、音声認識および手書き文字認識において一般的に用いられる。言語モデルは、コーパス中に出現する単語または単語連鎖の頻度に基づいて作成される。 The language model is generally used in, for example, speech recognition and handwritten character recognition. The language model is created based on the frequency of words or word chains appearing in the corpus.
また、近年においては、音声認識を高精度化するために、識別学習によって言語モデルを更新する手法が注目されている。非特許文献1には、言語モデルを更新する言語モデル更新装置が記載されており、特に、音声認識に用いられる言語モデルに対する言語モデル更新装置が記載されている。 In recent years, a technique for updating a language model by discriminative learning has been attracting attention in order to improve the accuracy of speech recognition. Non-Patent Document 1 describes a language model update device for updating a language model, and particularly describes a language model update device for a language model used for speech recognition.
以下の分析は、本発明者によってなされたものである。 The following analysis was made by the present inventors.
図5は、非特許文献1に記載された言語モデル更新装置の構成を概略的に示すブロック図である。図5を参照すると、言語モデル更新装置140は、音声認識部143および言語モデル更新部145を備える。
FIG. 5 is a block diagram schematically showing the configuration of the language model update device described in Non-Patent Document 1. Referring to FIG. 5, the language
言語モデル更新装置140の動作は、次の通りである。すなわち、音声認識部143は、更新すべき更新前言語モデル133および音響モデル134を用いて、収録された音声データである実音声データ131の音声認識を行う。言語モデル更新部145は、音声認識部143による音声認識結果およびそのスコア(すなわち、確からしさ)ならびに実音声データ131における発声内容に対応するテキストデータ132を用いて、正例と負例の間のスコアの差がより大きくなるように、更新前言語モデル133に対する識別学習を行う。ここで、正例とは正解認識結果をいい、負例とは誤認識結果のうち認識結果として上位に挙げられたものをいう。以上により、言語モデル更新装置140は、更新前言語モデル133よりも認識精度が高い更新後言語モデル135を生成する。
The operation of the language
ところで、言語モデルの識別学習においては、学習すべきデータの量が多いほど高精度な学習が可能となる。言語モデル学習装置140は、言語モデルの識別学習を行う際、書き起こし文などのテキストデータ132のみならず、これに対応する実データ(例えば、実音声データ131又は手書き文字データ)を必要とする。しかし、タスクによってはテキストデータ132のみが存在し、これに対応する実データが存在しない場合もある。言語モデル更新装置140は、テキストデータ132のうち対応する実データが存在しないものを識別学習に用いることができず、高精度の学習を行うことができないという問題がある。
By the way, in the identification learning of the language model, the more accurate the learning becomes possible as the amount of data to be learned increases. When performing language model identification learning, the language
そこで、テキストデータにおいて、対応する実データが存在しないものが含まれる場合においても、言語モデルを高精度に識別学習できるようにすることが課題となる。本発明の目的は、かかる課題を解決する言語モデル更新装置、方法及びプログラムを提供することにある。 Therefore, it becomes a problem to be able to identify and learn a language model with high accuracy even when text data that does not have corresponding actual data is included. The objective of this invention is providing the language model update apparatus, method, and program which solve this subject.
本発明の第1の視点に係る言語モデル更新装置は、テキストデータから合成したデータである擬似データを用いて言語モデルを更新する言語モデル更新部を備える。 The language model update device according to the first aspect of the present invention includes a language model update unit that updates a language model using pseudo data that is data synthesized from text data.
本発明の第2の視点に係る言語モデル更新方法は、テキストデータから合成したデータである擬似データを用いて言語モデルを更新する言語モデル更新工程を含む。 The language model update method according to the second aspect of the present invention includes a language model update step of updating a language model using pseudo data which is data synthesized from text data.
本発明の第3の視点に係る言語モデル更新プログラムは、テキストデータから合成したデータである擬似データを用いて言語モデルを更新する言語モデル更新処理をコンピュータに実行させる。 A language model update program according to a third aspect of the present invention causes a computer to execute language model update processing for updating a language model using pseudo data that is data synthesized from text data.
本発明に係る言語モデル更新装置、方法及びプログラムにより、テキストデータに対応する実データの存在しない場合においても、高精度な言語モデルを生成することができる。 The language model updating apparatus, method, and program according to the present invention can generate a highly accurate language model even when there is no actual data corresponding to text data.
(第1の実施形態)
本発明の第1の実施形態に係る言語モデル更新装置について、図面を参照して説明する。図1は、本実施形態の言語モデル更新装置20の構成を示すブロック図である。
(First embodiment)
A language model updating apparatus according to a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the language
図1を参照すると、言語モデル更新装置20は、テキストデータ12から合成したデータである擬似データ22を用いて言語モデルを更新する言語モデル更新部25を備える。
Referring to FIG. 1, the language
また、言語モデル更新装置20は、擬似データ22を合成する擬似データ合成部21を備えることが好ましい。さらに、擬似データ合成部21は、認識対象として実際に収集されたデータである実データ11であってテキストデータ12に対応するものが存在しない場合に限り、擬似データ22を合成することが好ましい。
The language
また、言語モデル更新装置20は、実データ11及び擬似データ22を認識する認識部23をさらに備え、言語モデル更新部25は、認識部23における認識結果に基づいて更新前言語モデル13を更新することが好ましい。さらに、認識部23における認識結果は、正例及び負例並びにこれらのスコアを含むことが好ましい。
The language
また、言語モデル更新装置20は、擬似データ22を実データ11とみなした場合におけるスコアを推定し、推定したスコアに基づいて、擬似データ22に対するスコアを補正するスコア補正部24を備えることが好ましい。さらに、スコア補正部24は、実データ11とその対立候補との間のスコア差を学習することによって得られたスコア差モデルに基づいて、擬似データ22を実データ11とみなした場合におけるスコアを推定することが好ましい。
The language
また、言語モデル更新装置20における認識対象は、例えば、音声であってもよいし、手書き文字であってもよい。
Further, the recognition target in the language
(第2の実施形態)
本発明の第2の実施形態に係る言語モデル更新装置について図面を参照して詳細に説明する。図1は、本実施形態の言語モデル更新装置20の構成を示すブロック図である。図1を参照すると、言語モデル更新装置20は、擬似データ合成部21、擬似データ22、認識部23、スコア補正部24および言語モデル更新部25とを備える。
(Second Embodiment)
A language model updating apparatus according to a second embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the language
実データ11は、実際に収集されたデータである。テキストデータ12は、書き起こし文を含む。更新前言語モデル13は、認識部23における認識に用いられるとともに、更新の対象とされる言語モデルである。モデル14は、認識部23による認識において用いられる。
The
擬似データ合成部21は、テキストデータ12のうちの対応する実データ11が存在しないものを入力し、(例えば、音声合成技術に基づいて)機械式にデータを合成して擬似データ22として出力する。認識部23は、更新前言語モデル13とモデル14を用いて、被認識データ(すなわち、実データ11および擬似データ22)の認識を行う。スコア補正部24は、擬似データ22を実データ11とみなした場合のスコアを推定し、推定したスコアを用いて擬似データ22の認識結果のスコアを適切に補正する。言語モデル更新部25は、更新前言語モデル13と、発声内容であるテキストデータ12と、認識結果と、補正後のスコアとを入力し、言語モデルの識別学習を行って更新後言語モデル15を出力する。
The
次に、図2のフローチャートを参照して本実施形態の言語モデル更新装置20の動作について説明する。
Next, the operation of the language
まず、擬似データ合成部21は、テキストデータ12に対応する実データ11が存在するか否かを判定する(ステップS11)。対応する実データ11が存在しない場合には(ステップS11のNo)、擬似データ合成部21は、擬似データ22を合成して(ステップS12)、記憶部に記録する。
First, the pseudo
次に、認識部23は、更新前言語モデル13およびモデル14を用いて、実データ11および擬似データ22の認識を行う(ステップS13)。
Next, the
次に、認識部23は、認識結果が実データ11の認識結果であるのか、擬似データ22の認識結果であるのかを判定する(ステップS14)。擬似データ22の認識結果である場合には(ステップS14のYes)、スコア補正部24は、実データ11とみなした場合とのスコア差を推定し、擬似データ22に対するスコアを補正する(ステップS15)。
Next, the
次に、言語モデル更新部25は、更新前言語モデル13の識別学習を行って言語モデルを更新する(ステップS16)。最後に、言語モデル更新部25は、更新後の言語モデルを更新後言語モデル15として出力する(ステップS17)。
Next, the language
なお、上記において、擬似データ合成部21は、擬似データ22を記憶部に一時的に記録するものとした。しかし、擬似データ合成部21は、擬似データ22を直接認識部23に入力するようにしてもよい。
In the above description, the pseudo
本実施形態の言語モデル更新装置20は、擬似データ合成部21を用いて擬似データ22を合成するため、テキストデータ12のうち対応する実データ11が存在しないものも用いつつ、言語モデルの識別学習を行うことができる。したがって、本実施形態の言語モデル更新装置20により、高精度な識別学習が可能となる。
Since the language
また、擬似データ合成部21により合成された擬似データ22を用いて言語モデルの識別学習を行ったときには、機械的な合成によって生成された擬似データ22と実際に収集された実データ11との間で認識を行った際のスコアが大きく異なる場合がある。
In addition, when language model identification learning is performed using the
この場合には、言語モデル更新装置20は、言語モデルを適切に学習することができないないという問題が生じうる。しかしながら、本実施形態の言語モデル更新装置20においては、擬似データ22を実データ11とみなした場合のスコアをスコア補正部24によって推定することにより、擬似データ22のスコアが補正される。したがって、本実施形態の言語モデル更新装置20によると、機械的な合成によって生成された擬似データ22を用いた場合であっても、実データ11を用いた場合と同等の学習効果が得られる。
In this case, there may arise a problem that the language
具体的な実施例を基づいて、本発明に係る言語モデル更新装置の動作を説明する。ここでは、音声認識に用いられる言語モデルを更新する場合を例として説明する。なお、本発明に係る言語モデル更新装置は、手書き文字認識に用いる言語モデルに関しても同様の効果を奏する。 The operation of the language model update device according to the present invention will be described based on a specific embodiment. Here, a case where a language model used for speech recognition is updated will be described as an example. Note that the language model update device according to the present invention has the same effect with respect to a language model used for handwritten character recognition.
ここでは、新聞記事を読み上げて得られた読み上げ音声を認識するための言語モデルについて考える。一般に、言語モデルは、新聞記事テキストデータを用いてN−gram頻度を計数することによって作成される。また、言語モデルの識別学習を行う際には、用意された新聞記事の読み上げ音声を音声認識し、正例と負例を識別学習することによって識別的言語モデルが生成される。 Here, a language model for recognizing a reading speech obtained by reading a newspaper article is considered. Generally, a language model is created by counting N-gram frequency using newspaper article text data. In addition, when performing language model identification learning, the speech of a prepared newspaper article is recognized by speech, and a positive example and a negative example are discriminated and learned to generate a discriminative language model.
新聞記事テキストデータは相当の年数に亘って入手することができるものの、それら全部の読み上げ音声を作成し、又は入手することは、時間的な面及びコスト的な面から困難である。すなわち、識別学習において、対応する読み上げ音声が存在する一部の新聞記事テキストデータしか用いることができない。 Although newspaper article text data can be obtained for a considerable number of years, it is difficult from the viewpoint of time and cost to create or obtain read-out speech for all of them. That is, in the discriminative learning, only a part of newspaper article text data having a corresponding reading voice can be used.
図3は、本実施例における言語モデル更新装置40の構成を示すブロック図である。擬似音声データ合成部41は、対応する読み上げ音声である実音声データ31を持たない新聞記事のテキストデータ32に対して、形態素解析等によって読み情報を与えた後、HMM(Hidden Markov Model)合成によって音声合成または特徴量合成を行い、合成された音声データまたは特徴量データを擬似音声データ42として記憶部(非図示)に記録する。擬似音声データ合成部41は、HMM合成において音響モデル34を用いてもよいし、それ以外の音響モデルを用いてもよい。
FIG. 3 is a block diagram showing the configuration of the language
次に、音声認識部43は、更新前言語モデル33および図1のモデル14に対応する音響モデル34を用いて、実際の新聞記事読み上げ音声である実音声データ31および擬似音声データ42の音声認識を行う。このとき、音声認識部43は、認識結果のN−best出力またはワードラティスを各音素の音響スコアとともに出力する。
Next, the
次に、スコア補正部44は、擬似音声データ42の認識結果の音響スコアを補正する。用いる合成手段及び音響モデルによって、擬似音声データ42の音響スコアと実音声データ31の音響スコアとは、大きく異なる場合があるからである。
Next, the
スコア補正部44は、各音素とその対立候補とのスコア差をフレームごとに平均化し、モデル化して保持する。スコア補正44は、擬似音声データ42の認識結果における正解音素のスコアを式(1)のように補正する。
The
式(1)において、scは補正前のスコア、sc’は補正後のスコアである。また、pcは正解音素、pkは誤った対立音素、Kは認識結果中に現れる対立音素の数をそれぞれ表す。さらに、Dはスコア差モデルから得られる正解音素と対立音素とのスコア差、dは認識結果における正解音素と対立音素とのスコア差をそれぞれ表す。また、αは補正の度合を表すパラメータである。 In Expression (1), s c is a score before correction, and s c ′ is a score after correction. Also, pc is a correct phoneme, pk is an incorrect phoneme, and K is the number of phonemes that appear in the recognition result. Furthermore, D represents the score difference between the correct phoneme and the opposite phoneme obtained from the score difference model, and d represents the score difference between the correct phoneme and the opposite phoneme in the recognition result. Α is a parameter representing the degree of correction.
スコア補正部44は、スコア差モデルと実際のスコア差との差を平均化し、パラメータαを乗算したものを、補正前のスコアscに足し合わせることによって音響スコアを補正する。
The
スコア補正部44は、あらかじめ認識した実音声データ31の正例、負例、正例のスコアおよび負例のスコアを用いて、正解音素と対立音素とのスコア差をガウス分布としてモデル化する。上記のスコア差Dとして、ガウス分布の平均値を用いることができる。また、αの値として、適当な値を設定しておく。
The
図4は、スコア補正の例を示す。図4を参照すると、pcは/p/、pkは/t/にそれぞれ相当する。音声合成によって作成された擬似音声データ42においては、正解音素である/p/の尤度が高く、/p/と/t/とのスコア差dは、スコア差モデルにおける/p/と/t/とのスコア差Dよりも大きい。他の対立候補においても同様の傾向である場合には、式(1)の右辺の第2項は負となる。このとき、正解音素/p/の音響スコアscは、その値が小さくなるように補正される。
FIG. 4 shows an example of score correction. Referring to FIG. 4, p c is / p /, p k correspond respectively to / t /. In the
言語モデル更新部45は、音響スコアを補正した音声認識結果とテキストデータ32を用いて、更新前言語モデル33に対する識別学習を行って、その結果を更新後言語モデル35として出力する。
The language
以上の記載は実施例に基づいて行ったが、本発明は、上記実施例に限定されるものではない。 Although the above description has been made based on examples, the present invention is not limited to the above examples.
本発明は、例えば、音声認識、手書き文字認識における言語モデルを更新する際に適用することができる。 The present invention can be applied, for example, when updating a language model in speech recognition and handwritten character recognition.
11 実データ
12、32、132 テキストデータ
13、33、133 更新前言語モデル
14 モデル
15、35、135 更新後言語モデル
20、40、140 言語モデル更新装置
21 擬似データ合成部
22 擬似データ
23 認識部
24、44 スコア補正部
25、45、145 言語モデル更新部
31、131 実音声データ
34、134 音響モデル
41 擬似音声データ合成部
42 擬似音声データ
43、143 音声認識部
11
Claims (23)
前記言語モデル更新部は、前記認識部における認識結果に基づいて前記言語モデルを更新することを特徴とする、請求項1乃至3のいずれか1項に記載の言語モデル更新装置。 A recognition unit for recognizing real data and pseudo data;
4. The language model update device according to claim 1, wherein the language model update unit updates the language model based on a recognition result in the recognition unit. 5.
前記言語モデル更新工程において、前記認識工程における認識結果に基づいて前記言語モデルを更新することを特徴とする、請求項10乃至12のいずれか1項に記載の言語モデル更新方法。 A recognition process for recognizing real data and pseudo data;
The language model update method according to any one of claims 10 to 12, wherein, in the language model update step, the language model is updated based on a recognition result in the recognition step.
前記言語モデル更新処理において、前記認識処理における認識結果に基づいて前記言語モデルを更新することを特徴とする、請求項17乃至19のいずれか1項に記載の言語モデル更新プログラム。 Causing the computer to further perform recognition processing for recognizing real data and pseudo data,
The language model update program according to any one of claims 17 to 19, wherein, in the language model update process, the language model is updated based on a recognition result in the recognition process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008292584A JP2010118001A (en) | 2008-11-14 | 2008-11-14 | Language model update device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008292584A JP2010118001A (en) | 2008-11-14 | 2008-11-14 | Language model update device, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010118001A true JP2010118001A (en) | 2010-05-27 |
Family
ID=42305624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008292584A Withdrawn JP2010118001A (en) | 2008-11-14 | 2008-11-14 | Language model update device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010118001A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014160153A (en) * | 2013-02-20 | 2014-09-04 | Nippon Telegr & Teleph Corp <Ntt> | Language model creation device, method and program thereof |
JP2015031775A (en) * | 2013-08-01 | 2015-02-16 | 日本電信電話株式会社 | Language model creation device and method for the same, program for the same, and recording medium |
WO2023073886A1 (en) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | Information processing system, information processing device, information processing method, and recording medium |
-
2008
- 2008-11-14 JP JP2008292584A patent/JP2010118001A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014160153A (en) * | 2013-02-20 | 2014-09-04 | Nippon Telegr & Teleph Corp <Ntt> | Language model creation device, method and program thereof |
JP2015031775A (en) * | 2013-08-01 | 2015-02-16 | 日本電信電話株式会社 | Language model creation device and method for the same, program for the same, and recording medium |
WO2023073886A1 (en) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | Information processing system, information processing device, information processing method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7996209B2 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
JP5366169B2 (en) | Speech recognition system and program for speech recognition system | |
JP3782943B2 (en) | Speech recognition apparatus, computer system, speech recognition method, program, and recording medium | |
US8315870B2 (en) | Rescoring speech recognition hypothesis using prosodic likelihood | |
US8560318B2 (en) | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event | |
US7792671B2 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
KR101587866B1 (en) | Apparatus and method for extension of articulation dictionary by speech recognition | |
JP2011002656A (en) | Device for detection of voice recognition result correction candidate, voice transcribing support device, method, and program | |
Qian et al. | Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT) | |
WO2012047647A1 (en) | Utterance verification and pronunciation scoring by lattice-transduction | |
CN108074562B (en) | Speech recognition apparatus, speech recognition method, and storage medium | |
Doremalen et al. | Automatic pronunciation error detection in non-native speech: The case of vowel errors in Dutch | |
KR102199246B1 (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
CN102439660A (en) | Voice-tag method and apparatus based on confidence score | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2010230868A (en) | Pattern recognition device, pattern recognition method, and program | |
JP2010118001A (en) | Language model update device, method, and program | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2005084436A (en) | Speech recognition apparatus and computer program | |
JP4878220B2 (en) | Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs | |
JP5738216B2 (en) | Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program | |
CN113053414A (en) | Pronunciation evaluation method and device | |
US10553205B2 (en) | Speech recognition device, speech recognition method, and computer program product | |
JP2005234236A (en) | Device and method for speech recognition, storage medium, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120207 |