JP6810580B2 - 言語モデル学習装置およびそのプログラム - Google Patents
言語モデル学習装置およびそのプログラム Download PDFInfo
- Publication number
- JP6810580B2 JP6810580B2 JP2016226393A JP2016226393A JP6810580B2 JP 6810580 B2 JP6810580 B2 JP 6810580B2 JP 2016226393 A JP2016226393 A JP 2016226393A JP 2016226393 A JP2016226393 A JP 2016226393A JP 6810580 B2 JP6810580 B2 JP 6810580B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- genre
- language model
- model learning
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000000306 recurrent effect Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 53
- 238000004458 analytical method Methods 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 241000234282 Allium Species 0.000 description 4
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000007429 general method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
しかし、この手法は、単語に対応付けたジャンルを正解データとするため、精度の高いジャンル推定を事前に行っておく必要があるが、必ずしも、推定したジャンルが正解データであるとは限らない。そのため、この手法は、未知の学習データに対して、高速に学習を行うことができないとともに、学習精度を落とす要因を含んでいる。
また、非特許文献2の手法は、対話システムへの活用に限定した学習手法であって、一般的なテレビ番組等の字幕から、言語モデルを学習することができないという問題がある。
これによって、テキストデータを構成する文のそれぞれの単語に、ジャンルIDが対応付けられることになる。
また、言語モデル学習装置は、学習手段において、単語を推定するのみならず、単語に対応するジャンルIDを推定することで、算出される誤差は、単語にジャンルIDを加味したものとなり、再帰型ニューラルネットワークの更新の精度を高めることができる。
本発明によれば、単語とともにジャンルをRNNの出力として学習するマルチタスク学習を行うことができる。
これによって、本発明は、単語にジャンルの条件を付加して、RNNを学習することができるため、単語のみの学習に比べて、精度の高い言語モデルを生成することができる。
[言語モデル学習装置の構成]
まず、図1を参照して、本発明の実施形態に係る言語モデル学習装置1の構成について説明する。
図2に示すように、言語モデル学習装置1が学習するRNN言語モデルは、単語(テキストデータ)と既知情報とを入力し、次単語と、その単語が属する分類種別(ジャンル)とを出力するネットワークである。このRNNは、履歴情報を内部に保存し、順次入力される単語および既知情報から、順次次単語およびジャンルを予測し出力する。
図1に示すように、言語モデル学習装置1は、ジャンル分類手段10と、マルチタスク言語モデル学習手段20と、を備える。
このジャンル分類手段10は、テキストデータを1つの番組の字幕テキストとしたとき、字幕テキストを複数のジャンル(ジャンルの内容は未知)に分類する。
ここでは、ジャンル分類手段10は、形態素解析手段11と、単語ブロック生成手段12と、クラスタリング手段13と、ジャンルID付与手段14と、を備える。
一般にジャンルを分類する際に、分類に有効な単語とあまり有効ではない単語があることが知られている。例えば、「では玉ねぎをみじん切りにしましょう」という発話の中で、「玉ねぎ/みじん切り」等の名詞からは、「料理」といったジャンルを特定しやすいが、「では/を/に/しましょう」といった他の品詞からはジャンルを特定しにくい。
ここでは、単語ブロック生成手段12は、所定の品詞として、名詞、動詞および形容詞の単語から単語ブロックを生成することとする。もちろん、名詞のみ等で単語ブロックを生成することとしてもよい。
この単語ブロック生成手段12は、生成した単語ブロックの個々の単語に、抽出元の発話を対応付けて、クラスタリング手段13に出力する。
このクラスタリング手段13における単語ブロックのクラスタリングには、一般的な手法を用いればよい。例えば、クラスタリング手段13は、クラスタリングツールbayonで用いられているRepeated Bisection法等を用いて、予め定めたジャンル数に単語ブロックを分類する。
そして、クラスタリング手段13は、クラスタリングしたジャンルごとの単語ブロックに、個別のID(ジャンルID)を付与する
例えば、図5に示すように、単語ブロック生成手段12で生成された単語ブロックBL1,BL2,…を、クラスタリング手段13によってクラスタリングする。そして、ジャンルID付与手段14は、クラスタリングされたジャンルID=1に対応する単語ブロックBL1,BL2の抽出元の発話の全単語ST1にジャンルID=1を付与し、ジャンルID=2に対応する単語ブロックBL3,BL4の抽出元の発話の全単語ST2にジャンルID=2を付与する。
このように、ジャンル分類手段10は、テキストデータの発話を構成する文の単語ごとに、ジャンルIDを対応付けて、マルチタスク言語モデル学習手段20に出力する。
ここでは、マルチタスク言語モデル学習手段20は、推定手段21と、誤差算出手段22と、更新手段23と、を備える。
図6に示すように、RNN言語モデルは、入力層30と、隠れ層31と、出力層32との各階層を有する再帰型ニューラルネットワークである。
すなわち、推定手段21は、図7に示すように、単語ベクトルw(t)に既知情報ベクトルp(t)を、重みに応じて同じ空間に写像することで、単語推定を行う際に既知情報を推定材料とすることができる。
このように、推定手段21は、t時点における単語およびジャンル(ジャンルID)をベクトルの値によって算出する。
この推定手段21は、算出した単語の推定結果y(t)およびジャンルの推定結果j(t)を、誤差算出手段22に出力する。
すなわち、誤差算出手段22は、t時点の単語ベクトルw(t)および既知情報ベクトルp(t)から推定した次単語の推定結果y(t)と、(t+1)時点で入力される正解データである単語ベクトルw(t+1)との誤差u(t)、ならびに、t時点のジャンルの推定結果j(t)と、(t+1)時点で入力される正解データであるジャンルベクトルq(t+1)との誤差v(t)を、それぞれ以下の式(6),式(7)により算出する。
そして、誤差算出手段22は、算出した誤差u(t),v(t)を、更新手段23に出力する。
なお、誤差算出手段22で算出された誤差u(t),v(t)は、予め定めた重みβ(0≦β≦1)、ベクトルX,X′を用いて、以下の式(8)により、重み付けを行い統合した誤差e(t)とする。なお、ベクトルX,X′は、誤差u(t),v(t)をそれぞれ、潜在ベクトルs(t)と同じ次元の誤差e(t)に変換する重みベクトルである。
これによって、更新手段23は、図8に示すように、2種類の誤差を重みにより統合して、誤差逆伝搬することになり、単語に加えて、対応するジャンルの誤差を補正することで、より精度の高いRNNを学習することができる。
そして、更新手段23は、次の単語が入力された場合、制御を推定手段21に移し、単語の入力が終了した段階で、学習済みのRNN言語モデルを出力し、言語モデル記憶装置2に書き込む。
なお、言語モデル学習装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
次に、図9〜図11を参照(適宜図1参照)して、本発明の実施形態に係る言語モデル学習装置1の動作について説明する。
図9に示すように、言語モデル学習装置1は、ジャンル分類を行う動作(ステップS1)と、マルチタスク言語モデル学習を行う動作(ステップS2)とを行う。
まず、図10を参照(適宜図1参照)して、図9のステップS1の動作について詳細に説明する。
そして、単語ブロック生成手段12は、テキストデータから一発話分のデータ(一文)を読み込む(ステップS11)。
一方、単語ブロック内に挿入されている単語数が閾値未満であれば(ステップS13でNo)、言語モデル学習装置1は、ステップS15に動作を進める。
そして、単語ブロック生成手段12は、ステップS15での形態素解析の結果、所定の品詞(名詞、動詞、形容詞)のみの単語を単語ブロックに挿入する(ステップS16)。このとき、単語ブロック生成手段12は、所定の品詞を含んでいないテキストは削除する。また、単語ブロック生成手段12は、生成した単語ブロックの個々の単語に、抽出元の発話を対応付けておく。
その後、言語モデル学習装置1は、ステップS11に戻って、テキストデータの読み込みが完了するまで、順次、単語ブロックを生成する動作を繰り返す。
以上の動作によって、言語モデル学習装置1は、ジャンル分類手段10によって、所定の品詞を含んだ発話を構成するすべての単語に、ジャンルIDを付与することができる。
次に、図11を参照(適宜図1参照)して、図9のステップS2の動作について詳細に説明する。
一方、単語数が閾値に達した場合(ステップS24でYes)、推定手段21は、前記式(3),式(4)により、次単語およびジャンルIDを算出する(ステップS25)。
その後、言語モデル学習装置1は、更新手段23によって、ステップS26で算出された誤差に基づいて、誤差逆伝搬法により、RNNモデルを学習し、更新する(ステップS27)。
一方、テキストデータのすべてで学習が完了した場合(ステップS28でYes)、言語モデル学習装置1は、学習済みのRNNモデルをRNN言語モデルとして出力し、言語モデル記憶装置2に書き込む(ステップS29)。
ここでは、ジャンル分類手段10は、テキストデータの単語に対して、1つのジャンルIDを付与するハードクラスタリングを行った。しかし、ジャンル分類手段10は、ソフトクラスタリングを行ってもよい。その場合、各単語には、ジャンルIDのベクトル(ジャンルベクトル)の要素に“0.2”等の確率値を設定することとすればよい。
次に、本発明の実施形態に係る言語モデル学習装置1を評価した結果について説明する。ここでは、入力するテキストデータとして、NHKの放送番組の字幕テキストである「ひるまえほっと」11万行、「情報まるごと」8万行を用いた。また、既知情報として、「ひるまえほっと」または「情報まるごと」の番組名を用いた。また、単語ブロック生成手段12で生成する単語ブロック内の単語数の閾値を40個とした。また、クラスタリング手段13で行うクラスリングのジャンル数を“9”とした。また、潜在ベクトルs(t)の要素(ユニット)数を“300”とした。また、推定手段21において、連続して入力する単語の閾値を“20”とした。
10 ジャンル分類手段(分類手段)
11 形態素解析手段
12 単語ブロック生成手段
13 クラスタリング手段
14 ジャンルID付与手段
20 マルチタスク言語モデル学習手段(学習手段)
21 推定手段
22 誤差算出手段
23 更新手段
2 言語モデル記憶手段
Claims (6)
- 文により構成されるテキストデータから言語モデルを学習する言語モデル学習装置であって、
前記テキストデータを構成する前記文に含まれる単語をクラスタリングしてジャンル分けし、ジャンル分けされた各単語に、ジャンルごとに固有のジャンルIDを付与する分類手段と、
前記テキストデータとして、前記単語を再帰型ニューラルネットワークに順次入力し、当該再帰型ニューラルネットワークにより、前記単語から当該単語の次単語および当該次単語に付与されているジャンルIDを推定し、前記再帰型ニューラルネットワークに順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークを前記言語モデルとして更新する学習手段と、
を備えることを特徴とする言語モデル学習装置。 - 前記分類手段は、
前記テキストデータの文から、順次、所定品詞の単語のみを抽出した複数の単語ブロックを生成する単語ブロック生成手段と、
前記複数の単語ブロックをクラスタリングするクラスタリング手段と、
このクラスタリング手段でジャンル分けされたジャンルごとに、単語ブロックの単語の抽出元である文の全単語に当該ジャンルを示すジャンルIDを付与するジャンルID付与手段と、
を備えることを特徴とする請求項1に記載の言語モデル学習装置。 - 前記学習手段は、
順次入力される単語から、前記再帰型ニューラルネットワークにより、次単語および当該次単語に付与されているジャンルIDを推定する推定手段と、
この推定手段で推定された次単語およびジャンルIDと、順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を算出する誤差算出手段と、
この誤差算出手段で算出された誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークの各階層のパラメータを更新する更新手段と、
を備えることを特徴とする請求項1または請求項2に記載の言語モデル学習装置。 - 前記学習手段は、順次入力される単語に加え、当該単語に予め対応付けた既知情報を入力し、当該単語および前記既知情報から、前記再帰型ニューラルネットワークにより、前記次単語と当該次単語に付与されているジャンルIDとを推定することを特徴とする請求項1に記載の言語モデル学習装置。
- 前記学習手段は、
順次入力される単語と当該単語に対応付けられた既知情報とから、前記再帰型ニューラルネットワークにより、次単語および当該次単語に付与されているジャンルIDを推定する推定手段と、
この推定手段で推定された次単語およびジャンルIDと、順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を算出する誤差算出手段と、
この誤差算出手段で算出された誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークの各階層のパラメータを更新する更新手段と、
を備えることを特徴とする請求項4に記載の言語モデル学習装置。 - コンピュータを、請求項1から請求項5のいずれか一項に記載の言語モデル学習装置の各手段として機能させるための言語モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016226393A JP6810580B2 (ja) | 2016-11-22 | 2016-11-22 | 言語モデル学習装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016226393A JP6810580B2 (ja) | 2016-11-22 | 2016-11-22 | 言語モデル学習装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018084627A JP2018084627A (ja) | 2018-05-31 |
JP6810580B2 true JP6810580B2 (ja) | 2021-01-06 |
Family
ID=62236705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016226393A Active JP6810580B2 (ja) | 2016-11-22 | 2016-11-22 | 言語モデル学習装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6810580B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7101057B2 (ja) * | 2018-06-18 | 2022-07-14 | 日本放送協会 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
CN110852084B (zh) * | 2018-07-27 | 2021-04-02 | 杭州海康威视数字技术股份有限公司 | 文本生成方法、装置及设备 |
JP7120064B2 (ja) * | 2019-02-08 | 2022-08-17 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
KR20220040050A (ko) | 2020-09-23 | 2022-03-30 | 삼성전자주식회사 | 자연어 처리 모델 트레이닝 방법 및 장치와 컴퓨팅 장치 |
CN113010740B (zh) * | 2021-03-09 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 词权重的生成方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6222821B2 (ja) * | 2013-10-10 | 2017-11-01 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
-
2016
- 2016-11-22 JP JP2016226393A patent/JP6810580B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018084627A (ja) | 2018-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
US20170206897A1 (en) | Analyzing textual data | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
Deena et al. | Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment | |
Granell et al. | Multimodal crowdsourcing for transcribing handwritten documents | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
Audhkhasi et al. | Theoretical analysis of diversity in an ensemble of automatic speech recognition systems | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
US12094453B2 (en) | Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice | |
US20210049324A1 (en) | Apparatus, method, and program for utilizing language model | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
KR20210051523A (ko) | 도메인 자동 분류 대화 시스템 | |
Zahariev et al. | Semantic analysis of voice messages based on a formalized context | |
Sakti et al. | Incremental sentence compression using LSTM recurrent networks | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
JP6518142B2 (ja) | 言語モデル生成装置およびそのプログラム | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6810580 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |