JP6810580B2 - 言語モデル学習装置およびそのプログラム - Google Patents

言語モデル学習装置およびそのプログラム Download PDF

Info

Publication number
JP6810580B2
JP6810580B2 JP2016226393A JP2016226393A JP6810580B2 JP 6810580 B2 JP6810580 B2 JP 6810580B2 JP 2016226393 A JP2016226393 A JP 2016226393A JP 2016226393 A JP2016226393 A JP 2016226393A JP 6810580 B2 JP6810580 B2 JP 6810580B2
Authority
JP
Japan
Prior art keywords
word
genre
language model
model learning
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016226393A
Other languages
English (en)
Other versions
JP2018084627A (ja
Inventor
愛子 萩原
愛子 萩原
庄衛 佐藤
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2016226393A priority Critical patent/JP6810580B2/ja
Publication of JP2018084627A publication Critical patent/JP2018084627A/ja
Application granted granted Critical
Publication of JP6810580B2 publication Critical patent/JP6810580B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、言語モデルを学習するための言語モデル学習装置およびそのプログラムに関する。
字幕放送は、テレビ番組の音声を文字で伝える方法であり、テレビの音が聞き取りにくい高齢者や聴覚障害者のための重要な情報保障手段となっている。このため、従来から、生放送番組にリアルタイムに字幕を付与する方法の1つとして、音声認識を用いたシステムの開発が進められている。また、放送現場では、事前に収録された番組の発言内容などを、ニュースの原稿作成のために書き起こす作業を行っている。そこで、放送現場等では、このような作業を音声認識で自動化するシステムの開発が望まれていた。これらの期待に応えるためには、様々な話題に自動的に適応できる精度の高い言語モデルの構築が必要となる。言語モデルとは、ある単語の次に続く単語の確率を出力するものをいう。
話題に適応できる言語モデルの学習方法として、単語以外の情報を付加する手法がある。例えば、非特許文献1では、学習データに含まれる番組のジャンルを推定し、その情報を既知情報として与えながら、言語モデルを再帰型ニューラルネットワーク(Recurrent Neural Network:以下、RNNと略す場合がある)で学習する方法が提案されている。
ジャンル分類に関しては、自然言語処理の分野では「トピック推定」として幅広く研究されており、大きくはハードクラスタリングとソフトクラスタリングとに分けられる。ハードクラスタリングでは、ある文書が属するトピックを一つに定める。それに対して、ソフトクラスタリングは、その文書が各トピックに属する可能性を出力する。例えば、「トピック1」「トピック2」「トピック3」と3つに分けるとき、ハードクラスタリングではある文書を「トピック2」と特定するが、ソフトクラスタリングでは「トピック1:20%」「トピック2:70%」「トピック3:10%」と確率を示す。
非特許文献1の手法では、学習データに対してまずLDA(Latent Dirichlet Allocation)という手法により1024次元のベクトルを生成している。この1024次元のベクトルは、「トピック1」…「トピック1024」に対応し、それぞれが値を持つため、1024トピックへのソフトクラスタリングによりジャンルを推定している。
また、他の言語モデルの学習方法として、対話システムへの活用のため、言語モデルを学習するタスクに、対話破綻を検出するという異なるタスクを加えて、1つのRNNで2つ以上の目的の学習(マルチタスク学習)を行う手法が提案されている(非特許文献2)。
Salil Deena, Madina Hasan, Mortaza Doulaty, Oscar Saz, and Thomas Hain,"Combining Feature and Model-Based Adaptation of RNNLMs for Multi-Genre Broadcast Speech Recognition", INTERSPEECH2016, pp,2343-2347, September 8-12, 2016, San Francisco, USA 小林颯介,海野裕也,福田昌昭,"再帰型ニューラルネットワークを用いた対話破綻検出と言語モデルのマルチタスク学習",言語・音声理解と対話処理研究会,Vol.75,pp.41-46,2015-10-29
非特許文献1の手法は、番組のジャンルを推定し、その情報を既知情報として、単語とともにRNNの入力とセットで与え、言語モデルの精度向上を行っている。
しかし、この手法は、単語に対応付けたジャンルを正解データとするため、精度の高いジャンル推定を事前に行っておく必要があるが、必ずしも、推定したジャンルが正解データであるとは限らない。そのため、この手法は、未知の学習データに対して、高速に学習を行うことができないとともに、学習精度を落とす要因を含んでいる。
また、非特許文献2の手法は、対話システムへの活用に限定した学習手法であって、一般的なテレビ番組等の字幕から、言語モデルを学習することができないという問題がある。
そこで、本発明は、単語の正解データとしてジャンルをRNNの入力に使用するのではなく、単語とともにジャンルをRNNの出力として学習するマルチタスク学習によって、言語モデルを学習する言語モデル学習装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る言語モデル学習装置は、文により構成されるテキストデータから言語モデルを学習する言語モデル学習装置であって、分類手段と、学習手段と、を備える。
かかる構成において、言語モデル学習装置は、分類手段によって、テキストデータを構成する文に含まれる単語をクラスタリングしてジャンル分けし、ジャンル分けされた各単語に、ジャンルごとに固有のジャンルIDを付与する。
これによって、テキストデータを構成する文のそれぞれの単語に、ジャンルIDが対応付けられることになる。
そして、言語モデル学習装置は、学習手段によって、テキストデータとして、単語を再帰型ニューラルネットワークに順次入力し、当該再帰型ニューラルネットワークにより、単語から当該単語の次単語および当該次単語に付与されているジャンルIDを推定し、前記再帰型ニューラルネットワークに順次入力される正解データである次単語および分類手段で正解データの次単語に付与されたジャンルIDとの誤差を用いた誤差逆伝搬法により、再帰型ニューラルネットワークを言語モデルとして更新する。
このように、言語モデル学習装置は、学習手段によって、テキストデータとして、単語を入力することで、再帰型ニューラルネットワークにより、次単語やジャンルIDを推定する際に、次のデータとして存在する正解データとの間で誤差を算出することができる。これによって、学習手段は、その誤差から、誤差逆伝搬法により、再帰型ニューラルネットワークを更新することが可能になる。
また、言語モデル学習装置は、学習手段において、単語を推定するのみならず、単語に対応するジャンルIDを推定することで、算出される誤差は、単語にジャンルIDを加味したものとなり、再帰型ニューラルネットワークの更新の精度を高めることができる。
なお、言語モデル学習装置は、コンピュータを、前記した分類手段、学習手段として機能させるための言語モデル学習プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、単語とともにジャンルをRNNの出力として学習するマルチタスク学習を行うことができる。
これによって、本発明は、単語にジャンルの条件を付加して、RNNを学習することができるため、単語のみの学習に比べて、精度の高い言語モデルを生成することができる。
本発明の実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 マルチタスクRNN言語モデルの入出力構造を説明するための説明図である。 マルチタスクRNN言語モデルの入出力例を説明するための説明図である。 放送番組に含まれるジャンルの構成例を説明するための説明図である。 本発明の実施形態に係る言語モデル学習装置のジャンル分類手段の処理内容を説明するための説明図である。 本発明の実施形態に係る言語モデル学習装置のマルチタスク言語モデル学習手段の処理内容を説明するための説明図である。 単語ベクトルと既知情報ベクトルとの足し合わせの概念を説明するため説明図である。 正解次単語ベクトルと正解ジャンルベクトルの誤差の足し合わせの概念を説明するため説明図である。 本発明の実施形態に係る言語モデル学習装置の全体動作を示すフローチャートである。 本発明の実施形態に係る言語モデル学習装置のジャンル分類動作を示すフローチャートである。 本発明の実施形態に係る言語モデル学習装置のRNN学習モデル学習動作を示すフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。
[言語モデル学習装置の構成]
まず、図1を参照して、本発明の実施形態に係る言語モデル学習装置1の構成について説明する。
言語モデル学習装置1は、テキストデータと当該テキストデータに対応する既知情報とから、言語モデルを学習するものである。言語モデルは、ある単語の次に続く単語の出現確率を出力するものである。言語モデル学習装置1は、言語モデルとして、再帰型ニューラルネットワーク(RNN)の言語モデルを生成する。
テキストデータは、言語モデルを学習するための学習データ(コーパスデータ)である。例えば、テキストデータは、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる分野に関連する文の単語列である。ここでは、テキストデータとして、テレビ番組の字幕テキストを例に説明を行う。
既知情報は、テキストデータの単語に対応する予め定めた情報である。例えば、既知情報は、テキストデータが字幕テキストであれば、番組名、放送日(放送時間)、出演者、番組紹介文、番組内コーナー名等、番組表情報の種々の情報とすることができる。ここでは、既知情報として番組名を例に説明を行う。
次に、図2,図3を参照して、言語モデル学習装置1が学習するRNN言語モデルの概要について説明する。
図2に示すように、言語モデル学習装置1が学習するRNN言語モデルは、単語(テキストデータ)と既知情報とを入力し、次単語と、その単語が属する分類種別(ジャンル)とを出力するネットワークである。このRNNは、履歴情報を内部に保存し、順次入力される単語および既知情報から、順次次単語およびジャンルを予測し出力する。
例えば、図3に示すように、最初の状態1において、単語「今日」および番組名「番組A」とから、次単語「の」およびジャンル「気象」を予測し出力する。ここで、RNNは、履歴情報を内部に保存するため、この状態遷移を続けることで、状態4において、履歴情報「今日+番組A、の+番組A、天気+番組A」と直近の単語「は」および番組名「番組A」とから、次単語「晴れ」およびジャンル「気象」を予測し出力する。
このように、RNN言語モデルは、履歴情報を保存することができるため、前の文脈を元に次の単語を予測することができる。また、このRNN言語モデルは、次単語だけでなく、ジャンルを出力する構造としたことで、前の文脈を考慮してジャンルを予測することができる。これによって、言語モデル学習装置1は、予測する単語とジャンルとを合わせて予測誤差を求めてRNNを学習し、更新することができる。このRNNの学習と更新については、後で詳細に説明する。
図1に戻って、言語モデル学習装置1の構成について説明を続ける。
図1に示すように、言語モデル学習装置1は、ジャンル分類手段10と、マルチタスク言語モデル学習手段20と、を備える。
ジャンル分類手段(分類手段)10は、テキストデータの単語列をクラスタリングし、単語に、その単語が属するクラス(ジャンル)の識別子(ジャンルID)を対応付けるものである。
一般に、テレビ番組において、1つの番組内に、複数のジャンルが含まれることが多い。具体的には、図4に示すように、番組A〜Cごとに、複数のジャンルで番組が進行する。例えば、ある番組Aは、番組内で「ニュース」、「天気予報」、「スポーツ」、「生活」といったジャンルで番組が進行する。
このジャンル分類手段10は、テキストデータを1つの番組の字幕テキストとしたとき、字幕テキストを複数のジャンル(ジャンルの内容は未知)に分類する。
ここでは、ジャンル分類手段10は、形態素解析手段11と、単語ブロック生成手段12と、クラスタリング手段13と、ジャンルID付与手段14と、を備える。
形態素解析手段11は、テキストデータを構成する各文(各発話)を、形態素解析して単語に分割し、その単語に品詞を割り当てるものである。この形態素解析は、MeCab等の一般的な形態素解析エンジンを用いることができる。ここでは、形態素解析手段11は、単語ブロック生成手段12から、一発話の文を入力し、その文を構成する単語および品詞を単語ブロック生成手段12に出力する。
単語ブロック生成手段12は、テキストデータから所定の品詞の単語を抽出し、複数の単語ブロックを生成するものである。
一般にジャンルを分類する際に、分類に有効な単語とあまり有効ではない単語があることが知られている。例えば、「では玉ねぎをみじん切りにしましょう」という発話の中で、「玉ねぎ/みじん切り」等の名詞からは、「料理」といったジャンルを特定しやすいが、「では/を/に/しましょう」といった他の品詞からはジャンルを特定しにくい。
ここでは、単語ブロック生成手段12は、所定の品詞として、名詞、動詞および形容詞の単語から単語ブロックを生成することとする。もちろん、名詞のみ等で単語ブロックを生成することとしてもよい。
この単語ブロック生成手段12は、形態素解析手段11によってテキストデータを一文(一発話)ごとに形態素解析し、名詞、動詞および形容詞の品詞の単語を、順次、単語ブロックに挿入する。なお、単語ブロックに挿入する単語数の閾値は予め定めた所定数とする。これによって、単語ブロック生成手段12は、テキストデータから、名詞、動詞および形容詞の単語からなる複数の単語ブロックを生成する。この単語ブロックに挿入する単語数の閾値は、例えば、40個とする。これによって、一文から抽出される単語数が短い場合でも、分類に必要なある程度の長さの単語列を確保することができる。
例えば、図5に示すように、単語ブロック生成手段12は、番組A〜Cのテキストデータを入力し、番組Aの第1文(A−1)から「雲」、「広がる」等を抽出し、単語ブロックBLに挿入する。また、単語ブロック生成手段12は、番組Aの第2文(A−2)から「大気」、「不安定」等を抽出し、単語ブロックBLに挿入する。また、単語ブロック生成手段12は、番組Aの第3文(A−3)から「玉ねぎ」、「火」等を抽出し、単語ブロックBLに挿入する。また、単語ブロック生成手段12は、番組Bの第1文(B−1)から「混ぜ」、「ください」等を抽出し、単語ブロックBLに挿入する。
この単語ブロック生成手段12は、生成した単語ブロックの個々の単語に、抽出元の発話を対応付けて、クラスタリング手段13に出力する。
クラスタリング手段13は、単語ブロック生成手段12で生成された複数の単語ブロッを、クラスタリング(分類)するものである。
このクラスタリング手段13における単語ブロックのクラスタリングには、一般的な手法を用いればよい。例えば、クラスタリング手段13は、クラスタリングツールbayonで用いられているRepeated Bisection法等を用いて、予め定めたジャンル数に単語ブロックを分類する。
そして、クラスタリング手段13は、クラスタリングしたジャンルごとの単語ブロックに、個別のID(ジャンルID)を付与する
ジャンルID付与手段14は、クラスタリング手段13でクラスタリングされた単語ブロックを構成している各単語に対応する発話の全単語に対し、単語ブロックと同じジャンルIDを付与するものである。
例えば、図5に示すように、単語ブロック生成手段12で生成された単語ブロックBL,BL,…を、クラスタリング手段13によってクラスタリングする。そして、ジャンルID付与手段14は、クラスタリングされたジャンルID=1に対応する単語ブロックBL,BLの抽出元の発話の全単語STにジャンルID=1を付与し、ジャンルID=2に対応する単語ブロックBL,BLの抽出元の発話の全単語STにジャンルID=2を付与する。
このように、ジャンル分類手段10は、テキストデータの発話を構成する文の単語ごとに、ジャンルIDを対応付けて、マルチタスク言語モデル学習手段20に出力する。
マルチタスク言語モデル学習手段(学習手段)20は、単語にジャンルIDが対応付けられたテキストデータと既知情報とを順次単語単位で入力し、次単語と当該次単語のジャンルとの2つを推定しつつ、RNN言語モデルを学習するものである。
ここでは、マルチタスク言語モデル学習手段20は、推定手段21と、誤差算出手段22と、更新手段23と、を備える。
推定手段21は、入力される単語と、当該単語に対応するジャンルIDおよび既知情報とから、RNNにより、次単語およびジャンルを推定するものである。ここでは、推定手段21は、予め定めた閾値の単語数を入力して、次単語およびジャンルを推定する。なお、この閾値は、多くするほど、前の文脈を長く考慮して推定を行うことができるが、メモリを多く使用することになるため、CPUパワー等に応じて予め設定しておく。
ここで、図6を参照(適宜図1参照)して、推定手段21における次単語およびジャンルを推定する処理について説明する。
図6に示すように、RNN言語モデルは、入力層30と、隠れ層31と、出力層32との各階層を有する再帰型ニューラルネットワークである。
入力層30は、t時点において、単語および既知情報を入力する階層である。ここで、単語は、t時点におけるベクトル(単語ベクトル)w(t)とする。なお、w(t)は、次元数を全単語数とし、w(t)が表現する単語の成分のみを“1”、他を“0”とする。既知情報は、t時点におけるベクトル(既知情報ベクトル)p(t)とする。例えば、p(t)は、番組ごとに予め定めた成分のみを“1”、他を“0”とする。
隠れ層31は、入力層30で入力されるベクトル(w(t),p(t))を、それぞれ写像U,U′により、隠れ層31のベクトル(潜在ベクトル)s(t)と同じ次元のベクトルに写像し、予め定めた重みαに応じて足し合わせたベクトルと、隠れ層31の1時点前のベクトルs(t−1)に重みベクトルWを乗じたベクトルとを加算し、シグモイド関数fにより変換したベクトル(潜在ベクトル)s(t)により順次更新される階層である。なお、s(t)における(t−1),(t−2)…の状態は、スタックに保持される。
すなわち、推定手段21は、図7に示すように、単語ベクトルw(t)に既知情報ベクトルp(t)を、重みに応じて同じ空間に写像することで、単語推定を行う際に既知情報を推定材料とすることができる。
出力層32は、推定した次単語およびジャンルを出力する階層である。この出力層32は、隠れ層31の潜在ベクトルs(t)に、単語推定とジャンル推定とのそれぞれの重みベクトルV,V′を乗算し、ソフトマックス関数により、t時点における単語の推定結果y(t)と、ジャンルの推定結果j(t)とを出力する。このとき、単語の推定結果y(t)は、重みベクトルVにより、単語のベクトルw(t)と同じ次元に変換され、ジャンルの推定結果j(t)は、重みベクトルV′により、予め定めたジャンルの数の次元に変換される。
すなわち、推定手段21は、t時点における単語ベクトルw(t)と、既知情報ベクトルp(t)と、1時点前の潜在ベクトルs(t−1)と、予め定めた重みα(0≦α≦1)と、各階層のパラメータである写像U,U′および重みベクトルWとから、以下の式(1)により、隠れ層31の潜在ベクトルs(t)を算出する。ただし、f(・)は、以下の式(2)のシグモイド関数である。
Figure 0006810580
そして、推定手段21は、t時点における潜在ベクトルs(t)と、単語推定とジャンル推定とのそれぞれの重みベクトルV,V′とから、以下の式(3)、式(4)により、t時点における単語の推定結果y(t)と、ジャンルの推定結果j(t)とを算出する。ただし、g(・)は、以下の式(5)のソフトマックス関数で、kは単語ベクトルw(t)の次数である。
Figure 0006810580
これによって、単語の推定結果y(t)およびジャンルの推定結果j(t)は、それぞれベクトルの各要素が“0”〜“1”の値となる。
このように、推定手段21は、t時点における単語およびジャンル(ジャンルID)をベクトルの値によって算出する。
この推定手段21は、算出した単語の推定結果y(t)およびジャンルの推定結果j(t)を、誤差算出手段22に出力する。
誤差算出手段22は、推定手段21で推定した単語およびジャンル(ジャンルID)と、正解データとの誤差を算出するものである。
すなわち、誤差算出手段22は、t時点の単語ベクトルw(t)および既知情報ベクトルp(t)から推定した次単語の推定結果y(t)と、(t+1)時点で入力される正解データである単語ベクトルw(t+1)との誤差u(t)、ならびに、t時点のジャンルの推定結果j(t)と、(t+1)時点で入力される正解データであるジャンルベクトルq(t+1)との誤差v(t)を、それぞれ以下の式(6),式(7)により算出する。
そして、誤差算出手段22は、算出した誤差u(t),v(t)を、更新手段23に出力する。
Figure 0006810580
更新手段23は、誤差算出手段22で算出された誤差u(t),v(t)に基づいて、推定手段21で使用したパラメータである写像U,U′、重みベクトルW、重みベクトルV,V′を更新するものである。
なお、誤差算出手段22で算出された誤差u(t),v(t)は、予め定めた重みβ(0≦β≦1)、ベクトルX,X′を用いて、以下の式(8)により、重み付けを行い統合した誤差e(t)とする。なお、ベクトルX,X′は、誤差u(t),v(t)をそれぞれ、潜在ベクトルs(t)と同じ次元の誤差e(t)に変換する重みベクトルである。
Figure 0006810580
そして、更新手段23は、時刻(単語の入力系列)を考慮した誤差逆伝搬法(BPTT:Back Propagation Through Time、バックプロパゲーションスルータイム)により、写像U,U′、重みベクトルW、重みベクトルV,V′を更新し、新たなRNNを構築する。なお、誤差逆伝搬法は、再帰型ニューラルネットワークの学習を行う処理に用いる一般的な手法であり、入力と出力との間の誤差を計算し、その誤差を用いて出力から逆向きに順次に計算して学習を行う手法である。ここでは、詳細な説明を省略する。
これによって、更新手段23は、図8に示すように、2種類の誤差を重みにより統合して、誤差逆伝搬することになり、単語に加えて、対応するジャンルの誤差を補正することで、より精度の高いRNNを学習することができる。
そして、更新手段23は、次の単語が入力された場合、制御を推定手段21に移し、単語の入力が終了した段階で、学習済みのRNN言語モデルを出力し、言語モデル記憶装置2に書き込む。
以上説明したように言語モデル学習装置1を構成することで、言語モデル学習装置1は、RNNを学習する際に、単語の推定に加え、ジャンルの推定を行って正解データとの誤差を求めることで、より精度を高めて次単語を推定する言語モデルを生成することができる。
なお、言語モデル学習装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
[言語モデル学習装置の動作]
次に、図9〜図11を参照(適宜図1参照)して、本発明の実施形態に係る言語モデル学習装置1の動作について説明する。
図9に示すように、言語モデル学習装置1は、ジャンル分類を行う動作(ステップS1)と、マルチタスク言語モデル学習を行う動作(ステップS2)とを行う。
ステップS1において、言語モデル学習装置1は、テキストデータを入力し、テキストデータの単語をジャンルごとに分類し、単語にジャンルIDを付与する。このステップS1の動作は、言語モデル学習装置1のジャンル分類手段10で行われる動作であって、詳細な動作については、あとで図10を参照して説明を行う。
また、ステップS2において、言語モデル学習装置1は、ステップS1でジャンルIDが付与された単語と既知情報とから、次の単語とそのジャンルを推定し、推定誤差を算出ことで、RNN言語モデルを学習する。このステップS2の動作は、言語モデル学習装置1のマルチタスク言語モデル学習手段20で行われる動作であって、詳細な動作については、あとで図11を参照して説明を行う。
(ジャンル分類)
まず、図10を参照(適宜図1参照)して、図9のステップS1の動作について詳細に説明する。
言語モデル学習装置1は、単語ブロック生成手段12によって、空の単語ブロックを生成する(ステップS10)。すなわち、単語ブロック生成手段12は、メモリ領域に予め定めたバッファサイズの領域を確保し、バッファ内部を初期化する。
そして、単語ブロック生成手段12は、テキストデータから一発話分のデータ(一文)を読み込む(ステップS11)。
ここで、すでに全発話のデータの入力が完了している場合、すなわち、ステップS11で一発話のデータを読み込めなかった場合(ステップS12でYes)、言語モデル学習装置1は、ステップS17に動作を進める。一方、全発話のデータ入力が完了していない場合、すなわち、ステップS11で一発話のデータを読み込んだ場合(ステップS12でNo)、言語モデル学習装置1は、ステップS13に動作を進める。
そして、ステップS13において、単語ブロック生成手段12は、単語ブロック内に挿入されている単語数が閾値以上か否かを判定する。ここで、単語ブロック内に挿入されている単語数が閾値以上であれば(ステップS13でYes)、単語ブロック生成手段12は、新たに空の単語ブロックを生成する(ステップS14)。そして、言語モデル学習装置1は、ステップS15に動作を進める。
一方、単語ブロック内に挿入されている単語数が閾値未満であれば(ステップS13でNo)、言語モデル学習装置1は、ステップS15に動作を進める。
そして、ステップS15において、単語ブロック生成手段12は、ステップS11で読み込んだ一発話分のデータを、形態素解析手段11により形態素解析させる。
そして、単語ブロック生成手段12は、ステップS15での形態素解析の結果、所定の品詞(名詞、動詞、形容詞)のみの単語を単語ブロックに挿入する(ステップS16)。このとき、単語ブロック生成手段12は、所定の品詞を含んでいないテキストは削除する。また、単語ブロック生成手段12は、生成した単語ブロックの個々の単語に、抽出元の発話を対応付けておく。
その後、言語モデル学習装置1は、ステップS11に戻って、テキストデータの読み込みが完了するまで、順次、単語ブロックを生成する動作を繰り返す。
また、言語モデル学習装置1は、ステップS12で、全発話のデータの入力が完了した場合、すなわち、テキストデータから単語ブロックの生成が完了した時点で、クラスタリング手段13によって、単語ブロックをクラスタリングする(ステップS17)。このとき、クラスタリング手段13は、予め定めたジャンル数(例えば、9)に単語ブロックを分類し、個別のID(ジャンルID)を付与する。これによって、単語ブロックが、複数のジャンルに分類されることになる。
そして、言語モデル学習装置1は、ジャンルID付与手段14によって、ステップS17でクラスタリングされた単語ブロックを構成している各単語に対応する発話の全単語に対し、単語ブロックと同じジャンルIDを付与する(ステップS18)。
以上の動作によって、言語モデル学習装置1は、ジャンル分類手段10によって、所定の品詞を含んだ発話を構成するすべての単語に、ジャンルIDを付与することができる。
(マルチタスク言語モデル学習)
次に、図11を参照(適宜図1参照)して、図9のステップS2の動作について詳細に説明する。
言語モデル学習装置1は、マルチタスク言語モデル学習手段20によって、初期段階として、再帰型ニューラルネットワーク(RNN)の構造を持ったモデルを作成する(ステップS20)。そして、マルチタスク言語モデル学習手段20は、RNNモデルの内部変数、例えば、スタックを指し示すポインタ等をリセットする(ステップS21)。
その後、言語モデル学習装置1は、マルチタスク言語モデル学習手段20の推定手段21によって、単語と既知情報とを入力し、スタック(w(t),p(t))に保存する(ステップS22)。そして、推定手段21は、前記式(1)により、潜在ベクトルを算出し、スタック(s(t))に保存する(ステップS23)。
そして、推定手段21は、ステップS22で入力した単語数が閾値となったか否かを判定する(ステップS24)。ここで、単語数が閾値に達していない場合(ステップS24でNo)、言語モデル学習装置1は、ステップS22に動作を戻す。
一方、単語数が閾値に達した場合(ステップS24でYes)、推定手段21は、前記式(3),式(4)により、次単語およびジャンルIDを算出する(ステップS25)。
そして、言語モデル学習装置1は、誤差算出手段22によって、ステップS25で算出された次単語およびジャンルIDと、正解データである次単語およびジャンルIDとの誤差を算出する(ステップS26)。
その後、言語モデル学習装置1は、更新手段23によって、ステップS26で算出された誤差に基づいて、誤差逆伝搬法により、RNNモデルを学習し、更新する(ステップS27)。
ここで、テキストデータのすべてで学習が完了していない場合(ステップS28でNo)、言語モデル学習装置1は、ステップS21に戻って動作を継続する。
一方、テキストデータのすべてで学習が完了した場合(ステップS28でYes)、言語モデル学習装置1は、学習済みのRNNモデルをRNN言語モデルとして出力し、言語モデル記憶装置2に書き込む(ステップS29)。
以上の動作によって、言語モデル学習装置1は、マルチタスク言語モデル学習手段20によって、単語とジャンルとを推定し、誤差に応じてRNNモデルを更新することで、精度の高いRNNモデルをRNN言語モデルとして生成することができる。
以上、本発明の実施形態に係る言語モデル学習装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、ジャンル分類手段10は、テキストデータの単語に対して、1つのジャンルIDを付与するハードクラスタリングを行った。しかし、ジャンル分類手段10は、ソフトクラスタリングを行ってもよい。その場合、各単語には、ジャンルIDのベクトル(ジャンルベクトル)の要素に“0.2”等の確率値を設定することとすればよい。
また、ここでは、言語モデル学習装置1は、RNN言語モデルを学習する際に、入力値として、既知情報を入力したが、これを省略してもよい。その場合、言語モデル学習装置1は、前記式(1)のαの値を“1”として動作させればよい。
[評価結果]
次に、本発明の実施形態に係る言語モデル学習装置1を評価した結果について説明する。ここでは、入力するテキストデータとして、NHKの放送番組の字幕テキストである「ひるまえほっと」11万行、「情報まるごと」8万行を用いた。また、既知情報として、「ひるまえほっと」または「情報まるごと」の番組名を用いた。また、単語ブロック生成手段12で生成する単語ブロック内の単語数の閾値を40個とした。また、クラスタリング手段13で行うクラスリングのジャンル数を“9”とした。また、潜在ベクトルs(t)の要素(ユニット)数を“300”とした。また、推定手段21において、連続して入力する単語の閾値を“20”とした。
また、ここでは、前記式(1)のαや前記式(8)のβの値を変えて、評価を行った。このαおよびβは、その値によって、言語モデル学習装置1の入力や、学習(推定)を行う機能が制限される。以下、〔表1〕にその対応を示す。
Figure 0006810580
以下、αおよびβを特定の値に設定して動作させた言語モデル学習装置1の評価結果を、〔表2〕に示す。なお、ここでは、評価結果として言語モデルの複雑さを示すPPL(パープレキシティ)を用いた。このPPLは、値が小さいほど言語モデルが複雑でなく優れていることを示す指標である。
Figure 0006810580
このように、言語モデル学習装置1は、単純な単語のみのモデルに比べて、PPLの値が小さくなり、複雑性が低く、予測精度が高いRNN言語モデルとなっている。
1 言語モデル学習装置
10 ジャンル分類手段(分類手段)
11 形態素解析手段
12 単語ブロック生成手段
13 クラスタリング手段
14 ジャンルID付与手段
20 マルチタスク言語モデル学習手段(学習手段)
21 推定手段
22 誤差算出手段
23 更新手段
2 言語モデル記憶手段

Claims (6)

  1. 文により構成されるテキストデータから言語モデルを学習する言語モデル学習装置であって、
    前記テキストデータを構成する前記文に含まれる単語をクラスタリングしてジャンル分けし、ジャンル分けされた各単語に、ジャンルごとに固有のジャンルIDを付与する分類手段と、
    前記テキストデータとして、前記単語を再帰型ニューラルネットワークに順次入力し、当該再帰型ニューラルネットワークにより、前記単語から当該単語の次単語および当該次単語に付与されているジャンルIDを推定し、前記再帰型ニューラルネットワークに順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークを前記言語モデルとして更新する学習手段と、
    を備えることを特徴とする言語モデル学習装置。
  2. 前記分類手段は、
    前記テキストデータの文から、順次、所定品詞の単語のみを抽出した複数の単語ブロックを生成する単語ブロック生成手段と、
    前記複数の単語ブロックをクラスタリングするクラスタリング手段と、
    このクラスタリング手段でジャンル分けされたジャンルごとに、単語ブロックの単語の抽出元である文の全単語に当該ジャンルを示すジャンルIDを付与するジャンルID付与手段と、
    を備えることを特徴とする請求項1に記載の言語モデル学習装置。
  3. 前記学習手段は、
    順次入力される単語から、前記再帰型ニューラルネットワークにより、次単語および当該次単語に付与されているジャンルIDを推定する推定手段と、
    この推定手段で推定された次単語およびジャンルIDと、順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を算出する誤差算出手段と、
    この誤差算出手段で算出された誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークの各階層のパラメータを更新する更新手段と、
    を備えることを特徴とする請求項1または請求項2に記載の言語モデル学習装置。
  4. 前記学習手段は、順次入力される単語に加え、当該単語に予め対応付けた既知情報を入力し、当該単語および前記既知情報から、前記再帰型ニューラルネットワークにより、前記次単語と当該次単語に付与されているジャンルIDとを推定することを特徴とする請求項1に記載の言語モデル学習装置。
  5. 前記学習手段は、
    順次入力される単語と当該単語に対応付けられた既知情報とから、前記再帰型ニューラルネットワークにより、次単語および当該次単語に付与されているジャンルIDを推定する推定手段と、
    この推定手段で推定された次単語およびジャンルIDと、順次入力される正解データである次単語および前記分類手段で前記正解データの次単語に付与されたジャンルIDとの誤差を算出する誤差算出手段と、
    この誤差算出手段で算出された誤差を用いた誤差逆伝搬法により、前記再帰型ニューラルネットワークの各階層のパラメータを更新する更新手段と、
    を備えることを特徴とする請求項4に記載の言語モデル学習装置。
  6. コンピュータを、請求項1から請求項5のいずれか一項に記載の言語モデル学習装置の各手段として機能させるための言語モデル学習プログラム。
JP2016226393A 2016-11-22 2016-11-22 言語モデル学習装置およびそのプログラム Active JP6810580B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016226393A JP6810580B2 (ja) 2016-11-22 2016-11-22 言語モデル学習装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016226393A JP6810580B2 (ja) 2016-11-22 2016-11-22 言語モデル学習装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2018084627A JP2018084627A (ja) 2018-05-31
JP6810580B2 true JP6810580B2 (ja) 2021-01-06

Family

ID=62236705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016226393A Active JP6810580B2 (ja) 2016-11-22 2016-11-22 言語モデル学習装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6810580B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7101057B2 (ja) * 2018-06-18 2022-07-14 日本放送協会 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
CN110852084B (zh) * 2018-07-27 2021-04-02 杭州海康威视数字技术股份有限公司 文本生成方法、装置及设备
JP7120064B2 (ja) * 2019-02-08 2022-08-17 日本電信電話株式会社 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
KR20220040050A (ko) 2020-09-23 2022-03-30 삼성전자주식회사 자연어 처리 모델 트레이닝 방법 및 장치와 컴퓨팅 장치
CN113010740B (zh) * 2021-03-09 2023-05-30 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6222821B2 (ja) * 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム

Also Published As

Publication number Publication date
JP2018084627A (ja) 2018-05-31

Similar Documents

Publication Publication Date Title
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
US20170206897A1 (en) Analyzing textual data
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
Granell et al. Multimodal crowdsourcing for transcribing handwritten documents
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Audhkhasi et al. Theoretical analysis of diversity in an ensemble of automatic speech recognition systems
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
US12094453B2 (en) Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice
US20210049324A1 (en) Apparatus, method, and program for utilizing language model
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
Zahariev et al. Semantic analysis of voice messages based on a formalized context
Sakti et al. Incremental sentence compression using LSTM recurrent networks
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201211

R150 Certificate of patent or registration of utility model

Ref document number: 6810580

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250