JP7101057B2 - 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム - Google Patents

言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム Download PDF

Info

Publication number
JP7101057B2
JP7101057B2 JP2018115619A JP2018115619A JP7101057B2 JP 7101057 B2 JP7101057 B2 JP 7101057B2 JP 2018115619 A JP2018115619 A JP 2018115619A JP 2018115619 A JP2018115619 A JP 2018115619A JP 7101057 B2 JP7101057 B2 JP 7101057B2
Authority
JP
Japan
Prior art keywords
word
language model
caption
vector
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018115619A
Other languages
English (en)
Other versions
JP2019219827A (ja
Inventor
愛子 所澤
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2018115619A priority Critical patent/JP7101057B2/ja
Publication of JP2019219827A publication Critical patent/JP2019219827A/ja
Application granted granted Critical
Publication of JP7101057B2 publication Critical patent/JP7101057B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、言語モデルを学習するための言語モデル学習装置およびそのプログラム、ならびに、言語モデルを用いて接続単語を推定する単語推定装置およびそのプログラムに関する。
音声認識は、生放送番組の音声の字幕作成や、記者や番組ディレクターが取材してきた音声の書き起こし作成などに幅広く利用されている。これらの音声は、コールセンターの問い合わせのように特定の製品に話題が限定されるような音声とは異なり、あらゆるドメイン(話題)を含むとともに、そのドメインも移り変わっていく音声である。
このような種々のドメインの音声に対して、高精度に認識を行う手法として、言語モデルの入力に番組情報を付加する手法が開示されている(特許文献1、非特許文献1参照)。
言語モデルは、ある単語列が与えられたときに次に現れる単語を予測するモデルである。特許文献1等の手法は、言語モデルを再帰型ニューラルネットワーク(Recurrent Neural Network:以下、RNNと略す場合がある)で構成した言語モデルを用いている。RNNは、中間層(隠れ層)が再帰構造となっているニューラルネットワーク(NN)である。RNN言語モデル(RNN-LM〔Language Model〕)は、文頭から直前までの単語列の情報から、次の単語を予測するモデルである。RNN-LMは、直前の単語のみを明示的にRNNの入力とし、それよりも前に現れた単語の情報に関しては中間層に符号化された状態で格納されて利用される。
特許文献1等の手法は、RNN-LMの入力に、単語だけでなく番組名等の番組情報を付加することで、番組ごとに変動する単語列の出現確率を学習したモデルとしている。
このように、特許文献1等の手法は、番組情報のようなドメインの傾向がわかる情報を明示することで言語モデルの精度を向上させている。
特開2018-084627号公報
萩原,伊藤,一木,三島,佐藤,小林、"マルチタスク学習によるドメイン適応言語モデル"、日本音響学会春季研究発表会講演論文集(2017)
特許文献1、非特許文献1の手法は、RNN-LMの入力にドメインの情報を付加することで、豊富なドメインを含む発話に対しても高精度な言語モデルを構築することができる。
しかし、ドメインは常に既知であるわけではない。例えば、取材映像はまだ放送に利用されていないため番組名等の番組情報が未定であり、従来手法を利用するためには、利用者が自らドメインを指定する手間が生じてしまう。また、新番組の場合、番組名等の学習データが存在していないため、これまで蓄積した学習データで学習した言語モデルを利用することができないという問題がある。
そこで、本発明は、ドメインが未知の発話文の単語列に対して、次に現れる単語を精度よく予測する言語モデルを学習する言語モデル学習装置およびそのプログラム、ならびに、その言語モデルを用いて次単語を推定する単語推定装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る言語モデル学習装置は、発話文を構成する単語と当該発話文に関連する画像とで構成される複数の学習データにより、再帰型ニューラルネットワークの言語モデルを学習する言語モデル学習装置であって、キャプション生成手段と、モデル入力データ生成手段と、学習手段と、を備える構成とした。
かかる構成において、言語モデル学習装置は、キャプション生成手段によって、予め学習したニューラルネットワークのキャプション生成モデルを用いて、画像から当該画像の内容を示す複数のキャプション(説明文)を生成する。このキャプションは、発話文に関連し、ドメインを推定するための素材となる。
そして、言語モデル学習装置は、モデル入力データ生成手段によって、キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成する。また、言語モデル学習装置は、モデル入力データ生成手段によって、発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成する。
これによって、モデル入力データ生成手段は、言語モデルへの入力データを生成する。
そして、言語モデル学習装置は、学習手段によって、発話文を構成する単語に対応する入力単語ベクトルと、発話文に対応するキャプション統合ベクトルとに基づいて、当該単語に続く次単語を教師データとして、言語モデルを学習する。これによって、言語モデルは、発話文の連続する単語以外に、当該発話文に関連する画像の特徴に応じて、モデルパラメータが学習されることになる。
なお、言語モデル学習装置は、コンピュータを、前記したキャプション生成手段、モデル入力データ生成手段、学習手段として機能させるための言語モデル学習プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る単語推定装置は、言語モデル学習装置で学習した言語モデルを用いて、発話文を構成する単語の次単語を、当該発話文に関連する画像から推定する単語推定装置であって、キャプション生成手段と、モデル入力データ生成手段と、推定手段と、を備える構成とした。
かかる構成において、単語推定装置は、キャプション生成手段によって、予め学習したニューラルネットワークのキャプション生成モデルを用いて、画像から当該画像の内容を示す複数のキャプション(説明文)を生成する。このキャプションは、発話文に関連し、ドメインを推定するための素材となる。
そして、単語推定装置は、モデル入力データ生成手段によって、キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成する。また、単語推定装置は、モデル入力データ生成手段によって、発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成する。
これによって、モデル入力データ生成手段は、言語モデルへの入力データを生成する。
そして、単語推定装置は、推定手段によって、言語モデルを用いて、入力単語ベクトルとキャプション統合ベクトルとに基づいて、入力された単語に続く次単語を推定する。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、発話文の単語列とともに、当該発話文に関連する画像の特徴であるキャプションに基づいて、言語モデルを学習することができる。
これによって、本発明は、ドメインが未知な場合でも、発話文に関連する画像から、ドメインの素材となる情報を加味して言語モデルを学習することができ、言語モデルの推定精度を向上させることができる。
本発明の第1実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 キャプション生成手段が生成するキャプション(説明文)の例を説明するための説明図である。 本発明の第1実施形態に係る言語モデル学習装置が学習する言語モデルの構成例を説明するための説明図である。 本発明の第1実施形態に係る言語モデル学習装置の動作を示すフローチャートである。 本発明の第1実施形態に係る単語推定装置の構成を示すブロック構成図である。 本発明の第1実施形態に係る単語推定装置の動作を示すフローチャートである。 本発明の第2実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 本発明の第2実施形態に係る言語モデル学習装置が学習する言語モデルの構成例を説明するための説明図である。 本発明の第2実施形態に係る言語モデル学習装置の動作を示すフローチャートである。 本発明の第2実施形態に係る単語推定装置の構成を示すブロック構成図である。 本発明の第2実施形態に係る単語推定装置の動作を示すフローチャートである。 本発明の第3実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 リランキング手段でキャプション(説明文)の順位を入れ替える例を説明するための説明図である。 本発明の第3実施形態に係る単語推定装置の構成を示すブロック構成図である。 本発明の第4実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 本発明の第4実施形態に係る単語推定装置の構成を示すブロック構成図である。 参考例の実施形態に係る言語モデル学習装置の構成を示すブロック構成図である。 参考例の実施形態に係る単語推定装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
[言語モデル学習装置の構成]
まず、図1を参照して、本発明の第1実施形態に係る言語モデル学習装置1の構成について説明する。
言語モデル学習装置1は、テキストデータである発話文と、当該発話文に関連した画像とから、言語モデルを学習するものである。言語モデルは、ある単語の次に続く単語の出現確率を出力するものである。言語モデル学習装置1は、言語モデルとして、再帰型ニューラルネットワークの言語モデル(RNN-LM)を学習する。
発話文は、言語モデルを学習するための学習データである。例えば、発話文は、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる分野に関連する文の単語列である。なお、発話文は、単語列の前後に文頭記号と文末記号とを含む。
この発話文は、図示を省略した形態素解析手段で解析された単語ごとに、順次、言語モデル学習装置1のモデル入力データ生成手段12に入力され、当該単語の次に続く単語(次単語)については、さらに、教師データとして学習手段13に入力される。
画像は、発話文と対となる言語モデルを学習するための学習データである。この画像は、発話文に関連したイメージデータである。例えば、画像は、発話文を発話したときのテレビ番組、映画等の画像である。この画像は、静止画像であってもよいし、動画像であってもよい。この画像は、言語モデル学習装置1の画像特徴解析手段10に入力される。
図1に示すように、言語モデル学習装置1は、画像特徴解析手段10と、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12と、学習手段13と、言語モデル記憶手段14と、を備える。
画像特徴解析手段10は、発話文に関連する画像を入力し、入力画像の特徴を解析するものである。画像特徴解析手段10は、キャプション生成手段100を備える。
キャプション生成手段100は、画像の特徴として、画像の内容を示すキャプション(説明文)を生成するものである。
キャプション生成手段100は、キャプション生成モデル記憶手段11に記憶されている、画像からテキストデータであるキャプションをニューラルネットワークにより生成する学習済みのモデル(キャプション生成モデル)を用いて、入力された画像から複数のキャプションを生成する。
例えば、キャプション生成手段100は、図2に示すような画像Gが入力された場合、「ストライプの服を着た女性がいます」、「部屋に大きな窓があります」、「女性が料理をしています」、「コンロの上に鍋があります」等のキャプションを生成する。
キャプション生成手段100は、予め定めた数(例えば、10文)のキャプションを、モデル入力データ生成手段12に出力する。なお、キャプション生成モデルとして、信頼度順にキャプションを生成するモデルを用いる場合、キャプション生成手段100は、信頼度の上位から予め定めた数(例えば、10文)のキャプションを、モデル入力データ生成手段12に出力することとしてもよい。
キャプション生成モデル記憶手段11は、画像から、当該画像のキャプションを生成する予め学習されたキャプション生成モデルを記憶するものである。キャプション生成モデル記憶手段11は、半導体メモリ等の一般的な記憶媒体で構成することができる。
キャプション生成モデルは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)により画像内の物体を認識し、RNNにより画像内の物体からキャプションを生成するモデルである。
キャプション生成モデルには、以下の参考文献に示すような公知の技術を用いることができる。
(参考文献)
Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, and Kate Saenko. Sequence to sequence - video to text. In ICCV, 2015.
モデル入力データ生成手段12は、言語モデルの入力層への入力となるデータを生成するものである。モデル入力データ生成手段12は、入力単語ベクトル生成手段120と、キャプションベクトル生成手段121と、を備える。
入力単語ベクトル生成手段120は、順次入力される発話文の単語ごと(文頭記号、文末記号を含む)に、言語モデルの入力となるベクトル(入力単語ベクトル)を生成するものである。
具体的には、入力単語ベクトル生成手段120は、単語ごとに、該当する単語の成分のみを“1”、他を“0”とした語彙数分(数万程度)の次元の1-hotベクトルを生成する。
この言語モデルに入力する入力単語ベクトルは、語彙数分の次元のベクトルである必要はなく、1-hotベクトルを予め定めた次元(数百程度)のベクトルに写像したものを用いることが、言語モデルの学習にかかる演算を減らす意味で好ましい。例えば、入力単語ベクトル生成手段120は、word2vec、GloVe(Global Vectors for Word Representation)等によって、入力単語ベクトルの次元数を数万程度から数百程度に変換する。
なお、入力単語ベクトル生成手段120は、後記するキャプション統合ベクトルとの整合性から、入力単語ベクトルの成分の最大値または総和が“1”となるように正規化することが好ましい。
入力単語ベクトル生成手段120は、生成した入力単語ベクトルを、学習手段13に出力する。
キャプションベクトル生成手段121は、画像特徴解析手段10で生成されたキャプションから、言語モデルの入力となるベクトル(キャプション統合ベクトル)を生成するものである。
具体的には、キャプションベクトル生成手段121は、画像特徴解析手段10から入力される複数のキャプションごとに、キャプションに含まれる単語の成分を“1”、キャプションに含まれない単語の成分を“0”とした語彙数分(数万程度)次元のベクトル(キャプションベクトル)を生成する。
キャプションベクトル生成手段121は、入力単語ベクトルと同様に、キャプションベクトルを数百程度の次元数のベクトルに変換する。なお、キャプションベクトルには、複数の単語を含んでいるため、キャプションベクトル生成手段121は、単語ごとに、それぞれ数百程度の次元数のベクトルに変換した後、ベクトルを加算し、単語数で除算する。
そして、キャプションベクトル生成手段121は、複数のキャプションベクトルを足し合わせることで、キャプションベクトルを統合したベクトル(キャプション統合ベクトル)を生成する。
なお、キャプションが信頼度順に生成されている場合、キャプションベクトル生成手段121は、キャプションベクトルを、対応するキャプションの信頼度が高いほど大きい重みが付くように傾斜を付けて足し合わせることで、キャプションベクトルを統合したベクトル(キャプション統合ベクトル)を生成することとしてもよい。
例えば、キャプションの信頼度の順位をn(n=1~10;1が信頼度最大)としたとき、キャプションベクトル生成手段121は、キャプションから生成したキャプションベクトルの成分に(11-n)を乗算して、キャプションベクトルの成分ごとに足し合わせることで、キャプション統合ベクトルを生成する。
なお、キャプションベクトル生成手段121は、キャプション統合ベクトルの成分の最大値または総和が“1”となるように正規化することが好ましい。
キャプションベクトル生成手段121は、生成したキャプション統合ベクトルを、学習手段13に出力する。ただし、キャプションベクトル生成手段121は、発話文の先頭を示す文頭記号から発話文の末尾を示す文末記号まで、同じキャプション統合ベクトルを出力することとする。
学習手段13は、モデル入力データ生成手段12で生成されたデータ(入力単語ベクトル、キャプション統合ベクトル)をRNNの入力とし、発話文の単語の次に続く単語の出現確率を出力する言語モデルを学習するものである。
ここで、図3を参照して、言語モデルの構成例について説明する。図3に示す言語モデルは、一般的なRNNの言語モデルの入力に画像特徴となるキャプション統合ベクトルを入力する構造としている。
図3に示すように、学習手段13が学習する言語モデルMは、入力層L1と、中間層L2と、出力層L3とで構成され、中間層L2の出力が再帰的に中間層L2の入力となる再帰型ニューラルネットワーク(RNN)である。
入力層L1には、入力単語ベクトルwとキャプション統合ベクトルqとがそれぞれ独立して入力される。ここで、iは1~nの整数であって、wは発話文の文頭記号に対応する入力単語ベクトル、w~wn-1は発話文の単語に対応する入力単語ベクトル、wは発話文の文末記号に対応する入力単語ベクトルである。また、キャプション統合ベクトルは、発話文に対応する1つのベクトルであって、q=q=…=qである。
中間層L2には、入力層L1で入力された入力単語ベクトルwおよびキャプション統合ベクトルqと、1単語前の中間層L2の出力ベクトルvi-1とが学習対象であるモデルパラメータ(重み係数)に応じて重み付き加算され、中間層L2から出力ベクトルvが出力される。
出力層L3からは、中間層L2から出力される出力ベクトルvが学習対象であるモデルパラメータ(重み係数)に応じて重み付き加算され、語彙数分次元の出現単語ベクトルwi+1の各成分に、入力された単語の次に続く単語の出現確率P(wi+1|w,vi-1,q)を出力する。
なお、図3では、入力単語ベクトルwと出力単語ベクトルwi+1とを、同じ語彙数分次元のベクトルとしているが、前記した通り、入力単語ベクトルwは、語彙数分次元よりも次元数は少ない。
また、図3では、言語モデルMをRNNとして構成しているが、中間層L2において、RNNの改良型であるLSTM(Long short-term memory)を用いてもよい。
図1に戻って、言語モデル学習装置1の構成について説明を続ける。
学習手段13は、モデル入力データ生成手段12で生成された入力単語ベクトルと、キャプションベクトル生成手段121で生成されたキャプション統合ベクトルとを、図3に示した言語モデルMに入力し、教師データである次単語に対応する出力単語ベクトルの成分が“1”、他の成分が“0”となるように、言語モデルMのモデルパラメータを学習する。なお、言語モデルのモデルパラメータを学習するには、一般的な誤差逆伝播法(Back Propagation)を用いればよい。
学習手段13は、学習した言語モデルを言語モデル記憶手段14に記憶する。
言語モデル記憶手段14は、学習手段13で学習された言語モデルM(図3参照)を記憶するものである。この言語モデル記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
以上説明したように、言語モデル学習装置1は、発話文に対応する画像特徴(キャプション)を対応付けて、言語モデルを学習する構成とした。これによって、生成された言語モデルは、画像特徴と対応付けて次単語を推定する言語モデルとなり、次単語を推定する精度を高めることができる。
なお、言語モデル学習装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
[言語モデル学習装置の動作]
次に、図4を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る言語モデル学習装置1の動作について説明する。
この言語モデル学習装置1には、予め単語に区分された発話文と、当該発話文に対応する画像とが、学習データとして入力される。
ステップS1において、画像特徴解析手段10のキャプション生成手段100は、キャプション生成モデル記憶手段11に予め記憶されている学習済みのニューラルネットワークであるキャプション生成モデルを用いて、入力画像から、画像特徴として複数のキャプションを生成する。
ステップS2において、モデル入力データ生成手段12のキャプションベクトル生成手段121は、ステップS1で生成された複数のキャプションから、キャプションに含まれる単語の成分を“1”、キャプションに含まれない単語の成分を“0”としたキャプションベクトルを生成する。このとき、キャプションベクトル生成手段121は、数万程度の次元数のキャプションベクトルを数百程度の次元数に写像することとする。
ステップS3において、キャプションベクトル生成手段121は、さらに、単語ごとのキャプションベクトルを成分ごとに足し合わせ、正規化することで、キャプション統合ベクトルを生成する。
ステップS4において、モデル入力データ生成手段12の入力単語ベクトル生成手段120は、ステップS1で入力される画像に関連した発話文を単語ごとに入力し、該当する単語の成分のみを“1”、他を“0”とした語彙数分(数万程度)の次元の1-hotベクトルを生成する。このとき、入力単語ベクトル生成手段120は、数万程度の次元数の1-hotベクトルを数百程度の次元数の入力単語ベクトルに写像することとする。
ステップS5において、学習手段13は、ステップS3で生成されたキャプション統合ベクトル、および、ステップS4で生成された入力単語ベクトルを入力し、現時点の単語の次の単語である次単語(教師データ)を出力するように、言語モデルを学習する。
ここで、発話文の単語として文末記号がまだ入力されていない場合(ステップS6でNo)、言語モデル学習装置1は、ステップS4に戻って動作を続ける。
一方、発話文の単語として文末記号が入力された場合(ステップS6でYes)、言語モデル学習装置1は、ステップS7に動作を進める。
ここで、学習データの入力が終了していない場合(ステップS7でNo)、言語モデル学習装置1は、ステップS1に戻って、次の発話文および画像を学習データとして学習動作を続ける。
一方、学習データの入力が終了した場合(ステップS7でYes)、言語モデル学習装置1は、動作を終了する。
[単語推定装置の構成]
次に、図5を参照して、本発明の第1実施形態に係る単語推定装置2の構成について説明する。
単語推定装置2は、言語モデル学習装置1(図1参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2は、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
単語推定装置2に入力される単語は、音声認識装置内で音声を音響モデルで音響分析し、単語辞書を用いて変換された単語列(発話文)の認識候補となる単語(認識仮説)である。
また、単語推定装置2に入力される画像は、音声に対応した画像(テレビ番組、映画等の画像)であって、例えば、発話中の任意の時点の静止画像、あるいは、発話の開始から終了までの時間区間の動画像である。
図5に示すように、単語推定装置2は、画像特徴解析手段10と、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12と、言語モデル記憶手段20と、推定手段21と、を備える。
画像特徴解析手段10、キャプション生成モデル記憶手段11およびモデル入力データ生成手段12は、図1で説明した言語モデル学習装置1の構成と同じであるため、説明を省略する。
言語モデル記憶手段20は、言語モデル学習装置1で学習された言語モデル(RNN-LM)を記憶するものである。この言語モデル記憶手段20は、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
推定手段21は、モデル入力データ生成手段12で生成されたデータ(入力単語ベクトル、キャプション統合ベクトル)をRNNの入力とし、現時点までに入力された単語の次に続く単語を出現確率とともに推定するものである。
具体的には、推定手段21は、言語モデル記憶手段20に記憶されている図3で説明した言語モデルMにおいて、入力単語ベクトルwとキャプション統合ベクトルqとを独立して入力し、再帰型ニューラルネットワークの演算を行うことで、単語の出現確率を示す出力単語ベクトルwi+1を生成する。
推定手段21は、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
以上説明したように、単語推定装置2は、画像特徴と対応付けて次単語を推定する言語モデルによって次単語を推定する構成とした。これによって、単語推定装置2は、単語以外の特徴から次単語を推定することができ、次単語を精度よく推定することができる。
なお、単語推定装置2は、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
[単語推定装置の動作]
次に、図6を参照(構成については適宜図5参照)して、本発明の第1実施形態に係る単語推定装置2の動作について説明する。
この単語推定装置2には、音声の認識候補となる発話文の単語が順次入力されとともに、音声の発話中に対応する画像が入力される。
また、言語モデル記憶手段20には、予め学習された言語モデルが記憶されているものとする。
図6のステップS11からS14までの動作は、図4で説明した言語モデル学習装置1の動作のステップS1からS4までの動作と同じであるため、説明を省略する。
ステップS15において、推定手段21は、ステップS13で生成されたキャプション統合ベクトル、および、ステップS14で生成された入力単語ベクトルを言語モデルに入力し、現時点の単語の次の単語である次単語とその出現確率とを推定する。
ここで、単語として文末記号がまだ入力されていない場合(ステップS16でNo)、単語推定装置2は、ステップS14に戻って動作を続ける。
一方、単語として文末記号が入力された場合(ステップS16でYes)、単語推定装置2は、動作を終了する。
<第2実施形態>
[言語モデル学習装置の構成]
次に、図7を参照して、本発明の第2実施形態に係る言語モデル学習装置1Bの構成について説明する。
言語モデル学習装置1(図1参照)は、図3に示すように入力層L1に、入力単語ベクトルとキャプション統合ベクトルとを独立したベクトルとして入力する言語モデルMを学習する構成とした。
図7に示す言語モデル学習装置1Bは、単語ごとの連続する入力単語ベクトルの先頭に、キャプション統合ベクトルを追加して、言語モデルの入力層に入力するベクトルを1つとした構成とする。
図7に示すように、言語モデル学習装置1Bは、画像特徴解析手段10と、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12Bと、学習手段13Bと、言語モデル記憶手段14Bと、を備える。
画像特徴解析手段10およびキャプション生成モデル記憶手段11は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
モデル入力データ生成手段12Bは、言語モデルの入力層への入力となるデータを生成するものである。モデル入力データ生成手段12Bは、入力単語ベクトル生成手段120Bと、キャプションベクトル生成手段121Bと、を備える。
入力単語ベクトル生成手段120Bは、順次入力される発話文の単語ごとに、言語モデルの入力となるベクトル(入力単語ベクトル)を生成するものである。
なお、入力単語ベクトル生成手段120Bは、キャプションベクトル生成手段121Bで生成されるキャプション統合ベクトルを、発話文の文頭箇所に追加して入力単語ベクトルとして出力する。
具体的には、入力単語ベクトル生成手段120Bは、入力単語ベクトル生成手段120(図1参照)と同様、単語ごとに、該当する単語の成分のみを“1”、他を“0”とした語彙数分(数万程度)の次元の1-hotベクトルを生成する。なお、入力単語ベクトル生成手段120Bは、1-hotベクトルを予め定めた次元(数百程度)のベクトルに写像して入力単語ベクトルとすることが好ましい。この場合、入力単語ベクトル生成手段120Bは、入力単語ベクトルの成分の最大値が“1”となるように正規化する。
ここで、入力単語ベクトル生成手段120Bは、入力される単語列(文頭記号、文末記号を含む)を、順次、入力単語ベクトルに変換するが、文頭記号に対応するベクトルの前に、キャプションベクトル生成手段121Bで生成されたキャプション統合ベクトルを、入力単語ベクトルとして追加する。
入力単語ベクトル生成手段120Bは、生成した入力単語ベクトルを、学習手段13Bに出力する。
キャプションベクトル生成手段121Bは、画像特徴解析手段10で生成されたキャプションから、言語モデルの入力となるベクトルを生成するものである。
具体的には、キャプションベクトル生成手段121Bは、画像特徴解析手段10から入力される複数のキャプションごとに、キャプションに含まれる単語の成分を“1”、キャプションに含まれない単語の成分を“0”とした語彙数分(数万程度)次元のベクトル(キャプションベクトル)を生成する。
キャプションベクトル生成手段121Bは、入力単語ベクトルと同様に、キャプションベクトルを数百程度の次元数(入力単語ベクトルと同じ次元数)のベクトルに変換する。なお、キャプションベクトルには、複数の単語を含んでいるため、キャプションベクトル生成手段121Bは、キャプションベクトル生成手段121と同様、単語ごとに、それぞれ数百程度の次元数のベクトルに変換した後、ベクトルを加算し、単語数で除算する。
そして、キャプションベクトル生成手段121Bは、複数のキャプションベクトルを足し合わせることで、キャプションの内容を統合したキャプション統合ベクトルを生成する。なお、キャプションが信頼度順に生成されている場合、キャプションベクトル生成手段121Bは、キャプションベクトルを、対応するキャプションの信頼度が高いほど大きい重みが付くように傾斜を付けて足し合わせることで、キャプション統合ベクトルを生成することとしてもよい。
また、キャプションベクトル生成手段121Bは、入力単語ベクトルとのスケールを揃えるように、キャプション統合ベクトルの成分の最大値が“1”となるように正規化する。
このように、キャプションベクトル生成手段121Bが生成するキャプション統合ベクトルは、入力単語ベクトルとスケールを揃えるため、入力単語ベクトルと同じ次元数で、成分の最大値が“1”となるように正規化されている点が、キャプションベクトル生成手段121(図1)が生成するキャプション統合ベクトルとは異なる。
キャプションベクトル生成手段121Bは、生成したキャプション統合ベクトルを、入力単語ベクトル生成手段120Bに出力する。
ここで、図8を参照して、モデル入力データ生成手段12Bが生成するモデル入力データである入力単語ベクトルについて説明する。
図8は、モデル入力データ生成手段12Bが生成する、言語モデルMの入力層L1に入力する入力単語ベクトルw,w,…,wを示している。
入力単語ベクトルwは、キャプションベクトル生成手段121Bが生成したキャプション統合ベクトルである。例えば、入力単語ベクトルwは、キャプションである「女性が料理をしています」の個々の単語に対応する成分を“1”、他の成分を“0”としたベクトルである。
入力単語ベクトルwは、文頭記号を示すベクトルである。
入力単語ベクトルw…は、入力単語ベクトル生成手段120Bが生成した発話文の単語ごとの入力単語ベクトルである。例えば、入力単語ベクトルwは、単語「フライ」に対応する成分のみを“1”、他の成分を“0”としたベクトルである。
入力単語ベクトルwは、文末記号を示すベクトルである。
なお、ここでは、入力単語ベクトルを、語彙数分次元のベクトルとしているが、前記した通り、入力単語ベクトルwは、語彙数分次元よりも少ない次元数に写像したベクトルである。
また、ここでは、入力単語ベクトルwのキャプション統合ベクトルを、「女性が料理をしています」の一文のみの例で示しているが、実際は、複数のキャプションが統合されたものである。
このように、モデル入力データ生成手段12Bは、キャプション統合ベクトルを、文頭記号の入力単語ベクトルの前に追加する。
これによって、モデル入力データ生成手段12Bは、画像特徴であるキャプションを、単語列に付加することができる。
図7に戻って、言語モデル学習装置1Bの構成について説明を続ける。
学習手段13Bは、モデル入力データ生成手段12Bで生成された入力単語ベクトルをRNNの入力とし、発話文の単語の次に続く単語の出現確率を出力する言語モデルを学習するものである。
図8に示すように、学習手段13Bが学習する言語モデルMは、入力層L1と、中間層L2と、出力層L3とで構成され、中間層L2の出力が再帰的に中間層L2の入力となる再帰型ニューラルネットワーク(RNN)である。
言語モデルMは、入力層L1への入力が1つのベクトルのみである点以外は、言語モデルM(図3)と同じである。
学習手段13Bは、モデル入力データ生成手段12Bで生成された入力単語ベクトルを、図8に示した言語モデルMに入力し、教師データである次単語に対応する出力単語ベクトルの成分が“1”、他の成分が“0”となるように、言語モデルMのモデルパラメータを学習する。
なお、学習手段13Bは、入力単語ベクトルが前の発話文における文末記号である場合、すべての成分が“0”となるベクトルを教師データとして学習する。また、学習手段13Bは、入力単語ベクトルがキャプション統合ベクトルの場合、文頭記号を教師データとして学習する。また、学習手段13Bは、入力単語ベクトルが文頭記号である場合、発話文の先頭の単語を教師データとして学習し、以降、発話文の次単語を順次教師データとして学習する。
この言語モデルのモデルパラメータを学習するには、一般的な誤差逆伝播法を用いればよい。
学習手段13は、学習した言語モデルを言語モデル記憶手段14Bに記憶する。
言語モデル記憶手段14Bは、学習手段13Bで学習された言語モデルM(図8参照)を記憶するものである。この言語モデル記憶手段14Bは、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
以上説明したように、言語モデル学習装置1Bは、発話文に対応する画像特徴(キャプション)を、発話文の先頭に付加して、言語モデルを学習する構成とした。これによって、生成された言語モデルは、画像特徴と対応付けて次単語を推定する言語モデルとなり、次単語を推定する精度を高めることができる。
なお、言語モデル学習装置1Bは、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
[言語モデル学習装置の動作]
次に、図9を参照(構成については適宜図7参照)して、本発明の第2実施形態に係る言語モデル学習装置1Bの動作について説明する。ここでは、図4の言語モデル学習装置1の動作との相違点を主に説明する。
ステップS20~S22は、図4のステップS1~S3と同じ動作である。
ただし、ステップS22において、入力単語ベクトルのスケールと揃えるため、キャプション統合ベクトルの成分の最大値が“1”となるように正規化しておく。
ステップS23において、学習手段13Bは、ステップS22で生成されたキャプション統合ベクトルを入力単語ベクトルとして入力し、文頭記号を教師データとして言語モデルを学習する。
ステップS24において、モデル入力データ生成手段12Bの入力単語ベクトル生成手段120Bは、ステップS20で入力される画像に関連した発話文を単語ごとに入力し、該当する単語の成分のみを“1”、他を“0”とした語彙数分(数万程度)の次元の1-hotベクトルを生成する。このとき、入力単語ベクトル生成手段120Bは、数万程度の次元数の1-hotベクトルを数百程度の次元数の入力単語ベクトルに写像することとする。ただし、ステップS24において、キャプション統合ベクトルとスケールを揃えるため、入力単語ベクトルの成分の最大値が“1”となるように正規化しておく。
ステップS25において、学習手段13Bは、ステップS24で生成された入力単語ベクトルを入力し、現時点の単語の次の単語である次単語を教師データとして言語モデルを学習する。ただし、入力単語ベクトルが文末記号に対応するベクトルである場合、すべての成分が“0”となるベクトルを教師データとして言語モデルを学習する。
ここで、発話文の単語として文末記号がまだ入力されていない場合(ステップS26でNo)、言語モデル学習装置1Bは、ステップS24に戻って動作を続ける。
一方、発話文の単語として文末記号が入力された場合(ステップS26でYes)、言語モデル学習装置1Bは、ステップS27に動作を進める。
ここで、学習データの入力が終了していない場合(ステップS27でNo)、言語モデル学習装置1Bは、ステップS20に戻って、次の発話文および画像を学習データとして学習動作を続ける。
一方、学習データの入力が終了した場合(ステップS27でYes)、言語モデル学習装置1Bは、動作を終了する。
[単語推定装置の構成]
次に、図10を参照して、本発明の第2実施形態に係る単語推定装置2Bの構成について説明する。
単語推定装置2Bは、言語モデル学習装置1B(図7参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2Bは、単語推定装置2(図5参照)と同様、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
図10に示すように、単語推定装置2Bは、画像特徴解析手段10と、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12Bと、言語モデル記憶手段20Bと、推定手段21Bと、を備える。
画像特徴解析手段10、キャプション生成モデル記憶手段11およびモデル入力データ生成手段12Bは、図7で説明した言語モデル学習装置1Bの構成と同じであるため、説明を省略する。
言語モデル記憶手段20Bは、言語モデル学習装置1Bで学習された言語モデル(RNN-LM)を記憶するものである。この言語モデル記憶手段20Bは、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
推定手段21Bは、モデル入力データ生成手段12Bで生成されたデータ(入力単語ベクトル)をRNNの入力とし、現時点までに入力された単語の次に続く単語を出現確率とともに推定するものである。
具体的には、推定手段21Bは、言語モデル記憶手段20Bに記憶されている図8で説明した言語モデルMにおいて、入力単語ベクトルwを入力し、再帰型ニューラルネットワークの演算を行うことで、単語の出現確率を示す出力単語ベクトルwi+1を生成する。
推定手段21Bは、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
以上説明したように、単語推定装置2Bは、画像特徴と対応付けて次単語を推定する言語モデルによって次単語を推定する構成とした。これによって、単語推定装置2Bは、単語以外の特徴から次単語を推定することができ、次単語を精度よく推定することができる。
なお、単語推定装置2Bは、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
[単語推定装置の動作]
次に、図11を参照(構成については適宜図10参照)して、本発明の第2実施形態に係る単語推定装置2Bの動作について説明する。ここでは、図9の言語モデル学習装置1Bの動作との相違点を主に説明する。
ステップS30からS32までの動作は、図9で説明した言語モデル学習装置1BのステップS20からS22までの動作と同じであるため、説明を省略する。
ステップS33において、推定手段21Bは、ステップS32で生成されたキャプション統合ベクトルを入力単語ベクトルとして言語モデルに入力し、文頭記号の出現確率を推定する。
ステップS34は、図9のステップS24と同じ動作である。
ステップS35において、推定手段21Bは、ステップS34で生成された入力単語ベクトルを言語モデルに入力し、現時点の単語の次の単語である次単語とその出現確率とを推定する。
ここで、単語として文末記号がまだ入力されていない場合(ステップS36でNo)、単語推定装置2Bは、ステップS34に戻って動作を続ける。
一方、単語として文末記号が入力された場合(ステップS36でYes)、単語推定装置2Bは、動作を終了する。
<第3実施形態>
[言語モデル学習装置]
次に、図12を参照して、本発明の第3実施形態に係る言語モデル学習装置1Cについて説明する。
言語モデル学習装置1(図1参照)は、画像特徴として、画像のキャプションとして、予め学習したキャプション生成モデルが出力する信頼度の上位から予め定めた数のキャプションを、モデル入力データ生成手段12に出力する構成とした。
図12に示す言語モデル学習装置1Cは、画像のキャプションを、発話文に類似するキャプションの信頼度を高くする(リランキングする)構成とする。
図12に示すように、言語モデル学習装置1Cは、画像特徴解析手段10Cと、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12と、学習手段13と、言語モデル記憶手段14と、を備える。
画像特徴解析手段10C以外の構成は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
画像特徴解析手段10Cは、発話文に関連する画像を入力し、入力画像の特徴を解析するものである。
画像特徴解析手段10Cは、キャプション生成手段100と、リランキング手段101と、を備える。キャプション生成手段100は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
リランキング手段101は、キャプション生成手段100で生成された複数のキャプションを、発話文の意味に近い順に優先度をつける(リランキングする)ものである。
例えば、キャプション生成手段100が、図13に示すような画像Gを入力し、「ストライプの服を着た女性がいます」、「部屋に大きな窓があります」、「女性が料理をしています」、「コンロの上に鍋があります」等のキャプションを生成したとする。
また、ここで、発話文が「フライが揚がりました」であったとする。
この場合、例えば、「女性が料理をしています」が、「フライが揚がりました」に対して最も意味が近いものとなる。
そこで、リランキング手段101は、より発話文に意味が近いキャプションの順に、例えば、図13の例の場合、「女性が料理をしています」、「コンロの上に鍋があります」、「部屋に大きな窓があります」、「ストライプの服を着た女性がいます」のように優先度の順位を入れ替える。
なお、発話文とキャプションとで意味の近さの度合いは、発話文のベクトル表現とキャプションのベクトル表現との類似度(ベクトル同士のなす角度の近さを示すコサイン類似度)を用いればよい。
具体的には、リランキング手段101は、発話文およびキャプションのそれぞれの単語列において、単語ごとの分散表現ベクトルから、単語列の分散表現ベクトルを平均化することで、発話文およびキャプションのそれぞれのベクトル表現を生成する。
なお、分散表現ベクトルは、意味が近い(分散の特徴が近い)単語を近いベクトルに対応させて、単語を有限の高次元(例えば、数百次元)の数値ベクトルで表現したものである。この分散表現ベクトルは、例えば、word2vec、GloVe等の一般的な手法により生成したものを用いることができる。
そして、リランキング手段101は、コサイン類似度によって、キャプションの順位を入れ替える。
リランキング手段101は、優先度の順位を入れ替えたキャプションを、モデル入力データ生成手段12に出力する。
以上説明したように、言語モデル学習装置1Cは、発話文に意味が近い画像特徴(キャプション)を対応付けて、言語モデルを学習する構成とした。これによって、生成された言語モデルは、意味が近い画像特徴と対応付けて次単語を推定する言語モデルとなり、次単語を推定する精度を高めることができる。
また、言語モデル学習装置1Cは、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
なお、言語モデル学習装置1Cの動作は、図4で説明した言語モデル学習装置1の動作のステップS1において、リランキング手段101がキャプションの順位を発話文の意味に近い順に入れ替える動作を付加すればよい。他の動作は、図4で説明した言語モデル学習装置1の動作と同じであるため、説明を省略する。
[単語推定装置]
次に、図14を参照して、本発明の第3実施形態に係る単語推定装置2Cについて説明する。
単語推定装置2Cは、言語モデル学習装置1C(図12参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2Cは、単語推定装置2(図5参照)と同様、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
図14に示すように、単語推定装置2Cは、画像特徴解析手段10Cと、キャプション生成モデル記憶手段11と、モデル入力データ生成手段12と、言語モデル記憶手段20と、推定手段21と、を備える。
画像特徴解析手段10Cは、図12で説明した言語モデル学習装置1Cの構成と同じであり、キャプション生成モデル記憶手段11、モデル入力データ生成手段12、言語モデル記憶手段20および推定手段21は、図5で説明した単語推定装置2の構成と同じであるため、説明を省略する。
また、単語推定装置2Cは、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
なお、単語推定装置2Cの動作は、図6で説明した単語推定装置2の動作のステップS1において、リランキング手段101がキャプションの順位を発話文の意味に近い順に入れ替える動作を付加すればよい。他の動作は、図6で説明した単語推定装置2の動作と同じであるため、説明を省略する。
<第4実施形態>
第3実施形態に係る言語モデル学習装置1Cおよび単語推定装置2Cは、それぞれ、第1実施形態に係る言語モデル学習装置1(図1)および単語推定装置2(図5)の画像特徴解析手段10にリランキング手段101を付加する構成とした。
このリランキング手段101は、第2実施形態に係る言語モデル学習装置1B(図7)および単語推定装置2B(図10)の画像特徴解析手段10に付加して構成してもよい。
例えば、言語モデル学習装置1B(図7)にリランキング手段101を付加する場合、図15に示す言語モデル学習装置1Dとして構成すればよい。
また、単語推定装置2B(図10)にリランキング手段101を付加する場合、図16に示す単語推定装置2Dとして構成すればよい。
言語モデル学習装置1Dおよび単語推定装置2Dの構成および動作は、言語モデル学習装置1B(図7),1C(図12)および単語推定装置2B(図10),2C(図14)の構成および動作と重複するため、説明を省略する。
<参考例の実施形態>
第1~第4実施形態では、言語モデルを学習する際、および、言語モデル用いて次単語を推定する際に、発話文に対応する画像特徴として、キャプションを言語モデルの入力として用いる構成とした。
しかし、この画像特徴は、キャプション以外にも、画像内に含まれる物体の特徴を用いてもよい。以下、キャプションの代わりに物体の特徴を用いる言語モデル学習装置および単語推定装置の例について説明する。
[言語モデル学習装置]
図17に、参考例の実施形態に係る言語モデル学習装置1Eの構成を示す
図17に示すように、言語モデル学習装置1Eは、画像特徴解析手段10Eと、物体認識モデル記憶手段11Eと、モデル入力データ生成手段12Eと、学習手段13Eと、言語モデル記憶手段14Eと、を備える。
画像特徴解析手段10Eは、発話文に関連する画像を入力し、入力画像の特徴を解析するものである。画像特徴解析手段10Eは、画像特徴量抽出手段100Eを備える。
画像特徴量抽出手段100Eは、画像内の物体を認識する予め学習済みのニューラルネットワークのモデル(物体認識モデル)を用いて、画像特徴量を抽出するものである。
画像特徴量抽出手段100Eは、物体認識モデル記憶手段11Eに記憶されている物体認識モデルに、画像のデータを入力し、物体認識モデルの中間層または出力層のデータを画像特徴量として抽出する。
画像特徴量抽出手段100Eは、抽出した画像特徴量をモデル入力データ生成手段12Eに出力する。
物体認識モデル記憶手段11Eは、画像から、当該画像内の物体を認識する予め学習された物体認識モデルを記憶するものである。物体認識モデル記憶手段11Eは、半導体メモリ等の一般的な記憶媒体で構成することができる。
この物体認識モデルは、VGG16等の一般的物体認識モデルを、当該言語モデルの分野、例えば、発話文と同じ分野の画像によって転移学習したものを用いることができる。
なお、このような一般的物体認識モデルでは、中間層または出力層のデータとして抽出される画像特徴量は、1000次元程度のデータとなる。
モデル入力データ生成手段12Eは、言語モデルの入力層への入力となるデータを生成するものである。モデル入力データ生成手段12Eは、入力単語ベクトル生成手段120と、画像特徴ベクトル生成手段121Eと、を備える。
入力単語ベクトル生成手段120は、図1で説明した言語モデル学習装置1と同じ構成であるため説明を省略する。
画像特徴ベクトル生成手段121Eは、画像特徴解析手段10で抽出された画像特徴量から、言語モデルの入力となるベクトル(画像特徴ベクトル)を生成するものである。
画像特徴ベクトル生成手段121Eは、画像特徴解析手段10で抽出された1000次元程度の高次元のデータから、言語モデルの入力層の予め定めた次元数(数百程度)の画像特徴ベクトルを生成する。なお、この次元数の圧縮は、一般的なPCA(主成分分析)等により行うことができる。
画像特徴ベクトル生成手段121Eは、生成した画像特徴ベクトルを、学習手段13Eに出力する。ただし、画像特徴ベクトル生成手段121Eは、発話文の先頭を示す文頭記号から発話文の末尾を示す文末記号まで、同じ画像特徴ベクトルを出力することとする。
学習手段13Eは、モデル入力データ生成手段12Eで生成されたデータ(入力単語ベクトル、画像特徴ベクトル)をRNNの入力とし、発話文の単語の次に続く単語の出現確率を出力する言語モデルを学習するものである。
学習手段13Eが学習する言語モデルは、図3で説明した言語モデルMの入力層L1に入力するキャプション統合ベクトルを画像特徴ベクトルに代えたモデルである。
言語モデル記憶手段14Eは、学習手段13Eで学習された言語モデルを記憶するものである。この言語モデル記憶手段14Eは、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
以上説明したように、言語モデル学習装置1Eは、画像特徴と対応付けて次単語を推定する言語モデルを学習するができる。
なお、言語モデル学習装置1Eの動作は、図4で説明した言語モデル学習装置1の動作において、キャプションの代わりに物体認識モデルにおける画像特徴量を用いる点が異なる以外、基本的な流れは同じであるため、説明を省略する。
[単語推定装置]
図18に、参考例の実施形態に係る単語推定装置2Eの構成を示す
図18に示すように、単語推定装置2Eは、画像特徴解析手段10Eと、物体認識モデル記憶手段11Eと、モデル入力データ生成手段12Eと、言語モデル記憶手段20Eと、推定手段21Eと、を備える。
画像特徴解析手段10E、物体認識モデル記憶手段11Eおよびモデル入力データ生成手段12Eは、図14で説明した言語モデル学習装置1Eの構成と同じであるため、説明を省略する。
言語モデル記憶手段20Eは、言語モデル学習装置1Eで学習された言語モデル(RNN-LM)を記憶するものである。この言語モデル記憶手段20Eは、ハードディスク、半導体メモリ等の一般的な記憶装置で構成することができる。
推定手段21Eは、言語モデル記憶手段20Eに記憶されている言語モデルを用いて、モデル入力データ生成手段12Eで生成されたデータ(入力単語ベクトル、画像特徴ベクトル)をRNNの入力とし、現時点までに入力された単語の次に続く単語を出現確率とともに、出力単語ベクトルとして推定するものである。
推定手段21は、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
以上説明したように、単語推定装置2Eは、単語以外の特徴から次単語を推定することができ、次単語を精度よく推定することができる。
なお、単語推定装置2Eの動作は、図6で説明した単語推定装置2の動作において、キャプションの代わりに物体認識モデルにおける画像特徴量を用いる点が異なる以外、基本的な流れは同じであるため、説明を省略する。
1,1B,1C,1D,1E 言語モデル学習装置
10,10C 画像特徴解析手段
100 キャプション生成手段
100E 画像特徴量抽出手段
101 リランキング手段
11 キャプション生成モデル記憶手段
11E 物体認識モデル記憶手段
12,12B,12E モデル入力データ生成手段
120,120B 入力単語ベクトル生成手段
121,121B キャプションベクトル生成手段
121E 画像特徴ベクトル生成手段
13,13B 学習手段
14,14B 言語モデル記憶手段
2,2B,2C,2D,2E 単語推定手段
20,20B 言語モデル記憶手段
21,21B 推定手段

Claims (7)

  1. 発話文を構成する単語と当該発話文に関連する画像とで構成される複数の学習データにより、再帰型ニューラルネットワークの言語モデルを学習する言語モデル学習装置であって、
    予め学習したニューラルネットワークのキャプション生成モデルを用いて、前記画像から当該画像の内容を示す複数のキャプションを生成するキャプション生成手段と、
    前記キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成するとともに、前記発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成し、前記言語モデルへの入力データを生成するモデル入力データ生成手段と、
    前記発話文を構成する単語に対応する前記入力単語ベクトルと、前記発話文に対応するキャプション統合ベクトルとに基づいて、当該単語に続く次単語を教師データとして、前記言語モデルを学習する学習手段と、
    を備えることを特徴とする言語モデル学習装置。
  2. 前記言語モデルとして、入力層に2つのベクトルを入力する再帰型ニューラルネットワークを用い、
    前記モデル入力データ生成手段は、前記発話文を構成する単語に対応する前記入力単語ベクトルと、前記発話文に対応した前記キャプション統合ベクトルとを、単語ごとに、それぞれ個別に前記学習手段に出力し、
    前記学習手段は、前記入力単語ベクトルと前記キャプション統合ベクトルとから、前記言語モデルを学習することを特徴とする請求項1に記載の言語モデル学習装置。
  3. 前記言語モデルとして、入力層に1つのベクトルを入力する再帰型ニューラルネットワークを用い、
    前記モデル入力データ生成手段は、前記発話文の文頭記号の前に、前記キャプション統合ベクトルを追加して、前記学習手段に出力し、
    前記学習手段は、入力されるベクトルの順に、前記言語モデルを学習することを特徴とする請求項1に記載の言語モデル学習装置。
  4. 前記キャプション生成手段で生成される複数のキャプションを、前記発話文との間でベクトル表現が類似する順に入れ替えるリランキング手段を、さらに備え、
    前記モデル入力データ生成手段が、前記複数のキャプションを、前記発話文と類似するキャプションほど重みを大きくして統合することを特徴とする請求項1から請求項3のいずれか一項に記載の言語モデル学習装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載の言語モデル学習装置として機能させるための言語モデル学習プログラム。
  6. 請求項1から請求項4のいずれか一項に記載の言語モデル学習装置で学習した言語モデルを用いて、発話文に関連する画像から当該発話文を構成する単語の次単語を推定する単語推定装置であって、
    予め学習したニューラルネットワークのキャプション生成モデルを用いて、前記画像から当該画像の内容を示す複数のキャプションを生成するキャプション生成手段と、
    前記キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成するとともに、前記発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成し、前記言語モデルへの入力データを生成するモデル入力データ生成手段と、
    前記言語モデルを用いて、前記入力単語ベクトルと前記キャプション統合ベクトルとに基づいて、入力された単語に続く次単語を推定する推定手段と、
    を備えることを特徴とする単語推定装置。
  7. コンピュータを、請求項6に記載の単語推定装置として機能させるための単語推定プログラム。
JP2018115619A 2018-06-18 2018-06-18 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム Active JP7101057B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018115619A JP7101057B2 (ja) 2018-06-18 2018-06-18 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018115619A JP7101057B2 (ja) 2018-06-18 2018-06-18 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2019219827A JP2019219827A (ja) 2019-12-26
JP7101057B2 true JP7101057B2 (ja) 2022-07-14

Family

ID=69096603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018115619A Active JP7101057B2 (ja) 2018-06-18 2018-06-18 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP7101057B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7191054B2 (ja) * 2020-01-29 2022-12-16 Kddi株式会社 マルチメディアデータからテキストを推論するプログラム、装置及び方法
CN112527127B (zh) * 2020-12-23 2022-01-28 北京百度网讯科技有限公司 输入法长句预测模型的训练方法、装置、电子设备及介质
JPWO2022137440A1 (ja) * 2020-12-24 2022-06-30
US11817081B2 (en) * 2021-03-31 2023-11-14 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111782A (ja) 2015-12-17 2017-06-22 富士ゼロックス株式会社 ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6810580B2 (ja) * 2016-11-22 2021-01-06 日本放送協会 言語モデル学習装置およびそのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111782A (ja) 2015-12-17 2017-06-22 富士ゼロックス株式会社 ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林豊 他3名,深層学習による日本語キャプション生成システムの開発,人工知能学会 インタラクティブ情報アクセスと可視化マイニング 第17回研究会研究発表予稿集[online],日本,人工知能学会,2022年05月10日,19-23頁

Also Published As

Publication number Publication date
JP2019219827A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
JP7101057B2 (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
CN111402895B (zh) 语音处理、语音评测方法、装置、计算机设备和存储介质
CN113168828A (zh) 基于合成数据训练的会话代理管线
US10685644B2 (en) Method and system for text-to-speech synthesis
US11527238B2 (en) Internal language model for E2E models
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP2015212731A (ja) 音響イベント認識装置、及びプログラム
CN112863489B (zh) 语音识别方法、装置、设备及介质
JP6327745B2 (ja) 音声認識装置、及びプログラム
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
Granell et al. Multimodal crowdsourcing for transcribing handwritten documents
US11556782B2 (en) Structure-preserving attention mechanism in sequence-to-sequence neural models
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
KR20210071713A (ko) 스피치 스킬 피드백 시스템
Granell et al. Multimodality, interactivity, and crowdsourcing for document transcription
JP2017045027A (ja) 音声言語コーパス生成装置およびそのプログラム
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
KR101818758B1 (ko) 외국어 발음 평가 장치 및 방법
Sharma et al. Naturalization of text by the insertion of pauses and filler words
US20230252994A1 (en) Domain and User Intent Specific Disambiguation of Transcribed Speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220704

R150 Certificate of patent or registration of utility model

Ref document number: 7101057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150