JP7101057B2 - 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム - Google Patents
言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム Download PDFInfo
- Publication number
- JP7101057B2 JP7101057B2 JP2018115619A JP2018115619A JP7101057B2 JP 7101057 B2 JP7101057 B2 JP 7101057B2 JP 2018115619 A JP2018115619 A JP 2018115619A JP 2018115619 A JP2018115619 A JP 2018115619A JP 7101057 B2 JP7101057 B2 JP 7101057B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- caption
- vector
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
このような種々のドメインの音声に対して、高精度に認識を行う手法として、言語モデルの入力に番組情報を付加する手法が開示されている(特許文献1、非特許文献1参照)。
このように、特許文献1等の手法は、番組情報のようなドメインの傾向がわかる情報を明示することで言語モデルの精度を向上させている。
しかし、ドメインは常に既知であるわけではない。例えば、取材映像はまだ放送に利用されていないため番組名等の番組情報が未定であり、従来手法を利用するためには、利用者が自らドメインを指定する手間が生じてしまう。また、新番組の場合、番組名等の学習データが存在していないため、これまで蓄積した学習データで学習した言語モデルを利用することができないという問題がある。
これによって、モデル入力データ生成手段は、言語モデルへの入力データを生成する。
なお、言語モデル学習装置は、コンピュータを、前記したキャプション生成手段、モデル入力データ生成手段、学習手段として機能させるための言語モデル学習プログラムで動作させることができる。
これによって、モデル入力データ生成手段は、言語モデルへの入力データを生成する。
そして、単語推定装置は、推定手段によって、言語モデルを用いて、入力単語ベクトルとキャプション統合ベクトルとに基づいて、入力された単語に続く次単語を推定する。
本発明によれば、発話文の単語列とともに、当該発話文に関連する画像の特徴であるキャプションに基づいて、言語モデルを学習することができる。
これによって、本発明は、ドメインが未知な場合でも、発話文に関連する画像から、ドメインの素材となる情報を加味して言語モデルを学習することができ、言語モデルの推定精度を向上させることができる。
<第1実施形態>
[言語モデル学習装置の構成]
まず、図1を参照して、本発明の第1実施形態に係る言語モデル学習装置1の構成について説明する。
この発話文は、図示を省略した形態素解析手段で解析された単語ごとに、順次、言語モデル学習装置1のモデル入力データ生成手段12に入力され、当該単語の次に続く単語(次単語)については、さらに、教師データとして学習手段13に入力される。
キャプション生成手段100は、画像の特徴として、画像の内容を示すキャプション(説明文)を生成するものである。
キャプション生成手段100は、キャプション生成モデル記憶手段11に記憶されている、画像からテキストデータであるキャプションをニューラルネットワークにより生成する学習済みのモデル(キャプション生成モデル)を用いて、入力された画像から複数のキャプションを生成する。
例えば、キャプション生成手段100は、図2に示すような画像Gが入力された場合、「ストライプの服を着た女性がいます」、「部屋に大きな窓があります」、「女性が料理をしています」、「コンロの上に鍋があります」等のキャプションを生成する。
キャプション生成モデルは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)により画像内の物体を認識し、RNNにより画像内の物体からキャプションを生成するモデルである。
キャプション生成モデルには、以下の参考文献に示すような公知の技術を用いることができる。
(参考文献)
Subhashini Venugopalan, Marcus Rohrbach, Jeff Donahue, Raymond Mooney, Trevor Darrell, and Kate Saenko. Sequence to sequence - video to text. In ICCV, 2015.
具体的には、入力単語ベクトル生成手段120は、単語ごとに、該当する単語の成分のみを“1”、他を“0”とした語彙数分(数万程度)の次元の1-hotベクトルを生成する。
なお、入力単語ベクトル生成手段120は、後記するキャプション統合ベクトルとの整合性から、入力単語ベクトルの成分の最大値または総和が“1”となるように正規化することが好ましい。
入力単語ベクトル生成手段120は、生成した入力単語ベクトルを、学習手段13に出力する。
具体的には、キャプションベクトル生成手段121は、画像特徴解析手段10から入力される複数のキャプションごとに、キャプションに含まれる単語の成分を“1”、キャプションに含まれない単語の成分を“0”とした語彙数分(数万程度)次元のベクトル(キャプションベクトル)を生成する。
なお、キャプションが信頼度順に生成されている場合、キャプションベクトル生成手段121は、キャプションベクトルを、対応するキャプションの信頼度が高いほど大きい重みが付くように傾斜を付けて足し合わせることで、キャプションベクトルを統合したベクトル(キャプション統合ベクトル)を生成することとしてもよい。
例えば、キャプションの信頼度の順位をn(n=1~10;1が信頼度最大)としたとき、キャプションベクトル生成手段121は、キャプションから生成したキャプションベクトルの成分に(11-n)を乗算して、キャプションベクトルの成分ごとに足し合わせることで、キャプション統合ベクトルを生成する。
なお、キャプションベクトル生成手段121は、キャプション統合ベクトルの成分の最大値または総和が“1”となるように正規化することが好ましい。
図3に示すように、学習手段13が学習する言語モデルMは、入力層L1と、中間層L2と、出力層L3とで構成され、中間層L2の出力が再帰的に中間層L2の入力となる再帰型ニューラルネットワーク(RNN)である。
また、図3では、言語モデルMをRNNとして構成しているが、中間層L2において、RNNの改良型であるLSTM(Long short-term memory)を用いてもよい。
図1に戻って、言語モデル学習装置1の構成について説明を続ける。
学習手段13は、学習した言語モデルを言語モデル記憶手段14に記憶する。
なお、言語モデル学習装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
次に、図4を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る言語モデル学習装置1の動作について説明する。
この言語モデル学習装置1には、予め単語に区分された発話文と、当該発話文に対応する画像とが、学習データとして入力される。
ここで、発話文の単語として文末記号がまだ入力されていない場合(ステップS6でNo)、言語モデル学習装置1は、ステップS4に戻って動作を続ける。
一方、発話文の単語として文末記号が入力された場合(ステップS6でYes)、言語モデル学習装置1は、ステップS7に動作を進める。
一方、学習データの入力が終了した場合(ステップS7でYes)、言語モデル学習装置1は、動作を終了する。
次に、図5を参照して、本発明の第1実施形態に係る単語推定装置2の構成について説明する。
単語推定装置2は、言語モデル学習装置1(図1参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2は、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
また、単語推定装置2に入力される画像は、音声に対応した画像(テレビ番組、映画等の画像)であって、例えば、発話中の任意の時点の静止画像、あるいは、発話の開始から終了までの時間区間の動画像である。
画像特徴解析手段10、キャプション生成モデル記憶手段11およびモデル入力データ生成手段12は、図1で説明した言語モデル学習装置1の構成と同じであるため、説明を省略する。
具体的には、推定手段21は、言語モデル記憶手段20に記憶されている図3で説明した言語モデルMにおいて、入力単語ベクトルwiとキャプション統合ベクトルqiとを独立して入力し、再帰型ニューラルネットワークの演算を行うことで、単語の出現確率を示す出力単語ベクトルwi+1を生成する。
推定手段21は、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
なお、単語推定装置2は、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
次に、図6を参照(構成については適宜図5参照)して、本発明の第1実施形態に係る単語推定装置2の動作について説明する。
この単語推定装置2には、音声の認識候補となる発話文の単語が順次入力されとともに、音声の発話中に対応する画像が入力される。
また、言語モデル記憶手段20には、予め学習された言語モデルが記憶されているものとする。
ステップS15において、推定手段21は、ステップS13で生成されたキャプション統合ベクトル、および、ステップS14で生成された入力単語ベクトルを言語モデルに入力し、現時点の単語の次の単語である次単語とその出現確率とを推定する。
ここで、単語として文末記号がまだ入力されていない場合(ステップS16でNo)、単語推定装置2は、ステップS14に戻って動作を続ける。
一方、単語として文末記号が入力された場合(ステップS16でYes)、単語推定装置2は、動作を終了する。
[言語モデル学習装置の構成]
次に、図7を参照して、本発明の第2実施形態に係る言語モデル学習装置1Bの構成について説明する。
言語モデル学習装置1(図1参照)は、図3に示すように入力層L1に、入力単語ベクトルとキャプション統合ベクトルとを独立したベクトルとして入力する言語モデルMを学習する構成とした。
図7に示す言語モデル学習装置1Bは、単語ごとの連続する入力単語ベクトルの先頭に、キャプション統合ベクトルを追加して、言語モデルの入力層に入力するベクトルを1つとした構成とする。
画像特徴解析手段10およびキャプション生成モデル記憶手段11は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
なお、入力単語ベクトル生成手段120Bは、キャプションベクトル生成手段121Bで生成されるキャプション統合ベクトルを、発話文の文頭箇所に追加して入力単語ベクトルとして出力する。
ここで、入力単語ベクトル生成手段120Bは、入力される単語列(文頭記号、文末記号を含む)を、順次、入力単語ベクトルに変換するが、文頭記号に対応するベクトルの前に、キャプションベクトル生成手段121Bで生成されたキャプション統合ベクトルを、入力単語ベクトルとして追加する。
入力単語ベクトル生成手段120Bは、生成した入力単語ベクトルを、学習手段13Bに出力する。
具体的には、キャプションベクトル生成手段121Bは、画像特徴解析手段10から入力される複数のキャプションごとに、キャプションに含まれる単語の成分を“1”、キャプションに含まれない単語の成分を“0”とした語彙数分(数万程度)次元のベクトル(キャプションベクトル)を生成する。
キャプションベクトル生成手段121Bは、入力単語ベクトルと同様に、キャプションベクトルを数百程度の次元数(入力単語ベクトルと同じ次元数)のベクトルに変換する。なお、キャプションベクトルには、複数の単語を含んでいるため、キャプションベクトル生成手段121Bは、キャプションベクトル生成手段121と同様、単語ごとに、それぞれ数百程度の次元数のベクトルに変換した後、ベクトルを加算し、単語数で除算する。
また、キャプションベクトル生成手段121Bは、入力単語ベクトルとのスケールを揃えるように、キャプション統合ベクトルの成分の最大値が“1”となるように正規化する。
このように、キャプションベクトル生成手段121Bが生成するキャプション統合ベクトルは、入力単語ベクトルとスケールを揃えるため、入力単語ベクトルと同じ次元数で、成分の最大値が“1”となるように正規化されている点が、キャプションベクトル生成手段121(図1)が生成するキャプション統合ベクトルとは異なる。
キャプションベクトル生成手段121Bは、生成したキャプション統合ベクトルを、入力単語ベクトル生成手段120Bに出力する。
図8は、モデル入力データ生成手段12Bが生成する、言語モデルMBの入力層L1に入力する入力単語ベクトルw1,w2,…,wnを示している。
入力単語ベクトルw2は、文頭記号を示すベクトルである。
入力単語ベクトルw3…は、入力単語ベクトル生成手段120Bが生成した発話文の単語ごとの入力単語ベクトルである。例えば、入力単語ベクトルw3は、単語「フライ」に対応する成分のみを“1”、他の成分を“0”としたベクトルである。
入力単語ベクトルwnは、文末記号を示すベクトルである。
また、ここでは、入力単語ベクトルw1のキャプション統合ベクトルを、「女性が料理をしています」の一文のみの例で示しているが、実際は、複数のキャプションが統合されたものである。
これによって、モデル入力データ生成手段12Bは、画像特徴であるキャプションを、単語列に付加することができる。
図7に戻って、言語モデル学習装置1Bの構成について説明を続ける。
図8に示すように、学習手段13Bが学習する言語モデルMBは、入力層L1と、中間層L2と、出力層L3とで構成され、中間層L2の出力が再帰的に中間層L2の入力となる再帰型ニューラルネットワーク(RNN)である。
言語モデルMBは、入力層L1への入力が1つのベクトルのみである点以外は、言語モデルM(図3)と同じである。
なお、学習手段13Bは、入力単語ベクトルが前の発話文における文末記号である場合、すべての成分が“0”となるベクトルを教師データとして学習する。また、学習手段13Bは、入力単語ベクトルがキャプション統合ベクトルの場合、文頭記号を教師データとして学習する。また、学習手段13Bは、入力単語ベクトルが文頭記号である場合、発話文の先頭の単語を教師データとして学習し、以降、発話文の次単語を順次教師データとして学習する。
この言語モデルのモデルパラメータを学習するには、一般的な誤差逆伝播法を用いればよい。
学習手段13は、学習した言語モデルを言語モデル記憶手段14Bに記憶する。
なお、言語モデル学習装置1Bは、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
次に、図9を参照(構成については適宜図7参照)して、本発明の第2実施形態に係る言語モデル学習装置1Bの動作について説明する。ここでは、図4の言語モデル学習装置1の動作との相違点を主に説明する。
ただし、ステップS22において、入力単語ベクトルのスケールと揃えるため、キャプション統合ベクトルの成分の最大値が“1”となるように正規化しておく。
ステップS23において、学習手段13Bは、ステップS22で生成されたキャプション統合ベクトルを入力単語ベクトルとして入力し、文頭記号を教師データとして言語モデルを学習する。
一方、発話文の単語として文末記号が入力された場合(ステップS26でYes)、言語モデル学習装置1Bは、ステップS27に動作を進める。
一方、学習データの入力が終了した場合(ステップS27でYes)、言語モデル学習装置1Bは、動作を終了する。
次に、図10を参照して、本発明の第2実施形態に係る単語推定装置2Bの構成について説明する。
単語推定装置2Bは、言語モデル学習装置1B(図7参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2Bは、単語推定装置2(図5参照)と同様、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
画像特徴解析手段10、キャプション生成モデル記憶手段11およびモデル入力データ生成手段12Bは、図7で説明した言語モデル学習装置1Bの構成と同じであるため、説明を省略する。
具体的には、推定手段21Bは、言語モデル記憶手段20Bに記憶されている図8で説明した言語モデルMBにおいて、入力単語ベクトルwiを入力し、再帰型ニューラルネットワークの演算を行うことで、単語の出現確率を示す出力単語ベクトルwi+1を生成する。
推定手段21Bは、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
なお、単語推定装置2Bは、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
次に、図11を参照(構成については適宜図10参照)して、本発明の第2実施形態に係る単語推定装置2Bの動作について説明する。ここでは、図9の言語モデル学習装置1Bの動作との相違点を主に説明する。
ステップS33において、推定手段21Bは、ステップS32で生成されたキャプション統合ベクトルを入力単語ベクトルとして言語モデルに入力し、文頭記号の出現確率を推定する。
ステップS34は、図9のステップS24と同じ動作である。
ステップS35において、推定手段21Bは、ステップS34で生成された入力単語ベクトルを言語モデルに入力し、現時点の単語の次の単語である次単語とその出現確率とを推定する。
一方、単語として文末記号が入力された場合(ステップS36でYes)、単語推定装置2Bは、動作を終了する。
[言語モデル学習装置]
次に、図12を参照して、本発明の第3実施形態に係る言語モデル学習装置1Cについて説明する。
言語モデル学習装置1(図1参照)は、画像特徴として、画像のキャプションとして、予め学習したキャプション生成モデルが出力する信頼度の上位から予め定めた数のキャプションを、モデル入力データ生成手段12に出力する構成とした。
図12に示す言語モデル学習装置1Cは、画像のキャプションを、発話文に類似するキャプションの信頼度を高くする(リランキングする)構成とする。
画像特徴解析手段10C以外の構成は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
画像特徴解析手段10Cは、キャプション生成手段100と、リランキング手段101と、を備える。キャプション生成手段100は、図1で説明した言語モデル学習装置1と同じ構成であるため、説明を省略する。
例えば、キャプション生成手段100が、図13に示すような画像Gを入力し、「ストライプの服を着た女性がいます」、「部屋に大きな窓があります」、「女性が料理をしています」、「コンロの上に鍋があります」等のキャプションを生成したとする。
また、ここで、発話文が「フライが揚がりました」であったとする。
この場合、例えば、「女性が料理をしています」が、「フライが揚がりました」に対して最も意味が近いものとなる。
そこで、リランキング手段101は、より発話文に意味が近いキャプションの順に、例えば、図13の例の場合、「女性が料理をしています」、「コンロの上に鍋があります」、「部屋に大きな窓があります」、「ストライプの服を着た女性がいます」のように優先度の順位を入れ替える。
具体的には、リランキング手段101は、発話文およびキャプションのそれぞれの単語列において、単語ごとの分散表現ベクトルから、単語列の分散表現ベクトルを平均化することで、発話文およびキャプションのそれぞれのベクトル表現を生成する。
そして、リランキング手段101は、コサイン類似度によって、キャプションの順位を入れ替える。
リランキング手段101は、優先度の順位を入れ替えたキャプションを、モデル入力データ生成手段12に出力する。
また、言語モデル学習装置1Cは、コンピュータを、前記した各手段として機能させるためのプログラム(言語モデル学習プログラム)で動作させることができる。
次に、図14を参照して、本発明の第3実施形態に係る単語推定装置2Cについて説明する。
単語推定装置2Cは、言語モデル学習装置1C(図12参照)で生成された言語モデルを用いて、入力単語の次に続く単語を出現確率とともに推定するものである。
この単語推定装置2Cは、単語推定装置2(図5参照)と同様、図示を省略した音声認識装置内に備えられ、音声認識装置が音声認識を行う際に、ある単語の次に続く単語の出現確率を求める際に用いられる。
画像特徴解析手段10Cは、図12で説明した言語モデル学習装置1Cの構成と同じであり、キャプション生成モデル記憶手段11、モデル入力データ生成手段12、言語モデル記憶手段20および推定手段21は、図5で説明した単語推定装置2の構成と同じであるため、説明を省略する。
また、単語推定装置2Cは、コンピュータを、前記した各手段として機能させるためのプログラム(単語推定プログラム)で動作させることができる。
第3実施形態に係る言語モデル学習装置1Cおよび単語推定装置2Cは、それぞれ、第1実施形態に係る言語モデル学習装置1(図1)および単語推定装置2(図5)の画像特徴解析手段10にリランキング手段101を付加する構成とした。
例えば、言語モデル学習装置1B(図7)にリランキング手段101を付加する場合、図15に示す言語モデル学習装置1Dとして構成すればよい。
また、単語推定装置2B(図10)にリランキング手段101を付加する場合、図16に示す単語推定装置2Dとして構成すればよい。
言語モデル学習装置1Dおよび単語推定装置2Dの構成および動作は、言語モデル学習装置1B(図7),1C(図12)および単語推定装置2B(図10),2C(図14)の構成および動作と重複するため、説明を省略する。
第1~第4実施形態では、言語モデルを学習する際、および、言語モデル用いて次単語を推定する際に、発話文に対応する画像特徴として、キャプションを言語モデルの入力として用いる構成とした。
しかし、この画像特徴は、キャプション以外にも、画像内に含まれる物体の特徴を用いてもよい。以下、キャプションの代わりに物体の特徴を用いる言語モデル学習装置および単語推定装置の例について説明する。
図17に、参考例の実施形態に係る言語モデル学習装置1Eの構成を示す
図17に示すように、言語モデル学習装置1Eは、画像特徴解析手段10Eと、物体認識モデル記憶手段11Eと、モデル入力データ生成手段12Eと、学習手段13Eと、言語モデル記憶手段14Eと、を備える。
画像特徴量抽出手段100Eは、画像内の物体を認識する予め学習済みのニューラルネットワークのモデル(物体認識モデル)を用いて、画像特徴量を抽出するものである。
画像特徴量抽出手段100Eは、物体認識モデル記憶手段11Eに記憶されている物体認識モデルに、画像のデータを入力し、物体認識モデルの中間層または出力層のデータを画像特徴量として抽出する。
画像特徴量抽出手段100Eは、抽出した画像特徴量をモデル入力データ生成手段12Eに出力する。
この物体認識モデルは、VGG16等の一般的物体認識モデルを、当該言語モデルの分野、例えば、発話文と同じ分野の画像によって転移学習したものを用いることができる。
なお、このような一般的物体認識モデルでは、中間層または出力層のデータとして抽出される画像特徴量は、1000次元程度のデータとなる。
入力単語ベクトル生成手段120は、図1で説明した言語モデル学習装置1と同じ構成であるため説明を省略する。
画像特徴ベクトル生成手段121Eは、画像特徴解析手段10で抽出された1000次元程度の高次元のデータから、言語モデルの入力層の予め定めた次元数(数百程度)の画像特徴ベクトルを生成する。なお、この次元数の圧縮は、一般的なPCA(主成分分析)等により行うことができる。
画像特徴ベクトル生成手段121Eは、生成した画像特徴ベクトルを、学習手段13Eに出力する。ただし、画像特徴ベクトル生成手段121Eは、発話文の先頭を示す文頭記号から発話文の末尾を示す文末記号まで、同じ画像特徴ベクトルを出力することとする。
学習手段13Eが学習する言語モデルは、図3で説明した言語モデルMの入力層L1に入力するキャプション統合ベクトルを画像特徴ベクトルに代えたモデルである。
なお、言語モデル学習装置1Eの動作は、図4で説明した言語モデル学習装置1の動作において、キャプションの代わりに物体認識モデルにおける画像特徴量を用いる点が異なる以外、基本的な流れは同じであるため、説明を省略する。
図18に、参考例の実施形態に係る単語推定装置2Eの構成を示す
図18に示すように、単語推定装置2Eは、画像特徴解析手段10Eと、物体認識モデル記憶手段11Eと、モデル入力データ生成手段12Eと、言語モデル記憶手段20Eと、推定手段21Eと、を備える。
画像特徴解析手段10E、物体認識モデル記憶手段11Eおよびモデル入力データ生成手段12Eは、図14で説明した言語モデル学習装置1Eの構成と同じであるため、説明を省略する。
推定手段21は、出力単語ベクトルの最大成分に対応する単語と、その成分(出現確率)とを、推定結果として外部に出力する。
なお、単語推定装置2Eの動作は、図6で説明した単語推定装置2の動作において、キャプションの代わりに物体認識モデルにおける画像特徴量を用いる点が異なる以外、基本的な流れは同じであるため、説明を省略する。
10,10C 画像特徴解析手段
100 キャプション生成手段
100E 画像特徴量抽出手段
101 リランキング手段
11 キャプション生成モデル記憶手段
11E 物体認識モデル記憶手段
12,12B,12E モデル入力データ生成手段
120,120B 入力単語ベクトル生成手段
121,121B キャプションベクトル生成手段
121E 画像特徴ベクトル生成手段
13,13B 学習手段
14,14B 言語モデル記憶手段
2,2B,2C,2D,2E 単語推定手段
20,20B 言語モデル記憶手段
21,21B 推定手段
Claims (7)
- 発話文を構成する単語と当該発話文に関連する画像とで構成される複数の学習データにより、再帰型ニューラルネットワークの言語モデルを学習する言語モデル学習装置であって、
予め学習したニューラルネットワークのキャプション生成モデルを用いて、前記画像から当該画像の内容を示す複数のキャプションを生成するキャプション生成手段と、
前記キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成するとともに、前記発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成し、前記言語モデルへの入力データを生成するモデル入力データ生成手段と、
前記発話文を構成する単語に対応する前記入力単語ベクトルと、前記発話文に対応するキャプション統合ベクトルとに基づいて、当該単語に続く次単語を教師データとして、前記言語モデルを学習する学習手段と、
を備えることを特徴とする言語モデル学習装置。 - 前記言語モデルとして、入力層に2つのベクトルを入力する再帰型ニューラルネットワークを用い、
前記モデル入力データ生成手段は、前記発話文を構成する単語に対応する前記入力単語ベクトルと、前記発話文に対応した前記キャプション統合ベクトルとを、単語ごとに、それぞれ個別に前記学習手段に出力し、
前記学習手段は、前記入力単語ベクトルと前記キャプション統合ベクトルとから、前記言語モデルを学習することを特徴とする請求項1に記載の言語モデル学習装置。 - 前記言語モデルとして、入力層に1つのベクトルを入力する再帰型ニューラルネットワークを用い、
前記モデル入力データ生成手段は、前記発話文の文頭記号の前に、前記キャプション統合ベクトルを追加して、前記学習手段に出力し、
前記学習手段は、入力されるベクトルの順に、前記言語モデルを学習することを特徴とする請求項1に記載の言語モデル学習装置。 - 前記キャプション生成手段で生成される複数のキャプションを、前記発話文との間でベクトル表現が類似する順に入れ替えるリランキング手段を、さらに備え、
前記モデル入力データ生成手段が、前記複数のキャプションを、前記発話文と類似するキャプションほど重みを大きくして統合することを特徴とする請求項1から請求項3のいずれか一項に記載の言語モデル学習装置。 - コンピュータを、請求項1から請求項4のいずれか一項に記載の言語モデル学習装置として機能させるための言語モデル学習プログラム。
- 請求項1から請求項4のいずれか一項に記載の言語モデル学習装置で学習した言語モデルを用いて、発話文に関連する画像から当該発話文を構成する単語の次単語を推定する単語推定装置であって、
予め学習したニューラルネットワークのキャプション生成モデルを用いて、前記画像から当該画像の内容を示す複数のキャプションを生成するキャプション生成手段と、
前記キャプション生成手段で生成された複数のキャプションをベクトル化して統合することでキャプション統合ベクトルを生成するとともに、前記発話文を構成する単語ごとにベクトル化して入力単語ベクトルを生成し、前記言語モデルへの入力データを生成するモデル入力データ生成手段と、
前記言語モデルを用いて、前記入力単語ベクトルと前記キャプション統合ベクトルとに基づいて、入力された単語に続く次単語を推定する推定手段と、
を備えることを特徴とする単語推定装置。 - コンピュータを、請求項6に記載の単語推定装置として機能させるための単語推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115619A JP7101057B2 (ja) | 2018-06-18 | 2018-06-18 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018115619A JP7101057B2 (ja) | 2018-06-18 | 2018-06-18 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019219827A JP2019219827A (ja) | 2019-12-26 |
JP7101057B2 true JP7101057B2 (ja) | 2022-07-14 |
Family
ID=69096603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018115619A Active JP7101057B2 (ja) | 2018-06-18 | 2018-06-18 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7101057B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7191054B2 (ja) * | 2020-01-29 | 2022-12-16 | Kddi株式会社 | マルチメディアデータからテキストを推論するプログラム、装置及び方法 |
CN112527127B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 输入法长句预测模型的训练方法、装置、电子设备及介质 |
JPWO2022137440A1 (ja) * | 2020-12-24 | 2022-06-30 | ||
US11817081B2 (en) * | 2021-03-31 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017111782A (ja) | 2015-12-17 | 2017-06-22 | 富士ゼロックス株式会社 | ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6810580B2 (ja) * | 2016-11-22 | 2021-01-06 | 日本放送協会 | 言語モデル学習装置およびそのプログラム |
-
2018
- 2018-06-18 JP JP2018115619A patent/JP7101057B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017111782A (ja) | 2015-12-17 | 2017-06-22 | 富士ゼロックス株式会社 | ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置 |
Non-Patent Citations (1)
Title |
---|
小林豊 他3名,深層学習による日本語キャプション生成システムの開発,人工知能学会 インタラクティブ情報アクセスと可視化マイニング 第17回研究会研究発表予稿集[online],日本,人工知能学会,2022年05月10日,19-23頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2019219827A (ja) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021232725A1 (zh) | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 | |
JP6538779B2 (ja) | 音声対話システム、音声対話方法、および音声対話システムを適合させる方法 | |
JP7101057B2 (ja) | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
CN111402895B (zh) | 语音处理、语音评测方法、装置、计算机设备和存储介质 | |
CN113168828A (zh) | 基于合成数据训练的会话代理管线 | |
US10685644B2 (en) | Method and system for text-to-speech synthesis | |
US11527238B2 (en) | Internal language model for E2E models | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
JP2015212731A (ja) | 音響イベント認識装置、及びプログラム | |
CN112863489B (zh) | 语音识别方法、装置、设备及介质 | |
JP6327745B2 (ja) | 音声認識装置、及びプログラム | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
Granell et al. | Multimodal crowdsourcing for transcribing handwritten documents | |
US11556782B2 (en) | Structure-preserving attention mechanism in sequence-to-sequence neural models | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
Granell et al. | Multimodality, interactivity, and crowdsourcing for document transcription | |
JP2017045027A (ja) | 音声言語コーパス生成装置およびそのプログラム | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
KR101818758B1 (ko) | 외국어 발음 평가 장치 및 방법 | |
Sharma et al. | Naturalization of text by the insertion of pauses and filler words | |
US20230252994A1 (en) | Domain and User Intent Specific Disambiguation of Transcribed Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7101057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |