JP2018045625A - 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム - Google Patents

表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018045625A
JP2018045625A JP2016182058A JP2016182058A JP2018045625A JP 2018045625 A JP2018045625 A JP 2018045625A JP 2016182058 A JP2016182058 A JP 2016182058A JP 2016182058 A JP2016182058 A JP 2016182058A JP 2018045625 A JP2018045625 A JP 2018045625A
Authority
JP
Japan
Prior art keywords
encoding unit
continuous value
cell
row
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016182058A
Other languages
English (en)
Other versions
JP6611355B2 (ja
Inventor
京介 西田
Kyosuke Nishida
京介 西田
松尾 義博
Yoshihiro Matsuo
義博 松尾
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
九月 貞光
Kugatsu Sadamitsu
九月 貞光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016182058A priority Critical patent/JP6611355B2/ja
Publication of JP2018045625A publication Critical patent/JP2018045625A/ja
Application granted granted Critical
Publication of JP6611355B2 publication Critical patent/JP6611355B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】表形式データの表のキャプションを精度よく生成することができるようにする。【解決手段】セル符号化部72が、表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。行符号化部74が、表形式データについて、表の各行に対し、該行に含まれる各セルの連続値ベクトルを入力として、行を連続値ベクトルに符号化する。列符号化部76が、表形式データについて、表の各列に対し、該列に含まれる各セルの連続値ベクトルを入力として、列を連続値ベクトルに符号化する。表符号化部78が、表形式データについて、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。表キャプション生成部80が、表符号化部78が出力した連続値ベクトルと、生成器とに基づいて、表のキャプションを生成する。【選択図】図4

Description

本発明は、表形式データの表のキャプションを生成するための表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラムに関するものである。
コンピュータ技術の発展により、Web上のHTMLで記述された表データや、表計算ソフトウェアなどで作成されたスプレッドシート上の表データは大量に存在するようになった。しかし、表の内容を適切に表すキャプションは記述されていないものが多い。この表キャプションを表の内容に基づいて生成することができれば、情報検索など幅広いサービスに応用可能な知識が獲得できる。
Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, Yoshua Bengio: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. ICML 2015: 2048-2057.
画像については、画像の内容に適合したキャプションを生成するための従来手法として、非特許文献1などがこれまで提案されている。
これらの従来手法は、画像の特徴を表すベクトルに符号化し、符号化されたベクトルを入力として画像のキャプションを生成する。しかし、表については画像の様に高精度なキャプションを生成する従来技術は無い。
本発明では、上記事情を鑑みて成されたものであり、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、精度良く表のキャプションを生成することができる表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る表キャプション生成器学習装置は、セルの行列として記述された表形式データと表のキャプションを表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表のキャプションを生成するための生成器を学習する学習部とを含んで構成されている。
本発明に係る表キャプション生成器学習方法は、セル符号化部が、セルの行列として記述された表形式データと表のキャプションを表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、行符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、列符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、学習部が、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表のキャプションを生成するための生成器を学習する。
本発明に係る表キャプション生成装置は、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、前記表符号化部が出力した連続値ベクトルと、表形式データの表のキャプションを生成するための予め学習された生成器とに基づいて、前記表形式データの表のキャプションを生成する表キャプション生成部と、を含んで構成されている。
本発明に係る表キャプション生成方法は、セル符号化部が、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、行符号化部が、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、列符号化部が、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、表符号化部が、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表キャプション生成部が、前記表符号化部が出力した連続値ベクトルと、表形式データの表のキャプションを生成するための予め学習された生成器とに基づいて、前記表形式データの表のキャプションを生成する。
また、本発明のプログラムは、コンピュータを、上記の表キャプション生成器学習装置、又は表キャプション生成装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の表キャプション生成器学習装置、方法、及びプログラムによれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表のキャプションを生成するための生成器を学習することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表のキャプションを精度よく生成することができる生成器を学習することができる。
また、本発明の表キャプション生成装置、方法、及びプログラムによれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表のキャプションを生成することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表のキャプションを精度よく生成することができる。
本発明の実施形態に係る表キャプション生成器学習装置の機能的構成を示すブロック図である。 表符号化ベクトルを生成する方法を説明するための図である。 表のキャプションを生成する方法を説明するための図である。 本発明の実施形態に係る表キャプション生成装置の機能的構成を示すブロック図である。 本発明の実施形態に係る表キャプション生成器学習装置における表キャプション生成器学習処理ルーチンのフローチャート図である。 本発明の実施形態に係る表キャプション生成装置における表キャプション生成処理ルーチンのフローチャート図である。 本発明の実施形態に係る表キャプション生成装置における表のキャプションを生成する処理の流れを示すフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の実施の形態に係る表キャプション生成器学習装置の構成>
次に、本発明の実施の形態に係る表キャプション生成器学習装置の構成について説明する。図1に示すように、本実施の形態に係る表キャプション生成器学習装置100は、CPUと、RAMと、後述する表キャプション生成器学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表キャプション生成器学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを含んで構成されている。
入力部10は、表形式データと表のキャプションを表す正解ラベルとの組の集合である訓練データ集合を受け付ける。
表形式データは、行列形式のセルの集合であり、各セルはHTMLを含まないプレーンテキスト情報、あるいは、HTMLタグを含むテキスト情報が与えられる
演算部20は、図1に示すように、セル符号化部22、行符号化部24、列符号化部26、表符号化部28、及び学習部30を備えて構成されている。
セル符号化部22は、訓練データ集合に含まれる表形式データの各々について、表の各セルについて、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。
具体的には、セル符号化部22は、訓練データ集合の表の各々に関して、該表に含まれるすべてのセルci,j(行番号i, 列番号j)について、以下の処理を行い、各セルの符号化ベクトルhi,jを出力する。
まず、セル符号化部22は、セルci,jに記載のテキスト情報を形態素解析により単語(トークンと呼ぶ)の系列に分割する。たとえば、プレーンテキストとして「月額費用」を受け取った場合「月額」「費用」というトークン系列に分割する。また、HTMLテキストとして「<th><b>月額</b>費用</th>」を受け取った場合、HTMLタグごとに分割し、タグ内のテキストについて形態素解析することで「<th>」「<b>」「月額」「</b>」「費用」「</th>」のように分割する。なお、テキスト情報を文字ごとに分割して1文字をトークンとしてもよい。
次に、セル符号化部22は、セルci,jに含まれるトークンの系列を連続値の符号化ベクトルhi,jに変換する。
系列データの符号化には、非特許文献2に示すLSTMや、非特許文献3に示すGRUが利用可能である。
[非特許文献2]:S Hochreiter, J Schmidhuber. Long short-term memory. Neural computation 9 (8), 1735-1780, 1997.
[非特許文献3]:K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259, 2014.
GRUを利用する場合、トークン系列の各トークンをx、Nc次元の符号化ベクトルをhとしたとき、トークンxが与えられるたびに符号化ベクトルhを下記の式(1)、(2)の計算により更新する。
ここで、σはシグモイド関数、

は行列の要素ごとの積を意味する。We、Wr、Ur、Wz、Uz、W、Uはセル間で共通のパラメータ行列である。トークンの種類をK種類、埋め込み次元をEとしたとき、xはK次元の1-of-Kベクトル(トークンに対応する部分のみ1、他は0)となる。WeはE×K次元のパラメータ行列となる。その他のW.はNc×E次元のパラメータ行列となる。U.はNc×Nc次元のパラメータ行列となる。hの初期値はNc次元の零ベクトルである。
なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルhi,jを出力しても良い。また、トークン系列を逆順にして同様に符号化ベクトルhi,j bを出力し、正順の符号化ベクトルと連結したベクトル[hi,j;hi,j b]をセル符号化部22の出力としても良い。この場合、符号化ベクトルのサイズは2Ncとなる。
行符号化部24は、訓練データ集合に含まれる表形式データの各々について、表の各行に対し、セル符号化部22が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。
具体的には、行符号化部24は、表に含まれるすべての行(行番号i)について、以下の処理を行い、行内に含まれる各セルの符号化ベクトルhi,jの系列(j=1,2,…)を連続値の符号化ベクトルhiに変換する。例えば、hiをNr次元の零ベクトルとして初期化し、セルの符号化ベクトルhi,jが与えられるたびに上記式(2)のeとしてhi,jを代入することで符号化ベクトルhiを更新する。We、Wr、Ur、Wz、Uz、W、Uは行間で共通のパラメータ行列とし、W.はNr×Nc次元のパラメータ行列となる。U.はNr×Nr次元のパラメータ行列となる。
なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行内のセルの系列を逆順にして同様に符号化ベクトルhi bを出力し、正順の符号化ベクトルと連結したベクトル[hi;hi b]を行符号化部24の出力としても良い。この場合、符号化ベクトルのサイズは2Nrとなる。
列符号化部26は、訓練データ集合に含まれる表形式データの各々について、表の各列に対し、セル符号化部22が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。
具体的には、列符号化部26は、表に含まれるすべての列(列番号i)について、以下の処理を行い、列内に含まれる各セルの符号化ベクトルhi,jの系列(i=1,2,…)を連続値の符号化ベクトルhjに変換する。例えば、hjをNo次元の零ベクトルとして初期化し、セルの符号化ベクトルhi,jが与えられるたびに式(2)のe=hi,j、h=hjと代入することでhjを更新する。We、Wr、Ur、Wz、Uz、W、Uは列間で共通のパラメータ行列とし、W.はNo×Nc次元のパラメータ行列となる。U.はNo×No次元のパラメータ行列となる。
なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、列内のセルの系列を逆順にして同様に符号化ベクトルhj bを出力し、正順の符号化ベクトルと連結したベクトル[hj;hj b]を列符号化部26の出力としても良い。この場合、符号化ベクトルのサイズは2Noとなる。
表符号化部28は、訓練データ集合に含まれる表形式データの各々について、行符号化部24および列符号化部26が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。
具体的には、まず、表符号化部28は、各行の符号化ベクトルhiの系列(i=1,2,…)を連続値の符号化ベクトルhrowに変換する。例えば、hrowをNo次元の零ベクトルとして初期化し、行の符号化ベクトルhiが与えられるたびに式(2)のe=hi、h= hrowと代入することでhrowを更新する。We、Wr、Ur、Wz、Uz、W、Uをパラメータ行列とし、W.はNt×Nr次元のパラメータ行列となる。U.はNt×Nt次元のパラメータ行列となる。
なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行の系列を逆順にして同様に符号化ベクトルhrow bを出力し、正順の符号化ベクトルと連結したベクトル[hrow;hrow b]を出力しても良い。この場合、符号化ベクトルのサイズは2Ntとなる。
そして、表符号化部28は、各列の符号化ベクトルhjの系列(j=1,2,…)を連続値の符号化ベクトルhcolに変換する。例えば、hcolをNt次元の零ベクトルとして初期化し、列の符号化ベクトルhjが与えられるたびに式(2)のe=hi、h= hcolと代入することでhcolを更新する。We、Wr、Ur、Wz、Uz、W、Uをパラメータ行列(連続値の符号化ベクトルhrowへの変換とは別のパラメータとする)とし、W.はNt×No次元のパラメータ行列となる。U.はNt×Nt次元のパラメータ行列となる。
なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行の系列を逆順にして同様に符号化ベクトルhcol bを出力し、正順の符号化ベクトルと連結したベクトル[hcol;hcol b]を出力しても良い。この場合、符号化ベクトルのサイズは2Ntとなる。
表符号化部28は、上記で出力したベクトルを連結した[hrow;hcol]を表の符号化ベクトルhtabとして出力する。
学習部30は、訓練データ集合に含まれる表形式データの各々について表符号化部28が出力した連続値ベクトルと、訓練データ集合に含まれる正解ラベルとに基づいて、表形式データの表のキャプションを生成するための生成器を学習する。
具体的には、学習部30は、訓練データ集合に含まれる表のそれぞれについて、表符号化部28の出力した表符号化ベクトルhtabを基に、キャプションの生成を行う。まず、正解キャプションを、形態素解析を用いてトークンwの系列に分割する。得られた系列の先頭に’<cap>’、末尾に’</cap>’というトークンを追加する。
そして、学習部30は、hcapを表符号化部28の出力した表符号化ベクトルhtabとし、hcapでGRUの隠れベクトルhの初期値とし、トークン’<cap>’に対応する次元が1、他が0となるベクトルxを入力として、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。We、Wr、Ur、Wz、Uz、W、Uを表キャプション生成器のパラメータ行列とし、W.はNt×E次元のパラメータ行列となる。U.はNt×Nt次元のパラメータ行列となる。なお、Weについてはセル符号化部22と共通パラメータとする。
そして、学習部30は、更新された隠れベクトルhを入力として、以下の式(3)に従って、クラス分類(クラス数=K)を行って、次のトークンの予測値を出力する。
ここで、Wclsは2Nt×Cのサイズのパラメータ行列とし、softmaxはソフトマックス関数、yは次元数Kのベクトルである。
また、学習部30は、該表の正解キャプションの次のトークンに対応する次元が1、他が0となるベクトルxを入力とし、更新された隠れベクトルhを用いて、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。
正解キャプションの最後のトークン’</cap>’まで、上記の処理を繰り返す。
また、学習部30は、該表の正解キャプションのトークンt(t=1,…Kのとき、tの値とトークンが対応する。例えば、t=1はトークン’今日’に対応する)の各々について、当該トークンtに対応するベクトルxを用いて上記式(3)で計算されたトークンの予測値yのうち、トークンtに対応する要素ytから、式(4)のクロスエントロピー関数により損失Lを計算する。
そして、学習部30は、訓練データ集合に含まれる表のそれぞれの正解キャプションの各トークンtについて上記式(4)により求めたトークンの予測値に対する損失Lについて確率的勾配降下法によりセル符号化部22、行符号化部24、列符号化部26、表符号化部28、及び生成器の行方向、列方向の各パラメータ行列について最適化を行う。なお、本発明は最適化の方法には依存しておらず、他のニューラルネットのパラメータに対する他の最適化法を利用しても良い。
図2に、セル・行・表の符号化ベクトルの例を示す。この例ではセル符号化部22はセルc3,1に記載の”<td>1000</td>”というHTMLテキストから<td>, 1000, </td>というトークン系列を抽出し、GRUによりセルベクトルh3,1に符号化する。次に、行符号化部24は各行のセルの並びを行ベクトルに符号化する。この例では、3行目のセルベクトルの系列をGRUにより符号化し、行ベクトルh3を獲得する。そして、表符号化部28が行の系列をGRUにより符号化し表ベクトルhrowを求める。同様にhcolを列の系列から求め、[hrow; hcol]の連結ベクトルを表符号化部28の出力とする。
図3に表キャプション生成の例を示す。表符号化ベクトルの出力をGRUの隠れベクトルhの初期値として、キャプションの次のトークンを予測する。
<本発明の実施の形態に係る表キャプション生成装置の構成>
次に、本発明の実施の形態に係る表キャプション生成装置の構成について説明する。図4に示すように、本実施の形態に係る表キャプション生成装置150は、CPUと、RAMと、後述する表キャプション生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表キャプション生成装置150は、機能的には図4に示すように入力部60と、演算部70と、出力部90とを含んで構成されている。
入力部60は、キャプション生成対象となる表形式データを受け付ける。
演算部70は、図4に示すように、セル符号化部72、行符号化部74、列符号化部76、表符号化部78、及び表キャプション生成部80を備えて構成されている。
セル符号化部72は、入力された表形式データについて、セル符号化部22と同様に、表の各セルに対して、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルhi,jに符号化する。ここで、連続値の符号化ベクトルhi,jへの変換で用いられるパラメータ行列は、表キャプション生成器学習装置100で最適化されたものである。
行符号化部74は、入力された表形式データについて、行符号化部24と同様に、表の各行に対し、セル符号化部72が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルhiに符号化する。ここで、各行の符号化ベクトルhiへの変換で用いられるパラメータ行列は、表キャプション生成器学習装置100で最適化されたものである。
列符号化部76は、入力された表形式データについて、列符号化部26と同様に、表の各列に対し、セル符号化部72が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルhjに符号化する。ここで、各列の符号化ベクトルhjへの変換で用いるパラメータ行列は、表キャプション生成器学習装置100で最適化されたものである。
表符号化部78は、入力された表形式データについて、表符号化部28と同様に、行符号化部74および列符号化部76が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルhtabに符号化する。ここで、連続値の符号化ベクトルhrowへの変換、及び連続値の符号化ベクトルhrowへの変換で用いるパラメータ行列は、表キャプション生成器学習装置100で最適化されたものである。
表キャプション生成部80は、入力された表形式データについて、学習部30と同様に、表符号化部78が出力した連続値ベクトルと、表キャプション生成器学習装置100でパラメータ行列が最適化された生成器とに基づいて、表形式データの表のキャプションを生成する。トークンの予測で用いるパラメータ行列は、表キャプション生成器学習装置100で最適化されたものである。
具体的には、表キャプション生成部80は、入力された表形式データについて、学習部30と同様に、表符号化部78の出力した表符号化ベクトルhtabをGRUの隠れベクトルhの初期値とし、トークン’<cap>’に対応する次元が1,他が0となるベクトルxを入力として、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。
また、表キャプション生成部80は、学習部30と同様に、GRUの隠れベクトルhより、上記式(3)に従って、次トークンの予測値yを出力する。予測値yのうち、最も値の大きい次元に相当する予測トークンynを出力する。
表キャプション生成部80は、トークンynに対応する次元が1、他が0となるベクトルxを入力とし、更新された隠れベクトルhを用いて、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。
予測トークンとして’</cap>’が出力されるまで、上記の処理を繰り返す。
表キャプション生成部80は、上記の処理で出力された予測トークンのうち、</cap>を除くトークンを出力順に連結して、表のキャプションを生成し、出力部90により出力する。
<本発明の実施形態に係る表キャプション生成器学習装置の作用>
次に、本発明の実施形態に係る表キャプション生成器学習装置100の作用について説明する。表キャプション生成器学習装置100は、入力部10によって、訓練データ集合を受け付けると、表キャプション生成器学習装置100によって、図5に示す表キャプション生成器学習処理ルーチンが実行される。
まず、ステップS100で、入力された訓練データ集合に含まれる表形式データの各々について、表の各セルに対し、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。
ステップS102では、入力された訓練データ集合に含まれる表形式データの各々について、表の各行に対し、上記ステップS100で得られた、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。
また、訓練データ集合に含まれる表形式データの各々について、表の各列に対し、上記ステップS100で得られた、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。
ステップS104では、訓練データ集合に含まれる表形式データの各々について、上記ステップS102で得られた各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。
ステップS106では、訓練データ集合に含まれる表形式データのそれぞれについて、上記ステップS104で得られた表符号化ベクトルを基に、キャプションの各トークンの予測を行う。
そして、ステップS108では、訓練データ集合に含まれる表のそれぞれに対し、該表の正解キャプションの各トークンと、該表に対する各トークンの予測におけるクラス分類の出力yとを用いて、正解キャプションの各トークンtについて、各トークンの予測毎に、上記式(4)のクロスエントロピー関数により損失Lを計算する。そして、計算された損失Lについて確率的勾配降下法によりセル符号化部22、行符号化部24、列符号化部26、表符号化部28、及び生成器の行方向、列方向の各パラメータ行列について最適化を行い、出力部40により出力し、表キャプション生成器学習処理ルーチンを終了する。
<本発明の実施形態に係る表キャプション生成装置の作用>
次に、本発明の実施形態に係る表キャプション生成装置150の作用について説明する。表キャプション生成装置150は、入力部60によって、表形式データを受け付けると、表キャプション生成装置150によって、図6に示す表キャプション生成処理ルーチンが実行される。
まず、ステップS150で、入力された表形式データについて、表の各セルに対し、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。
ステップS152では、入力された表形式データについて、表の各行に対し、上記ステップS150で得られた、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。
また、入力された表形式データについて、表の各列に対し、上記ステップS150で得られた、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。
ステップS154では、入力された表形式データについて、上記ステップS152で得られた各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。
ステップS156では、入力された表形式データについて、上記ステップS154で得られた表符号化ベクトルを基に、キャプションの各トークンの予測を行い、各トークンを連結して、表のキャプションとして、出力部90により出力し、表キャプション生成処理ルーチンを終了する。
上記ステップS156は、図7に示す処理ルーチンにより実現される。
ステップS160では、上記ステップS154で得られた表符号化ベクトルhtabをGRUの隠れベクトルhの初期値とし、トークン’<cap>’に対応する次元が1,他が0となるベクトルxを入力として、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。
ステップS162では、GRUの隠れベクトルhより、次トークンの予測値yを出力する。また、予測値yのうち、最も値の大きい次元に相当する予測トークンynを出力する。
そして、ステップS164では、予測トークンynに対応する次元が1、他が0となるベクトルxを入力とし、更新された隠れベクトルhを用いて、上記式(1)、(2)によりGRUの隠れベクトルhを更新する。
ステップS166では、上記ステップS162で予測トークンとして’</cap>’が出力されたか否かを判定し、予測トークンとして’</cap>’が出力されていない場合には、上記ステップS162へ戻る。一方、予測トークンとして’</cap>’が出力された場合には、繰り返しを終了すると判断し、ステップS168へ進む。
ステップS168では、上記ステップS162で出力された予測トークンのうち、</cap>を除くトークンを出力順に連結して、表のキャプションを生成し、出力部90により出力して、処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る表キャプション生成装置によれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの内容に適合した表のキャプションを精度よく生成することができる。
また、本発明の実施の形態に係る表キャプション生成器学習装置によれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類するための表キャプション生成器を学習することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表のキャプションを精度よく生成することができる生成器を学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、表キャプション生成器学習装置と表キャプション生成装置とを別々に設ける場合を例に説明したが、表キャプション生成器学習装置と表キャプション生成装置とを、1つの装置で実現するようにしてもよい。
本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
本発明は、表キャプションを自動生成することで精度を向上可能な表形式データの情報検索などに利用可能である。
10、60 入力部
20、70 演算部
22、72 セル符号化部
24、74 行符号化部
26、76 列符号化部
28、78 表符号化部
30 学習部
40、90 出力部
80 表キャプション生成部
100 表キャプション生成器学習装置
150 表キャプション生成装置

Claims (7)

  1. セルの行列として記述された表形式データと表のキャプションを表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表のキャプションを生成するための生成器を学習する学習部と、
    を有することを特徴とする表キャプション生成器学習装置。
  2. セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、
    前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、
    前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、
    前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、
    前記表符号化部が出力した連続値ベクトルと、表形式データの表のキャプションを生成するための予め学習された生成器とに基づいて、前記表形式データの表のキャプションを生成する表キャプション生成部と、
    を有することを特徴とする表キャプション生成装置。
  3. 前記表キャプション生成部は、前記表符号化部が出力した連続値ベクトルと、表のキャプションの初期トークンとを入力として、前記生成器により、次のトークンを予測すると共に、前記連続値ベクトルを更新し、
    前記更新された連続値ベクトルと、前記予測されたトークンとを入力として、前記生成器により、次のトークンを予測すると共に、前記連続値ベクトルを更新することを繰り返し、
    前記予測されたトークンの系列を、前記表形式データの表のキャプションとして生成する請求項2記載の表キャプション生成装置。
  4. セル符号化部が、セルの行列として記述された表形式データと表のキャプションを表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、
    行符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、
    列符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、
    表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、
    学習部が、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表のキャプションを生成するための生成器を学習する
    ことを特徴とする表キャプション生成器学習方法。
  5. セル符号化部が、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、
    行符号化部が、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、
    列符号化部が、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、
    表符号化部が、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、
    表キャプション生成部が、前記表符号化部が出力した連続値ベクトルと、表形式データの表のキャプションを生成するための予め学習された生成器とに基づいて、前記表形式データの表のキャプションを生成する
    ことを特徴とする表キャプション生成方法。
  6. 前記表キャプション生成部によって生成することでは、前記表符号化部が出力した連続値ベクトルと、表のキャプションの初期トークンとを入力として、前記生成器により、次のトークンを予測すると共に、前記連続値ベクトルを更新し、
    前記更新された連続値ベクトルと、前記予測されたトークンとを入力として、前記生成器により、次のトークンを予測すると共に、前記連続値ベクトルを更新することを繰り返し、
    前記予測されたトークンの系列を、前記表形式データの表のキャプションとして生成する請求項5記載の表キャプション生成方法。
  7. コンピュータを、請求項1に記載の表キャプション生成器学習装置、又は請求項2若しくは請求項3に記載の表キャプション生成装置の各部として機能させるためのプログラム。
JP2016182058A 2016-09-16 2016-09-16 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム Active JP6611355B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016182058A JP6611355B2 (ja) 2016-09-16 2016-09-16 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016182058A JP6611355B2 (ja) 2016-09-16 2016-09-16 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018045625A true JP2018045625A (ja) 2018-03-22
JP6611355B2 JP6611355B2 (ja) 2019-11-27

Family

ID=61693222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016182058A Active JP6611355B2 (ja) 2016-09-16 2016-09-16 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6611355B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334369A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
WO2018025706A1 (ja) * 2016-08-05 2018-02-08 日本電気株式会社 テーブル意味推定システム、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334369A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
WO2018025706A1 (ja) * 2016-08-05 2018-02-08 日本電気株式会社 テーブル意味推定システム、方法およびプログラム

Also Published As

Publication number Publication date
JP6611355B2 (ja) 2019-11-27

Similar Documents

Publication Publication Date Title
Tallec et al. Can recurrent neural networks warp time?
Nwankpa et al. Activation functions: Comparison of trends in practice and research for deep learning
Tran et al. Deep logic networks: Inserting and extracting knowledge from deep belief networks
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN110598779B (zh) 摘要描述生成方法、装置、计算机设备和存储介质
CN110929665B (zh) 一种自然场景曲线文本检测方法
Rani et al. Deformed character recognition using convolutional neural networks
KR20180038937A (ko) 시각 문답을 위한 시스템 및 방법
CN111259666A (zh) 一种结合多头自注意力机制的cnn文本分类方法
WO2021196954A1 (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN112699222B (zh) 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN112819171B (zh) 一种基于表函数的数据搜索方法、系统及计算机存储介质
CN111831783B (zh) 一种篇章级关系抽取方法
CN112131886A (zh) 一种文本的方面级别情感分析方法
CN111354333A (zh) 一种基于自注意力的汉语韵律层级预测方法及系统
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
Luhman et al. Diffusion models for handwriting generation
Wang et al. A new delay connection for long short-term memory networks
JP2023007432A (ja) コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置
CN111782928A (zh) 信息推送方法、装置和计算机可读存储介质
JP6611355B2 (ja) 表キャプション生成器学習装置、表キャプション生成装置、方法、及びプログラム
CN111161266A (zh) 一种基于矢量量化的变分自编码机的多风格字体生成方法
JP6517773B2 (ja) 分類器学習装置、表種類分類装置、方法、及びプログラム
Ali et al. High Accuracy Arabic Handwritten Characters Recognition Using Error Back Propagation Artificial Neural Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191028

R150 Certificate of patent or registration of utility model

Ref document number: 6611355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150