JP2018077586A - 分類器学習装置、表種類分類装置、方法、及びプログラム - Google Patents

分類器学習装置、表種類分類装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018077586A
JP2018077586A JP2016217528A JP2016217528A JP2018077586A JP 2018077586 A JP2018077586 A JP 2018077586A JP 2016217528 A JP2016217528 A JP 2016217528A JP 2016217528 A JP2016217528 A JP 2016217528A JP 2018077586 A JP2018077586 A JP 2018077586A
Authority
JP
Japan
Prior art keywords
cell
token
vector
encoded
encoding unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016217528A
Other languages
English (en)
Other versions
JP6517773B2 (ja
Inventor
京介 西田
Kyosuke Nishida
京介 西田
九月 貞光
Kugatsu Sadamitsu
九月 貞光
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016217528A priority Critical patent/JP6517773B2/ja
Publication of JP2018077586A publication Critical patent/JP2018077586A/ja
Application granted granted Critical
Publication of JP6517773B2 publication Critical patent/JP6517773B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】セルの意味を考慮して精度良く表を分類する分類器学習装置、表種類分類装置、分類器学習方法、表種類分類方法及びプログラムを提供する。【解決手段】表種類分類装置150は、セルの行列として記述された表形式データの各々について、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成するトークン系列生成部72と、生成されたトークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成するトークン符号化部74と、符号化された符号化トークン系列をH次元のセルベクトルに符号化するセル符号化部76と、符号化されたセルベクトルから得られる3次元テンソルデータを符号化する表符号化部78と、表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、表形式データの表の種類を分類する表種類分類部80と、を含む。【選択図】図2

Description

本発明は、表形式データの表種類を分類するための分類器学習装置、表種類分類装置、方法、及びプログラムに関するものである。
コンピュータ技術の発展により、Web上のHTMLで記述された表データや、表計算ソフトウェアなどで作成されたスプレッドシート上の表データは大量に存在するようになった。表データには、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表など幾つかの種類が存在する。この表タイプを正しく理解することができれば、情報検索や質問応答など幅広いサービスに応用可能な知識が獲得できる。
Crestan, Eric and Patrick Pantel (2011). "Web-scale Table Census and Classification". In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining. ACM, pp. 545-554.
表タイプを分類するための従来手法として、非特許文献1などがこれまで提案されている。
これらの従来手法は、表内のセルに記載されたテキスト情報について、テキストの長さ、テキストのタイプ(数値、日付、金額など)、テキストのパターン(特定の記号を含む)などの素性を利用しているが、セルの中に記載されたテキストの意味について考慮していない。
本発明は、上記従来技術の問題点に鑑みて成されたものであり、入力された表データの先頭N行および先頭M列から、各セルの意味ベクトルを、セル記載のテキストを構成するトークン系列から符号化して獲得し、符号化されたセルの集合を画像と同様のデータ形式を持つとみなしてさらに符号化することで、精度良く表を分類することができる分類器学習装置、表種類分類装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る分類器学習装置は、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成するトークン系列生成部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成するトークン符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化するセル符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する表符号化部と、前記訓練データ集合に含まれる表形式データの各々についての、前記表符号化部が出力した表符号化ベクトルと、前記正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習する学習部と、を有する。
本発明に係る表種類分類装置は、セルの行列として記述された表形式データについて、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成するトークン系列生成部と、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成するトークン符号化部と、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化するセル符号化部と、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する表符号化部と、前記表符号化部が出力した表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する表種類分類部と、を有する。
本発明に係る分類器学習方法は、トークン系列生成部が、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成し、トークン符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成し、セル符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化し、表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力し、学習部が、前記訓練データ集合に含まれる表形式データの各々についての、前記表符号化部が出力した表符号化ベクトルと、前記正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習する。
本発明に係る表種類分類方法は、トークン系列生成部が、セルの行列として記述された表形式データについて、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成し、トークン符号化部が、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成し、セル符号化部が、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化し、表符号化部が、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力し、表種類分類部が、前記表符号化部が出力した表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する。
本発明に係るプログラムは、コンピュータを、請求項1に記載の分類器学習装置、又は請求項2に記載の表種類分類装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の分類器学習装置、方法、及びプログラムによれば、セルに記載されたテキスト情報に基づいてトークン系列を生成し、生成されたトークン系列を符号化した符号化トークン系列をセルベクトルに符号化し、符号化されたセルベクトルから得られる3次元テンソルデータを符号化し、符号化された表符号化ベクトルに基づいて分類した表種類と、正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習することにより、各セルの意味を考慮して精度良く表を分類する分類器を学習することができる、という効果が得られる。
また、本発明の表種類分類装置、方法、及びプログラムによれば、セルに記載されたテキスト情報に基づいてトークン系列を生成し、生成されたトークン系列を符号化した符号化トークン系列をセルベクトルに符号化し、符号化されたセルベクトルから得られる3次元テンソルデータを符号化し、符号化された表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、表形式データの表の種類を分類することにより、各セルの意味を考慮して精度良く表を分類することができる、という効果が得られる。
本発明の実施形態に係る分類器学習装置の機能的構成を示すブロック図である。 本発明の実施形態に係る表種類分類装置の機能的構成を示すブロック図である。 表形式データの表種類を分類する処理の概念図である。 本発明の実施形態に係る分類器学習装置における分類器学習処理ルーチンのフローチャート図である。 本発明の実施形態に係る表種類分類装置における表種類分類処理ルーチンのフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の実施の形態に係る分類器学習装置の構成>
次に、本発明の実施の形態に係る分類器学習装置の構成について説明する。図1に示すように、本実施の形態に係る分類器学習装置100は、CPUと、RAMと、後述する分類器学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この分類器学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを含んで構成されている。
入力部10は、表形式データと表種類を表す正解ラベルとの組の集合である訓練データ集合を受け付ける。
表形式データは、行列形式のセルの集合であり、各セルはHTMLを含まないプレーンテキスト情報、あるいは、HTMLタグを含むテキスト情報が与えられる
表種類は、例えば、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表などである。
演算部20は、図1に示すように、トークン系列生成部22、トークン符号化部24、セル符号化部26、表符号化部28、及び学習部30を備えて構成されている。
トークン系列生成部22は、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる表形式データの各々について、表の各セルに対し、セルに記載されたテキスト情報に基づいてトークン系列を生成する。
具体的には、トークン系列生成部22は、訓練データ集合の表の各々に関して、前記表の先頭N行および先頭M列に含まれるすべてのセルci,j(行番号i,列番号j)に記載されたテキスト情報を形態素解析により単語およびHTMLタグ(トークンと呼ぶ)の系列に分割する。たとえば、プレーンテキストとして「月額費用」を受け取った場合「月額」「費用」というトークン系列に分割する。また、HTMLテキストとして「<th><b>月額</b>費用</th>」を受け取った場合、HTMLタグごとに分割し、タグ内のテキストについて形態素解析することで「<th>」「<b>」「月額」「</b>」「費用」「</th>」のように分割する。なお、テキスト情報を文字ごとに分割して1文字をトークンとしてもよい。また、N×Mより小さい表が入力として与えられた場合は、空のトークン系列が出力されるものとする。
トークン系列生成部22は、セルごとに、生成されたトークンの個数がT個より多い場合は、先頭からT個のトークンのみを出力する。また、T個よりも少ない場合は、「PAD」という特殊文字を系列の末尾に追加して出力する。
トークン符号化部24は、訓練データ集合に含まれる表形式データの各々について、表の各セルに対し、トークン系列生成部22により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成する。
具体的には、トークン符号化部24は、トークン系列生成部22が各セルに対して出力したトークン系列に含まれるそれぞれのトークンxについて、E次元ベクトルeに変換する。
ここで、Weはトークン符号化部24のモデルパラメータである。トークンの種類をK種類としたとき、xはK次元の1−of−Kベクトル(トークンに対応する部分のみ1、他は0)となる。WeはE×K次元のパラメータ行列となる。トークンxが未知語あるいは「PAD」の場合、eは零ベクトルとなる。
セル符号化部26は、訓練データ集合に含まれる表形式データの各々について、トークン符号化部24により符号化された符号化トークン系列をセルベクトルに符号化する。
具体的には、セル符号化部26は、トークン符号化部24が出力した各セルの符号化トークン系列(e1,e2,・・・,eT)をH次元のセルベクトルhに変換する。
系列データの符号化には、非特許文献2に示すLSTMや、非特許文献3に示すGRU等の再帰型ニューラルネットワーク(RNN)が利用可能である。
[非特許文献2]:S Hochreiter, J Schmidhuber. Long short-term memory. Neural computation 9 (8), 1735-1780, 1997.
[非特許文献3]:K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259, 2014.
GRUを利用する場合、トークンxが与えられるたびにセルベクトルhを下記の計算により更新する。
ここで、σはシグモイド関数、

は行列の要素ごとの積を意味する。We、Wr、Ur、Wz、Uz、W、Uはセル符号化部26のモデルパラメータである。W.はH×E次元のパラメータ行列となる。U.はH×H次元のパラメータ行列となる。hの初期値はH次元の零ベクトルである。
なお、式(2)のGRUの代わりにLSTMを利用してセルベクトルhを出力しても良い。また、トークン系列を逆順にして同様にセルベクトルhを出力しても良い。
セル符号化部26がすべてのセル(N×M個)に対してH次元のセルベクトルを出力した結果、1つの表形式データはN×M×Hの3次元のテンソルデータに変換され、画像データ(高さ×幅×深さの次元数)と同じ構造を持つ。このように、表内の各セルのトークン系列をRNNにより意味ベクトルに変換することにより、画像データと同じ構造を持つN×M×H次元のテンソルデータが得られる。
表符号化部28は、訓練データ集合に含まれる表形式データの各々について、セル符号化部26により各セルについて符号化されたセルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する。
具体的には、表符号化部28は、セル符号化部26が出力したN×M×Hの3次元のテンソルデータを入力して、N2×M2×Fの3次元のテンソルデータに変換する。そして、N2×M2×Fの3次元のテンソルデータを1次元の表符号化ベクトルh(ベクトル長=N2×M2×F)に変換する。
N×M×Hの3次元のテンソルデータから、N2×M2×Fの3次元のテンソルデータに符号化する方法としては、非特許文献4に示す畳み込みニューラルネットワーク(CNN)が利用可能である。
本実施形態におけるCNNは、F個の3×3の畳み込みフィルタ(ストライドパラメータ値=1、パディングパラメータ値=1)を持つ畳み込み層を7層重ねたネットワークから構築され、各フィルタのパラメータ数は、1層目が9H個、2層目以降が9F個である。プーリング関数は利用せず、活性化関数にはReLUを用いる。このとき、N2=N、M2=Mとなる。
[非特許文献4]:Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proc. of the IEEE, pages 2278-2324,1998.
学習部30は、訓練データ集合に含まれる表形式データの各々についての、表符号化部28が出力した表符号化ベクトルと、正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習する。
具体的には、学習部30は、訓練データ集合に含まれる表形式データの各々について表符号化部28が出力した、N2×M2×Fの3次元のテンソルデータを1次元かつ長さがN2×M2×Fのベクトルとして扱った表符号化ベクトルhを入力として、表種類のクラス分類(クラス数=C)を行う。
具体的には、学習部30は、訓練データ集合に含まれる表のそれぞれについて、表符号化部28が出力した表符号化ベクトルhを入力として、以下の式(3)に従って、表種類のクラス分類(クラス数=C)を行う。
ここで、WclsはF×Cのサイズのパラメータ行列とし、softmaxはソフトマックス関数、yは次元数Cのベクトルである。なお、本実施形態では、C=6とし、横方向リスト型、縦方向リスト型、横方向属性型、縦方向属性型、行列型、その他、の6種類のクラスとする。
そして、学習部30は、訓練データ集合に含まれる表のそれぞれについて、前記表の正解クラスt(t=1,…Cのとき、それぞれ横方向リスト型、縦方向リスト型、横方向属性型、縦方向属性型、行列型、その他を意味する)と、前記表に対するクラス分類の出力yとを用いて、式(4)のクロスエントロピー関数により損失Lを計算する。
そして、学習部30は、上記式(4)により求めた各表に対する損失Lについて確率的勾配降下法によりトークン符号化部24、セル符号化部26、表符号化部28の各パラメータ行列について最適化を行う。なお、本発明は最適化の方法には依存しておらず、他のニューラルネットのパラメータに対する他の最適化法を利用しても良い。
<本発明の実施の形態に係る表種類分類装置の構成>
次に、本発明の実施の形態に係る表種類分類装置の構成について説明する。図2に示すように、本実施の形態に係る表種類分類装置150は、CPUと、RAMと、後述する表種類分類処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表種類分類装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを含んで構成されている。
入力部60は、分類対象となる表形式データであるテストデータを受け付ける。
演算部70は、図2に示すように、トークン系列生成部72、トークン符号化部74、セル符号化部76、表符号化部78、及び表種類分類部80を備えて構成されている。
ここで、トークン符号化部74、セル符号化部76、及び表符号化部78は、図1の分類器学習装置100により学習されたものである。
トークン系列生成部72は、入力された表形式データについて、表の各セルに対し、トークン系列生成部22と同様に、表の先頭N行および先頭M列に含まれるすべてのセルci,j(行番号i,列番号j)に記載されたテキスト情報を形態素解析により単語およびHTMLタグの系列に分割する。
トークン符号化部74は、入力された表形式データについて、表の各セルに対し、トークン符号化部24と同様に、トークン系列生成部72が各セルに対して出力したトークン系列に含まれるそれぞれのトークンxについて、E次元ベクトルeに変換する。ここで、E次元ベクトルeへの変換で用いられるパラメータ行列は、分類器学習装置100で最適化されたものである。
セル符号化部76は、入力された表形式データについて、表の各セルに対し、セル符号化部26と同様に、トークン符号化部74が出力した各セルの符号化トークン系列(e1,e2,・・・,eT)をH次元のセルベクトルhに変換する。ここで、H次元のセルベクトルhへの変換で用いるパラメータ行列は、分類器学習装置100で最適化されたものである。
表符号化部78は、入力された表形式データについて、表符号化部28と同様に、セル符号化部26により各セルについて符号化されたセルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する。すなわち、セル符号化部76が出力したN×M×Hの3次元のテンソルを入力して、N2×M2×Fの3次元のテンソルに変換する。ここで、N2×M2×Fの3次元のテンソルへの変換で用いるパラメータ行列は、分類器学習装置100で最適化されたものである。
表種類分類部80は、入力された表形式データについて、学習部30と同様に、表符号化部78の出力した、N2×M2×Fの3次元のテンソルデータを1次元かつ長さがN2×M2×Fのベクトルとして扱った表符号化ベクトルhを入力として、上記式(3)に従って、表種類のクラス分類(クラス数=C)を行う。
図3には、入力された表形式データの表種類を分類する処理の概念図を示した。図3に示すように、表形式データ50で表される表の各セルのテキスト情報から生成したトークン系列を符号化し、符号化した符号化トークン系列をRNNにより意味ベクトルに変換し、画像データと同じ構造を持つ3次元テンソルデータ52を得る。次に、3次元テンソルデータ52をCNNにより畳み込み符号化することで表符号化ベクトル54を生成する。そして、表符号化ベクトル54に基づいて、表種類のクラス分類を行う。
<本発明の実施形態に係る分類器学習装置の作用>
次に、本発明の実施形態に係る分類器学習装置100の作用について説明する。分類器学習装置100は、入力部10によって、訓練データ集合を受け付けると、分類器学習装置100によって、図4に示す分類器学習処理ルーチンが実行される。
まず、ステップS100で、トークン系列生成部22が、訓練データ集合の表の各々に関して、前記表に含まれるすべてのセルに記載されたテキスト情報を形態素解析によりトークンの系列に分割する。
ステップS102では、トークン符号化部24が、トークン系列生成部22が各セルに対して出力したトークン系列に含まれるそれぞれのトークンxについて、E次元ベクトルeに変換する。
ステップS104では、セル符号化部26が、トークン符号化部24が出力した各セルの符号化トークン系列をH次元のセルベクトルhに変換する。
ステップS106では、表符号化部28が、セル符号化部26が出力したN×M×Hの3次元のテンソルをデータを入力して、N2×M2×Fの3次元のテンソルデータに変換し、これをCNNを用いて1次元の表符号化ベクトルhに符号化する。
ステップS108では、学習部30が、訓練データ集合に含まれる表形式データの各々について表符号化部28が出力した表符号化ベクトルhを入力として、上記(3)式に従って、表種類のクラス分類(クラス数=C)を行う。
ステップS110では、学習部30が、訓練データ集合に含まれる表のそれぞれについて、前記表の正解クラスと、前記表に対するステップS108によるクラス分類の出力yとを用いて、式(4)のクロスエントロピー関数により損失Lを計算する。
ステップS112では、学習部30が、上記式(4)により求めた各表に対する損失Lについて確率的勾配降下法によりトークン符号化部24、セル符号化部26、表符号化部28の行方向、列方向の各パラメータ行列について最適化を行い、分類器学習処理ルーチンを終了する。
<本発明の実施形態に係る表種類分類装置の作用>
次に、本発明の実施形態に係る表種類分類装置150の作用について説明する。表種類分類装置150は、入力部60によって、表形式データを受け付けると、表種類分類装置150によって、図5に示す表種類分類処理ルーチンが実行される。
まず、ステップS150で、トークン系列生成部72が、入力されたテストデータである表形式データについて、表に含まれるすべてのセルに記載されたテキスト情報を形態素解析によりトークンの系列に分割する。
ステップS152では、トークン符号化部74が、ステップS150でトークン系列生成部72が各セルに対して出力したトークン系列に含まれるそれぞれのトークンxについて、E次元ベクトルeに変換する。
ステップS154では、セル符号化部76が、ステップS152でトークン符号化部74が出力した各セルの符号化トークン系列をH次元のセルベクトルhに変換する。
ステップS156では、表符号化部78が、ステップS154でセル符号化部76が出力したN×M×H次元のテンソルを入力して、N2×M2×F次元のテンソルに変換し、符号化する。
ステップS158では、表種類分類部80が、テストデータである表形式データの各々について表符号化部78が出力した表符号化ベクトルhを入力として、上記(3)式に従って、表種類のクラス分類(クラス数=C)を行い、出力部90により出力し、表種類分類処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る分類器学習装置によれば、セルに記載されたテキスト情報に基づいてトークン系列を生成し、生成されたトークン系列を符号化した符号化トークン系列をセルベクトルに符号化し、符号化されたセルベクトルから得られる3次元テンソルデータを符号化し、符号化された表符号化ベクトルに基づいて分類した表種類と、正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習することにより、各セルの意味を考慮して精度良く表を分類する分類器を学習することができる。
また、本発明の実施の形態に係る表種類分類装置によれば、セルに記載されたテキスト情報に基づいてトークン系列を生成し、生成されたトークン系列を符号化した符号化トークン系列をセルベクトルに符号化し、符号化されたセルベクトルから得られる3次元テンソルデータを符号化し、符号化された表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、表形式データの表の種類を分類することにより、各セルの意味を考慮して精度良く表を分類することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、分類器学習装置と表種類分類装置とを別々に設ける場合を例に説明したが、分類器学習装置と表種類分類装置とを、1つの装置で実現するようにしてもよい。
本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
本発明は、表種類を理解することで精度を向上可能な表形式データからの知識獲得および情報検索などに利用可能である。
10、60 入力部
20、70 演算部
22、72 セル符号化部
24、74 行符号化部
26、76 列符号化部
28、78 表符号化部
30 学習部
40、90 出力部
80 表種類分類部
100 分類器学習装置
150 表種類分類装置

Claims (5)

  1. セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成するトークン系列生成部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成するトークン符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化するセル符号化部と、
    前記訓練データ集合に含まれる前記表形式データの各々について、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する表符号化部と、
    前記訓練データ集合に含まれる表形式データの各々についての、前記表符号化部が出力した表符号化ベクトルと、前記正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習する学習部と、
    を有する分類器学習装置。
  2. セルの行列として記述された表形式データについて、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成するトークン系列生成部と、
    表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成するトークン符号化部と、
    表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化するセル符号化部と、
    前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力する表符号化部と、
    前記表符号化部が出力した表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する表種類分類部と、
    を有する表種類分類装置。
  3. トークン系列生成部が、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成し、
    トークン符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成し、
    セル符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化し、
    表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力し、
    学習部が、前記訓練データ集合に含まれる表形式データの各々についての、前記表符号化部が出力した表符号化ベクトルと、前記正解ラベルと、に基づいて、表形式データの表の種類を分類するための分類器を学習する
    分類器学習方法。
  4. トークン系列生成部が、セルの行列として記述された表形式データについて、表の各セルに対し、前記セルに記載されたテキスト情報に基づいてトークン系列を生成し、
    トークン符号化部が、表の各セルに対し、前記トークン系列生成部により生成された前記トークン系列に含まれる各トークンをベクトルに変換して符号化トークン系列を生成し、
    セル符号化部が、表の各セルに対し、前記トークン符号化部により符号化された前記符号化トークン系列をセルベクトルに符号化し、
    表符号化部が、前記セル符号化部により各セルについて符号化された前記セルベクトルから得られる3次元テンソルデータを符号化して表符号化ベクトルを出力し、
    表種類分類部が、前記表符号化部が出力した表符号化ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する
    表種類分類方法。
  5. コンピュータを、請求項1に記載の分類器学習装置、又は請求項2に記載の表種類分類装置の各部として機能させるためのプログラム。
JP2016217528A 2016-11-07 2016-11-07 分類器学習装置、表種類分類装置、方法、及びプログラム Active JP6517773B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016217528A JP6517773B2 (ja) 2016-11-07 2016-11-07 分類器学習装置、表種類分類装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016217528A JP6517773B2 (ja) 2016-11-07 2016-11-07 分類器学習装置、表種類分類装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018077586A true JP2018077586A (ja) 2018-05-17
JP6517773B2 JP6517773B2 (ja) 2019-05-22

Family

ID=62150779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016217528A Active JP6517773B2 (ja) 2016-11-07 2016-11-07 分類器学習装置、表種類分類装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6517773B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020261344A1 (ja) * 2019-06-24 2020-12-30
WO2024053101A1 (ja) * 2022-09-09 2024-03-14 富士通株式会社 学習プログラム、生成プログラム、学習方法および情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020261344A1 (ja) * 2019-06-24 2020-12-30
WO2020261344A1 (ja) * 2019-06-24 2020-12-30 日本電信電話株式会社 データ処理装置、データ処理方法及びデータ処理プログラム
WO2024053101A1 (ja) * 2022-09-09 2024-03-14 富士通株式会社 学習プログラム、生成プログラム、学習方法および情報処理装置

Also Published As

Publication number Publication date
JP6517773B2 (ja) 2019-05-22

Similar Documents

Publication Publication Date Title
Sadr et al. Multi-view deep network: a deep model based on learning features from heterogeneous neural networks for sentiment analysis
Lee et al. Variations of AlexNet and GoogLeNet to improve Korean character recognition performance.
CN107832458B (zh) 一种字符级的基于嵌套深度网络的文本分类方法
Rani et al. Deformed character recognition using convolutional neural networks
Tixier et al. Graph classification with 2d convolutional neural networks
Obaidullah et al. Numeral script identification from handwritten document images
Saha et al. Bangla handwritten digit recognition using an improved deep convolutional neural network architecture
Albattah et al. Intelligent arabic handwriting recognition using different standalone and hybrid CNN architectures
Du et al. Discriminative representation learning with supervised auto-encoder
Khayyat et al. A deep learning based prediction of arabic manuscripts handwriting style.
Chaudhary et al. Hindi handwritten character recognition using deep convolution neural network
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
Sadeghi et al. Learning representation hierarchies by sharing visual features: a computational investigation of Persian character recognition with unsupervised deep learning
JP6517773B2 (ja) 分類器学習装置、表種類分類装置、方法、及びプログラム
Gautam et al. Recognition of Brahmi words by using deep convolutional neural network
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
Hajihashemi et al. A pattern recognition based Holographic Graph Neuron for Persian alphabet recognition
Sevim et al. Document image classification with vision transformers
Sevim et al. Improving accuracy of document image classification through soft voting ensemble
Singh et al. An improved approach for Devanagari handwritten characters recognition system
Abbas et al. Feature extraction in six blocks to detect and recognize english numbers
JP6495212B2 (ja) 分類器学習装置、表種類分類装置、方法、及びプログラム
Tejashwini et al. Revolutionizing sentiment classification: A deep learning approach using self-attention based encoding–decoding transformers with feature fusion
Dey et al. Recognition of handwritten characters from Devanagari, Bangla, and Odia languages using transfer-learning-based VGG-16 networks
Inunganbi et al. Handwritten Character Recognition Using Directed Acyclic Graph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190418

R150 Certificate of patent or registration of utility model

Ref document number: 6517773

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150