JP6556658B2 - 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム - Google Patents

表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム Download PDF

Info

Publication number
JP6556658B2
JP6556658B2 JP2016093271A JP2016093271A JP6556658B2 JP 6556658 B2 JP6556658 B2 JP 6556658B2 JP 2016093271 A JP2016093271 A JP 2016093271A JP 2016093271 A JP2016093271 A JP 2016093271A JP 6556658 B2 JP6556658 B2 JP 6556658B2
Authority
JP
Japan
Prior art keywords
cell
motif
feature
tabular data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016093271A
Other languages
English (en)
Other versions
JP2017201483A (ja
Inventor
京介 西田
京介 西田
松尾 義博
義博 松尾
東中 竜一郎
竜一郎 東中
九月 貞光
九月 貞光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016093271A priority Critical patent/JP6556658B2/ja
Publication of JP2017201483A publication Critical patent/JP2017201483A/ja
Application granted granted Critical
Publication of JP6556658B2 publication Critical patent/JP6556658B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、表形式データの特徴を抽出する表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラムに関するものである。
コンピュータ技術の発展により、Web上のHTMLで記述された表データや、表計算ソフトウェアなどで作成されたスプレッドシート上の表データは大量に存在するようになった。表データには、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表など幾つかの種類が存在する。この表タイプを正しく理解することができれば、情報検索や質問応答など幅広いサービスに応用可能な知識が獲得できる。
Crestan, Eric and Patrick Pantel (2011). "Web-scale Table Census and Classification". In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining. ACM, pp. 545-554.
表タイプを分類するための従来手法には、非特許文献1などで提案されているように、表内の行数や列数,表内や行内のセル連結数、などの構造的特徴と、HTMLにおけるTHタグやコロン文字のなどの出現数に基づく内容的特徴とを「素性」として、正解の表タイプが存在する表データに基づいて機械学習による学習を行って表タイプ分類器を作成する手法が一般的であった。
これらの従来手法が利用する素性は、表単位、あるいは、行単位および列単位のデータから計算されている。このような素性は、行数および列数が多い場合には有効な情報になるが、行数および列数が少ない場合には分類精度を悪化させる一因となる。その一方で、表を構成する最小の単位はセルであり、n個のセル(具体的に、2〜4個程度)から抽出可能で、かつ、分類精度の向上に大きく寄与する素性は重要であるが、このような有効な素性はこれまで利用されていない。
本発明では、上記事情を鑑みて成されたものであり、表形式データから、表種類の分類精度を向上可能な素性を抽出することができる表モチーフ抽出装置、方法、及びプログラムを提供することを目的とする。
また、精度よく表種類の分類をすることができる分類器学習装置、表種類分類装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る表モチーフ抽出装置は、表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置であって、入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出するn次隣接セル抽出部と、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与するセル識別子付与部と、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する表モチーフ出力部と、を含んで構成されている。
本発明に係る表モチーフ抽出方法は、表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置における表モチーフ抽出方法であって、n次隣接セル抽出部が、入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出し、セル識別子付与部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与し、表モチーフ出力部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する。
本発明に係る分類器学習装置は、表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、本発明の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する分類器学習部と、を含んで構成されている。
本発明に係る分類器学習方法は、素性抽出部が、表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、本発明の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、分類器学習部が、前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する。
本発明に係る表種類分類装置は、入力された表形式データについて、本発明の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する表種類分類部と、を含んで構成されている。
本発明に係る表種類分類方法は、素性抽出部が、入力された表形式データについて、本発明の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、表種類分類部が、前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する。
また、本発明のプログラムは、コンピュータを、上記の表モチーフ抽出装置、分類器学習装置、又は表種類分類装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の表モチーフ抽出装置、方法、及びプログラムによれば、表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出し、セル集合の各セルのセル識別子に基づき、セル集合の情報を表すモチーフ素性を出力することにより、表形式データから、表種類の分類精度を向上可能な素性を抽出することができる。
また、本発明の分類器学習装置、方法、及びプログラムによれば、表種類の分類精度を向上可能な分類器を学習することができる。
また、本発明の表種類分類装置、方法、及びプログラムによれば、精度よく表種類を分類することができる。
第1の実施形態に係る表モチーフ抽出装置の機能的構成を示すブロック図である。 表形式データの一例を示す図である。 表形式データの3次隣接セルからなるモチーフを説明するための図である。 第1の実施形態に係る表モチーフ抽出装置における表モチーフ抽出処理ルーチンのフローチャート図である。 モチーフ識別子を生成する処理の流れを示すフローチャート図である。 第2の実施形態に係る分類器学習装置の機能的構成を示すブロック図である。 素性抽出部の機能的構成を示すブロック図である。 第2の実施形態に係る表種類分類装置の機能的構成を示すブロック図である。 第2の実施形態に係る分類器学習装置における分類器学習処理ルーチンのフローチャート図である。 第2の実施形態に係る表種類分類装置における表種類分類処理ルーチンのフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の第1の実施の形態に係る表モチーフ抽出装置の構成>
次に、本発明の第1の実施の形態に係る表モチーフ抽出装置の構成について説明する。図1に示すように、本実施の形態に係る表モチーフ抽出装置100は、CPUと、RAMと、後述する表モチーフ抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表モチーフ抽出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。
入力部10は、表モチーフ抽出対象となる表形式データを受け付ける。
例えば、図2に示すように、表形式データは、セルの集合により構成され、各セルは、行番号、列番号、行サイズ、列サイズ、テキスト文字列、スタイルクラスから構成される。
例えば、HTML(tableタグ)で記述された表形式データの場合は、trタグの出現順により行番号が取得され、tdタグおよびthタグの出現順により列番号が取得される。セルの縦方向の連結を表す”rowspan”属性と、横方向の連結を表す”colspan”属性から行サイズ、列サイズが取得される。tdタグおよびthタグの子要素からテキスト文字列が取得される。スタイルクラスは、セルが所属するクラスであり、例えば、セルのタグ名であるtdあるいはthがスタイルクラスとして利用される。また、セルのフォント情報である「書式なし」「太字有」「斜体有」「太字・斜体有」などがスタイルクラスとして設定されていても良い。
演算部20は、図1に示すように、n次隣接セル抽出部22と、セル識別子付与部24と、表モチーフ出力部26とから構成され、表形式データから、表に含まれる隣接したn+1個のセル(nは自然数である)が有する情報の組の集合をモチーフ素性として抽出し、出力部90により出力する。
n次隣接セル抽出部22は、入力された表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出する。
具体的には、n次隣接セル抽出部22は、入力された表形式データ(行数N、列数M)に含まれる全てのセル(行番号i,列番号j)から、以下に説明するように、セル集合を抽出する。以下、行番号i、列番号jのセルをc(i,j)と示す。ここで、1次隣接は直接隣接するセルを、n次隣接は、あるセルのn-1次隣接セルに隣接するセルと定義する。
まず、n次隣接セル抽出部22は、パラメータnが与えられたとき、行サイズaと列サイズbに関して、a+b=nかつa≧0かつi+a≦Nかつb≧0かつj+b≦Mを満たす(a,b)の組の集合Xを列挙する。例えば、n=2のとき、X={(2,0),(1,1),(0,2)}である。
次に、n次隣接セル抽出部22は、集合Xに含まれる(a,b)の組のそれぞれに対して、垂直方向隣接セル集合H={c(i+1,j),…,c(i+a,j)}、水平方向隣接セル集合V={c(i,j+1),…,c(i,j+b)}を取得する。
図3にHとVの取得例を示す。c(i,j)=c(3,2)に関して、(a,b)=(1,1)の場合、H={c(4,2)}、V={c(3,3)}となる。同様に(a,b)=(2,0)の場合、H={(c(4,2),c(5,2))、Vは空集合となる。(a,b)=(0,2)の場合、Hは空集合、V={c(3,3),c(3,4)}となる。
n次隣接セル抽出部22は、集合Xに含まれる(a,b)の組のそれぞれに対して、c(i,j)およびHおよびVに含まれるセル集合をセル識別子付与部24に与える。
セル識別子付与部24は、表形式データに含まれるそれぞれのセルについてn次隣接セル抽出部22によって抽出したセル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与する。
セル識別子は、(セルのスタイルクラス)-(セルの行サイズ)-(セルの列サイズ)として定義する。図3の例において、セル(3,2)のスタイルクラスが’td’の場合、行サイズおよび列サイズはどちらも1なので、セル(3,2)のセル識別子は、「td-1-1」となる。また、セル(5,2)のスタイルクラスが’th’の場合、セル(3,2)のセル識別子は、「th-1-2」である。
また、セル識別子は、(セルのスタイルクラス)-(セルの文字列)-(セルの行サイズ)-(セルの列サイズ) として定義してもよい。図3の例において、セル(3,2)のスタイルクラスが’td’かつセル内に記載されるテキストが「規格」の場合、セル(3,2)のセル識別子は、「td-規格-1-1」となる。
表モチーフ出力部26は、表形式データに含まれるそれぞれのセルについてn次隣接セル抽出部22によって抽出したセル集合の各々について、該セル集合の各セルにセル識別子付与部24により付与されたセル識別子に基づき、該セル集合から構成されるモチーフのモチーフ識別子を出力する。
<本発明の第1の実施形態に係る表モチーフ抽出装置の作用>
次に、本発明の第1の実施形態に係る表モチーフ抽出装置100の作用について説明する。表モチーフ抽出装置100は、入力部10によって、表モチーフ抽出対象の表形式データを受け付けると、表モチーフ抽出装置100によって、図4に示す表モチーフ抽出処理ルーチンが実行される。
まず、ステップS100で、入力された表形式データ(行数N,列数M)に含まれる処理対象のセル(行番号i,列番号j)から、処理対象のセルにn次隣接するセルと、処理対象のセルとからなるセル集合を抽出する。具体的には、行サイズaと列サイズbに関して、a+b=nかつa≧0かつi+a≦Nかつb≧0かつj+b≦Mを満たす(a,b)の組の集合Xを列挙し、集合Xに含まれる(a,b)の組のそれぞれに対して、垂直方向隣接セル集合H={c(i+1,j),…,c(i+a,j)},水平方向隣接セル集合V={c(i,j+1),…,c(i,j+b)}を取得する。
次のステップS102で、上記ステップS100で処理対象のセルについて抽出したセル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与する。
そして、ステップS104では、上記ステップS100で処理対象のセルについて抽出したセル集合の各々について、上記ステップS102で付与されたセル識別子に基づいて、該セル集合から構成されるモチーフのモチーフ識別子を作成し、出力部90により出力する。
ステップS106では、表形式データの全てのセルについて、上記ステップS100〜ステップS104の処理を実行したか否かを判定し、上記ステップS100〜ステップS104の処理を実行していないセルが存在する場合には、上記ステップS100へ戻り、当該セルを、処理対象のセルとして、上記ステップS100〜ステップS104の処理を繰り返す。一方、表形式データの全てのセルについて、上記ステップS100〜ステップS104の処理を実行した場合には、表モチーフ抽出処理ルーチンを終了する。
上記の表モチーフ抽出処理ルーチンにより、入力された表形式データのモチーフ識別子の集合が、モチーフ素性として得られる。
上記ステップS104は、図5に示す処理ルーチンによって実現される。
ステップS110では、空のリストmを作成し、処理対象のセルc(i,j)のセル識別子を追加する。ステップS112では、リストmに文字列’H’を追加する。
そして、ステップS114では、処理対象のセル集合の垂直方向隣接セル集合Hに含まれる各セルについて、リストmに該セルのセル識別子を追加する。
ステップS116では、リストmに文字列’V’を追加する。ステップS118では、処理対象のセル集合の水平方向隣接セル集合Vに含まれる各セルについて、リストmに該セルのセル識別子を追加する。
そして、ステップS120で、リストmの要素を空文字列で連結し、処理対象のセル集合から構成される表モチーフのモチーフ識別子として、出力部90により出力する。
例えば、図3の例におけるセルc(3,2)およびH={c(3,3)}およびV={c(4,2)}のセル集合が与えられ、セルc(3,2)、セルc(3,3)、セルc(4,2)のセル識別子がそれぞれ「td-1-1」「td-1-1」「th-1-1」のとき、該セル集合から構成されるモチーフのモチーフ識別子は「td1-1Htd-1-1Vth-1-1」となる。
セルc(3,2)およびH={c(3,3),c(3,4)}およびV={ }のセル集合が与えられ、セルc(3,2)、セルc(3,3)、セルc(3,4)のセル識別子がそれぞれ「td-1-1」「td-1-1」「td-1-1」のとき、該セル集合から構成されるモチーフのモチーフ識別子は「td1-1Htd-1-1td-1-1V」となる。
ステップS122では、処理対象のセルについて抽出した全てのセル集合について、上記ステップS110〜ステップS118の処理を実行したか否かを判定し、上記ステップS110〜ステップS118の処理を実行していないセル集合が存在する場合には、上記ステップS110へ戻り、当該セル集合を、処理対象のセル集合として、上記ステップS110〜ステップS118の処理を繰り返す。一方、処理対象のセルについての全てのセル集合に対して、上記ステップS110〜ステップS118の処理を実行した場合には、処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る表モチーフ抽出装置によれば、表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出し、セル集合の各セルのセル識別子に基づき、セル集合からなるモチーフのモチーフ識別子を、モチーフ素性として出力することにより、表形式データから、表種類の分類精度を向上可能な素性を抽出することができる。
また、入力された表形式データから、少数のセルの隣接に関する情報を抽出できるので、表単位・行単位・列単位では捉えることが難しかった表の特徴を抽出することが可能になり、表種類の分類精度を高めることができる。
また、n次隣接セル(モチーフ)の構造(サイズ)および内容(タグ名、セル内文字列等)を素性化することで、表の詳細な特徴を獲得でき、表種類分類の精度を向上できる。
また、モチーフ素性として、多段ヘッダ(セルが連結されやすい)などの構造が抽出され、また、内容情報としてTD/TH以外にも、セル内の文字列を素性に組み込む事が可能である。
<第2の実施の形態>
次に、第2の実施の形態について説明する。第2の実施の形態では、表形式データの表種類を分類するための表種類分類装置及び分類器学習装置に本発明を適用した場合について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して、説明を省略する
<本発明の第2の実施の形態に係る分類器学習装置の構成>
次に、本発明の第2の実施の形態に係る分類器学習装置の構成について説明する。図6に示すように、本実施の形態に係る分類器学習装置200は、CPUと、RAMと、後述する分類器学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この分類器学習装置200は、機能的には図6に示すように入力部210と、演算部220と、出力部240とを含んで構成されている。
入力部210は、表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合を受け付ける。表種類は、例えば、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表などである。
演算部220は、図6に示すように、素性抽出部222及び分類器学習部224を備えて構成されている。
素性抽出部222は、訓練データ集合に含まれる表形式データの各々について、上記第1の実施の形態で説明したモチーフ識別子を含む、分類に利用する素性集合を抽出する。
素性抽出部222は、図7に示すように、通常素性抽出部230と、表モチーフ抽出部232とを備えている。
通常素性抽出部230は、訓練データ集合に含まれる表形式データの各々について、表形式データの特徴を表す通常素性を抽出する。通常素性としては非特許文献1などに記載された素性が利用可能である。
表モチーフ抽出部232は、訓練データ集合に含まれる表形式データの各々について、モチーフ識別子の集合を表すモチーフ素性を抽出する。表モチーフ抽出部232は、n次隣接セル抽出部22と、セル識別子付与部24と、表モチーフ出力部26とから構成されている。
分類器学習部224は、素性抽出部222により訓練データ集合に含まれる表形式データの各々について抽出された素性集合と、訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する。
具体的には、分類器学習部224は、素性抽出部222が抽出した通常素性およびモチーフ素性を含む素性集合を利用して、素性集合と正解ラベルの組について学習を行い、出力部240により、分類器を出力する。学習アルゴリズムには、サポートベクターマシンやランダムフォレスト法など任意の分類アルゴリズムが利用可能である。
<本発明の第2の実施の形態に係る表種類分類装置の構成>
次に、本発明の第2の実施の形態に係る表種類分類装置の構成について説明する。図8に示すように、本実施の形態に係る表種類分類装置250は、CPUと、RAMと、後述する表種類分類処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表種類分類装置250は、機能的には図8に示すように入力部260と、演算部270と、出力部280とを含んで構成されている。
入力部260は、分類対象となる表形式データを受け付ける。
演算部270は、図8に示すように、素性抽出部272及び表種類分類部274を備えて構成されている。
素性抽出部272は、入力された表形式データについて、上記第1の実施の形態で説明したモチーフ素性を含む、分類に利用する素性集合を抽出する。
素性抽出部272は、分類器学習装置200の素性抽出部222と同様に、通常素性抽出部230と、表モチーフ抽出部232とを備えている。
表種類分類部274は、素性抽出部272により抽出された素性集合と、分類器学習装置200により学習された表形式データの表種類を分類するための分類器とに基づいて、入力された表形式データの表種類を分類する。
<本発明の第2の実施形態に係る分類器学習装置の作用>
次に、本発明の第2の実施形態に係る分類器学習装置200の作用について説明する。分類器学習装置200は、入力部210によって、訓練データ集合を受け付けると、分類器学習装置200によって、図9に示す分類器学習処理ルーチンが実行される。
まず、ステップS200で、入力された訓練データ集合に含まれる表形式データの各々について、通常素性を抽出する。
ステップS202では、入力された訓練データ集合に含まれる表形式データの各々について、モチーフ素性を抽出する。
上記ステップS202は、訓練データ集合に含まれる表形式データの各々について、上記図4に示す表モチーフ抽出処理ルーチンと同様の処理を実行することにより、実現される。
ステップS204では、訓練データ集合に含まれる表形式データの各々について上記ステップS200、S202で抽出された通常素性及びモチーフ素性を含む素性集合と、訓練データ集合に含まれる正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習し、出力部240により出力し、分類器学習処理ルーチンを終了する。
<本発明の第2の実施形態に係る表種類分類装置の作用>
次に、本発明の第2の実施形態に係る表種類分類装置250の作用について説明する。表種類分類装置250は、入力部260によって、表形式データを受け付けると、表種類分類装置250によって、図10に示す表種類分類処理ルーチンが実行される。
まず、ステップS250で、入力された表形式データについて、通常素性を抽出する。
ステップS252では、入力された表形式データについて、モチーフ素性を抽出する。
上記ステップS252は、上記図4に示す表モチーフ抽出処理ルーチンと同様の処理を実行することにより、実現される。
ステップS254では、上記ステップS250、S252で抽出された通常素性及びモチーフ素性を含む素性集合と、分類器学習装置200によって学習された分類器とに基づいて、表形式データの表種類を分類し、出力部280により出力し、表種類分類処理ルーチンを終了する。
以上説明したように、第2の実施の形態に係る表種類分類装置によれば、表形式データに含まれる特徴的な素性であるモチーフ素性を抽出し、これを表形式データの種類の自動分類において分類の素性として利用することで表形式データの種類の分類精度を向上させることができる。
また、第2の実施の形態に係る分類器学習装置によれば、表形式データに含まれる特徴的な素性であるモチーフ素性を抽出し、これを表形式データの種類の自動分類において分類の素性として利用することで、表種類の分類精度を向上可能な分類器を学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、分類器学習装置と表種類分類装置とを別々に設ける場合を例に説明したが、分類器学習装置と表種類分類装置とを、1つの装置で実現するようにしてもよい。
本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
本発明は、表の特徴を表すモチーフを基に表の種類を自動的かつ高精度に理解することにより、表形式データからの知識獲得および情報検索などに利用可能である。
10、210、260 入力部
20、220、270 演算部
22 n次隣接セル抽出部
24 セル識別子付与部
26 表モチーフ出力部
90、240、280 出力部
100 表モチーフ抽出装置
200 分類器学習装置
222、272 素性抽出部
224 分類器学習部
230 通常素性抽出部
232 表モチーフ抽出部
250 表種類分類装置
274 表種類分類部

Claims (7)

  1. 表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置であって、
    入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出するn次隣接セル抽出部と、
    前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与するセル識別子付与部と、
    前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する表モチーフ出力部と、
    を有することを特徴とする表モチーフ抽出装置。
  2. 表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、請求項1記載の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、
    前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する分類器学習部と、
    を有することを特徴とする分類器学習装置。
  3. 入力された表形式データについて、請求項1に記載の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、
    前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する表種類分類部と、
    を有することを特徴とする表種類分類装置。
  4. 表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置における表モチーフ抽出方法であって、
    n次隣接セル抽出部が、入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出し、
    セル識別子付与部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与し、
    表モチーフ出力部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する
    ことを特徴とする表モチーフ抽出方法。
  5. 素性抽出部が、表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、請求項4に記載の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、
    分類器学習部が、前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する
    ことを特徴とする分類器学習方法。
  6. 素性抽出部が、入力された表形式データについて、請求項4に記載の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、
    表種類分類部が、前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する
    ことを特徴とする表種類分類方法。
  7. コンピュータを、請求項1に記載の表モチーフ抽出装置、請求項2に記載の分類器学習装置、又は請求項3記載の表種類分類装置の各部として機能させるためのプログラム。
JP2016093271A 2016-05-06 2016-05-06 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム Active JP6556658B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016093271A JP6556658B2 (ja) 2016-05-06 2016-05-06 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016093271A JP6556658B2 (ja) 2016-05-06 2016-05-06 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017201483A JP2017201483A (ja) 2017-11-09
JP6556658B2 true JP6556658B2 (ja) 2019-08-07

Family

ID=60265034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016093271A Active JP6556658B2 (ja) 2016-05-06 2016-05-06 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6556658B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN114662482A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 文本表格中答案文本的抽取方法及装置

Also Published As

Publication number Publication date
JP2017201483A (ja) 2017-11-09

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN106776538A (zh) 企业非标准格式文档的信息提取方法
JP2022541199A (ja) データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。
WO2017216980A1 (ja) 機械学習装置
CN111274239B (zh) 试卷结构化处理方法、装置和设备
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN107004141A (zh) 对大样本组的高效标注
CN108363701B (zh) 命名实体识别方法及系统
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN107590262A (zh) 大数据分析的半监督学习方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN103049581A (zh) 一种基于一致性聚类的Web文本分类方法
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
JP6556658B2 (ja) 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム
CN115374189A (zh) 基于区块链的食品安全溯源方法、装置及设备
CN106445914B (zh) 微博情感分类器的构建方法及构建装置
CN104573683A (zh) 字符串识别方法和装置
CN103218420B (zh) 一种网页标题提取方法及装置
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN110688842B (zh) 一种文档标题层级的分析方法、装置及服务器
CN109165295B (zh) 一种智能简历评估方法
CN111737982A (zh) 一种基于深度学习的汉语文本错别字检测方法
CN108875060B (zh) 一种网站识别方法及识别系统
JP2015043163A (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190710

R150 Certificate of patent or registration of utility model

Ref document number: 6556658

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150