JP6168309B2 - Table information understanding system, table information conversion system, method, and recording medium - Google Patents

Table information understanding system, table information conversion system, method, and recording medium Download PDF

Info

Publication number
JP6168309B2
JP6168309B2 JP2014522467A JP2014522467A JP6168309B2 JP 6168309 B2 JP6168309 B2 JP 6168309B2 JP 2014522467 A JP2014522467 A JP 2014522467A JP 2014522467 A JP2014522467 A JP 2014522467A JP 6168309 B2 JP6168309 B2 JP 6168309B2
Authority
JP
Japan
Prior art keywords
information
relationship
sentence
relation
conceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014522467A
Other languages
Japanese (ja)
Other versions
JPWO2014002601A1 (en
Inventor
綾子 久野
綾子 久野
英司 平尾
英司 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014002601A1 publication Critical patent/JPWO2014002601A1/en
Application granted granted Critical
Publication of JP6168309B2 publication Critical patent/JP6168309B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、表情報理解システム、表情報変換システム、方法および記録媒体に関し、特に、ドキュメント(文書)中に含まれる表を自然文と同様に扱えるように、表の情報を理解(変換)する表情報理解(変換)システム、方法および記録媒体に関する。   The present invention relates to a table information understanding system, a table information conversion system, a method, and a recording medium, and in particular, understands (converts) table information so that a table included in a document can be handled in the same manner as a natural sentence. The present invention relates to a table information understanding (conversion) system, method, and recording medium.

コンピュータでドキュメント(文書)を解析するにあたり、ドキュメント(文書)中に含まれる表をどのように扱うかが課題となっている。表は大抵、見出しとなる行・列とその見出しに沿った内容を格納するセルとで構成されている。表を正しく解析するためには、前述した表の構成をコンピュータに認識(理解)させる必要がある。表の構成をコンピュータに認識(理解)させるための先行技術文献として、下記の特許文献1〜5が知られている。
特許文献1は、表の罫線情報から表の構造を解析し、表の構造に基づき、セルの特徴を木構造で出力する技術を開示している。
特許文献2は、表情報を表の形式で表示できない端末に表示する際、その端末に表示できる形式に変換するための技術を開示している。また、特許文献2では、表の構造を認識するために、表の背景色、文字の色・太さといった表項目の表示特徴と表の列数、行数、同じ値が同じ行(列)に並んでいるといった表の特徴によって表を分類し、一定のルールに沿って表を変換する。
特許文献3は、表の構成要素である各項目値に対する検索用メタデータとして、当該項目名自体、表のキャプション(タイトル)、表のサブキャプション(縦の列の項目名、横の列の項目名)を抽出し、表のキャプション(タイトル)と縦の列の項目名との間に修飾関係があり、縦の列の項目名と横の列の項目名との間に修飾関係があることを抽出する技術を開示している。また、特許文献3は、キャプションやサブキャプションと類似する言語表現を近傍のテキスト領域から探して、その言語表現を検索用メタデータとして抽出する技術も開示している。
特許文献4は、生成したドキュメント画像から表領域を抽出し、表領域の一番上の左の各升目に対応する部分を表の縦軸の各項目が並ぶ縦軸領域として抽出するとともに、表領域の一番上の行の各升目に対応する部分を表の横軸の各項目が並ぶ横軸領域として抽出し、さらにこれらの各領域に含まれる各升目の交点に対応する升目の部分をデータ領域として抽出し、表領域の上部又は下部にある文字列をその表領域の表名として抽出する技術を開示している。
特許文献5は、収集された情報から表情報を検出して当該表情報を解析し、その解析された結果を自然言語に変換する技術を開示している。
When a document (document) is analyzed by a computer, how to handle a table included in the document (document) is an issue. The table is generally composed of a row / column as a heading and a cell for storing contents along the heading. In order to correctly analyze the table, it is necessary for the computer to recognize (understand) the structure of the table. The following patent documents 1 to 5 are known as prior art documents for causing a computer to recognize (understand) the configuration of the table.
Patent Document 1 discloses a technique for analyzing the structure of a table from the ruled line information of the table and outputting the cell features in a tree structure based on the structure of the table.
Patent Document 2 discloses a technique for converting table information into a format that can be displayed on a terminal when the table information is displayed on a terminal that cannot be displayed in a table format. Further, in Patent Document 2, in order to recognize the structure of the table, the display characteristics of the table items such as the background color of the table, the color / thickness of the characters, the number of columns in the table, the number of rows, and the same value are the same row (column). The table is classified according to the characteristics of the table such as being arranged in a row, and the table is converted according to a certain rule.
Patent Literature 3 describes, as search metadata for each item value that is a component of a table, the item name itself, a table caption (title), a table subcaption (vertical column item name, horizontal column item). Name), and there is a qualifying relationship between the caption (title) of the table and the item name in the vertical column, and there is a qualifying relationship between the item name in the vertical column and the item name in the horizontal column. Discloses a technique for extracting the. Patent Document 3 also discloses a technique for searching a linguistic expression similar to a caption or sub-caption from a nearby text region and extracting the linguistic expression as search metadata.
Patent Document 4 extracts a table area from a generated document image, extracts a portion corresponding to each upper left cell of the table area as a vertical axis area in which the items on the vertical axis of the table are arranged, and displays the table area. The part corresponding to each cell in the top row of the area is extracted as a horizontal axis area in which the items on the horizontal axis of the table are arranged, and further, the part of the cell corresponding to the intersection of each cell included in each of these areas is extracted. A technique for extracting a character string at the top or bottom of a table area as a table name of the table area is disclosed.
Patent Document 5 discloses a technique for detecting table information from collected information, analyzing the table information, and converting the analyzed result into a natural language.

特開2006−099480号公報JP 2006-099480 A 特開2001−331406号公報JP 2001-331406 A 特開2007−310503号公報JP 2007-310503 A 特開2012−048343号公報JP 2012-048343 A 特開2006−106872号公報JP 2006-106872 A

しかしながら、上記特許文献1に記載された先行技術は、表の構造から表要素の関係を推定しているだけであって、表の構造が同じでも見出しの役割が異なるというような、表の構造の違いによらない表要素の役割(表要素間の相互関係)までは推定できない。
また、上記特許文献2に記載された先行技術は、表の見出し部、内容記載欄の特定をできるが、見出し間や見出しと内容の関係を理解できない。
上記特許文献3に記載された先行技術は、キャプションやサブキャプションと類似する言語表現を近傍のテキスト領域から探して抽出する技術的思想を開示しているだけであって、その抽出した言語表現を利用して表要素の役割(表要素間の相互関係)を推定してはいない。
上記特許文献4に記載された先行技術は、生成したドキュメント画像から表領域を抽出し、表領域の縦軸領域、横軸領域、データ領域、表名を抽出する技術的思想を開示するのみであって、表要素の役割(表要素間の相互関係)の推定を行っていない。
上記特許文献5は、収集された情報から表情報を検出して当該表情報を解析し、自然言語に変換する技術的思想を開示するのみであって、表要素の役割(表要素間の相互関係)の推定を行っていない。
したがって、本発明の目的は、文書を自然言語処理するうえで、文書中に含まれる表を自然文と同様に扱えるように、表の情報を理解する表情報理解方法、システムおよび記録媒体を提供することにある。
本発明の他の目的は、文書を自然言語処理するうえで、文書中に含まれる表を自然文と同様に扱えるように、表の情報を変換する表情報変換方法、システムおよび記録媒体を提供することにある。
However, the prior art described in Patent Document 1 merely estimates the relationship between the table elements from the table structure, and the table structure is such that the role of the heading is different even if the table structure is the same. It is impossible to estimate the role of table elements (reciprocal relationship between table elements) that does not depend on the difference.
Moreover, although the prior art described in the said patent document 2 can specify the heading part of a table | surface and the content description column, it cannot understand the relationship between headings or a heading and content.
The prior art described in Patent Document 3 only discloses a technical idea of searching for and extracting a language expression similar to a caption or sub-caption from a nearby text region. The role of table elements (interrelation between table elements) is not estimated.
The prior art described in Patent Document 4 only discloses a technical idea of extracting a table area from a generated document image and extracting a vertical axis area, a horizontal axis area, a data area, and a table name of the table area. Therefore, the role of table elements (relationship between table elements) is not estimated.
The above-mentioned patent document 5 only discloses a technical idea of detecting table information from collected information, analyzing the table information, and converting it into a natural language. (Relationship) is not estimated.
Accordingly, an object of the present invention is to provide a table information understanding method, system, and recording medium for understanding table information so that the table included in the document can be handled in the same manner as a natural sentence when the document is processed in natural language. There is to do.
Another object of the present invention is to provide a table information conversion method, system, and recording medium for converting table information so that a table included in the document can be handled in the same manner as a natural sentence when the document is processed in natural language. There is to do.

本発明の第1の態様による表情報理解システムは、文書中に含まれる表の情報を理解する表情報理解システムであって、文章と表とを含む文書の入力を受け付けて、文章の文字列と表の構成を示す表構成情報とを抽出する文書入力部と;表構成情報から表の構造を示す表構造情報を推定する表構造推定部と;表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、文章から抽出する表要素関連文抽出部と;接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと;表要素関連文に含まれる表要素同士の概念的な構造関係を示す表要素間関係情報を概念的構造関係推定ルールに基づき推定すると共に、表要素間関係情報と表構造情報とに基づいて、表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と;表要素間関係情報と構造関係情報とを蓄積する表要素間関係データベースと;を少なくとも具備する。
本発明の第2の態様による表情報変換システムは、文書中に含まれる表の情報を変換する表情報変換システムであって、文章と表とを含む文書の入力を受け付けて、文章の文字列と表の構成を示す表構成情報とを抽出する文書入力部と;表構成情報から表の構造を示す表構造情報を推定する表構造推定部と;表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、文章から抽出する表要素関連文抽出部と;接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと;表要素関連文に含まれる表要素同士の概念的な構造関係を示す表要素間関係情報を概念的構造関係推定ルールに基づき推定すると共に、表要素間関係情報と表構造情報とに基づいて、表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と;表要素間関係情報と構造関係情報とを蓄積する表要素間関係データベースと;表要素間の概念的な構造関係により表の情報を共起情報および文章の少なくとも1つに変換するルールを対応付けた結合パターンを蓄積する結合パターンデータベースと;表要素間関係情報と構造関係情報と結合パターンと表構造情報とに基づき、表の情報を、表要素間を結合した再構成表情報に変換する表情報変換部と;再構成表情報を出力する再構成表情報出力部と;を少なくとも具備する。
A table information understanding system according to a first aspect of the present invention is a table information understanding system for understanding table information included in a document, and accepts input of a document including a sentence and a table, and a character string of the sentence And a document input unit for extracting table configuration information indicating the configuration of the table; a table structure estimation unit for estimating the table structure information indicating the structure of the table from the table configuration information; and a plurality of character strings in the table cell A table element related sentence extraction unit that extracts table element related sentences related to table elements from sentences; a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structural relationship are associated with each other , A conceptual structural relationship estimation rule database for storing conceptual structural relationship estimation rules; and table element relation information indicating the conceptual structural relationship between table elements included in table element related sentences as conceptual structural relationship estimation rules Based on the estimation, A table element relation estimation unit for estimating structural relation information indicating a conceptual structural relation between table structures based on element relation information and table structure information; and storing table element relation information and structure relation information And a table element relation database.
A table information conversion system according to a second aspect of the present invention is a table information conversion system for converting table information included in a document, accepting input of a document including a sentence and a table, and a character string of the sentence And a document input unit for extracting table configuration information indicating the configuration of the table; a table structure estimation unit for estimating the table structure information indicating the structure of the table from the table configuration information; and a plurality of character strings in the table cell A table element related sentence extraction unit that extracts table element related sentences related to table elements from sentences; a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structural relationship are associated with each other , A conceptual structural relationship estimation rule database for storing conceptual structural relationship estimation rules; and table element relation information indicating the conceptual structural relationship between table elements included in table element related sentences as conceptual structural relationship estimation rules Based on the estimation, A table element relation estimation unit for estimating structural relation information indicating a conceptual structural relation between table structures based on element relation information and table structure information; and storing table element relation information and structure relation information A table-to-table element relation database; a combination pattern database for storing a combination pattern that associates rules for converting table information into at least one of co-occurrence information and text by a conceptual structural relationship between table elements; A table information conversion unit for converting table information into reconstructed table information in which table elements are joined based on inter-element relation information, structural relation information, join pattern, and table structure information; and outputting reconstructed table information A reconfiguration table information output unit;

本発明によれば、表の情報を自然文と同様に扱うことができる。   According to the present invention, information in a table can be handled in the same way as a natural sentence.

図1は本発明の第1の実施形態に係る表情報理解システムの構成を示すブロック図である。
図2は表のタイトル、行見出し、列見出し、共通見出しの例を示す図である。
図3は図1に示した表情報理解システムの動作を示す流れ図である。
図4は図1に示した表情報理解システムに使用される、表要素間関係推定部の動作を示す流れ図である。
図5は本発明の第2の実施形態に係る表情報変換システムの構成を示すブロック図である。
図6は図5に示した表情報変換システムの動作を示す流れ図である。
図7は表の一例を示す図である。
図8は表要素関連文の例を示す図である。
図9は図5に示した表情報変換システムに使用される、概念的構造関係推定ルールデータベースに蓄積する情報(概念的構造関係推定ルール)の一例を示す図である。
図10は図5に示した表情報変換システムに使用される、表要素間関係データベースに蓄積する情報(構造関係情報)の一例を示す図である。
図11は図5に示した表情報変換システムに使用される、結合パターンデータベースに蓄積する情報(結合パターン)の第1の例を示す図である。
図12は図5に示した表情報変換システムに使用される、結合パターンデータベースに蓄積する情報(結合パターン)の第2の例を示す図である。
図13は図5に示した表情報変換システムに使用される、結合パターンデータベースに蓄積する情報(結合パターン)の第3の例を示す図である。
図14は図5に示した表情報変換システムに使用される、再構成表情報出力部から出力される再構成表情報の一例を示す図である。
FIG. 1 is a block diagram showing a configuration of a table information understanding system according to the first embodiment of the present invention.
FIG. 2 is a diagram showing examples of table titles, row headings, column headings, and common headings.
FIG. 3 is a flowchart showing the operation of the table information understanding system shown in FIG.
FIG. 4 is a flowchart showing the operation of the inter-table element relationship estimation unit used in the table information understanding system shown in FIG.
FIG. 5 is a block diagram showing a configuration of a table information conversion system according to the second embodiment of the present invention.
FIG. 6 is a flowchart showing the operation of the table information conversion system shown in FIG.
FIG. 7 shows an example of the table.
FIG. 8 is a diagram showing an example of a table element related sentence.
FIG. 9 is a diagram showing an example of information (conceptual structural relationship estimation rules) stored in the conceptual structural relationship estimation rule database used in the table information conversion system shown in FIG.
FIG. 10 is a diagram showing an example of information (structure relation information) stored in the table element relation database used in the table information conversion system shown in FIG.
FIG. 11 is a diagram showing a first example of information (joining pattern) stored in the joining pattern database used in the table information conversion system shown in FIG.
FIG. 12 is a diagram showing a second example of information (join pattern) stored in the join pattern database used in the table information conversion system shown in FIG.
FIG. 13 is a diagram showing a third example of information (joining pattern) stored in the joining pattern database used in the table information conversion system shown in FIG.
FIG. 14 is a diagram showing an example of reconfiguration table information output from the reconfiguration table information output unit used in the table information conversion system shown in FIG.

次に、発明を実施するための形態について図面を参照して詳細に説明する。
[実施形態1]
最初に、本発明の第1の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る表情報理解システム100の構成を示すブロック図である。
図1を参照すると、本発明の第1の実施形態に係る表情報理解システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、文書入力部10と、表構造推定部20と、表要素関連文抽出部30と、表要素間関係推定部40と、概念的構造関係推定ルールデータベース110と、表要素間関係データベース120と、を少なくとも具備する。
図示の表情報理解システム100は、文書中に含まれる表の情報を理解(認識)するための表情報理解システムである。
電子機器で表情報理解システムを構成する場合、表情報理解システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、データ処理装置が、表構造推定部20、表要素関連文抽出部30、および表要素間関係推定部40として働く。補助記憶装置が概念的構造関係推定ルールデータベース110および表要素間関係データベース120として動作する。尚、文書入力部10の機能は、入力装置とデータ処理装置との両方にまたがっている。
次に、表情報理解システム100を構成する各構成要素の動作について説明する。
文書入力部10はドキュメント(文書)の入力を受付け、ドキュメント(文書)内の文字列や個々の表を構成する情報(以下、「表構成情報」と呼ぶ)を抽出する手段である。
ここで、表構成情報とは、少なくとも、表の何行何列目にどのような文字列が配置されているかを示す情報であり、表の中のセルの位置を示す行番号、列番号と、セル同士の連結の有無を示す連結情報と、セルの中の文字列を示す表要素とから成る。表構成情報の取得の仕方は、Hyper Text Markup Language(HTML)やExtensible Markup Language(XML)で記述されたドキュメントから、<TABLE>タグの中身を読み取って、表構成情報に変換する方法でもよい。或いは、表構成情報の取得の仕方は、紙媒体に記載されたドキュメントからスキャナで罫線や文字列を読み取り、罫線で囲まれた部分を表とみなし、当該表を構成する罫線で囲まれた個別の部分をセルとみなすことで、表構成情報に変換する方法でもよい。また、文書入力部10は、表構成情報として、HTMLのタグ等から、表の背景色、文字の色、文字の太さ、罫線の種類などの情報を取得してもよい。
このように、文書入力部10は、文章と表とを含む文書の入力を受け付けて、文章の文字列と表の構成を示す表構成情報とを抽出する。
表構造推定部20は、文書入力部10で抽出した表構成情報から、表のタイトル、および列見出し部分、行見出し部分、共通見出し部分、内容記載欄といった表の構造の推定を行う手段である。
ここで、列見出しとは、表の列方向の内容を表す見出しが書かれたセルの集合を表す。行見出しは、表の行方向の内容を表す見出しが書かれたセルの集合を表す。共通見出しは、行見出しと列見出しの両方、あるいは、いずれかの内容を表す見出しが書かれたセルの集合を表す。
図2は、表のタイトル、列見出し、行見出し、共通見出しの例を示す図である。図2のように、一般的には、列見出しは表の最上部の行に、行見出しは表の左端の列に、共通見出しは表の左上のセルに割り当てられることが多いため、これらの位置関係で表の構造を推定する方法がある。ただし、列見出し、行見出し、共通見出しに割り当てている位置、行数や列数は、表によって大きく異なることもあるため、より精度の高い表の構造の推定方法としては、次に述べるような方法が有効である。第1の表の構造の推定方法は、HTMLやXMLで記述されたドキュメントであれば<TABLE>タグの中身や文字列を読み取って、紙媒体に記載されたドキュメントであればスキャナで背景色や罫線の種類、文字種別、文字列を読み取って、背景色の変わり目や、罫線が二重線になっている部分を境界として見出し部分と内容記載欄を推定する方法である。第2の表の構造の推定方法は、表要素の文字数や文字種別の構成が大きく変わる部分を境界として見出し部分と内容記載欄を推定する方法である。また、表のタイトルを抽出する方法は、表の直前もしくは直後に書かれている文を表のタイトルとして抽出する方法が有効である。
このように、表構造推定部20は、表構成情報から表の構造を示す表構造情報を推定する。
表要素関連文抽出部30は、同一の表中の異なる表構造に含まれる各表要素の組合せと関連する文である表要素関連文を入力された文書内の表外の文章から抽出する手段である。ここで、「表要素の組合せと関連する」とは、表要素の組合せの各表要素自体もしくは表要素の一部をともに一文内に含むなどの状態が該当する。
このように、表要素関連文抽出部30は、表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、文章から抽出する。
概念的構造関係推定ルールデータベース110は、接続符とその接続符とともに用いられた2つの被接続項の組合せおよびそれらの順序関係を表記パターンとして収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールとして蓄積するデータベースである。
被接続項は、特定の単語や文字列、品詞などが該当する。接続符は、2つの被接続項をつなぐ役割をする助詞、述語、記号などが該当し、具体的な助詞や述語、記号などの単位でデータベースに蓄積してもよいし、文法上の分類レベルで集約してデータベースに蓄積してもよい。
上記「概念的な構造関係」とは、文字列間の意味的なhas−a関係、is−a関係、上位/下位関係、部分/全体関係、同義関係、多義関係などに相当する。フォーマットと概念的な構造関係との対応付けは、自動的に行ってもよいし、人手で行ってもよい。フォーマットと概念的な構造関係との対応付けを自動的に行う場合は、先ず、単語の上位/下位関係、部分/全体関係、同義関係、多義関係などの概念的な構造関係によって単語を分類し体系づけたシソーラスに含まれる単語の組合せを、Web上などに有る大量の文書から検出し、概念的な構造関係のある具体的な単語の組合せがどのような助詞で結ばれているかや、どのような述語を用いた文で記載されるかなどの事例を収集する。そして、単語同士を結ぶ文字を接続符、各単語を被接続項とするフォーマットとシソーラスの概念的な構造関係とを対応付ける。フォーマットと概念的な構造関係との対応関係が例外などを含む場合は、対応関係が成立する確率情報を対応確率情報として付加した形態であっても良い。
このように、概念的構造関係推定ルールデータベース110は、接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する。
表要素間関係推定部40は、先ず、表要素関連文抽出部30で抽出した表要素関連文に含まれる表要素の組合せについて、概念的構造関係推定ルールデータベース110に蓄積されている概念的構造関係推定ルールに問い合わせる。次に、表要素間関係推定部40は、表要素の組合せを2つの被接続項の組合せとみなした時に被接続項の組合せ、接続符、順序関係が合致するフォーマットを検索する。そして、表要素間関係推定部40は、合致したフォーマットがあれば、そのフォーマットに対応する概念的な構造関係を、表要素同士の概念的な構造関係を示す表要素間関係情報として推定する。
さらに、表要素間関係推定部40は、表要素の組合せの概念的な構造関係と表構造推定部20で推定した表構造情報を利用し、表要素の組合せの各表要素が属する表構造間の概念的な構造関係は表要素の組合せの概念的な構造関係と同一であるとして、表構造間の概念的な構造関係を示す構造関係情報を推定する。すなわち、特定の表内において、行見出しと列見出し間や、列見出しと内容記載欄間といった表構造間の概念的な構造関係は表要素の違いによらずそれぞれ一意に定まるため、表要素間関係推定部40は、全ての表要素間の概念的な構造関係を把握できなくても、一部の表要素間の概念的な構造関係さえ把握できれば、表構造間の概念的な構造関係を推定できる。この時、同一の表構造間に属する複数の表要素の組合せについて概念的な構造関係が推定され、かつその推定結果が同一でない場合、表要素間関係推定部40は、より推定された割合の多い概念的な構造関係を表構造間の概念的な構造関係として推定すればよい。また、前記対応確率情報が付加されている場合、表要素間関係推定部40は、対応確率情報の平均値が高い概念的構造関係推定ルールによって推定された表要素の組合せの概念的な構造関係を優先すればよい。
なお、前記フォーマットと合致する記述を検索する際、フォーマットの被接続項が特定の単語や文字列である場合、表要素間関係推定部40は、部分一致や類義語も検索の対象としてよい。
このように、表要素間関係推定部40は、表要素関連文に含まれる表要素同士の概念的な構造関係を示す表要素間関係情報を概念的構造関係推定ルールに基づき推定すると共に、表要素間関係情報と表構造情報とに基づき、表構造間の概念的な構造関係を示す構造関係情報を推定する。
表要素間関係データベース120は、表要素間関係推定部40で推定した表要素間関係情報と、表構造間の概念的な構造関係を示す構造関係情報を蓄積するデータベースである。
このように、表要素関係データベース120は、表要素間関係情報と構造関係情報とを蓄積する。
次に、図3を参照して、図1に示した表情報理解システム100の動作について説明する。
はじめに、文書入力部10が文章と表とを含むドキュメント(文書)から文字列や表構成情報を抽出する(ステップS100)。
次に、表構造推定部20が、表構成情報から表の構造を示す表構造情報を推定する(ステップS101)。
そして、表要素関連文抽出部30が、表構成情報のうちの表要素に関連する表要素関連文を、文書入力部10で読み取ったドキュメント(表外の文章)から抽出する(ステップS102)。
表要素間関係推定部40が、表要素関連文と概念的構造関係推定ルールデータベース110に蓄積された概念的構造関係推定ルールとから、表の見出し間の関係や見出しと内容の関係を推定する(ステップS103)。
最後に、表要素間関係推定部40が、表の見出し間の関係や見出しと内容の関係を表要素間関係情報として、表要素間関係データベース120に保管する(ステップS104)。
また、図4のフローチャートを参照して、ステップS103の表要素間関係推定部40の動作について詳述する。
ステップS102で抽出した表要素関連文が残っていれば(ステップS200のYes)、表要素間関係推定部40は、表要素関連文を一つ取り出す(ステップS201)。
そして、表要素間関係推定部40は、取り出した表要素関連文中から、概念的構造関係推定ルールデータベース110に保管されているフォーマット(概念的構造関係推定ルール)と合致する記述を検索する(ステップS202)。ここでいうフォーマットとは、被接続項Xと被接続項Yが接続符である助詞の「の」でつながれているといったものである。
そして、概念的構造関係推定ルールデータベース110に保管されているフォーマット(概念的構造関係推定ルール)と合致する記述がなければ(ステップS203のNo)、表要素間関係推定部40は、ステップS200に戻って新しい表要素関連文を取り出す。一方、概念的構造関係推定ルールデータベース110に保管されているフォーマット(概念的構造関係推定ルール)と合致する記述があれば(ステップS203のYes)、表要素間関係推定部40は、概念的構造関係推定ルールデータベース110に保管されている概念的構造関係推定ルールに基づき、表要素同士の相互関係を判定する(ステップS204)。
次に、表要素間関係推定部40は、相互関係を判定した表要素が、表構成のどの部分にあたるかを表構造推定部20で推定した表構造情報を参照して特定する(ステップS205)。これにより、表要素間関係推定部40は、表要素間の関係から見出し間、見出しと内容間といった表構成同士の相互関係(構造関係情報)を推定する(ステップS206)。
次に、本発明の第1の実施形態に係る表情報理解システム100の効果について説明する。
本第1の実施形態では、表以外の文章(テキスト)を利用して、表要素の役割を認識(理解)することができる。
また、表以外の文章(テキスト)では記載のない表要素間の関係も明らかにできることである。その理由は、表中の異なる役割(列見出しと行見出し、列見出しと項目等)を持つ表要素間の構造を表以外の文章(テキスト)から抽出し、役割間の関係を推定しているからである。
尚、上記本発明の第1の実施形態に係る表情報理解システム100は、表情報理解方法として実現され得る。また、上記本発明の第1の実施形態に係る表情報理解システム100は、表情報理解プログラムによって実行されるようにしてもよい。
[実施形態2]
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
図5は、本発明の第2の実施形態に係る表情報変換システム100Aの構成を示すブロック図である。
図5を参照すると、本発明の第2の実施形態に係る表情報変換システム100Aは、第1の実施の形態の構成に加え、表情報変換部50と、再構成表情報出力部60と、結合パターンデータベース130とを更に具備している点を除いて、図1に示した第1の実施形態に係る表情報理解システム100と同様の構成を有し、動作をする。したがって、図1に示した構成要素と同様の機能を有するものには同一の参照符号を付し、以下では説明の簡略化のために相違点についてのみ説明する。
図示の表情報変換システム100Aを上述したコンピュータで実現した場合、データ処理装置が、表構造推定部20、表要素関連文抽出部30、表要素間関係推定部40、および表情報変換部50として働く。補助記憶装置が、概念的構造関係推定ルールデータベース110、表要素間関係データベース120、および結合パターンデータベース130として動作する。出力装置が再構成表情報出力部60として働く。尚、文書入力部10の機能は、入力装置とデータ処理装置とにまたがっている。
結合パターンデータベース130は、表の列見出し、行見出し、内容記載欄といった表要素が属する表構造の種類と、表構造間の概念的な構造関係の組合せに基づき、表要素毎に適した結合パターンを収録したデータベースである。
ここで、結合パターンとは、特定の表要素に対して共起語とみなせる表要素の組合せパターンや、表の内容を文章で表現する場合の表要素と接続符の組合せパターンなどである。
このように、結合パターンデータベース130は、表要素間の概念的な構造関係により表の情報を共起情報や文章へ変換するルールを対応付けた結合パターンを蓄積する。
表情報変換部50は、表要素間関係データベース120に蓄積された表構造間の概念的な構造関係情報と、表構造推定部20で推定した表構造情報を元に表要素間の概念的な構造関係を推定したうえで、表要素間関係に適した結合パターンを結合パターンデータベース130に問い合わせ、対象の表に適した表の列見出し、行見出し、内容記載欄の各セル間の2つの表要素の結合パターンに基づき表情報を文章や共起ベクトルといった再構成表情報に変換する手段である。
このように、表情報変換部50は、表要素間関係情報と構造関係情報と結合パターンと表構造情報とに基づき、表の情報を、表要素間を結合した再構成情報に変換する。
再構成表情報出力部60は、変換した再構成表情報を提示する手段である。すなわち、再構成表情報出力部60は、再構成情報を出力する。
次に、図6のフローチャートを参照して、図5に示した表情報理解システム100Aの動作について説明する。
図5の構成の場合の動作は、図3のフローチャートに加え、ステップS105とステップS106との動作が加わっている。
ステップS104の後、表情報変換部50が、表要素間関係データベース120に保管された表要素間関係情報と、結合パターンデータベース130に保管されている結合パターンとに基づき、表構成情報を文章や共起ベクトル等の再構成表情報に変換する(ステップS105)。
最後に、再構成表情報出力部60が、再構成表情報を提示する(ステップS106)。
次に、本発明の第2の実施形態の効果について説明する。
本第2の実施形態では、文書中に含まれる表を自然文と同様に扱えることである。その理由は、表の多い文書を自然言語処理する際の情報量を増し、精度向上に寄与することができるからである。
また、表以外の文章(テキスト)では記載のない表要素間の関係も明らかにできることである。その理由は、表中の異なる役割(列見出しと行見出し、列見出しと項目等)を持つ表要素間の構造を表以外の文章(テキスト)から抽出し、役割間の関係を推定しているからである。
尚、上記本発明の第2の実施形態に係る表情報変換システム100Aは、表情報変換方法として実現され得る。また、上記本発明の第2の実施形態に係る表情報変換システム100Aは、表情報変換プログラムによって実行されるようにしてもよい。
Next, embodiments for carrying out the invention will be described in detail with reference to the drawings.
[Embodiment 1]
First, a first embodiment of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a table information understanding system 100 according to the first embodiment of the present invention.
Referring to FIG. 1, a table information understanding system 100 according to the first embodiment of the present invention is basically a system comprising an information communication network such as an Internet or a server and an electronic device and the Internet for interconnecting them. The document input unit 10, the table structure estimation unit 20, the table element related sentence extraction unit 30, the table element relationship estimation unit 40, the conceptual structure relationship estimation rule database 110, and the table element relationship database 120. And at least.
The illustrated table information understanding system 100 is a table information understanding system for understanding (recognizing) table information included in a document.
When a table information understanding system is configured with electronic devices, the table information understanding system 100 can be realized by a computer that operates under program control. Although not shown, this type of computer, as is well known, includes an input device for inputting data, a data processing device, an output device for outputting processing results in the data processing device, and an auxiliary memory serving as various databases. Device. Then, the data processing device stores data in a read-only memory (ROM) that stores a program, a random access memory (RAM) that is used as a work area that temporarily stores data, and a program stored in the ROM. It consists of a central processing unit (CPU) that processes stored data.
In this case, the data processing device functions as the table structure estimation unit 20, the table element related sentence extraction unit 30, and the table element relation estimation unit 40. The auxiliary storage device operates as the conceptual structure relationship estimation rule database 110 and the table element relationship database 120. Note that the function of the document input unit 10 extends over both the input device and the data processing device.
Next, the operation of each component constituting the table information understanding system 100 will be described.
The document input unit 10 is a means for receiving input of a document (document) and extracting character strings in the document (document) and information constituting individual tables (hereinafter referred to as “table configuration information”).
Here, the table configuration information is information indicating at least what kind of character string is arranged in what row and column of the table, and the row number and column number indicating the position of the cell in the table. The connection information indicating whether or not the cells are connected to each other and the table element indicating the character string in the cell. The table structure information may be acquired by reading the contents of the <TABLE> tag from a document described in Hyper Text Markup Language (HTML) or Extensible Markup Language (XML) and converting it into table structure information. Alternatively, the table configuration information can be obtained by reading a ruled line or character string from a document written on a paper medium with a scanner, considering the part surrounded by the ruled line as a table, and individually enclosing the ruled lines constituting the table. The method of converting to the table configuration information by regarding the part as a cell may be used. Further, the document input unit 10 may acquire information such as a table background color, a character color, a character thickness, and a ruled line type from the HTML tag or the like as the table configuration information.
As described above, the document input unit 10 receives an input of a document including a sentence and a table, and extracts a character string of the sentence and table configuration information indicating the configuration of the table.
The table structure estimation unit 20 is a means for estimating a table structure such as a table title, a column heading part, a row heading part, a common heading part, and a content description column from the table configuration information extracted by the document input unit 10. .
Here, the column heading represents a set of cells in which headings representing the contents in the column direction of the table are written. The row heading represents a set of cells in which a heading representing the contents in the row direction of the table is written. The common heading represents both a row heading and a column heading, or a set of cells in which a heading representing one of the contents is written.
FIG. 2 is a diagram illustrating examples of table titles, column headings, row headings, and common headings. As shown in FIG. 2, in general, column headings are often assigned to the top row of the table, row headings are often assigned to the leftmost column of the table, and common headings are assigned to the upper left cell of the table. There is a method for estimating the structure of a table by positional relationship. However, the position assigned to the column heading, row heading, and common heading, the number of rows and the number of columns may vary greatly depending on the table, so a more accurate method for estimating the structure of the table is as follows. The method is effective. The method of estimating the structure of the first table is to read the contents of the <TABLE> tag or a character string if the document is written in HTML or XML, and if the document is written on a paper medium, the background color or In this method, the type of a ruled line, the type of character, and a character string are read, and the heading part and the content description column are estimated using the transition of the background color or the part where the ruled line is a double line as a boundary. The method of estimating the structure of the second table is a method of estimating the heading part and the content description column with a part where the number of characters of the table element and the structure of the character type greatly change. As a method for extracting the table title, a method of extracting a sentence written immediately before or after the table as the table title is effective.
Thus, the table structure estimation unit 20 estimates the table structure information indicating the structure of the table from the table configuration information.
The table element related sentence extracting unit 30 extracts a table element related sentence, which is a sentence related to a combination of table elements included in different table structures in the same table, from an out-of-line sentence in the input document. It is. Here, “related to a combination of table elements” corresponds to a state in which each table element itself or a part of the table elements of the combination of table elements is included in one sentence.
As described above, the table element related sentence extraction unit 30 extracts a table element related sentence related to a plurality of table elements indicating character strings in the table cell from the sentence.
The conceptual structural relationship estimation rule database 110 associates a conceptual structure relationship with a format that collects a combination of two connected terms used together with a connection symbol and the connection symbol and their order relationship as a notation pattern. It is a database that accumulates as conceptual structural relationship estimation rules.
The connected term corresponds to a specific word, character string, part of speech, or the like. Connected marks are particles, predicates, symbols, etc. that serve to connect two connected terms, and may be stored in the database in units of specific particles, predicates, symbols, etc. May be aggregated and accumulated in a database.
The “conceptual structural relationship” corresponds to a semantic has-a relationship, is-a relationship, upper / lower relationship, partial / whole relationship, synonym relationship, ambiguous relationship, etc. between character strings. The association between the format and the conceptual structural relationship may be performed automatically or manually. To automatically associate the format with the conceptual structural relationship, first classify the words according to the conceptual structural relationship such as the upper / lower relationship, partial / whole relationship, synonym relationship, and ambiguous relationship. The combination of words contained in a structured thesaurus is detected from a large number of documents on the web, etc., and what kind of particles are used to connect specific word combinations that have a conceptual structural relationship, and which Collect cases that are described in sentences using predicates. Then, a format in which characters connecting words are connected marks and each word is a connected term is associated with a conceptual structural relationship of the thesaurus. When the correspondence between the format and the conceptual structural relationship includes an exception or the like, a form in which probability information that the correspondence relationship is established may be added as correspondence probability information.
As described above, the conceptual structural relationship estimation rule database 110 accumulates the conceptual structural relationship estimation rules in which the format that collects the notation patterns of the connection marks and the two connected terms is associated with the conceptual structural relationship. To do.
The table element relation estimation unit 40 first stores the conceptual structure stored in the conceptual structure relation estimation rule database 110 for combinations of table elements included in the table element related sentence extracted by the table element related sentence extraction unit 30. Query relationship estimation rules. Next, the table element relation estimation unit 40 searches for a format that matches the combination of connected terms, the connection code, and the order relationship when the combination of table elements is regarded as a combination of two connected terms. If there is a matched format, the table element relationship estimation unit 40 estimates the conceptual structure relationship corresponding to the format as table element relationship information indicating the conceptual structure relationship between the table elements.
Further, the inter-table element relationship estimation unit 40 uses the conceptual structural relationship of the combination of table elements and the table structure information estimated by the table structure estimation unit 20, and uses the table structure between the table structures to which each table element of the combination of table elements belongs. Assuming that the conceptual structural relationship is the same as the conceptual structural relationship of the combination of table elements, the structural relationship information indicating the conceptual structural relationship between the table structures is estimated. In other words, in a specific table, the conceptual structural relationship between table structures such as between row headings and column headings, and between column headings and content description fields is uniquely determined regardless of the difference in table elements. Even if the estimation unit 40 cannot grasp the conceptual structural relationship between all the table elements, it can estimate the conceptual structural relationship between the table structures as long as it can grasp the conceptual structural relationship between some table elements. it can. At this time, when a conceptual structural relationship is estimated for a combination of a plurality of table elements belonging to the same table structure, and the estimation result is not the same, the table element relationship estimation unit 40 calculates a more estimated ratio. Many conceptual structural relationships may be estimated as conceptual structural relationships between table structures. In addition, when the correspondence probability information is added, the table element relation estimation unit 40, the conceptual structure relation of the combination of the table elements estimated by the conceptual structure relation estimation rule having a high average value of the correspondence probability information Should be prioritized.
When searching for a description that matches the format, if the connected term of the format is a specific word or character string, the inter-table element relationship estimation unit 40 may also search for partial matches and synonyms.
As described above, the table element relationship estimation unit 40 estimates the table element relationship information indicating the conceptual structure relationship between the table elements included in the table element related sentence based on the conceptual structure relationship estimation rule. Based on the inter-element relationship information and the table structure information, the structural relationship information indicating the conceptual structural relationship between the table structures is estimated.
The inter-table element relation database 120 is a database that accumulates inter-table element relation information estimated by the inter-table element relation estimation unit 40 and structural relation information indicating a conceptual structural relation between the table structures.
As described above, the table element relationship database 120 stores the table element relationship information and the structure relationship information.
Next, the operation of the table information understanding system 100 shown in FIG. 1 will be described with reference to FIG.
First, the document input unit 10 extracts a character string and table configuration information from a document (document) including a sentence and a table (step S100).
Next, the table structure estimation unit 20 estimates table structure information indicating the structure of the table from the table configuration information (step S101).
Then, the table element related sentence extraction unit 30 extracts a table element related sentence related to the table element in the table configuration information from the document (text outside the table) read by the document input unit 10 (step S102).
The table element relation estimation unit 40 estimates the relation between table headings and the relation between headings and contents from the table element related sentences and the conceptual structure relation estimation rules stored in the conceptual structure relation estimation rule database 110. (Step S103).
Finally, the table element relationship estimation unit 40 stores the relationship between table headings and the relationship between headings and contents in the table element relationship database 120 as table element relationship information (step S104).
The operation of the inter-table element relationship estimation unit 40 in step S103 will be described in detail with reference to the flowchart of FIG.
If the table element related sentence extracted in step S102 remains (Yes in step S200), the table element relation estimating unit 40 extracts one table element related sentence (step S201).
Then, the table element relationship estimation unit 40 searches the extracted table element related sentences for a description that matches the format (conceptual structure relationship estimation rule) stored in the conceptual structure relationship estimation rule database 110 (step S40). S202). The format here is such that the connected term X and the connected term Y are connected by the particle “NO” which is a connection mark.
If there is no description that matches the format (conceptual structure relationship estimation rule) stored in the conceptual structure relationship estimation rule database 110 (No in step S203), the table element relationship estimation unit 40 proceeds to step S200. Go back and retrieve new table element related statements. On the other hand, if there is a description that matches the format (conceptual structure relationship estimation rule) stored in the conceptual structure relationship estimation rule database 110 (Yes in step S203), the table element relationship estimation unit 40 Based on the conceptual structure relationship estimation rules stored in the relationship estimation rule database 110, the mutual relationship between the table elements is determined (step S204).
Next, the inter-table element relationship estimation unit 40 refers to the table structure information estimated by the table structure estimation unit 20 to identify which part of the table structure the table element whose correlation has been determined refers to (step S205). . Thereby, the table element relationship estimation part 40 estimates the mutual relationship (structure relationship information) of table structures, such as between headings, between headings, and the content from the relationship between table elements (step S206).
Next, effects of the table information understanding system 100 according to the first embodiment of the present invention will be described.
In the first embodiment, the role of the table element can be recognized (understood) using sentences (text) other than the table.
In addition, it is possible to clarify relationships between table elements not described in sentences (text) other than tables. The reason is that the structure between table elements with different roles in the table (column heading and row heading, column heading and item, etc.) is extracted from text (text) other than the table, and the relationship between the roles is estimated. Because.
The table information understanding system 100 according to the first embodiment of the present invention can be realized as a table information understanding method. The table information understanding system 100 according to the first embodiment of the present invention may be executed by a table information understanding program.
[Embodiment 2]
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
FIG. 5 is a block diagram showing a configuration of a table information conversion system 100A according to the second exemplary embodiment of the present invention.
Referring to FIG. 5, the table information conversion system 100A according to the second embodiment of the present invention includes a table information conversion unit 50, a reconstructed table information output unit 60, in addition to the configuration of the first embodiment. Except for the point that it further comprises a join pattern database 130, it has the same configuration as the table information understanding system 100 according to the first embodiment shown in FIG. 1 and operates. Accordingly, components having the same functions as those shown in FIG. 1 are denoted by the same reference numerals, and only differences will be described below for the sake of simplicity.
When the illustrated table information conversion system 100A is realized by the above-described computer, the data processing device is a table structure estimation unit 20, a table element related sentence extraction unit 30, a table element relation estimation unit 40, and a table information conversion unit 50. work. The auxiliary storage device operates as the conceptual structure relationship estimation rule database 110, the table element relationship database 120, and the connection pattern database 130. The output device functions as the reconstruction table information output unit 60. It should be noted that the function of the document input unit 10 extends over the input device and the data processing device.
The join pattern database 130 is a join pattern suitable for each table element based on a combination of the table structure type to which the table element belongs, such as a table column header, a row header, and a content description column, and a conceptual structural relationship between the table structures. Is a database containing
Here, the combination pattern is a combination pattern of table elements that can be regarded as a co-occurrence word for a specific table element, or a combination pattern of table elements and connection marks when the contents of the table are expressed in text.
In this way, the connection pattern database 130 accumulates connection patterns in which rules for converting table information into co-occurrence information and sentences are associated with a conceptual structural relationship between table elements.
The table information conversion unit 50 conceptually compares the table elements based on the conceptual structure relationship information between the table structures accumulated in the table element relationship database 120 and the table structure information estimated by the table structure estimation unit 20. After estimating the structural relationship, the connection pattern database 130 is queried for a connection pattern suitable for the relationship between the table elements, and two tables between each cell in the column heading, row heading, and content description column suitable for the target table are obtained. This is means for converting the table information into reconstructed table information such as a sentence or a co-occurrence vector based on the combination pattern of elements.
As described above, the table information conversion unit 50 converts the table information into reconfiguration information that combines table elements based on the table element relationship information, the structure relationship information, the connection pattern, and the table structure information.
The reconfiguration table information output unit 60 is means for presenting the converted reconfiguration table information. That is, the reconfiguration table information output unit 60 outputs reconfiguration information.
Next, the operation of the table information understanding system 100A shown in FIG. 5 will be described with reference to the flowchart of FIG.
The operation in the case of the configuration of FIG. 5 includes the operations of step S105 and step S106 in addition to the flowchart of FIG.
After step S104, the table information conversion unit 50 converts the table configuration information into text or text based on the table element relation information stored in the table element relation database 120 and the join pattern stored in the join pattern database 130. Conversion into reconfiguration table information such as co-occurrence vectors (step S105).
Finally, the reconstruction table information output unit 60 presents reconstruction table information (step S106).
Next, effects of the second exemplary embodiment of the present invention will be described.
In the second embodiment, a table included in a document can be handled in the same way as a natural sentence. The reason is that it is possible to increase the amount of information when processing a document with many tables in natural language processing, and to contribute to improvement in accuracy.
In addition, it is possible to clarify relationships between table elements not described in sentences (text) other than tables. The reason is that the structure between table elements with different roles in the table (column heading and row heading, column heading and item, etc.) is extracted from text (text) other than the table, and the relationship between the roles is estimated. Because.
The table information conversion system 100A according to the second embodiment of the present invention can be realized as a table information conversion method. The table information conversion system 100A according to the second embodiment of the present invention may be executed by a table information conversion program.

次に、具体的な実施例を用いて、図5に示した表情報変換システム100Aの動作について説明する。なお、本発明は以下の動作例に限定されるものではない。
図7、図8を参照して、表要素関連文抽出部30の実施例について説明する。
ドキュメント(文書)中に図7の表T1が含まれていたとする。表要素はこの場合、「評価項目」「計算量」「A手法」といったセルの中の文字列である。表要素関連文抽出部30は、これらの表要素を含む文(表要素関連文)をドキュメント(文書)中の文章から検索する。その際、表要素関連文抽出部30は、表要素と完全に一致する文字列だけでなく、表要素と部分一致する文字列や多少揺れがある文字列も検索の対象としても良い。また、表要素関連文抽出部30は、同義語・類義語辞書を用いて表要素の同義語や類義語を検索対象としても良い。
図8に、表T1の表要素関連文の例を示す。各抽出文の下線部が表要素と関連する部分(以下、「表要素関連部」と呼ぶ)である。
図8〜図10を参照して、表要素間関係推定部40の実施例について説明する。
図9に、概念的構造関係推定ルールデータベース110の例を示す。表T2の一列目と一致する文字列が、表要素関連文抽出部30で抽出した抽出文に含まれていた場合、表要素間関係推定部40は、XとYの関係を表T2の二列目に示す関係と推定する。X、Yは任意の表要素関連部である。
図8の例では、五文目に「B手法の計算量」という記述があり、表T2の二列目のフォーマットと一致するため、表要素間関係推定部40は、「B手法」と「計算量」がhas−a関係と推定する。
また、図8の同じく五文目に「ユーザへの負荷は中程度である」という記述があり、表T2の三列目のフォーマットと一致するため、表要素間関係推定部40は、「ユーザへの負荷」と「中程度」がis−a関係と推定する。
また、図8の一文目に「A手法、B手法、C手法」という記述があり、「A手法、B手法」が表T2の四列目のフォーマットと一致するため、表要素間関係推定部40は、「A手法」と「B手法」が並列関係であると推定する。さらに、表要素間関係推定部40は、「B手法、C手法」も同様の理由で並列関係であると推定する。
また、図8の二文目に「評価項目は計算量と精度とユーザの負荷である」という記述があり、is−a関係のフォーマットと一致する。被接続項Xにあたるのが「評価項目」で、被接続項Yにあたるのが「計算量と精度とユーザの負荷」であるが、被接続項Yは表要素を含んでいるため、表要素間関係推定部40は、各表要素にis−a関係を適用し、「評価項目」と「計算量」、「評価項目」と「精度」、「評価項目」と「ユーザの負荷」がis−a関係であるとすればよい。
ここまでの処理で一部の表要素同士の関係を推定したが、それ以外の表要素の関係を推定するため、表要素間関係推定部40は、表構造推定部20で推定した表の構造を利用する。
例えば、「B手法」と「計算量」がhas−a関係ということが分かっており、「B手法」は列見出しであり、「計算量」は行見出しということが分かっているため、表要素間関係推定部40は、「列見出しの表要素と行見出しの表要素がhas−a関係である」と一般化できる。
同様に、「ユーザへの負荷(=ユーザの負荷)」と「中程度」がis−a関係ということが分かっており、「ユーザの負荷」は行見出し、「中程度」は内容記載欄であるということが分かっているため、表要素間関係推定部40は、「行見出しと内容記載欄はis−a関係である」と一般化できる。
表要素間関係推定部40は、このような表構造同士の関係を構造関係情報として、図10の表T3に示すような形式で、表要素間関係データベース120に保管する。
次に、図11〜図14を参照して、表情報変換部50の実施例について説明する。
図11に、表構成情報を文章に変換する際の結合パターンの例を示す。表T4の一列目は表要素Xと表要素Yの関係、二列目は表構成情報から文章への変換規則である。
例えば、表要素間関係情報として、「行見出しと内容記載欄はis−a関係である」ということが分かっており、表構造情報から「計算量」、「精度」、「ユーザの負荷」が行見出しの表要素であることや、「小」、「大」、「低い」などが内容記載欄の表要素であることが分かっているため、「計算量」と「小」はis−a関係であることが分かる。よって、表情報変換部50は、変換規則に則って「計算量は小、」と変換する。
表T4の例では、is−a関係の変換規則は最終行(列)かそれ以外かで変換規則が異なるため、表情報変換部50は、一行三列目の表要素「大」を文章に変換する際は、「計算量は大である。」と変換する。そして、表情報変換部50は、変換された文を再構成表情報として、再構成表情報出力部60に提示する。
また、図7と図12〜図14を参照して、表構成情報を共起ベクトルに変換する例について説明する。
図12、図13に、共起ベクトルに変換する際の結合パターンの例を示す。
図12の表T5は、共通見出しと行見出し、共通見出しと列見出しの概念的な構造関係の組み合わせにより共通見出し、行見出し、列見出しに含まれる表要素が共起とみなせるか否かを対応付けた表である。
例えば、図7の表T1では、共通見出しの表要素である「評価項目」と列見出しの表要素である「A手法」は無関係であり、「評価項目」と行見出しの表要素である「計算量」はis−a関係である。このとき、表情報変換部50は、表T5を参照して、「評価項目」と行見出しである「計算量」は共起関係にあり、列見出しである「A手法」とは共起関係にないとみなす。この情報を反映して、共起ベクトルとした例を図14に示す。表T7の一行目の表要素と一列目の表要素に共起関係があった数を内容記載欄に記載している。
図13の表T6は、行見出しと列見出し、行見出しと内容、列見出しと内容の概念的な構造関係の組み合わせにより行見出し、列見出し、内容に含まれる表要素が共起とみなせるか否かを対応付けた表である。
例えば、図7の表T1では、行見出しの表要素である「計算量」と列見出しの表要素である「A手法」はhas−a関係であり、「計算量」と内容記載欄の表要素である「小」はis−a関係であり、「A手法」と「小」は無関係である。このとき、表情報変換部50は、表T6を参照して、「計算量」と列見出しである「A手法」は共起関係にあり、内容記載欄の表要素である「小」とも共起関係にあるとみなす。
図14の表T7では、これらの共起関係も反映している。
結合パターンデータベース130では、例に挙げた共通見出し、行見出し、列見出し、内容の他にタイトルとの概念的な構造関係から共起とみなす表要素を限定してもよい。このように概念的な構造関係と表の構造から共起とみなす表要素を限定することが可能である。
以上説明したように、本発明の実施例に係る表情報変換システムによれば、表の情報を表要素の役割を考慮して、文章や共起ベクトルといった情報へ変換することで、表の情報を自然文と同様に扱えるため、表の多いドキュメント(文書)を自然言語処理する際に情報量が増えて、精度向上に寄与することができる。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)文書中に含まれる表の情報を理解する表情報理解システムであって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書入力部と、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定部と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出部と、
接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を前記概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と、
前記表要素間関係情報と前記構造関係情報とを蓄積する表要素間関係データベースと、
を少なくとも具備することを特徴とする表情報理解システム。
(付記2)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含む、
付記1に記載の表情報理解システム。
(付記3)文書中に含まれる表の情報を変換する表情報変換システムであって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書入力部と、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定部と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出部と、
接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を前記概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と、
前記表要素間関係情報と前記構造関係情報とを蓄積する表要素間関係データベースと、
前記表要素間の概念的な構造関係により前記表の情報を共起情報および文章の少なくとも1つへ変換するルールを対応付けた結合パターンを蓄積する結合パターンデータベースと、
前記表要素間関係情報と前記構造関係情報と前記結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換部と、
前記再構成表情報を出力する再構成表情報出力部と、
を少なくとも具備することを特徴とする表情報変換システム。
(付記4)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含み、
前記再構成表情報は、文章又は共起ベクトルから成る、付記3に記載の表情報変換システム。
(付記5)前記表情報変換部は、前記表要素間関係情報と前記結合パターンとを参照して、前記表要素同士を特定の文字列で結合し、前記表の情報を前記文章に変換することを特徴とする付記3又は4に記載の表情報変換システム。
(付記6)前記表情報変換部は、前記表要素間関係情報と前記結合パターンとを参照し、前記表の情報を、前記表要素の共起情報を表す共起ベクトルとして前記再構成表情報に変換することを特徴とする付記3又は4に記載の表情報変換システム。
(付記7)文書中に含まれる表の情報を理解する表情報理解方法であって、
文章と表情報を含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付工程と、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定工程と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出工程と、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定工程と、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する工程と、
を含むことを特徴とする表情報理解方法。
(付記8)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくも示し、
前記表の構造は、見出しおよび内容記載欄を含む、
付記7に記載の表情報理解方法。
(付記9)文書中に含まれる表の情報を変換する表情報変換方法であって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付工程と、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定工程と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出工程と、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定工程と、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する工程と、
前記表要素間関係情報と前記構造関係情報と結合パターンデータベースに蓄積された結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換工程と、
前記再構成表情報を出力する再構成表情報出力工程と、
を含むことを特徴とする表情報変換方法。
(付記10)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含み、
前記再構成表情報は、文章又は共起ベクトルから成る、付記9に記載の表情報変換方法。
(付記11)前記表情報変換工程は、前記表要素間関係情報と前記結合パターンとを参照して、前記表要素同士を特定の文字列で結合し、前記表の情報を前記文章に変換する、付記9又は10に記載の表情報変換方法。
(付記12)前記表情報変換工程は、前記表要素間関係情報と前記結合パターンとを参照し、前記表の情報を、前記表要素の共起情報を表す共起ベクトルとして前記再構成表情報に変換する、付記9又は10に記載の表情報変換方法。
(付記13)コンピュータに、文書中に含まれる表の情報を理解させる表情報理解プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータを、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出させる文書受付手段、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定手段、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出手段、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルール基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定手段、
前記表要素間関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する手段、
として機能させるための表情報理解プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記14)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含む、
付記13に記載の表情報理解プログラム。
(付記15)コンピュータに、文書中に含まれる表の情報を変換させる表情報変換プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータを、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付手段、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定手段、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出手段、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定手段、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する手段、
前記表要素間関係情報と前記構造関係情報と結合パターンデータベースに蓄積された結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換手段、
前記再構成表情報を出力する再構成表情報出力手段、
として機能させるための表情報変換プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記16)前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含み、
前記再構成表情報は、文章又は共起ベクトルから成る、付記15に記載の表情報変換プログラム。
(付記17)前記表情報変換手段は、前記表要素間関係情報と前記結合パターンとを参照して、前記表要素同士を特定の文字列で結合し、前記表の情報を前記文章に変換する、付記15又は16に記載の表情報変換プログラム。
(付記18)前記表情報変換手段は、前記表要素間関係情報と前記結合パターンとを参照し、前記表の情報を、前記表要素の共起情報を表す共起ベクトルとして前記再構成表情報に変換する、付記15又は17に記載の表情報変換プログラム。
Next, the operation of the table information conversion system 100A shown in FIG. 5 will be described using a specific embodiment. The present invention is not limited to the following operation examples.
An embodiment of the table element related sentence extraction unit 30 will be described with reference to FIGS.
Assume that the table (document) includes the table T1 of FIG. In this case, the table element is a character string in the cell such as “evaluation item”, “computation amount”, and “A method”. The table element related sentence extraction unit 30 searches the sentences (documents) in the document (document) for sentences including these table elements (table element related sentences). At that time, the table element related sentence extraction unit 30 may search not only a character string that completely matches the table element, but also a character string that partially matches the table element or a character string that slightly fluctuates. Further, the table element related sentence extraction unit 30 may search for synonyms and synonyms of the table elements using a synonym / synonym dictionary.
FIG. 8 shows an example of a table element related sentence of the table T1. The underlined portion of each extracted sentence is a portion related to the table element (hereinafter referred to as “table element related portion”).
With reference to FIGS. 8-10, the Example of the table element relationship estimation part 40 is described.
FIG. 9 shows an example of the conceptual structure relationship estimation rule database 110. When the character string that matches the first column of the table T2 is included in the extracted sentence extracted by the table element related sentence extracting unit 30, the inter-table element relationship estimating unit 40 determines the relationship between X and Y in the table T2. The relationship shown in the column is estimated. X and Y are arbitrary table element related parts.
In the example of FIG. 8, there is a description “computation amount of the B method” in the fifth sentence, which matches the format of the second column of the table T2, so the table element relationship estimation unit 40 determines that “B method” and “ The “computation amount” is estimated to have a has-a relationship.
Similarly, in the fifth sentence of FIG. 8, there is a description that “the load on the user is medium”, which matches the format in the third column of the table T2, so the table element relation estimating unit 40 It is estimated that “load to” and “medium” are is-a relationships.
In addition, since there is a description “A method, B method, C method” in the first sentence of FIG. 8 and “A method, B method” matches the format of the fourth column of table T2, the table element relationship estimation unit 40, it is estimated that the “A method” and the “B method” have a parallel relationship. Further, the inter-table element relationship estimation unit 40 estimates that the “B method, C method” is also a parallel relationship for the same reason.
Further, in the second sentence of FIG. 8, there is a description that “the evaluation item is the calculation amount, the accuracy, and the user's load”, which is consistent with the is-a related format. The connected term X corresponds to the “evaluation item”, and the connected term Y corresponds to the “computation amount, accuracy, and user load”, but the connected term Y includes table elements. The relationship estimation unit 40 applies the is-a relationship to each table element, and “evaluation item” and “computation amount”, “evaluation item” and “accuracy”, “evaluation item” and “user load” are is−. What is necessary is just to be a relationship.
Although the relationship between some table elements has been estimated by the processing so far, the relationship between table elements is estimated by the table structure estimation unit 20 in order to estimate the relationship between other table elements. Is used.
For example, it is known that “Method B” and “computation amount” have a has-a relationship, “B method” is a column heading, and “computation amount” is a row heading. The inter-relationship estimation unit 40 can be generalized as “the table element of the column heading and the table element of the row heading have a has-a relationship”.
Similarly, it is known that “user load (= user load)” and “medium” are is-a relationships, “user load” is a line heading, and “medium” is a content description column. Since it is known that there is, the table element relationship estimating unit 40 can generalize that “the row heading and the content description column have an is-a relationship”.
The table element relationship estimation unit 40 stores the relationship between the table structures as the structure relationship information in the table element relationship database 120 in the format shown in the table T3 of FIG.
Next, an example of the table information conversion unit 50 will be described with reference to FIGS.
FIG. 11 shows an example of a connection pattern when converting table structure information into a sentence. The first column of the table T4 is the relationship between the table element X and the table element Y, and the second column is a conversion rule from table configuration information to text.
For example, it is known that “row heading and content description column are is-a relationship” as the relationship information between table elements, and “calculation amount”, “accuracy”, and “user load” are determined from the table structure information. Since it is known that it is a table element of a row heading, and “small”, “large”, “low”, etc. are table elements in the content description column, “computation amount” and “small” are is-a It turns out that it is a relationship. Therefore, the table information conversion unit 50 converts “the amount of calculation is small” according to the conversion rule.
In the example of Table T4, since the conversion rule for the is-a relationship is different depending on whether it is the last row (column) or not, the table information conversion unit 50 converts the table element “large” in the first row and third column into a sentence. At the time of conversion, “the amount of calculation is large” is converted. Then, the table information conversion unit 50 presents the converted sentence to the reconstruction table information output unit 60 as reconstruction table information.
An example of converting table configuration information into co-occurrence vectors will be described with reference to FIGS. 7 and 12 to 14.
FIG. 12 and FIG. 13 show examples of coupling patterns when converting into co-occurrence vectors.
Table T5 in FIG. 12 corresponds to whether or not the table elements included in the common heading, the row heading, and the column heading can be regarded as co-occurrence by the combination of the conceptual structure relation of the common heading and the row heading and the common heading and the column heading. It is a table attached.
For example, in the table T1 in FIG. 7, the “evaluation item” that is the table element of the common heading and the “A method” that is the table element of the column heading are irrelevant. The “computation amount” is an is-a relationship. At this time, the table information conversion unit 50 refers to the table T5, and the “evaluation item” and the “calculation amount” that is the row heading have a co-occurrence relationship, and the “A method” that is the column heading has a co-occurrence relationship. It is considered that it is not. An example of co-occurrence vectors reflecting this information is shown in FIG. The number of co-occurrence relationships between the table element in the first row and the table element in the first column in the table T7 is described in the content description column.
The table T6 in FIG. 13 indicates whether or not the table elements included in the row heading, the column heading, and the content can be regarded as co-occurrence by a combination of the row heading and the column heading, the row heading and the content, and the conceptual structural relationship between the column heading and the content. It is a table in which
For example, in the table T1 of FIG. 7, the “calculation amount” that is the table element of the row heading and the “A method” that is the table element of the column heading have a has-a relationship, The element “small” is an is-a relationship, and “method A” and “small” are irrelevant. At this time, the table information conversion unit 50 refers to the table T6 and “calculation amount” and the “A method” that is the column heading are in a co-occurrence relationship, and is also shared with “small” that is the table element in the content description column. It is considered to have a starting relationship.
Table T7 in FIG. 14 also reflects these co-occurrence relationships.
In the connection pattern database 130, in addition to the common headings, row headings, column headings, and contents given as examples, table elements that are considered to be co-occurrence may be limited from a conceptual structural relationship with the title. In this way, it is possible to limit the table elements regarded as co-occurrence from the conceptual structural relationship and the table structure.
As described above, according to the table information conversion system according to the embodiment of the present invention, table information is converted into information such as sentences and co-occurrence vectors in consideration of the role of table elements. Can be handled in the same manner as a natural sentence, the amount of information increases when a document (document) with many tables is processed in a natural language, which contributes to an improvement in accuracy.
While the present invention has been described with reference to the embodiments (and examples), the present invention is not limited to the above embodiments (and examples). Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(Supplementary note 1) A table information understanding system for understanding table information included in a document,
A document input unit that accepts input of a document including a sentence and a table, and extracts a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation unit for estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting unit that extracts a table element related sentence related to a plurality of table elements indicating a character string in a cell of the table from the sentence;
A conceptual structure relationship estimation rule database that accumulates conceptual structure relationship estimation rules, which associates a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structure relationship;
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rule, and the inter-table element relationship information and the table structure information Based on the above, inter-table element relationship estimation unit for estimating the structural relationship information indicating the conceptual structural relationship between the table structures,
A table element relation database for storing the table element relation information and the structure relation information;
A table information understanding system comprising at least
(Additional remark 2) The said table | surface structure information shows at least the character string, ruled line, and background color which comprise the said table | surface,
The structure of the table includes a heading and a description column,
Table information understanding system according to appendix 1.
(Supplementary note 3) A table information conversion system for converting table information included in a document,
A document input unit that accepts input of a document including a sentence and a table, and extracts a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation unit for estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting unit that extracts a table element related sentence related to a plurality of table elements indicating a character string in a cell of the table from the sentence;
A conceptual structure relationship estimation rule database that accumulates conceptual structure relationship estimation rules, which associates a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structure relationship;
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rule, and the inter-table element relationship information and the table structure information Based on the above, inter-table element relationship estimation unit for estimating the structural relationship information indicating the conceptual structural relationship between the table structures,
A table element relation database for storing the table element relation information and the structure relation information;
A coupling pattern database that accumulates a coupling pattern that associates a rule that converts the information in the table into at least one of co-occurrence information and text according to a conceptual structural relationship between the table elements;
A table information conversion unit that converts information of the table into reconstructed table information in which the table elements are combined based on the table element relationship information, the structure relationship information, the connection pattern, and the table structure information;
A reconstruction table information output unit for outputting the reconstruction table information;
A table information conversion system comprising at least:
(Additional remark 4) The said table | surface structure information shows at least the character string, ruled line, and background color which comprise the said table | surface,
The structure of the table includes a heading and a description column,
The table information conversion system according to appendix 3, wherein the reconstructed table information includes a sentence or a co-occurrence vector.
(Additional remark 5) The said table information conversion part couple | bonds the said table elements with a specific character string with reference to the said relationship information between table elements and the said combination pattern, and converts the information of the said table into the said text. The table information conversion system according to appendix 3 or 4, characterized by the above.
(Additional remark 6) The said table information conversion part refers to the said table element relationship information and the said connection pattern, and uses the said information of the said table as the co-occurrence vector showing the co-occurrence information of the said table element, and the said reconstruction table information The table information conversion system according to appendix 3 or 4, wherein the table information conversion system is converted into the table information.
(Supplementary note 7) A table information understanding method for understanding table information included in a document,
A document receiving step of accepting an input of a document including a sentence and table information, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation step of estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting step for extracting, from the sentence, a table element related sentence related to a plurality of table elements indicating character strings in the cells of the table;
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the inter-table element relation information and the table structure information, an inter-table element relation estimating step for estimating structural relation information indicating a conceptual structural relation between the table structures;
Storing the table element relation information and the structure relation information in a table element relation database;
A table information understanding method characterized by including:
(Appendix 8) The table configuration information indicates at least a character string, ruled line, and background color that constitute the table,
The structure of the table includes a heading and a description column,
Table information understanding method according to appendix 7.
(Supplementary note 9) A table information conversion method for converting table information included in a document,
A document receiving step of accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation step of estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting step for extracting, from the sentence, a table element related sentence related to a plurality of table elements indicating character strings in the cells of the table;
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the inter-table element relation information and the table structure information, an inter-table element relation estimating step for estimating structural relation information indicating a conceptual structural relation between the table structures;
Storing the table element relation information and the structure relation information in a table element relation database;
Based on the table element relation information, the structure relation information, the join pattern stored in the join pattern database, and the table structure information, the table information is converted into reconstructed table information that joins the table elements. Table information conversion process,
A reconstruction table information output step for outputting the reconstruction table information;
A table information conversion method comprising:
(Additional remark 10) The said table structure information shows at least the character string, ruled line, and background color which comprise the said table | surface,
The structure of the table includes a heading and a description column,
The table information conversion method according to appendix 9, wherein the reconstruction table information is composed of a sentence or a co-occurrence vector.
(Supplementary Note 11) The table information conversion step refers to the table element relation information and the combination pattern, combines the table elements with a specific character string, and converts the table information into the text. The table information conversion method according to appendix 9 or 10.
(Supplementary Note 12) The table information conversion step refers to the table element relation information and the connection pattern, and uses the table information as the co-occurrence vector representing the co-occurrence information of the table elements. The table information conversion method according to appendix 9 or 10, wherein the table information conversion method is performed.
(Supplementary note 13) A computer-readable recording medium recording a table information understanding program for causing a computer to understand information of a table included in a document, the computer comprising:
Document accepting means for accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
Table structure estimation means for estimating table structure information indicating the structure of the table from the table configuration information,
Table element related sentence extracting means for extracting a table element related sentence related to a plurality of table elements indicating character strings in the table cell from the sentence,
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, and Based on the table element relationship information and the table structure information, the table element relationship estimation means for estimating the structure relationship information indicating the conceptual structure relationship between the table structures,
Means for storing the table element relation information and the structure relation information in a table element relation database;
A computer-readable recording medium on which a table information understanding program for functioning as a computer is recorded.
(Additional remark 14) The said table | surface structure information shows at least the character string, ruled line, and background color which comprise the said table | surface,
The structure of the table includes a heading and a description column,
Table information understanding program according to appendix 13.
(Supplementary note 15) A computer-readable recording medium having recorded thereon a table information conversion program for causing a computer to convert table information included in a document, the computer comprising:
Document accepting means for accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
Table structure estimation means for estimating table structure information indicating the structure of the table from the table configuration information,
Table element related sentence extracting means for extracting a table element related sentence related to a plurality of table elements indicating character strings in the table cell from the sentence,
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the table element relationship information and the table structure information, a table element relationship estimation means for estimating structure relationship information indicating a conceptual structure relationship between the table structures;
Means for storing the table element relation information and the structure relation information in a table element relation database;
Based on the table element relation information, the structure relation information, the join pattern stored in the join pattern database, and the table structure information, the table information is converted into reconstructed table information that joins the table elements. Table information conversion means,
Reconfiguration table information output means for outputting the reconfiguration table information;
A computer-readable recording medium in which a table information conversion program for functioning as a computer is recorded.
(Additional remark 16) The said table structure information shows at least the character string which comprises the said table, a ruled line, and a background color,
The structure of the table includes a heading and a description column,
The table information conversion program according to appendix 15, wherein the reconstruction table information is composed of a sentence or a co-occurrence vector.
(Supplementary Note 17) The table information conversion means refers to the table element relation information and the combination pattern, combines the table elements with a specific character string, and converts the table information into the text. The table information conversion program according to Supplementary Note 15 or 16.
(Supplementary Note 18) The table information conversion means refers to the table element relation information and the connection pattern, and uses the table information as the co-occurrence vector representing the co-occurrence information of the table element. The table information conversion program according to appendix 15 or 17, which is converted into:

本発明は、表が多く含まれる仕様書やWebページ等のドキュメントの表情報を一括でドキュメントに変換したり、意味付けをしたりすることに利用可能である。   INDUSTRIAL APPLICABILITY The present invention can be used to convert table information of documents such as specifications and Web pages including many tables into documents at once and to give meanings.

10 文書入力部
20 表構造推定部
30 表要素関連文抽出部
40 表要素間関係推定部
50 表情報変換部
60 再構成表情報出力部
100 表情報理解システム
100A 表情報変換システム
110 概念的構造関係推定ルールデータベース
120 表要素間関係データベース
130 結合パターンデータベース
この出願は、2012年6月29日に出願された、日本特許出願第2012−147319号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
DESCRIPTION OF SYMBOLS 10 Document input part 20 Table structure estimation part 30 Table element related sentence extraction part 40 Table element relation estimation part 50 Table information conversion part 60 Reconstructed table information output part 100 Table information understanding system 100A Table information conversion system 110 Conceptual structural relation Estimated rule database 120 Table element relation database 130 Join pattern database This application claims priority based on Japanese Patent Application No. 2012-147319 filed on June 29, 2012, and discloses all of the disclosure. Into here.

Claims (10)

文書中に含まれる表の情報を理解する表情報理解システムであって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書入力部と、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定部と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出部と、
接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を前記概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と、
前記表要素間関係情報と前記構造関係情報とを蓄積する表要素間関係データベースと、
を少なくとも具備することを特徴とする表情報理解システム。
A table information understanding system for understanding table information included in a document,
A document input unit that accepts input of a document including a sentence and a table, and extracts a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation unit for estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting unit that extracts a table element related sentence related to a plurality of table elements indicating a character string in a cell of the table from the sentence;
A conceptual structure relationship estimation rule database that accumulates conceptual structure relationship estimation rules, which associates a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structure relationship;
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rule, and the inter-table element relationship information and the table structure information Based on the above, inter-table element relationship estimation unit for estimating the structural relationship information indicating the conceptual structural relationship between the table structures,
A table element relation database for storing the table element relation information and the structure relation information;
A table information understanding system comprising at least
前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含む、
請求項1に記載の表情報理解システム。
The table configuration information indicates at least a character string, a ruled line, and a background color that configure the table,
The structure of the table includes a heading and a description column,
The table information understanding system according to claim 1.
文書中に含まれる表の情報を変換する表情報変換システムであって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書入力部と、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定部と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出部と、
接続符と2つの被接続項の表記パターンを収集したフォーマットと、概念的な構造関係とを対応付けた、概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を前記概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部と、
前記表要素間関係情報と前記構造関係情報とを蓄積する表要素間関係データベースと、
前記表要素間の概念的な構造関係により前記表の情報を共起情報および文章の少なくとも1つへ変換するルールを対応付けた結合パターンを蓄積する結合パターンデータベースと、
前記表要素間関係情報と前記構造関係情報と前記結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換部と、
前記再構成表情報を出力する再構成表情報出力部と、
を少なくとも具備することを特徴とする表情報変換システム。
A table information conversion system for converting table information included in a document,
A document input unit that accepts input of a document including a sentence and a table, and extracts a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation unit for estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting unit that extracts a table element related sentence related to a plurality of table elements indicating a character string in a cell of the table from the sentence;
A conceptual structure relationship estimation rule database that accumulates conceptual structure relationship estimation rules, which associates a format that collects notation patterns of connecting marks and two connected terms, and a conceptual structure relationship;
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rule, and the inter-table element relationship information and the table structure information Based on the above, inter-table element relationship estimation unit for estimating the structural relationship information indicating the conceptual structural relationship between the table structures,
A table element relation database for storing the table element relation information and the structure relation information;
A coupling pattern database that accumulates a coupling pattern that associates a rule that converts the information in the table into at least one of co-occurrence information and text according to a conceptual structural relationship between the table elements;
A table information conversion unit that converts information of the table into reconstructed table information in which the table elements are combined based on the table element relationship information, the structure relationship information, the connection pattern, and the table structure information;
A reconstruction table information output unit for outputting the reconstruction table information;
A table information conversion system comprising at least:
前記表構成情報は、前記表を構成する文字列、罫線、および背景色を少なくとも示し、
前記表の構造は、見出しおよび内容記載欄を含み、
前記再構成表情報は、文章又は共起ベクトルから成る、請求項3に記載の表情報変換システム。
The table configuration information indicates at least a character string, a ruled line, and a background color that configure the table,
The structure of the table includes a heading and a description column,
The table information conversion system according to claim 3, wherein the reconstructed table information includes a sentence or a co-occurrence vector.
前記表情報変換部は、前記表要素間関係情報と前記結合パターンとを参照して、前記表要素同士を特定の文字列で結合し、前記表の情報を前記文章に変換することを特徴とする請求項3又は4に記載の表情報変換システム。   The table information conversion unit refers to the table element relation information and the combination pattern, combines the table elements with a specific character string, and converts the table information into the text. The table information conversion system according to claim 3 or 4. 前記表情報変換部は、前記表要素間関係情報と前記結合パターンとを参照し、前記表の情報を、前記表要素の共起情報を表す共起ベクトルとして前記再構成表情報に変換することを特徴とする請求項3又は4に記載の表情報変換システム。   The table information conversion unit converts the table information into the reconstructed table information as co-occurrence vectors representing the co-occurrence information of the table elements with reference to the table element relation information and the connection pattern. The table information conversion system according to claim 3 or 4, characterized in that: 文書中に含まれる表の情報を理解する表情報理解方法であって、
文章と表情報を含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付工程と、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定工程と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出工程と、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定工程と、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する工程と、
を含むことを特徴とする表情報理解方法。
A table information understanding method for understanding table information included in a document,
A document receiving step of accepting an input of a document including a sentence and table information, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation step of estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting step for extracting, from the sentence, a table element related sentence related to a plurality of table elements indicating character strings in the cells of the table;
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the inter-table element relation information and the table structure information, an inter-table element relation estimating step for estimating structural relation information indicating a conceptual structural relation between the table structures;
Storing the table element relation information and the structure relation information in a table element relation database;
A table information understanding method characterized by including:
文書中に含まれる表の情報を変換する表情報変換方法であって、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付工程と、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定工程と、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出工程と、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定工程と、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する工程と、
前記表要素間関係情報と前記構造関係情報と結合パターンデータベースに蓄積された結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換工程と、
前記再構成表情報を出力する再構成表情報出力工程と、
を含むことを特徴とする表情報変換方法。
A table information conversion method for converting table information included in a document,
A document receiving step of accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
A table structure estimation step of estimating table structure information indicating the structure of the table from the table configuration information;
A table element related sentence extracting step for extracting, from the sentence, a table element related sentence related to a plurality of table elements indicating character strings in the cells of the table;
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the inter-table element relation information and the table structure information, an inter-table element relation estimating step for estimating structural relation information indicating a conceptual structural relation between the table structures;
Storing the table element relation information and the structure relation information in a table element relation database;
Based on the table element relation information, the structure relation information, the join pattern stored in the join pattern database, and the table structure information, the table information is converted into reconstructed table information that joins the table elements. Table information conversion process,
A reconstruction table information output step for outputting the reconstruction table information;
A table information conversion method comprising:
コンピュータに、文書中に含まれる表の情報を理解させる表情報理解プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータを、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出させる文書受付手段、
前記表構成情報から前記表の構造を示す表構造情報を推定する表構造推定手段、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出手段、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルール基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定手段、
前記表要素間関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する手段、
として機能させるための表情報理解プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium recorded with a table information understanding program for causing a computer to understand information of a table included in a document, the computer comprising:
Document accepting means for accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
Table structure estimation means for estimating table structure information indicating the structure of the table from the table configuration information,
Table element related sentence extracting means for extracting a table element related sentence related to a plurality of table elements indicating character strings in the table cell from the sentence,
Estimating inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, and Based on the table element relationship information and the table structure information, the table element relationship estimation means for estimating the structure relationship information indicating the conceptual structure relationship between the table structures,
Means for storing the table element relation information and the structure relation information in a table element relation database;
A computer-readable recording medium on which a table information understanding program for functioning as a computer is recorded.
コンピュータに、文書中に含まれる表の情報を変換させる表情報変換プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータを、
文章と表とを含む文書の入力を受け付けて、前記文章の文字列と前記表の構成を示す表構成情報とを抽出する文書受付手段、
前記表構成情報から表の構造を示す表構造情報を推定する表構造推定手段、
前記表のセル内の文字列を示す複数の表要素と関連する表要素関連文を、前記文章から抽出する表要素関連文抽出手段、
前記表要素関連文に含まれる前記表要素同士の概念的な構造関係を示す表要素間関係情報を、概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールに基づき推定すると共に、前記表要素間関係情報と前記表構造情報とに基づいて、前記表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定手段、
前記表要素関係情報と前記構造関係情報とを表要素間関係データベースに蓄積する手段、
前記表要素間関係情報と前記構造関係情報と結合パターンデータベースに蓄積された結合パターンと前記表構造情報とに基づき、前記表の情報を、前記表要素間を結合した再構成表情報に変換する表情報変換手段、
前記再構成表情報を出力する再構成表情報出力手段、
として機能させるための表情報変換プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium recording a table information conversion program for causing a computer to convert table information included in a document, the computer comprising:
Document accepting means for accepting input of a document including a sentence and a table, and extracting a character string of the sentence and table configuration information indicating a configuration of the table;
Table structure estimation means for estimating table structure information indicating the structure of the table from the table configuration information,
Table element related sentence extracting means for extracting a table element related sentence related to a plurality of table elements indicating character strings in the table cell from the sentence,
Estimating the inter-table element relationship information indicating the conceptual structural relationship between the table elements included in the table element-related sentence, based on the conceptual structural relationship estimation rules stored in the conceptual structural relationship estimation rule database, Based on the table element relationship information and the table structure information, a table element relationship estimation means for estimating structure relationship information indicating a conceptual structure relationship between the table structures;
Means for storing the table element relation information and the structure relation information in a table element relation database;
Based on the table element relation information, the structure relation information, the join pattern stored in the join pattern database, and the table structure information, the table information is converted into reconstructed table information that joins the table elements. Table information conversion means,
Reconfiguration table information output means for outputting the reconfiguration table information;
A computer-readable recording medium in which a table information conversion program for functioning as a computer is recorded.
JP2014522467A 2012-06-29 2013-04-18 Table information understanding system, table information conversion system, method, and recording medium Active JP6168309B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012147319 2012-06-29
JP2012147319 2012-06-29
PCT/JP2013/062147 WO2014002601A1 (en) 2012-06-29 2013-04-18 Table information recognition system, table information conversion system, method, and recording medium

Publications (2)

Publication Number Publication Date
JPWO2014002601A1 JPWO2014002601A1 (en) 2016-05-30
JP6168309B2 true JP6168309B2 (en) 2017-07-26

Family

ID=49782776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014522467A Active JP6168309B2 (en) 2012-06-29 2013-04-18 Table information understanding system, table information conversion system, method, and recording medium

Country Status (2)

Country Link
JP (1) JP6168309B2 (en)
WO (1) WO2014002601A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6480380B2 (en) * 2016-05-17 2019-03-06 日本電信電話株式会社 Table cell search apparatus, method, and program
JP6853474B2 (en) * 2016-09-30 2021-03-31 キヤノンマーケティングジャパン株式会社 Information processing equipment, control methods, and programs
JP2021009591A (en) 2019-07-02 2021-01-28 株式会社日立製作所 Data obtainment device, data obtainment method, and data obtainment program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116918A (en) * 2000-10-10 2002-04-19 Oki Electric Ind Co Ltd Storage medium having semantic analysis program of semantic analysis method program of program recorded thereon
JP2004213158A (en) * 2002-12-27 2004-07-29 Hiroshima Pref Gov Automatic retrieval server for information processing, and automatic information processing system and automatic information processing program
JP3992642B2 (en) * 2003-05-01 2007-10-17 日本電信電話株式会社 Voice scenario generation method, voice scenario generation device, and voice scenario generation program
JP2010134709A (en) * 2008-12-04 2010-06-17 Toshiba Corp Device and method for detection of vocabulary error
JP2013105321A (en) * 2011-11-14 2013-05-30 Hitachi Ltd Document processing device, method of analyzing relationship between document constituents and program

Also Published As

Publication number Publication date
WO2014002601A1 (en) 2014-01-03
JPWO2014002601A1 (en) 2016-05-30

Similar Documents

Publication Publication Date Title
CN102254014B (en) Adaptive information extraction method for webpage characteristics
JP6434542B2 (en) Understanding tables for searching
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
JP6187877B2 (en) Synonym extraction system, method and recording medium
US20070150495A1 (en) Program for mapping of data schema
US20120059859A1 (en) Data Extraction Method, Computer Program Product and System
CN107590219A (en) Webpage personage subject correlation message extracting method
CN102662969B (en) Internet information object positioning method based on webpage structure semantic meaning
JP2006195980A (en) Method and device for detecting page delimiter such as header/footer in existing document
CN109145260A (en) A kind of text information extraction method
JP2005352888A (en) Notation fluctuation-responding dictionary creation system
JPWO2014002774A1 (en) Synonym extraction system, method and recording medium
JP6168309B2 (en) Table information understanding system, table information conversion system, method, and recording medium
JP6108212B2 (en) Synonym extraction system, method and program
Wu et al. Searching online book documents and analyzing book citations
Kuncham et al. Statistical sandhi splitter for agglutinative languages
CN102646099B (en) Pattern matching system, pattern mapping system, pattern matching method and pattern mapping method
JP2010272006A (en) Relation extraction apparatus, relation extraction method and program
JPWO2010150900A1 (en) Feature extraction apparatus, feature extraction method, and program
Zamorano et al. Design and development of Iberia: a corpus of scientific Spanish
CN113742447A (en) Knowledge graph question-answering method, medium and equipment based on query path generation
CN112818645A (en) Chemical information extraction method, device, equipment and storage medium
JP6817246B2 (en) Data processing equipment, data processing method and data processing program
Carme et al. The lixto project: Exploring new frontiers of web data extraction
Luo et al. Biotable: A tool to extract semantic structure of table in biology literature

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170613

R150 Certificate of patent or registration of utility model

Ref document number: 6168309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150