JP2013152662A - Table classification device, table classification method, and program - Google Patents

Table classification device, table classification method, and program Download PDF

Info

Publication number
JP2013152662A
JP2013152662A JP2012013789A JP2012013789A JP2013152662A JP 2013152662 A JP2013152662 A JP 2013152662A JP 2012013789 A JP2012013789 A JP 2012013789A JP 2012013789 A JP2012013789 A JP 2012013789A JP 2013152662 A JP2013152662 A JP 2013152662A
Authority
JP
Japan
Prior art keywords
classification
distance
elements
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012013789A
Other languages
Japanese (ja)
Inventor
Ayako Kuno
綾子 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012013789A priority Critical patent/JP2013152662A/en
Publication of JP2013152662A publication Critical patent/JP2013152662A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To classify tables included in a document on the basis of similarity in table constitution information.SOLUTION: As a table classification device, an information processing device comprises: a table constitution information extraction unit that extracts information constituting each individual table from a document as table constitution information; and a table classification unit that calculates an inter-table-element distance between respective elements in the individual table, discriminates a manner of continuation between table elements with a short distance, and classifies the individual table on the basis of the manner of continuation.

Description

本発明は、ドキュメント中に含まれる表を、表構成のパターンによって分類する技術に関する。   The present invention relates to a technique for classifying a table included in a document according to a table configuration pattern.

コンピュータでドキュメントを解析するにあたり、ドキュメント中に含まれる表をどのように扱うかが課題となっている。表は大抵、見出しとなる行・列とその見出しに沿った内容を格納するセルとで構成されている。表を正しく解析するためには、前述した表の構成をコンピュータに出来るだけ正しく認識させる必要がある。
そして、ドキュメント中に含まれる多くの表を一括で処理するためには、表の構成の近さによって表を分類することが望ましい場合がある。例えば、表を自然文に変換する際、表の一列目が見出しか、一行目が見出しか、あるいはその両方が見出しかによって処理を変えるのが望ましい。以下で説明する図10の表(T10)の例では、「時限は1、教科は国語、内容は俳句、教師は小塚。」というように一行目を二行目以降の要素に助詞と共に付与して変換すれば文章として成立するが、「時限は教科、1は国語、…」というように一列目を二列目以降の要素に付与すると文章として成立しなくなる。しかし、一列目が見出しになっている表ではこの逆の変換をするべきである。このように表の構成によって処理を変えなければならない場合、表を構成の近さで正しく分類することが重要である。
When a document is analyzed by a computer, how to handle a table included in the document is an issue. The table is generally composed of a row / column as a heading and a cell for storing contents along the heading. In order to correctly analyze the table, it is necessary to make the computer recognize the structure of the table as correctly as possible.
In order to process a large number of tables included in a document at once, it may be desirable to classify the tables according to the closeness of the table structures. For example, when converting a table into a natural sentence, it is desirable to change the processing depending on whether the first column of the table is a heading, the first row is a heading, or both are headings. In the example of the table (T10) in FIG. 10 described below, the first line is assigned to the elements on the second and subsequent lines, such as “Time is 1; subject is national language; content is haiku; teacher is Kozuka.” However, if the first column is assigned to the elements after the second column, such as “Time is subject, 1 is national language,...”, The sentence is not established. However, the reverse conversion should be applied to the table whose heading is the first column. When processing must be changed depending on the structure of the table, it is important to correctly classify the table according to the closeness of the structure.

表の構成をコンピュータに認識させるための従来技術に特許文献1、特許文献2がある。
特許文献1は、表の見出し部分である属性名領域とその方向(行方向か列方向か)を判定し、属性名と属性値を対とした表の抽出情報を生成する。その方法は、人名や地名などの名称や時間表現、金額表現といった固有表現を認識するための情報と、ツリー構造で各分野の用語を定義した辞書とを用いて固有表現と分野用語を認識し、タグ付けを行う。そして、行・列の先頭の表構造要素(セルの中身)とその他の表構造要素を比較し、どちらが上位概念になっているかを、タグを元に判別し、それにより属性名領域とその方向を判定する。
特許文献2は、表情報を表の形式で表示できない端末に表示する際、その端末に表示できる形式に変換するための技術である。表の構造を認識するために、表の背景色、文字の色・太さといった表項目の表示特徴と表の列数、行数、同じ値が同じ行(列)に並んでいるといった表の特徴によって表を分類し、一定のルールに沿って表を変換する。
Patent Documents 1 and 2 are conventional techniques for causing a computer to recognize the configuration of a table.
Patent Document 1 determines an attribute name area that is a heading portion of a table and its direction (whether it is a row direction or a column direction), and generates table extraction information in which attribute names and attribute values are paired. The method recognizes specific expressions and domain terms using information for recognizing specific expressions such as names, time expressions, and monetary expressions such as names of people and places, and a dictionary that defines the terms of each field in a tree structure. , Tagging. Then, the table structure element (cell contents) at the beginning of the row / column is compared with other table structure elements to determine which is the higher level concept based on the tag, and thereby the attribute name area and its direction Determine.
Patent Document 2 is a technique for converting table information into a format that can be displayed on a terminal when the table information is displayed on a terminal that cannot be displayed in a table format. To recognize the structure of the table, display characteristics of the table items such as the background color of the table, the color / thickness of the table, the number of columns in the table, the number of rows, the same values are arranged in the same row (column) The table is classified according to characteristics, and the table is converted according to certain rules.

特開2001−325284号公報JP 2001-325284 A 特開2001−331406号公報JP 2001-331406 A

しかしながら、上記特許文献1に記載された技術は、固有認識表現や分野用語が予め定義されていなければ、表構造の特定ができないという課題がある。また、属性名領域が先頭の一行(または一列)以外の部分に及ぶ構造をした特殊な表の場合は、表構造を特定できない。   However, the technique described in Patent Document 1 has a problem in that the table structure cannot be specified unless specific recognition expressions and field terms are defined in advance. In addition, in the case of a special table having a structure in which the attribute name area extends to a portion other than the first row (or one column), the table structure cannot be specified.

また、上記特許文献2に記載された技術は、予め定義された表の種別に沿って表を分類することはできるが、定義されていない表は分類することができない。よって、表を正しく分類するためには、分類したい表のパターンをすべて定義しておく必要がある。   Moreover, although the technique described in the said patent document 2 can classify | categorize a table along the kind of table defined beforehand, a table which is not defined cannot be classified. Therefore, in order to correctly classify a table, it is necessary to define all the table patterns to be classified.

このように、特許文献1および特許文献2に記載された技術では、所要にドキュメント中の表を分類しきれない問題がある。   As described above, the techniques described in Patent Document 1 and Patent Document 2 have a problem that the tables in the document cannot be classified as necessary.

本発明の目的は、ドキュメント中に含まれる表を、表の構成パターンにより自動的に分類する表分類装置、表分類方法、およびプログラムを提供することである。   An object of the present invention is to provide a table classification device, a table classification method, and a program for automatically classifying a table included in a document according to a table configuration pattern.

また、本発明の目的は、ドキュメント中に含まれている表から表構造情報を効率良く自動的に抽出する表分類装置、表分類方法、およびプログラムを提供することである。   Another object of the present invention is to provide a table classification device, a table classification method, and a program for automatically and efficiently extracting table structure information from a table included in a document.

本発明に係る表分類装置は、ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出部と、個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表の種類を分類する表分類部と、を少なくとも具備することを特徴とする。   The table classification device according to the present invention calculates a table configuration information extraction unit that extracts information constituting each table from the document as table configuration information, and calculates a distance between table elements between each element of each table, It is characterized by comprising at least a table classifying unit that identifies a method of continuation of table elements having a short distance and classifies each table type based on the method of continuation.

また、表分類装置は、抽出された表構成特徴もしくはユーザからの指定により、各分類中の一つの表の属性と属性値を組とした表のデータ構造を示す表構造情報を決定してデータ化すると共に、同じ分類とした残りの表について同じルールに基づく表構造としてデータ化する表構造情報決定部を更に含むことを特徴とする。   In addition, the table classification device determines the table structure information indicating the data structure of the table in which the attribute and attribute value of one table in each classification are paired according to the extracted table configuration feature or the designation from the user. And a table structure information determining unit that converts the remaining tables in the same classification into data as a table structure based on the same rule.

本発明によれば、事前の準備を要せずに、ドキュメントに含まれる表を表の構成パターンにより自動的に分類することが可能な表分類装置、表分類方法、およびプログラムを提供できる。   According to the present invention, it is possible to provide a table classification device, a table classification method, and a program capable of automatically classifying a table included in a document according to a table configuration pattern without requiring preparation in advance.

また、本発明によれば、ドキュメント中に含まれている表から表構造情報を効率良く自動的に抽出する表分類装置、表分類方法、およびプログラムを提供することである。   Another object of the present invention is to provide a table classification device, a table classification method, and a program for automatically and efficiently extracting table structure information from a table included in a document.

第1の発明を実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment of 1st invention. 第2の発明を実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of embodiment of 2nd invention. 第1の発明を実施の形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment of 1st invention. 第2の発明を実施の形態の動作を示す流れ図である。It is a flowchart which shows operation | movement of embodiment of 2nd invention. 形態素構成の距離計算の過程を示す図である。It is a figure which shows the process of the distance calculation of a morpheme structure. 分類する表の例を示す図である。It is a figure which shows the example of the table | surface to classify | categorize. 図6の表の表要素の文字数を示す図である。It is a figure which shows the number of characters of the table element of the table | surface of FIG. 図6の表の表要素の形態素構成を示す図である。It is a figure which shows the morpheme structure of the table element of the table | surface of FIG. 図6の表の表要素の文字種別構成を示す図である。It is a figure which shows the character classification structure of the table element of the table | surface of FIG. 図6の表の表要素の距離算出を列方向に行なう計算処理を示す説明図である。It is explanatory drawing which shows the calculation process which performs distance calculation of the table element of the table | surface of FIG. 6 in a column direction. 図6の表の表要素の距離算出を行方向に行なう計算処理を示す説明図である。It is explanatory drawing which shows the calculation process which performs distance calculation of the table element of the table | surface of FIG. 6 in a line direction. 表構造情報の例を示す図である。It is a figure which shows the example of table structure information. 表構造情報の例を示す図である。It is a figure which shows the example of table structure information.

次に、発明を実施するための形態について図面を参照して詳細に説明する。   Next, embodiments for carrying out the invention will be described in detail with reference to the drawings.

図1を参照すると、本発明の第1の実施の形態である表分類装置10は、表構成情報抽出部101と、記憶部110と、表分類部102と、表構造情報決定部103を少なくとも具備する。記憶部110は最小限、表構成情報111と、表構成情報112を有する。   Referring to FIG. 1, a table classification device 10 according to the first exemplary embodiment of the present invention includes at least a table configuration information extraction unit 101, a storage unit 110, a table classification unit 102, and a table structure information determination unit 103. It has. The storage unit 110 has at least table configuration information 111 and table configuration information 112.

また、本発明の第2の実施の形態として、第1の実施の形態の構成に加え、図2に示すとおり、表見出し特定部104と表再分類部105を具備していてもよい。その場合、記憶部110は、第1の実施の形態の構成に加え、見出し特定ルール113と、表分類ルール114を有する。   Further, as the second embodiment of the present invention, in addition to the configuration of the first embodiment, as shown in FIG. 2, a table header specifying unit 104 and a table reclassifying unit 105 may be provided. In that case, the storage unit 110 includes a headline specifying rule 113 and a table classification rule 114 in addition to the configuration of the first embodiment.

表構成情報抽出部101は、ドキュメントから個々の表を構成する情報を抽出する。すなわち、特定の形式で記述されたドキュメントから表の部分を読み取り、表の何行何列目にどのような文字列が配置されているかを示す情報を取得し、取得した情報を表構成情報111として、記憶部110に保管する手段である。
表構成情報は、表の中の位置を示す行番号、列番号と、セル同士の連結の有無を示す連結情報と、セルの中の文字列を示す表要素とから成る。
表構成情報の取得の仕方は、Hyper Text Markup Language(HTML)やExtensible Markup Language(XML)で記述されたドキュメントから、<TABLE>タグの中身を読み取って、表構成情報に変換する方法でもよいし、紙媒体からスキャナで文字列を読み取り、罫線部分を表とみなす方法でもよい。また、画像形式で記録されているドキュメントから、画像認識処理によって中身を読み取って、罫線部分を表とみなす方法でもよい。
また、表構成情報として、HTMLのタグ等から読み取った、表の背景色、文字の色、文字の太さ、罫線の種類などの情報を保存してもよい。
The table configuration information extraction unit 101 extracts information constituting each table from the document. That is, a table portion is read from a document described in a specific format, information indicating what kind of character string is arranged in what row and column of the table is acquired, and the acquired information is converted into table configuration information 111. As a means for storing in the storage unit 110.
The table configuration information includes a row number and a column number indicating positions in the table, connection information indicating whether or not cells are connected, and table elements indicating character strings in the cells.
The table structure information can be acquired by reading the contents of the <TABLE> tag from a document written in Hyper Text Markup Language (HTML) or Extensible Markup Language (XML) and converting it to table structure information. Alternatively, a method may be used in which a character string is read from a paper medium with a scanner and the ruled line portion is regarded as a table. Alternatively, a method may be used in which the contents of a ruled line portion are regarded as a table by reading the contents from a document recorded in an image format by image recognition processing.
Further, as the table configuration information, information read from an HTML tag or the like, such as a table background color, a character color, a character thickness, and a ruled line type may be stored.

表分類部102は、記憶部110に収集された個々の表に関する 表要素の文字数や、形態素の構成、文字種別の構成を表要素の特徴として、セル間(各要素間)でのそれらの違い(算出値の差)を表要素の距離(表要素間距離)として算出し、距離が近いセルがどのように連続しているか(以後、この特徴を表要素特徴と呼ぶ)を識別し、その表要素特徴によって個々の表を分類する手段である。この隣接セル間での違いが表れた表要素特徴を参照することで、表要素間の繋がりぐあいを全体的に把握して、どの表がどの表と同じであるか識別して分類を行なうことが可能となる。   The table classification unit 102 uses the number of characters of the table elements, the configuration of the morphemes, and the configuration of the character types for each table collected in the storage unit 110 as the characteristics of the table elements, and the differences between cells (between each element) (Calculated value difference) is calculated as the distance between table elements (distance between table elements), and it is identified how the cells with close distances are continuous (this feature is referred to as the table element feature hereinafter) A means for classifying individual tables according to table element features. By referring to the table element features that show differences between adjacent cells, it is possible to grasp the overall connection between table elements and identify which table is the same as which table. Is possible.

表構造情報決定部103は、表分類部102、または後述する表再分類部105によって分類された表の分類ごとに、表構造を決定する手段である。決定された表構造は、表構造情報112としてデータ化されて、記憶部110に記録する。また、同じ分類とされた表について分類の代表として決定された表構造と同じルールに基づいてデータ化する。
表構造情報とは、表の見出しと表要素を関連付けた情報である。表構造を決定することにより、表をドキュメントに変換したり、表要素への意味付けをしたり、表の内容を様々な情報処理に活用することが可能となる。
表構造を決定する方法は、表分類部102で算出した表要素特徴を利用して自動的に決定してもよいし、ユーザが分類された表の代表を見て、表の見出しと表要素の関連付けルールを設定してもよいし、その両方を併用してもよい。
The table structure information determination unit 103 is a means for determining the table structure for each table classification classified by the table classification unit 102 or the table reclassification unit 105 described later. The determined table structure is converted into data as table structure information 112 and recorded in the storage unit 110. Further, the tables having the same classification are converted into data based on the same rules as the table structure determined as the representative of the classification.
The table structure information is information that associates table headings with table elements. By determining the table structure, it is possible to convert the table into a document, to give meaning to the table element, and to use the contents of the table for various information processing.
The method for determining the table structure may be automatically determined using the table element feature calculated by the table classification unit 102, or the table heading and the table element are determined by looking at the representative of the table into which the user has been classified. The association rules may be set, or both of them may be used together.

表見出し特定部104は、予め設定された見出し特定ルール113に沿って、表の見出し部分がどの行・列かを特定する手段である。
表見出し特定部104は、背景の色、文字の色、罫線の種類、文字の太さなどの表要素の属性が、他の行・列と異なる行・列を見出しとする。見出し特定ルール113として、表要素の属性がどのような値をとったときに見出しと判定するかを設定しておく。
The table heading specifying unit 104 is means for specifying which row / column the heading part of the table is in accordance with a preset heading specifying rule 113.
The table heading specifying unit 104 uses a row / column whose table element attributes such as background color, character color, ruled line type, character thickness, etc. are different from other rows / columns as headings. As the headline specifying rule 113, it is set what value the attribute of the table element takes is determined as a headline.

表再分類部105は、予め設定された表分類ルール114によって、表分類部102で分類した表をさらに細かく分類する、あるいは、分類されたものをまとめて新たな分類とする手段である。
表分類ルール114は、例えば、行数または列数によって分類を分けたり、セル同士の連結の仕方によって分類を分けたりするなど、表構成情報を参照して分類を分けるルールである。あるいは、見出し特定部104で特定した見出しの行数、列数によって表を再分類する表分類ルールを設定することも可能である。
なお、表構造情報をデータ化した後に、データ化された表構造情報をユーザによって指定された条件で検索して所要の条件を満たす表を抽出して、指定された表分類ルールに基づいて再分類を行なうようにしてもよい。
The table reclassification unit 105 is a means for classifying the table classified by the table classification unit 102 more finely according to a preset table classification rule 114, or collecting the classified items into a new classification.
The table classification rule 114 is a rule for dividing the classification with reference to the table configuration information, for example, dividing the classification according to the number of rows or the number of columns, or dividing the classification according to how the cells are connected. Alternatively, it is possible to set a table classification rule for reclassifying the table according to the number of rows and columns of the headline specified by the headline specifying unit 104.
After the table structure information is converted into data, the table structure information converted into data is searched under the conditions specified by the user to extract a table that satisfies the required conditions, and is reproduced based on the specified table classification rule. Classification may be performed.

記憶部110は、表の分類に必要な各種情報を保管する手段であり、表構成情報111と、表構造情報112と、見出し特定ルール113と、表分類ルール114を有する。   The storage unit 110 is means for storing various types of information necessary for table classification, and includes table configuration information 111, table structure information 112, a headline specifying rule 113, and a table classification rule 114.

次に、表分類装置10の動作について、図3および図4のフローチャートを参照して説明する。
まず、図3を参照して、第1の実施の形態(図1の構成)の表分類装置10を用いて表を分類する動作を説明する。この動作説明では、1つのドキュメントファイル中から表を分類した後に1つの表の表構造を抽出して、その表構造と類似した表について同一の表構造を適用して識別することで、一括識別処理の効率を上げる。
Next, the operation of the table classification apparatus 10 will be described with reference to the flowcharts of FIGS.
First, with reference to FIG. 3, the operation | movement which classify | categorizes a table using the table classification | category apparatus 10 of 1st Embodiment (structure of FIG. 1) is demonstrated. In this operation explanation, after classifying a table from one document file, the table structure of one table is extracted, and a table similar to the table structure is identified by applying the same table structure to collective identification. Increase processing efficiency.

はじめに、表構成情報抽出部101がドキュメント内から個々の表の表構成情報を抽出する(ステップS100)。
次に、表分類部102が同一の表の表要素同士の距離を算出する(ステップS101)。距離の計算方法は後述する。
さらに、表分類部102は、前記表要素同士の距離情報から、表内で表要素がどのように連続しているか(表要素特徴)を特定する(ステップS102)。表要素の連続の方向を決定する判断の仕方は、表要素同士の距離が一定の閾値以下であるかどうかで判断する。もしくは、行方向と列方向の距離の各距離の総和を、表要素を比較した回数で割った値が小さい方に連続していると判断してもよい。後者の判断の仕方は、行又は列の一方のみに項目を有するような表の分類に適する。また、表の行や列の項目が中央付近にあるような表にも対応できる。また、比較する距離について、斜め方向を加えれば、対角線上に項目を有する表にも対応できる。
ドキュメントに含まれていた全ての表の表要素特徴を特定し終えたら、表要素特徴により、表を分類する(ステップS103)。表の分類は、表要素が行方向に連続しているか、列方向に連続しているか、行と列の両方に連続しているかの3パターンに大きく分けられる。さらに表要素が行方向に一行おきに連続している表や、対角線上に斜線が引かれた表などの特殊なパターンはそれぞれ別の分類として分けてもよい。この分類数は任意である。分類数の最大数を規定したり、分類する表群間の一致度の距離を規定してもよい。
また、表分類部102は、同一の分類をした表群内で、表要素特徴の類似度を算出して、一致度をユーザに提供してもよい。この一致度を用いて、同一構造を有するであろう表であるが、一致度が低い表について、ユーザに確認を求めることができる。確認を求める表は、一致度が所定の閾値から外れている表や、一致度の低い方から所定数を、画面上に表示してユーザに同一分類とするか否かを決定してもらうようにすればよい。
First, the table configuration information extraction unit 101 extracts table configuration information of individual tables from the document (step S100).
Next, the table classification | category part 102 calculates the distance of the table elements of the same table (step S101). A method for calculating the distance will be described later.
Further, the table classification unit 102 specifies how the table elements are continuous in the table (table element characteristics) from the distance information between the table elements (step S102). The method of determining the continuous direction of the table elements is determined by whether or not the distance between the table elements is equal to or less than a certain threshold value. Alternatively, it may be determined that the sum of the distances in the row and column directions divided by the number of comparisons of the table elements is continuous in the smaller direction. The latter method of determination is suitable for classification of a table having items in only one of the rows or columns. In addition, it is possible to deal with a table in which the row and column items of the table are near the center. In addition, if a diagonal direction is added to the distance to be compared, a table having items on a diagonal line can be handled.
When the table element features of all the tables included in the document have been specified, the tables are classified based on the table element features (step S103). The table classification is broadly divided into three patterns: whether the table elements are continuous in the row direction, continuous in the column direction, or continuous in both rows and columns. Furthermore, special patterns such as a table in which table elements are continued every other row in the row direction, or a table in which diagonal lines are drawn diagonally may be classified as different classifications. This classification number is arbitrary. You may prescribe | regulate the maximum number of classification | category numbers, and may define the distance of the agreement degree between the table groups to classify | categorize.
Moreover, the table classification | category part 102 may calculate the similarity degree of a table element characteristic within the table group classified by the same classification, and may provide a coincidence to a user. Using this degree of coincidence, it is possible to ask the user for confirmation of a table that will have the same structure but a low degree of coincidence. The table for which confirmation is requested is a table in which the degree of coincidence deviates from a predetermined threshold, or a predetermined number from the lower degree of coincidence is displayed on the screen so that the user decides whether or not to make the same classification You can do it.

最後に、表構造情報決定部103が表要素特徴、もしくは、ユーザからの指定により、各分類から1つの表(代表)の表構造を決定すると共に、同じ分類の残りの表も同じルールに基づき表構造を決定する(ステップS104)。なお、この処理は、ドキュメント中の全ての表について展開されて、全ての表の表構造が抽出されて記録される。代表とする各分類中の表は、特定方向の表要素同士の距離が最も小さい表や平均に近い表を用いることができる。   Finally, the table structure information determination unit 103 determines the table structure of one table (representative) from each classification according to table element characteristics or designation from the user, and the remaining tables of the same classification are also based on the same rule. The table structure is determined (step S104). This process is developed for all tables in the document, and the table structures of all tables are extracted and recorded. As a representative table in each classification, a table in which the distance between table elements in a specific direction is the smallest or a table close to the average can be used.

次に、第2の実施の形態(図2の構成)の場合の表分類装置10の動作について、図4のフローチャートを参照して説明する。なお、追加された処理ステップを説明し、他の処理ステップについては説明を省略する。
第2の実施の形態の動作は、図3のフローチャートに加え、ステップS105とステップS106の動作が加わっている。
Next, the operation of the table classification apparatus 10 in the case of the second embodiment (configuration of FIG. 2) will be described with reference to the flowchart of FIG. The added processing steps will be described, and description of other processing steps will be omitted.
In the operation of the second embodiment, the operations of step S105 and step S106 are added to the flowchart of FIG.

ステップS100の後、表見出し特定部104は、表構成情報から表見出しを特定する(ステップS105)。表見出しの特定の仕方は、表構成情報の特徴が他の行や列と異なる行・列を表見出しと判定する。例えば、背景色が一行目のみ異なる場合には一行目を表見出しと判定する。   After step S100, the table header specifying unit 104 specifies a table header from the table configuration information (step S105). The method of specifying the table header is to determine a row / column whose table configuration information feature is different from other rows and columns as a table header. For example, when the background color is different only in the first line, the first line is determined as a table heading.

ステップS103で、表分類部102が表を分類した後、表再分類部105は、表構成情報111と表分類ルール114に基づき、表を再分類する(ステップS106)。表要素特徴が同じ表でも、表の列数・行数、見出し部分の列数・行数などにより表の分類を分けることが有用な場合、表分類ルール114に表構成情報がどのような状態の場合に表を再分類するかを記述することで、表をさらに細かく分類したり、一度分類された表をまとめたりすることが可能となる。また、事後的に表をさらに細かく分類したり、表をまとめたりすることも可能となる。この表分類ルール114は、ユーザが任意に設定できるものであり、ドキュメントに沿った所要の分類に利用できる。   After the table classification unit 102 classifies the table in step S103, the table reclassification unit 105 reclassifies the table based on the table configuration information 111 and the table classification rule 114 (step S106). Even if tables with the same table element characteristics are used, it is useful to divide the table classification according to the number of columns and rows of the table, the number of columns and rows of the heading part, etc. In this case, by describing whether to reclassify the table, it becomes possible to classify the table further finely or to summarize the once classified table. It is also possible to classify the table more finely and to summarize the table afterwards. The table classification rule 114 can be arbitrarily set by the user, and can be used for required classification along the document.

ここで、ステップS101における表要素の距離の計算方法について詳述する。表要素の距離(表要素間距離)は、文字数の距離、形態素の構成距離、文字種別の構成距離から成る。まず、文字数の距離は、表要素の文字数の差を求め、それを長い方の文字数で割って正規化したものである。表要素eと表要素e文字数の距離をDlen(e,e)、表要素eの文字数をl、表要素eの文字数をlとし、式で表すと下記の数1のとおりである。

Figure 2013152662
Here, the calculation method of the distance of the table element in step S101 will be described in detail. The distance between table elements (distance between table elements) is composed of the distance of the number of characters, the morpheme component distance, and the character type component distance. First, the distance of the number of characters is obtained by normalizing the difference in the number of characters in the table element and dividing it by the longer number of characters. When the distance between the table element e 1 and the table element e 2 is D len (e 1 , e 2 ), the number of characters of the table element e 1 is l 1 , the number of characters of the table element e 2 is l 2 , It is as the number 1.
Figure 2013152662

形態素の構成距離は、表要素を形態素解析し、品詞の構成の編集距離を算出する。例えば、表要素の文字列が「メディア信号処理の動向」と「音声・オーディオ符号化」の場合、図5に示すとおり、「メディア信号処理の動向」は形態素解析すると、名詞・名詞・名詞・助詞・名詞となり、「音声・オーディオ符号化」は名詞・記号・名詞・名詞・名詞となる。この品詞一つずつを、文字とみなすとどちらも五文字の文字列とみなすことができ、編集距離を求めることができる。この二つの文字列の編集距離は2であり、長い方の文字数で割って正規化すれば2/5となる。   For the morpheme composition distance, the morpheme analysis is performed on the table elements, and the edit distance of the part of speech composition is calculated. For example, when the character strings of the table elements are “media signal processing trend” and “speech / audio coding”, as shown in FIG. 5, “media signal processing trend” is a noun, noun, noun, It becomes a particle / noun, and “speech / audio coding” becomes a noun / symbol / noun / noun / noun. If each part of speech is regarded as a character, both can be regarded as a character string of five characters, and the edit distance can be obtained. The editing distance between the two character strings is 2, and if the value is normalized by dividing by the longer number of characters, it becomes 2/5.

文字種別の構成距離も、形態素の構成距離と同様の方法で算出できる。例えば、「4/23」と「音声・オーディオ符号化」の場合、文字種別を日本語、数字、記号、英字に大別すれば、「4/23」は数字・記号・数字で構成されており、「音声・オーディオ符号化」は日本語・記号・日本語で構成されている。形態素の構成距離と同じ容量で編集距離を求めると2となり、長い方の文字数で割って正規化すれば2/3となる。なお、文字種別の分類の仕方は、日本語、数字、記号、英字に限るものではなく、「ひらがな、カタカナ、漢字、…」のようにさらに細かく分けてもよいし、記号は日本語に含むなどさらに大まかな分類してもよい。分類の仕方は予め設定しておく。   The constituent distance of the character type can also be calculated by the same method as the constituent distance of the morpheme. For example, in the case of “4/23” and “speech / audio encoding”, if the character type is roughly divided into Japanese, numbers, symbols, and letters, “4/23” is composed of numbers, symbols, and numbers. “Voice / Audio Coding” is composed of Japanese, symbols, and Japanese. If the edit distance is calculated with the same capacity as the morpheme composition distance, it becomes 2, and if it is normalized by dividing by the longer number of characters, it becomes 2/3. In addition, the classification method of the character type is not limited to Japanese, numbers, symbols, and English characters, but may be further divided into “Hiragana, Katakana, Kanji,…”, and symbols are included in Japanese. A rough classification may be made. The way of classification is set in advance.

表要素eと表要素eの距離D(e1,)は、文字数の距離、形態素構成の距離、文字種別構成の距離にそれぞれ重みをかけて足し合わせたものとする。形態素構成の距離をDmor(e,e)、文字種別構成の距離をDchar(e,e)、重みをw、w、wと表すと、表要素の距離は下記の数2で表せる。

Figure 2013152662
Table element e 1 and table element e 2 of the distance D (e 1, e 2), the distance of the characters, the distance morphological structure, it is assumed that each of the distances of character type configuration sum over weight. When the distance of the morpheme configuration is expressed as D mor (e 1 , e 2 ), the distance of the character type configuration is expressed as D char (e 1 , e 2 ), and the weight is expressed as w 1 , w 2 , w 3 , the distance between the table elements is It can be expressed by the following formula 2.
Figure 2013152662

なお、各距離についての重みはユーザが予め設定すればよい。また、読み込んだドキュメントの名や属性に基づいて、上記重みを自動的に分配するようにしてもよい。   The weight for each distance may be set in advance by the user. The weights may be automatically distributed based on the name and attributes of the read document.

次に、具体的な実施例を用いて本発明を実施形態の動作を説明する。なお、以下の動作例に限定されるものではない。   Next, the operation of the embodiment of the present invention will be described using specific examples. Note that the present invention is not limited to the following operation example.

表分類部102の計算例について図6〜図11を参照して説明する。
表構成情報の抽出後、図6のような表の表要素特徴を求めるには、まず各表要素の文字数、形態素構成、文字種別構成を少なくとも2つ組み合わせて調べる。各表要素の文字数は図7、形態素構成は図8、文字種別は図9に示すとおりである。図8に示してある形態素構成の「名」は「名詞」、「助」は「助詞」の略である。図9に示してある文字種別の「日」は「日本語」、「数」は「数字」の略である。
そして、組み合わせる これらの表要素の文字数の距離、形態素構成の距離、文字種別構成の距離をそれぞれ算出する。
それぞれの距離の算出は、表要素は行方向か、列方向のどちらかに似た要素が連続する場合が多いため、まずは隣接する表要素の距離を行方向、列方向に算出していき、どちらの方向の距離が近いかを比べることで、表要素の並び方が行方向か列方向かを特定する。なお、上記したように他の方向にも隣接セルとの距離を算出してもよい。
表見出し特定部104で表見出しが特定できた場合は、表見出しの部分を除いて距離を計算する。見出しが特定できなかった場合は、見出しは一行目、もしくは一列目にあることが多いため、二行目以降の行や二列目以降の列の表要素の距離を重視して、表要素の並ぶ方向を決定してもよい。
A calculation example of the table classification unit 102 will be described with reference to FIGS.
In order to obtain the table element characteristics of the table as shown in FIG. 6 after extracting the table structure information, first, the number of characters, the morpheme structure, and the character type structure of each table element are combined and examined. The number of characters of each table element is as shown in FIG. 7, the morpheme configuration is as shown in FIG. 8, and the character type is as shown in FIG. In the morpheme configuration shown in FIG. 8, “name” is an abbreviation for “noun”, and “help” is an abbreviation for “particle”. In FIG. 9, the character type “day” is an abbreviation of “Japanese” and “number” is an abbreviation of “number”.
Then, the distance of the number of characters of these table elements to be combined, the distance of the morpheme configuration, and the distance of the character type configuration are calculated.
In calculating each distance, table elements are often similar in either row direction or column direction, so first calculate the distance between adjacent table elements in the row direction and column direction. By comparing which direction is closer, it is specified whether the arrangement of the table elements is row direction or column direction. As described above, the distance to the adjacent cell may be calculated in other directions.
When the table header can be specified by the table header specifying unit 104, the distance is calculated excluding the table header. If the heading cannot be specified, the heading is often in the first row or the first column. Therefore, emphasizing the distance between the table elements in the second and subsequent rows and the second and subsequent columns. You may determine the direction to arrange.

図10に表要素の距離を列方向に計算した結果を示す。T10は元の表であり、T11は比較する表要素のペア(距離を求めるペア)を示している。
T12〜15に示した表の計算結果は、T11の表の同一位置に当たる部分と対応付いている。T12は文字数の距離の計算結果、T13は形態素構成の距離の計算結果、T14は文字種別構成の距離の計算結果である。T15はT12〜T14の計算結果を合計したものである。
形態素校正の距離と、文字種別構成の距離の編集距離は置き換えのコストをここでは2として計算している。また、各距離への重みはすべて1で計算している。
T15に示した計算結果を見ると、T10の表について、A列、B列、D列に0が並んでいることを識別でき、似た表要素が連続して記述されていることが上記計算によって判別できる。
FIG. 10 shows the result of calculating the distance between the table elements in the column direction. T10 is an original table, and T11 indicates a pair of table elements to be compared (a pair for obtaining a distance).
The calculation results of the tables shown in T12 to 15 correspond to the portions corresponding to the same positions in the table of T11. T12 is the calculation result of the distance of the number of characters, T13 is the calculation result of the distance of the morpheme configuration, and T14 is the calculation result of the distance of the character type configuration. T15 is the total of the calculation results of T12 to T14.
The morphological calibration distance and the edit distance of the distance of the character type configuration are calculated by assuming that the replacement cost is 2. The weights for each distance are all calculated as 1.
Looking at the calculation result shown in T15, it is possible to identify that 0 is arranged in the A column, the B column, and the D column in the table of T10, and that the similar calculation is described in the above calculation. Can be determined.

次に、列方向の計算と同様に、図11に表要素の距離を行方向に計算した結果を示す。
T25に示した計算結果の合計値を見ると、一行目は0が並んでいるが、それ以外の行では、図10のT15で示した列方向の計算結果とは違い、1以上の数字の割合が多く表れている。
Next, similarly to the calculation in the column direction, FIG. 11 shows the result of calculating the distance between the table elements in the row direction.
Looking at the total value of the calculation results shown in T25, 0 is arranged in the first row, but in the other rows, unlike the calculation result in the column direction shown in T15 of FIG. A large percentage appears.

連続性を認めるとする閾値を1に設定すると、行方向には連続性がないと判断できるため、表分類部102は、このように計算結果に基づき、この表を、列方向に値が連続する表として分類できる。換言すれば、行方向の一列目が項目であるとの識別が行える。
ここでの閾値は、予め低めの値(一致度が高い値)に設定して、所定数まで分類できるまで順次切り上げて行きながら分類するようにしてもよい。
If the threshold value for allowing continuity is set to 1, it can be determined that there is no continuity in the row direction. Therefore, the table classification unit 102 determines that this table is continuous in the column direction based on the calculation result. Can be classified as a table. In other words, it can be identified that the first column in the row direction is an item.
Here, the threshold value may be set to a low value (a value with a high degree of coincidence) in advance, and classification may be performed while sequentially rounding up to a predetermined number.

次に、表構造情報の例について説明する。
図12は、図6の表について、表構造情報決定部103で表構造情報を決定して得た表構造情報を示す。表構造情報は属性と属性値の組になっている。図12の表は、表要素をそのまま記述しているが、図13のように表要素の参照情報を表構造情報として保管するようにしてもよい。
表分類部102と表見出し特定部104により、見出しと、表要素の連続の仕方が判明した場合は、表構造情報決定部103が、表見出しを属性、表見出しに属する行もしくは列を属性値として、表構造情報を保存する。表見出しが判明しなかった表や、表要素の連続の仕方が複雑で表見出しとの対応が判明しなかった表に関しては、ユーザが属性となる表要素と、属性値となる表要素を指定することで表構造情報を決定する。そして、その表と同じ分類になっている表は同様のルールで自動的に表構造が作成される。
Next, an example of the table structure information will be described.
FIG. 12 shows the table structure information obtained by determining the table structure information in the table structure information determination unit 103 for the table of FIG. The table structure information is a set of attributes and attribute values. The table of FIG. 12 describes the table elements as they are, but the reference information of the table elements may be stored as table structure information as shown in FIG.
When the table classification unit 102 and the table header specifying unit 104 find out how the headings and the table elements are continuous, the table structure information determination unit 103 sets the table header as an attribute and sets the row or column belonging to the table header as an attribute value. The table structure information is saved. For tables for which table headings were not found, or for tables whose table element correspondence was complicated and the correspondence with table headings was not known, the user specifies the table elements that are the attributes and the table elements that are the attribute values. By doing so, the table structure information is determined. Then, the table structure is automatically created for the table having the same classification as that table according to the same rule.

上記実施の形態の説明で示したように、本発明の表分類装置によれば、事前の準備を要せずに、ドキュメントに含まれる表を表の構成パターンにより自動的に分類することが可能となる。また、分類後に同一と見做す表の表構造について纏めて同一の表構造決定ルールに基づき表構造情報を決定できる。このように処理することによって、各分類の代表となる表の表構造が決定されたら、同じ分類と扱う残りの個々の表構造について一括で変換できる。   As described in the above embodiment, according to the table classification apparatus of the present invention, it is possible to automatically classify tables included in a document according to a table configuration pattern without requiring preparation in advance. It becomes. Further, the table structure information can be determined based on the same table structure determination rule by summarizing the table structures of the tables regarded as the same after classification. By processing in this way, once the table structure of the table representing each category is determined, the remaining individual table structures handled with the same category can be converted in a batch.

なお、表分類装置の各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAMに表分類プログラムが展開され、プログラムに基づいて制御部(CPU)等のハードウェアを動作させることによって、各部を各種手段として実現する。また、前記プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、表分類装置として動作させる情報処理装置を、RAMに展開された表分類プログラムに基づき、表分類装手段、表構成情報抽出手段、表分類手段、表構造情報決定手段、表見出し特定手段、表再分類手段、記憶手段として制御部を動作させることで実現することが可能である。
Each part of the table classification device may be realized using a combination of hardware and software. In a form in which hardware and software are combined, a table classification program is developed in the RAM, and each unit is realized as various means by operating hardware such as a control unit (CPU) based on the program. The program may be recorded on a storage medium and distributed. The program recorded on the recording medium is read into a memory via a wired, wireless, or recording medium itself, and operates a control unit or the like. Examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk.
If the above embodiment is described in another expression, an information processing apparatus that operates as a table classification apparatus is based on a table classification program developed in a RAM, a table classification unit, a table configuration information extraction unit, a table classification unit, It can be realized by operating the control unit as the table structure information determining unit, the table header specifying unit, the table reclassifying unit, and the storage unit.

なお、実施の形態を図示して説明したが、そのブロック構成の分離併合、手順の入れ替えなどの変更は趣旨や説明される機能を満たせば自由である。   Although the embodiment has been illustrated and described, changes such as separation and merging of block configurations and replacement of procedures are free as long as the purpose and the function described are satisfied.

また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。   In addition, the specific configuration of the present invention is not limited to the above-described embodiment, and changes within a range not departing from the gist of the present invention are included in the present invention.

また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。   In addition, a part or all of the above-described embodiments can be described as follows. Note that the following supplementary notes do not limit the present invention.

[付記1]
ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出部と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類部と、
を少なくとも具備することを特徴とする表分類装置。
[Appendix 1]
A table configuration information extraction unit that extracts information constituting individual tables from the document as table configuration information,
A table classification unit that calculates a distance between table elements between each element of each table, identifies a method of continuation of the table elements having a close distance, and classifies the individual tables based on the method of continuation;
A table classification apparatus comprising at least:

[付記2]
抽出された表要素特徴もしくはユーザからの指定により、各分類中の一つの表の属性と属性値を組とした表のデータ構造を示す表構造情報を決定してデータ化すると共に、同じ分類とした残りの表について同じルールに基づく表構造としてデータ化する表構造情報決定部、
を更に含むことを特徴とする上記付記記載の表分類装置。
[Appendix 2]
Based on the extracted table element features or user designation, table structure information indicating the data structure of the table that is a set of attributes and attribute values of one table in each classification is determined and converted into data, and the same classification and A table structure information determination unit that converts the remaining table into data as a table structure based on the same rule,
The table classification device according to the above supplementary note, further comprising:

[付記3]
前記表分類部は、表要素間距離の算出に、表要素の文字数の距離と、形態素構成の編集距離と、文字種別の構成の編集距離のいずれか、またはこれらの組合せを用いることを特徴とする上記付記記載の表分類装置。
[Appendix 3]
The table classification unit uses a distance of the number of characters of a table element, an edit distance of a morpheme configuration, an edit distance of a character type configuration, or a combination thereof for calculating a distance between table elements. The table classification device described in the above supplementary note.

[付記4]
前記表分類部は、表要素特徴算出ルールとして、表要素の距離が一定の閾値以下の値の割合が多い方向に表要素が連続していると判定する方法と、表要素の距離を行方向と列方向のそれぞれの総和を表要素の比較回数で割ったものを比較し、表要素が連続している方向を判定する方法のいずれかを用いることを特徴とする上記付記記載の表分類装置。
[Appendix 4]
The table classification unit determines, as a table element feature calculation rule, a method of determining that a table element is continuous in a direction in which the ratio of the value of the table element distance is equal to or less than a certain threshold, and the table element distance in the row direction. A table classification apparatus according to the above-mentioned supplementary note, characterized in that one of the methods of comparing the sum of the column direction and the total of the column directions divided by the number of comparisons of the table elements is used to determine the direction in which the table elements are continuous .

[付記5]
表構成の特徴と予め設定された見出し特定ルールとから表の見出しを特定する表見出し特定部を更に具備することを特徴とする上記付記記載の表分類装置。
[Appendix 5]
The table classification device according to the above supplementary note, further comprising a table heading specifying unit for specifying a heading of the table from the characteristics of the table structure and a preset heading specifying rule.

[付記6]
表構成情報と予め設定された表分類ルールに基づき、前記表分類部で分類された表をさらに分類する表再分類部を具備すること特徴とする上記付記記載の表分類装置。
[Appendix 6]
The table classification device as described in the above supplementary note, further comprising a table reclassification unit that further classifies the table classified by the table classification unit based on the table configuration information and a preset table classification rule.

[付記7]
前記表構造情報決定部は、代表とする各分類中の表について、特定方向の表要素同士の距離が最も小さい表や平均に近い表を用いることを特徴とする上記付記記載の表分類装置。
[Appendix 7]
The said table structure information determination part uses the table | surface with the shortest distance of the table elements of a specific direction, or a table | surface close | similar to an average about the table | surface in each classification | category used as a representation, The table | surface classification apparatus of the said remarks characterized by the above-mentioned.

[付記8]
前記表分類部は、同一の分類をした表群内で、表要素特徴の類似度を算出して該表群内での個々の表の一致度を算定し、該表群内で所定の閾値から外れる表についてユーザに同一分類に含めるか否かの確認を求めることを特徴とする上記付記記載の表分類装置。
[Appendix 8]
The table classification unit calculates similarity of table element features within the same group of tables and calculates the degree of coincidence of individual tables within the table group, and a predetermined threshold value within the table group. The table classification apparatus according to the above supplementary note, wherein the user is asked to confirm whether or not a table out of the range is included in the same classification.

[付記9]
ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出処理と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類処理と、
を有すことを特徴とする表分類方法。
[Appendix 9]
Table configuration information extraction processing for extracting information constituting individual tables from the document as table configuration information,
A table classification process for calculating a distance between table elements of each element of each table, identifying a method of continuation of the table elements having a close distance, and classifying the individual tables based on the method of continuation;
Table classification method characterized by having.

[付記10]
抽出された表要素特徴もしくはユーザからの指定により、各分類中の一つの表の属性と属性値を組とした表のデータ構造を示す表構造情報を決定してデータ化すると共に、同じ分類とした残りの表について同じルールに基づく表構造としてデータ化する表構造情報決定処理、
を更に有すことを特徴とする上記付記記載の表分類方法。
[Appendix 10]
Based on the extracted table element features or user designation, table structure information indicating the data structure of the table that is a set of attributes and attribute values of one table in each classification is determined and converted into data, and the same classification and Table structure information determination process that converts the remaining tables into data as a table structure based on the same rules,
The table classification method according to the above supplementary note, further comprising:

[付記11]
前記表分類処理は、表要素間距離の算出に、表要素の文字数の距離と、形態素構成の編集距離と、文字種別の構成の編集距離のいずれか、またはこれらの組合せを用いることを特徴とする上記付記記載の表分類方法。
[Appendix 11]
The table classification process uses one of a distance of the number of characters of a table element, an edit distance of a morpheme configuration, an edit distance of a character type configuration, or a combination thereof for calculating a distance between table elements. The table classification method described in the above supplementary notes.

[付記12]
前記表分類処理は、表要素特徴算出ルールとして、表要素の距離が一定の閾値以下の値の割合が多い方向に表要素が連続していると判定する方法と、表要素の距離を行方向と列方向のそれぞれの総和を表要素の比較回数で割ったものを比較し、表要素が連続している方向を判定する方法のいずれかを用いることを特徴とする上記付記記載の表分類方法。
[Appendix 12]
In the table classification process, as a table element feature calculation rule, a method for determining that a table element is continuous in a direction in which the ratio of the value of the table element distance is equal to or less than a certain threshold is large, and the distance between the table elements in the row direction A table classification method according to the above-mentioned supplementary note, wherein one of the methods for determining the direction in which the table elements are continuous is used by comparing the sum of the column direction and the total number of column elements divided by the number of comparisons of the table elements .

[付記13]
表構成の特徴と予め設定された見出し特定ルールとから表の見出しを特定する表見出し特定処理を更に有すことを特徴とする上記付記記載の表分類方法。
[Appendix 13]
The table classification method as described in the above supplementary note, further comprising a table heading specifying process for specifying a table heading from a table structure feature and a preset heading specifying rule.

[付記14]
表構成情報と予め設定された表分類ルールに基づき、前記表分類部で分類された表をさらに分類する表再分類処理を有すこと特徴とする上記付記記載の表分類方法。
[Appendix 14]
The table classification method as described in the above supplementary note, further comprising a table reclassification process for further classifying the table classified by the table classification unit based on the table configuration information and a preset table classification rule.

[付記15]
前記表構造情報決定処理は、代表とする各分類中の表について、特定方向の表要素同士の距離が最も小さい表や平均に近い表を用いることを特徴とする上記付記記載の表分類方法。
[Appendix 15]
The table classification method according to the above supplementary note, wherein the table structure information determination processing uses a table in which a distance between table elements in a specific direction is the smallest or a table close to an average for the table in each classification as a representative.

[付記16]
前記表分類処理は、同一の分類をした表群内で、表要素特徴の類似度を算出して該表群内での個々の表の一致度を算定し、該表群内で所定の閾値から外れる表についてユーザに同一分類に含めるか否かの確認を求めることを特徴とする上記付記記載の表分類方法。
[Appendix 16]
The table classification process calculates the degree of similarity of individual tables within the table group by calculating the similarity of the table element features within the same group of tables, and a predetermined threshold value within the table group. The table classification method according to the above supplementary note, characterized in that the user is asked to confirm whether or not a table that falls outside the scope is included in the same classification.

[付記17]
情報処理装置を、
ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出手段と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類手段として
動作させることを特徴とする表分類用プログラム。
[Appendix 17]
Information processing device
Table configuration information extraction means for extracting information constituting individual tables from the document as table configuration information,
Calculate the distance between the table elements of each table element, identify how the table elements that are close to each other are continuous, and operate as a table classification unit that classifies the individual tables based on the sequence. A table classification program characterized by that.

[付記18]
情報処理装置を、
抽出された表要素特徴もしくはユーザからの指定により、各分類中の一つの表の属性と属性値を組とした表のデータ構造を示す表構造情報を決定してデータ化すると共に、同じ分類とした残りの表について同じルールに基づく表構造としてデータ化する表構造情報決定手段として
更に動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 18]
Information processing device
Based on the extracted table element features or user designation, table structure information indicating the data structure of the table that is a set of attributes and attribute values of one table in each classification is determined and converted into data, and the same classification and The table classification program as described in the above supplementary note, which is further operated as table structure information determining means for converting the remaining table into a table structure based on the same rule.

[付記19]
前記表分類手段を、表要素間距離の算出に、表要素の文字数の距離と、形態素構成の編集距離と、文字種別の構成の編集距離のいずれか、またはこれらの組合せを用いるように動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 19]
The table classification means is operated so as to use one of a distance of the number of characters of a table element, an edit distance of a morpheme configuration, an edit distance of a character type configuration, or a combination thereof for calculating a distance between table elements. A table classification program as described in the above supplementary note.

[付記20]
前記表分類手段を、表要素特徴算出ルールとして、表要素の距離が一定の閾値以下の値の割合が多い方向に表要素が連続していると判定する方法と、表要素の距離を行方向と列方向のそれぞれの総和を表要素の比較回数で割ったものを比較し、表要素が連続している方向を判定する方法のいずれかを用いるように動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 20]
The table classification means uses the table element feature calculation rule as a rule to determine that the table elements are continuous in a direction in which the ratio of the values of the table elements is less than or equal to a certain threshold value, and the distance between the table elements in the row direction. And the sum of the column directions divided by the number of comparisons of the table elements, and the operation is performed using any one of the methods for determining the direction in which the table elements are continuous. Table classification program.

[付記21]
情報処理装置を、
表構成の特徴と予め設定された見出し特定ルールとから表の見出しを特定する表見出し特定手段として更に動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 21]
Information processing device
The program for table classification as described in the above supplementary note, wherein the program is further operated as a table header specifying means for specifying a table header from a table configuration feature and a preset header specifying rule.

[付記22]
情報処理装置を、
表構成情報と予め設定された表分類ルールに基づき、前記表分類手段で分類された表をさらに分類する表再分類手段として更に動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 22]
Information processing device
The table classification program according to the above supplementary note, which is further operated as a table reclassification unit for further classifying the table classified by the table classification unit based on the table configuration information and a preset table classification rule.

[付記23]
前記表構造情報決定手段を、代表とする各分類中の表について、特定方向の表要素同士の距離が最も小さい表や平均に近い表を用いるように動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 23]
The table structure information determining means is operated so as to use a table in which each distance between table elements in a specific direction is the smallest or a table close to the average for the table in each classification as a representative. Table classification program.

[付記24]
前記表分類手段を、同一の分類をした表群内で、表要素特徴の類似度を算出して該表群内での個々の表の一致度を算定し、該表群内で所定の閾値から外れる表についてユーザに同一分類に含めるか否かの確認を求めるように動作させることを特徴とする上記付記記載の表分類用プログラム。
[Appendix 24]
The table classification means calculates a degree of similarity of table element features within a group of tables with the same classification, calculates a degree of coincidence of individual tables within the table group, and sets a predetermined threshold value within the table group. The table classification program as set forth in the above supplementary note, wherein the table classification program is operated so as to ask the user to confirm whether or not to include a table out of the range in the same classification.

本発明は、表が多く含まれる仕様書やWebページ等のドキュメントの表情報を一括でドキュメントに変換したり、意味付けをしたりすることに利用可能である。   INDUSTRIAL APPLICABILITY The present invention can be used to convert table information of documents such as specifications and Web pages including many tables into documents at once and to give meanings.

10 表分類装置(表分類装手段)
101 表構成情報抽出部(表構成情報抽出手段)
102 表分類部(表分類手段)
103 表構造情報決定部(表構造情報決定手段)
104 表見出し特定部(表見出し特定手段)
105 表再分類部(表再分類手段)
110 記憶部(記憶手段)
111 表構成情報
112 表構造情報
113 見出し特定ルール
114 表分類ルール
10 Table classification device (table classification device)
101 Table configuration information extraction unit (table configuration information extraction means)
102 Table classification part (table classification means)
103 Table structure information determination unit (table structure information determination means)
104 Table heading specifying part (table heading specifying means)
105 Table reclassification part (table reclassification means)
110 Storage unit (storage means)
111 Table structure information 112 Table structure information 113 Heading identification rule 114 Table classification rule

Claims (10)

ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出部と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類部と、
を少なくとも具備することを特徴とする表分類装置。
A table configuration information extraction unit that extracts information constituting individual tables from the document as table configuration information,
A table classification unit that calculates a distance between table elements between each element of each table, identifies a method of continuation of the table elements having a close distance, and classifies the individual tables based on the method of continuation;
A table classification apparatus comprising at least:
抽出された表要素特徴もしくはユーザからの指定により、各分類中の一つの表の属性と属性値を組とした表のデータ構造を示す表構造情報を決定してデータ化すると共に、同じ分類とした残りの表について同じルールに基づく表構造としてデータ化する表構造情報決定部、
を更に含むことを特徴とする請求項1に記載の表分類装置。
Based on the extracted table element features or user designation, table structure information indicating the data structure of the table that is a set of attributes and attribute values of one table in each classification is determined and converted into data, and the same classification and A table structure information determination unit that converts the remaining table into data as a table structure based on the same rule,
The table classification device according to claim 1, further comprising:
前記表分類部は、表要素間距離の算出に、表要素の文字数の距離と、形態素構成の編集距離と、文字種別の構成の編集距離のいずれか、またはこれらの組合せを用いることを特徴とする請求項2に記載の表分類装置。   The table classification unit uses a distance of the number of characters of a table element, an edit distance of a morpheme configuration, an edit distance of a character type configuration, or a combination thereof for calculating a distance between table elements. The table classification device according to claim 2. 前記表分類部は、表要素特徴算出ルールとして、表要素の距離が一定の閾値以下の値の割合が多い方向に表要素が連続していると判定する方法と、表要素の距離を行方向と列方向のそれぞれの総和を表要素の比較回数で割ったものを比較し、表要素が連続している方向を判定する方法のいずれかを用いることを特徴とする請求項3に記載の表分類装置。   The table classification unit determines, as a table element feature calculation rule, a method of determining that a table element is continuous in a direction in which the ratio of the value of the table element distance is equal to or less than a certain threshold, and the table element distance in the row direction. 4. The table according to claim 3, wherein any one of the methods of comparing the sum of the column direction and the total of the column directions divided by the number of comparisons of the table elements and determining the direction in which the table elements are continuous is used. Classification device. 表構成の特徴と予め設定された見出し特定ルールとから表の見出しを特定する表見出し特定部を更に具備することを特徴とする請求項1乃至4記載の何れか一項に記載の表分類装置。   The table classification device according to any one of claims 1 to 4, further comprising a table header identification unit that identifies a table header from a table configuration feature and a preset header identification rule. . 表構成情報と予め設定された表分類ルールに基づき、前記表分類部で分類された表をさらに分類する表再分類部を具備すること特徴とする請求項1乃至5の何れか一項に記載の表分類装置。   The table reclassifying unit for further classifying the table classified by the table classifying unit based on the table configuration information and a preset table classification rule, according to any one of claims 1 to 5. Table sorter. 前記表構造情報決定部は、代表とする各分類中の表について、特定方向の表要素同士の距離が最も小さい表や平均に近い表を用いることを特徴とする請求項1乃至6の何れか一項に記載の表分類装置。   The table structure information determination unit uses a table in which a distance between table elements in a specific direction is the smallest or a table close to an average for the table in each classification as a representative. The table classification device according to one item. 前記表分類部は、同一の分類をした表群内で、表要素特徴の類似度を算出して該表群内での個々の表の一致度を算定し、該表群内で所定の閾値から外れる表についてユーザに同一分類に含めるか否かの確認を求めることを特徴とする請求項1乃至7の何れか一項に記載の表分類装置。   The table classification unit calculates similarity of table element features within the same group of tables and calculates the degree of coincidence of individual tables within the table group, and a predetermined threshold value within the table group. The table classification apparatus according to claim 1, wherein the table is determined to be included in the same classification for a table that is not included in the table. ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出処理と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類処理と、
を有すことを特徴とする表分類方法。
Table configuration information extraction processing for extracting information constituting individual tables from the document as table configuration information,
A table classification process for calculating a distance between table elements of each element of each table, identifying a method of continuation of the table elements having a close distance, and classifying the individual tables based on the method of continuation;
Table classification method characterized by having.
情報処理装置を、
ドキュメントから個々の表を構成する情報をそれぞれ表構成情報として抽出する表構成情報抽出手段と、
個々の表の各要素同士の表要素間距離を算出し、前記距離が近い表要素の連続の仕方を識別し、その連続の仕方に基づいて、個々の表を分類する表分類手段として
動作させることを特徴とする表分類用プログラム。
Information processing device
Table configuration information extraction means for extracting information constituting individual tables from the document as table configuration information,
Calculate the distance between the table elements of each table element, identify how the table elements that are close to each other are continuous, and operate as a table classification unit that classifies the individual tables based on the sequence. A table classification program characterized by that.
JP2012013789A 2012-01-26 2012-01-26 Table classification device, table classification method, and program Pending JP2013152662A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012013789A JP2013152662A (en) 2012-01-26 2012-01-26 Table classification device, table classification method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012013789A JP2013152662A (en) 2012-01-26 2012-01-26 Table classification device, table classification method, and program

Publications (1)

Publication Number Publication Date
JP2013152662A true JP2013152662A (en) 2013-08-08

Family

ID=49048940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012013789A Pending JP2013152662A (en) 2012-01-26 2012-01-26 Table classification device, table classification method, and program

Country Status (1)

Country Link
JP (1) JP2013152662A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090068A (en) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 The sorting technique and device of table in hospital database

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090068A (en) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 The sorting technique and device of table in hospital database
CN108090068B (en) * 2016-11-21 2021-05-25 医渡云(北京)技术有限公司 Classification method and device for tables in hospital database

Similar Documents

Publication Publication Date Title
US11501061B2 (en) Extracting structured information from a document containing filled form images
CN107291723B (en) Method and device for classifying webpage texts and method and device for identifying webpage texts
CN109685056B (en) Method and device for acquiring document information
US8311330B2 (en) Method for the logical segmentation of contents
CN110276054B (en) Insurance text structuring realization method
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
CN109933796B (en) Method and device for extracting key information of bulletin text
CN112307741B (en) Insurance industry document intelligent analysis method and device
CN108197119A (en) The archives of paper quality digitizing solution of knowledge based collection of illustrative plates
CN107977368B (en) Information extraction method and system
Tkaczyk New methods for metadata extraction from scientific literature
JP4787955B2 (en) Method, system, and program for extracting keywords from target document
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
Hong Relation extraction using support vector machine
CN114117038A (en) Document classification method, device and system and electronic equipment
Heidari et al. Financial footnote analysis: developing a text mining approach
US20200257847A1 (en) System and method for using artificial intelligence to deduce the structure of pdf documents
US20230315799A1 (en) Method and system for extracting information from input document comprising multi-format information
JP2013152662A (en) Table classification device, table classification method, and program
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Josi et al. Structural analysis of contract renewals
JP5946949B1 (en) DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM
Chen et al. Research and Implementation of Automatic Indexing Method of PDF for Digital Publishing
Rahnama et al. Automatic metadata extraction from Iranian theses and dissertations
Lunawat et al. Influencing Trends for Neural Information Processing Systems