JP2001265762A - Document structure extracting device and document structure information extracting method - Google Patents

Document structure extracting device and document structure information extracting method

Info

Publication number
JP2001265762A
JP2001265762A JP2000078604A JP2000078604A JP2001265762A JP 2001265762 A JP2001265762 A JP 2001265762A JP 2000078604 A JP2000078604 A JP 2000078604A JP 2000078604 A JP2000078604 A JP 2000078604A JP 2001265762 A JP2001265762 A JP 2001265762A
Authority
JP
Japan
Prior art keywords
information
line
character
document
document structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000078604A
Other languages
Japanese (ja)
Inventor
Shinichi Nakai
信一 中井
Chuichi Kikuchi
忠一 菊池
Masao Ito
正雄 伊藤
健 ▲鶴▼林
Takeshi Tsurubayashi
Takashi Shimojima
崇 下島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000078604A priority Critical patent/JP2001265762A/en
Publication of JP2001265762A publication Critical patent/JP2001265762A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a document structure extracting device capable of extracting a document structure from an electronic document without using a dictionary. SOLUTION: Concerning the document structure extracting device for extracting document structure information from the electronic document, this device is provided with a character information generating part 103 for generating character information containing information on the position, character size and character type of each character by analyzing the document, a line information generating part 105 for generating line information containing information on the character string of each line, the main character size and main character type of each line and the score of each line by analyzing the character information and a document information generating part 107 for generating the document structure information by analyzing this line information. The document structure information generating part 107 generates the document structure information by grouping the lines on the basis of the score of the line information and the continuity of lines. Thus, the document structure information can be extracted from the electronic document without using the dictionary.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、電子文書から章や
節などの文書構造情報を抽出する文書構造抽出装置とそ
の抽出方法に関し、特に、辞書を用いずに文書構造情報
を抽出できるようにしたものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document structure extracting apparatus and method for extracting document structure information such as chapters and sections from an electronic document, and more particularly, to a method for extracting document structure information without using a dictionary. It was done.

【0002】[0002]

【従来の技術】1998年2月にW3Cの勧告としてX
ML1.0が公開されたことにより、近年、ページ記述
言語としてのXMLが注目を集めている。今後、XML
で記述された電子文書に対して、XMLの特徴である構
造を生かした文書管理が普及するものと予想される。
2. Description of the Related Art In February 1998, W3C recommended X
With the release of ML1.0, XML as a page description language has recently attracted attention. In the future, XML
It is anticipated that document management that makes use of the structure that is a characteristic of XML will become widespread for electronic documents described in.

【0003】しかし、現存する文書では、印刷イメージ
上の構造は存在しているが、章や節の開始位置などの文
書構造情報をデータとして有していないものが多く存在
しているため、これらの文書データから文書構造情報を
抽出する文書構造抽出装置が開発されつつある。
However, existing documents have a structure on a print image, but many documents do not have document structure information such as a chapter or section start position as data. A document structure extraction device that extracts document structure information from document data of a document is being developed.

【0004】従来の文書構造抽出装置は、図22に示す
ように、原文を入力する入力部2601と、原文を記憶する
原文記憶部2602と、見出しと見出し以外の文字との区切
りに用いられる語を収録した見出し区切り語辞書2608
と、文書データから見出し区切り語辞書2608に載る語を
検索して見出し区切り候補を抽出する見出し区切り候補
抽出部2607と、見出し区切り規則辞書2610に基づいて見
出し区切り候補から見出し範囲を定める見出し範囲判定
部2609と、見出し語を収録した見出し語辞書2613と、見
出し語辞書2613及び見出し規則辞書2612に基づいて見出
し範囲の文字列が見出しであるか否かを判定する見出し
判定部2611と、見出し判定部2611が見出しあるいは見出
しでないと判定した文字列に対して、文書構造規則辞書
2615を用いて章見出し、節見出し、段落などの論理構造
を判定する文書構造判定部2614と、文書構造判定部2614
で判定された論理構造を記憶する論理構造記憶部2606
と、判定された論理構造などを表示する表示部2604と、
表示部2604の表示を制御する表示制御部2603と、各部を
制御する文書管理部2605とを備えている。
As shown in FIG. 22, a conventional document structure extracting apparatus includes an input unit 2601 for inputting an original sentence, an original sentence storage unit 2602 for storing an original sentence, and a word used for separating a heading from a character other than the heading. Headword Separator Dictionary 2608
And a heading delimiter extraction unit 2607 for searching the document data for words included in the heading delimiter dictionary 2608 to extract heading delimiter candidates, and a heading range determination for determining a heading range from the heading delimiter candidates based on the heading delimiter rule dictionary 2610 Unit 2609, a headword dictionary 2613 containing headwords, a heading determination unit 2611 that determines whether a character string in the heading range is a heading based on the headword dictionary 2613 and the heading rule dictionary 2612, and a heading determination A document structure rule dictionary is used for a character string determined by the
A document structure determining unit 2614 that determines a logical structure of a chapter heading, a section heading, a paragraph, and the like using 2615, and a document structure determining unit 2614
Logical structure storage unit 2606 that stores the logical structure determined in
And a display unit 2604 for displaying the determined logical structure and the like,
A display control unit 2603 that controls display on the display unit 2604 and a document management unit 2605 that controls each unit are provided.

【0005】この文書構造抽出装置では、入力部2601か
ら入力した原文、あるいは既に原文が入力されている場
合には原文記憶部2602から呼び出された原文が文書管理
部2605に送られる。文書管理部2605は、この文書データ
を見出し区切り候補抽出部2607へ送る。
In this document structure extraction device, the original sentence input from the input unit 2601 or, if the original sentence has already been input, the original sentence called from the original sentence storage unit 2602 is sent to the document management unit 2605. The document management unit 2605 sends the document data to the headline break candidate extraction unit 2607.

【0006】見出し区切り候補抽出部2607は、見出し区
切り語辞書2608を用いて、文書データ中から、見出しと
見出し以外とを分離する可能性が高い文字を検索し、そ
れぞれ見出し範囲始まり位置、見出し範囲終り位置を示
す見出し区切り候補とする。見出し範囲判定部2609は、
見出し区切り規則辞書2610に基づいて、文書管理部2605
から送られて来た見出し区切り候補を判定して、見出し
範囲を定める。
The heading delimiter extraction unit 2607 uses the heading delimiter dictionary 2608 to search the document data for a character that has a high possibility of separating a heading from a heading other than a heading. This is a heading delimiter candidate indicating the end position. The heading range determination unit 2609
Document management unit 2605 based on heading separation rule dictionary 2610
The headline range is determined by judging the headline delimiter candidates sent from.

【0007】見出し判定部2611は、見出し範囲判定部26
09で求めた範囲の見出し語の候補に対して、見出し語辞
書2613と照合し、見出しであるか否かの判定を行う。
The heading judging unit 2611 includes a heading range judging unit 26
The entry word candidates in the range obtained in 09 are checked against the entry word dictionary 2613 to determine whether or not the entry is a heading.

【0008】文書構造判定部2614は、見出し判定部2611
により、見出しあるいは見出しでないと判定されたもの
に対し、章見出し、節見出し、段落などの論理構造を判
定する。この結果は、文書管理部2605により論理構造記
憶部2606に書き込まれ、表示制御部2603により、表示部
2604に表示される。
[0008] The document structure determination unit 2614 includes a heading determination unit 2611.
Thus, the logical structure such as a chapter heading, a section heading, or a paragraph is determined for a heading or a non-heading. The result is written into the logical structure storage unit 2606 by the document management unit 2605, and is displayed by the display control unit 2603 on the display unit.
Displayed in 2604.

【0009】[0009]

【発明が解決しようとする課題】しかし、従来の文書構
造抽出装置は、見出し語辞書など、複数の辞書を用いて
文書構造を抽出しているため、まず、これらの辞書を作
成する必要があり、この辞書作成にコストが掛かると云
う問題点がある。また、特許文書や小説など、文書の種
類によって使用する辞書を変える必要があり、多種類の
辞書を用意していなければならないと云う問題点があ
る。
However, since the conventional document structure extraction device extracts a document structure using a plurality of dictionaries such as a headword dictionary, it is necessary to first create these dictionaries. However, there is a problem that the cost of creating the dictionary is high. Further, it is necessary to change the dictionary to be used depending on the type of document such as a patent document or a novel, and there is a problem that various types of dictionaries must be prepared.

【0010】本発明は、こうした従来の問題点を解決す
るものであり、辞書を使用せずに文書から文書構造を抽
出することができる文書構造抽出装置とその抽出方法と
を提供することを目的としている。
An object of the present invention is to solve such a conventional problem, and an object of the present invention is to provide a document structure extracting apparatus and a method for extracting a document structure from a document without using a dictionary. And

【0011】[0011]

【課題を解決するための手段】そこで、本発明では、電
子文書から文書構造情報を抽出する文書構造抽出装置に
おいて、文書を解析して、各文字の位置、文字サイズ及
び文字種の情報を含む文字情報を生成する文字情報生成
部と、この文字情報を解析して、各行の文字列、並びに
各行で最も多く使用されている文字サイズ及び文字種の
情報を含む行情報を生成する行情報生成部と、この行情
報を解析して文書構造情報を生成する文書構造情報生成
部とを設けている。
Therefore, according to the present invention, in a document structure extracting device for extracting document structure information from an electronic document, the document is analyzed and a character including information on the position, character size and character type of each character is analyzed. A character information generating unit that generates information, and a line information generating unit that analyzes the character information to generate a character string of each line, and line information including information of a character size and a character type most frequently used in each line. And a document structure information generating section for analyzing the line information to generate document structure information.

【0012】また、電子文書から文書構造情報を抽出す
る文書構造情報抽出方法において、文書を解析して、各
文字の位置、文字サイズ及び文字種の情報を含む文字情
報を生成し、この文字情報から、各行の文字列、各行で
最も多く使用されている文字サイズ及び文字種、並び
に、各行のスコアを含む行情報を生成し、この行情報の
スコア及び行の連続性に基づいて行をグループ化し、ペ
ージ、開始行、終了行、スコア及び文字列の情報を含む
文書構造情報を生成している。
In a document structure information extracting method for extracting document structure information from an electronic document, a document is analyzed to generate character information including information on the position, character size and character type of each character, and from this character information Generate line information including the character string of each line, the character size and character type most frequently used in each line, and the score of each line, and group the lines based on the score of this line information and the continuity of the line, It generates document structure information including page, start line, end line, score, and character string information.

【0013】また、文書を解析して各文字の位置の情報
を含む文字情報を生成し、この文字情報から各行の文字
列の情報を含む行情報を生成し、一方、文書の目次のペ
ージを解析して、タイトルの文字列を表すタイトル情
報、ページ数を表すページ情報、及びタイトル情報から
求めたスコアを含む目次情報を生成し、行情報から目次
情報のタイトルの文字列を検索してタイトルに該当する
行を求め、それを基にページ、開始行、終了行、スコア
及び文字列の情報を含む文書構造情報を生成している。
Further, the document is analyzed to generate character information including information on the position of each character, and from this character information, line information including the character string information of each line is generated. Analyze, generate table of contents information including title information indicating the character string of the title, page information indicating the number of pages, and a score obtained from the title information, search the character string of the title of the table of contents information from the line information, and Is obtained, and based on this, document structure information including information on a page, a start line, an end line, a score, and a character string is generated.

【0014】そのため、辞書を用いずに、電子文書から
文書構造情報を抽出することができる。
Therefore, the document structure information can be extracted from the electronic document without using a dictionary.

【0015】[0015]

【発明の実施の形態】(第1の実施形態)第1の実施形
態の文書構造抽出装置は、図1に示すように、文書デー
タが入力する文書入力部101と、入力した文書データを
格納する文書格納部102と、文書を解析して、文字情報
(文書中の各文字の位置するページ、ページ先頭文字か
らの文字数、文字コード、文字種、文字サイズ、ページ
紙面上の位置などの情報)を生成する文字情報生成部10
3と、生成された文字情報を格納する文字情報格納部104
と、文字情報を解析して、行情報(文書中の各行の位置
するページ、紙面上の行の位置、行を構成する文字の主
要文字サイズ、主要文字種、文字列、スコア(評価点)
などの情報)を生成する行情報生成部105と、生成され
た行情報を格納する行情報格納部106と、行情報を解析
して、文書構造情報(各構造のスコア、各構造の開始ペ
ージ、開始行、終了ページ、終了行、文字列などの情
報)を生成する文書構造情報生成部107と、生成された
文書構造情報を格納する文書構造情報格納部108とを備
えている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS (First Embodiment) As shown in FIG. 1, a document structure extraction apparatus according to a first embodiment stores a document input unit 101 for inputting document data and the input document data. Document storage unit 102 to analyze the document and character information (information such as the page where each character in the document is located, the number of characters from the first character of the page, character code, character type, character size, and position on the page) Character information generation unit 10 that generates
3 and a character information storage unit 104 for storing the generated character information
And character information, and analyzes the line information (the page where each line in the document is located, the position of the line on the paper, the main character size, main character type, character string, score (evaluation score)
Line information generating unit 105 that generates the line information, a line information storage unit 106 that stores the generated line information, and analyzes the line information to obtain document structure information (score of each structure, start page of each structure) , A start line, an end page, an end line, a character string, etc.), and a document structure information storage unit 108 for storing the generated document structure information.

【0016】以上のように構成された文書構造抽出装置
について、その動作を説明する。
The operation of the document structure extracting apparatus configured as described above will be described.

【0017】文書入力部101から入力された文書は文書
格納部102に格納される。文字情報生成部103では、文書
格納部102内の文書を解析し、文字情報を生成して文字
情報格納部104に格納する。行情報生成部105は、文字情
報格納部104内の文字情報を解析して行情報を生成し、
行情報格納部106に格納する。文書構造情報生成部107
は、行情報格納部106内の行情報を解析して文書構造情
報を生成し、文書構造情報格納部108に格納する。
The document input from the document input unit 101 is stored in the document storage unit 102. The character information generation unit 103 analyzes the document in the document storage unit 102, generates character information, and stores it in the character information storage unit 104. The line information generation unit 105 analyzes the character information in the character information storage unit 104 to generate line information,
The information is stored in the row information storage unit 106. Document structure information generation unit 107
Analyzes the line information in the line information storage unit 106 to generate document structure information, and stores it in the document structure information storage unit 108.

【0018】次に、図2、図3、図4、図5、図6を用
いて、行情報及び文書構造情報の生成方法について説明
する。
Next, a method of generating line information and document structure information will be described with reference to FIGS. 2, 3, 4, 5, and 6. FIG.

【0019】図2は、文書格納部102に格納される文書
の例を示し、図3は、文字情報生成部103が、図2の文
書から生成する文字情報の例を示している。文字情報と
して、各文字に関して、文書中でのページ、ページ先頭
文字からの文字数、文字、文字サイズ、文字種及びペー
ジ紙面上の位置の情報が生成され、文字情報格納部104
に格納される。
FIG. 2 shows an example of a document stored in the document storage unit 102, and FIG. 3 shows an example of character information generated by the character information generation unit 103 from the document of FIG. As character information, for each character, information on the page in the document, the number of characters from the first character of the page, the character, the character size, the character type, and the position on the page are generated.
Is stored in

【0020】図4は、行情報生成部105における行情報
の生成方法を示すフローチャートである。
FIG. 4 is a flowchart showing a method of generating line information in the line information generation unit 105.

【0021】ステップ402:行情報生成部105は、行情報
を生成する対象の行としてLINE=1を設定し、 ステップ403:文字情報格納部104から1文字を読み出
し、 ステップ404:文字情報格納部104に同一ページの文字が
残っているかどうかを判定し、残っていれば、 ステップ405:文字情報格納104から次の文字を読みだ
し、 ステップ406:ステップ405で取得した文字のY座標と、
1文字前のY座標とを比較し、同じであれば、 ステップ404に戻って、文字情報格納部104から次の文字
を読み出す。
Step 402: The line information generation unit 105 sets LINE = 1 as a line for which line information is to be generated. Step 403: Reads one character from the character information storage unit 104. Step 404: Character information storage unit It is determined whether characters of the same page remain in 104, and if so, step 405: read the next character from the character information storage 104, step 406: the Y coordinate of the character obtained in step 405,
The Y-coordinate of the previous character is compared, and if they are the same, the process returns to step 404 to read the next character from the character information storage unit 104.

【0022】ステップ406において、Y座標が異なる場
合には、 ステップ407:ステップ403及びステップ405で取得した
文字情報から、ページ数、文字列、最も多く使用されて
いる文字サイズ、文字種を取得し、行数=LINEのレ
コードに格納し、 ステップ408:LINE=LINE+1に設定し、 ステップ404からの手順を繰り返す。
If the Y coordinates are different in step 406, step 407: the number of pages, the character string, the most frequently used character size, and the character type are obtained from the character information obtained in steps 403 and 405. Step 408: LINE = LINE + 1 is set, and the procedure from step 404 is repeated.

【0023】また、ステップ404において、文字情報格
納部104に同一ページの文字が残っていないときは、 ステップ409:ステップ403及びステップ405で取得した
文字情報から、ページ数、文字列、最も多く使用されて
いる文字サイズ、文字種を取得し、行数=LINEのレ
コードに格納し、 ステップ410:スコアを除いた行情報からスコアを計算
し、行情報格納部106内の行情報に格納する。スコア
は、例えば、(文字サイズ+文字種(ゴシックなら+
1、明朝なら+0))により計算する。
If no character of the same page remains in the character information storage unit 104 in step 404, step 409: from the character information acquired in step 403 and step 405, the number of pages, the character string, The obtained character size and character type are obtained and stored in the record of the number of lines = LINE. Step 410: A score is calculated from the line information excluding the score, and stored in the line information in the line information storage unit 106. The score is, for example, (Character size + character type (Gothic +
1. Calculate according to +0)) for Mincho.

【0024】図5は、図4の過程を経て生成された行情
報の例である。
FIG. 5 is an example of line information generated through the process of FIG.

【0025】文書構造情報生成部107は、スコアが同
一、または近似する連続した行をグループ化し、開始ペ
ージ、開始行、終了ページ、終了行、文字列のデータを
生成して、文書構造情報格納部108に格納する。
The document structure information generation unit 107 groups continuous lines having the same or similar scores, generates start page, start line, end page, end line, and character string data, and stores the document structure information. It is stored in the unit 108.

【0026】図6は生成された文書構造情報の例であ
る。図5の行情報において、5行及び6行は、スコアが
同一であり、且つ連続しているため、一つにグループ化
されている。
FIG. 6 shows an example of the generated document structure information. In the row information shown in FIG. 5, rows 5 and 6 have the same score and are continuous, and are therefore grouped into one.

【0027】このように、この文書構造抽出装置では、
電子文書から各文字の文字情報を取得し、これを基に各
行の行情報を求め、この行情報から文書構造情報を抽出
することができる。
As described above, in this document structure extraction device,
Character information of each character is obtained from the electronic document, line information of each line is obtained based on the character information, and document structure information can be extracted from the line information.

【0028】なお、文字情報として、文書中の各文字の
ページ、ページ先頭文字からの文字数、文字コード、文
字種、文字サイズ、ページ紙面上の位置を示したが、こ
れだけに限定するものではない。例えば、文字の色など
を文字情報に加えることも可能である。
As the character information, the page of each character in the document, the number of characters from the first character of the page, the character code, the character type, the character size, and the position on the page are shown, but the present invention is not limited thereto. For example, it is also possible to add the color of the character to the character information.

【0029】また、行情報として、文書中の各行のペー
ジ、紙面上の行の位置、主要文字サイズ、主要文字種、
文字列、スコアを示したが、これだけに限定するもので
はない。
As the line information, the page of each line in the document, the position of the line on the paper, the main character size, the main character type,
Although the character string and the score are shown, the present invention is not limited to this.

【0030】また、スコアの算出式として(文字サイズ
+文字種(ゴシックなら+1、明朝なら+0))を用い
たが、これに限定するものではない。
Although (character size + character type (+1 for Gothic, +0 for Mincho)) is used as the formula for calculating the score, the present invention is not limited to this.

【0031】また、文書構造情報格納部108に格納され
ている文書構造情報を利用することにより、XML文書
を作成することも可能である。
Further, an XML document can be created by using the document structure information stored in the document structure information storage unit 108.

【0032】(第2の実施形態)第2の実施形態の文書
構造抽出装置は、過去に登録された文書の行情報を学習
教材に利用して文書構造情報を取得する。
(Second Embodiment) The document structure extracting apparatus according to the second embodiment acquires document structure information by using line information of a document registered in the past as a learning material.

【0033】この装置は、図7に示すように、過去の行
情報を格納する過去行情報格納部708を具備している。
過去の行情報は、過去に解析した文書の行情報であり、
図8に例示するように、スコア、主要文字サイズ、主要
文字種の情報の他に、構造名(章タイトル、節タイト
ル、本文など)の情報が含まれている。文書構造情報生
成部707は、過去行情報格納部708に格納された過去の行
情報を利用して文書構造情報の必要な項目(ここでは構
造名)を生成する。その他の構成は第1の実施形態(図
1)と変わりがない。
As shown in FIG. 7, the apparatus includes a past row information storage unit 708 for storing past row information.
The past line information is line information of a document analyzed in the past,
As illustrated in FIG. 8, in addition to the information of the score, the main character size, and the main character type, information of the structure name (chapter title, section title, text, etc.) is included. The document structure information generation unit 707 generates necessary items of the document structure information (here, a structure name) using the past line information stored in the past line information storage unit 708. Other configurations are the same as those of the first embodiment (FIG. 1).

【0034】この文書構造抽出装置では、文書入力部70
1から入力された文書が文書格納部702に格納される。文
字情報生成部703は、文書格納部702に格納された文書を
解析して、図3の文字情報(文書中の各文字のページ、
ページ先頭文字からの文字数、文字コード、文字種、文
字サイズ、ページ紙面上の位置)を生成し、文字情報格
納部704に格納する。
In this document structure extraction device, the document input unit 70
The document input from 1 is stored in the document storage unit 702. The character information generation unit 703 analyzes the document stored in the document storage unit 702, and obtains the character information (page of each character in the document,
The number of characters, the character code, the character type, the character size, and the position on the page of the page from the top character of the page are generated and stored in the character information storage unit 704.

【0035】行情報生成部705は、文字情報格納部704内
の文字情報を解析し、図5の行情報(文書中の各行のペ
ージ、紙面上の行、主要文字サイズ、主要文字種、文字
列、スコア)を生成し、行情報格納部706に格納する。
The line information generation unit 705 analyzes the character information in the character information storage unit 704, and obtains the line information (page of each line in the document, line on paper, main character size, main character type, character string) in FIG. , Score) and stores them in the row information storage unit 706.

【0036】文書構造情報生成部708は、この行情報か
ら、スコアが同一または近似する連続した行をグループ
化し、開始ページ、開始行、終了ページ、終了行、文字
列の各データからなる文書構造情報を生成し、さらに、
過去行情報格納部708に格納された図8の過去行情報か
ら、行情報と同様の主要文字種、主要文字サイズ及びス
コアのセットを持つ過去行情報を検索し、該当する過去
行情報の構造名を取得して文書構造情報に加え、この
(各構造のスコア、構造名、開始ページ、開始行、終了
ページ、終了行、文字列)から成る文書構造情報を文書
構造情報格納部708に格納する。
The document structure information generation unit 708 groups continuous lines having the same or similar scores from the line information, and forms a document structure including data of a start page, a start line, an end page, an end line, and a character string. Generate information, and
The past line information having the same main character type, main character size, and score set as the line information is searched from the past line information of FIG. 8 stored in the past line information storage unit 708, and the structure name of the corresponding past line information is searched. Is acquired and added to the document structure information, and the document structure information including the (score of each structure, structure name, start page, start line, end page, end line, character string) is stored in the document structure information storage unit 708. .

【0037】図9は、文書構造情報格納部708に格納さ
れた文書構造の例である。
FIG. 9 shows an example of the document structure stored in the document structure information storage unit 708.

【0038】このように、この文書構造情報抽出装置で
は、過去の行情報を利用して文書構造情報における必要
な項目の情報を得ることができる。
As described above, the document structure information extracting apparatus can obtain necessary item information in the document structure information by using the past line information.

【0039】また、この文書構造情報を基に行情報を生
成し、過去行情報として利用することができる。こうし
て過去行情報を集積し、学習教材を豊富化することによ
り、過去行情報を用いて文書構造情報を得るときの精度
を高めることができる。
Further, line information can be generated based on the document structure information and used as past line information. By accumulating the past line information and enriching the learning materials, it is possible to improve the accuracy of obtaining the document structure information using the past line information.

【0040】(第3の実施形態)第3の実施形態の文書
構造抽出装置は、目次情報を利用して必要な文書構造情
報を取得する。
(Third Embodiment) The document structure extracting apparatus according to the third embodiment acquires necessary document structure information by using the table of contents information.

【0041】この装置は、図10に示すように、文書格
納部1102から目次が記述されているページを取得して目
次情報を生成する目次情報生成部1107と、生成された目
次情報を格納する目次情報格納部1108とを備えており、
文書構造情報生成部1109は、この目次情報と行情報とを
解析して文書構造情報を生成する。その他の構成は第1
の実施形態(図1)と変わりがない。
As shown in FIG. 10, this apparatus acquires a page in which a table of contents is described from a document storage unit 1102 and generates table of contents information, and stores the generated table of contents information. And a table of contents information storage unit 1108,
The document structure information generation unit 1109 analyzes the table of contents information and the line information to generate document structure information. Other configurations are first
There is no difference from the embodiment (FIG. 1).

【0042】この文書管理装置では、文書入力部1101か
ら入力された文書が文書格納部1102に格納され、文字情
報生成部1103は、第1の実施形態と同様に、この文書格
納部1102内の文書を解析して、図3に示すように、(文
書中の各文字の存在ページ、ページ先頭からの文字数、
文字コード、文字サイズ、文字種、ページ紙面上の位
置)から成る文字情報を生成し、文字情報格納部1104に
格納する。
In this document management device, the document input from the document input unit 1101 is stored in the document storage unit 1102, and the character information generation unit 1103 performs the same operation as in the first embodiment. Analyzing the document, as shown in FIG. 3, (the page where each character in the document exists, the number of characters from the top of the page,
Character information including a character code, a character size, a character type, and a position on a page of paper is generated, and stored in the character information storage unit 1104.

【0043】行情報生成部1105は、この文字情報から、
第1の実施形態と同様に、(文書中の各行のページ、紙
面上の行、主要文字サイズ、主要文字種、文字列)から
成る行情報を生成する。但し、行情報にはスコアを含め
ない。
From the character information, the line information generation unit 1105
In the same manner as in the first embodiment, line information including (a page of each line in a document, a line on paper, a main character size, a main character type, and a character string) is generated. However, the score is not included in the line information.

【0044】目次情報生成部1107は、文書格納部1102か
ら目次の記述されているページを取得する。図11は目
次ページの例である。このとき、目次情報生成部1107
は、文字情報格納部1104から「目次」、「もくじ」など
目次を表し、かつ、文書の主要文字サイズよりも大き
く、紙面上上端に近い文字列を探し出し、該当するペー
ジを目次ページとして取得する。なお、目次ページは利
用者によって指定されたものを利用することもできる。
The table of contents information generation unit 1107 obtains a page in which a table of contents is described from the document storage unit 1102. FIG. 11 is an example of a table of contents page. At this time, the table of contents information generation unit 1107
Indicates a table of contents such as "table of contents" or "table of contents" from the character information storage unit 1104, and searches for a character string that is larger than the main character size of the document and close to the top of the page, and obtains the corresponding page as the table of contents I do. It should be noted that the table of contents page may be the one specified by the user.

【0045】目次情報生成部1107は、この目次ページに
記述されている各行を解析し、構造名を表す文字部と、
開始ページ数を表す数字部とに分割し、文字部の紙面上
の文字開始位置(X座標)や文字部先頭の数字に応じた
スコアを設定し、図12に例示する目次情報を作成し
て、目次情報格納部1108に格納する。
The table of contents information generating unit 1107 analyzes each line described in this table of contents page,
It is divided into a number part indicating the number of start pages, and a score is set according to the character start position (X coordinate) of the character part on the paper and the number at the beginning of the character part, and the table of contents information illustrated in FIG. 12 is created. Is stored in the table of contents information storage unit 1108.

【0046】文書構造情報生成部1109は、行情報格納部
1106内の行情報及び目次情報格納部1108内の目次情報を
解析し、文書構造情報を生成して、文書構造情報格納部
1108に格納する。
The document structure information generation unit 1109 includes a line information storage unit
The line information in 1106 and the table of contents information in the table of contents information storage unit 1108 are analyzed to generate document structure information, and the document structure information storage unit
Stored in 1108.

【0047】このとき、文書構造情報生成部1109は、行
情報を検索して、目次情報の数字部に該当するページか
ら目次情報の文字部の文字列を探し、その文字列に該当
する行を取得する。また、文字部の文字列に該当する行
と行の間の本文の行を算出し、本文の文字列を行情報か
ら求める。また、文書構造情報のスコアとして目次情報
のスコアを使用し、目次情報に無い本文に対するスコア
は1ランク下げる。こうして、各構造の開始ページ、開
始行、終了ページ、終了行、文字列、スコアから成る文
書構造情報を生成する。図13には、生成された文書構
造情報を示している。
At this time, the document structure information generation unit 1109 searches the line information for a character string of the character part of the table of contents information from a page corresponding to the numeric part of the table of contents information, and deletes the line corresponding to the character string. get. Further, a line of the body between the lines corresponding to the character string of the character part is calculated, and the character string of the body is obtained from the line information. In addition, the score of the table of contents information is used as the score of the document structure information, and the score of the text not included in the table of contents information is lowered by one rank. In this way, document structure information including the start page, start line, end page, end line, character string, and score of each structure is generated. FIG. 13 shows the generated document structure information.

【0048】このように、この文書構造抽出装置では、
目次情報を利用して文書構造情報を生成することができ
る。また、このとき、目次情報とともに行情報を用いて
いるため、目次に記述されていない細かい構造情報(段
落、箇条書きなど)を取得することもできる。
As described above, in this document structure extraction device,
Document structure information can be generated using the table of contents information. At this time, since the line information is used together with the table of contents information, it is possible to acquire detailed structural information (paragraphs, bullet points, etc.) not described in the table of contents.

【0049】(第4の実施形態)第4の実施形態の文書
構造抽出装置は、前の行との行間や、その行の先頭文字
の位置を考慮して文書構造情報のスコアを算出する。
(Fourth Embodiment) The document structure extracting apparatus according to the fourth embodiment calculates the score of the document structure information in consideration of the space between the previous line and the position of the first character of the line.

【0050】この装置のブロック構成は第1の実施形態
(図1)と変わりがない。
The block configuration of this device is the same as that of the first embodiment (FIG. 1).

【0051】この装置では、文書入力部101、文書格納
部102、文字情報生成部103及び文字情報格納部104が、
第1の実施形態と同じ動作を行う。文書入力部101から
図14に示す文書が入力されたとき、文字情報生成部10
3は、図15に示すように、(文書中の各文字のペー
ジ、ページ先頭文字からの文字数、文字コード、文字サ
イズ、文字種、ページ紙面上の位置)から成る文書情報
を生成し、文字情報格納部104に格納する。
In this device, the document input unit 101, the document storage unit 102, the character information generation unit 103, and the character information storage unit 104
The same operation as in the first embodiment is performed. When the document shown in FIG. 14 is input from the document input unit 101, the character information generation unit 10
3 generates document information including (a page of each character in the document, the number of characters from the first character of the page, a character code, a character size, a character type, and a position on the page) as shown in FIG. It is stored in the storage unit 104.

【0052】行情報生成部106は、文字情報格納部104内
の文字情報を解析し、図17に示すように、(文書中の
各行のページ、紙面上の行、主要文字サイズ、主要文字
種、前行との行間、次行との行間、先頭文字X座標、文
字列、スコア)から成る行情報を生成し、行情報格納部
106に格納する。
The line information generation unit 106 analyzes the character information in the character information storage unit 104, and as shown in FIG. 17, (the page of each line in the document, the line on the paper, the main character size, the main character type, Line information including a line between the previous line, a line between the next line, the first character X coordinate, a character string, and a score), and a line information storage unit.
Store in 106.

【0053】図16は、行情報生成部105での行情報の
生成方法を示すフローチャートである。この手順におい
て、ステップ1901からステップ1907は、第1の実施形態
のフローチャート(図4)のステップ401からステップ4
07と同じである。即ち、文字情報格納部102から1文字
を読み出し(ステップ1903)、文字情報格納部102に同
一ページの文字が残っているかどうかを判定し(ステッ
プ1904)、残っていれば文字情報格納102から次の文字
を取得する(ステップ1905)。ステップ1905で取得した
文字のY座標と、1文字前のY座標とを比較し(ステッ
プ1906)、同じであれば、文字情報格納部104から次の
文字を取得する。ステップ1906の比較が異なる場合は、
ステップ1903及びステップ1905で取得した文字情報か
ら、ページ数、文字列、最も多く使用されている文字サ
イズ、文字種を取得し、行数=LINEのレコードに格
納する(ステップ1907)。
FIG. 16 is a flowchart showing a method of generating line information in the line information generation unit 105. In this procedure, steps 1901 to 1907 correspond to steps 401 to 4 of the flowchart (FIG. 4) of the first embodiment.
Same as 07. That is, one character is read from the character information storage unit 102 (step 1903), and it is determined whether characters of the same page remain in the character information storage unit 102 (step 1904). Is obtained (step 1905). The Y coordinate of the character obtained in step 1905 is compared with the Y coordinate of the previous character (step 1906). If they are the same, the next character is obtained from the character information storage unit 104. If the comparison in step 1906 is different,
From the character information acquired in steps 1903 and 1905, the number of pages, the character string, the most frequently used character size, and the character type are acquired and stored in the record of line number = LINE (step 1907).

【0054】ステップ1908:さらに、文字情報から、前
行との行間、及び先頭文字位置のX座標を取得して、行
数=LINEのレコードに格納し、前行との行間を行数
=LINE−1の「後行との行間」に記録する。
Step 1908: Further, the line spacing from the previous line and the X coordinate of the first character position are acquired from the character information, and stored in the record of the line number = LINE, and the line spacing with the previous line = LINE is obtained. -1 is recorded in "between lines after the next line".

【0055】ステップ1909:次いで、LINE=LIN
E+1に設定し、ステップ1904以降の手順を繰り返す。
Step 1909: Next, LINE = LIN
Set to E + 1 and repeat the procedure from step 1904.

【0056】ステップ1904において、文字情報格納部10
2に同一ページの文字が残っていないときは、ステップ1
903及びステップ1905で取得した文字情報から、ページ
数、文字列、最も多く使用されている文字サイズ、文字
種を取得して行数=LINEのレコードに格納する(19
10)。
In step 1904, the character information storage unit 10
If there are no characters on the same page left in step 2, go to step 1
From the character information acquired in step 903 and step 1905, the number of pages, the character string, the most frequently used character size, and the character type are acquired and stored in the record of line number = LINE (19)
Ten).

【0057】ステップ1911:さらに、文字情報から、前
行との行間、及び先頭文字位置のX座標を取得して、行
数=LINEのレコードに格納し、前行との行間を行数
=LINE−1の「後行との行間」に記録する。
Step 1911: Further, the line spacing from the preceding line and the X coordinate of the first character position are acquired from the character information and stored in the record of the line number = LINE, and the line spacing from the preceding line = LINE is obtained. -1 is recorded in "between lines after the next line".

【0058】ステップ1912:スコアを除いた行情報か
ら、 (文字サイズ+文字種(ゴシックなら+1、明朝なら+
0)+(前行との行間(“−"の場合は後行との行間と
同じ)−後行との行間)÷10+先頭文字X座標÷5) によりスコアを計算し、行情報格納部106の行情報に格
納する。
Step 1912: From the line information excluding the score, (character size + character type (+1 for Gothic, +
0) + (line spacing from the previous line (in the case of “-”, the same as the line spacing between the following lines) −line spacing from the following line) ÷ 10 + first character X coordinate ÷ 5) Stored in 106 line information.

【0059】図17は、こうした手順を経て生成された
行情報の例である。
FIG. 17 shows an example of line information generated through such a procedure.

【0060】文書構造情報生成部107は、行情報格納部1
06内の行情報を解析し、文書構造情報(各構造のスコ
ア、開始ページ、開始行、終了ページ、終了行、文字
列)を生成し、構造情報格納部108に格納する。
The document structure information generation unit 107 includes a line information storage unit 1
The line information in 06 is analyzed, and document structure information (score, start page, start line, end page, end line, character string) of each structure is generated and stored in the structure information storage unit 108.

【0061】図18は、生成された文書構造情報を示し
ている。
FIG. 18 shows the generated document structure information.

【0062】この装置では、行位置情報をスコアに加味
することにより、本文の文書構造をさらに細かく抽出す
ることができる。
In this apparatus, by adding the line position information to the score, the document structure of the text can be more finely extracted.

【0063】なお、ここでは、スコアの算出を、(文字
サイズ+文字種(ゴシックなら+1、明朝なら+0)+
(前行との行間(“−"の場合は後行との行間と同じ)
−後行との行間)÷10+先頭文字X座標÷5)により
行っているが、多変量解析によって得られた式などを使
用することも可能である。
In this case, the score is calculated by (character size + character type (+1 for Gothic, +0 for Mincho) +
(Line spacing with the previous line (in the case of "-", this is the same as line spacing with the following line)
Although the calculation is performed according to -line spacing between the succeeding line) ÷ 10 + the first character X coordinate 、 5), it is also possible to use an expression or the like obtained by multivariate analysis.

【0064】(第5の実施形態)第5の実施形態では、
第3の実施形態の文書構造抽出装置(図10)が、過去
に登録した文書の行情報を学習教材に利用して、文書構
造情報の必要な項目の情報を取得する場合について説明
する。
(Fifth Embodiment) In the fifth embodiment,
A case will be described in which the document structure extraction device (FIG. 10) of the third embodiment uses the line information of a document registered in the past as a learning material to acquire information on necessary items of the document structure information.

【0065】この文書構造抽出装置は、図19に示すよ
うに、過去行情報を格納する過去行情報格納部2210を備
えており、文書構造情報生成部2209は、過去行情報を利
用して文書構造情報の必要項目の情報を取得する。その
他の構成は第3の実施形態と変わりがない。
As shown in FIG. 19, the document structure extracting apparatus includes a past line information storage unit 2210 for storing past line information, and a document structure information generating unit 2209 uses the past line information to store a document. Acquires information on required items of structure information. Other configurations are the same as those of the third embodiment.

【0066】過去行情報は、過去に登録した文書の行情
報であり、例えば、スコアと主要文字サイズと主要文字
種と構造名とを含んでいる。文書構造情報生成部2209
は、第3の実施形態で説明した手順で文書構造情報を生
成すると、過去行情報格納部2210に格納された過去行情
報と対象文書の行情報とを対比して、この行情報に対応
する構造名を求め、これを取り込んで、図20に示すよ
うに(各構造のスコア、構造名、開始ページ、開始行、
終了ページ、終了行、文字列)から成る文書構造情報を
生成する。
The past line information is line information of a document registered in the past, and includes, for example, a score, a main character size, a main character type, and a structure name. Document structure information generation unit 2209
When the document structure information is generated according to the procedure described in the third embodiment, the past line information stored in the past line information storage unit 2210 is compared with the line information of the target document, and The structure name is obtained and fetched, and as shown in FIG. 20, (score of each structure, structure name, start page, start line,
It generates document structure information including an end page, an end line, and a character string.

【0067】図20は、行情報のスコアが目次情報に基
づいて設定されている場合の文書構造情報を示し、ま
た、図21は、行情報のスコアが第4の実施形態で示す
方法により設定されている場合の文書構造情報を示して
いる。
FIG. 20 shows the document structure information when the score of the line information is set based on the table of contents information. FIG. 21 shows the score of the line information set by the method shown in the fourth embodiment. It shows the document structure information in the case where it is set.

【0068】このように、過去に登録した文書の行情報
を学習教材に用いて新たな文書の文書構造情報を抽出
し、また、抽出した文書構造情報から得られる行情報を
過去行情報に加えて過去行情報を充実することにより、
抽出の精度が向上する。
As described above, the document structure information of a new document is extracted by using the line information of the document registered in the past as a learning teaching material, and the line information obtained from the extracted document structure information is added to the past line information. By enriching past line information,
The accuracy of extraction is improved.

【0069】なお、第1の実施形態でも説明したよう
に、各実施形態で用いる文字情報は、文書中の各文字の
ページ、ページ先頭文字からの文字数、文字コード、文
字種、文字サイズ、ページ紙面上の位置だけに限定され
るものでは無く、例えば、文字の色などを使用すること
も可能である。
As described in the first embodiment, the character information used in each embodiment includes the page of each character in the document, the number of characters from the first character of the page, the character code, the character type, the character size, and the page space. The present invention is not limited to the upper position, and it is also possible to use, for example, the color of characters.

【0070】また、各実施形態の文書構造情報格納部に
格納されている構造情報を利用することにより、XML
文書を作成することが可能である。
Also, by using the structure information stored in the document structure information storage unit of each embodiment, the XML
It is possible to create documents.

【0071】[0071]

【発明の効果】以上の説明から明らかなように、本発明
の文書構造抽出装置及び文書構造情報抽出方法では、辞
書を使わずに、電子文書から文書構造情報を抽出するこ
とができる。
As is clear from the above description, the document structure extracting apparatus and document structure information extracting method of the present invention can extract document structure information from an electronic document without using a dictionary.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の実施形態の文書構造抽出装置の構成を示
すブロック図、
FIG. 1 is a block diagram showing a configuration of a document structure extraction device according to a first embodiment;

【図2】第1の実施形態における登録文書の例、FIG. 2 shows an example of a registered document according to the first embodiment;

【図3】第1の実施形態における文字情報の例、FIG. 3 shows an example of character information according to the first embodiment;

【図4】第1の実施形態における行情報生成のフローチ
ャート、
FIG. 4 is a flowchart of line information generation according to the first embodiment;

【図5】第1の実施形態における行情報の例、FIG. 5 is an example of line information according to the first embodiment;

【図6】第1の実施形態における文書構造情報の例、FIG. 6 shows an example of document structure information according to the first embodiment;

【図7】第2の実施形態の文書構造抽出装置の構成を示
すブロック図、
FIG. 7 is a block diagram illustrating a configuration of a document structure extraction device according to a second embodiment;

【図8】第2の実施形態における過去行情報の例、FIG. 8 shows an example of past line information according to the second embodiment;

【図9】第2の実施形態における構造情報の例、FIG. 9 shows an example of structure information according to the second embodiment;

【図10】第3の実施形態の文書構造抽出装置の構成を
示すブロック図、
FIG. 10 is a block diagram illustrating a configuration of a document structure extraction device according to a third embodiment;

【図11】第3の実施形態における登録文書中の目次の
例、
FIG. 11 shows an example of a table of contents in a registered document according to the third embodiment;

【図12】第3の実施形態における目次情報の例、FIG. 12 shows an example of table of contents information according to the third embodiment;

【図13】第3の実施形態における文書構造情報の例、FIG. 13 shows an example of document structure information according to the third embodiment;

【図14】第4の実施形態における登録文書の例、FIG. 14 shows an example of a registered document according to the fourth embodiment;

【図15】第4の実施形態における文字情報の例、FIG. 15 shows an example of character information according to the fourth embodiment;

【図16】第4の実施形態における行情報作成のフロー
チャート、
FIG. 16 is a flowchart of line information creation according to the fourth embodiment;

【図17】第4の実施形態における行情報の例、FIG. 17 shows an example of line information according to the fourth embodiment;

【図18】第4の実施形態における構造情報の例、FIG. 18 shows an example of structure information according to the fourth embodiment;

【図19】第5の実施形態の文書構造抽出装置の構成を
示すブロック図、
FIG. 19 is a block diagram showing a configuration of a document structure extraction device according to a fifth embodiment;

【図20】第5の実施形態における構造情報の例、FIG. 20 shows an example of structure information according to the fifth embodiment;

【図21】第5の実施形態における構造情報の他の例、FIG. 21 shows another example of the structure information according to the fifth embodiment;

【図22】従来の文書構造抽出装置の構成を示すブロッ
ク図である。
FIG. 22 is a block diagram showing a configuration of a conventional document structure extraction device.

【符号の説明】[Explanation of symbols]

101、701、1101、2201 文書管理装置 102、702、1102、2202 文書格納部 103、703、1103、2203 文字情報生成部 104、704、1104、2204 文字情報格納部 105、705、1105、2205 行情報生成部 106、706、1106、2206 行情報格納部 107、707、1109、2209 文書構造情報生成部 108、709、1110、2211 文書構造情報格納部 708、2210 過去行情報格納部 1107 目次情報生成部 1108 目次情報格納部 2601 入力部 2602 原文記憶部 2603 表示制御部 2604 表示部 2605 文書管理部 2606 論理構造記憶部 2607 見出し区切り候補抽出部 2608 見出し区切り語辞書 2609 見出し範囲判定部 2610 見出し区切り規則辞書 2611 見出し判定部 2612 見出し規則辞書 2613 見出し語辞書 2614 文書構造判定部 2615 文書構造規則辞書 101, 701, 1101, 2201 Document management device 102, 702, 1102, 2202 Document storage unit 103, 703, 1103, 2203 Character information generation unit 104, 704, 1104, 2204 Character information storage unit 105, 705, 1105, 2205 lines Information generation unit 106, 706, 1106, 2206 Line information storage unit 107, 707, 1109, 2209 Document structure information generation unit 108, 709, 1110, 2211 Document structure information storage unit 708, 2210 Past line information storage unit 1107 Table of contents information generation Unit 1108 Table of contents information storage unit 2601 Input unit 2602 Original text storage unit 2603 Display control unit 2604 Display unit 2605 Document management unit 2606 Logical structure storage unit 2607 Heading separator candidate extraction unit 2608 Heading separator dictionary 2609 Heading range determination unit 2610 Heading separator rule dictionary 2611 Heading judgment unit 2612 Heading rule dictionary 2613 Headword dictionary 2614 Document structure judgment unit 2615 Document structure rule dictionary

───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 正雄 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 ▲鶴▼林 健 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 下島 崇 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B009 QA01 QA06 QA07 VA01 VA02 ──────────────────────────────────────────────────の Continuing on the front page (72) Inventor Masao Ito 1006 Kazuma Kadoma, Kadoma City, Osaka Prefecture Matsushita Electric Industrial Co., Ltd. (72) Inventor ▲ Tsuru ▼ Ken Hayashi 1006 Kadoma Kadoma Kadoma City, Osaka Matsushita Electric Industrial Co. In-company (72) Inventor Takashi Shimojima 1006 Kadoma Kadoma, Kadoma-shi, Osaka Matsushita Electric Industrial Co., Ltd. F-term (reference) 5B009 QA01 QA06 QA07 VA01 VA02

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 電子文書から文書構造情報を抽出する文
書構造抽出装置において、 文書を解析して、各文字の位置、文字サイズ及び文字種
の情報を含む文字情報を生成する文字情報生成部と、 前記文字情報を解析して、各行の文字列、並びに各行で
最も多く使用されている文字サイズ及び文字種の情報を
含む行情報を生成する行情報生成部と、 前記行情報を解析して文書構造情報を生成する文書構造
情報生成部とを備えることを特徴とする文書構造抽出装
置。
1. A document structure extracting apparatus for extracting document structure information from an electronic document, comprising: a character information generating unit that analyzes the document and generates character information including information on a position, a character size, and a character type of each character; A line information generating unit that analyzes the character information to generate line information including information of a character string of each line, and a character size and a character type most frequently used in each line; and a document structure by analyzing the line information. A document structure extraction device, comprising: a document structure information generation unit that generates information.
【請求項2】 前記行情報生成部は、各行のスコアを算
出し、前記文書構造情報生成部は、前記スコア及び行の
連続性に基づいて行をグループ化し、前記文書構造情報
を生成することを特徴とする請求項1に記載の文書構造
抽出装置。
2. The method according to claim 1, wherein the line information generating unit calculates a score of each line, and the document structure information generating unit generates the document structure information by grouping the lines based on the score and the continuity of the lines. The document structure extraction device according to claim 1, wherein
【請求項3】 前記文書の目次のページを解析して、タ
イトルの文字列を表すタイトル情報とページ数を表すペ
ージ情報とを含む目次情報を生成する目次情報生成部を
具備し、前記文書構造情報生成部は、前記行情報から前
記タイトルの文字列を検索してタイトルに該当する行を
求め、それを基に前記文書構造情報を生成することを特
徴とする請求項1に記載の文書構造抽出装置。
3. A document structure, comprising: a table of contents information generating unit that analyzes a table of contents table of the document to generate table of contents information including title information indicating a character string of a title and page information indicating a page number. 2. The document structure according to claim 1, wherein the information generation unit searches the character string of the title from the line information to obtain a line corresponding to the title, and generates the document structure information based on the line. Extraction device.
【請求項4】 前記行情報生成部は、各行で最も多く使
用されている文字サイズ及び文字種の情報に基づいて各
行のスコアを算出することを特徴とする請求項1から3
のいずれかに記載の文書構造抽出装置。
4. The apparatus according to claim 1, wherein the line information generation unit calculates a score of each line based on information on a character size and a character type most frequently used in each line.
The document structure extraction device according to any one of the above.
【請求項5】 前記行情報生成部は、各行で最も多く使
用されている文字サイズ及び文字種、各行の前行との行
間、並びに各行の先頭文字の位置の情報に基づいて各行
のスコアを算出することを特徴とする請求項1から3の
いずれかに記載の文書構造抽出装置。
5. The line information generating section calculates a score of each line based on information on a character size and a character type most frequently used in each line, a space between lines before a line, and a position of a leading character of each line. 4. The document structure extracting apparatus according to claim 1, wherein the document structure is extracted.
【請求項6】 前記目次情報生成部は、前記タイトル情
報に対応するスコアを算出し、前記文書構造情報生成部
は、前記目次情報生成部で算出されたスコアを基に前記
文書構造情報のスコアを設定することを特徴とする請求
項3に記載の文書構造抽出装置。
6. The table of contents information calculating section calculates a score corresponding to the title information, and the document structure information generating section calculates a score of the document structure information based on the score calculated by the table of contents information generating section. 4. The document structure extracting apparatus according to claim 3, wherein:
【請求項7】 過去に解析した文書の行情報を格納する
過去行情報格納部を具備し、前記文書構造情報生成部
は、前記過去行情報格納部に格納された過去の行情報を
利用して前記文書構造情報の中の必要な情報を取得する
ことを特徴とする請求項1から6のいずれかに記載の文
書構造情報抽出装置。
7. A past line information storage unit for storing line information of a document analyzed in the past, wherein the document structure information generation unit uses past line information stored in the past line information storage unit. 7. The document structure information extracting device according to claim 1, wherein necessary information in the document structure information is acquired by using the document structure information.
【請求項8】 前記文書構造情報生成部は、前記過去行
情報格納部に格納された過去の行情報を利用して前記文
書構造情報の構造名を取得することを特徴とする請求項
7に記載の文書構造情報抽出装置。
8. The apparatus according to claim 7, wherein the document structure information generation unit acquires a structure name of the document structure information using past line information stored in the past line information storage unit. Document structure information extraction device.
【請求項9】 電子文書から文書構造情報を抽出する文
書構造情報抽出方法において、 文書を解析して、各文字の位置、文字サイズ及び文字種
の情報を含む文字情報を生成し、前記文字情報から、各
行の文字列、各行で最も多く使用されている文字サイズ
及び文字種、並びに、各行のスコアを含む行情報を生成
し、前記行情報のスコア及び行の連続性に基づいて行を
グループ化し、ページ、開始行、終了行、スコア及び文
字列の情報を含む文書構造情報を生成することを特徴と
する文書構造情報抽出方法。
9. A document structure information extraction method for extracting document structure information from an electronic document, wherein the document is analyzed to generate character information including information on the position, character size, and character type of each character, and from the character information Generate the line information including the character string of each line, the character size and character type most frequently used in each line, and the score of each line, and group the lines based on the score of the line information and the continuity of the line. A document structure information extraction method characterized by generating document structure information including information of a page, a start line, an end line, a score, and a character string.
【請求項10】 前記行情報の各行のスコアを、各行で
最も多く使用されている文字サイズ及び文字種の情報に
基づいて算出することを特徴とする請求項9に記載の文
書構造情報抽出方法。
10. The document structure information extracting method according to claim 9, wherein a score of each line of the line information is calculated based on information on a character size and a character type most frequently used in each line.
【請求項11】 前記行情報の各行のスコアを、各行で
最も多く使用されている文字サイズ及び文字種、各行の
前行との行間、並びに各行の先頭文字の位置の情報に基
づいて算出することを特徴とする請求項9に記載の文書
構造情報抽出方法。
11. Calculating a score of each line of the line information based on information of a character size and a character type most frequently used in each line, a space between lines before each line, and a position of a leading character of each line. 10. The document structure information extracting method according to claim 9, wherein:
【請求項12】 電子文書から文書構造情報を抽出する
文書構造情報抽出方法において、 文書を解析して各文字の位置の情報を含む文字情報を生
成し、前記文字情報から各行の文字列の情報を含む行情
報を生成し、一方、前記文書の目次のページを解析し
て、タイトルの文字列を表すタイトル情報、ページ数を
表すページ情報、及び前記タイトル情報から求めたスコ
アを含む目次情報を生成し、前記行情報から前記目次情
報のタイトルの文字列を検索してタイトルに該当する行
を求め、それを基にページ、開始行、終了行、スコア及
び文字列の情報を含む文書構造情報を生成することを特
徴とする文書構造情報抽出方法。
12. A document structure information extracting method for extracting document structure information from an electronic document, wherein the document is analyzed to generate character information including information on the position of each character, and the character string information of each line is generated from the character information. On the other hand, a page of the table of contents of the document is analyzed, and the table of contents including the title information representing the character string of the title, the page information representing the number of pages, and the score obtained from the title information is generated. The document structure information including the information of the page, the start line, the end line, the score, and the character string based on the generated line information and searching the character string of the title of the table of contents information from the line information to obtain the line corresponding to the title. Generating document information.
【請求項13】 過去に解析した文書の行情報を学習教
材に用いて、前記文書構造情報に含める情報を取得する
ことを特徴とする請求項9から12のいずれかに記載の
文書構造情報抽出方法。
13. The document structure information extraction according to claim 9, wherein line information of a document analyzed in the past is used as a learning material to acquire information to be included in the document structure information. Method.
【請求項14】 前記過去に解析した文書の行情報を用
いて文書構造情報の構造名を取得することを特徴とする
請求項13に記載の文書構造情報抽出方法。
14. The document structure information extracting method according to claim 13, wherein a structure name of document structure information is obtained using line information of the document analyzed in the past.
JP2000078604A 2000-03-21 2000-03-21 Document structure extracting device and document structure information extracting method Pending JP2001265762A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000078604A JP2001265762A (en) 2000-03-21 2000-03-21 Document structure extracting device and document structure information extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000078604A JP2001265762A (en) 2000-03-21 2000-03-21 Document structure extracting device and document structure information extracting method

Publications (1)

Publication Number Publication Date
JP2001265762A true JP2001265762A (en) 2001-09-28

Family

ID=18595992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000078604A Pending JP2001265762A (en) 2000-03-21 2000-03-21 Document structure extracting device and document structure information extracting method

Country Status (1)

Country Link
JP (1) JP2001265762A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305088A (en) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc Document processor, document processing method, and document processing program
JP2011039580A (en) * 2009-08-06 2011-02-24 Konica Minolta Business Technologies Inc Device and method for processing document, and program
JP2014527660A (en) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. Method and apparatus for acquiring structured information in layout file

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305088A (en) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc Document processor, document processing method, and document processing program
JP2011039580A (en) * 2009-08-06 2011-02-24 Konica Minolta Business Technologies Inc Device and method for processing document, and program
US8854635B2 (en) 2009-08-06 2014-10-07 Konica Minolta Business Technologies, Inc. Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
JP2014527660A (en) * 2011-12-09 2014-10-16 ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドPeking University Founder Group Co.,Ltd. Method and apparatus for acquiring structured information in layout file

Similar Documents

Publication Publication Date Title
JP5241828B2 (en) Dictionary word and idiom determination
KR100451978B1 (en) A method of retrieving data and a data retrieving apparatus
US20060080309A1 (en) Article extraction
JP4502114B2 (en) Database search device
JPH0484271A (en) Intra-information retrieval device
JP3594701B2 (en) Key sentence extraction device
JPH0769921B2 (en) Document logical structure generation method
JPH04134575A (en) Information presenting device
Lim et al. Automatic genre detection of web documents
JP2001265762A (en) Document structure extracting device and document structure information extracting method
JP4486324B2 (en) Similar word search device, method, program, and information search system
JP2000250908A (en) Support device for production of electronic book
JP2006119697A (en) Question answering system, question answering method, and question answering program
Lu et al. Retrieving imaged documents in digital libraries based on word image coding
JP3079844B2 (en) Full-text database system
JP4047895B2 (en) Document proofing apparatus and program storage medium
EP1072986A2 (en) System and method for extracting data from semi-structured text
JPH07114565A (en) Electronic dictionary
JP4145776B2 (en) Question answering apparatus and question answering method
JP2000067070A (en) Method for retrieving information and method for preparing retrieval file and device for retrieving information
JPH10105562A (en) Retrieval system
JP3022079B2 (en) Full-text database system
JP4318223B2 (en) Document proofing apparatus and program storage medium
JP4047894B2 (en) Document proofing apparatus and program storage medium
JPH08115330A (en) Method for retrieving similar document and device therefor

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040309