JPH11328306A - Method and device for extracting logical element of document image, and record medium - Google Patents

Method and device for extracting logical element of document image, and record medium

Info

Publication number
JPH11328306A
JPH11328306A JP10145781A JP14578198A JPH11328306A JP H11328306 A JPH11328306 A JP H11328306A JP 10145781 A JP10145781 A JP 10145781A JP 14578198 A JP14578198 A JP 14578198A JP H11328306 A JPH11328306 A JP H11328306A
Authority
JP
Japan
Prior art keywords
document
logical
model
image
logical model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10145781A
Other languages
Japanese (ja)
Inventor
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10145781A priority Critical patent/JPH11328306A/en
Publication of JPH11328306A publication Critical patent/JPH11328306A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To accurately extract bibliographic items by using not a character recognition result, but only its layout information at the time of recognizing logical structure. SOLUTION: A layout feature extracting means 103 divides an input document image into elements such as areas and detects features regarding document layout structure. A logical model detecting means 104 detects a model matching the type of a document to be processed out of plural models and an element extracting process means 105 extracts bibliographic items from the document image by using the detected logical model. When it is decided (106) that the model need not be updated, the extracted bibliographic items are outputted (107) and when it is updated, the logical model is updated by using the decided document, a sample document, etc.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書画像の論理要
素を抽出する文書画像の論理要素抽出方法、装置および
論理要素抽出処理プログラムを記録した記録媒体に関す
る。
[0001] 1. Field of the Invention [0002] The present invention relates to a method and an apparatus for extracting a logical element of a document image for extracting a logical element of the document image, and a recording medium storing a logical element extraction processing program.

【0002】[0002]

【従来の技術】例えば、電子図書館、文書ファイリング
システム、データベースなどを構築する場合に、文書画
像の論理構造を認識し、書誌事項を自動的に抽出するこ
とが要求されると共に、文書画像の種類を認識し、自動
的に適当なフォルダに分類する技術も要求される。
2. Description of the Related Art For example, when constructing an electronic library, a document filing system, a database, etc., it is required to recognize the logical structure of a document image and automatically extract bibliographic items, There is also a need for a technique for recognizing a folder and automatically classifying the folder into an appropriate folder.

【0003】従来、この種の文書処理装置としては、例
えば、特開平8−287189号公報に記載された技術
がある。この装置では、利用者が予め書誌事項の抽出ル
ールを設定し、さらに予め設定された複数の文字列パタ
ーンとのマッチングにより文書構造の認識を行ってい
る。しかし、上記した装置では、文字認識のためのコス
トがかかり、また文書毎に抽出ルールを作り直す必要が
ある。
Conventionally, as this type of document processing apparatus, there is a technique described in, for example, Japanese Patent Application Laid-Open No. 8-287189. In this device, a user sets a bibliographic item extraction rule in advance, and recognizes a document structure by matching with a plurality of character string patterns set in advance. However, in the above-described apparatus, the cost for character recognition is high, and it is necessary to recreate the extraction rules for each document.

【0004】[0004]

【発明が解決しようとする課題】文書の論理構造を認識
する他の方法としては、特開平5−159101号公報
に記載された文書論理構造認識および文書内容認識のた
めの装置および方法がある。上記した装置および方法で
は、文書画像の要素間の関係と構造モデルとの整合性を
調べ、該当する構造モデルの論理構造要素の属性パラメ
ータとして文書画像の用紙の内容を認識する。そのため
に、文書要素をノード、要素間の配置関係をリンクする
ようなグラフ構造の構造モデルも用いて文書構造認識を
行っているが、このような構造モデルは全要素間の相対
位置関係で定義されているため、その作成に手間がかか
り、かつ、ある1つの要素を誤認識した場合に、他の残
りのすべての要素認識に対して誤認識を発生させる可能
性が大きいという問題がある。
As another method for recognizing the logical structure of a document, there is an apparatus and a method for recognizing a logical structure of a document and a content of a document described in Japanese Patent Laid-Open No. 5-159101. In the above-described apparatus and method, the relationship between the elements of the document image and the consistency with the structural model are checked, and the contents of the sheet of the document image are recognized as the attribute parameters of the logical structural elements of the corresponding structural model. For this purpose, document structure recognition is performed using a graph structure model that links the document elements to nodes and the arrangement relation between the elements, but such a structure model is defined by the relative positional relationship between all elements. Therefore, there is a problem that it takes a lot of time to create the same, and when one certain element is erroneously recognized, there is a high possibility that erroneous recognition will occur for all other remaining element recognitions.

【0005】本発明の目的は、論理構造を認識する際
に、文字認識結果を用いずにそのレイアウト情報のみを
用いて書誌事項を的確に抽出すると共に、自動的に文書
タイプを識別してそれに合致する論理モデルを自動選択
し、さらに複数のサンプル文書画像を追加して論理モデ
ルを更新することによりレイアウト変動に依存すること
なく書誌事項を抽出する文書画像の論理要素抽出方法、
装置および記録媒体を提供することにある。
SUMMARY OF THE INVENTION It is an object of the present invention to accurately extract a bibliographic item by using only layout information without using a character recognition result when recognizing a logical structure, and to automatically identify a document type and to automatically extract a bibliographic item. A method for automatically selecting a matching logical model, further adding a plurality of sample document images and updating the logical model, thereby extracting bibliographic items without depending on layout variations,
A device and a recording medium are provided.

【0006】[0006]

【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書をデジタル画像とし
て入力し、該文書画像から前記文書のレイアウト特徴を
検出し、複数の論理モデルの中から、前記入力文書のレ
イアウト特徴に一致する論理モデルを検出し、該検出さ
れた論理モデルを用いて前記文書画像から論理要素を抽
出することを特徴としている。
According to the present invention, a document is input as a digital image, layout characteristics of the document are detected from the document image, and a plurality of logical models are obtained. , A logical model that matches a layout feature of the input document is detected, and a logical element is extracted from the document image using the detected logical model.

【0007】請求項2記載の発明では、前記抽出された
論理要素におけるレイアウト特徴が所定のいきい値以上
変動しているとき、前記文書画像を用いて前記論理モデ
ルを更新することを特徴としている。
[0007] The invention according to claim 2 is characterized in that when the layout feature of the extracted logical element fluctuates by a predetermined threshold value or more, the logical model is updated using the document image. .

【0008】請求項3記載の発明では、文書をデジタル
画像として入力する手段と、該文書画像から前記文書の
レイアウト特徴を検出する手段と、複数の論理モデルの
中から、前記入力文書のレイアウト特徴に一致する論理
モデルを検出する手段と、該検出された論理モデルを用
いて前記文書画像から論理要素を抽出する手段と、該抽
出された論理要素におけるレイアウト特徴を基に前記検
出された論理モデルを更新するか否かを判定する手段
と、更新すると判定されたとき、前記文書画像を用いて
前記論理モデルを更新する手段とを備えたことを特徴と
している。
According to the third aspect of the invention, means for inputting a document as a digital image, means for detecting layout characteristics of the document from the document image, and layout characteristics of the input document from a plurality of logical models. Means for detecting a logical model that matches the logical model, means for extracting a logical element from the document image using the detected logical model, and the detected logical model based on a layout feature of the extracted logical element. And a means for updating the logical model using the document image when it is determined that the logical model is to be updated.

【0009】請求項4記載の発明では、文書をデジタル
画像として入力する機能と、該文書画像から前記文書の
レイアウト特徴を検出する機能と、複数の論理モデルの
中から、前記入力文書のレイアウト特徴に一致する論理
モデルを検出する機能と、該検出された論理モデルを用
いて前記文書画像から論理要素を抽出する機能と、該抽
出された論理要素におけるレイアウト特徴が所定のいき
い値以上変動しているとき、前記文書画像を用いて前記
論理モデルを更新する機能をコンピュータに実現させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体であることを特徴としている。
According to the present invention, a function of inputting a document as a digital image, a function of detecting a layout characteristic of the document from the document image, and a layout characteristic of the input document are selected from a plurality of logical models. A function of detecting a logical model that matches the logical model, a function of extracting a logical element from the document image using the detected logical model, and a function of the layout of the extracted logical element fluctuating by a predetermined threshold value or more. The computer-readable storage medium stores a program for causing a computer to implement the function of updating the logical model using the document image.

【0010】[0010]

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。本発明では文書画像から書誌
事項を自動的に抽出する。そのためにユーザが論理モデ
ルとして設定することは、抽出対象となる要素に書誌事
項名と簡単な属性を与えるだけであり、従来の方法に比
べて容易に論理モデルを作成することができる。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be specifically described below with reference to the drawings. In the present invention, bibliographic items are automatically extracted from a document image. For this reason, setting by the user as a logical model merely gives a bibliographic item name and a simple attribute to an element to be extracted, and a logical model can be easily created as compared with the conventional method.

【0011】また、各要素毎に独立に抽出するため、論
理モデルにおいて全体の構造を定義する必要はない。従
って、ある要素に対する誤抽出が、他の要素抽出に与え
る影響も非常に小さい。
In addition, since each element is extracted independently, it is not necessary to define the entire structure in the logical model. Therefore, the influence of erroneous extraction on a certain element on extraction of another element is very small.

【0012】同じ文書タイプでありながら、文書ごとに
書誌事項の行数や文字サイズ、絶対位置などが大きく変
動するものに対しては、学習用に文書画像を複数枚用意
することにより、それらのレイアウト特徴の信頼性を自
動的に判定し、信頼度のパラメータを更新して論理モデ
ルを作成することができる。学習は変動がある要素に関
してのみ行われるので、他の要素の抽出精度に与える悪
影響も非常に小さい。したがって特定のレイアウト特徴
の変動に依存しない安定した抽出結果が得られる。
For a document of the same document type, the number of lines, the character size, the absolute position, etc. of the bibliographic items vary greatly for each document. By preparing a plurality of document images for learning, It is possible to automatically determine the reliability of the layout feature and update the parameter of the reliability to create a logical model. Since the learning is performed only on the elements having fluctuations, the adverse effect on the extraction accuracy of other elements is very small. Therefore, a stable extraction result that does not depend on a change in a specific layout feature can be obtained.

【0013】更新された論理モデルの質はどのような文
書を選ぶかによって大きく左右される。例えば、文書タ
イプ中の例外的に変動が大きな文書を学習させて論理モ
デルを更新した場合には、この論理モデルは当該文書タ
イプをモデル化しているとは言えないし、逆にほとんど
レイアウト変動のない文書を追加しても学習の効果は上
がらない。そして、従来の方法では、論理モデル更新用
に適した文書を人手で選択する必要があったが、本発明
では論理モデル更新に適した文書を自動的に選択してい
る。加えて、文字認識結果を利用しないため、処理が簡
単になり、文字方向や言語に依存せずに要素を抽出する
ことができる。
[0013] The quality of the updated logical model largely depends on the document selected. For example, when a logical model is updated by learning a document having an exceptionally large variation in a document type, the logical model cannot be said to model the document type, and conversely, there is almost no layout variation. Adding a document does not increase the learning effect. In the conventional method, it is necessary to manually select a document suitable for updating the logical model. In the present invention, a document suitable for updating the logical model is automatically selected. In addition, since the result of character recognition is not used, processing is simplified, and elements can be extracted without depending on the character direction or language.

【0014】〈実施例1〉図1は、本発明の実施例の構
成を示す。図において、101は入力文書、102は文
書をデジタル画像として入力するための画像入力手段、
103は入力された文書画像を複数の要素に分割し、分
割された要素などから文書レイアウト構造に関する特徴
を抽出するレイアウト特徴抽出手段、104は処理対象
文書に対して適切な論理モデルを検出する論理モデル検
出手段、105は論理モデルを用いて文書画像から論理
要素を抽出する要素抽出処理手段、106は論理モデル
を更新するか否かを判定する論理モデル更新判定手段、
107は抽出結果を出力する抽出結果出力手段、108
は抽出結果を保持する文書データベース、109は論理
モデル作成用のサンプル画像、110はサンプル画像か
ら抽出対象の要素に書誌事項名と属性を指定し論理モデ
ルを作成する論理モデル作成手段、111は論理モデル
の精度向上を図るために論理モデルを更新する論理モデ
ル更新手段、112は論理モデルを管理する論理モデル
管理データベースである。
Embodiment 1 FIG. 1 shows the structure of an embodiment of the present invention. In the figure, 101 is an input document, 102 is an image input means for inputting a document as a digital image,
Reference numeral 103 denotes a layout feature extraction unit that divides an input document image into a plurality of elements, and extracts features related to a document layout structure from the divided elements and the like. 104 denotes a logic that detects an appropriate logical model for a document to be processed. Model detection means; 105, an element extraction processing means for extracting a logical element from a document image using the logical model; 106, a logical model update determining means for determining whether to update the logical model;
107 is an extraction result output means for outputting the extraction result, 108
Is a document database holding the extraction results, 109 is a sample image for creating a logical model, 110 is a logical model creating means for creating a logical model by designating bibliographic item names and attributes to elements to be extracted from the sample image, and 111 is a logical model A logical model updating unit 112 for updating the logical model in order to improve the accuracy of the model is a logical model management database 112 for managing the logical model.

【0015】図2は、本発明の処理フローチャートであ
る。以下、図2を参照して本発明の動作を説明する。
FIG. 2 is a processing flowchart of the present invention. Hereinafter, the operation of the present invention will be described with reference to FIG.

【0016】画像入力手段102は入力文書101を読
み取り、デジタル文書画像を得る(ステップ201)。
次いで、レイアウト特徴抽出手段103は、入力文書画
像を領域、行に分割し、さらに文字サイズや文字間隔を
求めるために文字を切り出す(ステップ202)。ま
た、領域や行など要素の座標や文字の大きさ、インデン
ト、フォント、コラム情報など文書レイアウト構造に関
する特徴を求める(ステップ203)。入力される文書
画像は複数のページからなる場合もあるが、例えば、入
力文書が論文の場合には、表紙と本文で構成されてい
て、通常、書誌事項が記載されているのは第1ページで
あるので、それ以外の本文ページについて処理する必要
はない。また、入力文書画像は、入力条件により上下左
右に余白を持つ場合があるが、分割された要素の座標値
として、文書を構成する印字領域に対する相対的な位置
情報を用いるので、文書入力条件による悪影響を回避す
ることができる。さらに、縦書き文書にも精度良く対応
するため文書の行方向を求めるが、文字を認識する必要
はない。文書画像の分割結果は、メモリに保存したり、
あるいはファイル(例えばタグつきコードファイル)に
書き出してもよい。
The image input means 102 reads the input document 101 and obtains a digital document image (step 201).
Next, the layout feature extraction unit 103 divides the input document image into regions and lines, and cuts out characters in order to determine the character size and character spacing (step 202). Further, features relating to the document layout structure such as the coordinates of elements such as regions and lines, the size of characters, indents, fonts, and column information are obtained (step 203). The input document image may include a plurality of pages. For example, when the input document is a dissertation, the input document is composed of a cover and a text, and the bibliographic information is usually described on the first page. Therefore, there is no need to process other body pages. Also, the input document image may have margins at the top, bottom, left and right depending on the input condition. However, since the relative position information with respect to the print area constituting the document is used as the coordinate values of the divided elements, Adverse effects can be avoided. Further, the line direction of the document is determined in order to accurately correspond to a vertically written document, but it is not necessary to recognize characters. The division result of the document image can be saved in memory,
Alternatively, the data may be written out to a file (for example, a code file with a tag).

【0017】続いて、論理モデル検出手段104は、論
理モデル管理データベース112に登録されている異る
複数の論理モデルの中から処理対象文書タイプと一致す
る論理モデルを検出する(ステップ204、205)。
一致する論理モデルがないときは、入力文書は未定義文
書であると判定される(ステップ211)。なお、登録
された論理モデルが1つである場合には、あるいは予め
入力される文書タイプが分かっている場合には、ステッ
プ204の処理を実行しなくてもよい。またユーザがシ
ステムに対して直接論理モデルを指定できる場合にも、
ステップ204の処理を省略できる。さらに、フォーマ
ットの異る文書が複数連続して入力される場合にも、論
理モデル検出手段104は、最適な論理モデルを自動選
択するので、ユーザは入力文書形式を意識することなく
すべての文書を一括して処理することができる。
Subsequently, the logical model detecting means 104 detects a logical model that matches the document type to be processed from a plurality of different logical models registered in the logical model management database 112 (steps 204 and 205). .
If there is no matching logical model, the input document is determined to be an undefined document (step 211). If the number of registered logical models is one, or if the document type to be input is known in advance, the process of step 204 may not be performed. Also, when the user can specify the logical model directly to the system,
Step 204 can be omitted. Further, even when a plurality of documents having different formats are successively input, the logical model detecting means 104 automatically selects the optimum logical model, so that the user can view all the documents without being aware of the input document format. It can be processed collectively.

【0018】図3は、論理モデル検出の処理フローチャ
ートである。論理モデルの検出は、論理モデルに指定さ
れたレイアウト特徴を検出し(ステップ302、30
3)と処理対象文書のレイアウト特徴との類似度を用い
て行う(ステップ304)。そして、類似度が一定値以
上であり(ステップ305)、第1候補と第2候補との
類似度の差が十分に大きいとき(ステップ306)、求
める論理モデルであると判定する(ステップ307)。
なお、第1候補の類似度に応じて、判定基準となる第1
候補と第2候補との類似度差のしきい値を動的に変更す
るようにしてもよい。
FIG. 3 is a flowchart of a process for detecting a logical model. The logical model is detected by detecting layout features specified in the logical model (steps 302 and 30).
This is performed using the similarity between 3) and the layout feature of the processing target document (step 304). When the similarity is equal to or more than a certain value (step 305) and the difference between the similarities of the first candidate and the second candidate is sufficiently large (step 306), it is determined that the logical model is to be obtained (step 307). .
In addition, according to the similarity of the first candidate, a first criterion serving as a criterion is determined.
The threshold value of the similarity difference between the candidate and the second candidate may be dynamically changed.

【0019】図2に戻り、要素抽出処理手段105で
は、論理モデル検出手段104で検出された論理モデル
を用いて、文書画像から書誌事項に相当する領域を抽出
する(ステップ206)。図4は、論理モデルとのマッ
チングによって書誌事項の抽出を説明する図である。モ
デルの辞書に格納された書誌事項領域と、文書画像の各
候補領域とのマッチングを行う。すなわち、書誌事項領
域と各候補領域について、レイアウト特徴(領域の位
置、文字サイズ、行数など)毎に類似度を求め、類似度
が上位となる候補領域(例えば、第1候補から第3候
補)を抽出する。
Returning to FIG. 2, the element extraction processing means 105 extracts an area corresponding to bibliographic items from the document image by using the logical model detected by the logical model detecting means 104 (step 206). FIG. 4 is a diagram illustrating extraction of bibliographic items by matching with a logical model. The bibliographic item area stored in the model dictionary is matched with each candidate area of the document image. That is, for the bibliographic matter area and each candidate area, the similarity is calculated for each layout feature (area position, character size, number of lines, etc.), and the candidate area having the higher similarity (for example, from the first candidate to the third candidate). ) To extract.

【0020】続いて、論理モデル更新判定手段106
は、上記した論理モデルの更新を行うか否かを判定する
(ステップ207)。判定の結果、更新しないときは
(ステップ208)、抽出結果出力手段107は、上記
したように抽出された書誌事項の候補領域を文書データ
ベース108に出力する(ステップ209)。論理モデ
ルの更新(ステップ210)については後述する。
Subsequently, the logical model update judging means 106
Determines whether to update the logical model described above (step 207). As a result of the determination, if the information is not updated (step 208), the extraction result output means 107 outputs the candidate area of the bibliographic item extracted as described above to the document database 108 (step 209). Update of the logical model (step 210) will be described later.

【0021】次に、論理モデル作成手段110について
説明する。図5は、論理モデル作成の処理フローチャー
トである。論理モデル作成手段110は、複数の要素に
分割されたモデル文書画像に対して(ステップ501、
502)、ユーザが抽出したい要素に書誌事項名を与え
(ステップ503)、次いで、属性を与える(ステップ
504)。属性としては、例えば該要素の最大行数を与
える。属性は補助的な特徴として処理されるので必ずし
も指定する必要はない。論理モデルは、指定された領域
の書誌事項名と属性とレイアウト特徴とを組み合わせて
作成し、論理モデル管理データベース112に出力する
(ステップ505)。この論理モデルは、文書構造、例
えば各要素間をグラフ化する構造などを必要としないの
で作成や保守が簡単である。
Next, the logical model creating means 110 will be described. FIG. 5 is a processing flowchart for creating a logical model. The logical model creation means 110 performs the processing on the model document image divided into a plurality of elements (step 501,
502), the user gives a bibliographic item name to the element to be extracted (step 503), and then gives an attribute (step 504). As the attribute, for example, the maximum number of rows of the element is given. Attributes are not necessarily specified because they are treated as auxiliary features. The logical model is created by combining the bibliographic item name, the attribute, and the layout feature of the designated area, and outputs the logical model to the logical model management database 112 (step 505). This logical model does not require a document structure, for example, a structure for graphing between elements, and is therefore easy to create and maintain.

【0022】図6は、論理モデルの例を示す。論理モデ
ルは、図6に示すようにタグつきコードで記述され、論
理モデル管理データベース112に格納される。図6に
おいて、第1行にはSGML(文書の論理構造を記述す
る文法)の場合は、DTD(文書型定義)等を定義す
る。第2行目に印字領域範囲や領域数など文書全体に関
する情報を記述する。第3行目以降から実際に文書デー
タを記述する。〈area〉タグには属性として先頭か
ら順に、書誌事項名、最大行数、行数、座標値、文字サ
イズ、フォント値、文字ピッチなどユーザ指定情報とレ
イアウト特徴を記述する。
FIG. 6 shows an example of a logical model. The logical model is described by a code with a tag as shown in FIG. 6 and stored in the logical model management database 112. In FIG. 6, in the first line, in the case of SGML (grammar describing the logical structure of a document), DTD (document type definition) and the like are defined. The second line describes information about the entire document, such as the print area range and the number of areas. Document data is actually described from the third line. The <area> tag describes, as attributes, user-designated information such as a bibliographic item name, a maximum number of lines, the number of lines, a coordinate value, a character size, a font value, and a character pitch, and a layout feature.

【0023】次に、論理モデル更新手段111について
説明する。文書内変動が大きな文書タイプを処理対象と
したときは、1枚のサンプル画像から作成された論理モ
デルを用いて論理要素抽出を行っても、この論理モデル
では文書内変動に十分に対応することができない。この
ような場合にはサンプル文書を新しく追加して論理モデ
ルを更新し、その論理モデルを用いて再実行すると、更
新前に比べて高精度な論理要素抽出結果が得られる。論
理モデルの更新に適したサンプル画像を自動的に選択す
る方法は未だ提案されていない。本発明では、論理モデ
ル更新判定手段111によって論理モデル更新に適した
サンプル画像を自動的に選択することができる。
Next, the logical model updating means 111 will be described. If a document type with large intra-document variations is to be processed, this logical model should sufficiently cope with intra-document variations even if a logical model is extracted using a logical model created from a single sample image. Can not. In such a case, if the logical model is updated by newly adding a sample document and re-executing using the logical model, a logical element extraction result with higher accuracy than before the update is obtained. A method for automatically selecting a sample image suitable for updating the logical model has not yet been proposed. In the present invention, the logical model update determination unit 111 can automatically select a sample image suitable for updating the logical model.

【0024】図7は、論理モデル更新判定の処理フロー
チャートである。論理モデル更新判定手段106は、論
理モデルを用いて処理対象文書から論理要素を抽出し
(ステップ703)、その類似度を検出する(ステップ
704)。このとき、入力文書の類似度が所定値以上あ
るにも関わらず、入力文書のレイアウト特徴に大きな変
動を持つ候補領域が存在する場合には、この入力文書を
用いて論理モデルを更新すれば、より精度の良い論理モ
デルが作成できるとして更新判定する(ステップ70
5、706)。そうでない場合には、論理モデルの更新
による効果が小さいと判定される(ステップ707)。
FIG. 7 is a flowchart of the logical model update determination process. The logical model update determination unit 106 extracts a logical element from the processing target document using the logical model (Step 703), and detects the similarity (Step 704). At this time, even if the similarity of the input document is equal to or greater than a predetermined value, if there is a candidate area having a large variation in the layout characteristics of the input document, by updating the logical model using this input document, It is determined that a more accurate logical model can be created and updated (step 70)
5, 706). Otherwise, it is determined that the effect of updating the logical model is small (step 707).

【0025】論理モデル更新手段111は、論理モデル
更新判定手段106で判定された文書、あるいはユーザ
が直接指定したサンプル文書を用いて論理モデルの更新
を行う。図8は、論理モデル更新の処理フローチャート
である。更新対象となる論理モデルと追加用サンプル文
書画像を用意する(ステップ801、802)。論理モ
デル作成手段110と同様な処理手順を用いて追加用サ
ンプル文書画像を分割し(ステップ803)、レイアウ
ト特徴を求め書誌事項名を与える(ステップ804)。
各書誌事項ごとに定量的、定性的レイアウト特徴の変動
を検出し(ステップ805、806)、変動量がレイア
ウト特徴ごとに設定されたしきい値以上の場合には、論
理モデルにおける該当箇所を更新して論理モデル管理デ
ータベース112に出力する(ステップ807)。
The logical model updating unit 111 updates the logical model using the document determined by the logical model updating determining unit 106 or the sample document directly specified by the user. FIG. 8 is a processing flowchart of the logical model update. A logical model to be updated and a sample document image for addition are prepared (steps 801 and 802). The additional sample document image is divided using the same processing procedure as that of the logical model creating means 110 (step 803), layout characteristics are obtained, and a bibliographic item name is given (step 804).
Quantitative and qualitative variations in layout characteristics are detected for each bibliographic item (steps 805 and 806). If the variation is equal to or greater than a threshold value set for each layout feature, the corresponding part in the logical model is updated. And outputs it to the logical model management database 112 (step 807).

【0026】図9は、論理モデル更新を説明する図であ
る。例えば文字サイズ特徴の更新では文字サイズの許容
範囲に幅を持たせる。また、フォント特徴の更新は、論
理モデルに定義された特徴値と追加サンプル画像のフォ
ントが異なっていれば、論理抽出処理に利用されないこ
とを指定する値0に定義し直す。このように更新される
特徴パラメータとしては定量的なパラメータと定性的な
パラメータの2種類があり、座標、文字サイズ、文字間
隔特徴は定量的なパラメータであり、フォントや出現頻
度特徴は定性的なパラメータである。
FIG. 9 is a diagram for explaining a logical model update. For example, in updating the character size feature, the allowable range of the character size has a width. In the update of the font feature, if the feature value defined in the logical model is different from the font of the additional sample image, the font feature is redefined to a value 0 designating that the font is not used for the logic extraction process. There are two types of feature parameters updated in this way: quantitative parameters and qualitative parameters. Coordinates, character size, and character spacing features are quantitative parameters, and fonts and appearance frequency features are qualitative. Parameter.

【0027】〈実施例2〉上記した実施例のように、文
書種類ごとに用意されたモデルを用いて書誌事項を抽出
する場合に、入力文書の種類を自動識別して、適切なモ
デルを自動選択することは非常に有効である。この際、
書誌事項抽出用モデルと文書識別用モデルを共有化すれ
ば、資源の有効活用になり、かつモデルの管理も容易に
なる。
<Embodiment 2> As in the above embodiment, when bibliographic items are extracted using models prepared for each document type, the type of the input document is automatically identified, and an appropriate model is automatically identified. The choice is very effective. On this occasion,
If the bibliographic item extraction model and the document identification model are shared, resources can be effectively used and the model can be easily managed.

【0028】文書を識別する際に罫線を利用するものと
しては、例えば特開平7−141462号公報に記載さ
れた文書システムがある。このシステムでは、文書画像
から縦横の罫線を抽出し、その罫線の位置情報や長さの
情報と、識別辞書にある様式(文書種類)ごとの識別情
報によりシート識別(文書識別)を行っている。
As an example of using a ruled line when identifying a document, there is a document system described in Japanese Patent Application Laid-Open No. 7-144622. In this system, vertical and horizontal ruled lines are extracted from a document image, and sheet identification (document identification) is performed using position information and length information of the ruled lines and identification information for each style (document type) in an identification dictionary. .

【0029】しかしながら、上記システムは罫線のない
文書には適用が難しく、また、罫線がかすれて途中で切
れてしまった場合や入力文書に図表が多く含まれる場
合、あるいは文書画像入力時にノイズが多く存在する場
合などでは、罫線マッチング処理において誤認識の可能
性が大きい。つまり、上記システムの文書識別能力は罫
線情報の抽出精度に大きく依存している。
However, the above-described system is difficult to apply to a document having no ruled line. In addition, when the ruled line is blurred and cut off in the middle, when the input document contains many charts, or when a document image is input, a large amount of noise is generated. In the case where it exists, the possibility of erroneous recognition in the ruled line matching process is high. In other words, the document identification ability of the above system largely depends on the accuracy of extracting ruled line information.

【0030】本実施例では、帳票のような書誌事項項目
の絶対座標や寸法が定められた(つまり書式が定められ
た)定型文書だけではなく、書誌事項項目とそ順番だけ
が規定されているような(つまり様式が定められた)文
書も処理の対象として、文書が持つ不変的な情報である
書誌事項や罫線のマッチングを利用して精度良く文書種
類を識別する。
In this embodiment, not only a fixed form document in which absolute coordinates and dimensions of a bibliographic item such as a form are defined (that is, a format is defined), but only the bibliographic item and its order are defined. Such a document (that is, a format is determined) is also processed, and the type of the document is identified with high accuracy by using bibliographic items and ruled line matching, which are invariable information of the document.

【0031】すなわち、本実施例は、ランダムに入力さ
れる文書の種類を自動識別するために、文書種類ごとに
論理要素モデルを1つまたは複数作成して、文書が持つ
不変的な情報である書誌事項や罫線のマッチングを利用
して精度良く文書種類を識別する。そのためにユーザが
論理要素モデルとして設定することは、様式として定め
られた書誌事項領域に識別名と簡単な属性を与えること
であり、従来の方法と比べて容易に論理要素モデルを作
成することができる。
That is, in the present embodiment, one or more logical element models are created for each document type in order to automatically identify the type of the document that is randomly input, and the document is invariant information. A document type is identified with high accuracy by using bibliographic items and ruled line matching. Therefore, what the user sets as a logical element model is to give an identifier and a simple attribute to a bibliographic area defined as a style, and the logical element model can be easily created as compared with the conventional method. it can.

【0032】また書誌事項マッチングでは、各要素を独
立に処理するため、論理要素モデルにおいて文書全体の
構造を定義する必要はない。従って、ある要素に対する
処理の誤りが全体に与える影響が少なくなる。さらに、
文字認識結果を利用しないため、処理が簡単にあり、か
つ行方向(縦横書き)や言語に依存することなく文書種
類を識別することができる。
In the bibliographic item matching, since each element is processed independently, it is not necessary to define the structure of the entire document in the logical element model. Therefore, the influence of a processing error on a certain element on the whole is reduced. further,
Since the character recognition result is not used, the processing is simple, and the document type can be identified without depending on the line direction (vertical and horizontal writing) and the language.

【0033】実施例2は、文書識別処理と論理要素モデ
ル作成処理の2つの処理からなる。図10は、実施例2
の構成を示す。図10において、1001は入力文書、
1002は文書をデジタル画像として入力するための画
像入力手段、1003は入力された文書画像を複数の要
素に分割し、レイアウト情報を抽出する画像分割手段、
1004は入力文書と複数の論理要素モデルとを照合す
ることにより、最適モデルを選択する文書識別手段、1
005は文書識別手段の結果を出力する結果出力手段、
1006は文書識別結果を保持する文書データベース、
1007は論理要素モデルを構築するための複数のモデ
ル文書、1008はモデル文書画像を入力するための画
像入力手段、1009は入力されたモデル文書画像を複
数の要素に分割し、レイアウト情報を抽出する画像分割
手段、1010は複数の要素に分割された複数種類のモ
デル文書に対してユーザが必要な要素に書誌事項名と属
性を指定し、論理要素モデルを作成する論理要素モデル
作成手段、1011は論理要素モデルを保持する論理要
素モデル管理デー夕べースである。
The second embodiment includes two processes, a document identification process and a logical element model creation process. FIG. 10 shows the second embodiment.
Is shown. In FIG. 10, reference numeral 1001 denotes an input document;
1002, an image input unit for inputting a document as a digital image; 1003, an image dividing unit for dividing an input document image into a plurality of elements and extracting layout information;
A document identification unit 1004 selects an optimal model by comparing an input document with a plurality of logical element models.
005 is a result output means for outputting the result of the document identification means,
1006 is a document database holding a document identification result;
1007, a plurality of model documents for constructing a logical element model; 1008, an image input unit for inputting a model document image; 1009, an input model document image is divided into a plurality of elements to extract layout information The image dividing means 1010 designates a bibliographic item name and an attribute for a necessary element for a plurality of types of model documents divided into a plurality of elements, and a logical element model creating means 1011 for creating a logical element model. This is a logical element model management database that holds a logical element model.

【0034】図11は、文書識別の処理フローチャート
である。以下、文書識別処理について説明する。画像入
力手段1002は入力文書1001を読み取り、デジタ
ル文書画像を得る(ステップ1101)。画像分割手段
1003は入力文書画像を要素に分割し、文字領域、罫
線領域、文字行、文字を切り出し(ステップ110
2)、次いで、要素の座標や文字の大きさ、インデン
ト、フォント、コラム情報など文書レイアウト構造に関
するレイアウト特徴を求める(ステップ1103)。ま
た、縦書き文書にも精度よく対応するために文書の行方
向を求めるが、文字を認識する必要はない。
FIG. 11 is a flowchart of the document identification process. Hereinafter, the document identification processing will be described. The image input unit 1002 reads the input document 1001 and obtains a digital document image (step 1101). The image dividing means 1003 divides the input document image into elements, and cuts out a character area, a ruled area, a character line, and a character (step 110).
2) Then, layout features related to the document layout structure such as element coordinates, character size, indent, font, and column information are obtained (step 1103). In addition, the line direction of the document is obtained in order to accurately correspond to a vertically written document, but it is not necessary to recognize characters.

【0035】文書識別手段1004は、上記した入力文
書と予め文書種類別に用意された論理要素モデルとを照
合し、入力文書とモデルとの文書間距離を算出する(ス
テップ1104)。文書間距離の算出方法は図13で説
明する。
The document identification means 1004 collates the input document with a logical element model prepared in advance for each document type, and calculates the inter-document distance between the input document and the model (step 1104). The method for calculating the inter-document distance will be described with reference to FIG.

【0036】文書間距離に従って、文書識別足切りのた
めのしきい値を算出する(ステップ1105)。このし
きい値の算出方法については後述する。
In accordance with the inter-document distance, a threshold for document identification cutoff is calculated (step 1105). The method of calculating this threshold will be described later.

【0037】しきい値以下の距離値を持つモデルが唯一
存在するならば、該モデルを正解として選択し、結果を
出力して処理を終了する(ステップ1106、110
7、1110)。また、しきい値以下の距離値を持つモ
デルが複数存在するならば、それらをリジェクトと判定
してそこで処理を終了するか(ステップ1106、11
08、1109、1110)、あるいは更に詳細識別処
理において唯一の最適モデルを選択するか(ステップ1
111)、何れかをユーザの指定に従って行う。
If there is only one model having a distance value equal to or smaller than the threshold value, the model is selected as the correct answer, the result is output, and the processing is terminated (steps 1106 and 110).
7, 1110). If there are a plurality of models having distance values equal to or smaller than the threshold value, these are determined to be rejected, and the process is terminated there (steps 1106 and 1110).
08, 1109, 1110) or whether to select only one optimal model in the detailed identification processing (step 1)
111), any of which is performed in accordance with the user's specification.

【0038】図12は、論理要素モデル作成の処理フロ
ーチャートである。以下、図12を参照して論理要素モ
デル作成について説明する。画像入力手段1008は、
まずモデルとなるサンプル文書1007を読み取り、モ
デル文書画像を入力する(ステップ1201)。次い
で、画像分割手段1009は文書画像を要素に分割し、
文字領域、罫線領域、文字行、文字を切り出し(ステッ
プ1202)、要素の座標や文字の大きさ、インデン
ト、フォント、コラム情報など文書レイアウト構造に関
するレイアウト特徴を検出する(ステップ1203)。
FIG. 12 is a processing flowchart for creating a logical element model. Hereinafter, the creation of the logical element model will be described with reference to FIG. Image input means 1008
First, a sample document 1007 serving as a model is read, and a model document image is input (step 1201). Next, the image dividing means 1009 divides the document image into elements,
A character area, a ruled line area, a character line, and a character are cut out (step 1202), and layout features related to the document layout structure such as element coordinates, character size, indent, font, and column information are detected (step 1203).

【0039】論理モデル作成手段1010において、分
割された文書の書誌事項要素に対してユーザが書誌事項
名を指定し(ステップ1204)、また属性を指定し
(ステップ1205)、前記レイアウト特徴と合わせて
論理要素モデルを論理要素モデル管理データベース10
11に出力する(ステップ1206)。図6は、論理要
素モデルの例を示す。
In the logical model creating means 1010, the user designates a bibliographic item name for the bibliographic item element of the divided document (step 1204) and an attribute (step 1205). The logical element model is stored in the logical element model management database 10
11 (step 1206). FIG. 6 shows an example of a logical element model.

【0040】次に、図13を参照して、入力文書と論理
要素モデルとの文書間距離の算出方法を説明する。文書
間距離は、ユーザが指定した書誌事項領域のマッチング
を利用した書誌事項距離値e(ステップ1303、13
04)と縦横の罫線情報を利用した罫線マッチング距離
値l(ステップ1305、1306)の和(e+l)と
して定義される(ステップ1037)。
Next, a method of calculating the inter-document distance between the input document and the logical element model will be described with reference to FIG. The inter-document distance is a bibliographic item distance value e using matching of a bibliographic item region specified by the user (steps 1303 and 13).
04) and the ruled line matching distance value 1 (steps 1305, 1306) using the vertical and horizontal ruled line information (e + 1) (step 1037).

【0041】入力文書と論理要素モデルとの書誌事項距
離値と罫線マッチング距離値の算出方法を図14を用い
て説明する。
A method of calculating a bibliographic item distance value and a ruled line matching distance value between an input document and a logical element model will be described with reference to FIG.

【0042】(書誌事項距離値算出方法)ユーザが論理
要素モデルに指定した書誌事項の数をN、マッチングに
用いられる特徴次元数をMとする(ステップ1402、
1404)。まず、入力文書の各要素の中から前記モデ
ルに指定された各書誌事項ai(i=1,・・・,N)
に相当する要素をそれぞれ抽出する(ステップ140
3)。これをx(ai)(i=1,..,N)とする。
要素抽出は、例えば前述した実施例1に記載の方法を用
いて行う。
(Method of calculating bibliographic item distance value) The number of bibliographic items specified by the user in the logical element model is N, and the number of feature dimensions used for matching is M (step 1402,
1404). First, bibliographic items ai (i = 1,..., N) specified in the model from among the elements of the input document
Are extracted (step 140).
3). This is x (ai) (i = 1,..., N).
The element extraction is performed by using, for example, the method described in the first embodiment.

【0043】前記要素x(ai)と、それぞれが対応す
る書誌事項要素aiのレイアウト特徴とを照合して、第
1次元特徴から第M次元特徴までの特徴マッチング距離
値(ステップ1405)を算出する。例えば文字サイズ
特徴の場合、その特徴マッチング距離値は、比較要素間
の文字サイズの差である。
The element x (ai) is compared with the layout feature of the bibliographic item element ai corresponding to each, and a feature matching distance value from the first dimension feature to the M-th feature is calculated (step 1405). . For example, in the case of a character size feature, the feature matching distance value is a difference in character size between comparison elements.

【0044】第i書誌事項aiの第j次元特徴の特徴マ
ッチング距離値をfi(j)と表す。すべての特徴に対
して特徴マッチング距離値を求めると、M次元の特徴マ
ッチング距離値ベクトル(fi(1),・・・,fi
(M))が得られる(ステップ1407)。
The feature matching distance value of the j-th feature of the i-th bibliographic item ai is represented by fi (j). When feature matching distance values are obtained for all features, an M-dimensional feature matching distance value vector (fi (1),..., Fi
(M)) is obtained (step 1407).

【0045】このとき、前記文書と第i書誌事項aiの
マッチング距離値e(i)を、各レイアウト特徴マッチ
ング距離値に所定の重みαjをつけた和として次の式で
求める(ステップ1408)。
At this time, the matching distance value e (i) between the document and the i-th bibliographic item ai is obtained by the following equation as the sum of each layout feature matching distance value and a predetermined weight αj (step 1408).

【0046】e(i)=α1fi(1)+α2fi
(2)+・・・+αMfi(M) ここで、αjは第jレイアウト特徴に対応して決まる定
数で、各レイアウト特徴マッチング距離値を正規化する
ために用いられる。
E (i) = α1fi (1) + α2fi
(2) + ... + αMfi (M) Here, αj is a constant determined corresponding to the j-th layout feature, and is used for normalizing each layout feature matching distance value.

【0047】すべての書誌事項に対して前記文書とのマ
ッチング距離値が算出されると、前記文書と前記モデル
との書誌事項マッチングによる距離値dを次の式で計算
する(ステップ1410)。すなわち、eiに所定の重
みβiをつけた和として求める。
When the matching distance value between the document and the document is calculated for all the bibliographic items, a distance value d by bibliographic item matching between the document and the model is calculated by the following equation (step 1410). That is, it is obtained as a sum of ei and a predetermined weight βi.

【0048】e=β1ei+・・・+βNeN ここで、βiは、モデルに指定された書誌事項の印字範
囲に対する相対座標によって決まる重みである。文書端
に現れる書誌事項は、書誌事項マッチングとして重要な
意味を持つことが経験的に分かっている。したがって、
前記加重係数βiは文書端に現れる書誌事項ほど大きな
値を取り、文書中央付近に現れる書誌事項ほど小さい値
を取る。
E = β1ei +... + ΒNeN Here, βi is a weight determined by the relative coordinates with respect to the printing range of the bibliographic items specified in the model. It has been empirically known that bibliographic items appearing at the end of a document have an important meaning as bibliographic item matching. Therefore,
The weighting coefficient βi takes a larger value as the bibliographic item appears near the end of the document, and takes a smaller value as the bibliographic item appears near the center of the document.

【0049】罫線マッチング距離値の算出方法は、上記
した書誌事項距離値算出と同様な方法で求める。ただ
し、文字サイズや文字ピッチなど罫線領域には存在しな
い特徴は処理から除く。また、相対座標による距離値を
前記書誌事項距離値算出の場合よりも厳しく設定する。
The ruled line matching distance value is calculated in the same manner as the above-described bibliographic item distance value calculation. However, features that do not exist in the ruled line area, such as character size and character pitch, are excluded from the processing. Further, the distance value based on the relative coordinates is set more strictly than in the case of calculating the bibliographic item distance value.

【0050】文書識別足切りのためのしきい値の例を説
明する。入力文書と第1位候補モデルとの文書間距離を
dとするとき、しきい値をきめる関数thr(d)を次
の式で定義する。この例では、thr(d)は、入力文
書と第1位候補モデルとの文書間距離のみに依存する。
An example of a threshold for document identification cutoff will be described. Assuming that the inter-document distance between the input document and the first candidate model is d, a function thr (d) for determining a threshold is defined by the following equation. In this example, thr (d) depends only on the inter-document distance between the input document and the first candidate model.

【0051】 thr(d)=C1+C2d (C1、C2は定数) 入力文書と第1位候補モデルとの文書間距離がしきい値
よりも大きければ、入力文書に対する最適モデルはない
と判断する。
Thr (d) = C1 + C2d (C1 and C2 are constants) If the inter-document distance between the input document and the first candidate model is larger than a threshold value, it is determined that there is no optimal model for the input document.

【0052】図11のステップ1111における詳細識
別処理について説明する。基本的な処理の流れは、これ
までに説明してきた大分類による文書識別とほぼ同様で
ある。以下、異なる部分だけを説明する。詳細識別にお
ける入力文書と論理要素モデルとの文書間距離は、大分
類と同様に、ユーザが指定した書誌事項領域のマッチン
グを利用した書誌事項距離値と縦横の罫線情報を利用し
た罫線マッチング距離値の和として定義される。
The detailed identification processing in step 1111 of FIG. 11 will be described. The basic processing flow is almost the same as the document classification based on the large classification described above. Hereinafter, only different parts will be described. In the detailed identification, the distance between the input document and the logical element model is the bibliographic item distance value using the matching of the bibliographic item region specified by the user and the ruled line matching distance value using the vertical and horizontal ruled line information, as in the large classification. Is defined as the sum of

【0053】一方、文書においては、書誌事項の出現順
番は常に一定であることが保証されている。従って詳細
識別では、前記書誌事項距離値を求める際には、モデル
文書の左上から順に(縦書きなら右上から順に)書誌事
項領域をマッチングし、それらの出現順位を考慮して、
過去に書誌事項候補にあがった要素は除外する、あるい
は、領域の連続性を考慮して、途中抜けがあった場合に
は適宜補完する、などの順番制約を施す。このようにし
て求めた文書間距離を用いて、最終的により詳細な識別
を行う。
On the other hand, in a document, the order of appearance of bibliographic items is guaranteed to be always constant. Therefore, in the detailed identification, when calculating the bibliographic item distance value, the bibliographic item regions are sequentially matched from the upper left of the model document (in the case of vertical writing, from the upper right), and their appearance ranks are taken into consideration.
Elements that have been included in the bibliographic item candidates in the past are excluded, or an order restriction is imposed, taking into account the continuity of the area, and supplementing appropriately if there is a gap in the middle. Using the inter-document distance obtained in this way, more detailed identification is finally performed.

【0054】このように、実施例2によれば、文書識別
処理を階層化し、さらに文書の書誌事項や罫線に対応す
るレイアウト特徴とモデル文書のレイアウト特徴の類似
度を調べているので、精度良く文書種類を識別できる。
また、様々なレイアウト特徴を検出しているので、種々
の入力文書に対して高精度に安定して書誌事項を抽出で
きる。また、レイアウト特徴の次元数を一般化すること
ができ、従ってレイアウト特徴の新規追加や更新に際し
て柔軟に対応することができる。また、自由度の高い論
理要素モデルを作成することができ、従って高精度にか
つ安定して文書種類を識別できる。さらに、文書種類ご
とに複数の文書サンプルを用いて論理要素モデルを作成
しているので、特定のレイアウト特徴の変動に対応で
き、高精度にかつ安定して文書種類を識別でき、様々な
レイアウト特徴のバランスを考慮した文書識別ができ
る。さらに、特定のレイアウト特徴の変動に依存するこ
となく、高精度に文書識別できる。また、入力文書と論
理要素モデルとの距離(類似度)を、文書が持つ不変的
な情報である書誌事項や罫線のマッチングを利用して求
めるので、高精度に文書識別できる。入力文書と論理要
素モデルとの距離(類似度)を求める際に、書誌事項や
罫線のマッチングを互いに独立に行っているので、簡単
な処理によって文書識別できる。また画像分割手段にお
ける誤りにも対応することができる。また、距離(類似
度)を求める際に、書誌事項や罫線のマッチングの結果
に適度な重みを付けることにより、高精度に文書識別で
きる。さらに、書誌事項や罫線のマッチングを行う際
に、各々のレイアウト特徴の性質に応じて適度な重みを
付けることにより、高精度に文書識別できる。
As described above, according to the second embodiment, the document identification processing is hierarchized, and the similarity between the layout features corresponding to the bibliographic items and ruled lines of the document and the layout features of the model document is checked. Document type can be identified.
Further, since various layout features are detected, bibliographic items can be stably extracted with high accuracy from various input documents. Further, the number of dimensions of the layout feature can be generalized, so that it is possible to flexibly cope with a new addition or update of the layout feature. In addition, a logical element model having a high degree of freedom can be created, and therefore, a document type can be identified with high accuracy and stability. Furthermore, since a logical element model is created using a plurality of document samples for each document type, it is possible to cope with fluctuations in specific layout characteristics, to accurately and stably identify a document type, and to realize various layout characteristics. Document identification in consideration of the balance of Further, the document can be identified with high accuracy without depending on the variation of a specific layout feature. Further, since the distance (similarity) between the input document and the logical element model is obtained by using matching of bibliographic items and ruled lines, which are invariant information of the document, the document can be identified with high accuracy. When finding the distance (similarity) between the input document and the logical element model, bibliographic items and ruled line matching are performed independently of each other, so that the document can be identified by simple processing. Further, it is possible to cope with an error in the image dividing means. In addition, when obtaining the distance (similarity), by giving an appropriate weight to the matching result of bibliographic items and ruled lines, it is possible to identify a document with high accuracy. Furthermore, when matching bibliographic items or ruled lines, a proper weight is assigned according to the nature of each layout feature, so that document identification can be performed with high accuracy.

【0055】〈実施例3〉本発明は上記した実施例に限
定されず、ソフトウェアによっても実現することができ
る。本発明をソフトウェアによって実現する場合には、
図15に示すように、CPU、メモリ、表示装置、ハー
ドディスク、キーボード、CD−ROMドライブ、スキ
ャナなどからなるコンピュータシステムを用意し、CD
−ROMなどのコンピュータ読み取り可能な記録媒体に
は、本発明の文書画像の論理要素抽出機能を実現するプ
ログラムなどが記録されている。また、文書画像などは
ハードディスクなどに格納されている。そして、該プロ
グラムが起動されると、文書画像データが読み込まれ
て、論理要素抽出処理を実行し、文書画像中から抽出さ
れた論理要素である書誌事項をディスプレイなどに出力
する。
<Embodiment 3> The present invention is not limited to the above-described embodiment, but can be realized by software. When the present invention is realized by software,
As shown in FIG. 15, a computer system including a CPU, a memory, a display device, a hard disk, a keyboard, a CD-ROM drive, and a scanner is prepared.
-A computer-readable recording medium such as a ROM stores a program for realizing the function of extracting a logical element of a document image according to the present invention. Document images and the like are stored on a hard disk or the like. When the program is started, the document image data is read, a logical element extraction process is performed, and bibliographic items, which are logical elements extracted from the document image, are output to a display or the like.

【0056】[0056]

【発明の効果】以上、説明したように、本発明によれ
ば、複数の論理モデル中から、処理対象文書に適切な論
理モデルを自動的に選択し、選択された論理モデルを用
いて文書画像から安定して書誌事項を抽出することがで
きる。また、学習機能を有する論理モデル更新手段によ
って論理モデルを更新しているので、種々のレイアウト
特徴を持つ文書に対応することができ、精度よく書誌事
項を抽出することができる。
As described above, according to the present invention, a logical model appropriate for a document to be processed is automatically selected from a plurality of logical models, and a document image is selected by using the selected logical model. Bibliographic items can be stably extracted from Further, since the logical model is updated by the logical model updating means having a learning function, documents having various layout characteristics can be handled, and bibliographic items can be extracted with high accuracy.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例1の構成を示す。FIG. 1 shows a configuration of a first exemplary embodiment of the present invention.

【図2】本発明の実施例1の処理フローチャートであ
る。
FIG. 2 is a processing flowchart according to the first embodiment of the present invention.

【図3】実施例1の論理モデル検出の処理フローチャー
トである。
FIG. 3 is a processing flowchart of logical model detection according to the first embodiment.

【図4】実施例1の論理モデルとのマッチングによって
書誌事項の抽出を説明する図である。
FIG. 4 is a diagram illustrating extraction of bibliographic items by matching with a logical model according to the first embodiment;

【図5】実施例1の論理モデル作成の処理フローチャー
トである。
FIG. 5 is a processing flowchart of creating a logical model according to the first embodiment.

【図6】論理モデルの例を示す。FIG. 6 shows an example of a logical model.

【図7】実施例1の論理モデル更新判定の処理フローチ
ャートである。
FIG. 7 is a flowchart illustrating a logical model update determination process according to the first embodiment.

【図8】実施例1の論理モデル更新の処理フローチャー
トである。
FIG. 8 is a processing flowchart for updating a logical model according to the first embodiment.

【図9】実施例1の論理モデル更新を説明する図であ
る。
FIG. 9 is a diagram illustrating updating of a logical model according to the first embodiment.

【図10】本発明の実施例2の構成を示す。FIG. 10 shows a configuration of a second exemplary embodiment of the present invention.

【図11】実施例2の文書識別の処理フローチャートで
ある。
FIG. 11 is a flowchart illustrating a document identification process according to the second embodiment.

【図12】実施例2の論理要素モデル作成の処理フロー
チャートである。
FIG. 12 is a processing flowchart of creating a logical element model according to the second embodiment.

【図13】実施例2の文書間距離検出の処理フローチャ
ートである。
FIG. 13 is a flowchart illustrating a process of detecting an inter-document distance according to the second embodiment.

【図14】実施例2の書誌事項マッチングの処理フロー
チャートである。
FIG. 14 is a processing flowchart of bibliographic item matching according to the second embodiment.

【図15】本発明の実施例3の構成を示す。FIG. 15 shows a configuration of Embodiment 3 of the present invention.

【符号の説明】[Explanation of symbols]

101 入力文書 102 画像入力手段 103 レイアウト特徴抽出手段 104 論理モデル検出手段 105 要素抽出処理手段 106 論理モデル更新判定手段 107 抽出結果出力手段 108 文書データベース 109 サンプル画像 110 論理モデル作成手段 111 論理モデル更新手段 112 論理モデル管理データベース DESCRIPTION OF SYMBOLS 101 Input document 102 Image input means 103 Layout feature extraction means 104 Logical model detection means 105 Element extraction processing means 106 Logical model update determination means 107 Extraction result output means 108 Document database 109 Sample image 110 Logical model creation means 111 Logical model update means 112 Logical model management database

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 文書をデジタル画像として入力し、該文
書画像から前記文書のレイアウト特徴を検出し、複数の
論理モデルの中から、前記入力文書のレイアウト特徴に
一致する論理モデルを検出し、該検出された論理モデル
を用いて前記文書画像から論理要素を抽出することを特
徴とする文書画像の論理要素抽出方法。
1. A document is input as a digital image, layout characteristics of the document are detected from the document image, and a logical model that matches the layout characteristics of the input document is detected from a plurality of logical models. A method for extracting a logical element of a document image, comprising extracting a logical element from the document image using the detected logical model.
【請求項2】 前記抽出された論理要素におけるレイア
ウト特徴が所定のいきい値以上変動しているとき、前記
文書画像を用いて前記論理モデルを更新することを特徴
とする請求項1記載の文書画像の論理要素抽出方法。
2. The document according to claim 1, wherein when the layout feature of the extracted logical element fluctuates by a predetermined threshold value or more, the logical model is updated using the document image. How to extract logical elements of an image.
【請求項3】 文書をデジタル画像として入力する手段
と、該文書画像から前記文書のレイアウト特徴を検出す
る手段と、複数の論理モデルの中から、前記入力文書の
レイアウト特徴に一致する論理モデルを検出する手段
と、該検出された論理モデルを用いて前記文書画像から
論理要素を抽出する手段と、該抽出された論理要素にお
けるレイアウト特徴を基に前記検出された論理モデルを
更新するか否かを判定する手段と、更新すると判定され
たとき、前記文書画像を用いて前記論理モデルを更新す
る手段とを備えたことを特徴とする文書画像の論理要素
抽出装置。
3. A means for inputting a document as a digital image, a means for detecting layout characteristics of the document from the document image, and a logical model that matches a layout characteristic of the input document from a plurality of logical models. Means for detecting, means for extracting a logical element from the document image using the detected logical model, and whether or not to update the detected logical model based on layout features of the extracted logical element And a means for updating the logical model using the document image when it is determined that the document image is to be updated.
【請求項4】 文書をデジタル画像として入力する機能
と、該文書画像から前記文書のレイアウト特徴を検出す
る機能と、複数の論理モデルの中から、前記入力文書の
レイアウト特徴に一致する論理モデルを検出する機能
と、該検出された論理モデルを用いて前記文書画像から
論理要素を抽出する機能と、該抽出された論理要素にお
けるレイアウト特徴が所定のいきい値以上変動している
とき、前記文書画像を用いて前記論理モデルを更新する
機能をコンピュータに実現させるためのプログラムを記
録したコンピュータ読み取り可能な記録媒体。
4. A function for inputting a document as a digital image, a function for detecting layout characteristics of the document from the document image, and a logical model that matches the layout characteristics of the input document from a plurality of logical models. A function for detecting, a function for extracting a logical element from the document image using the detected logical model, and a function for extracting the logical element when the layout feature of the extracted logical element fluctuates by a predetermined threshold value or more. A computer-readable storage medium storing a program for causing a computer to realize a function of updating the logical model using an image.
JP10145781A 1998-03-09 1998-05-27 Method and device for extracting logical element of document image, and record medium Pending JPH11328306A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10145781A JPH11328306A (en) 1998-03-09 1998-05-27 Method and device for extracting logical element of document image, and record medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5723798 1998-03-09
JP10-57237 1998-03-09
JP10145781A JPH11328306A (en) 1998-03-09 1998-05-27 Method and device for extracting logical element of document image, and record medium

Publications (1)

Publication Number Publication Date
JPH11328306A true JPH11328306A (en) 1999-11-30

Family

ID=26398256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10145781A Pending JPH11328306A (en) 1998-03-09 1998-05-27 Method and device for extracting logical element of document image, and record medium

Country Status (1)

Country Link
JP (1) JPH11328306A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
CN100421121C (en) * 2005-02-01 2008-09-24 佳能株式会社 Data processing apparatus, image processing apparatus, data processing method, image processing method
JP2009110445A (en) * 2007-10-31 2009-05-21 Fujitsu Ltd Image recognition device, image recognition program, and image recognition method
JP2009122723A (en) * 2007-11-09 2009-06-04 Fujitsu Ltd Business form data extraction program, business form data extraction device, and business form data extraction method
JP2010102668A (en) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd Metadata extraction device and method therefor
JP2010238159A (en) * 2009-03-31 2010-10-21 Hitachi Software Eng Co Ltd Recognition parameter tuning method
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
CN100421121C (en) * 2005-02-01 2008-09-24 佳能株式会社 Data processing apparatus, image processing apparatus, data processing method, image processing method
JP2009110445A (en) * 2007-10-31 2009-05-21 Fujitsu Ltd Image recognition device, image recognition program, and image recognition method
US8234254B2 (en) 2007-10-31 2012-07-31 Fujitsu Limited Image recognition apparatus, method and system for realizing changes in logical structure models
JP2009122723A (en) * 2007-11-09 2009-06-04 Fujitsu Ltd Business form data extraction program, business form data extraction device, and business form data extraction method
JP2010102668A (en) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd Metadata extraction device and method therefor
JP2010238159A (en) * 2009-03-31 2010-10-21 Hitachi Software Eng Co Ltd Recognition parameter tuning method
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device

Similar Documents

Publication Publication Date Title
JP3822277B2 (en) Character template set learning machine operation method
Haralick Document image understanding: Geometric and logical layout
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JP3639126B2 (en) Address recognition device and address recognition method
US8452132B2 (en) Automatic file name generation in OCR systems
JP6838209B1 (en) Document image analyzer, document image analysis method and program
KR100412317B1 (en) Character recognizing/correcting system
JP5663866B2 (en) Information processing apparatus and information processing program
JP2004348591A (en) Document search method and device thereof
JPS61267177A (en) Retrieving system for document picture information
US20060045340A1 (en) Character recognition apparatus and character recognition method
US10963717B1 (en) Auto-correction of pattern defined strings
JPH0684006A (en) Method of online handwritten character recognition
JPH1011531A (en) Slip reader
US7680329B2 (en) Character recognition apparatus and character recognition method
JPH11184894A (en) Method for extracting logical element and record medium
JP2000315247A (en) Character recognizing device
JPH11328306A (en) Method and device for extracting logical element of document image, and record medium
JP2008108114A (en) Document processor and document processing method
CN116682118A (en) Ancient character recognition method, system, terminal and medium
CN112100978B (en) Typesetting processing method based on electronic book, electronic equipment and storage medium
US11335108B2 (en) System and method to recognise characters from an image
JP2000090117A (en) Method and device for extracting logical element of document image, and recording medium therefor
Spitz et al. Palace: A multilingual document recognition system
JP2010102734A (en) Image processor and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060123

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060426