JP3487523B2 - Document processing device - Google Patents

Document processing device

Info

Publication number
JP3487523B2
JP3487523B2 JP09206595A JP9206595A JP3487523B2 JP 3487523 B2 JP3487523 B2 JP 3487523B2 JP 09206595 A JP09206595 A JP 09206595A JP 9206595 A JP9206595 A JP 9206595A JP 3487523 B2 JP3487523 B2 JP 3487523B2
Authority
JP
Japan
Prior art keywords
area
logical structure
document image
image
bibliographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09206595A
Other languages
Japanese (ja)
Other versions
JPH08287189A (en
Inventor
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP09206595A priority Critical patent/JP3487523B2/en
Publication of JPH08287189A publication Critical patent/JPH08287189A/en
Application granted granted Critical
Publication of JP3487523B2 publication Critical patent/JP3487523B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書画像の論理構造を
検出する文書処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing apparatus for detecting a logical structure of a document image.

【0002】[0002]

【従来の技術】電子ファイルシステムなどの文書処理装
置は、文書画像をスキャナにより読取入力してデータベ
ースに保存することができる。このように文書画像をデ
ータベースに保存する場合、文字を絵柄として単純に読
取入力しても、これを表示出力すれば人間は認識できる
ので有用である。
2. Description of the Related Art A document processing apparatus such as an electronic file system can read and input a document image with a scanner and store it in a database. When the document image is stored in the database as described above, even if the character is simply read and input as a pattern, it can be recognized by a person by displaying and outputting it, which is useful.

【0003】上述のようにデータベースに保存した文書
画像は、自在に検索できないと有効に利用されない。デ
ータベースに保存した文書画像を自在に検索するために
は、文書画像に検索用のキーワードを設定しておく必要
がある。しかし、データベースに保存する文書画像にキ
ーワードを設定するためには、作業者が文書画像から適
当な用語を読み取ってキーボードにより入力操作する必
要がある。
The document image stored in the database as described above cannot be effectively used unless it can be freely searched. In order to freely search the document image stored in the database, it is necessary to set a search keyword in the document image. However, in order to set a keyword in the document image stored in the database, it is necessary for the operator to read an appropriate term from the document image and perform an input operation using the keyboard.

【0004】このような課題を解決するため、特開平5-
159101号公報に開示された装置では、スキャナにより読
取入力した文書画像の論理構造が検出され、この論理構
造に従って文書画像の記載内容が認識される。より詳細
には、複数の構造モデルが予め設定されており、この構
造モデルに、文書画像のレイアウト構造と論理構造との
関係が定義されている。スキャナにより読取入力した文
書画像を複数の要素に分割し、この分割された複数の要
素の相互関係にマッチングする構造モデルを検出する。
この構造モデルの検出により文書画像の論理構造が認識
されるので、複数の要素の各々をタイトルや著者名や本
文などとして識別することができ、キーワードに最適な
用語を抽出することもできる。
In order to solve such a problem, Japanese Unexamined Patent Publication No.
In the device disclosed in Japanese Patent No. 159101, the logical structure of the document image read and input by the scanner is detected, and the description content of the document image is recognized according to this logical structure. More specifically, a plurality of structural models are set in advance, and the relationship between the layout structure of the document image and the logical structure is defined in this structural model. A document image read and input by a scanner is divided into a plurality of elements, and a structural model matching the mutual relationship of the divided plurality of elements is detected.
Since the logical structure of the document image is recognized by the detection of the structural model, each of the plurality of elements can be identified as a title, an author name, a body, and the like, and an optimum term for the keyword can be extracted.

【0005】[0005]

【発明が解決しようとする課題】上述のように文書画像
を入力して保存する場合、キーワードを抽出するために
論理構造を認識することが望ましい。
When the document image is input and saved as described above, it is desirable to recognize the logical structure in order to extract the keyword.

【0006】しかし、上記した特開平5-159101号公報の
装置では、ページにおける要素の位置や複数の要素の相
対位置などを仮定し、これに基づいて論理構造を認識し
ている。このため、学術論文などのようにフォーマット
が固定的な文書画像の論理構造は良好に認識できるが、
オフィスの通達文書などのようにレイアウトが様々な文
書画像から論理構造を認識することは困難である。
However, in the apparatus disclosed in Japanese Patent Laid-Open No. 5-159101, the position of an element on a page and the relative positions of a plurality of elements are assumed, and the logical structure is recognized based on this. Therefore, the logical structure of a document image whose format is fixed, such as academic papers, can be recognized well,
It is difficult to recognize a logical structure from a document image having various layouts such as an office notification document.

【0007】具体的には、オフィスの通達文書の場合、
タイトルや日付や発信元などの書誌情報は特定の位置に
記載されるが、例えば、日付の記載が省略される場合も
ある。本文のフォーマットも千差万別であるので、これ
を構造モデルにマッチングさせることは困難である。フ
ァクシミリ送信やコピーが繰り返されて画像品質が低下
している場合もあり、この場合は文字認識が困難なので
論理構造も良好に認識できない。手書メモや検印が付加
されている場合もあり、この場合は要素分割や文字認識
の精度が低下する。
[0007] Specifically, in the case of office notification documents,
Bibliographic information such as a title, a date, and a sender is written at a specific position, but the date may be omitted, for example. Since the format of the text varies widely, it is difficult to match this with the structural model. The image quality may be deteriorated due to repeated facsimile transmission or copying, and in this case, character recognition is difficult, so that the logical structure cannot be recognized well. In some cases, handwritten memos and stamps are added, in which case the accuracy of element division and character recognition is reduced.

【0008】また、データベースに保存した文書画像を
利用する場合には、文書画像をデータベースから読み出
してディスプレイに表示出力させ、その記載内容を確認
して必要な文書画像のみをプリンタにより印刷出力する
ことが多い。このような場合、スキャナにより読取入力
されてデータベースに保存された文書画像はイメージデ
ータであるので、ディスプレイが低解像度であると記載
内容を確認することが困難である。
When using the document image stored in the database, the document image is read out from the database, displayed on the display, and the described content is confirmed, and only the required document image is printed out by the printer. There are many. In such a case, since the document image read and input by the scanner and stored in the database is image data, it is difficult to confirm the description content if the display has low resolution.

【0009】このような場合、文書画像のタイトルや著
者名などがコード化されていれば、これは低解像度のデ
ィスプレイでも良好に表示されるので、文書画像の記載
内容を確認することができる。このような情報には文書
のタイトルや著者名などの書誌情報が相当し、これは検
索用のキーワードにも最適である。つまり、文書画像を
スキャナにより読取入力してデータベースに保存する場
合、文書画像の論理構造を認識して書誌情報を抽出し、
これをキーワードとして設定することが有用である。
In such a case, if the title, author name, etc. of the document image are coded, they can be displayed well even on a low-resolution display, so that the description content of the document image can be confirmed. Bibliographic information such as the title of the document and the author's name corresponds to such information, which is also most suitable as a keyword for retrieval. In other words, when reading a document image with a scanner and saving it in the database, the logical structure of the document image is recognized to extract the bibliographic information,
It is useful to set this as a keyword.

【0010】[0010]

【課題を解決するための手段】請求項1記載の発明は、
文書画像を入力する画像入力手段を設け、入力された文
書画像を予め設定された条件に従って複数の要素に分割
する画像分割手段を設け、分割された複数の要素の各々
から文字を認識する文字認識手段を設け、特定の要素を
書誌領域として検出する領域検出手段を設け、検出され
た書誌領域の論理構造を認識する構造認識手段を設け、
認識された論理構造を出力する構造出力手段を設け、前
記構造認識手段は、予め設定された複数の文字列パター
ンとのマッチングにより書誌領域の文字列を論理構造と
認識し、予め規定された文字列パターンの優先順位に対
応して論理構造の認識を規制する。
The invention according to claim 1 is
Image recognition means for inputting a document image, image division means for dividing the input document image into a plurality of elements according to preset conditions, and character recognition for recognizing characters from each of the plurality of divided elements Means is provided, area detection means for detecting a specific element as a bibliographic area is provided, and structure recognition means for recognizing the logical structure of the detected bibliographic area is provided,
The structure output means for outputting the recognized logical structure is provided .
The structure recognition means is a plurality of preset character string patterns.
Character strings in the bibliographical area as a logical structure
Recognize and match the priority of the predefined string pattern.
Accordingly, the recognition of the logical structure is regulated.

【0011】なお、本発明で云う書誌領域は、タイトル
や著者名などの書誌情報が位置する領域であり、具体的
には、第一ページの上縁部の中央に位置するタイトルの
記載領域、その右下に位置する著者名の記載領域、など
である。また、論理構造は、文書を良好に特定できる情
報の集合であり、具体的には、文書から選択的に抽出し
て記載内容まで認識した書誌事項の集合である。
The bibliographical area referred to in the present invention is an area where bibliographical information such as a title and an author name is located. Specifically, a title description area located at the center of the upper edge of the first page, An area for writing the author's name, which is located in the lower right corner, etc. The logical structure is a set of information that can identify a document well, and specifically, a set of bibliographic items that are selectively extracted from the document and recognized up to the description content.

【0012】[0012]

【0013】[0013]

【0014】[0014]

【0015】[0015]

【0016】[0016]

【0017】[0017]

【0018】請求項記載の発明では、請求項記載の
発明において、構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識する。
According to a second aspect of the present invention, in the first aspect of the present invention, the structure recognition means converts the character string in the bibliographical region that matches the character string pattern according to a preset conversion condition, and then determines the logical structure. recognize.

【0019】[0019]

【作用】請求項1記載の発明は、文書画像が画像入力手
段により入力されると、この入力された文書画像が画像
分割手段により予め設定された条件に従って複数の要素
に分割され、この分割された複数の要素の各々から文字
認識手段により文字が認識される。領域検出手段により
特定の要素が書誌領域として検出されると、この検出さ
れた書誌領域の論理構造が構造認識手段により認識され
るので、構造出力手段により文書画像の論理構造が出力
される。構造認識手段は、予め設定された複数の文字列
パターンとマッチングした書誌領域の文字列を論理構造
と認識するので、文書画像の入力精度が良好でない場合
でも論理構造が的確に認識され、予め規定された文字列
パターンの優先順位に対応して論理構造の認識を規制す
るので、論理構造の複数の候補を適切に選択するような
ことができる。
According to the present invention, when a document image is input by the image inputting means, the input document image is divided into a plurality of elements by the image dividing means according to a preset condition, and the divided image is divided. A character is recognized by the character recognition means from each of the plurality of elements. When a specific element is detected as a bibliographic area by the area detecting means, the logical structure of the detected bibliographic area is recognized by the structure recognizing means, so that the structure outputting means outputs the logical structure of the document image. The structure recognition means uses a plurality of preset character strings.
Logical structure of the character string in the bibliographic area that matches the pattern
If the input accuracy of the document image is not good
However, the logical structure is accurately recognized, and a predefined character string
Regulate logical structure recognition according to pattern priority
So that multiple candidates for the logical structure are properly selected.
be able to.

【0020】[0020]

【0021】[0021]

【0022】[0022]

【0023】[0023]

【0024】[0024]

【0025】[0025]

【0026】請求項記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識するので、誤認識が予測される文字列を適切に修
正してから論理構造を認識することができる。
According to the second aspect of the invention, the structure recognition means recognizes the logical structure after converting the character string in the bibliographical area that matches the character string pattern according to a preset conversion condition, so that misrecognition is predicted. It is possible to recognize the logical structure after appropriately modifying the character string.

【0027】[0027]

【実施例】本発明の一実施例を図面に基づいて以下に説
明する。まず、本実施例の文書処理装置1は、図1に示
すように、画像入力手段2、画像分割手段3、文字認識
手段4、領域検出手段5、構造認識手段6、構造出力手
段7、を有している。
An embodiment of the present invention will be described below with reference to the drawings. First, as shown in FIG. 1, the document processing apparatus 1 of the present embodiment includes an image input unit 2, an image dividing unit 3, a character recognition unit 4, an area detection unit 5, a structure recognition unit 6, and a structure output unit 7. Have

【0028】前記画像入力手段2は、イメージスキャナ
(図示せず)により原稿を読取走査することにより、原
稿に記載された文書の画像である文書画像8を、ドット
マトリクスのイメージデータとして入力する。前記画像
分割手段3は、入力された文書画像8を予め設定された
条件に従って複数の要素に分割し、前記文字認識手段4
は、分割された複数の要素の各々から文字を認識する。
このような要素の分割や文字の認識は公知技術により実
現され、例えば、このような技術は特開平5-159101号公
報に開示されている。
The image input means 2 inputs a document image 8 which is an image of a document described on the document as image data of a dot matrix by scanning and scanning the document with an image scanner (not shown). The image dividing unit 3 divides the input document image 8 into a plurality of elements according to preset conditions, and the character recognizing unit 4
Recognizes a character from each of a plurality of divided elements.
Such element division and character recognition are realized by a known technique, and such a technique is disclosed in, for example, Japanese Patent Laid-Open No. 5-159101.

【0029】なお、入力される文書画像8が複数ページ
からなることもあるが、ここで問題とする書誌情報は第
一ページに位置すると予測されるので、要素の分割から
以下の処理は第一ページのみに実行される。
Although the input document image 8 may consist of multiple pages, the bibliographic information in question here is predicted to be located on the first page. Only executed on the page.

【0030】前記領域検出手段5は、上述のように分割
された複数の要素に対し、特定の要素を書誌領域として
検出する。より詳細には、“その上端がページの上方に
位置する”“その左端がページの左方に位置する”なる
二つの条件が予め設定されており、複数の要素を上記条
件に対応させてソートする。このようにソートされた複
数の要素から、横幅が文書画像8の有効領域に一致する
要素を検出し、この要素より上方に位置する要素を書誌
領域として検出する。
The area detecting means 5 detects a specific element as a bibliographical area among the plurality of elements divided as described above. More specifically, two conditions are set in advance, "the top edge of which is above the page" and "the left edge of which is on the left side of the page." To do. From the plurality of elements sorted in this way, an element whose width matches the effective area of the document image 8 is detected, and an element located above this element is detected as a bibliographical area.

【0031】つまり、タイトルや著者名などの書誌情報
は本文より上方に位置すると想定し、本文は横幅が文書
画像8の有効領域に一致すると予測している。そこで、
より上方かつ左方に位置して幅広の要素を本文の上部と
して検出し、これより上方の要素を書誌領域として検出
している。
That is, it is assumed that the bibliographic information such as the title and the author name is located above the body, and the width of the body is predicted to match the effective area of the document image 8. Therefore,
A wide element located above and to the left is detected as the upper portion of the text, and an element above this is detected as the bibliographical area.

【0032】前記構造認識手段6は、上述のように検出
された書誌領域の論理構造を認識する。より詳細には、
書誌領域にはタイトルや著者名などの書誌事項が記載さ
れているので、これらの書誌事項を個々に抽出すること
により書誌領域の論理構造を認識する。このため、図2
に示すように、書誌事項の抽出ルールが各種別毎に予め
設定されており、この抽出ルールにより書誌領域から各
種の書誌事項が抽出される。
The structure recognizing means 6 recognizes the logical structure of the bibliographical area detected as described above. More specifically,
Since bibliographical items such as titles and author names are described in the bibliographical region, the logical structure of the bibliographical region is recognized by extracting these bibliographical items individually. For this reason,
As shown in, the bibliographic item extraction rule is preset for each type, and various bibliographic items are extracted from the bibliographic area by this extraction rule.

【0033】なお、図2の第一フィールド9は書誌事項
の種別、第二フィールド10は抽出処理の内容、第三フ
ィールド11は文字列パターン、第四フィールド12は
優先順位、第五フィールド13は変換処理の内容、を示
す。例えば、タイトルはセンタリングにより抽出され、
その優先順位は“1”で変換処理は設定されていない。
日付は文字列パターンとのパターンマッチングにより抽
出されるが、二つの文字列パターンに優先順位が設定さ
れている。優先順位が“2”の文字列パターンは、文字
の誤認識に対応したもので、先頭がアルファベットの
“l(エル)”であり、これに対応した変換処理は“l
(エル)→1(イチ)”である。
In FIG. 2, the first field 9 is the type of bibliographic item, the second field 10 is the content of the extraction process, the third field 11 is the character string pattern, the fourth field 12 is the priority order, and the fifth field 13 is The contents of the conversion process are shown below. For example, the title is extracted by centering,
The priority is "1" and no conversion process is set.
The date is extracted by pattern matching with the character string pattern, and the priority order is set for the two character string patterns. A character string pattern with a priority of "2" corresponds to erroneous recognition of a character, and the beginning is the alphabet "l", and the conversion process corresponding to this is "l".
(L) → 1 (Ichi) ”.

【0034】前記構造出力手段7は、上述のように認識
された文書画像8の論理構造を出力する。この論理構造
の出力形式は、図3に示すように、ISO(Internation
al Organization for Standardization)標準のSGML
(Standard Generalized Markup Language)形式として設
定されている。なお、このSGML形式の各項目の意味
は、 frontm … 書誌事項の集合 title … 文書のタイトル date … 文書の日付 y … 年 m … 月 d … 日 key …その他の書誌事項 body … 本文 である。この場合、“frontm〜key”は書誌領域から抽
出される書誌事項であり、そのイメージデータは文字コ
ードに変換されてから出力されるが、“body”は書誌領
域でない本文領域であり、そのイメージデータは文字コ
ードに変換されることなく出力される。
The structure output means 7 outputs the logical structure of the document image 8 recognized as described above. The output format of this logical structure is, as shown in FIG.
al Organization for Standardization) Standard SGML
It is set as (Standard Generalized Markup Language) format. The meaning of each item in the SGML format is frontm ... Set of bibliographic items title ... Document title date ... Document date y ... Year m ... Month d ... Day key ... Other bibliographic items body. In this case, "frontm ~ key" is a bibliographic item extracted from the bibliographic area, and the image data is output after being converted into a character code, but "body" is a text area that is not the bibliographic area and the image The data is output without being converted to a character code.

【0035】このような構成において、本実施例の文書
処理装置1は、文書画像8が画像入力手段2に入力され
ると、この文書画像8の論理構造を構造出力手段7から
出力する。このような文書処理装置1の処理動作を、図
4のフローチャートに基づいて説明する。
With such a configuration, when the document image 8 is input to the image input means 2, the document processing apparatus 1 of this embodiment outputs the logical structure of the document image 8 from the structure output means 7. The processing operation of the document processing apparatus 1 will be described with reference to the flowchart of FIG.

【0036】まず、画像入力手段2により文書画像8を
イメージデータとして入力し(ステップS1)、この入
力された文書画像8を画像分割手段3により複数の要素
に分割し(ステップS2)、この分割された複数の要素
の各々の文字を文字認識手段4により認識する(ステッ
プS3)。つぎに、領域検出手段5により、複数の要素
を前述した条件に対応させてソートしてから、文書画像
8の有効領域に横幅が一致する要素を本文領域として検
出し(ステップS4)、この本文領域の要素より上方に
位置する要素を書誌領域として検出する(ステップS
5)。
First, the image input means 2 inputs the document image 8 as image data (step S1), and the input document image 8 is divided into a plurality of elements by the image dividing means 3 (step S2). The character recognition means 4 recognizes the characters of each of the plural elements thus created (step S3). Next, the area detecting means 5 sorts a plurality of elements in accordance with the above-described conditions, and then detects an element having a width that matches the effective area of the document image 8 as a body area (step S4). The element located above the element of the area is detected as the bibliographical area (step S
5).

【0037】このように検出された書誌領域には、“タ
イトル、発信日付、発信元、送信先”などの書誌事項が
存在するので、これらの書誌事項が論理構造として構造
認識手段6により認識される(ステップS6)。この
時、文字列のパターンが予測される日付などの書誌事項
は、複数の文字列パターンとのマッチングにより書誌領
域から抽出される。
Since there are bibliographic items such as "title, transmission date, transmission source, transmission destination" in the bibliographical area thus detected, these bibliographical items are recognized as a logical structure by the structure recognizing means 6. (Step S6). At this time, bibliographic items such as dates for which the character string patterns are predicted are extracted from the bibliographic area by matching with a plurality of character string patterns.

【0038】このように抽出される文字列は文字列パタ
ーンの優先順位に従って取捨選択されるので、抽出され
た文字列が多数の場合、優先順位の高い文字列のみ採用
され、ノイズの増加が防止される。さらに、上述のよう
に抽出された文字列が変換条件に一致する場合は、文字
列は変換処理されてから論理構造に認識される。より具
体的には、書誌事項である日付には“1(イチ)”なる
数字が多用されるが、これは文字認識においてアルファ
ベットの“l(エル)”に誤認識されることが多い。こ
の小文字の“l(エル)”が書誌事項の先頭の文字に使
用される可能性は低いので、これが書誌事項の先頭に位
置した場合は“1(イチ)”に変換処理する。
Since the character strings thus extracted are sorted according to the priority order of the character string patterns, when there are a large number of extracted character strings, only the character strings with a high priority order are adopted, and an increase in noise is prevented. To be done. Further, when the character string extracted as described above matches the conversion condition, the character string is subjected to conversion processing and then recognized in the logical structure. More specifically, the number "1" is often used for the date which is a bibliographic item, but this is often mistakenly recognized as "l" in the alphabet in character recognition. Since it is unlikely that this lowercase letter "l" is used as the first character of the bibliographic item, if it is located at the beginning of the bibliographic item, it is converted into "1".

【0039】上述のようにして文書画像8の論理構造が
認識されると、構造出力手段7は、図3に示すように、
文書画像8の論理構造をSGML形式で出力する(ステ
ップS7,S8)。この時、書誌領域から抽出された書
誌事項は文字コードに変換されて出力されるが、本文領
域はイメージデータのまま出力される。
When the logical structure of the document image 8 is recognized as described above, the structure output means 7 outputs the logical structure as shown in FIG.
The logical structure of the document image 8 is output in SGML format (steps S7 and S8). At this time, the bibliographic items extracted from the bibliographic area are converted into character codes and output, but the text area is output as image data.

【0040】上述のように、本実施例の文書処理装置1
では、文書画像8が画像入力手段2に入力されると、こ
の文書画像8の論理構造を構造出力手段7から出力する
ので、この文書画像8をデータベースに格納する場合で
も、論理構造によりキーワードを良好に設定することが
できる。この時、文書画像8から書誌事項が位置する書
誌領域を検出し、この書誌領域のみを論理構造の認識対
象とし、文書画像8の全体を解析する必要がないので、
簡易な処理動作で的確に論理構造が認識される。
As described above, the document processing apparatus 1 of this embodiment
Then, when the document image 8 is input to the image input means 2, the logical structure of the document image 8 is output from the structure output means 7. Therefore, even when the document image 8 is stored in the database, the keyword is determined by the logical structure. It can be set well. At this time, it is not necessary to detect the bibliographic region in which the bibliographical items are located from the document image 8 and set only this bibliographic region as the recognition target of the logical structure and to analyze the entire document image 8.
The logical structure is accurately recognized by a simple processing operation.

【0041】さらに、論理構造により判別された書誌情
報は文字認識手段4によりコード化されているので、デ
ータベースから読み出した文書画像8を表示するディス
プレイが低解像度で本文の文字などが読み取れない場合
でも、コード化された論理構造は明確に読み取ることが
できるので、文書画像8の記載内容を確認することがで
きる。しかも、書誌領域でない本文領域は文字コードに
変換されないので、処理動作の負担が軽減されて時間が
短縮され、文書画像8の本文が正確に保存される。
Further, since the bibliographic information discriminated by the logical structure is coded by the character recognizing means 4, even when the display for displaying the document image 8 read out from the database has a low resolution and the characters of the text cannot be read. Since the coded logical structure can be clearly read, the description content of the document image 8 can be confirmed. Moreover, since the body area which is not the bibliographical area is not converted into the character code, the processing operation load is reduced, the time is shortened, and the body of the document image 8 is accurately saved.

【0042】また、本実施例の文書処理装置1では、本
文領域の要素は、文書画像8の有効領域に横幅が一致す
る要素として検出されるので、簡易な処理動作で高精度
に検出される。さらに、書誌領域の要素は、本文領域の
要素より上方に位置する要素として検出されるので、簡
易な処理動作で高精度に検出される。しかし、本発明は
上記実施例に限定されるものではなく、本文領域の要素
を、行数が予め設定された基準値より多数の要素として
検出することや、字数が予め設定された基準値より多数
の要素として検出することも可能である。つまり、一般
的に本文は書誌事項に比較して行数や字数が多大なの
で、これを利用することでも本文領域と書誌領域とを簡
易な処理動作で高精度に検出することができる。なお、
この場合の処理動作は、文書画像8から分割された複数
の要素の各々の行数や字数をカウントし、これを基準値
と比較することにより容易に実現される。
Further, in the document processing apparatus 1 of the present embodiment, the element of the body area is detected as an element whose width matches the effective area of the document image 8. Therefore, the element is detected with high accuracy by a simple processing operation. . Further, since the element of the bibliographical area is detected as an element located above the element of the text area, the element is detected with high accuracy by a simple processing operation. However, the present invention is not limited to the above-mentioned embodiment, and detects the elements of the text area as a number of elements in which the number of lines is larger than a preset reference value, and the number of characters is larger than a preset reference value. It is also possible to detect as many elements. That is, since the text generally has a large number of lines and characters compared with the bibliographical items, the text area and the bibliographical area can be detected with high precision by a simple processing operation by using this. In addition,
The processing operation in this case is easily realized by counting the number of lines or the number of characters of each of the plurality of elements divided from the document image 8 and comparing this with a reference value.

【0043】また、本実施例の文書処理装置1では、予
め設定された複数の文字列パターンとマッチングした書
誌領域の文字列を論理構造と認識するので、各種の論理
構造を的確に認識することができる。しかも、この論理
構造の認識は文字列パターンの優先順位に従って実行さ
れるので、抽出される書誌事項が多数の場合に個数を限
定したり、誤認識が発生しやすい文字列を予測して排除
するようなことができる。しかし、本発明は上記実施例
に限定されるものでもなく、文字列パターンとマッチン
グした全部の書誌事項を論理構造として認識することに
より、文書画像8の検索の許容範囲を拡大することも可
能である。
Further, in the document processing apparatus 1 of the present embodiment, since the character string of the bibliographical area that matches a plurality of preset character string patterns is recognized as a logical structure, various logical structures can be accurately recognized. You can Moreover, since the recognition of this logical structure is executed in accordance with the priority order of the character string pattern, the number of bibliographical items to be extracted is limited, and the character string that is likely to cause misrecognition is predicted and eliminated. You can do something like that. However, the present invention is not limited to the above-described embodiment, and the permissible range of the search of the document image 8 can be expanded by recognizing all the bibliographic items that match the character string pattern as a logical structure. is there.

【0044】さらに、本実施例の文書処理装置1では、
文字列パターンとマッチングした書誌領域の文字列を予
め設定された変換条件により変換するので、前述のよう
にアルファベットの“l(エル)”に誤認識されやすい
日付の“1(イチ)”を修正するようなことができ、文
書画像8の入力精度が低く文字認識に誤動作が発生して
いる場合でも、文書画像8の論理構造を正確に認識する
ことができる。
Furthermore, in the document processing apparatus 1 of this embodiment,
Since the character string in the bibliographical area that matches the character string pattern is converted according to the preset conversion condition, the date "1" that is easily mistakenly recognized as the alphabet "l" is corrected as described above. Even if the input accuracy of the document image 8 is low and a malfunction occurs in character recognition, the logical structure of the document image 8 can be accurately recognized.

【0045】[0045]

【発明の効果】請求項1記載の発明は、文書画像を入力
する画像入力手段を設け、入力された文書画像を予め設
定された条件に従って複数の要素に分割する画像分割手
段を設け、分割された複数の要素の各々から文字を認識
する文字認識手段を設け、特定の要素を書誌領域として
検出する領域検出手段を設け、検出された書誌領域の論
理構造を認識する構造認識手段を設け、認識された論理
構造を出力する構造出力手段を設けたことにより、論理
構造が文書画像の全体でなく書誌領域のみから認識され
るので、処理範囲が減縮されて論理構造の認識処理の負
担が軽減され、書誌領域には文書画像を良好に特定でき
る書誌事項が存在するので、文書画像の論理構造が的確
に認識される。構造認識手段は、予め設定された複数の
文字列パターンとのマッチングにより書誌領域の文字列
を論理構造と認識することにより、各種の論理構造を簡
易な処理動作で的確に認識することができ、予め規定さ
れた文字列パターンの優先順位に対応して論理構造の認
識を規制することにより、認識される論理構造が多数の
場合に、これを優先順位により取捨選択したり重み付け
るようなことができる。
According to the first aspect of the present invention, image input means for inputting a document image is provided, and image dividing means for dividing the input document image into a plurality of elements according to preset conditions is provided. Character recognition means for recognizing a character from each of the plurality of elements, area detection means for detecting a specific element as a bibliographic area, structure recognition means for recognizing the logical structure of the detected bibliographic area, and recognition Since the logical structure is output only from the bibliographical area rather than the entire document image by providing the structure output means for outputting the logical structure, the processing range is reduced and the load of the logical structure recognition processing is reduced. Since there are bibliographic items that can specify the document image well in the bibliographical area, the logical structure of the document image can be accurately recognized. The structure recognition means is a plurality of preset
Character strings in the bibliographical area by matching with character string patterns
By recognizing that it is a logical structure, various logical structures can be simplified.
It can be accurately recognized by easy processing operation and is specified in advance.
The logical structure is recognized according to the priority of the string pattern
By regulating knowledge, the number of recognized logical structures
In this case, this can be selected or weighted according to priority.
You can

【0046】[0046]

【0047】[0047]

【0048】[0048]

【0049】[0049]

【0050】[0050]

【0051】[0051]

【0052】請求項記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識することにより、文字認識において誤認識されや
すい文字列を予測して修正することができるので、文書
画像の入力精度が低い場合でも論理構造を良好に認識す
ることができる。
In the invention according to claim 2 , the structure recognition means recognizes the logical structure after converting the character string of the bibliographical area that matches the character string pattern according to a preset conversion condition. Since a character string that is likely to be erroneously recognized can be predicted and corrected, the logical structure can be satisfactorily recognized even when the input accuracy of the document image is low.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の文書処理装置を示すブロッ
ク図である。
FIG. 1 is a block diagram showing a document processing apparatus according to an embodiment of the present invention.

【図2】書誌情報の抽出ルールを示す模式図である。FIG. 2 is a schematic diagram showing an extraction rule of bibliographic information.

【図3】論理構造の出力形式を示す模式図である。FIG. 3 is a schematic diagram showing an output format of a logical structure.

【図4】文書処理装置の処理動作を示すフローチャート
である。
FIG. 4 is a flowchart showing a processing operation of the document processing apparatus.

【符号の説明】[Explanation of symbols]

1 文書処理装置 2 画像入力手段 3 画像分割手段 4 文字認識手段 5 領域検出手段 6 構造認識手段 7 構造出力手段 8 文書画像 1 Document processing device 2 Image input means 3 image segmentation means 4 Character recognition means 5 Area detection means 6 Structure recognition means 7 Structure output means 8 document images

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−127169(JP,A) 特開 平5−342326(JP,A) PRU94−36 文書画像のSGML文 書への変換に関する一検討,電子情報通 信学会技術研究報告,日本,1994年 9 月22日,第94巻第242号,pp.73−80 文書画像構造解析のための知識ベース の一構成法,情報処理学会論文誌,日 本,1993年 1月15日,第34巻第1号, pp.75−87 PRU93−125 パターン分類手法に 基づくレイアウト解析,電子情報通信学 会技術研究報告,日本,1994年 1月, 第93巻第431号,pp.71−78 PRU94−42 文書の論理構造を解釈 する一手法,電子情報通信学会技術研究 報告,日本,1994年10月20日,第94巻第 291号,pp.25−32 (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 G06F 17/30 G06T 1/00 ─────────────────────────────────────────────────── ─── Continuation of front page (56) References JP-A-3-127169 (JP, A) JP-A-5-342326 (JP, A) PRU94-36 A study on conversion of document image into SGML document, IEICE Technical Report, Japan, September 22, 1994, Vol. 94, No. 242, pp. 73-80 A Construction Method of Knowledge Base for Document Image Structure Analysis, Journal of Information Processing Society of Japan, Japan, January 15, 1993, Vol. 34, No. 1, pp. 75-87 PRU93-125 Layout analysis based on pattern classification method, Technical report of IEICE, Japan, January 1994, Vol. 93, No. 431, pp. 71-78 PRU94-42 A method for interpreting the logical structure of a document, IEICE Technical Report, Japan, October 20, 1994, Vol. 94, No. 291, pp. 25-32 (58) Fields surveyed (Int.Cl. 7 , DB name) G06K 9/00-9/82 G06F 17/30 G06T 1/00

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文書画像を入力する画像入力手段と、入
力された文書画像を予め設定された条件に従って複数の
要素に分割する画像分割手段と、分割された複数の要素
の各々から文字を認識する文字認識手段と、特定の要素
を書誌領域として検出する領域検出手段と、検出された
書誌領域の論理構造を認識する構造認識手段と、認識さ
れた論理構造を出力する構造出力手段と、を有し、前記
構造認識手段は、予め設定された複数の文字列パターン
とのマッチングにより書誌領域の文字列を論理構造と認
識し、予め規定された文字列パターンの優先順位に対応
して論理構造の認識を規制することを特徴とする文書処
理装置。
1. An image input means for inputting a document image, an image dividing means for dividing the input document image into a plurality of elements according to a preset condition, and a character is recognized from each of the plurality of divided elements. Character recognition means, area detection means for detecting a specific element as a bibliographic area, structure recognition means for recognizing the logical structure of the detected bibliographic area, and structure output means for outputting the recognized logical structure. Yes, and the
The structure recognition means uses a plurality of preset character string patterns.
The character string in the bibliographical area is recognized as a logical structure by matching with
Knowledge and correspond to the priority order of predefined character string patterns
A document processing device characterized by regulating the recognition of a logical structure .
【請求項2】 構造認識手段は、文字列パターンとマッ
チングした書誌領域の文字列を予め設定された変換条件
により変換してから論理構造と認識することを特徴とす
る請求項記載の文書処理装置。
2. A structure recognition means, document processing according to claim 1, wherein the recognizing the converted by the conversion condition set string bibliographic region matching the character string pattern in advance a logical structure apparatus.
JP09206595A 1995-04-18 1995-04-18 Document processing device Expired - Fee Related JP3487523B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09206595A JP3487523B2 (en) 1995-04-18 1995-04-18 Document processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09206595A JP3487523B2 (en) 1995-04-18 1995-04-18 Document processing device

Publications (2)

Publication Number Publication Date
JPH08287189A JPH08287189A (en) 1996-11-01
JP3487523B2 true JP3487523B2 (en) 2004-01-19

Family

ID=14044081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09206595A Expired - Fee Related JP3487523B2 (en) 1995-04-18 1995-04-18 Document processing device

Country Status (1)

Country Link
JP (1) JP3487523B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3653156B2 (en) * 1997-01-29 2005-05-25 株式会社リコー Document image area extraction method
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
JP5317638B2 (en) * 2008-11-13 2013-10-16 日本電信電話株式会社 Web document main content extraction apparatus and program
JP5663866B2 (en) 2009-08-20 2015-02-04 富士ゼロックス株式会社 Information processing apparatus and information processing program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PRU93−125 パターン分類手法に基づくレイアウト解析,電子情報通信学会技術研究報告,日本,1994年 1月,第93巻第431号,pp.71−78
PRU94−36 文書画像のSGML文書への変換に関する一検討,電子情報通信学会技術研究報告,日本,1994年 9月22日,第94巻第242号,pp.73−80
PRU94−42 文書の論理構造を解釈する一手法,電子情報通信学会技術研究報告,日本,1994年10月20日,第94巻第291号,pp.25−32
文書画像構造解析のための知識ベースの一構成法,情報処理学会論文誌,日本,1993年 1月15日,第34巻第1号,pp.75−87

Also Published As

Publication number Publication date
JPH08287189A (en) 1996-11-01

Similar Documents

Publication Publication Date Title
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
JP3427692B2 (en) Character recognition method and character recognition device
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US5325444A (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JP3289968B2 (en) Apparatus and method for electronic document processing
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
Déjean et al. A system for converting PDF documents into structured XML format
KR100412317B1 (en) Character recognizing/correcting system
JP3294995B2 (en) Form reader
Lin et al. Logical structure analysis of book document images using contents information
US20120039536A1 (en) Optical character recognition with two-pass zoning
JP3422924B2 (en) CHARACTER RECOGNITION DEVICE, CHARACTER RECOGNITION METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD
Meunier Optimized XY-cut for determining a page reading order
US6728403B1 (en) Method for analyzing structure of a treatise type of document image
Nagy Disruptive developments in document recognition
US8170371B2 (en) Method of image pre-analyzing of a machine-readable form of non-fixed layout
JP3487523B2 (en) Document processing device
WO2007070010A1 (en) Improvements in electronic document analysis
Slavin et al. Models and methods flexible documents matching based on the recognized words
JP2008257543A (en) Image processing system and program
US11475686B2 (en) Extracting data from tables detected in electronic documents
JPH08263587A (en) Method and device for document input
JP3142986B2 (en) Document information retrieval device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101031

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees