JPH08227440A - Document image processor - Google Patents

Document image processor

Info

Publication number
JPH08227440A
JPH08227440A JP7033272A JP3327295A JPH08227440A JP H08227440 A JPH08227440 A JP H08227440A JP 7033272 A JP7033272 A JP 7033272A JP 3327295 A JP3327295 A JP 3327295A JP H08227440 A JPH08227440 A JP H08227440A
Authority
JP
Japan
Prior art keywords
character
reading order
character area
area
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7033272A
Other languages
Japanese (ja)
Inventor
Tsutomu Kuramochi
勉 倉持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7033272A priority Critical patent/JPH08227440A/en
Publication of JPH08227440A publication Critical patent/JPH08227440A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To provide the document image processor which gives order to a character area exactly in read order even when a mark indicating the read order is given. CONSTITUTION: This document image processor is equipped with a character area candidate extraction part 5 which extracts a character area candidate from a document image in a processing for extracting a character area from the document area as a preprocessing such as a character recognizing process, a character string direction decision part 6 which decides whether or not the character candidate area is the character area and decides its character direction when so, a read order indication mark detection part 7 which detects the mark indicating the read order of characters in the document, and a read order decision part 8 which gives order to the character area exactly in the read order on the basis of the mark.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、印刷文書をデータベー
ス化するための文字認識処理の前処理として、文書画像
中に存在する文字領域を抽出し、複数の文字領域を抽出
した場合には、文書の読み順通りに各文字領域を順番付
けする文書画像処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention extracts a character area existing in a document image as a preprocessing of character recognition processing for converting a print document into a database, and when a plurality of character areas are extracted, The present invention relates to a document image processing apparatus that sequentially orders each character area in the reading order of a document.

【0002】[0002]

【従来の技術】文書画像中の文字領域を読み順に順番付
けする基本的な方法としては、まず、文書画像中の文字
領域を抽出し、横書きの文書の場合には左上にある文字
領域から右下にある文字領域に向かって、縦書きの文書
の場合には右上にある文字領域から左下にある文字領域
に向かって順番付けすることが考えられる。この基本的
な方法により、文書画像中の3つの横書きの文字領域に
対して正しく順番付けした従来例を図8(a)に示す。
2. Description of the Related Art As a basic method for ordering the character areas in a document image in the reading order, first, the character areas in the document image are extracted, and in the case of a horizontally written document, the character areas in the upper left corner are moved to the right. In the case of a vertically-written document, it is conceivable that the character areas are arranged from the upper right character area toward the lower left character area toward the lower character area. FIG. 8A shows a conventional example in which three horizontally written character areas in a document image are correctly ordered by this basic method.

【0003】また、この基本的な方法を改善した方法
が、特開平5−282487号公報で提案されている。
その改善点は、文字画像中の見出し領域とその本文領域
とを一組の領域として抽出し、各組の領域内で前述の基
本的な順番付けの方法を適用する点にある。この改善方
法で、図8(a)に示した3つの文書領域に対して順番
付けしても、結果は前述の基本的な順番付けの方法と同
じになる。
Further, a method improved from this basic method is proposed in Japanese Patent Laid-Open No. 5-282487.
The improvement is that the heading area and its body area in the character image are extracted as a set of areas, and the above-described basic ordering method is applied within each set of areas. Even if the three document areas shown in FIG. 8A are ordered by this improvement method, the result is the same as the above-described basic ordering method.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記従
来技術の方法では、図8(b)に示した例のように、図
中*マークで示された、読む順序を指示するために付与
されたマーク(以下、「読み順指示マーク」という)が
ある場合でも、左上にある文字領域から右下にある文字
領域に向かって順位付けするため、誤った結果を出力す
るという欠点があった。
However, in the above-mentioned method of the prior art, as in the example shown in FIG. 8B, it is added to indicate the reading order indicated by the * mark in the figure. Even if there is a mark (hereinafter, referred to as a "reading order instruction mark"), since the character area at the upper left is ranked toward the character area at the lower right, there is a drawback that an erroneous result is output.

【0005】本発明は、前記の問題点を解決し、読み順
指示マークが付与された場合においても、文字領域に正
しく読み順通りに順番付けすることを可能にする文書画
像処理装置を提供することを目的とする。
The present invention solves the above-mentioned problems and provides a document image processing apparatus capable of correctly ordering a character area in a reading order even when a reading order instruction mark is added. The purpose is to

【0006】[0006]

【課題を解決するための手段】前記の目的を達成するた
めに、本発明の文書画像処理装置は、文書画像から文字
領域候補を抽出する文字領域候補抽出部と、文字領域候
補が文字領域であるか否か、及び、文字領域である場合
は、その文字方向を判定する文字列方向判定部と、文書
中の文字を読む順序を指示するマークを検出する読み順
指示マーク検出部と、前記マークに基づいて文字領域に
読み順通りに順番付けする読み順判定部とを備えた構成
となっている。
In order to achieve the above object, a document image processing apparatus of the present invention comprises a character area candidate extraction unit for extracting character area candidates from a document image, and a character area candidate is a character area. If there is, and if it is a character area, a character string direction determination unit that determines the character direction, a reading order instruction mark detection unit that detects a mark that indicates the reading order of the characters in the document, and A reading order determination unit that orders the character areas in the reading order based on the mark is configured.

【0007】[0007]

【作用】本発明の文書画像処理装置は、読み順指示マー
クを検出した後に文字領域の読み順を判定するため、読
み順指示マークが付与されている場合であっても、文字
領域に正しく読み順通りに順番付けすることができる。
Since the document image processing apparatus of the present invention determines the reading order of the character area after detecting the reading order instruction mark, even if the reading order instruction mark is added, the reading is correctly performed on the character area. Can be ordered in order.

【0008】[0008]

【実施例】本発明を、図面に示す一実施例に基づいて、
具体的に説明する。図1は、本発明に係る文書画像処理
装置の文字領域の順番付けを実行する部分のブロック構
成図を示す。画像入力装置1で紙の文書を2値画像デー
タとして読み込み、該画像データは画像用メモリ2に格
納される。そして、処理装置3により適時作業用メモリ
4を使って画像用メモリ2に格納された画像データから
文字領域を抽出して順番付けを実行する。処理装置3
は、図2に示した文字領域候補抽出部5、文字列方向判
定部6、読み順指示マーク検出部7、及び、読み順判定
部8を含む。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention is based on one embodiment shown in the drawings.
This will be specifically described. FIG. 1 is a block diagram showing a part of a document image processing apparatus according to the present invention that executes ordering of character areas. The image input device 1 reads a paper document as binary image data, and the image data is stored in the image memory 2. Then, the processing device 3 extracts the character regions from the image data stored in the image memory 2 by using the working memory 4 at appropriate times and executes the ordering. Processor 3
Includes the character area candidate extraction unit 5, the character string direction determination unit 6, the reading order instruction mark detection unit 7, and the reading order determination unit 8 illustrated in FIG.

【0009】文字領域候補抽出部5において、画像用メ
モリ2に格納された画像データ中の文字領域候補を抽出
する手順について、図3(a)〜図3(e)の説明図を
参照しながら説明する。本実施例では、有意画素を黒画
素、背景画素を白画素として説明する。
The procedure for extracting character area candidates in the image data stored in the image memory 2 in the character area candidate extracting section 5 will be described with reference to the explanatory views of FIGS. 3 (a) to 3 (e). explain. In this embodiment, the significant pixels are black pixels and the background pixels are white pixels.

【0010】まず、垂直方向の全長白ランが予め設定し
た数以上連続する空白帯を検出する。図3(a)の文書
画像においては、図3(b)の斜線部が空白帯として検
出される。次に、水平方向の全長白ランが予め設定した
数以上連続する空白帯を検出する。図3(a)の文書画
像においては、図3(c)の斜線部が空白帯として検出
される。そして、検出した空白帯で文書画像を分割し
て、図3(d)の破線で示したように文字領域候補を抽
出する。抽出した各文字候補領域に対して、同様に、各
領域中の垂直方向および水平方向の空白帯を検出し、空
白帯が検出された場合は文字領域候補をさらに分割す
る。
First, a blank band in which the total length of white runs in the vertical direction is continuous by a preset number or more is detected. In the document image of FIG. 3A, the shaded area of FIG. 3B is detected as a blank band. Next, a blank band in which the total length of white runs in the horizontal direction is continuous by a preset number or more is detected. In the document image of FIG. 3A, the shaded area of FIG. 3C is detected as a blank band. Then, the document image is divided by the detected blank band, and character region candidates are extracted as shown by the broken line in FIG. Similarly, for each of the extracted character candidate regions, vertical and horizontal blank bands in each region are detected, and when a blank band is detected, the character region candidate is further divided.

【0011】このようにして、空白帯が検出されて無く
なるまで、上記の処理が繰り返される。図3(a)の文
書画像においては、最終的に図3(e)のように文字領
域候補が抽出される。
In this way, the above process is repeated until the blank band is detected and disappears. In the document image of FIG. 3A, character region candidates are finally extracted as shown in FIG.

【0012】次に、文字列方向判定部6において、文字
領域候補抽出部5で抽出された各文字領域候補が文字領
域であるか否か、そして、文字領域である場合は、横書
きであるか縦書きであるかを判定する手順について、図
4(a)、図4(b)の説明図を参照しながら説明す
る。
Next, in the character string direction determination unit 6, whether each character region candidate extracted by the character region candidate extraction unit 5 is a character region, and if it is a character region, whether it is horizontal writing. The procedure for determining whether the writing is vertical will be described with reference to the explanatory diagrams of FIGS. 4A and 4B.

【0013】まず、抽出された各文字領域候補の垂直方
向および水平方向の射影を検出する。次に、図4(a)
のように、水平方向の射影に周期性のある山谷が現れた
場合は横書きの文字領域であると判定し、図4(b)の
ように、垂直方向の射影に周期性のある山谷が現れた場
合は縦書きの文字領域であると判定し、その他の場合は
文字領域ではないと判定する。また、射影の山の幅は、
横書きであれば文字の高さを、縦書きの場合であれば文
字の幅を表していることから、射影の山の幅を推定文字
サイズとする。
First, the vertical and horizontal projections of each extracted character region candidate are detected. Next, FIG. 4 (a)
When the projections in the horizontal direction have periodical peaks and valleys, it is determined that the character area is horizontal writing, and as shown in FIG. 4B, the projections and valleys in the vertical projection have periodicity. If it is, it is determined that it is a vertically written character area, and in other cases, it is determined that it is not a character area. Also, the width of the projection mountain is
Since the height of the character is shown in the case of horizontal writing and the width of the character is shown in the case of vertical writing, the width of the projection mountain is set as the estimated character size.

【0014】次に、読み順指示マーク検出部7におい
て、文字列方向判定部6で抽出された各文字領域中から
読み順指示マークを検出する手順について、図5のフロ
ーチャート、図3(e)および図6(a)、図6(b)
の説明図を参照しながら説明する。
Next, with respect to the procedure of detecting the reading order instruction mark in each character area extracted by the character string direction determining section 6 in the reading order instruction mark detecting section 7, the flowchart of FIG. 5 and FIG. And FIG. 6A and FIG. 6B.
This will be described with reference to the explanatory diagram of FIG.

【0015】まず、横書きの文字領域であれば垂直方向
の全長白ランを、縦書きの文字領域であれば水平方向の
全長白ランを検出し(ステップ501)、全長白ランを
検出したか否かを判定する(ステップ502)。全長白
ランが検出されなかった場合には、読み順指示マークは
存在しなかったと判定する(ステップ503)。図3
(e)に示した3つの横書きの文字領域においては、図
6(a)に示した全長白ランが検出される。全長白ラン
が検出された場合には、全長白ランにより分割された狭
い方の領域中の黒画素塊を検出し(ステップ504)、
推定文字サイズ程度の大きさの黒画素塊が1つだけ存在
するか否かを判定する(ステップ505)。そして、1
つだけ存在する場合は、読み順指示マーク候補として抽
出し(ステップ506)、他の場合には読み順指示マー
クは存在しなかったと判定する(ステップ503)。な
お、マークが2〜3個の場合もあり得るので、ステップ
506において、少数の黒画素が隣接して局所的に存在
する場合を候補とすることもできる。
First, a vertical full-length white run is detected in a horizontally written character area, and a horizontal full-length white run is detected in a vertical written character area (step 501). It is determined (step 502). If the full length white run is not detected, it is determined that the reading order instruction mark does not exist (step 503). FIG.
In the three horizontally written character areas shown in (e), the full-length white run shown in FIG. 6 (a) is detected. If a full-length white run is detected, a black pixel block in the narrower area divided by the full-length white run is detected (step 504),
It is determined whether or not there is only one black pixel block having the size of the estimated character size (step 505). And 1
If only one exists, it is extracted as a reading order instruction mark candidate (step 506). In other cases, it is determined that the reading order instruction mark does not exist (step 503). Since there may be two or three marks, in step 506, a case where a small number of black pixels exist locally adjacent to each other can be used as a candidate.

【0016】図6(a)の場合には、図6(b)に示し
た2つのマークが読み順指示マーク候補として抽出され
る。次いで、各文字領域から抽出された読み順指示マー
ク候補の数を合計し(ステップ507)、2つ以上抽出
されたか否かを判定する(ステップ508)。
In the case of FIG. 6A, the two marks shown in FIG. 6B are extracted as reading order instruction mark candidates. Next, the number of reading order instruction mark candidates extracted from each character area is totaled (step 507), and it is determined whether two or more are extracted (step 508).

【0017】そして、合計した数が1つの場合には、読
み順指示マーク候補が読み順指示マークではなかったと
判定する(ステップ503)。また、合計の数が2つ以
上の場合には、読み順指示マーク候補を2つずつ、全て
の組み合わせで、パターン照合し(ステップ509)、
同じ大きさと形状をもつマークの組を抽出する。パター
ン照合の方法の一例として、「パターン認識 森健一監
修 電子情報通信学会47頁〜48頁」に重ね合わせ法
が記載されている。
When the total number is 1, it is determined that the reading order instruction mark candidate is not the reading order instruction mark (step 503). When the total number is two or more, the pattern matching is performed for every two reading order instruction mark candidates (step 509).
Extract a set of marks that have the same size and shape. As an example of a pattern matching method, the superposition method is described in “Pattern Recognition, Kenichi Mori, Electronic Information Communication Society, pages 47 to 48”.

【0018】そのようなマークの組が抽出された否かを
判定し(ステップ510)、抽出されたマークの組を読
み順指示マークであると判定し(511)、それ以外の
読み順指示マーク候補は読み順指示マークではなかった
と判定する(ステップ503)。
It is determined whether such a set of marks has been extracted (step 510), it is determined that the extracted set of marks is a reading order instruction mark (511), and other reading order instruction marks are determined. It is determined that the candidate is not the reading order instruction mark (step 503).

【0019】パターン照合の代わりに、文字認識を実行
し、同じ認識結果となったマークの組を読み順指示マー
クであると判定することもできる。例えば、図6(b)
に示した2つのマークは、同じ大きさと形状をもつ*マ
ークであるので、読み順指示マークであると判定され
る。
Instead of pattern matching, character recognition may be executed and a set of marks having the same recognition result may be determined as a reading order instruction mark. For example, FIG. 6 (b)
Since the two marks shown in 1 are the * marks having the same size and shape, it is determined that they are reading order instruction marks.

【0020】次に、読み順判定部8において、読み順指
示マーク検出部7で抽出した読み順指示マークを利用し
て、文字列方向判定部6で抽出された各文字領域の順番
付けする手順に付いて、図3(e)及び図7の説明図を
参照しながら説明する。
Next, the reading order determination unit 8 uses the reading order instruction marks extracted by the reading order instruction mark detection unit 7 to sequence the character areas extracted by the character string direction determination unit 6. Will be described with reference to the explanatory views of FIG. 3 (e) and FIG. 7.

【0021】基本的には、従来技術に示したように、横
書きの文書の場合は左上の文字領域から右下の文字領域
に向かって、縦書きの文書の場合は右上の文字領域から
左下の文字領域に向かって順番付けする。ただし、読み
順指示マークが付与された文字領域があった場合には、
次は同じ読み順指示マークが付与された文字領域を順番
付けする。
Basically, as shown in the prior art, in the case of a horizontally written document, the character area moves from the upper left character area to the lower right character area, and in the case of a vertically written document, the upper right character area moves to the lower left character area. Order toward the text area. However, if there is a character area with a reading order instruction mark,
Next, the character areas to which the same reading order instruction mark is added are ordered.

【0022】図3(e)の場合においては、横書きの文
書であるので、まず、左に段組の文字領域の読み順を1
に設定する。この文字領域には読み順指示マークが付与
されているので、次は、同じ読み順指示マークが付与さ
れている右側の段組の下側の文字領域の読み順に2を設
定する。最後に、残った右側の段組の上側の文字領域の
読み順に3を設定する。その結果、図7に示すように、
正しく読み順通りに順番付けされる。
In the case of FIG. 3 (e), since it is a horizontally written document, first, the reading order of the character area in the column on the left is 1
Set to. Since the reading order instruction mark is added to this character area, 2 is set next in the reading order of the lower character area of the right column to which the same reading order instruction mark is added. Finally, 3 is set in the reading order of the upper character area of the remaining right column. As a result, as shown in FIG.
It is correctly ordered according to the reading order.

【0023】以上のような要領で、文字領域とその読み
順を出力する。
The character area and its reading order are output as described above.

【発明の効果】以上に説明したように、本発明によれ
ば、文書中に文字を読む順序を指示するマークが付与さ
れている場合においても、文字領域に正しく読み順通り
に順番付けすることが可能となる。また、例えば、抽出
した文字領域中の文字を認識して出力する場合において
は、読み順に認識結果を出力することが可能となる。
As described above, according to the present invention, even when a mark indicating the reading order of characters is added to a document, the character areas are correctly ordered in the reading order. Is possible. Further, for example, when recognizing and outputting the characters in the extracted character area, the recognition result can be output in the reading order.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施例に係る文書画像処理装置の
文字領域の順番付けを実行する部分のブロック構成図で
ある。
FIG. 1 is a block configuration diagram of a portion that executes ordering of character areas of a document image processing apparatus according to an embodiment of the present invention.

【図2】 図1の文書画像処理装置における処理装置の
機能を示すブロック図である。
FIG. 2 is a block diagram showing functions of a processing device in the document image processing device of FIG.

【図3】 本実施例に示す文字領域候補抽出処理の説明
図である。
FIG. 3 is an explanatory diagram of character area candidate extraction processing according to the present embodiment.

【図4】 同文字列方向判定処理の説明図である。FIG. 4 is an explanatory diagram of the same character string direction determination processing.

【図5】 同読み順指示マーク検出処理のフローチャー
トである。
FIG. 5 is a flowchart of a reading order instruction mark detection process.

【図6】 同読み順指示マーク検出処理の説明図であ
る。
FIG. 6 is an explanatory diagram of a reading order instruction mark detection process.

【図7】 同文字領域の順番付けの処理結果の説明図で
ある。
FIG. 7 is an explanatory diagram of a processing result of ordering the same character areas.

【図8】 従来例における文字領域の順番付けの処理結
果の説明図である。
FIG. 8 is an explanatory diagram of a processing result of ordering character areas in a conventional example.

【符号の説明】 1:画像入力装置、2:画像用メモリ、3:処理装置、
4:作業用メモリ、5:文字領域候補抽出部、6:文字
列方向判定部、7:読み順指示マーク検出部、8:読み
順判定部
[Explanation of Codes] 1: Image Input Device, 2: Image Memory, 3: Processing Device,
4: Working memory, 5: Character area candidate extraction unit, 6: Character string direction determination unit, 7: Reading order instruction mark detection unit, 8: Reading order determination unit

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 文字認識処理等の前処理として、文書画
像中の文字領域を抽出する処理において、文書画像から
文字領域候補を抽出する文字領域候補抽出部と、文字領
域候補が文字領域であるか否か、及び、文字領域である
場合は、その文字方向を判定する文字列方向判定部と、
文書中の文字を読む順序を指示するマークを検出する読
み順指示マーク検出部と、前記マークに基づいて文字領
域に読み順通りに順番付けする読み順判定部とを備えた
ことを特徴とする文書画像処理装置。
1. A character region candidate extraction unit for extracting character region candidates from a document image in a process of extracting a character region in a document image as preprocessing such as character recognition processing, and the character region candidate is a character region. Whether or not, and if it is a character area, a character string direction determination unit that determines the character direction,
A reading order instruction mark detecting section for detecting a mark indicating a reading order of characters in the document, and a reading order determining section for ordering the reading order in the character area based on the mark. Document image processing device.
JP7033272A 1995-02-22 1995-02-22 Document image processor Pending JPH08227440A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7033272A JPH08227440A (en) 1995-02-22 1995-02-22 Document image processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7033272A JPH08227440A (en) 1995-02-22 1995-02-22 Document image processor

Publications (1)

Publication Number Publication Date
JPH08227440A true JPH08227440A (en) 1996-09-03

Family

ID=12381902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7033272A Pending JPH08227440A (en) 1995-02-22 1995-02-22 Document image processor

Country Status (1)

Country Link
JP (1) JPH08227440A (en)

Similar Documents

Publication Publication Date Title
JPH08227440A (en) Document image processor
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
JPS615383A (en) Character pattern separating device
JP3064391B2 (en) Character recognition method
JP3517077B2 (en) Pattern extraction device and method for extracting pattern area
JPH0713994A (en) Character recognizing device
JP3437296B2 (en) High-speed character string extraction device
JP2925270B2 (en) Character reader
JP2877380B2 (en) Optical character reader
JP3006294B2 (en) Optical character reader
JP3047857B2 (en) Optical character reader
JP3160458B2 (en) Character reading device and character reading method
JPH07141462A (en) Document system
JP3060237B2 (en) Japanese character recognition device
JPH04130979A (en) Character picture segmenting method
JP3027232B2 (en) Character recognition device
JPH05174185A (en) Japanese character recognizing device
JP3162575B2 (en) Character recognition device
JP2665226B2 (en) Character recognition device
JP3566738B2 (en) Shaded area processing method and shaded area processing apparatus
JPH08101886A (en) Character recognition device
JP3239965B2 (en) Character recognition device
JPS61121184A (en) Character recognizer
JPH04192090A (en) Optical character reader
JPH08263591A (en) Device and method for character recognition