JPH09269944A - Picture processor and method therefor - Google Patents

Picture processor and method therefor

Info

Publication number
JPH09269944A
JPH09269944A JP8079009A JP7900996A JPH09269944A JP H09269944 A JPH09269944 A JP H09269944A JP 8079009 A JP8079009 A JP 8079009A JP 7900996 A JP7900996 A JP 7900996A JP H09269944 A JPH09269944 A JP H09269944A
Authority
JP
Japan
Prior art keywords
ordering
group
image
rectangle
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8079009A
Other languages
Japanese (ja)
Inventor
Nobuhiko Tezuka
信彦 手塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8079009A priority Critical patent/JPH09269944A/en
Publication of JPH09269944A publication Critical patent/JPH09269944A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To execute desired ordering in plural group-designated composition paragraphs and to improve the convenience of a user by providing respective processes for dividing an inputted picture into prescribed areas and ordering the divided prescribed areas. SOLUTION: An input part 101 inputs picture data and CPU 102 controls a device and operates respective parts. A storage part 103 stores a control program and various kinds of data. An output part 104 outputs an arithmetic processing result, a picture processing result and picture data, etc. An ordering part 105 orders the paragraph and headline of a composition. An area dividing part 106 indicates the whole area processing and is constituted of a picture thinning part 201 and a labeling part 202, etc. Then, even when an article, for example, a newspaper article, etc., is constituted by plural text paragraphs, group designition is executed by a mouse, etc., so that ordering is correctly executed without executing mixing with another article and the flow of the text composition is not disturbed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、特に入力画像に対
して文字領域を抽出し、順序付けを施す、OCR(光学
的文字認識)装置、複写機、ファクシミリ装置等の画像
処理装置及びその方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing apparatus such as an OCR (optical character recognition) apparatus, a copying machine, a facsimile apparatus and the like, and a method for extracting character areas from an input image and ordering them. It is a thing.

【0002】[0002]

【従来の技術】従来の画像処理装置においては、文書内
の文字の順序付け手段として、縦書きの場合は右から左
方向に順序を付け、同様に上下方向に関しては、上から
下方向に順序を付けていくものがある。
2. Description of the Related Art In a conventional image processing apparatus, as a means for ordering characters in a document, in the case of vertical writing, the order is from right to left, and similarly in the vertical direction, from top to bottom. There is something to add.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来例では、新聞記事等、複数の文章段落で一つの記事の
単位をなしている原稿に対し、その記事単位のグループ
化は従来セパレータなどの情報により自動的にグループ
化を行っていたため、記事のグループ化の判断が困難な
原稿に対してはグループ化の判断に過ちが生じ、本来同
一記事内では連続して順序付けしなければならないもの
が別の記事と順序が入り混じってしまい、その結果、本
文の文章の流を乱してしまう等の問題点があった。
However, in the above-mentioned conventional example, for a manuscript in which a plurality of text paragraphs form a unit of one article such as a newspaper article, the grouping of the article unit is conventionally performed by using information such as a separator. Since the grouping was done automatically by the above, there is an error in the grouping judgment for manuscripts for which it is difficult to judge the grouping of articles, and it is necessary to order consecutively in the same article originally. However, there was a problem that the order of the articles and the order were mixed, and as a result, the flow of the text of the text was disturbed.

【0004】本発明は、上記課題を解決するために成さ
れたもので、グループ指定した複数の文章段落に所望の
順序付けを行い、利用者の利便性を向上させた画像処理
装置及び方法を提供することを目的とする。
The present invention has been made to solve the above problems, and provides an image processing apparatus and method in which a plurality of text paragraphs designated by a group are ordered in a desired manner to improve user convenience. The purpose is to do.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するため
に、本発明の画像処理方法は、画像を入力する入力工程
と、前記入力工程により入力された画像を所定領域に分
割する領域分割工程と、前記領域分割工程により分割さ
れた所定領域の順序付けを行う順序付け工程とを有し、
前記領域分割工程は、複数の文章段落に分割することを
特徴とする。
In order to achieve the above object, an image processing method of the present invention comprises an input step of inputting an image, and an area dividing step of dividing the image input by the input step into predetermined areas. And an ordering step of ordering the predetermined areas divided by the area dividing step,
The region dividing step is characterized by dividing into a plurality of sentence paragraphs.

【0006】また、上記目的を達成するために、本発明
による画像処理装置は、画像を入力する入力手段と、前
記入力手段により入力された画像を所定領域に分割する
領域分割手段と、前記領域分割手段により分割された所
定領域の順序付けを行う順序付け手段とを有し、前記領
域分割手段は、複数の文章段落に分割することを特徴と
する。
In order to achieve the above object, the image processing apparatus according to the present invention comprises an input means for inputting an image, an area dividing means for dividing the image input by the input means into predetermined areas, and the area. Ordering means for ordering the predetermined areas divided by the dividing means, wherein the area dividing means divides into a plurality of sentence paragraphs.

【0007】かかる構成において、画像を入力し、その
入力画像を複数の文章段落に分割し、分割された複数の
文章段落の順序付けを行うように動作する。
In such a configuration, an operation is performed so that an image is input, the input image is divided into a plurality of sentence paragraphs, and the plurality of divided sentence paragraphs are ordered.

【0008】[0008]

【発明の実施の形態】以下、図面を参照しながら本発明
に係る実施の形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0009】図1は、本実施の形態における画像処理装
置の構成を示すブロック図である。図において、101
は画像データの入力部である。102は装置の制御や各
部の演算を行う演算処理部(CPU)である。103は
制御プログラムや各種データを記憶しておく記憶部であ
る。104は演算処理結果、画像処理結果、及び画像デ
ータ等を出力する出力部である。105は文章の段落、
見出しに順序を付ける順序付け部であり、詳細について
は更に後述する。106は領域分割処理全体を示す領域
分割部である。
FIG. 1 is a block diagram showing the arrangement of an image processing apparatus according to this embodiment. In the figure, 101
Is an input unit for image data. Reference numeral 102 denotes an arithmetic processing unit (CPU) that controls the device and performs arithmetic operations of each unit. A storage unit 103 stores a control program and various data. An output unit 104 outputs a calculation processing result, an image processing result, image data, and the like. 105 is a paragraph of a sentence,
This is an ordering unit that orders headings, and details thereof will be described later. An area dividing unit 106 indicates the entire area dividing process.

【0010】以上の構成において、まず領域分割部10
6の詳細な構成について説明する。201は入力画像を
間引く、画像間引き部であり、入力画像に対し縦mドッ
ト、横nドットの論理和をとって新たにm×n画素を1
画素に間引く。202はその間引き画素にラベル付けを
行い、同時に初期矩形データを作成するラベリング部で
あり、画像の黒画素に対して1行ずつラベルを付加し、
上下・左右・斜めで連続している画素には同一ラベルを
付け、同時に矩形をかたどっていく。203はセパレー
タや表や図形等を検出するセパレータ等検出部であり、
上記矩形の幅、高さ、面積、面積に対する画素の数、即
ち画素密度を用いて文字部分(本文)に該当する矩形、
図形又は写真に該当する矩形、表に該当する矩形、セパ
レータに該当する矩形等を区別する。204は縦書き・
横書き等の文章の組方向を検出する組方向検出部であ
り、上記文字部分(本文)に該当する矩形の幅の高さの
比較から縦書き文章か横書き文章かを推定する。205
は見出し類を検出する見出し類検出部であり、上記組方
向と文字サイズを用いて見出し類を検出する。206は
矩形の合併部であり、本来の矩形の大きさを拡張した仮
想矩形を用いて矩形の合併を行う。
In the above configuration, the area dividing unit 10 is first
The detailed configuration of 6 will be described. An image thinning unit 201 thins an input image. The logical sum of vertical m dots and horizontal n dots 201 is added to the input image to newly set m × n pixels to 1.
Thin out to pixels. Reference numeral 202 denotes a labeling unit that labels the thinned pixels and at the same time creates initial rectangular data, and adds labels to the black pixels of the image line by line,
Pixels that are continuous vertically, horizontally, and diagonally are given the same label, and are simultaneously shaped into a rectangle. Reference numeral 203 denotes a separator or the like detection unit for detecting a separator, a table, a figure, or the like,
The width, height, area, and number of pixels per area, that is, the rectangle corresponding to the character portion (text) using the pixel density,
Distinguish between rectangles corresponding to figures or photographs, rectangles corresponding to tables, rectangles corresponding to separators, and the like. 204 is vertical writing
A set direction detecting unit for detecting a set direction of a sentence such as horizontal writing, and estimates a vertical writing sentence or a horizontal writing sentence by comparing the heights of the widths of the rectangles corresponding to the character portions (texts). 205
Is a headline detection unit for detecting a headline, and detects the headline using the set direction and the character size. Reference numeral 206 denotes a rectangle merger, which merges rectangles by using a virtual rectangle that is an extension of the size of the original rectangle.

【0011】図2は、本実施の形態における画像処理を
示すフローチャートで、この処理を実行する制御プログ
ラムは記憶部103に記憶されている。 ステップS201 まず、画像入力部101から元画像を入力する。また、
画像入力の際に、多値であるか否かを判断し、2値画像
に変換することで、入力画像がカラー等の多値画像であ
っても領域分割処理は可能である。 ステップS202 以下、領域分割106により領域分割を行い、文章、セ
パレータ、図等を画像から抽出する。このステップS2
02では、画像間引き部201において、上述の元画像
に対し、縦mドット、横nドットの論理和をとって新た
にm×n画素を1画素に間引く。ここで、元画像のm×
n画像中に1ドットでも黒画素があれば間引き画像は黒
となる。
FIG. 2 is a flow chart showing image processing in the present embodiment, and a control program for executing this processing is stored in the storage unit 103. Step S201 First, the original image is input from the image input unit 101. Also,
When an image is input, it is determined whether or not it is multi-valued and converted into a binary image, so that even if the input image is a multi-valued image such as a color image, the region division processing is possible. In step S202 and thereafter, area division is performed by area division 106, and sentences, separators, figures, etc. are extracted from the image. This step S2
In 02, the image thinning unit 201 newly thins out m × n pixels to one pixel by taking a logical sum of vertical m dots and horizontal n dots in the original image. Where mx of the original image
If even one dot has a black pixel in the n image, the thinned image is black.

【0012】尚、この画像間引き処理において、入力画
像の画素数が処理速度を損なわない程度に十分少なけれ
ば、この画像間引き処理を省略することも可能である。 ステップS203 次に、ラベリング部202において、上述の間引き画像
の黒画素に対して1行ずつラベルを付加し、上下・左右
・斜めで連続している画素には同一ラベルを付け、同時
に矩形をかたどっていく。
In the image thinning-out process, if the number of pixels of the input image is small enough not to impair the processing speed, the image thinning-out process can be omitted. Step S203 Next, in the labeling unit 202, a label is added to the black pixels of the above-described thinned image row by row, and consecutive pixels in the vertical, horizontal, and diagonal directions are given the same label, and at the same time, a rectangular shape is modeled. To go.

【0013】図3を例に取ると、最初に検出される画素
Aにはラベル1が付けられ、この画素Aの座標(Xa,
Ya)を矩形の始点と終点とし、画素数を1、矩形を区
別するための矩形ラベルに画素と同じラベル1を付加し
て以上のデータを矩形データとして図4に示すように記
憶部103に記憶する。
Taking FIG. 3 as an example, the first detected pixel A is labeled 1, and the coordinates (Xa,
Ya) is the start and end points of the rectangle, the number of pixels is 1, and the same label 1 as the pixel is added to the rectangular label for distinguishing the rectangle, and the above data is stored in the storage unit 103 as rectangular data as shown in FIG. Remember.

【0014】次に、左方向に連続画素のない(1行目で
あるのでもちろん上からも連続画素はない)画素Bには
ラベル2が付けられ、この画素Bの座標(Xb,Yb)
を矩形の始点と終点とし、画素数を1、矩形を区別する
ための矩形ラベルに画素と同じラベル2を付加して以上
のデータも矩形データとして図4に示すように記憶部1
03に記憶する。
Next, a label 2 is attached to a pixel B having no continuous pixel in the left direction (there is no continuous pixel from the top because it is in the first row), and the coordinate 2 of this pixel B (Xb, Yb).
Is the starting point and the ending point of the rectangle, the number of pixels is 1, and the same label 2 as the pixel is added to the rectangular label for distinguishing the rectangle, and the above data is also rectangular data as shown in FIG.
Store in 03.

【0015】以上のようにして、1行目のラベリングが
終了したら2行目に移る。
As described above, when the labeling of the first line is completed, the process moves to the second line.

【0016】2行目の最初の画素Cはラベル1の画素A
と上から連続しているので画素ラベル1を付加し、矩形
ラベル1の矩形データに対し画素数は1加算して計2画
素となり、矩形ラベルは変わらず1のままで、矩形座標
は終点のみを(Xa,Ya)から(Xa,Yc)へと更
新する(始点の座標は変わらない)。
The first pixel C in the second row is the pixel A of label 1.
Since it is continuous from the top, pixel label 1 is added, and the number of pixels is added to the rectangular data of rectangular label 1 by 1 to make a total of 2 pixels, the rectangular label remains 1 and the rectangular coordinate is only the end point. Is updated from (Xa, Ya) to (Xa, Yc) (the coordinates of the starting point do not change).

【0017】次の画素Dは画素Cと左から連続している
のでラベル1を付加し、矩形ラベル1の矩形データに対
し画素数は1加算して計3画素となり、矩形ラベルは変
わらず1のままで、矩形座標は終点のみを(Xa,Y
c)から(Xd,Yc)へと更新する(終点のY座標は
変わらない)。この時、画素Dは画素Bとも斜めに連続
しており、画素Cから連続して来ているので画素Bのラ
ベルをラベル2からラベル1へと更新し、矩形ラベル1
の矩形データに対し、矩形ラベル2の画素数を加算して
計4画素とし、矩形ラベルは変わらず1のままで、矩形
座標は画素A,B,C,Dをすべて含むように終点のみ
を(Xd,Yc)から(Xb,Yd)へと更新する。矩
形ラベル2の矩形データについては、矩形ラベルを0と
して無効とする。
Since the next pixel D is continuous from the left with the pixel C, the label 1 is added, and the number of pixels is added to the rectangular data of the rectangular label 1 by 1 to make a total of 3 pixels, and the rectangular label remains unchanged 1. As it is, the rectangular coordinates are only for the end point (Xa, Y
Update from (c) to (Xd, Yc) (the Y coordinate of the end point does not change). At this time, the pixel D is diagonally continuous with the pixel B and is continuous from the pixel C, so the label of the pixel B is updated from label 2 to label 1, and the rectangular label 1
The number of pixels of the rectangular label 2 is added to the rectangular data of 4 to make a total of 4 pixels, the rectangular label remains unchanged at 1, and the rectangular coordinates include only the end points so as to include all the pixels A, B, C and D. Update from (Xd, Yc) to (Xb, Yd). Regarding the rectangular data of the rectangular label 2, the rectangular label is set to 0 and invalidated.

【0018】以上のようにして2行目が終了したら3行
目に移る。
When the second line is completed as described above, the process moves to the third line.

【0019】3行目の最初の画素EはC画素と斜めに連
続しているので画素ラベル1を付加し、矩形ラベル1の
矩形データに対し画素数は1加算して計5画素となり、
矩形ラベルは変わらず1のままで、矩形座標は視点を
(Xa,Ya)から(Xe,Ya)へ、および終点を
(Xb,Yd)から(Xb,Ye)へと更新する。即
ち、このときの記憶部103上の図4の矩形データは、
矩形ラベルが1、視点座標が(Xe,Ya)、終点座標
が(Xb,Ye)、画素ラベルが1及び画素数が5とな
る。
Since the first pixel E on the third row is diagonally continuous with the C pixel, pixel label 1 is added, and the number of pixels is increased by 1 to the rectangular data of rectangular label 1 to give a total of 5 pixels.
The rectangular label remains unchanged at 1, and the rectangular coordinates are updated from the viewpoint (Xa, Ya) to (Xe, Ya) and the end point from (Xb, Yd) to (Xb, Ye). That is, the rectangular data of FIG. 4 on the storage unit 103 at this time is
The rectangular label is 1, the viewpoint coordinates are (Xe, Ya), the end point coordinates are (Xb, Ye), the pixel label is 1 and the number of pixels is 5.

【0020】以下同様にして、全間引き画素にラベリン
グと矩形のかたどりを行う。 ステップS204 次に、上述のラベリングと矩形のかたどりの後、セパレ
ータ等検出部203において、文字部分(本文)に該当
する矩形、図形又は写真、表等に該当する矩形、セパレ
ータに該当する矩形等を、上述の矩形の幅W、高さH、
面積S、面積に対する画素の数、即ち画素密度D(これ
ら矩形データを用いて計算することにより容易に求ま
る)を用いて区別する。以下、この処理の詳細を図5に
示すフローチャートを参照して説明する。
In the same manner, labeling and rectangular tracing are performed on all thinned pixels. Step S204 Next, after the above-described labeling and tracing of rectangles, the separator or the like detecting unit 203 extracts rectangles corresponding to character portions (text), rectangles corresponding to figures or photographs, tables, rectangles corresponding to separators, and the like. , Width W, height H of the above rectangle,
The area S and the number of pixels with respect to the area, that is, the pixel density D (which can be easily obtained by calculation using these rectangular data) are used for discrimination. The details of this processing will be described below with reference to the flowchart shown in FIG.

【0021】まず、図4に示すように記憶した矩形をサ
ーチし(ステップS501)、矩形の終了でなければ
(ステップS502のNO)、セパレータ等を区別して
いく。まずセパレータは、幅Wが閾値Tw1以下で、か
つ高さHが幅Wの閾値Tw2倍以上(ステップS503
のYES)、或いは幅Wが閾値Tw1より大きく、かつ
高さHが幅Wの閾値Tw3倍以上(ステップS504の
YES)であれば、縦長セパレータとして記憶部103
上の矩形ラベルを−3として統一し、矩形を構成する画
素ラベルは矩形ラベルとは別にそのまま現在のラベル番
号を保持しておく(ステップS514)。
First, as shown in FIG. 4, the stored rectangle is searched (step S501), and if the rectangle is not the end (NO in step S502), the separator and the like are distinguished. First, in the separator, the width W is equal to or smaller than the threshold Tw1 and the height H is equal to or larger than twice the threshold Tw of the width W (step S503).
YES), or if the width W is larger than the threshold value Tw1 and the height H is three times the threshold value Tw of the width W or more (YES in step S504), the storage unit 103 as a vertically long separator.
The upper rectangular label is unified as -3, and the pixel label forming the rectangle holds the current label number as it is in addition to the rectangular label (step S514).

【0022】また、上述の幅と高さを入れ替えたものを
同様に判定し(ステップS505,S506)、該当す
る場合(YES)、縦長セパレータとして矩形ラベルを
−3に変更する(ステップS514)。
Similarly, the above-mentioned width and height are interchanged (steps S505 and S506), and if applicable (YES), the rectangular label is changed to -3 as the vertical separator (step S514).

【0023】次に、図6に示すように、上述のステップ
S503〜S506までがNO判定となり、画素密度D
が閾値Td1以下の場合(ステップS507のYES)
は、カギ型などの変形セパレータと見なして矩形ラベル
を−3に変更する(ステップS514)。
Next, as shown in FIG. 6, the above steps S503 to S506 result in a NO determination, and the pixel density D
Is less than or equal to the threshold Td1 (YES in step S507)
Changes the rectangular label to -3 by considering it as a deformed separator of a key shape or the like (step S514).

【0024】また、ステップS507がNOとなった
が、面積Sが閾値Ts1よりも大きい場合(ステップS
508のYES)は、画素密度Dが閾値Td2未満(ス
テップS509のYES)ならば、表とみなし矩形ラベ
ルを−4に変更する(ステップS515)。また、画素
密度Dが閾値Td2以上ならば、図形又は写真とみなし
矩形ラベルを−5に変更する(ステップS516)。
If step S507 is NO but the area S is larger than the threshold value Ts1 (step S507).
If the pixel density D is less than the threshold value Td2 (YES in step S509), the rectangle label regarded as a table is changed to -4 (YES in step S508). If the pixel density D is greater than or equal to the threshold value Td2, the rectangular label regarded as a figure or a photograph is changed to -5 (step S516).

【0025】一方、面積Sが閾値Ts1以下で、かつ閾
値Ts2以上の場合(ステップS510のYES)、画
素密度Dが閾値Td3以上(ステップS511のYE
S)の矩形や、幅W及び高さHが共に閾値Tw4以上
で、かつ画素密度Dが閾値Td5以上の場合(ステップ
S513のYES)の矩形も、図形又は写真とみなし矩
形ラベルを−5に変更する(ステップS516)。
On the other hand, when the area S is less than the threshold Ts1 and more than the threshold Ts2 (YES in step S510), the pixel density D is more than the threshold Td3 (YE in step S511).
The rectangle of S) or the rectangle in which both the width W and the height H are equal to or more than the threshold Tw4 and the pixel density D is equal to or more than the threshold Td5 (YES in step S513) are regarded as figures or photographs, and the rectangle label is set to -5. Change (step S516).

【0026】更に、面積Sが閾値Ts1以下で、かつ閾
値Ts2以上の場合(ステップS510のYES)で、
画素密度Dが閾値Td4未満(ステップS512のYE
S)の矩形を表とみなし矩形ラベルを−4に更新する
(ステップS515)。
Further, when the area S is less than or equal to the threshold Ts1 and greater than or equal to the threshold Ts2 (YES in step S510),
The pixel density D is less than the threshold value Td4 (YE in step S512
The rectangle of (S) is regarded as a table and the rectangle label is updated to -4 (step S515).

【0027】以上のようにして、図形又は写真、表等に
該当する矩形、セパレータに該当する矩形等を検出し、
残った矩形を本文(文字部分)として矩形ラベルはその
まま画素ラベルと同一にしておく(ステップS51
7)。尚、図6は、面積Sと画素密度Dにおける上述の
閾値とセパレータ等の区分の関係を示すものである。
As described above, a rectangle corresponding to a figure or photograph, a table, etc., a rectangle corresponding to a separator, etc. are detected,
The remaining rectangle is used as the body (character portion) and the rectangle label is made the same as the pixel label (step S51).
7). Note that FIG. 6 shows the relationship between the above-mentioned threshold value in the area S and the pixel density D and the division of the separator and the like.

【0028】尚、このセパレータ等の検出において、セ
パレータの縦横の違い、図形や表等求める時の閾値の違
いなどで矩形ラベルを区別することで、更に詳細な領域
属性の分類を行うことも可能である。また、最初から文
章のみなどのように、特定の属性の画像しか入力しない
場合には、上述のセパレータ等の検出処理を省略するこ
とも可能である。 ステップS205 次に、組方向検出部204において、縦書き・横書き等
の文章の組方向を検出する。この処理を図7に示すフロ
ーチャートを参照して説明する。
Further, in the detection of the separator and the like, it is possible to further classify the area attribute by distinguishing the rectangular labels by the difference in the length and width of the separator, the difference in the threshold value when obtaining figures, tables and the like. Is. Further, when only an image having a specific attribute is input from the beginning, such as only a sentence, the above-described detection processing of the separator or the like can be omitted. Step S205 Next, the set direction detecting unit 204 detects the set direction of sentences such as vertical writing and horizontal writing. This processing will be described with reference to the flowchart shown in FIG.

【0029】まず、横書きの文章の場合、本文として残
った矩形は横方向に間引いた画素が連続して横長の矩形
になりやすく、縦書き文章であれば、本文として残った
矩形は縦長になりやすい。そこで、組方向検出部204
において、本文の矩形の幅Wと高さHの平均値を算出し
(ステップS701)、平均幅Wが平均高さhよりも大
きい場合は(ステップS702のYES)、横書きの多
い章とみなし平均高さhを1文字の文字サイズとする
(ステップS703)。また平均高さhが平均幅Wより
も大きい場合は(ステップS702のNO)、縦書きの
多い文章とみなし平均幅wを1文字の文字サイズとする
(ステップS710)。
First, in the case of a horizontally written sentence, the rectangle remaining as the body tends to be a horizontally long rectangle in which pixels thinned out in the horizontal direction are continuous, and in the case of a vertically written sentence, the rectangle remaining as the body becomes vertically long. Cheap. Therefore, the assembly direction detection unit 204
In, the average value of the width W and height H of the rectangle of the text is calculated (step S701), and when the average width W is larger than the average height h (YES in step S702), the chapter is regarded as the one with many horizontal lines and the average. The height h is set to the character size of one character (step S703). If the average height h is larger than the average width W (NO in step S702), the average width w is regarded as a sentence with many vertical writings and the average width w is set to one character size (step S710).

【0030】次に、図8に示すように、組方向とは逆方
向に矩形のヒストグラムを取り(ステップS704,S
711)、周辺分布の形状から閾値Tk以下の場所を段
落の分かれ目とする(ステップS705,S712)。
そして、段落をサーチし(ステップS707,S71
4)、段落毎に組方向と同じ方向に矩形のヒストグラム
を取って(ステップS708,S715)、周辺分布の
形状から黒画素の連続の長さをその段落内文字の文字サ
イズとし、白画素の連続の長さを行ピッチとして検出す
る(ステップS709,S716)。上述の検出処理を
段落が終わるまで繰り返す(ステップS706,S71
3)。
Next, as shown in FIG. 8, a rectangular histogram is taken in the direction opposite to the set direction (steps S704, S).
711), the place of the threshold value Tk or less is set as a paragraph break based on the shape of the peripheral distribution (steps S705 and S712).
Then, the paragraph is searched (steps S707 and S71).
4) A rectangular histogram is taken for each paragraph in the same direction as the set direction (steps S708 and S715), and from the shape of the marginal distribution, the continuous length of black pixels is set as the character size of the characters in that paragraph, and the white pixel The length of continuation is detected as the row pitch (steps S709 and S716). The above detection process is repeated until the paragraph is completed (steps S706 and S71).
3).

【0031】尚、この組方向の検出において、平均値、
平均高さを求める代わりにそれぞれの最多値を求めるこ
とによって代替えすることができる。また、段落毎に組
方向を再度確認すれば、縦書き文章と横書き文章が混在
の原稿にも正確に処理を行うことができる。そして、最
初から一定の組方向の文章しか入力しないならば、組方
向を固定値とすることでこの検出処理を代替えすること
ができる。 ステップS206 次に、見出し類検出部205において、組方向と文字サ
イズとから見出し類を検出する。図9に示すフローチャ
ートに示すように、縦書きの場合を例に取り(ステップ
S901)、矩形をサーチし(ステップS902)、本
文矩形の中から(ステップS904のYES)、矩形の
幅Wが文字サイズwの閾値Tm1倍以上大きい矩形を見
出し矩形の候補として検出する(ステップS905)。
そして、矩形の高さHが文字サイズwの閾値Tm2倍よ
りも小さい場合は(ステップS906のYES)、横書
きの文字が連続したものとみなし見出し類とする(ステ
ップS908)。
In the detection of the set direction, the average value,
Instead of obtaining the average height, it is possible to substitute by obtaining each maximum value. Further, if the set direction is confirmed again for each paragraph, it is possible to accurately process a document in which vertical writing and horizontal writing are mixed. Then, if only the text of a fixed set direction is input from the beginning, this detection process can be replaced by setting the set direction to a fixed value. Step S206 Next, the headlines detecting unit 205 detects headlines from the set direction and the character size. As shown in the flowchart of FIG. 9, taking the case of vertical writing as an example (step S901), a rectangle is searched (step S902), and from the body rectangle (YES in step S904), the width W of the rectangle is a character. A rectangle larger than the threshold value Tm1 times the size w is detected as a candidate for a header rectangle (step S905).
Then, when the height H of the rectangle is smaller than the threshold value Tm2 times the character size w (YES in step S906), the horizontally written characters are considered to be continuous and are regarded as headings (step S908).

【0032】また、以上のようにして矩形の大きさから
見出しとみなした矩形の中には本文の文字が結合してし
まったものを含む場合があるので、本文矩形と見出し矩
形の距離が閾値T1よりも近いもの(ステップS907
のYES)では、見出し類から本文に訂正する(ステッ
プS909)。
Further, since the rectangles regarded as the headings from the size of the rectangles as described above may include those in which the characters of the body are combined, the distance between the body rectangle and the heading rectangle is a threshold value. Closer than T1 (step S907
If YES), the heading is corrected to the text (step S909).

【0033】更に、上述の処理によって残った本文矩形
の中で、文字サイズwの範囲に本文及び見出し類の矩形
がないものを孤立した矩形として見出しとする(ステッ
プS910〜S913)。
Further, among the body rectangles remaining by the above-described processing, the body rectangles having no body and heading rectangles within the character size w are set as isolated rectangles (steps S910 to S913).

【0034】尚、この見出し類検出において、最初から
見出し類のない画像しか入力しないならば、この検出処
理を省略することも可能である。 ステップS207 次に、矩形の合併部206において、何の関連もなくば
らばらに存在したままの本文に該当する矩形および見出
し類の矩形を合併する。
In the heading detection, if only an image having no heading is input from the beginning, this detection processing can be omitted. Step S207 Next, the rectangle merging unit 206 merges the rectangles corresponding to the texts that are present in a scattered manner without any relation and the rectangles of the headings.

【0035】図10に示す矩形A1と矩形Bとの合併を
考えるとすると、矩形A1に対してX方向に対してP
x、Y方向に対してPyだけ拡張した仮想矩形A1′を
考え、A1′に対してその周囲に接触あるいは内包する
矩形があるか否かをサーチし、矩形Bのように接触して
いれば矩形A1と矩形Bを合併して新しく合併矩形A2
を作成し、矩形A1の矩形データを更新することで記憶
し、矩形Bのデータは無効とする。但し、この時Px,
Pyは文字サイズと行ピッチから求めた値であり、また
矩形を合併してできた矩形が図形や表やセパレータ等と
接触する場合は、合併すること自体を無効として元の矩
形のままとしておく。
Considering the combination of the rectangle A1 and the rectangle B shown in FIG. 10, P with respect to the X direction with respect to the rectangle A1.
Consider a virtual rectangle A1 'that is expanded by Py in the x and Y directions, search A1' for a rectangle that is in contact with or around it, and if it is in contact with a rectangle B, Rectangle A1 and rectangle B are merged to newly merge rectangle A2
Is created and stored by updating the rectangular data of the rectangle A1, and the data of the rectangle B is invalidated. However, at this time, Px,
Py is a value obtained from the character size and the line pitch, and when a rectangle formed by merging rectangles comes into contact with a figure, table, separator, etc., the merging itself is invalidated and the original rectangle remains as it is. .

【0036】このようにして、最初に見出し類同士を合
併し、次に本文矩形同士を合併していく。この時、本文
同志の合併では、図形、表、或いはセパレータとの接触
だけでなく見出し類との接触も避けるようにし、見出し
類と接触するようであれば、合併自体を無効として元の
矩形のままとしておく。
In this way, the headlines are first merged, and then the body rectangles are merged. At this time, when merging texts with each other, avoid contact with not only figures, tables, or separators but also headings. If they come in contact with headings, the merger itself is invalidated and the original rectangle Leave it alone.

【0037】また、この矩形の合併において、図11に
示すように、セパレータ等の矩形と接触した場合、更に
実際の間引いた画素とも接触しているか否かを確認し、
接触していなければ合併を実行することで、傾斜した画
像にも対処できる。
Further, in this merged rectangle, as shown in FIG. 11, when a rectangle such as a separator is contacted, it is further confirmed whether or not it is also in contact with a thinned pixel.
If they are not touching, then a merged image can also be used to handle tilted images.

【0038】更に、画像の間引き処理を省略できるよう
な画素数の少ない画像の時は、この合併処理を省略する
ことも可能である。
Further, in the case of an image having a small number of pixels such that the image thinning process can be omitted, this merging process can be omitted.

【0039】上述のように、入力画像の間引き後に、更
にラベリングを用いて矩形データに変換して文字領域、
図形、写真、表、セパレータ、見出し類等の領域に分割
することで、既存の電子部品、回路等の変更なしに、処
理時間の短縮、記憶領域等の小規模化、複雑な領域の構
成の分割精度の向上等が得られる効果がある。 ステップS208 次に、順序付け部105において、見出し、本文段落に
順序を付ける。以下、順序付けについて詳細に説明す
る。図12は、実施の形態における順序付け処理を示す
フローチャートである。
As described above, after thinning the input image, the data is converted into rectangular data by using the labeling, and the character area,
By dividing into areas such as figures, photographs, tables, separators, headings, etc., the processing time can be shortened, the storage area can be downsized, and the complicated area configuration can be performed without changing existing electronic parts, circuits, etc. This has an effect of improving the division accuracy. Step S208 Next, the ordering unit 105 orders the headings and body paragraphs. Hereinafter, the ordering will be described in detail. FIG. 12 is a flowchart showing the ordering process in the embodiment.

【0040】図13は、領域分割によって抽出された文
章、セパレータを示している。図において、1306は
スキャナ等から入力した手書きの原稿画像である。13
01〜1305は、領域分割によって抽出された文章領
域である。 ◎ ステップS1201 まず、マウスによってグループ指定を行う。例えば、図
13に示す1301,1302を一つのグループg1と
し、1304,1305,1303をグループg2のよ
うにグループ指定を行う(図14参照)。この場合、マ
ウス等により、原稿画像1306上をドラックさせ、矩
形領域を指定し、その領域が1301,1302のそれ
ぞれ一部が含まれるようにすることで、領域1301,
1302を一つのグループとして指定する。また同様
に、1304,1305,1303も指定する。 ◎ ステップS1202 グループ内の領域ID、その領域の重心座標、対角座標
を記憶部103に格納する。ここで、図15は、本文段
落の領域に対する重心座標(Jnx,Jny)と、対角
点(Lnx,Lny)−(Rnx,Rny)を表した図
である。ここで、重心座標は、以下の式によって求めら
れる。
FIG. 13 shows sentences and separators extracted by the area division. In the figure, reference numeral 1306 is a handwritten document image input from a scanner or the like. Thirteen
01 to 1305 are text areas extracted by area division. ◎ Step S1201 First, a group is designated by the mouse. For example, 1301 and 1302 shown in FIG. 13 are set as one group g1, and 1304, 1305, and 1303 are designated as a group g2 (see FIG. 14). In this case, by dragging the original image 1306 on the original image 1306 with a mouse or the like and designating a rectangular area so that each of the areas 1301 and 1302 is partially included, the area 1301,
1302 is designated as one group. Similarly, 1304, 1305, and 1303 are also designated. Step S1202 The area ID in the group, the barycentric coordinates of the area, and the diagonal coordinates are stored in the storage unit 103. Here, FIG. 15 is a diagram showing the barycentric coordinates (Jnx, Jny) and the diagonal point (Lnx, Lny)-(Rnx, Rny) for the area of the text paragraph. Here, the barycentric coordinates are obtained by the following formula.

【0041】Jnx=(Lnx+Rnx)/2 Jny=(Lny+Rny)/2 ◎ ステップS1203 グループ指定が終わったなら、ステップS1204へ進
む。まだグループ指定する領域があるならステップS1
201を実行する。 ◎ ステップS1204 横書きかどうかで分岐する。この例では、縦書きなの
で、ステップS1208へ進む。 ◎ ステップS1208 グループ内で重心座標を比較し、縦書き文章向けに文章
段落の順序付けする。順序付けの方法として、左下を原
点座標とするデカルト座標系において、上述のステップ
S1202で記憶部に格納された各領域IDに1対1対
応している重心座標におけるY座標の大きいものから、
またY座標が同じものであれば、X座標の大きいものか
ら順序付けをする。つまり、右上の座標から順序付け
し、各領域IDに対応するように順序を示す自然数を記
憶部に格納する。 ◎ ステップS1209 グループのすべてが順序付けされるまでステップS12
08を実行する。ここで、順序付けられた結果は図16
に示すようになる。グループg1内では、連続した順序
1,2が付けられ、またグループg2内では、連続した
順序3,4,5が付けられる。 ◎ ステップS1210 グループ指定されなかった本文段落の領域に対し、縦書
き文章向けに文章段落の順序付けをする。順序付けの方
法は、ステップS1208と同様である。 ◎ ステップS1205 グループ内で重心座標を比較し、横書き文章向けに文章
段落の順序付けする。順序付けの方法として、左下を原
点座標とするデカルト座標系において、上述のステップ
S1202で記憶部に格納された各領域IDに1対1対
応している重心座標におけるY座標の大きいものから、
またY座標が同じものであれば、X座標の小さいものか
ら順序付けをする。つまり、左上の座標から順序付け
し、各領域IDに対応するように順序を示す自然数を記
憶部に格納する。 ◎ ステップS1206 グループのすべてが順序付けされるまでステップS12
05を実行する。 ◎ ステップS1207 グループ指定されなかった本文段落の領域に対し、横書
き文章向けに文章段落の順序付けをする。順序付けの方
法は、ステップS1205と同様である。
Jnx = (Lnx + Rnx) / 2 Jny = (Lny + Rny) / 2 ⋅ Step S1203 When the group designation is completed, the process proceeds to step S1204. If there is still an area to be designated as a group, step S1
Execute 201. ◎ Step S1204 Branch depending on whether or not horizontal writing. In this example, since it is written vertically, the process proceeds to step S1208. Step S1208 The barycentric coordinates are compared within the group, and the sentence paragraphs are ordered for the vertically written sentence. As the ordering method, in the Cartesian coordinate system with the lower left corner as the origin coordinate, the Y coordinate in the barycentric coordinate having a one-to-one correspondence with each region ID stored in the storage unit in step S1202 described above is larger,
If the Y-coordinates are the same, the X-coordinates are ordered in descending order. That is, the coordinates are ordered from the upper right coordinates, and a natural number indicating the order is stored in the storage unit so as to correspond to each area ID. ◎ Step S1209 Step S12 until all the groups are ordered.
08 is executed. Here, the ordered result is shown in FIG.
It becomes as shown in. Within the group g1, consecutive orders 1 and 2 are attached, and within the group g2, consecutive orders 3, 4, and 5 are attached. Step S1210 The text paragraphs for the vertically written text are ordered in the text paragraph areas that are not designated as a group. The ordering method is the same as step S1208. ◎ Step S1205 The barycentric coordinates are compared within the group, and the sentence paragraphs are ordered for the horizontally written sentence. As the ordering method, in the Cartesian coordinate system with the lower left corner as the origin coordinate, the Y coordinate in the barycentric coordinate having a one-to-one correspondence with each region ID stored in the storage unit in step S1202 described above is larger,
If the Y coordinates are the same, the smaller X coordinates are ordered. That is, the coordinates are ordered from the upper left coordinate, and the natural number indicating the order is stored in the storage unit so as to correspond to each area ID. ◎ Step S1206 Step S12 until all of the groups are ordered.
Execute 05. (Step S1207) The text paragraphs are ordered for the horizontally written text in the text paragraph areas that are not designated as a group. The ordering method is the same as step S1205.

【0042】以上でステップS208を終了する。 ステップS209 最後に、以上の処理によって求めた各種領域の矩形デー
タを画像データと共に出力部104から外部へ出力す
る。
Thus, step S208 is completed. Step S209 Finally, the rectangular data of various areas obtained by the above processing is output from the output unit 104 to the outside together with the image data.

【0043】また、各種領域の矩形データを参照して、
必要な領域の画像データのみを出力することも可能であ
り、これにより記憶領域の更なる縮小や、処理時間の更
なる短縮が図れる。
Further, referring to the rectangular data of various areas,
It is also possible to output only the image data of the necessary area, which allows the storage area to be further reduced and the processing time to be further shortened.

【0044】以上説明したように、第1の実施例によれ
ば、記事が複数の本文段落から構成される場合でも、他
の記事と入り混じることなく正しく順序付けを行い、本
文の文章の流を乱すことが無いので、ユーザの修正の手
間が無くなる。
As described above, according to the first embodiment, even if an article is composed of a plurality of text paragraphs, the articles are properly ordered without being mixed with other articles and the flow of the text of the text is kept. Since there is no disturbance, the user does not have to make corrections.

【0045】[他の実施の形態]次に、本発明に係る他
の実施の形態を詳細に説明する。
[Other Embodiments] Next, other embodiments of the present invention will be described in detail.

【0046】尚、他の実施の形態における文字認識装置
の構成は、図1に示す実施の形態と同様である。
The configuration of the character recognition device in another embodiment is the same as that of the embodiment shown in FIG.

【0047】図17は、図12に示すステップS120
1のマウスによるグループ指定方法を改善した処理を表
すフローチャートである。
FIG. 17 shows the step S120 shown in FIG.
7 is a flowchart showing a process in which the group designation method using the mouse 1 is improved.

【0048】まず、ステップS1701でマウスのドラ
ックにより、文章段落を範囲指定し、グループの指定を
する。図18は、例として入力原稿を領域分割によって
抽出された文章及びセパレータを示す図である。図19
は、図18の文章をステップS1201によりグループ
指定した結果を示す図である。この例では、1901と
1902を同一のグループg1にする。ステップS17
01において、図19のように、1901をグループ指
定する。そのグループをg1とする。
First, in step S1701, the range of text paragraphs is specified and the group is specified by dragging the mouse. FIG. 18 is a diagram showing a sentence and a separator extracted from an input document by area division as an example. FIG.
FIG. 19 is a diagram showing a result of group designation of the text of FIG. 18 in step S1201. In this example, 1901 and 1902 are in the same group g1. Step S17
In 01, 1901 is designated as a group as shown in FIG. Let the group be g1.

【0049】次に、ステップS1702で他にもグルー
プg1に追加するブロックがあればステップS1703
へ進む。また、なければステップS1202の処理に移
る。図19の例では、1903もグループg1に追加す
るので、ステップS1703へ進み、SHIFTキーを
押しながらマウスをドラックし、1903を範囲指定す
る。
Next, if there is another block to be added to the group g1 in step S1702, step S1703.
Proceed to. If not, the process proceeds to step S1202. In the example of FIG. 19, 1903 is also added to the group g1, so the flow advances to step S1703 to drag the mouse while pressing the SHIFT key to specify the range of 1903.

【0050】また図20は、図12に示すステップS1
201のマウスによるグループ指定方法を更に改善した
処理を表すフローチャートである。
Further, FIG. 20 shows step S1 shown in FIG.
20 is a flowchart showing a process in which the mouse group designation method of 201 is further improved.

【0051】まず、ステップS2001でマウスのドラ
ック又はクリックにより、文章段落を範囲指定し、グル
ープの指定をする。入力原稿を領域分割によって抽出さ
れた文章及びセパレータの例として、図18、図19を
用いる。この原稿例の場合、マウスのドラックにより、
1901と1902を範囲指定し同一のグループg1に
する。
First, in step S2001, by dragging or clicking the mouse, a range of text paragraphs is designated and a group is designated. 18 and 19 are used as examples of sentences and separators extracted from the input document by area division. In the case of this manuscript example, by dragging the mouse,
1901 and 1902 are designated as a range and are set to the same group g1.

【0052】次に、ステップS2002で他にもグルー
プg1に追加するブロックがあればステップS2003
へ進む。また、なければステップS1202の処理に移
る。図19の例では、1903もグループg1に追加す
るので、ステップS2003へ進み、SHIFTキーを
押しながらマウスをクリックし、1903を範囲指定す
る。
Next, if there is another block to be added to the group g1 in step S2002, step S2003.
Proceed to. If not, the process proceeds to step S1202. In the example of FIG. 19, 1903 is also added to the group g1, so the process advances to step S2003, the mouse is clicked while the SHIFT key is held down, and the range of 1903 is designated.

【0053】このように、他の実施の形態においても、
前述した実施の形態と同様の作用、効果を得ることがで
きる。
As described above, also in the other embodiments,
It is possible to obtain the same operation and effect as those of the above-described embodiment.

【0054】尚、本発明は『ホストコンピュータ、イン
タフェース、プリンタ等の』複数の機器から構成される
システムに適用しても、『複写機等の』1つの機器から
なる装置に適用しても良い。また、本発明はシステム或
いは装置にプログラムを供給することによって実施され
る場合にも適用できることは言うまでもない。この場
合、本発明に係るプログラムを格納した記憶媒体が本発
明を構成することになる。そして、該記憶媒体からその
プログラムをシステム或いは装置に読み出すことによっ
て、そのシステム或いは装置が、予め定められた仕方で
動作する。
The present invention may be applied to a system composed of a plurality of devices "such as a host computer, an interface and a printer" or to an apparatus composed of a single device such as "a copying machine". . Further, it goes without saying that the present invention can be applied to the case where it is implemented by supplying a program to a system or an apparatus. In this case, the storage medium storing the program according to the present invention constitutes the present invention. Then, by reading the program into the system or device from the storage medium, the system or device operates in a predetermined manner.

【0055】[0055]

【発明の効果】以上説明したように本発明によれば、マ
ウス等でグループ指定することにより、新聞記事等、記
事が複数の本文段落から構成される場合でも、他の記事
と入り混じることなく正しく順序付けを行い、本文の文
章の流を乱すことがないので、ユーザの修正の手間がな
くなり、使い勝手を大きく向上させることができ、更に
修正をも含めた処理時間の短縮を図ることができる等の
効果がある。
As described above, according to the present invention, by specifying a group with a mouse or the like, even if an article is composed of a plurality of text paragraphs, such as a newspaper article, it does not mix with other articles. Since the ordering is done correctly and the flow of sentences in the text is not disturbed, the user's troublesome correction can be eliminated, the usability can be greatly improved, and the processing time including correction can be shortened. Has the effect of.

【0056】[0056]

【図面の簡単な説明】[Brief description of drawings]

【図1】本実施の形態における画像処理装置の構成を示
すブロック図である。
FIG. 1 is a block diagram showing a configuration of an image processing apparatus according to the present embodiment.

【図2】本実施の形態における画像処理を示すフローチ
ャートである。
FIG. 2 is a flowchart showing image processing according to the present embodiment.

【図3】図2に示すラベリング処理を説明するための図
である。
FIG. 3 is a diagram for explaining the labeling process shown in FIG.

【図4】記憶部に記憶される矩形データの構造を示す図
である。
FIG. 4 is a diagram showing a structure of rectangular data stored in a storage unit.

【図5】図2に示すセパレータ等の検出処理を示すフロ
ーチャートである。
5 is a flowchart showing a detection process of the separator and the like shown in FIG.

【図6】矩形(領域)の属性の密度と面積での切り分け
を示す図である。
FIG. 6 is a diagram showing division of rectangular (region) attributes by density and area.

【図7】図2に示す組方向の検出処理を示すフローチャ
ートである。
FIG. 7 is a flowchart showing a detection process of a set direction shown in FIG.

【図8】段落の検出処理を説明するための図である。FIG. 8 is a diagram for explaining a paragraph detection process.

【図9】図2に示す見出し類の検出処理を示すフローチ
ャートである。
9 is a flowchart showing a process of detecting the headings shown in FIG.

【図10】図2に示す矩形の合併処理を示すフローチャ
ートである。
10 is a flowchart showing a process of merging the rectangles shown in FIG.

【図11】セパレータ矩形の合併処理を説明するための
図である。
FIG. 11 is a diagram for explaining a merging process of separator rectangles.

【図12】図2に示す順序付け処理を示すフローチャー
トである。
12 is a flowchart showing the ordering process shown in FIG.

【図13】領域分割処理によって取り出された文章段落
領域を示す図である。
FIG. 13 is a diagram showing a sentence paragraph area extracted by the area division processing.

【図14】マウスによりグループ指定された文章段落領
域を示す図である。
FIG. 14 is a diagram showing a sentence paragraph area designated by a group with a mouse.

【図15】重心座標と対角点座標を示す図である。FIG. 15 is a diagram showing barycentric coordinates and diagonal point coordinates.

【図16】順序付け処理により順序付けされた文章段落
領域を示す図である。
FIG. 16 is a diagram showing sentence paragraph areas ordered by an ordering process.

【図17】他の実施の形態におけるグループ指定処理を
示すフローチャートである。
FIG. 17 is a flowchart showing a group designation process in another embodiment.

【図18】領域分割処理によって取り出された文章段落
領域を示す図である。
FIG. 18 is a diagram showing a sentence paragraph area extracted by the area division processing.

【図19】マウスによりグループ指定された文章段落領
域を示す図である。
FIG. 19 is a diagram showing a sentence paragraph area designated by a group with a mouse.

【図20】他の実施の形態におけるグループ指定処理を
示すフローチャートである。
FIG. 20 is a flowchart showing a group designation process in another embodiment.

【符号の説明】[Explanation of symbols]

101 入力部 102 演算処理部(CPU) 103 記憶部 104 出力部 105 順序付け部 106 領域分割部 201 画像間引き部 202 ラベリング部 203 セパレータ等検出部 204 組方向検出部 205 見出し類検出部 206 矩形の合併部 101 input unit 102 arithmetic processing unit (CPU) 103 storage unit 104 output unit 105 ordering unit 106 region dividing unit 201 image thinning unit 202 labeling unit 203 separator detection unit 204 group direction detection unit 205 heading type detection unit 206 rectangular merged unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 画像を入力する入力手段と、 前記入力手段により入力された画像を所定領域に分割す
る領域分割手段と、 前記領域分割手段により分割された所定領域の順序付け
を行う順序付け手段とを有し、 前記領域分割手段は、複数の文章段落に分割することを
特徴とする画像処理装置。
1. Input means for inputting an image, area dividing means for dividing the image input by the input means into predetermined areas, and ordering means for ordering the predetermined areas divided by the area dividing means. An image processing apparatus, wherein the area dividing unit divides into a plurality of sentence paragraphs.
【請求項2】 前記順序付け手段は、分割された複数の
文章段落のグループ指定を行い、そのグループ内で順序
付けを行うことを特徴とする請求項1記載の画像処理装
置。
2. The image processing apparatus according to claim 1, wherein the ordering unit specifies a group of a plurality of divided text paragraphs and performs ordering within the group.
【請求項3】 前記グループ指定は、ポインティングデ
バイスにより指定されることを特徴とする請求項2記載
の画像処理装置。
3. The image processing apparatus according to claim 2, wherein the group designation is designated by a pointing device.
【請求項4】 画像を入力する入力工程と、 前記入力工程により入力された画像を所定領域に分割す
る領域分割工程と、 前記領域分割工程により分割された所定領域の順序付け
を行う順序付け工程とを有し、 前記領域分割工程は、複数の文章段落に分割することを
特徴とする画像処理方法。
4. An input step of inputting an image, an area dividing step of dividing the image input by the input step into predetermined areas, and an ordering step of ordering the predetermined areas divided by the area dividing step. The image processing method, wherein the area dividing step includes dividing into a plurality of sentence paragraphs.
【請求項5】 前記順序付け工程は、分割された複数の
文章段落のグループ指定を行い、そのグループ内で順序
付けを行うことを特徴とする請求項4記載の画像処理方
法。
5. The image processing method according to claim 4, wherein the ordering step specifies a group of a plurality of divided text paragraphs and performs ordering within the group.
【請求項6】 前記グループ指定は、ポインティングデ
バイスにより指定されることを特徴とする請求項5記載
の画像処理方法。
6. The image processing method according to claim 5, wherein the group designation is designated by a pointing device.
JP8079009A 1996-04-01 1996-04-01 Picture processor and method therefor Pending JPH09269944A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8079009A JPH09269944A (en) 1996-04-01 1996-04-01 Picture processor and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8079009A JPH09269944A (en) 1996-04-01 1996-04-01 Picture processor and method therefor

Publications (1)

Publication Number Publication Date
JPH09269944A true JPH09269944A (en) 1997-10-14

Family

ID=13677958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8079009A Pending JPH09269944A (en) 1996-04-01 1996-04-01 Picture processor and method therefor

Country Status (1)

Country Link
JP (1) JPH09269944A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251872A (en) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd Information processing device and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127266A (en) * 1990-09-19 1992-04-28 Just Syst Corp Document processor
JPH06203020A (en) * 1992-12-29 1994-07-22 Hitachi Ltd Method an device for recognizing and generating text format

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127266A (en) * 1990-09-19 1992-04-28 Just Syst Corp Document processor
JPH06203020A (en) * 1992-12-29 1994-07-22 Hitachi Ltd Method an device for recognizing and generating text format

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251872A (en) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd Information processing device and information processing program

Similar Documents

Publication Publication Date Title
US5907631A (en) Document image processing method and system having function of determining body text region reading order
US7203903B1 (en) System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JP3345224B2 (en) Pattern extraction device, pattern re-recognition table creation device, and pattern recognition device
JPS61267177A (en) Retrieving system for document picture information
WO2020248497A1 (en) Picture scanning document processing method and apparatus, computer device, and storage medium
JPH0652354A (en) Skew correcting method, skew angle detecting method, document segmentation system and skew angle detector
US5509092A (en) Method and apparatus for generating information on recognized characters
JPS63268081A (en) Method and apparatus for recognizing character of document
JP2008146496A (en) Image processor, its control method, program
EP1017011A2 (en) Block selection of table features
JP4704601B2 (en) Character recognition method, program, and recording medium
JP2010123002A (en) Document image layout device
JP2000235619A (en) Surface image processor and its program storage medium
JP2007058304A (en) Character recognition device and character recognition method
KR101903617B1 (en) Method for editing static digital combined images comprising images of multiple objects
JPH1173475A (en) Row direction deciding device, image tilt detecting device, and image tilt correcting device
JP6322086B2 (en) Display control device, display device, program, recording medium
JPH09269944A (en) Picture processor and method therefor
CN116468004A (en) Facilitating identification of fillable regions in a form
JP3172498B2 (en) Image recognition feature value extraction method and apparatus, storage medium for storing image analysis program
JPH0696275A (en) Image processor
JP2022090469A (en) Format defining device, format defining method, and program
JP6152633B2 (en) Display control apparatus and program
JP2006277149A (en) Character and image segmentation device, character and image segmentation method, and program
JPH05151388A (en) Designating system for processing area and processing condition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050829