JPH09146947A - Method and device for sequencing character area - Google Patents

Method and device for sequencing character area

Info

Publication number
JPH09146947A
JPH09146947A JP7298236A JP29823695A JPH09146947A JP H09146947 A JPH09146947 A JP H09146947A JP 7298236 A JP7298236 A JP 7298236A JP 29823695 A JP29823695 A JP 29823695A JP H09146947 A JPH09146947 A JP H09146947A
Authority
JP
Japan
Prior art keywords
character area
character
footer
area
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7298236A
Other languages
Japanese (ja)
Inventor
Tadanori Nakatsuka
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7298236A priority Critical patent/JPH09146947A/en
Publication of JPH09146947A publication Critical patent/JPH09146947A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To make the passage of the document of a main body based upon, for example, a character recognition result normal by setting the processing order of a footer part to the least. SOLUTION: A document image is inputted and individual character areas are extracted. A character area which is a footer is extracted from the individual extracted character areas (S11). Then, the character areas other than the footer are also given processing order (S12), and the character area judged to be the footer is given order lastly.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、原稿画像中の文字
領域を抽出し、当該抽出した文字領域に対して処理順序
を設定する文字領域の順序付け方法及び装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character area ordering method and apparatus for extracting a character area in a document image and setting a processing order for the extracted character area.

【0002】[0002]

【従来の技術】一般に、文書画像を光学的に読み取り、
文字認識する装置の場合、文章の流れに沿って認識処理
を行うことが必要になる。
2. Description of the Related Art Generally, a document image is optically read,
In the case of a character recognition device, it is necessary to perform recognition processing along the flow of sentences.

【0003】入力した文書が1カラムのみの場合には問
題はないが、2カラム、例えば同一ページ内で左欄と右
欄に分けて文章が記述されている場合には、カラム単位
に文字認識する必要がある。
There is no problem when the input document has only one column, but when the text is described in two columns, for example, in the left page and the right field in the same page, character recognition is performed in column units. There is a need to.

【0004】[0004]

【発明が解決しようとする課題】ところが、昨今では、
図3に示すように、原稿中にフッタ(図示ではページ番
号)を設けることが良くある。この場合は、フッタが本
文とが区別できずに(フッタが本文として解釈される)
文字認識してしまうので、本文としての流れが正常には
ならない。
[Problems to be Solved by the Invention] However, recently,
As shown in FIG. 3, a footer (page number in the figure) is often provided in the document. In this case, the footer cannot be distinguished from the text (the footer is interpreted as the text)
Since the characters are recognized, the flow of the text does not become normal.

【0005】[0005]

【課題を解決するための手段】本発明はフッタ部分に関
しては、その処理順序を原稿画像の他の文字領域の最後
にし、上記問題点を解決する文字領域の順序付け方法及
び装置を提供しようとするものである。
SUMMARY OF THE INVENTION The present invention intends to provide a character area ordering method and apparatus which solves the above problems by making the processing order of the footer part the last of the other character areas of the original image. It is a thing.

【0006】かかる課題を解決するため、例えば本発明
の文字領域の順序付け方法は以下に示す工程を備える。
すなわち、原稿画像中の文字領域を抽出し、当該抽出し
た文字領域に対して処理順序を設定する文字領域の順序
付け方法であって、抽出された個々の文字領域の中のフ
ッタ文字領域を識別する識別工程と、該識別工程で識別
されたフッタ領域に対しては、他の文字領域より後に処
理順番を設定する設定工程とを備える。
In order to solve such a problem, for example, the character area ordering method of the present invention includes the following steps.
That is, a method for ordering character areas in which a character area in a document image is extracted and a processing order is set for the extracted character area, and a footer character area in each extracted character area is identified. An identification step and a setting step of setting the processing order for the footer area identified in the identification step after the other character areas are provided.

【0007】ここで本発明の好適な実施形態に従えば、
前記識別工程は、注目文字領域が原稿画像中の所定位置
より下方に位置するかを判定する工程を含み、当該判定
工程によって前記所定位置より下方に位置する場合に注
目文字領域をフッタ文字領域として識別することが望ま
しい。これによって、原稿画像中の下方に位置する文字
領域をフッタとして判定することが可能になる。
According to a preferred embodiment of the present invention,
The identifying step includes a step of determining whether the target character area is located below a predetermined position in the original image. When the target character area is located below the predetermined position in the determination step, the target character area is set as a footer character area. It is desirable to identify. This makes it possible to determine the character region located in the lower part of the document image as a footer.

【0008】また、前記識別工程は、更に、注目文字領
域が1行のみの文字列で構成されているか否かを判定す
る工程を含み、1行のみの文字列であると判定した場合
に注目文字領域をフッタ文字領域として識別することが
望ましい。これによって、フッタより高い精度で判定す
ることが可能になる。
Further, the identifying step further includes a step of determining whether or not the target character area is composed of a character string having only one line, and when the character string is determined to be a character string having only one line. It is desirable to identify character areas as footer character areas. This makes it possible to make a determination with higher accuracy than the footer.

【0009】また、前記識別工程は、更に、注目文字領
域が横書き或いは横長を判定する工程を含み、横書き或
いは横長であると判定した場合に注目文字領域をフッタ
文字領域として識別することが望ましい。これによっ
て、フッタより高い精度で判定することが可能になる。
Further, it is preferable that the identifying step further includes a step of determining whether the target character area is horizontally written or horizontally long, and when it is determined that the target character area is horizontally written or horizontally long, the target character area is identified as a footer character area. This makes it possible to make a determination with higher accuracy than the footer.

【0010】また、前記識別工程は、更に、注目文字領
域の下方に他の文字領域が存在するか否かを判定する工
程を含み、下方に他の文字領域がないと判定した場合に
注目文字領域をフッタ文字領域として識別することが望
ましい。これによって、フッタより高い精度で判定する
ことが可能になる。
The identifying step further includes a step of determining whether or not another character area exists below the target character area, and when it is determined that there is no other character area below the target character area, the target character area is determined. It is desirable to identify the area as a footer character area. This makes it possible to make a determination with higher accuracy than the footer.

【0011】また、前記識別工程は、更に、注目文字領
域が他の線画に含まれるか否かを判定する工程を含み、
他の線画に含まれる場合には注目文字領域を非フッタ文
字領域として識別することが望ましい。これによって、
フッタより高い精度で判定することが可能になる。
The identifying step further includes a step of determining whether or not the target character area is included in another line drawing,
When included in another line drawing, it is desirable to identify the focused character area as a non-footer character area. by this,
It is possible to make a determination with higher accuracy than the footer.

【0012】また、更に、前記設定工程で設定された順
序に従って、個々の文字領域内の文字画像を認識する文
字認識工程を備えることが望ましい。これによって、文
字認識した結果の文章の流れが、自然な状態とさせるこ
とが可能になる。
Furthermore, it is desirable to further include a character recognition step of recognizing a character image in each character area according to the order set in the setting step. This makes it possible to make the flow of sentences resulting from character recognition a natural state.

【0013】[0013]

【発明の実施の形態】以下、添付図面に従って本発明に
係る実施形態の一例を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An example of an embodiment according to the present invention will be described in detail below with reference to the accompanying drawings.

【0014】[第1の実施形態]一般に、原稿画像を読
み取り、その読み取った原稿画像中の文字を認識する場
合には、先ず、文字が存在する領域を判定する。
[First Embodiment] Generally, when reading a document image and recognizing a character in the read document image, first, an area in which the character exists is determined.

【0015】文字が存在する領域の判定には、様々な手
法がある。例えば、原稿画像を低解像度でプリスキャン
して読み取ることで、文字がつぶれ、隣接する文字パタ
ーンと接続されるようにする。そして、その領域に外接
する矩形を求め、原稿画像を本来の高解像度で読み取
り、決定された矩形に併せて文字領域のビットマップデ
ータを抽出する。このあとは、水平及び垂直方向にドッ
トのヒストグラムを作成し、個々の文字の存在位置及び
大きさを検出し、それでもって切出されたビットマップ
パターンを文字認識処理に渡す、という手法がある。
There are various methods for determining the area where a character exists. For example, a document image is pre-scanned and read at a low resolution so that characters are crushed and are connected to adjacent character patterns. Then, a rectangle circumscribing the area is obtained, the original image is read at the original high resolution, and the bitmap data of the character area is extracted along with the determined rectangle. After this, there is a method of creating a histogram of dots in the horizontal and vertical directions, detecting the existence position and size of each character, and passing the bitmap pattern cut out accordingly to the character recognition processing.

【0016】尚、プリスキャンせずに、読み取った画像
データ中の“1”のドットを上下左右(及び斜め)方向
に膨らませて、結果的に低解像度画像を形成する手法
や、読み取った画像中のn×m画素ブロック内に1つで
も“1”があった場合に、n×mを1ドットとして低解
像度の画像データを新規に作成する手法もある。
It should be noted that, without pre-scanning, a method of forming a low resolution image by expanding the "1" dots in the read image data in the vertical and horizontal (and diagonal) directions, and in the read image There is also a method of newly creating low-resolution image data with n × m as one dot when at least one “1” is present in the n × m pixel block.

【0017】本実施形態は、いずれの手法でも良いし、
この手法の選択によって本願発明が限定されるものでは
ない。
This embodiment may use any method,
The present invention is not limited by the selection of this method.

【0018】図9に実施形態における文字認識装置のブ
ロック構成図を示す。図示において、1は装置全体の制
御を司るCPU、2はブートプログラム等を記憶してい
るROM、3はCPU1が実行するプログラム、読み取
った画像等を展開したり、CPU1のワークエリアとし
て使用するRAMである。4はキーボードやポインティ
ングデバイス等で構成される入力装置である。
FIG. 9 shows a block diagram of the character recognition apparatus in the embodiment. In the figure, 1 is a CPU that controls the entire apparatus, 2 is a ROM that stores a boot program and the like, 3 is a RAM that is used by the CPU 1 to develop a program executed by the CPU 1, read images, etc. Is. An input device 4 is composed of a keyboard, a pointing device, and the like.

【0019】5は原稿画像を読み取るイメージスキャナ
であり、6はイメージスキャナで読み取られた画像デー
タを本装置内部に取り込むためのインタフェースであ
る。7はハードディスク装置等の外部記憶装置であり、
オペレーティングシステム(OS)や、後述する各フロ
ーチャートに対応するプログラム、更には文字認識に使
用される辞書及び該当するプログラムを記憶している。
8は表示画面に表示する画像を展開するVRAMであ
り、9はVRAM8に展開された画像を表示する表示装
置である。
Reference numeral 5 is an image scanner for reading the original image, and 6 is an interface for taking in the image data read by the image scanner into the inside of the apparatus. 7 is an external storage device such as a hard disk device,
It stores an operating system (OS), programs corresponding to each flowchart described later, a dictionary used for character recognition, and a corresponding program.
Reference numeral 8 is a VRAM that expands an image displayed on the display screen, and 9 is a display device that displays the image expanded in the VRAM 8.

【0020】上記構成において、本装置に電源が投入さ
れると、CPU1はROM2内のブートプログラムに従
って外部記憶装置7からOSプログラムを読み出して本
装置を稼動状態にさせる。ついで、操作者の指示により
(或いは、自動的でも良い)、文字認識プログラムがR
AM3にロードされることになる。
In the above structure, when the power of the device is turned on, the CPU 1 reads the OS program from the external storage device 7 in accordance with the boot program in the ROM 2 and puts the device into an operating state. Then, according to the operator's instruction (or it may be automatic),
It will be loaded into AM3.

【0021】さて、本実施形態では、文字認識プログラ
ムが起動され、その中で原稿画像(図2の符号21)を
読み取り指示を受けてイメージスキャナ5からインタフ
ェース6を介して画像が読み込まれ、各文字領域(図2
の符号22、23)が判定されると、図1に示す手順に
従って処理が行われる。
In the present embodiment, the character recognition program is activated, and an image is read from the image scanner 5 via the interface 6 in response to an instruction to read the original image (21 in FIG. 2). Character area (Fig. 2
22), the process is performed according to the procedure shown in FIG.

【0022】先ず、ステップS11で、文字領域の中か
ら、フッタの文字領域を取り出し、ステップS12でフ
ッタ以外の文字領域に順序を付ける。そして、ステップ
S13で、最後の文字領域の次の順番位置にフッタの文
字領域を割当てる。
First, in step S11, the character area of the footer is extracted from the character area, and the character areas other than the footer are ordered in step S12. Then, in step S13, the footer character area is assigned to the next sequential position of the last character area.

【0023】ステップS11におけるフッタの文字領域
の取り出し処理を、図5のフローチャートに従って説明
する。
The extraction processing of the footer character area in step S11 will be described with reference to the flowchart of FIG.

【0024】先ず、ステップS51で、注目している文
字領域の位置が、原稿の下端から、原稿画像の高さの1
/n以内にあるかどうかを判断する。尚、nは原稿画像
の高さを等分する数であり、例えば原稿画像のサイズに
よって異なる。フッタは、原稿の下端に設けられるの
で、ここでは、その位置に注目文字領域があるかどうか
を判断していることになる。
First, in step S51, the position of the focused character area is 1 from the bottom of the document to the height of the document image.
Judge whether or not it is within / n. Note that n is a number that divides the height of the original image into equal parts, and differs depending on, for example, the size of the original image. Since the footer is provided at the lower end of the document, it is determined here whether or not there is a focused character area at that position.

【0025】ここで、注目領域がこの条件を満足しない
場合には、注目文字領域はフッタではないと判断し、例
えば、各文字領域に設けられたフラグに、その領域がフ
ッタ以外である旨の情報をセットする(ステップS5
5)。
Here, if the attention area does not satisfy this condition, it is determined that the attention character area is not the footer, and, for example, a flag provided in each character area indicates that the area is other than the footer. Set information (step S5)
5).

【0026】また、注目文字領域が原稿画像の下端近傍
にあると判断した場合には、ステップS52に進み、そ
の文字領域が1行のみの文字列で構成されるかどうかを
判断する。行数の判定は、文字パターンの並び方向にド
ットのヒストグラムを取ることで判断できる。いずれに
せよ、2行以上の場合には、注目文字領域はフッタ以外
の文字領域として決定する(ステップS55)。
If it is determined that the character area of interest is near the lower end of the original image, the process proceeds to step S52, and it is determined whether the character area is composed of a character string having only one line. The number of lines can be determined by taking a histogram of dots in the arrangement direction of the character patterns. In any case, when there are two or more lines, the focused character area is determined as a character area other than the footer (step S55).

【0027】また、原稿の下端近傍にあって、しかも、
それが1行のみの文字列からなると判断した場合には、
ステップS53に進み、横書き或いは横長かを判断す
る。
Further, it is located near the lower end of the original and
If it is determined that it consists of a single line character string,
In step S53, it is determined whether the writing is horizontal or horizontal.

【0028】そして、この判断が“YES”の場合に
は、ステップS54に進み、注目文字領域はフッタとし
て判定する(フッタである旨をフラグに書き込む)。
If the result of this determination is "YES", then the flow proceeds to step S54, and the target character area is determined as a footer (the footer is written in the flag).

【0029】ステップS56では、全ての文字領域に対
して行ったか否かを判断し、否の場合にはステップS5
1に戻り、上記処理を繰り返すことになる。
In step S56, it is determined whether or not all the character areas have been processed. If not, step S5.
The process returns to 1 and the above process is repeated.

【0030】以上の結果、フッタ部分であると領域は、
図1の処理によって最後に位置付けられるので、文字認
識させた場合に、本文の途中にフッタ部分の認識結果が
挿入されることはなくなる。
As a result of the above, the area is the footer portion,
Since the character string is positioned last by the processing of FIG. 1, the recognition result of the footer portion is not inserted in the middle of the text when the character is recognized.

【0031】尚、説明が前後するが、原稿画像が2カラ
ムもしくはそれ以上で構成される場合、それぞれのカラ
ムを判別する手法自身は公知であり、例えば、原稿画像
の縦方向のドットのヒストグラムを作成することでカラ
ム間の区切りを検出すれば良い。
It should be noted that, before and after the explanation, when the original image is composed of two columns or more, the method itself for discriminating each column is known, and for example, a histogram of dots in the vertical direction of the original image is used. The delimiter between columns should be detected by creating it.

【0032】<第2の実施形態>上記第1の実施形態で
は、フッタ部分となる文字領域は1つの場合を想定して
説明したが、図7に示すごとく、符号72、73で示す
ように、2つ以上のフッタの文字列がある場合の処理例
を第2の実施形態として説明する。
<Second Embodiment> In the first embodiment, the description has been made on the assumption that there is one character area as the footer portion. However, as shown in FIG. A processing example when there are two or more footer character strings will be described as a second embodiment.

【0033】本第2の実施形態では、図6に示す順序付
け処理手順に従って各文字領域に対して順序付けを行
う。
In the second embodiment, the character areas are ordered in accordance with the ordering processing procedure shown in FIG.

【0034】ステップS61、62までは、先の第1の
実施形態と同じである。すなわち、文字領域の中からフ
ッタとなる領域を取り出し、フッタ以外の文字領域に順
序を付ける。
The steps up to steps S61 and S62 are the same as those in the first embodiment. That is, the area that becomes the footer is extracted from the character area, and the character areas other than the footer are ordered.

【0035】ステップS63では、フッタであると判定
された文字領域が複数ある場合、その座標位置に基づい
て、左側にあるものを優先順位を与え、フッタ以外の文
字領域の後に続ける。
In step S63, when there are a plurality of character areas determined to be footers, the one on the left side is given priority based on the coordinate position, and is continued after the character areas other than the footer.

【0036】この結果、図7に示すごとく、フッタ文字
領域72は、その順序番号が“11”、フッタ文字領域
73のそれは“12”となる。
As a result, as shown in FIG. 7, the sequence number of the footer character area 72 is "11" and that of the footer character area 73 is "12".

【0037】以上の如く、本題2の実施形態に従えば、
フッタ部分が複数ある場合に、自然な文字認識を行なわ
せることが可能になる。
As described above, according to the embodiment of the subject 2,
It is possible to perform natural character recognition when there are a plurality of footer portions.

【0038】<第3の実施形態>上記第1、第2の実施
形態では、先ず、フッタ部分を取り出し、その後でフッ
タ以外の文字領域を順序付けを行ない、その最後にフッ
タの文字領域を付加させたが、これによっても本願発明
が限定されるものではない。例えば、図8に示すように
処理しても構わない。
<Third Embodiment> In the first and second embodiments, first, the footer portion is taken out, then the character areas other than the footer are ordered, and the footer character area is added to the end. However, this does not limit the present invention. For example, the processing may be performed as shown in FIG.

【0039】先ず、ステップS81で、フッタを含む全
文字領域に順序を付ける。この後、ステップS82で、
各文字領域からフッタを取り出し、ステップS83で取
り出したフッタの順番を最後の順番に付けなおす。
First, in step S81, all character areas including the footer are ordered. After this, in step S82,
The footer is taken out from each character area, and the order of the footer taken out in step S83 is added to the last order.

【0040】以上の処理によっても同様の効果を得るこ
とが可能になる。
The same effect can be obtained by the above processing.

【0041】<第4の実施形態>上記実施形態では、フ
ッタの判定をその原稿の高さに基づいて判定したが、フ
ッタであるか否かの判定がこれによって限定されるもの
ではない。
<Fourth Embodiment> In the above embodiment, the footer is judged based on the height of the original, but the judgment as to whether the footer is a footer is not limited to this.

【0042】特に、上記実施形態では、原稿の高さの1
/nの位置を境界位置とし、それ以下の部分をフッタの
可能性があるとして判定した。しかしながら、例えば、
図15に示すごとく、境界位置が図示の符号102で示
す位置にあり、その下に本文の文字領域103が存在す
ると、その位置もフッタとして判定することになってし
まう。
In particular, in the above embodiment, the height of the document is 1
The position of / n was determined as the boundary position, and the portion below it was determined as the possibility of footer. However, for example,
As shown in FIG. 15, if the boundary position is at the position indicated by reference numeral 102 and the character area 103 of the text exists below the boundary position, that position is also determined as a footer.

【0043】そこで、第4の実施形態では、このような
場合であっても、図15における文字領域104がフッ
タとして判定する。尚、装置構成は図9と同様であるも
のとし、且つ、文字領域の抽出処理についても第1の実
施形態と同様であるものとし、その説明は省略する。
Therefore, in the fourth embodiment, even in such a case, the character area 104 in FIG. 15 is determined as a footer. Note that the device configuration is the same as that in FIG. 9, and the character region extraction processing is also the same as in the first embodiment, and a description thereof will be omitted.

【0044】図10は第4の実施形態におけるフッタ判
定処理のフローチャートであって、図5に代わるもので
ある。
FIG. 10 is a flowchart of the footer determination processing in the fourth embodiment, which is an alternative to FIG.

【0045】先ず、ステップS101では、1行のみの
文字領域か否かを判断する。1行のみであると判断した
場合には、ステップS102に進み、その文字領域は横
書きか或いは横長かを判定する。いずれかであると判断
した場合には、ステップS103に進み、注目している
文字領域の座標位置の下の領域(例えば注目文字領域が
図15における文字領域103である場合には、図示の
符号105の領域)に、他の文字領域があるかどうかを
判断する。
First, in step S101, it is determined whether the character area is only one line. If it is determined that there is only one line, the process proceeds to step S102, and it is determined whether the character area is horizontally written or horizontally long. If it is determined to be either, the process proceeds to step S103, and an area below the coordinate position of the focused character area (for example, when the focused character area is the character area 103 in FIG. It is determined whether there is another character area in the area 105).

【0046】この結果、注目文字領域が最も下に位置す
ることが判明したら、ステップS104において、注目
文字領域はフッタであると決定する。また、上記ステッ
プS101〜S103のいずれかの条件を満たさない場
合(例えば文字領域103の場合など)には、その文字
領域についてはフッタ以外の文字領域として判定する。
As a result, if it is determined that the target character area is located at the bottom, it is determined in step S104 that the target character area is the footer. If any of the conditions in steps S101 to S103 is not satisfied (for example, in the case of the character area 103), the character area is determined as a character area other than the footer.

【0047】こうして、全ての文字領域に対しての処理
が完了したことをステップS106で判断できるまで、
上記処理を繰り返す。
Thus, until it is determined in step S106 that the processing for all the character areas is completed,
The above process is repeated.

【0048】以上の結果、図15に示すような状況にあ
っても、文字領域104のみがフッタであると判断さ
れ、文字領域103はフッタ以外の文字領域(本文)と
して判定することが可能になる。
As a result, even in the situation as shown in FIG. 15, only the character area 104 is determined to be the footer, and the character area 103 can be determined as the character area (text) other than the footer. Become.

【0049】<第5の実施形態>上記第4の実施形態で
は、注目文字領域の下側(その文字領域と同じ幅で、そ
の下側の領域)に、他の文字領域があるかどうかで注目
文字領域がフッタであるかどうかを判断した。例えば、
原稿を読み込むとき、フッタ付き原稿であることをユー
ザがキーボード等で設定し、その設定があった場合に上
記第4の処理を行なえば問題はないものの、フッタがな
いにもかかわらず、フッタ有りとして文字認識させてし
まうと、本文の最下段の文字領域がフッタとして認識さ
れ、結果的にその認識結果は最後に位置することになっ
てしまう。の最後に認識結果がくる可能性も否定できな
い。
<Fifth Embodiment> In the fourth embodiment, whether or not there is another character area on the lower side (the area having the same width as the character area and the lower side) of the character area of interest. It was determined whether the focused character area was the footer. For example,
When a document is read, the user sets a document with a footer with a keyboard or the like, and if there is such a setting, there is no problem if there is no footer although there is no problem if the above-mentioned fourth processing is performed. When the character recognition is performed as, the character area at the bottom of the body is recognized as a footer, and as a result, the recognition result is positioned at the end. It cannot be denied that the recognition result may come at the end of.

【0050】そこで、本題5の実施形態では、図11の
ステップS111の如く、フッタか否かの判定条件に、
第1の実施形態と同様に、その位置情報を盛り込むこと
で解決した。
Therefore, in the embodiment of the present subject 5, as in step S111 of FIG.
As with the first embodiment, the problem is solved by including the position information.

【0051】他の部分は、第4の実施形態と同じである
ので、説明は省略する。
Since the other parts are the same as those in the fourth embodiment, the description thereof will be omitted.

【0052】以上の結果、第5の実施形態によれば、第
4の実施形態と比較して、フッタを正しく識別すること
が可能になる。
As a result, according to the fifth embodiment, it is possible to correctly identify the footer as compared with the fourth embodiment.

【0053】<第6の実施形態>第6の実施形態を説明
する。本第6の実施形態では、例えば図16や図17に
示すごとく、本文中に枠(例えば表等)112や122
があって、たまたまその表中の下側に位置するところに
文字領域113や123があった場合でも、その文字領
域113及び123をフッタと判定しないようにする。
また、矩形枠のみならず、例えば図18に示すごとく、
線画132内に文字領域133がある場合でも、その文
字領域133をフッタと判定しないようにする。
<Sixth Embodiment> A sixth embodiment will be described. In the sixth embodiment, as shown in, for example, FIGS. 16 and 17, frames (for example, tables) 112 and 122 are included in the text.
Therefore, even if it happens that the character areas 113 and 123 are located on the lower side of the table, the character areas 113 and 123 are not determined as footers.
In addition to the rectangular frame, for example, as shown in FIG.
Even if there is a character area 133 in the line drawing 132, the character area 133 is not determined as a footer.

【0054】以下、図12に第6の実施形態の処理手順
を示す。先の第5の実施形態と異なるのは、ステップS
124を追加した点である。
FIG. 12 shows the processing procedure of the sixth embodiment. The difference from the fifth embodiment is that step S
This is the point where 124 is added.

【0055】すなわち、注目文字領域がフレーム
(枠)、表、図形等の文字領域以外に属するか(内包さ
れるか)否かを判断条件にした点である。
That is, the condition is that whether or not the target character area belongs (is included) other than the character area such as a frame (frame), table, or figure.

【0056】尚、フレームや表、図形(これらを総称し
て線画という)か否かを判定するためには、例えばその
線画を構成しているドットの連続する外接矩形を検出
し、その外接矩形の大きさに対する黒ドット数の割合が
所定値以下であるかどうかなどの手法を使えばよい。
In order to determine whether a frame, a table, or a figure (these are collectively referred to as a line drawing), for example, a continuous circumscribing rectangle of dots forming the line drawing is detected and the circumscribing rectangle is determined. It suffices to use a method such as whether the ratio of the number of black dots to the size of is less than or equal to a predetermined value.

【0057】以上の結果、第6の実施形態によれば、線
画に含まれる文字が原稿画像の下段にあっても、その文
字列はフッタとは判断しない様にすることになり、本文
の認識結果の順序を正常にさせることが可能になる。
As a result, according to the sixth embodiment, even if the characters included in the line drawing are in the lower part of the original image, the character string is not judged to be the footer. It is possible to make the order of the results normal.

【0058】<第7の実施形態>また、図13のステッ
プS134(図12のステップS124と同じ)を、図
10に追加することでも、第6の実施形態と同様の作用
効果を得ることが可能になる。
<Seventh Embodiment> Further, by adding step S134 of FIG. 13 (the same as step S124 of FIG. 12) to FIG. 10, the same operational effect as that of the sixth embodiment can be obtained. It will be possible.

【0059】<第8の実施形態>また、図14に示すご
とく、第6、第7の実施形態での処理を統合しても良
い。この場合には、更に精度良くフッタとそうでない文
字領域とを区別できるようになる。
<Eighth Embodiment> Further, as shown in FIG. 14, the processes in the sixth and seventh embodiments may be integrated. In this case, it is possible to more accurately distinguish the footer from the character area that does not.

【0060】以上説明したように、本第1〜第8の実施
形態に従えば、原稿画像中のフッタ部分を識別できる。
また、識別できたフッタ部分の文字認識処理する順番
を、本文の後にするので、少なくとも認識結果である本
文における文章の流れを自然な状態にさせることが可能
になる。
As described above, according to the first to eighth embodiments, the footer portion in the original image can be identified.
Further, since the character recognition processing of the identified footer portion is performed after the text, it is possible to at least make the flow of text in the text that is the recognition result natural.

【0061】尚、本発明は、複数の機器(例えばホスト
コンピュータ、インターフェース機器、リーダ、プリン
タ等)から構成されるシステムに適用しても、1つの機
器からなる装置(例えば複写機、ファクシミリ等)に適
用しても良い。
Even when the present invention is applied to a system composed of a plurality of devices (eg, host computer, interface device, reader, printer, etc.), a device composed of one device (eg, copier, facsimile, etc.) May be applied to.

【0062】また、本発明の目的は、上述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
憶した記憶媒体を、システム或いは装置に供給し、その
システム或いは装置のコンピュータ(またはCPUやM
PU)が記憶媒体に格納されたプログラムコードを読出
して実行することによっても、達成されることは言うま
でのもない。
Further, an object of the present invention is to supply a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or apparatus, and to supply the computer (or CPU or M of the system or apparatus).
It goes without saying that it is also achieved by the PU) reading and executing the program code stored in the storage medium.

【0063】この場合、記憶媒体から読み出されたプロ
グラムコード自体が本発明の新規な機能を実現すること
になり、そのプログラムコードを記憶した記憶媒体は本
発明を構成することになる。
In this case, the program code itself read from the storage medium realizes the novel function of the present invention, and the storage medium storing the program code constitutes the present invention.

【0064】プログラムコードを供給するための記憶媒
体としては、例えばフロッピーディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROM等
を用いることができる。
A storage medium for supplying the program code is, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD.
-R, magnetic tape, non-volatile memory card, ROM, etc. can be used.

【0065】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼動しているOSなどが実
際の処理の一部または全部を行ない、その処理によって
実施形態の機能が実現される場合も含まれることは言う
までもない。
Further, by executing the program code read by the computer, not only the functions of the above-described embodiment are realized, but also the OS or the like running on the computer is actually executed based on the instruction of the program code. It goes without saying that a case where a part or all of the processing of (1) is performed and the function of the embodiment is realized by the processing is also included.

【0066】更に、記憶媒体から読み出されたプログラ
ムコードが、コンピュータに挿入された拡張機能ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書き込まれた後、そのプログラムコードの指示
に基づき、その機能拡張ボードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行な
い、その処理によって前述した実施形態の機能が実現さ
れる場合も含まれることは言うまでもない。
Further, after the program code read from the storage medium is written in the memory provided in the extended function board inserted into the computer or the extended function unit connected to the computer, based on the instruction of the program code, It goes without saying that a case where a CPU or the like included in the function expansion board or the function expansion unit performs a part or all of the actual processing and the processing realizes the functions of the above-described embodiments is also included.

【0067】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートのいずれ
かに対応するプログラムコードを格納することになる
が、簡単に説明すると、図19のメモリマップ例に示す
各モジュールを記憶媒体に格納することになる。すなわ
ち、少なくとも、個々の文字領域の中のフッタ文字領域
を識別する識別モジュールと、識別されたフッタ領域に
対しては、他の文字領域より後に処理順番を設定する設
定モジュールを記憶媒体に格納すれば良い。
When the present invention is applied to the above-mentioned storage medium, the storage medium stores the program code corresponding to one of the above-mentioned flowcharts. Briefly, the memory shown in FIG. Each module shown in the map example will be stored in the storage medium. That is, at least the identification module for identifying the footer character area in each character area and the setting module for setting the processing order for the identified footer area after the other character areas are stored in the storage medium. Good.

【0068】[0068]

【発明の効果】以上説明したように本発明によれば、フ
ッタ部分に関しては、その処理順序を原稿画像の他の文
字領域の最後にすることで、例えば文字認識処理を行う
のであれば、認識結果の文章の流れを自然な状態にさせ
ることが可能になる。
As described above, according to the present invention, with respect to the footer portion, if the processing order is set to the end of other character areas of the original image, for example, if character recognition processing is performed, recognition is performed. It is possible to make the flow of the resulting sentence natural.

【0069】[0069]

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の実施形態における文字領域順序付け処理
のフローチャートである。
FIG. 1 is a flowchart of a character area ordering process according to a first embodiment.

【図2】原稿画像から抽出された文字領域を示す図であ
る。
FIG. 2 is a diagram showing a character area extracted from a document image.

【図3】従来の文字領域の順序付けを示す図である。FIG. 3 is a diagram showing a conventional ordering of character areas.

【図4】第1の実施形態における順序付け結果を示す図
である。
FIG. 4 is a diagram showing an ordering result in the first embodiment.

【図5】第1の実施形態におけるフッタ識別処理を示す
フローチャートである。
FIG. 5 is a flowchart showing a footer identification process in the first embodiment.

【図6】第2の実施形態の順序付け処理を示すフローチ
ャートである。
FIG. 6 is a flowchart showing an ordering process of the second embodiment.

【図7】第2の実施形態における順序づけ結果を示す図
である。
FIG. 7 is a diagram showing an ordering result in the second embodiment.

【図8】第3の実施形態における順序付け処理を示すフ
ローチャートである。
FIG. 8 is a flowchart showing an ordering process in the third embodiment.

【図9】実施形態における装置のブロック構成図であ
る。
FIG. 9 is a block configuration diagram of an apparatus according to an embodiment.

【図10】第4の実施形態におけるフッタ識別処理を示
すフローチャートである。
FIG. 10 is a flowchart showing footer identification processing according to the fourth embodiment.

【図11】第5の実施形態におけるフッタ識別処理を示
すフローチャートである。
FIG. 11 is a flowchart showing footer identification processing according to the fifth embodiment.

【図12】第6の実施形態におけるフッタ識別処理を示
すフローチャートである。
FIG. 12 is a flowchart showing footer identification processing according to the sixth embodiment.

【図13】第7の実施形態におけるフッタ識別処理を示
すフローチャートである。
FIG. 13 is a flowchart showing footer identification processing according to the seventh embodiment.

【図14】第8の実施形態におけるフッタ識別処理を示
すフローチャートである。
FIG. 14 is a flowchart showing footer identification processing in the eighth embodiment.

【図15】第4の実施形態の動作処理内容を説明するた
めの図である。
FIG. 15 is a diagram illustrating the contents of operation processing according to the fourth embodiment.

【図16】非フッタ文字領域となる例を示す図である。FIG. 16 is a diagram showing an example of a non-footer character area.

【図17】非フッタ文字領域となる例を示す図である。FIG. 17 is a diagram showing an example of a non-footer character area.

【図18】非フッタ文字領域となる例を示す図である。FIG. 18 is a diagram showing an example of a non-footer character area.

【図19】記憶媒体内のプログラム格納状態を示す図で
ある。
FIG. 19 is a diagram showing a program storage state in a storage medium.

【符号の説明】[Explanation of symbols]

21、71 原稿画像 22 文字領域 23、72、73 フッタの文字領域 21, 71 Original image 22 Character area 23, 72, 73 Footer character area

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 原稿画像中の文字領域を抽出し、当該抽
出した文字領域に対して処理順序を設定する文字領域の
順序付け方法であって、 抽出された個々の文字領域の中のフッタ文字領域を識別
する識別工程と、 該識別工程で識別されたフッタ領域に対しては、他の文
字領域より後に処理順番を設定する設定工程とを備える
ことを特徴とする文字領域の順序付け方法。
1. A method for ordering character areas in which a character area in an original image is extracted and a processing order is set for the extracted character area, wherein a footer character area in each extracted character area is provided. And a setting step of setting a processing order for the footer area identified in the identification step after the other character areas.
【請求項2】 前記識別工程は、注目文字領域が原稿画
像中の所定位置より下方に位置するかを判定する工程を
含み、当該判定工程によって前記所定位置より下方に位
置する場合に注目文字領域をフッタ文字領域として識別
することを特徴とする請求項第1項に記載の文字領域の
順序付け方法。
2. The identifying step includes a step of determining whether the target character area is located below a predetermined position in the original image, and the target character area is located below the predetermined position in the determining step. The character area ordering method according to claim 1, wherein is identified as a footer character area.
【請求項3】 前記識別工程は、更に、注目文字領域が
1行のみの文字列で構成されているか否かを判定する工
程を含み、1行のみの文字列であると判定した場合に注
目文字領域をフッタ文字領域として識別することを特徴
とする請求項第2項に記載の文字領域の順序付け方法。
3. The identifying step further includes a step of determining whether or not the character area of interest is composed of a character string having only one line, and when it is determined that the character area is a character string having only one line. The method for ordering character areas according to claim 2, wherein the character areas are identified as footer character areas.
【請求項4】 前記識別工程は、更に、注目文字領域が
横書きか横長かを判定する工程を含み、横書き或いは横
長であると判定した場合に注目文字領域をフッタ文字領
域として識別することを特徴とする請求項第3項に記載
の文字領域の順序付け方法。
4. The identifying step further includes a step of determining whether the target character area is horizontally written or horizontally long, and when it is determined to be horizontally written or horizontally long, the target character area is identified as a footer character area. The method for ordering character areas according to claim 3.
【請求項5】 前記識別工程は、更に、注目文字領域の
下方に他の文字領域が存在するか否かを判定する工程を
含み、下方に他の文字領域がないと判定した場合に注目
文字領域をフッタ文字領域として識別することを特徴と
する請求項第4項に記載の文字領域の順序付け方法。
5. The identifying step further includes a step of determining whether or not there is another character area below the target character area, and when it is determined that there is no other character area below, the target character area is determined. The method for ordering character areas according to claim 4, wherein the areas are identified as footer character areas.
【請求項6】 前記識別工程は、更に、注目文字領域が
他の線画に含まれるか否かを判定する工程を含み、他の
線画に含まれる場合には注目文字領域を非フッタ文字領
域として識別することを特徴とする請求項第5項に記載
の文字領域の順序付け方法。
6. The identifying step further includes a step of determining whether or not the target character area is included in another line drawing. When the target character area is included in another line drawing, the target character area is set as a non-footer character area. The character area ordering method according to claim 5, wherein the character areas are identified.
【請求項7】 更に、前記設定工程で設定された順序に
従って、個々の文字領域内の文字画像を認識する文字認
識工程を備えることを特徴とする請求項第1項に記載の
文字領域の順序付け方法。
7. The ordering of character areas according to claim 1, further comprising a character recognition step of recognizing a character image in each character area according to the order set in the setting step. Method.
【請求項8】 原稿画像中の文字領域を抽出し、当該抽
出した文字領域に対して処理順序を設定する文字領域の
順序付け装置であって、 抽出された個々の文字領域の中のフッタ文字領域を識別
する識別手段と、 該識別手段で識別されたフッタ領域に対しては、他の文
字領域より後に処理順番を設定する設定手段とを備える
ことを特徴とする文字領域の順序付け装置。
8. A character area ordering device for extracting a character area from a document image and setting a processing order for the extracted character area, wherein the footer character area is included in each extracted character area. An apparatus for ordering character areas, comprising: identification means for identifying the character area; and setting means for setting a processing order for the footer area identified by the identification means after other character areas.
【請求項9】 前記識別手段は、注目文字領域が原稿画
像中の所定位置より下方に位置するかを判定する手段を
含み、当該判定手段によって前記所定位置より下方に位
置する場合に注目文字領域をフッタ文字領域として識別
することを特徴とする請求項第8項に記載の文字領域の
順序付け装置。
9. The identifying means includes means for determining whether the character area of interest is located below a predetermined position in the original image, and the character area of interest is located when the character area is located below the predetermined position by the determining means. 9. The character area ordering device according to claim 8, wherein is identified as a footer character area.
【請求項10】 前記識別手段は、更に、注目文字領域
が1行のみの文字列で構成されているか否かを判定する
手段を含み、1行のみの文字列であると判定した場合に
注目文字領域をフッタ文字領域として識別することを特
徴とする請求項第9項に記載の文字領域の順序付け装
置。
10. The identifying means further includes means for determining whether or not the target character area is composed of a character string having only one line, and is discriminated when it is determined that the character string has only one line. 10. The character area ordering device according to claim 9, wherein the character area is identified as a footer character area.
【請求項11】 前記識別手段は、更に、注目文字領域
が横書きか横長かを判定する手段を含み、横書き或いは
横長であると判定した場合に注目文字領域をフッタ文字
領域として識別することを特徴とする請求項第10項に
記載の文字領域の順序付け装置。
11. The identifying means further includes means for determining whether the target character area is horizontally written or horizontally long, and when it is determined to be horizontally written or horizontally long, the target character area is identified as a footer character area. The character area ordering device according to claim 10.
【請求項12】 前記識別手段は、更に、注目文字領域
の下方に他の文字領域が存在するか否かを判定する手段
を含み、下方に他の文字領域がないと判定した場合に注
目文字領域をフッタ文字領域として識別することを特徴
とする請求項第11項に記載の文字領域の順序付け装
置。
12. The identifying means further includes means for determining whether or not there is another character area below the target character area, and when it is determined that there is no other character area below, the target character area is identified. The character area ordering device according to claim 11, wherein the area is identified as a footer character area.
【請求項13】 前記識別手段は、更に、注目文字領域
が他の線画に含まれるか否かを判定する手段を含み、他
の線画に含まれる場合には注目文字領域を非フッタ文字
領域として識別することを特徴とする請求項第12項に
記載の文字領域の順序付け装置。
13. The identifying means further includes means for determining whether or not the target character area is included in another line drawing. When the target character area is included in another line drawing, the target character area is set as a non-footer character area. 13. The character area ordering device according to claim 12, wherein the character area is identified.
【請求項14】 更に、前記設定手段で設定された順序
に従って、個々の文字領域内の文字画像を認識する文字
認識手段を備えることを特徴とする請求項第8項に記載
の文字領域の順序付け装置。
14. The character area ordering device according to claim 8, further comprising character recognition means for recognizing a character image in each character area according to the order set by the setting means. apparatus.
【請求項15】 原稿画像中の文字領域を抽出し、当該
抽出した文字領域に対して処理順序を設定する文字領域
の順序付けするプログラムコードが格納されたコンピュ
ータ可読メモリであって、 抽出された個々の文字領域の中のフッタ文字領域を識別
する識別工程のコードと、 該識別工程で識別されたフッタ領域に対しては、他の文
字領域より後に処理順番を設定する設定工程のコードと
を有することを特徴とするコンピュータ可読メモリ。
15. A computer-readable memory storing a program code for extracting a character area from a document image and setting a processing order for the extracted character area, the program being a computer-readable memory. Of the footer character area in the character area of the character identification area, and a code of a setting step of setting the processing order after the other character areas for the footer area identified in the identification step. A computer-readable memory characterized by the following.
JP7298236A 1995-11-16 1995-11-16 Method and device for sequencing character area Pending JPH09146947A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7298236A JPH09146947A (en) 1995-11-16 1995-11-16 Method and device for sequencing character area

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7298236A JPH09146947A (en) 1995-11-16 1995-11-16 Method and device for sequencing character area

Publications (1)

Publication Number Publication Date
JPH09146947A true JPH09146947A (en) 1997-06-06

Family

ID=17857003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7298236A Pending JPH09146947A (en) 1995-11-16 1995-11-16 Method and device for sequencing character area

Country Status (1)

Country Link
JP (1) JPH09146947A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100392321B1 (en) * 1996-12-27 2003-09-19 삼성전자주식회사 Method of printing footer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06203020A (en) * 1992-12-29 1994-07-22 Hitachi Ltd Method an device for recognizing and generating text format

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06203020A (en) * 1992-12-29 1994-07-22 Hitachi Ltd Method an device for recognizing and generating text format

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100392321B1 (en) * 1996-12-27 2003-09-19 삼성전자주식회사 Method of printing footer

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
JP2004158036A (en) Computer system for identifying area on instance of machine-readable form
JP2008108114A (en) Document processor and document processing method
JP2000322417A (en) Device and method for filing image and storage medium
JP4136282B2 (en) Image processing apparatus, image processing method, and storage medium
JPH09146947A (en) Method and device for sequencing character area
JPH08180068A (en) Electronic filing device
JP3814334B2 (en) Image processing apparatus and method
JP3171626B2 (en) Character recognition processing area / processing condition specification method
JPH0969136A (en) Method and device for judging direction of document character recognizing device and computer controller
JP5361315B2 (en) Information processing apparatus and information processing method
JPH11187231A (en) Image retrieving device and image retrieval method
JPH09269970A (en) Method for recognizing character and its device
JPH0830725A (en) Device and method for processing image
JP3412998B2 (en) Image processing apparatus and method
JP3052438B2 (en) Table recognition device
JPH117493A (en) Character recognition processor
JPH11242716A (en) Image processing method and storage medium
JPH09288714A (en) Method and device for recognizing table
JPH01292586A (en) Back-up device for recognition of character
JP3045086B2 (en) Optical character reading method and apparatus
JP2000187704A (en) Character recognition device, its method and storage medium
JPS63172663A (en) Document processor
JPH11224308A (en) Device and method for recognizing character

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050916