JPH0581474A - Character string extracting method and character area detecting method - Google Patents

Character string extracting method and character area detecting method

Info

Publication number
JPH0581474A
JPH0581474A JP3241486A JP24148691A JPH0581474A JP H0581474 A JPH0581474 A JP H0581474A JP 3241486 A JP3241486 A JP 3241486A JP 24148691 A JP24148691 A JP 24148691A JP H0581474 A JPH0581474 A JP H0581474A
Authority
JP
Japan
Prior art keywords
character
image
area
elements
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3241486A
Other languages
Japanese (ja)
Other versions
JP3058489B2 (en
Inventor
Hisafumi Saika
尚史 斎鹿
Yoshihiro Kitamura
義弘 北村
Yasuhisa Nakamura
安久 中村
Minako Kuwata
みな子 桑田
Kazuhiro Takehara
和宏 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3241486A priority Critical patent/JP3058489B2/en
Publication of JPH0581474A publication Critical patent/JPH0581474A/en
Application granted granted Critical
Publication of JP3058489B2 publication Critical patent/JP3058489B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To perform stable character string extraction with small storage capacity. CONSTITUTION:A document is scanned in S1 and character elements of the document image are extracted in S2. In S3-S5, whether the relation of 'mutual closeness' is satisfied or not is checked as to all pairs of the character elements to define the equal value relation of 'same level', and the character elements are classified in an equal-value group. In S5, the character elements contained in the equal value group are extracted as elements constituting the same character string. In S6 and successors, the extracted character string is divided into characters, which are matched with standard character patterns and recognized.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、画像から文字を認識す
る方法に関し、特に、入力画像から個別の文字領域およ
び文字列を抽出するための方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for recognizing characters from an image, and more particularly to a method for extracting individual character areas and character strings from an input image.

【0002】[0002]

【従来の技術】従来の文字抽出方法において、スキャナ
などの手段を用いて入力された画像(以下「原画像」と
称する)から、以下のように文字を取出している。ま
ず、原画像における水平方向または鉛直方向のうち、実
際の文字列の進む方向により近い方向(以下「文字列方
向」と呼ぶ)に、画像の黒点の累積をとる。黒点とは、
文字領域を構成する点のことである。そして、累積値の
小さな部分を文字列と文字列との間の空白部分として、
また累積値の大きな部分を文字列の存在する領域として
文字列の位置を決定する。このようにして得られた文字
列を分割することにより、文字を取出す。
2. Description of the Related Art In a conventional character extraction method, a character is extracted as follows from an image (hereinafter referred to as "original image") input using a means such as a scanner. First, of the horizontal or vertical direction in the original image, the black dots of the image are accumulated in a direction (hereinafter, referred to as “character string direction”) that is closer to the direction in which the actual character string advances. What is a black dot?
It is a point that constitutes a character area. And, the part of the cumulative value is the blank part between the character strings,
Further, the position of the character string is determined by regarding the portion having a large cumulative value as the area where the character string exists. Characters are extracted by dividing the character string obtained in this way.

【0003】しかし、このような手法では、原画像の文
字列の傾きが大きい場合、黒点の累積値の大小の差が水
平方向と鉛直方向とであまり大きくならない。そのため
文字列を正確に抽出することは容易ではなく、個別の文
字を正確に取出すことも困難である。
However, in such a method, when the inclination of the character string of the original image is large, the difference in the cumulative value of the black dots is not so large in the horizontal direction and the vertical direction. Therefore, it is not easy to accurately extract a character string, and it is also difficult to accurately extract individual characters.

【0004】これに対し、個々の文字を構成すると見ら
れる文字の要素領域(以下「文字要素」と呼ぶ)を予め
抽出し、それらを統合することによって文字または文字
列を抽出する方法が考えられる。この方法においては、
文字を抽出する前段階として、個々の文字を構成すると
見られる文字要素を予め抽出する必要がある。
On the other hand, a method of extracting character elements or character strings by previously extracting element regions (hereinafter referred to as "character elements") of characters that are considered to constitute individual characters and integrating them can be considered. .. In this way,
As a step before extracting characters, it is necessary to extract in advance the character elements that are considered to constitute individual characters.

【0005】文字要素として、黒点の連結領域を用いる
例が見られる。連結領域とは、画像の黒点の集合からな
る領域であって、その領域内のいかなる2点も、その領
域内のみを通る曲線によって接続され得るような黒点の
集合の領域をいう。このような場合、従来は連結領域を
画像から抽出してから、それに外接する長方形の座標を
求め、それによって文字要素を検出してきた。このよう
な従来の方法によれば、処理の途中において、画像中の
各黒点が、どの連結領域に属するかという情報を保持し
ておく必要がある。そのため、このような方法を用いる
と大容量のメモリが必要とされた。この処理を行なうた
めの専用のハードウェアも存在しているが、全体のシス
テムとしては高価なものになってしまう。
As an example of a character element, an example of using a connected area of black dots can be seen. A connected region is a region made up of a set of black dots of an image, and a region of a set of black dots in which any two points in the region can be connected by a curve passing only in the region. In such a case, conventionally, the connected area is extracted from the image, and then the coordinates of the rectangle circumscribing the extracted area are obtained, and the character element is detected thereby. According to such a conventional method, it is necessary to hold information about which connected area each black dot in the image belongs to during the processing. Therefore, when such a method is used, a large capacity memory is required. Although there is dedicated hardware for performing this process, the overall system becomes expensive.

【0006】また、このような手法では、文字要素の統
合が不十分であれば、単一の文字または文字列が分離さ
れてしまい、また統合が過剰であれば、異なる文字また
は文字列が単一の文字または文字列に誤って統合されて
しまうおそれがある。そのため最適な統合を行なうこと
は容易ではない。
Further, in such a method, if the character elements are insufficiently integrated, a single character or character string is separated, and if the integration is excessive, different characters or character strings are separated. May be accidentally merged into a single character or string. Therefore, optimal integration is not easy.

【0007】[0007]

【発明が解決しようとする課題】それゆえにこの発明の
目的は、原画像の傾きによる影響を可能な限り小さく
し、かつ安定した処理結果を得ることができる文字列抽
出方法および文字領域検出方法を提供することである。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a character string extracting method and a character area detecting method which can minimize the influence of the inclination of the original image and can obtain a stable processing result. Is to provide.

【0008】[0008]

【課題を解決するための手段】請求項1に記載の文字列
抽出方法は、画像を読取り、連続する複数本の2値走査
線信号に変換するステップと、順次与えられる2値走査
線信号を順次分析し、先行する第1の2値走査線信号よ
り以前の2値走査線信号により表現される連結領域に外
接する、外接枠の形状を特定するための外接枠情報を得
て、これを保持するステップと、第1の2値走査線信号
の直後に後続する第2の2値走査線信号に含まれる連結
線分領域を検出し、連結線分領域と連結関係にある連結
領域の外接枠情報を更新するとともに、連結線分領域の
いずれとも連結関係にない連結領域の存在を検出して、
その外接枠情報を出力するステップと、画像の終了を検
出して、保持されているすべての外接枠情報を出力する
ステップと、各外接枠情報の間に、予め定める同値関係
が成立するか否かを調べることにより、各外接枠情報に
内接する連結領域を同値類に分類するステップと、同一
の同値類に属する連結領域を1つの文字列の構成要素と
して抽出するステップとを含む。
According to a first aspect of the present invention, there is provided a character string extracting method, which comprises a step of reading an image and converting the image into a plurality of continuous binary scanning line signals, and a binary scanning line signal sequentially given. Sequential analysis is performed to obtain circumscribing frame information for specifying the shape of the circumscribing frame that circumscribes the connected region represented by the preceding binary scanning line signal before the preceding first binary scanning line signal, and obtains this information. A step of holding and detecting a connecting line segment area included in a second binary scanning line signal immediately after the first binary scanning line signal, and circumscribing a connecting area having a connecting relationship with the connecting line segment area. While updating the frame information, it detects the presence of a connected area that is not connected to any of the connected line segment areas,
Whether a predetermined equivalence relation is established between the step of outputting the circumscribing frame information, the step of detecting the end of the image and outputting all the retained circumscribing frame information, and the step of outputting the circumscribing frame information. By checking whether or not each of the circumscribing frame information pieces is inscribed, a connected area is classified into an equivalence class, and a connected area belonging to the same equivalence class is extracted as a constituent element of one character string.

【0009】請求項2に記載の文字列抽出方法は、画像
から文字要素を抽出するステップと、抽出された各文字
要素の間に、予め定める同値関係が成立するか否かを調
べることにより文字要素を同値類に分類するステップ
と、同一の同値類に属する文字要素を1つの文字列の構
成要素として抽出するステップとを含む。
According to a second aspect of the present invention, there is provided a method for extracting a character string by extracting a character element from an image and checking whether or not a predetermined equivalence relation is established between the extracted character elements. The method includes a step of classifying elements into equivalence classes and a step of extracting character elements belonging to the same equivalence class as constituent elements of one character string.

【0010】請求項3に記載の文字領域検出方法は、画
像を読取り、連続する複数本の2値走査線信号に変換す
るステップと、順次与えられる2値走査線信号を順次分
析し、先行する第1の2値走査線信号より以前の2値走
査線信号により表現される連結領域に外接する、外接枠
の形状を特定するための外接枠情報を得て、これを保持
するステップと、第1の2値走査線信号の直後に後続す
る第2の2値走査線信号に含まれる連結線分領域を検出
し、連結線分領域と連結関係にある連結領域の外接枠情
報を更新するとともに、連結線分領域のいずれとも連結
関係にない連結領域の存在を検出して、その外接枠情報
を出力するステップと、画像の終了を検出して、保持さ
れているすべての外接枠情報を出力するステップとを含
む。
According to a third aspect of the present invention, there is provided a method for detecting a character area, which comprises the steps of reading an image and converting the image into a plurality of continuous binary scanning line signals, and sequentially analyzing the binary scanning line signals that are sequentially applied. Obtaining circumscribing frame information for specifying the shape of a circumscribing frame circumscribing a connected region represented by a binary scanning line signal earlier than the first binary scanning line signal, and holding the circumscribing frame information; The connection line segment area included in the second binary scan line signal immediately following the binary scan line signal of 1 is detected, and the circumscribed frame information of the connection area having the connection relation with the connection line segment area is updated. , Detecting the presence of a connected area that is not connected to any of the connected line segment areas and outputting the circumscribing frame information, and detecting the end of the image and outputting all the retained circumscribing frame information. And a step of performing.

【0011】[0011]

【作用】請求項1に記載の文字列抽出方法によれば、連
結領域の外接枠情報を得るためには、隣接する2つの2
値走査線信号の間で、連結線分領域の連結関係を調べれ
ば十分である。すべての画像について、各画素の属する
連結領域の情報を保持する必要がない。また、このよう
にして得られた外接枠情報を、数学的に同値類分解と呼
ばれる手法で分類して各文字列の構成要素を抽出する。
予め定める同値関係が成立するか否かは、原画像の傾き
からの影響をそれほど受けずに定められる。また、各文
字要素の間で同値関係を調べるため、その結果は処理順
序に依存しない。
According to the character string extraction method of the first aspect, in order to obtain the circumscribed frame information of the connected area, two adjacent two
It is sufficient to check the connection relation of the connection line segment regions between the value scanning line signals. It is not necessary to hold the information of the connected area to which each pixel belongs for all images. Further, the circumscribing frame information thus obtained is mathematically classified by a method called equivalence class decomposition to extract the constituent elements of each character string.
Whether or not a predetermined equivalence relation is established is determined without being significantly affected by the inclination of the original image. In addition, since the equivalence relation is checked between each character element, the result does not depend on the processing order.

【0012】請求項2に記載の文字列抽出方法において
は、抽出された文字要素の間に同値関係が成立するか否
かを調べることにより、文字要素が同値類分解と呼ばれ
る手法によって各文字列の構成要素として抽出される。
同値関係は、原画像の傾きに関係なくその成否を調べる
ことができる。また、同値類分解による処理結果は、処
理順序に依存しない。
In the character string extraction method according to the second aspect, by checking whether or not an equivalence relation is established between the extracted character elements, the character elements are converted into character strings by a method called equivalence class decomposition. It is extracted as a component of.
The equivalence relation can be checked for success or failure regardless of the inclination of the original image. Further, the processing result by the equivalence class decomposition does not depend on the processing order.

【0013】請求項3に記載の文字領域検出方法におい
ては、先行する第1の2値走査線信号より以前の走査線
信号により表現される連結領域と、後続する2値走査線
信号の連結線分領域との連結関係が、第1および第2の
2値走査線信号の間の連結線分領域の連結関係を調べる
ことにより行なえる。したがって画像中のすべての画素
について、それがどの連結領域に属するかを表わす情報
を記憶しておく必要がない。
According to a third aspect of the present invention, there is provided a character area detecting method, wherein a connecting area represented by a scan line signal before the preceding first binary scan line signal and a connecting line between the following binary scan line signals. The connection relation with the segment area can be established by examining the connection relation of the connection line segment area between the first and second binary scanning line signals. Therefore, it is not necessary to store information indicating which connected area it belongs to for every pixel in the image.

【0014】[0014]

【実施例】図13は、本発明を実施するための文字認識
装置のブロック図である。図13を参照して、この文字
認識装置は、画像を走査して連続する複数本のデジタル
走査線信号に変換するための画像入力部1と、画像入力
部1により入力された画像から文字要素を抽出するため
の文字要素抽出部2と、抽出された各文字要素を分析
し、文字列を抽出するための文字列抽出部3と、抽出さ
れた文字列を個別の文字に分離することにより個別の文
字を抽出するための個別文字抽出部4と、予め用意され
た文字標準パターン8と、抽出された個別文字と文字標
準パターン8とをマッチングすることにより、入力され
た画像に含まれる個別の文字を認識するための文字マッ
チング部5と、文字マッチングにより得られた文字の認
識結果に対し、必要な修正や整形を加えるための認識結
果後処理部6と、後処理がされた認識結果を、使用者が
可読な形に変換して出力するための最終結果出力部7と
を含む。
FIG. 13 is a block diagram of a character recognition apparatus for carrying out the present invention. With reference to FIG. 13, this character recognition device includes an image input unit 1 for scanning an image and converting it into a plurality of continuous digital scanning line signals, and character elements from the image input by the image input unit 1. By extracting the character element extracting unit 2 for extracting the character string, analyzing each extracted character element, extracting the character string, and separating the extracted character string into individual characters. An individual character extraction unit 4 for extracting an individual character, a character standard pattern 8 prepared in advance, and the extracted individual character and the character standard pattern 8 are matched to each other, so that an individual character included in the input image is obtained. Character matching unit 5 for recognizing the character, the recognition result post-processing unit 6 for adding necessary correction and shaping to the character recognition result obtained by the character matching, and the post-processed recognition result To Use person and a final result output unit 7 for outputting the converted into a readable form.

【0015】この文字認識装置は、コンピュータにより
実現される。そして、画像入力部1はスキャナにより、
最終結果出力部7はディスプレイにより、文字要素抽出
部2と文字列抽出部3と個別文字抽出部4と文字マッチ
ング部5と文字標準パターン8と認識結果後処理部6と
はすべて中央処理装置で実行されるプログラムにより実
現される。
This character recognition device is realized by a computer. Then, the image input unit 1 is
The final result output unit 7 is a display, and the character element extraction unit 2, the character string extraction unit 3, the individual character extraction unit 4, the character matching unit 5, the character standard pattern 8, and the recognition result post-processing unit 6 are all central processing units. It is realized by the program to be executed.

【0016】図14を参照して、文字要素抽出部2は、
画像入力部1から入力される少なくとも1ライン分の画
像を記憶するための画像メモリ21と、画像メモリ21
に記憶された現在処理中のライン上の連結領域を検出
し、現ライン上の連結領域に関する情報を出力するため
の現ライン連結領域抽出部22と、現ライン連結領域抽
出部22により抽出された情報を格納し、次のラインに
対する処理のために一時記憶しておくための前ライン連
結領域メモリ24と、現ライン連結領域抽出部22によ
り抽出された現ライン上の連結領域に関する情報と、前
ライン連結領域メモリ24に格納された1行前のライン
上の連結領域に関する情報に基づき、前ラインと現ライ
ンとの間の連結領域の連結関係をチェックし、互いに連
結関係にある、ライン上の連結領域に外接する長方形を
統合する処理を行なうための、連結関係チェック部23
と、連結関係チェック部23によって検出された、画像
上の連結領域に外接する長方形を特定するための座標を
記憶するとともに、処理途中で、それ以上他の領域と連
結することがないと判断された連結領域を表わす情報を
文字要素として出力するための外接長方形座標メモリ2
5とを含む。
Referring to FIG. 14, the character element extraction unit 2
An image memory 21 for storing an image of at least one line input from the image input unit 1, and an image memory 21.
The current line connected area extracting unit 22 for detecting the connected area on the line currently being processed stored in the current line, and outputting the information about the connected area on the current line, and the current line connected area extracting unit 22. Previous line connected area memory 24 for storing information and temporarily storing it for processing for the next line, information about connected areas on the current line extracted by current line connected area extraction unit 22, and Based on the information about the connected area on the line immediately preceding the line stored in the line connected area memory 24, the connection relationship of the connected area between the previous line and the current line is checked, and the connected area on the line A connection relation checking unit 23 for performing a process of integrating rectangles circumscribing the connection area.
And stores the coordinates for identifying the rectangle circumscribing the connected area on the image, which is detected by the connection relationship check unit 23, and determines that the area is not connected to any other area during the processing. Circumscribed rectangular coordinate memory 2 for outputting information representing a connected region as a character element
Including 5 and.

【0017】文字列抽出部3は、外接長方形座標メモリ
25から与えられる文字要素の情報を順次記憶するため
の文字要素メモリ31と、文字要素メモリ31に記憶さ
れた文字要素の数と等しい数の要素を有する整数配列を
準備可能なラベルメモリ35と、文字要素メモリ31に
格納された文字要素の数に応じて、ラベルメモリ35内
の整数配列{Sn}の値を初期化するためのラベル初期
化部33と、文字要素メモリ31に格納された文字要素
情報の任意の2つの組合せを取出し、各文字要素間に予
め定める同値関係が成り立つか否かを検査するための同
値関係検査部32と、同値関係検査部32によって同値
関係が成り立つと判断された文字要素間について、ラベ
ルメモリ35に格納された、各文字要素に対応するラベ
ルの値を予め定める方法に従って更新するためのラベル
更新部36と、文字要素メモリ31に格納された文字要
素のすべての対に対して、同値関係検査が行なわれた
後、ラベルメモリ35内において同じ値のラベルを有す
るような文字要素を同じ文字列に属する文字要素と判断
して文字要素メモリ31から抽出するための同値ラベル
文字要素抽出部34とを含む。
The character string extraction unit 3 has a character element memory 31 for sequentially storing the information of the character elements given from the circumscribed rectangular coordinate memory 25, and a number equal to the number of character elements stored in the character element memory 31. A label memory 35 capable of preparing an integer array having elements, and a label initial for initializing the value of the integer array {Sn} in the label memory 35 according to the number of character elements stored in the character element memory 31. A conversion unit 33 and an equivalence relation inspection unit 32 for extracting any two combinations of the character element information stored in the character element memory 31 and inspecting whether or not a predetermined equivalence relation is established between the respective character elements. For the character elements determined to have the equivalence relation by the equivalence relation checking unit 32, the value of the label corresponding to each character element stored in the label memory 35 is determined in advance. A label updating unit 36 for updating according to the method and all the pairs of character elements stored in the character element memory 31 are subjected to an equivalence relation check, and then have a label having the same value in the label memory 35. An equivalence label character element extraction unit 34 for determining such a character element as a character element belonging to the same character string and extracting it from the character element memory 31.

【0018】図13〜図15に示される装置は原理的に
以下のように動作する。画像入力部1は、入力される画
像をスキャンし、複数本の走査線からなる画像信号に変
換して画像メモリ21に順次与える。画像メモリ21は
入力される画像信号のうち少なくとも1走査線分の信号
を順次格納する。現ライン連結領域抽出部22は、画像
メモリ21に格納された1ラインの画像データに基づ
き、処理中のライン上の連結領域を抽出し、抽出された
連結領域を表わす情報を連結関係チェック部23と前ラ
イン連結領域メモリ24とに与える。前ライン連結領域
メモリ24には、1ライン前の連結領域を表わす情報が
格納されている。
The device shown in FIGS. 13 to 15 operates in principle as follows. The image input unit 1 scans an input image, converts it into an image signal composed of a plurality of scanning lines, and sequentially supplies the image signal to the image memory 21. The image memory 21 sequentially stores at least one scanning line signal of the input image signals. The current line connected area extracting unit 22 extracts the connected area on the line being processed based on the image data of one line stored in the image memory 21, and the information indicating the extracted connected area is used as the connection relation checking unit 23. And the previous line connection area memory 24. The previous line connected area memory 24 stores information indicating the connected area of one line before.

【0019】連結関係チェック部23は、現ライン連結
領域抽出部22から与えられる現ライン上の連結領域を
表わす情報と、前ライン連結領域メモリ24に格納され
ている1ライン前の連結領域を表わす情報とに基づき、
現ラインと前ラインとに含まれる連結領域の間に連結関
係があるか否かをチェックする。チェックの結果連結関
係があると判断された場合には、外接長方形座標メモリ
25に格納されている、前ラインの連結領域に外接する
長方形の座標に所定の処理を施し、現ライン連結領域を
前ラインまでの連結領域と統合する。この統合処理の詳
細については後述する。処理の途中で、外接長方形座標
メモリ25に格納されている、前ラインまでの連結領域
のうち現ライン上の連結領域のいずれとも連結関係にな
いものについては、外接長方形座標メモリ25はこれを
1つの文字要素としてその情報を文字要素装置31に与
える。すべての画像に対する読込と以上の処理が終了し
たときには、外接長方形座標メモリ25は、その時点で
格納されている残りの外接長方形座標を文字要素情報と
して出力する。
The connection relation check unit 23 represents the information indicating the connection region on the current line provided from the current line connection region extraction unit 22 and the connection region one line before stored in the previous line connection region memory 24. Based on the information
It is checked whether or not there is a connection relationship between the connection areas included in the current line and the previous line. If it is determined as a result of the check that there is a connection relationship, a predetermined process is performed on the coordinates of the rectangle circumscribing the connection area of the previous line, which is stored in the circumscribing rectangle coordinate memory 25, and the current line connection area is moved forward. Integrate with the connected area up to the line. Details of this integration processing will be described later. In the middle of the process, the circumscribed rectangular coordinate memory 25 stores 1 in the circumscribed rectangular coordinate memory 25 for the connected regions up to the previous line that are not connected to any of the connected regions on the current line. The information is given to the character element device 31 as one character element. When the reading of all the images and the above processing are completed, the circumscribed rectangular coordinate memory 25 outputs the remaining circumscribed rectangular coordinate stored at that time as the character element information.

【0020】文字要素メモリ31は、外接長方形座標メ
モリ25から与えられる文字要素情報を順次記憶する。
ラベル初期化部33は、文字列抽出処理に先立って、ラ
ベルメモリ35に準備された整数配列の値を、後述する
ような方法で初期化する。同値関係検査部32は、文字
要素メモリ31に格納された文字要素のすべての対につ
いて、各文字要素間に予め定める同値関係が成立するか
否かを調べる。同値関係が成立した場合には、ラベル更
新部36は、互いに同値関係にある文字要素に対応して
準備された、ラベルメモリ35内のラベルの値を、所定
の方法によって書換える。この方法については後に詳述
する。
The character element memory 31 sequentially stores the character element information given from the circumscribed rectangular coordinate memory 25.
The label initialization unit 33 initializes the value of the integer array prepared in the label memory 35 by a method described below, prior to the character string extraction processing. The equivalence relation inspection unit 32 examines, for all pairs of character elements stored in the character element memory 31, whether or not a predetermined equivalence relation is established between the respective character elements. When the equivalence relation is established, the label updating unit 36 rewrites the value of the label in the label memory 35 prepared corresponding to the character elements having the equivalence relation by a predetermined method. This method will be described later in detail.

【0021】文字要素メモリ31に格納された文字要素
のすべての対について、互いの間に同値関係が成立する
か否かの判断が終わった後、同値ラベル文字要素抽出部
34は、ラベルメモリ35に格納された各ラベルのう
ち、同一の値を有するラベルに対応する文字要素を、同
一の文字列に属する文字要素であると判断し、文字要素
メモリ31から対応する文字要素を抽出し個別文字抽出
部4に与える。
After determining whether or not an equivalence relation is established between all pairs of character elements stored in the character element memory 31, the equivalence label character element extraction unit 34 determines the label memory 35. The character elements corresponding to the labels having the same value among the respective labels stored in are determined to be the character elements belonging to the same character string, and the corresponding character elements are extracted from the character element memory 31 to extract the individual character. It is given to the extraction unit 4.

【0022】個別文字抽出部4は、与えられた文字列領
域を適宜分割して個々の文字を取出し、文字マッチング
部5に与える。文字マッチング部5は、文字標準パター
ン8に予め準備されている標準パターンと、処理対象と
なる文字との間の類似関係をマッチングによりチェック
し、最も類似度の高い標準パターンを、入力された文字
として認識する。認識結果後処理部6は、認識された結
果に対し、必要な修正や成形を加えて最終結果出力部7
に与える。最終結果出力部7は、認識された文字を使用
者に可読な形で出力する。
The individual character extraction unit 4 appropriately divides the given character string area to take out individual characters and supplies them to the character matching unit 5. The character matching unit 5 checks the similarity between the standard pattern prepared in advance in the character standard pattern 8 and the character to be processed by matching, and the standard pattern with the highest similarity is input to the input character. Recognize as. The recognition result post-processing unit 6 adds necessary corrections and shaping to the recognized result and outputs the final result output unit 7
Give to. The final result output unit 7 outputs the recognized character in a user-readable form.

【0023】本発明にかかる文字列抽出方法は文字列抽
出部3により、文字領域検出方法は文字要素抽出部2に
よりそれぞれ行なわれる。
The character string extraction method according to the present invention is performed by the character string extraction unit 3, and the character area detection method is performed by the character element extraction unit 2.

【0024】文字要素抽出部2、文字列抽出部3は前述
のようにそれぞれコンピュータプログラムによって実現
される。図1は文字列抽出方法を実現するためのプログ
ラムのフローチャートである。図2は、図1に示される
プログラムのうち、画像中の文字要素を取出すための処
理のフローチャートである。
The character element extraction unit 2 and the character string extraction unit 3 are realized by computer programs as described above. FIG. 1 is a flowchart of a program for realizing the character string extracting method. FIG. 2 is a flowchart of a process for extracting a character element in an image in the program shown in FIG.

【0025】図1を参照して、ステップS1において、
原画像の原稿スキャンが行なわれる。制御はステップS
2に進む。
Referring to FIG. 1, in step S1,
A document scan of the original image is performed. Control is step S
Go to 2.

【0026】ステップS2においては、入力された原画
像中の文字要素を取出す処理が行なわれる。この処理
は、図2に示されるようなプログラムにより実現され
る。
In step S2, a process of extracting a character element in the input original image is performed. This processing is realized by a program as shown in FIG.

【0027】図2を参照して、画像中の文字要素を取出
す処理のためのプログラムは、以下のような制御の構造
を有する。以下の説明において、入力画像は横mピクセ
ル、縦nピクセルからなる長方形の画像であるものとす
る。横方向にx軸、縦方向にy軸をとる。以下、この画
像中に認識される、1対の辺がx軸に、他の1対の辺が
y軸に平行な長方形の座標を、(最小のx座標、最小の
y座標)、(最大のx座標、最大のy座標)の2点の組
で表わす。以下、この座標をそれぞれ(sx、sy)、
(ex、ey)と書くものとする。この場合各座標は、
1ピクセルのx軸方向およびy軸方向の各辺の長さを1
としてとったものとする。
Referring to FIG. 2, the program for processing for extracting a character element in an image has the following control structure. In the following description, the input image is assumed to be a rectangular image having m pixels horizontally and n pixels vertically. The x axis is in the horizontal direction and the y axis is in the vertical direction. Below, the coordinates of a rectangle that is recognized in this image with one pair of sides parallel to the x-axis and the other pair of sides parallel to the y-axis are expressed as (minimum x coordinate, minimum y coordinate), (maximum X coordinate, maximum y coordinate). Hereinafter, these coordinates are respectively (sx, sy),
It shall be written as (ex, ey). In this case, each coordinate is
Set the length of each side of 1 pixel in the x-axis direction and the y-axis direction to 1
It was taken as.

【0028】上述の画像中において、2点(0、i)
(m−1、i)を結ぶ、x軸に平行な1ピクセル幅の直
線を考える。この直線をラインiと呼ぶことにする。
In the above image, two points (0, i)
Consider a 1-pixel-wide straight line connecting (m-1, i) and parallel to the x-axis. This straight line will be called line i.

【0029】ラインi上の連結領域を、ラインiに含ま
れる隣あった黒点を結んだものと定義する。特許請求の
範囲においては、ラインi上の連結領域を「連結線分領
域」と表現している。また、以下の説明において画像中
の連結領域とは、前述のように画像に含まれる黒点の集
合からなる領域であって、領域に含まれるいかなる2つ
の黒点も、その領域に含まれる他の黒点をたどっていく
ことにより互いに接続されるような領域をいうものと規
約する。
The connected area on the line i is defined as a connection of adjacent black dots included in the line i. In the claims, the connection area on the line i is expressed as "connection line segment area". Further, in the following description, the connected area in the image is an area including a set of black dots included in the image as described above, and any two black dots included in the area are different from other black dots included in the area. It is defined as an area that can be connected to each other by tracing.

【0030】(1) 図2を参照して、ステップS11
において、画像のライン0上の各連結領域(CL0 j
する)を抽出する。ライン0上の連結領域CL0 j に外
接し、1対の辺がx軸に、他の1対の辺がy軸に平行な
長方形を、連結領域CL0 j が属する長方形とし、その
座標を所定の記憶領域に記憶する。すなわち、 sx=CL0 j の始点x座標 ex=CLo j の終点x座標 sy=CLo j の始点y座標(=0) ey=CL0 j の終点y座標(=0) とする。制御はステップS12に進む。
(1) Referring to FIG. 2, step S11
At, each connected region ( denoted as CL 0 j ) on line 0 of the image is extracted. A rectangle circumscribing the connected region CL 0 j on the line 0 and having one pair of sides parallel to the x-axis and the other pair of sides parallel to the y-axis is a rectangle to which the connected region CL 0 j belongs, and its coordinates are Store in a predetermined storage area. That is, the sx = CL 0 j starting x coordinate ex = CL starting y-coordinate (= 0) of the end point x-coordinate sy = CL oj the oj of ey = CL 0 j endpoint y-coordinate (= 0). The control proceeds to step S12.

【0031】(2) ステップS12において、以下の
繰返しを制御するための変数iに初期値「1」がセット
される。制御はS13に進む。
(2) In step S12, an initial value "1" is set to a variable i for controlling the following iterations. The control proceeds to S13.

【0032】以下、ステップS13〜S17の処理が、
1≦i≦m−1となるiについて順次行なわれる。
Hereinafter, the processing of steps S13 to S17 will be described.
This is sequentially performed for i that satisfies 1 ≦ i ≦ m−1.

【0033】(3) ステップS13において、ライン
i上の各連結領域(CLi j とする)を抽出する。そし
てこの連結領域CLi j を、連結領域CLi j が属する
長方形とする。すなわち、この長方形を特定するための
座標は以下のようになる。
(3) In step S13, each connected region ( denoted by CL ij ) on the line i is extracted. And the connecting region CL ij, and rectangular connection region CL ij belongs. That is, the coordinates for specifying this rectangle are as follows.

【0034】sx=CLi j の始点x座標 ex=CLi j の終点x座標 sy=CLi j の始点y座標(=i) ey=CLi j の終点y座標(=i) 制御はステップS14に進む。[0034] sx = CL ij of the start point x coordinate ex = CL ij endpoint x-coordinate sy = CL ij of the start point y coordinate (= i) ey = CL ij endpoint y-coordinate (= i) the control proceeds to step S14.

【0035】(4) ライン(i−1)上の連結領域と
ラインi上の連結領域とについて、互いの連結関係を検
査する。連結関係が成立するか否かの判断は以下のよう
にして行なわれる。ライン(i−1)上の連結領域CL
0の始点、終点の座標をそれぞれ(x00,i−1)、
(x01,i−1)、ラインi上の連結領域CL1の始
点、終点の座標をそれぞれ(x10,i)、(x11,
i)とする。この場合、以下の関係が成り立つ場合に連
結領域CL0とCL1とが連結であると判断すればよ
い。
(4) With respect to the connection area on the line (i-1) and the connection area on the line i, the connection relationship between them is inspected. The determination as to whether or not the connection relationship is established is made as follows. Connected area CL on line (i-1)
The coordinates of the start point and the end point of 0 are (x00, i-1),
(X01, i-1), the coordinates of the start point and end point of the connected region CL1 on the line i are (x10, i), (x11,
i). In this case, it may be determined that the connected regions CL0 and CL1 are connected when the following relationships are established.

【0036】x00≦x11かつx10≦x01 ただし、上述の式は、1つの画素と連結関係になること
ができる画素が、その画素の上下および左右の画素のみ
に限られる、いわゆる「4連結」の場合に適用すべき式
である。もしも1つの画素に斜めに隣接する画素もこの
画素と連結になれるものとする、いわゆる「8連結」の
場合には、以下の式による必要がある。
X00.ltoreq.x11 and x10.ltoreq.x01 However, in the above formula, the number of pixels that can be connected to one pixel is limited to the pixels above and below and to the left and right of the pixel. This is the formula that should be applied in some cases. In the case of so-called “8-connection”, in which pixels that are diagonally adjacent to one pixel can also be connected to this pixel, the following formula must be used.

【0037】 x00≦x11+1かつx10≦x01+1 要するに、一方のライン上の連結領域の始点のx座標
が、もう一方のライン上の連係領域の終点のx座標より
も大きくならないという条件が成り立てばよい。この条
件が成り立てば2つの連結領域が互いに連結関係にあ
り、この条件が成り立たない場合にはこれらは連結関係
にはないと判断される。検査の結果互いに連結なライン
(i−1)、ラインi上の連結領域がある場合について
は、その属する長方形を統合する。複数の長方形を統合
する処理とは、以下のようにして新たな長方形の形状を
特定するための座標を定める処理をいう。
X00 ≦ x11 + 1 and x10 ≦ x01 + 1 In short, the condition that the x coordinate of the start point of the connected region on one line does not become larger than the x coordinate of the end point of the linked region on the other line is satisfied. If this condition is satisfied, the two connected regions are in a connected relationship with each other, and if this condition is not satisfied, it is determined that they are not connected. When there is a line (i-1) and a connected region on the line i which are connected to each other as a result of the inspection, the rectangles to which they belong are integrated. The process of integrating a plurality of rectangles is a process of determining coordinates for specifying the shape of a new rectangle as follows.

【0038】sx=min{統合する長方形のsx} sy=min{統合する長方形のsy} ex=max{統合する長方形のex} ey=max{統合する長方形のey} 上述のように定められる座標を有する(sx、sy)、
(ex、ey)により特定される長方形Rをもって、統
合された長方形とする。そして、これらの連結領域はこ
のようにして得られた共通の長方形Rに属するものとす
る。制御はステップS15に進む。
Sx = min {integrated rectangular sx} sy = min {integrated rectangular sy} ex = max {integrated rectangular ex} ey = max {integrated rectangular ey} Coordinates determined as described above With (sx, sy),
The rectangle R specified by (ex, ey) is an integrated rectangle. Then, these connected regions are assumed to belong to the common rectangle R thus obtained. The control proceeds to step S15.

【0039】(5) ステップS15において、ライン
(i−1)上の各連結領域が属する長方形であって、か
つステップS14の処理の前後を通じて変化しなかった
ものを検出する。このような長方形が存在する場合、こ
の長方形が外接する画像中の連結領域は、ラインiで途
切れていることになる。これ以降の処理でこの連結領域
に連結される他のライン上の連結領域は出現し得ない。
したがってこの長方形を特定するための座標は以降の処
理で変化することはない。そのためこの座標を最終結果
として出力することができる。出力時に、この連結領域
のy方向の境界座標eyに値i−1を代入してもよい。
仮に現在処理中のラインiに黒点が1つも存在しないと
きには、ライン(i−1 )上の各連結領域が属する長方
形はすべて上述の条件に該当し、その座標を出力するこ
とができる。そしてそれ以降、連結領域に外接する長方
形を求めるための処理において、これら長方形を特定す
るための座標を記憶しておく必要はまったくない。制御
はステップS16に進む。
(5) In step S15, a rectangle to which each connected region on line (i-1) belongs and which has not changed before and after the process of step S14 is detected. When such a rectangle exists, the connected area in the image circumscribing the rectangle is discontinued at the line i. In the subsequent processing, connected areas on other lines connected to this connected area cannot appear.
Therefore, the coordinates for specifying this rectangle do not change in the subsequent processing. Therefore, this coordinate can be output as the final result. At the time of output, the value i−1 may be substituted for the boundary coordinate ey in the y direction of this connected region.
If there is no black dot on the line i currently being processed, all the rectangles to which each connected region on the line (i-1) belongs satisfy the above-mentioned condition, and the coordinates can be output. Then, thereafter, in the process for obtaining the rectangle circumscribing the connected area, it is not necessary to store the coordinates for specifying these rectangles at all. The control proceeds to step S16.

【0040】ステップS16において、変数iの内容が
1インクリメントされる。制御はステップS17に進
む。
In step S16, the content of the variable i is incremented by 1. The control proceeds to step S17.

【0041】ステップS17において、変数iの値が、
縦方向のピクセル数(総ライン数)mと等しいか否かの
判断が行なわれる。判断の答がYESであれば制御はス
テップS18に進むが、それ以外の場合には制御はS1
3に進む。そして、前述のように(3)〜(5)の処理
が該当する変数iについて繰返される。
In step S17, the value of the variable i is
It is determined whether the number of pixels in the vertical direction (total number of lines) is equal to m. If the determination result is YES, the control proceeds to step S18, but if not, the control proceeds to S1.
Go to 3. Then, as described above, the processes (3) to (5) are repeated for the corresponding variable i.

【0042】(6) ステップS18において、処理の
最後として、ライン(m−1)上の黒点が属する長方形
の座標を出力する。この場合、この長方形の座標値ey
の値はm−1となる。
(6) In step S18, the coordinates of the rectangle to which the black dot on the line (m-1) belongs are output as the final step. In this case, the coordinate value ey of this rectangle
The value of is m-1.

【0043】以上のように図2に示されるようなフロー
に従って動作するプログラムを用いることにより、画像
中の各連結領域に外接する長方形の形状を特定するため
の座標を求めることができる。この場合、処理のために
必要な画像情報は、現在着目しているラインおよびその
1つ前のラインに含まれる各点についての情報のみであ
る。そして、2つ前のライン以前のラインに含まれる画
像中の点についての情報は一切不要である。そのため、
この方法によれば文字領域を検出する際に必要な記憶容
量を、従来のようにすべての画像についての情報を記録
する場合と比較してはるかに少なくすることができる。
また、最終結果として得られる外接長方形座標が処理途
中で順次出力されていく。そのため、この最終結果を入
力とする他の処理をこの処理と平行して行なうことが可
能となり、処理全体の速度を向上することも可能であ
る。
By using the program that operates according to the flow as shown in FIG. 2 as described above, the coordinates for specifying the shape of the rectangle circumscribing each connected region in the image can be obtained. In this case, the image information necessary for the processing is only the information about each point included in the current line of interest and the line immediately before it. Information about points in the image included in the line before the line two lines before is not necessary at all. for that reason,
According to this method, the storage capacity required for detecting a character area can be made much smaller than that in the case of recording information about all images as in the conventional case.
Further, the circumscribed rectangular coordinates obtained as the final result are sequentially output during the process. Therefore, it is possible to perform other processing in which the final result is input in parallel with this processing, and it is possible to improve the speed of the entire processing.

【0044】図4〜図6は、図2に示される処理の途中
経過を示す、画像の模式図である。図4を参照して、ラ
イン(i−1)上には、ライン(i−1)上の連結領域
(連結線分領域)A、Bが存在する。一方、ラインi上
には、ラインi上の連結領域(連結線分領域)C、D、
Eが存在する。連結領域の定義によれば、連結(線分)
領域A、Cは互いに連結である。また、連結(線分)領
域B、D、Eも互いに連結である。
4 to 6 are schematic views of images showing the progress of the processing shown in FIG. Referring to FIG. 4, on line (i-1), there are connection regions (connection segment regions) A and B on line (i-1). On the other hand, on the line i, the connecting regions (connecting line segment regions) C, D, and
E exists. According to the definition of connection area, connection (line segment)
Regions A and C are connected to each other. The connected (line segment) areas B, D, and E are also connected to each other.

【0045】図5および図6は、ライン(i−1)上
の、互いに別々の連結領域が属する長方形が、ラインi
に対する処理において統合される様子を示す。図5を参
照して、ライン(i−1)上の連結領域A、Bは共通の
長方形R1に属する。またライン(i−1)上の連結領
域Cは、長方形R1と異なる長方形R2に属する。
In FIG. 5 and FIG. 6, the rectangle on the line (i-1) to which the separate connection regions belong is indicated by the line i.
The following shows how they are integrated in the processing for. With reference to FIG. 5, the connection regions A and B on the line (i-1) belong to the common rectangle R1. The connected region C on the line (i-1) belongs to a rectangle R2 different from the rectangle R1.

【0046】図6を参照して、ラインi上に連結(線
分)領域Dが存在するものとする。連結(線分)領域D
は、ライン(i−1)上の連結(線分)領域B、Cと連
結である。またこの場合、連結(線分)領域Dが属する
長方形自身は、連結領域Dそれ自身と同じ形である。前
述の処理に従って、ライン(i−1)上の連結領域B、
Cが属する長方形R1、R2と、ラインi上の連結領域
Dが属する長方形(D自身)とを統合することにより、
図6に示される長方形R0が得られる。前述のようにラ
イン(i−1)上の連結領域A、Bは共通の長方形R1
に属するため、連結領域Aも長方形R0に属することに
なる。
Referring to FIG. 6, it is assumed that a connected (line segment) region D exists on line i. Connection (line segment) area D
Is connected to the connected (line segment) regions B and C on the line (i-1). In this case, the rectangle itself to which the connected (line segment) area D belongs has the same shape as the connected area D itself. According to the processing described above, the connection area B on the line (i-1),
By integrating the rectangles R1 and R2 to which C belongs and the rectangle (D itself) to which the connected region D on the line i belongs,
The rectangle R0 shown in FIG. 6 is obtained. As described above, the connecting regions A and B on the line (i-1) have the common rectangle R1.
Therefore, the connection area A also belongs to the rectangle R0.

【0047】このようにして順次各ライン上の連結領域
と、1ライン前の連結領域との連結関係を調べ、互いの
属する長方形を順次統合していくことにより、画像上の
文字要素が属する領域が分離・結合されていく。したが
って、各連結領域が、その属する長方形に従って分離・
結合されていくことになる。
In this way, the connection relationship between the connection area on each line and the connection area one line before is checked in order, and the rectangles to which they belong are sequentially integrated, whereby the area to which the character element on the image belongs Are separated and combined. Therefore, each connected area is separated according to the rectangle to which it belongs.
Will be combined.

【0048】図7は、このようにして文字画像を、文字
要素である各連結領域に分離・結合した結果を示す。図
7に示されるように、文字画像「システ」が、その各文
字要素に分割されていく。
FIG. 7 shows the result of separating / combining a character image into each connected area which is a character element in this way. As shown in FIG. 7, the character image "system" is divided into each character element.

【0049】再び図1を参照して、ステップS3〜S5
においては、この発明にかかる文字列抽出方法に従って
文字列を抽出する処理が行なわれる。この処理において
は、ステップS2において取出された各文字要素を、数
学的に「同値類分解」と呼ばれる方法で複数個の同値類
に分類する処理が行なわれる。同値類分解のために、本
実施例の場合には、2つの文字要素について、「互いに
近い」という関係を以下のように定義しておく。ただ
し、この「互いに近い」という関係自身は、必ずしも同
値関係にならない。
Referring again to FIG. 1, steps S3 to S5
In, the process of extracting a character string is performed according to the character string extracting method according to the present invention. In this process, each character element extracted in step S2 is classified into a plurality of equivalence classes by a method mathematically called "equivalence class decomposition". For the equivalence class decomposition, in the case of the present embodiment, the relationship “close to each other” is defined as follows for two character elements. However, the relationship of “close to each other” does not necessarily have an equivalence relationship.

【0050】2つの文字要素にそれぞれ長方形a、bが
外接しているものとする。2つの長方形a、bの文字列
方向の中心点間の文字方向の距離をL、長方形a、bの
文字列方向の長さをsa 、sb とする。また、長方形
a、b間の、文字列方向と垂直の方向の中心点間の、文
字列方向と垂直方向における距離をH、長方形a、b
の、文字列方向と垂直方向の長さをそれぞれha 、hb
とする。この場合、2つの文字要素は、以下の式が同時
に成り立つときに、「互いに近い」と定義する。
It is assumed that rectangles a and b are circumscribing the two character elements, respectively. The distance in the character direction between the center points of the two rectangles a and b in the character string direction is L, and the lengths of the rectangles a and b in the character string direction are s a and s b . Further, the distance between the center points of the rectangles a and b in the direction perpendicular to the character string direction is H, and the distances between the rectangles a and b are the rectangles a and b.
The string length and the vertical length of h a and h b , respectively.
And In this case, two character elements are defined as “close to each other” when the following expressions are satisfied at the same time.

【0051】L≦max{sa 、sb }*c0 H≦max{ha 、hb }*c1 ただし、c0、c1はそれぞれ定数である。本実施例の
場合、定数c0としては「4」程度、定数c1としては
「0.5」程度を用いた。ただしこの値はあくまで一例
である。
[0051] L ≦ max {s a, s b} * c0 H ≦ max {h a, h b} * c1 However, c0, c1 are each constant. In this embodiment, the constant c0 is about "4" and the constant c1 is about "0.5". However, this value is just an example.

【0052】ステップS3において、整数配列{Sn}
を用意しておく。この整数配列{Sn}の要素の数は、
文字要素の数と同じである。そして、整数配列{Sn}
の各要素の値を、それぞれ互いに異なるように、すなわ
ちi≠jならSi ≠Sj となるように初期化しておく。
たとえば、i番目の要素Siの値をi(i=0、1、
2、…、n)とすればよい。制御はステップS4に進
む。
In step S3, an integer array {Sn}
Be prepared. The number of elements of this integer array {Sn} is
It is the same as the number of character elements. And the integer array {Sn}
The values of the respective elements are initialized so that they are different from each other, that is, if i ≠ j, then S i ≠ S j .
For example, if the value of the i-th element Si is i (i = 0, 1,
2, ..., N). The control proceeds to step S4.

【0053】ステップS4においては、図3のフローチ
ャートに示す処理が行なわれる。ステップS4Aにおい
て、画像中の、ステップS2によって取出された文字要
素から、2つの、互いに異なる文字要素の組合せを1回
ずつ取出す。i番目の文字要素をCiと表わすことにす
れば、2つの文字要素の組合せは(Ci、Cj)(i、
j=0、1、2、…、n、ただしi≠j)と表わされ
る。ステップS4Bにおいて、この組合せ(Ci、C
j)が、前述の「互いに近い」という関係を満たすか否
かが判断される。判断の答がYESならば制御はステッ
プS4Dに、それ以外のときはステップS4Cにそれぞ
れ進む。ステップS4Cにおいては、文字要素Ci、C
jに対応する整数配列の要素Si、Sjの値を次のよう
に書換える。
In step S4, the process shown in the flowchart of FIG. 3 is performed. In step S4A, two different combinations of character elements are extracted once from the character elements extracted in step S2 in the image. If the i-th character element is represented as Ci, the combination of the two character elements is (Ci, Cj) (i,
j = 0, 1, 2, ..., N, where i ≠ j). In step S4B, this combination (Ci, C
It is determined whether or not j) satisfies the above-mentioned "close to each other" relationship. If the determination result is YES, the control proceeds to step S4D, otherwise it proceeds to step S4C. In step S4C, the character elements Ci, C
The values of the elements Si and Sj of the integer array corresponding to j are rewritten as follows.

【0054】(a) Si<Sjであれば、整数配列
{Sn}の要素のうち、値がSjの値に等しいものの値
をSiの値に書換える。この場合、Sjの値もSiに書
換える。
(A) If Si <Sj, the value of the element of the integer array {Sn} whose value is equal to the value of Sj is rewritten to the value of Si. In this case, the value of Sj is also rewritten to Si.

【0055】(b) Si>Sjであれば、整数配列
{Sn}の要素のうち、値がSiに等しい要素の値を、
Sjの値に書換える。この場合、Si自身の値もSjに
書換える。
(B) If Si> Sj, the value of the element whose value is equal to Si among the elements of the integer array {Sn} is
Rewrite to the value of Sj. In this case, the value of Si itself is also rewritten to Sj.

【0056】(c)Si=Sjであれば、何も行なわな
い。続いてステップS4Dにおいて、すべての文字要素
の組合せ(Ci、Cj)について処理が終わったか否か
の判断が行なわれる。判断の答がNOであれば制御は再
びステップS4Aに戻り、さもなければこの部分の処理
は終了し、図1のステップS5の処理に進む。
(C) If Si = Sj, nothing is done. Then, in step S4D, it is determined whether or not the processing has been completed for all combinations (Ci, Cj) of character elements. If the answer to the decision is NO, control returns to step S4A, otherwise the process for this part ends and the process proceeds to step S5 in FIG.

【0057】ステップS4においては、上述のような場
合分けに従った処理が、すべての文字要素の組合せ
(対)について行なわれる。すべての文字要素の組合せ
について処理をし終わった時点で、整数配列{Sn}の
要素のうち、その値が共通な要素に対応する文字要素
は、同じ文字列に属すると判断してよい。したがって、
ステップS5において、整数配列{Sn}の要素のうち
同じ値を有する要素に対応する文字要素を集めることに
より、文字列を抽出できる。
In step S4, the processing according to the above case classification is performed for all combinations (pairs) of character elements. When all combinations of character elements have been processed, the character elements corresponding to the elements having the same value among the elements of the integer array {Sn} may be determined to belong to the same character string. Therefore,
In step S5, the character string can be extracted by collecting the character elements corresponding to the elements having the same value among the elements of the integer array {Sn}.

【0058】上述の関係について若干の説明を付け加え
ておく。2つの文字要素Ci、Cjが「互いに近い」こ
とをCi〜Cjと表わす。ある整数の組n1、n2、
…、nkおよびm1、m2について、次の式に示される
関係が成り立つものとする。
A little explanation will be added to the above relationship. The fact that the two character elements Ci and Cj are “close to each other” is represented as Ci to Cj. A set of integers n1, n2,
, Nk and m1 and m2, the relationship shown in the following equation holds.

【0059】Cm1〜Cn1〜Cn2〜…〜Cnk〜C
m2 これは、文字要素Cm1とCm2とは必ずしも直接には
「互いに近い」という関係にはないが、一方から、それ
と「互いに近い」という関係にある文字要素を順次辿っ
ていくことによって、他方に到達できることを表わす。
もちろん、Cm1〜Cm2である場合もこれに含まれ
る。このような関係にあるCm1、Cm2を「同じラベ
ルを持つ」と呼ぶものとする。
Cm1 to Cn1 to Cn2 ... Cnk to C
m2 This does not necessarily mean that the character elements Cm1 and Cm2 are directly “close to each other”, but by sequentially tracing the character elements that are “close to each other” from one to the other, Indicates that you can reach.
Of course, the case of Cm1 to Cm2 is also included in this. Cm1 and Cm2 having such a relationship are referred to as “having the same label”.

【0060】定義により、このときCm1からCm2へ
の経路に現われるCn1、Cn2、差Cnkのうちのい
かなる2つの文字要素の組合せもやはり「同じラベルを
持つ」という関係にあることになる。
By definition, any combination of two character elements among Cn1, Cn2 and the difference Cnk appearing in the path from Cm1 to Cm2 at this time also has a relation of “having the same label”.

【0061】文字要素Cm1とCm2とが「同じラベル
を持つ」という関係は、上記の説明中においては、ステ
ップS4における処理が終了したとき、整数配列{S
n}の要素のうち、文字要素Cm1とCm2とに対応す
る要素Sm1、Sm2の値が共通であるということによ
り表わされている。
The relationship that the character elements Cm1 and Cm2 "have the same label" means that the integer array {S when the processing in step S4 is finished in the above description.
Of the elements of n}, the elements Sm1 and Sm2 corresponding to the character elements Cm1 and Cm2 have the same value.

【0062】また、整数の組i1、i2、…、im、j
1、j2、…、jn、およびi、jについて、以下の2
つの関係が成り立っているものとする。
Further, a set of integers i1, i2, ..., Im, j
For j, 1, j2, ..., Jn, and i, j, the following 2
It is assumed that two relationships are established.

【0063】Ci1〜Ci2〜…〜Cim〜Ci Cj〜Cj1〜Cj2〜…〜Cjm このことは、ステップS4の処理途中において、Ci
1、Ci2、…、Cimに対応する整数配列{Sn}の
要素の値がCiに対応する要素Siの値に等しく、Cj
1,Cj2、…、Cjmに対応する要素の値がCjに対
応する要素Sjの値に等しいという状態に対応する。
Ci1-Ci2 -...- Cim-Ci Cj-Cj1-Cj2 -...- Cjm This means that Ci during the process of step S4.
The value of the element of the integer array {Sn} corresponding to 1, Ci2, ..., Cim is equal to the value of the element Si corresponding to Ci, and Cj
, Cj2, ..., Cjm correspond to the value of the element Sj corresponding to Cj.

【0064】このとき、Ci〜Cjがわかったとする
と、次の関係が得られる。 Ci1〜Ci2〜…〜Cim〜Ci〜Cj〜Cj1〜C
j2〜…〜Cjm このことは、ステップS4C(図3参照)において、2
つの文字要素Ci、Cjが「互いに近い」という関係を
満たすとき、それらに対応する整数配列{Sn}のう
ち、Si<SjであればSjと同じ値の強さの値をSi
の値に書換え、Si>Sjであれば、Siと同じ値を持
つ要素の値をSjの値に書換えることで表わされてい
る。
At this time, assuming that Ci to Cj are known, the following relationship is obtained. Ci1-Ci2 -...- Cim-Ci-Cj-Cj1-C
j2 -...- Cjm This means that in step S4C (see FIG. 3), 2
When two character elements Ci and Cj satisfy the relationship of being “close to each other”, in the integer array {Sn} corresponding to them, if Si <Sj, the strength value having the same value as Sj is set to Si.
, And if Si> Sj, the value of the element having the same value as Si is rewritten to the value of Sj.

【0065】すでに述べたように、「互いに近い」とい
う関係は必ずしも数学的には同値関係ではないが、それ
を用いて定義した「同じラベルを持つ」という関係は同
値関係の一種である。
As described above, the relationship of “close to each other” is not necessarily an equivalence relationship mathematically, but the relationship of “having the same label” defined by using it is a kind of equivalence relationship.

【0066】上述のように定義した「同じラベルを持
つ」という関係は、数学的には同値関係の一種である。
文字要素を、互いの間でこの同値関係が成り立つか否か
によって分類していく方法は、数学でいう同値類分解と
呼ばれる作業である。同値類分解においては、処理結果
が処理順序によらないという著しい特徴がある。上述の
実施例の場合には、画像中の文字要素が「互いに近い」
かどうかを判定するために、2つの文字要素を取出す順
序がどのようなものであれ、得られる結果は同一であ
る。
The relationship "having the same label" defined above is mathematically a kind of equivalence relationship.
A method of classifying character elements according to whether or not this equivalence relation holds between them is a work called equivalence class decomposition in mathematics. The equivalence class decomposition has a remarkable feature that the processing result does not depend on the processing order. In the case of the above-described embodiment, the character elements in the image are “close to each other”.
The result obtained is the same no matter what order the two character elements are taken to determine whether or not.

【0067】続いてステップS6において、ステップS
5までの処理で抽出された文字列は、文字列方向に適宜
分割することにより、個別の文字を取出す処理が行なわ
れる。制御はステップS7に進む。
Then, in step S6, step S
The character string extracted by the processes up to 5 is appropriately divided in the character string direction to perform the process of extracting individual characters. The control proceeds to step S7.

【0068】ステップS7においては、ステップS6で
得られた個別の文字と、予め準備されていた文字標準パ
ターン(図3参照)とをマッチングし、処理対象となる
文字と最も類似している文字標準パターンを認識結果と
して得る処理が行なわれる。制御はステップS8に進
む。
In step S7, the individual character obtained in step S6 is matched with the prepared character standard pattern (see FIG. 3), and the character standard most similar to the character to be processed is set. Processing for obtaining the pattern as a recognition result is performed. The control proceeds to step S8.

【0069】ステップS8においては、ステップS7に
おいて認識された文字に対し、必要な修正や整形を行な
う認識結果後処理が行なわれる。制御はステップS9に
進む。
In step S8, post-recognition result processing is carried out for the characters recognized in step S7 to make necessary corrections and shaping. The control proceeds to step S9.

【0070】ステップS9においては、ステップS8に
よって得られた最終認識結果を、使用者に可読な形、た
とえば印刷文字あるいはディスプレイ表示のような形で
出力する処理が行なわれる。そしてすべての文字につい
てステップS9までの処理が行なわれてこのプログラム
が終了する。
In step S9, a process of outputting the final recognition result obtained in step S8 in a user-readable form, for example, a print character or a display display form is performed. Then, the process up to step S9 is performed for all the characters, and the program ends.

【0071】図8〜図12は、文字要素として画像中の
連結領域をとった場合に、本発明に従った方法によりど
のように文字列が抽出されるかを示す模式図である。以
下の説明中においては、文字要素Ciに対応する、整数
配列{Sn}の要素をSiと表現する。
FIGS. 8 to 12 are schematic diagrams showing how a character string is extracted by the method according to the present invention when a connected region in an image is taken as a character element. In the following description, the element of the integer array {Sn} corresponding to the character element Ci is expressed as Si.

【0072】図8を参照して、画像中の各文字要素(連
結領域)に与えられるSiが、それぞれ異なった値に初
期化される。この処理はステップS3において行なわれ
る。図8においては、全部で11個の連結領域に0〜1
1という値がそれぞれ割り当てられる。
With reference to FIG. 8, Si given to each character element (connected region) in the image is initialized to a different value. This process is performed in step S3. In FIG. 8, 0 to 1 are added to 11 connecting regions in total.
A value of 1 is assigned to each.

【0073】図9を参照して、文字要素C0、C3は互
いに近いという関係を満たす。確認のために述べておく
と、前述の定義による「互いに近い」という関係は、画
像上においては、2つの連結領域が属する長方形の間の
距離が所定の値よりも小さい場合に成り立つと考えられ
る。文字要素C0、C3が互いに近いため、図1のステ
ップS4の処理に従い、S0、S3の値が比較される。
この場合はS0<S3が成り立つ。すなわち、前述の条
件でいえば(a)が成立する。そのため、S3と共通の
値を持つSiの値をすべてS0の値に書換える。この場
合、S3に等しい値を持つようなSiは、S3の他には
存在しない。そのため、S0の値(0)に書換えられる
のは、S3のみである。書換えの結果が図9に示されて
いる。
Referring to FIG. 9, the character elements C0 and C3 are close to each other. For confirmation, it is considered that the relationship of “close to each other” according to the above definition is established when the distance between rectangles to which two connected regions belong is smaller than a predetermined value on the image. .. Since the character elements C0 and C3 are close to each other, the values of S0 and S3 are compared according to the processing of step S4 of FIG.
In this case, S0 <S3 holds. That is, (a) is satisfied under the above conditions. Therefore, all Si values having the same value as S3 are rewritten to S0. In this case, there is no Si other than S3 that has a value equal to S3. Therefore, only S3 is rewritten to the value (0) of S0. The result of rewriting is shown in FIG.

【0074】図10は、引続き行なわれる処理の途中状
態を示す図である。図10の状態となる以前に、文字要
素C0、C1、C3、C4が「互いに近い」という関係
にあることが確認され、それにしたがってSiが書換え
られている。さらに、図10に示されるように、文字要
素C4、C8が「互いに近い」という関係を満たすこと
が確認されたものとする。このとき、S4=0、S8=
7であって、S4<S8が成立する。前述の条件(a)
に従って、S8(=7)に等しい値を持つSiを、すべ
てS4の値で書換える。その結果、図11に示されるよ
うに、画像中の文字列「システム」に含まれる各文字要
素のすべてには、対応する整数として0が割り当てられ
る。
FIG. 10 is a diagram showing an intermediate state of the processing to be performed subsequently. Before reaching the state of FIG. 10, it has been confirmed that the character elements C0, C1, C3, and C4 have a relationship of being “close to each other”, and Si is rewritten accordingly. Furthermore, as shown in FIG. 10, it is assumed that it is confirmed that the character elements C4 and C8 satisfy the relationship of being “close to each other”. At this time, S4 = 0, S8 =
7 and S4 <S8 is satisfied. The above condition (a)
According to, all Si having a value equal to S8 (= 7) is rewritten with the value of S4. As a result, as shown in FIG. 11, 0 is assigned as a corresponding integer to each of the character elements included in the character string “system” in the image.

【0075】図12を参照して、画像中の「システム」
という文字列中の文字要素と、「メニュー」という文字
列中の文字要素とのいずれの間にも、「互いに近い」と
いう関係が成立しない。したがって、この画像中の任意
の2つの文字要素のすべての組合せについて上述の処理
を行なうことにより、最終結果として図12に示される
ようなSiの値を得ることができる。画像中のすべての
文字要素は、前述のようにその文字要素に対応付けられ
ている整数の値によって分類される。図8〜図12に示
される例では、各文字要素は対応する整数として0を持
つものと2を持つものとに分類され、それぞれ「システ
ム」、「メニュー」という文字列となる。
Referring to FIG. 12, "system" in the image
There is no relation "close to each other" between the character element in the character string "" and the character element in the character string "menu". Therefore, by performing the above-described processing for all combinations of arbitrary two character elements in this image, the value of Si as shown in FIG. 12 can be obtained as the final result. All character elements in the image are classified by the integer value associated with the character element as described above. In the examples shown in FIGS. 8 to 12, the respective character elements are classified into those having 0 and 2 as the corresponding integers, and the character strings are “system” and “menu”, respectively.

【0076】ステップS6以下においては、図12に得
られた結果の文字列から、その文字列を適宜分割するこ
とによって個別の文字を取出し、それぞれの文字をマッ
チングによって認識するという処理が行なわれる。
In step S6 and subsequent steps, a process is carried out in which individual characters are extracted from the resulting character string obtained in FIG. 12 by appropriately dividing the character string, and each character is recognized by matching.

【0077】以上述べたようにこの発明にかかる文字列
抽出方法においては、同値類分解という手法によって文
字列の抽出が行なわれた。同値類分解による処理結果は
その処理順序には依存せず、安定した処理結果を得るこ
とができる。また、隣接する文字要素の間では、前述の
「互いに近い」という関係に対して、画像の傾きが与え
る影響はごく微小である。画像の傾きが上述の文字列抽
出に対して与える影響は小さい。したがって、従来技術
による方法よりも、入力画像の傾きの広い範囲に対し
て、適性な文字列抽出が行なえるという効果がある。
As described above, in the character string extracting method according to the present invention, the character string is extracted by the method called equivalence class decomposition. The processing result by equivalence class decomposition does not depend on the processing order, and a stable processing result can be obtained. Further, between the adjacent character elements, the influence of the inclination of the image on the above-mentioned "close to each other" is very small. The influence of the image inclination on the above-mentioned character string extraction is small. Therefore, as compared with the method according to the related art, there is an effect that a proper character string can be extracted for a wide range of inclination of an input image.

【0078】なお、この発明が上述の実施例に基づいて
説明されたが、この発明は必ずしも上述の実施例に限定
されるわけではない。たとえば、「互いに近い」という
関係の定義は、上述の説明中に挙げたものに限らず、2
つの文字要素が異なる文字列に属するときには一般に成
り立たず、2つの文字要素が同一の文字列に属しており
かつ隣合っているときに一般に成り立つようてものであ
ればどのように定めてもよい。
Although the present invention has been described based on the above embodiment, the present invention is not necessarily limited to the above embodiment. For example, the definition of the relationship “close to each other” is not limited to the definition given in the above description, and
It does not generally hold when two character elements belong to different character strings, and may generally be set when two character elements belong to the same character string and are adjacent to each other.

【0079】また、上述の整数配列の要素の値の書換え
方法も、説明したような場合分け(a)〜(c)に挙げ
られたもののみに限らない。たとえば、(a)〜(c)
に挙げられた式中において、記号「>」と「<」とを入
れ換えても差し支えない。
The method of rewriting the values of the elements of the above-mentioned integer array is not limited to the methods described in the case classifications (a) to (c) as described above. For example, (a)-(c)
In the formula given in (1), the symbols “>” and “<” may be interchanged.

【0080】以上この発明を実施例に基づいて詳細に説
明したが、この発明は上述の実施例には限定されず、こ
れ以外にも様々な変形を加えて実施可能であることはい
うまでもない。
Although the present invention has been described in detail based on the embodiments, it is needless to say that the present invention is not limited to the above-mentioned embodiments and can be implemented with various modifications. Absent.

【0081】[0081]

【発明の効果】以上のように請求項1に記載の文字列抽
出方法によれば、画像中の連結領域に外接する枠を特定
するための情報が、隣接する2つの走査線信号に含まれ
る連結線分領域の連結関係を調べることによって得られ
る。従来のように画像上のすべての画素につきどの連結
領域に属するかを記憶しておく必要がなく、必要な記憶
容量を大幅に減少することができる。また、得られた外
接枠情報の間に同値関係を成立するか否かを調べること
により、画像に含まれる連結領域が同値類に分類され、
同一の同値類に属する連結領域が1つの文字列を構成す
る要素として抽出される。この分類過程は処理順序に関
係なく一定の結果が得られ、安定した処理結果を得るこ
とができる。その結果、少ない記憶容量で、安定した処
理結果を得ることができる、文字列抽出方法を提供する
ことができる。
As described above, according to the character string extracting method of the first aspect, the information for specifying the frame circumscribing the connected area in the image is included in the two adjacent scanning line signals. It is obtained by examining the connection relation of the connection line segment areas. Unlike the conventional case, it is not necessary to store which connected region all pixels on the image belong to, and the required storage capacity can be greatly reduced. Further, by checking whether or not an equivalence relation is established between the obtained circumscribing frame information, the connected region included in the image is classified into an equivalence class,
Connected regions that belong to the same equivalence class are extracted as elements that form one character string. In this classification process, a constant result can be obtained regardless of the processing order, and a stable processing result can be obtained. As a result, it is possible to provide a character string extraction method that can obtain a stable processing result with a small storage capacity.

【0082】請求項2に記載の文字列抽出方法によれ
ば、抽出された文字要素の間に、予め定める同値関係が
成立するか否かを調べることにより、文字要素を同値類
に分類する処理が行なわれる。そして、同一の同値類に
属する文字要素が、1つの文字列を構成する要素として
抽出される。同値関係の正否に基づいて同値類に分類す
る処理は、その処理順序に依存せず、安定した処理結果
を得ることができる。
According to the character string extraction method of the second aspect, a process of classifying character elements into equivalence classes by checking whether or not a predetermined equivalence relation is established between the extracted character elements. Is performed. Then, the character elements belonging to the same equivalence class are extracted as the elements constituting one character string. The processing of classifying into the equivalence class based on whether the equivalence relation is correct or not can obtain a stable processing result without depending on the processing order.

【0083】請求項3に記載の文字領域検出方法によれ
は、画像中の連結領域に外接する外接枠を特定するため
の情報が、隣接する2つの走査線信号に含まれる連結線
分領域の連結関係を調べることのみによって行なえる。
画像中のすべての画素について、その属する連結領域を
記憶する必要がなく、外接枠情報を得るために必要とさ
れる記憶容量が大幅に削減できる。
According to the character area detecting method of the third aspect, the information for specifying the circumscribing frame circumscribing the connecting area in the image is the connecting line segment area included in the two adjacent scanning line signals. It can be done only by examining the connection relationship.
It is not necessary to store the connected area to which all the pixels in the image belong, and the storage capacity required to obtain the circumscribing frame information can be greatly reduced.

【図面の簡単な説明】[Brief description of drawings]

【図1】図1は、本発明にかかる文字列抽出方法を行な
うためのプログラムのフローチャートである。
FIG. 1 is a flowchart of a program for carrying out a character string extracting method according to the present invention.

【図2】図2は、図1に示される、画像中の文字要素を
取出す処理を実現するためのプログラムのフローチャー
トである。
FIG. 2 is a flowchart of a program for realizing a process of extracting a character element in an image shown in FIG.

【図3】図3は、図1に示される文字列を取出す処理を
実現するためのプログラムのフローチャートである。
FIG. 3 is a flowchart of a program for realizing the process of extracting the character string shown in FIG.

【図4】図4は、画像中の2つの走査線に含まれるライ
ン上の連結領域間の連結関係を示す模式図である。
FIG. 4 is a schematic diagram showing a connection relationship between connection regions on lines included in two scanning lines in an image.

【図5】図5は、異なる連結領域に含まれる、ライン上
の連結領域およびそれら連結領域が属する長方形を示す
模式図である。
FIG. 5 is a schematic diagram showing connected areas on a line and rectangles to which the connected areas belong, which are included in different connected areas.

【図6】図6は、図5に示される2つの連結領域の属す
る長方形が、ラインi上の連結領域Dの存在によって互
いに長方形R0に融合される状態を示す模式図である。
6 is a schematic diagram showing a state in which the rectangles to which the two connected regions shown in FIG. 5 belong are merged into the rectangle R0 due to the presence of the connected region D on the line i.

【図7】図7は、画像から抽出される連結領域を示す模
式図である。
FIG. 7 is a schematic diagram showing a connected region extracted from an image.

【図8】図8は、画像上の各連結領域に割り当てられる
整数値が初期化された状態を示す模式図である。
FIG. 8 is a schematic diagram showing a state in which an integer value assigned to each connected region on an image is initialized.

【図9】図9は、文字要素C0、C3の間に「互いに近
い」という関係が成り立つ場合の、文字列抽出の途中経
過を示す模式図である。
FIG. 9 is a schematic diagram showing an intermediate process of character string extraction in the case where the relationship “close to each other” is established between the character elements C0 and C3.

【図10】図10は、文字要素C4、C8が「互いに近
い」という関係を満たす場合の、画像の模式図である。
FIG. 10 is a schematic diagram of an image when the character elements C4 and C8 satisfy the relationship of being “close to each other”.

【図11】図11は、文字要素C4、C8に「互いに近
い」という関係が成り立った場合に、各文字要素に割り
当てられている整数値を更新した後の状態を示す模式図
である。
FIG. 11 is a schematic diagram showing a state after updating an integer value assigned to each character element when the relationship “close to each other” is established for the character elements C4 and C8.

【図12】図12は、本発明にかかる文字列抽出方法に
より、文字列が抽出された結果を示す模式図である。
FIG. 12 is a schematic diagram showing a result of extracting a character string by the character string extracting method according to the present invention.

【図13】図13は、本発明にかかる文字列抽出方法を
適用した、文字認識装置のブロック図である。
FIG. 13 is a block diagram of a character recognition device to which a character string extraction method according to the present invention is applied.

【図14】図14は、文字要素抽出部2のより詳細な模
式的ブロック図である。
FIG. 14 is a more detailed schematic block diagram of the character element extraction unit 2.

【図15】図15は、文字列抽出部3の、より詳細な模
式的ブロック図である。
FIG. 15 is a more detailed schematic block diagram of the character string extraction unit 3.

【符号の説明】[Explanation of symbols]

1 画像入力部 2 文字要素抽出部 3 文字列抽出部 4 個別文字抽出部 5 文字マッチング部 6 認識結果後処理部 7 最終結果出力部 8 文字標準パターン 1 image input part 2 character element extraction part 3 character string extraction part 4 individual character extraction part 5 character matching part 6 recognition result post-processing part 7 final result output part 8 character standard pattern

───────────────────────────────────────────────────── フロントページの続き (72)発明者 桑田 みな子 大阪市阿倍野区長池町22番22号 シヤープ 株式会社内 (72)発明者 竹原 和宏 大阪市阿倍野区長池町22番22号 シヤープ 株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Minako Kuwata 22-22 Nagaike-cho, Abeno-ku, Osaka-shi, Sharp Corporation (72) Kazuhiro Takehara 22-22 Nagaike-cho, Abeno-ku, Osaka City, Sharp Corporation

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 画像を読取り、連続する複数本の2値走
査線信号に変換するステップと、 順次与えられる前記2値走査線信号を順次分析し、先行
する第1の前記2値走査線信号より以前の前記2値走査
線信号により表現される連結領域に外接する、外接枠の
形状を特定するための外接枠情報を得て、前記外接枠情
報を保持するステップと、 前記第1の2値走査線信号の直後に後続する第2の前記
2値走査線信号に含まれる連結線分領域を検出し、前記
連結線分領域と連結関係にある前記連結領域の前記外接
枠情報を更新するとともに、前記連結線分領域のいずれ
とも連結関係にない前記連結領域の存在を検出して、そ
の前記外接枠情報を出力するステップと、 前記画像の終了を検出して、保持されているすべての前
記外接枠情報を出力するステップと、 任意の2つの前記外接枠情報の間に、予め定める同値関
係が成立するか否かを調べることにより、各前記外接枠
情報に内接する前記連結領域を同値類に分類するステッ
プと、 同一の前記同値類に属する前記連結領域を1つの文字列
の構成要素として抽出するステップとを含む、文字列抽
出方法。
1. A step of reading an image and converting it into a plurality of continuous binary scan line signals, and sequentially analyzing the binary scan line signals that are sequentially applied to precede the first binary scan line signal. Obtaining circumscribing frame information for specifying the shape of the circumscribing frame, which circumscribes the connected region represented by the binary scanning line signal earlier, and holds the circumscribing frame information; A connection line segment area included in the second binary scan line signal immediately following the value scan line signal is detected, and the circumscribing frame information of the connection area having a connection relationship with the connection line segment area is updated. Together with the step of detecting the presence of the connected area that is not connected to any of the connected line segment areas, and outputting the circumscribing frame information, and detecting the end of the image, all the held Outputs the information of the circumscribed frame And a step of classifying the connected region inscribed in each of the circumscribing frame information into equivalence classes by checking whether or not a predetermined equivalence relation is established between the step and any two of the circumscribing frame information, And a step of extracting the connected regions belonging to the same equivalence class as constituent elements of one character string.
【請求項2】 画像から文字要素を抽出するステップ
と、 抽出された各前記文字要素の間に、予め定める同値関係
が成立するか否かを調べることにより前記文字要素を同
値類に分類するステップと、 同一の前記同値類に属する前記文字要素を1つの文字列
の構成要素として抽出するステップとを含む、文字列抽
出方法。
2. A step of extracting a character element from an image, and a step of classifying the character element into an equivalence class by checking whether or not a predetermined equivalence relation is established between each of the extracted character elements. And a step of extracting the character elements belonging to the same equivalence class as constituent elements of one character string.
【請求項3】 画像を読取り、連続する複数本の2値走
査線信号に変換するステップと、 順次与えられる前記2値走査線信号を順次分析し、先行
する第1の前記2値走査線信号より以前の前記2値走査
線信号により表現される連結領域に外接する、外接枠の
形状を特定するための外接枠情報を得て、前記外接枠情
報を保持するステップと、 前記第1の2値走査線信号の直後に後続する第2の前記
2値走査線信号に含まれる連結線分領域を検出し、前記
連結線分領域と連結関係にある前記連結領域の前記外接
枠情報を更新するとともに、前記連結線分領域のいずれ
とも連結関係にない前記連結領域の存在を検出して、そ
の前記外接枠情報を出力するステップと、 前記画像の終了を検出して、保持されているすべての前
記外接枠情報を出力するステップとを含む、文字領域検
出方法。
3. A step of reading an image and converting it into a plurality of continuous binary scan line signals, and sequentially analyzing the binary scan line signals that are sequentially applied to precede the first binary scan line signal. Obtaining circumscribing frame information for specifying the shape of the circumscribing frame, which circumscribes the connected region represented by the binary scanning line signal earlier, and holds the circumscribing frame information; A connection line segment area included in the second binary scan line signal immediately following the value scan line signal is detected, and the circumscribing frame information of the connection area having a connection relationship with the connection line segment area is updated. Together with the step of detecting the presence of the connected area that is not connected to any of the connected line segment areas, and outputting the circumscribing frame information, and detecting the end of the image, all the held Output the information of the circumscribed frame A character area detection method including a step.
JP3241486A 1991-09-20 1991-09-20 String extraction method Expired - Fee Related JP3058489B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3241486A JP3058489B2 (en) 1991-09-20 1991-09-20 String extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3241486A JP3058489B2 (en) 1991-09-20 1991-09-20 String extraction method

Publications (2)

Publication Number Publication Date
JPH0581474A true JPH0581474A (en) 1993-04-02
JP3058489B2 JP3058489B2 (en) 2000-07-04

Family

ID=17075034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3241486A Expired - Fee Related JP3058489B2 (en) 1991-09-20 1991-09-20 String extraction method

Country Status (1)

Country Link
JP (1) JP3058489B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532303B2 (en) 1997-08-29 2003-03-11 Sharp Kabushiki Kaisha Line direction deciding device, image inclination detecting device and image inclination correcting device
US8792719B2 (en) 2011-07-29 2014-07-29 Brother Kogyo Kabushiki Kaisha Image processing device determining attributes of regions
US8830529B2 (en) 2011-07-29 2014-09-09 Brother Kogyo Kabushiki Kaisha Image processing device for accurately identifying region in image without increase in memory requirement
US8837836B2 (en) 2011-07-29 2014-09-16 Brother Kogyo Kabushiki Kaisha Image processing device identifying attribute of region included in image
US8929663B2 (en) 2011-07-29 2015-01-06 Brother Kogyo Kabushiki Kaisha Image processing device identifying region in image as one of uniform region and nonuniform region

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532303B2 (en) 1997-08-29 2003-03-11 Sharp Kabushiki Kaisha Line direction deciding device, image inclination detecting device and image inclination correcting device
US8792719B2 (en) 2011-07-29 2014-07-29 Brother Kogyo Kabushiki Kaisha Image processing device determining attributes of regions
US8830529B2 (en) 2011-07-29 2014-09-09 Brother Kogyo Kabushiki Kaisha Image processing device for accurately identifying region in image without increase in memory requirement
US8837836B2 (en) 2011-07-29 2014-09-16 Brother Kogyo Kabushiki Kaisha Image processing device identifying attribute of region included in image
US8929663B2 (en) 2011-07-29 2015-01-06 Brother Kogyo Kabushiki Kaisha Image processing device identifying region in image as one of uniform region and nonuniform region

Also Published As

Publication number Publication date
JP3058489B2 (en) 2000-07-04

Similar Documents

Publication Publication Date Title
JP2951814B2 (en) Image extraction method
DE60303202T2 (en) SYSTEM AND METHOD FOR IDENTIFYING AND EXTRACTING CHARACTER CHARTS FROM RECORDED IMAGE DATA
RU2621601C1 (en) Document image curvature eliminating
CN110942074A (en) Character segmentation recognition method and device, electronic equipment and storage medium
CN111461133B (en) Express delivery surface single item name identification method, device, equipment and storage medium
CN112446259A (en) Image processing method, device, terminal and computer readable storage medium
CN112507782A (en) Text image recognition method and device
US20210056429A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
JPH1196301A (en) Character recognizing device
CN114429636B (en) Image scanning identification method and device and electronic equipment
CN112364863B (en) Character positioning method and system for license document
CN113628113A (en) Image splicing method and related equipment thereof
CN113065404A (en) Method and system for detecting train ticket content based on equal-width character segments
JPH0581474A (en) Character string extracting method and character area detecting method
JPH0869506A (en) Method and equipment for recognition of handwritten character
CN115965987A (en) Table character structured recognition method based on heterogeneous architecture
CN112419208A (en) Construction drawing review-based vector drawing compiling method and system
CN115546796A (en) Non-contact data acquisition method and system based on visual computation
JPH06208625A (en) Method and device for processing image
JPH08320914A (en) Table recognition method and device
US11270146B2 (en) Text location method and apparatus
JP3476595B2 (en) Image area division method and image binarization method
JP2001022883A (en) Character recognizing system and recording medium for realizing function for the same
JPH08235359A (en) Pattern matching method and device thereof
JPH09305707A (en) Image extracting system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080421

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees