JPH0467674B2 - - Google Patents

Info

Publication number
JPH0467674B2
JPH0467674B2 JP60017265A JP1726585A JPH0467674B2 JP H0467674 B2 JPH0467674 B2 JP H0467674B2 JP 60017265 A JP60017265 A JP 60017265A JP 1726585 A JP1726585 A JP 1726585A JP H0467674 B2 JPH0467674 B2 JP H0467674B2
Authority
JP
Japan
Prior art keywords
character
pattern
basic pattern
evaluation value
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60017265A
Other languages
Japanese (ja)
Other versions
JPS61175878A (en
Inventor
Fumio Yoda
Yoji Maeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP60017265A priority Critical patent/JPS61175878A/en
Publication of JPS61175878A publication Critical patent/JPS61175878A/en
Publication of JPH0467674B2 publication Critical patent/JPH0467674B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

〔産業上の利用分野〕 本発明は、文書読取り装置に関するものであ
り、特に読取つた文書内の文字列から文字パター
ンを切り出す手段の改良に関するものである。 〔従来の技術〕 文字を認識するには、用紙に記入された文字を
光電交換し、文字の部分とその背景の部分に対応
した“1”,“0”の2値信号に変換した画像パタ
ーンから1文字づつ文字パターンを切り出さなけ
ればならない。 第7図は特公昭55−42434号に示された従来の
この種装置の構成を示す図であり、図中1は用
紙、2は用紙1上に記入された文字を光学的に走
査した光電交換する走査手段、3は光電交換され
た1行分の文字の画像情報を格納するパターンメ
モリ、4は上記パターンメモリ3を文字の各行毎
に上下に走査して求めた周辺分布値が予め設定し
たしきい値K以上の場合には「1」、K未満の場
合「0」に2値化した画像パターンから「1」が
連続する部分に対応する上記パターンメモリ3内
の画像パターン(以下、「基本パターン」と言う)
の左端の座標と右端の座標とを検出する左端右端
検出手段である。5は予め文書フオーマツト情報
として与えられるか、あるいは用紙1上に記入さ
れたマーク情報等から文字枠の座標を検出し、こ
の情報を格納する枠情報検出である。6は1文字
のパターンを切り出す文字切り出し手段、7は切
り出した文字のパターンを格納する切り出しパタ
ーンバツフアである。 従来の文字パターン切り出し装置は、上記のよ
うに構成され、左端/右端検出手段4で検出した
基本パターンの左端と右端の座標と、上記枠情報
検出手段5で検出した文字枠の座標とを比較する
ことにより、1文字のパターンを切り出すように
なつている。 〔発明が解決しようとする問題点〕 ところが、上記のような従来装置では、文字枠
の座標と文字枠の大きさの情報を基準にして1文
字ずつ文字パターンを切り出すため、漢字の
「語」などのように左右に分離しても独立の文字
として読める文字では、文字枠を意識して記入さ
れておれば、「言」と「吾」との2つの文字要素
を分離することなく正しく1文字として切り出す
ことができるが、文字が文字枠を意識しない記入
された自由な書式の手書き文字列の場合には、文
字枠の情報が使えないため、文字パターンを正し
く切り出せないという問題点があつた。 この発明は、このような問題点を解決するため
になされたもので、文字記入枠を設定しない文書
に記入された文字列を1文字ずつ正しく切り出す
ことができる文書読取り装置を提供することを目
的としている。 〔問題点を解決するための手段〕 この発明に係る文書読取装置は、1行の文字列
イメージを文字列と直交する方向に走査して得た
周辺分布値をしきい値で2値化し、その結果の連
続性に基づいて上記文字列イメージから切り出し
た基本パターンの左、右、上、下端の座標を基本
パターン毎に検出する基本パターン領域検出手段
と、隣接する基本パターンを複数個結合して得ら
れる結合パターン及び基本パターンのそれぞれの
形状の文字らしさを示す文字評価値を、上記基本
パターンの左、右、上、下端の座標から求めたパ
ターン幅と高さとパターン間の空白部分幅に基づ
いて各々算出する文字評価値算出手段と、上記文
字列イメージにおける文字パターンの切り出し候
補位置のあらゆる可能な組合せを上記基本パター
ンの位置情報から求め、各々の切り出し候補位置
の組について、上記切り出し候補位置で切出され
た基本パターン及び結合パターンそれぞれの文字
評価値に基づいて1行の文字列に対する切り出し
評価値を求め、この切り出し評価値が最大となる
基本パターンと結合パターンによる文字切り出し
位置の組を最適な組み合せとして決定する文字切
り出し位置決定手段と、上記文字切り出し位置決
定手段で決定した基本パターンと結合パターンの
組の位置情報に基づいて文字列イメージから1文
字づつ文字パターンを切り出す文字切り出し手段
とを備えたものである。 〔作 用〕 この発明においては、基本パターン検出手段で
文字を構成する文字要素の基本パターンの位置情
報を検出した後、文字評価値算出手段において上
記基本パターンの位置情報を用いて上記基本パタ
ーンおよび上記基本パターンを結合したときの結
合パターンがどの程度文字パターンらしいかを定
量的に表わした文字評価値を算出し、上記文字切
り出し位置決定手段においてこの文字評価値の大
きさに基づいて文字として切り出す基本パターン
の位置を決定する。このため、文字枠などの情報
がなくても文字を正しく切り出すことができる。 〔発明の実施例〕 以下、図面を用いて本発明を詳細に説明する。 第1図は、この発明の実施例の構成を示す図で
ある。図中、1,2,3,7は従来装置と同一の
ものである。8は従来装置と同一の手法で求めた
基本パターンの左端と右端の座標に加え、さらに
基本パターンの上端と下端の座標を検出する基本
パターン領域検出手段である。9は上記基本パタ
ーン領域検出手段8で求めた基本パターンの位置
情報から基本パターンおよび連続する複数個の基
本パターンを結合した結合パターンのそれぞれが
どの程度1文字のパターンらしいかを定量化した
値(以後「文字評価値」と呼ぶ)を計算する文字
評価値算出手段である。10は上記文字評価値算
出手段9で求めた文字評価値の大きさに基づき切
り出す文字パターンの位置を決定する文字切り出
し位置決定手段である。11は上記文字切り出し
位置決定手段10で決定した切り出し位置情報に
基づいて上記パターンメモリ3から1文字ずつ文
字パターンを読み出し、切り出しパターンバツフ
ア7に転送する文字切り出し手段である。 第2図は、用紙に記入された1行文字列イメー
ジとしての入力文字列の例を示す図であり、図
中、1は用紙、12は一例として掲げた入力文字
列「読み取る」、13は文字枠である。 第3図は、上記基本パターン領域検出手段8の
処理を説明するための図であり、図中、14は上
記パターンメモリ3に格納した画像情報、15は
上記画像情報14の文字射影図、16,17,1
8,19は基本パターンの左端、右端、上端、下
端の座標である。 以下、第2図、第3図を用いて基本パターン領
域検出手段8の動作を説明する。 まず、第2図の用紙1上に記載された文字列
「読み取る」12は、走査手段2で光電変換され、
1行分の画像情報となり、パターンメモリ3に格
納される。なお、第2図に示した文字枠13は、
本発明の処理とは特に関係がないが入力文字列
「読み取る」12は不規則なピツチで記入されて
いることを明確にさせるために便宜上提示したも
のであり、上記パターンメモリ3に格納した上記
画像情報14には文字枠に相当する画像情報は含
まれない。 次に、パターンメモリ3内の画像情報14は、
基本パターン領域検出手段8に転送される。基本
パターン領域検出手段8では、画像情報14から
文字の構成要素となる基本パターンを抽出し、各
基本パターンに外接する矩形の左端と右端および
上端と下端との座標を基本パターンの位置情報と
して検出する。具体的には、上記パターンメモリ
3内の各画素を入力文字列「読み取る」12と直
交する上下方向に走査して画像情報14の文字部
分を表わす画素数を計数することにより、画像情
報14の周辺分布値を求め、この周辺分布値が所
定のしきい値K以上の場合は「1」、そうでない
場合は「0」の2値化画像情報に変換し、元の画
像情報に対応する文字射影図15を作成する。次
に、文字射影図15のうち値「1」の画像情報が
連続する部分の幅を基本パターンの幅と見なし、
上記画像情報14から各基本パターンの端の座標
16と右端の座標17を検出する。また、各基本
パターンの左端の座標16と右端の座標17を検
出した後、各基本パターンの上端の座標18と下
端の座標19を検出する。例えば、第3図の基本
パターン「言」の上端の座標18と下端の座標1
9は、基本パターン「言」の左端の座標16と右
端の座標17に囲まれた範囲に存在する画像情報
14の各画素に対し、上端の行から下端の行に向
かつて左右方向に走査した時、はじめて文字部分
を示す画素に出合つた時の座標を基本パターン
「言」の上端の座標18とし、最後に出合つた文
字部分を示す画素の行の座標を基本パターンの下
端の座標19として決定する。 第1表は、基本パターンの位置情報を示す表で
あり、画像情報14から抽出した「言」、「売」、
「み」、「耳」、「又」、「る」の計6個の基本パター
ンの位置情報が示してある。
[Industrial Field of Application] The present invention relates to a document reading device, and particularly to an improvement in means for cutting out a character pattern from a character string in a read document. [Prior art] To recognize characters, an image pattern is created by photoelectrically converting the characters written on paper into binary signals of "1" and "0" corresponding to the character part and its background part. The character pattern must be cut out one character at a time. Fig. 7 is a diagram showing the configuration of a conventional device of this kind shown in Japanese Patent Publication No. 55-42434. Scanning means to be replaced; 3 is a pattern memory that stores image information of one line of characters that have been photoelectrically exchanged; 4 is a peripheral distribution value determined in advance by scanning the pattern memory 3 up and down for each line of characters; The image pattern in the pattern memory 3 (hereinafter referred to as (referred to as "basic pattern")
This is left end/right end detection means for detecting the left end coordinates and the right end coordinates of. Reference numeral 5 denotes frame information detection in which the coordinates of a character frame are detected from mark information, etc., given in advance as document format information or written on the sheet 1, and this information is stored. 6 is a character cutting means for cutting out a pattern of one character, and 7 is a cutting pattern buffer for storing the cut out character pattern. The conventional character pattern cutting device is configured as described above, and compares the coordinates of the left end and right end of the basic pattern detected by the left end/right end detection means 4 with the coordinates of the character frame detected by the frame information detection means 5. By doing this, a pattern of one character can be cut out. [Problems to be Solved by the Invention] However, in the conventional device as described above, character patterns are cut out character by character based on the coordinates of the character frame and the size of the character frame. For characters such as ``word'' and ``go'' that can be read as independent characters even if separated to the left and right, if the characters are written with the character frame in mind, the two character elements ``go'' and ``go'' can be written correctly without separating them. It is possible to cut out characters as characters, but if the characters are handwritten strings written in a free format without being aware of the character frame, there is a problem that the character pattern cannot be extracted correctly because the character frame information cannot be used. Ta. The present invention was made in order to solve such problems, and an object of the present invention is to provide a document reading device that can correctly cut out character strings written in a document without a character entry frame one character at a time. It is said that [Means for solving the problem] The document reading device according to the present invention binarizes the marginal distribution value obtained by scanning a character string image of one line in a direction orthogonal to the character string using a threshold value, Basic pattern area detection means detects the left, right, top, and bottom coordinates of the basic pattern cut out from the character string image for each basic pattern based on the continuity of the result, and a plurality of adjacent basic patterns are combined. The character evaluation value indicating the character-likeness of each shape of the combined pattern and basic pattern obtained by A character evaluation value calculation means calculates each character evaluation value based on the character string image, and calculates all possible combinations of character pattern cutout candidate positions in the character string image from the position information of the basic pattern, and calculates the cutout candidate positions for each set of cutout candidate positions. A cutout evaluation value for one line of character strings is calculated based on the character evaluation values of the basic pattern and combined pattern cut out at each position, and a set of character cutout positions based on the basic pattern and combined pattern that has the maximum cutout evaluation value is determined. a character cutting position determining means for determining an optimal combination of character cutting positions, and a character cutting means for cutting out character patterns one character at a time from a character string image based on positional information of a combination of a basic pattern and a combined pattern determined by the character cutting position determining means. It is equipped with the following. [Function] In the present invention, after the basic pattern detection means detects the positional information of the basic pattern of character elements constituting a character, the character evaluation value calculation means uses the positional information of the basic pattern to detect the basic pattern and the basic pattern. A character evaluation value that quantitatively represents how much the combined pattern resembles a character pattern when the basic patterns are combined is calculated, and the character cutting position determining means cuts out the character as a character based on the size of this character evaluation value. Determine the position of the basic pattern. Therefore, characters can be correctly extracted even without information such as character frames. [Embodiments of the Invention] The present invention will be described in detail below with reference to the drawings. FIG. 1 is a diagram showing the configuration of an embodiment of the present invention. In the figure, 1, 2, 3, and 7 are the same as the conventional device. Reference numeral 8 denotes basic pattern area detection means for detecting the coordinates of the upper and lower ends of the basic pattern in addition to the coordinates of the left and right ends of the basic pattern obtained using the same method as in the conventional apparatus. 9 is a value that quantifies how much each basic pattern and a combined pattern formed by combining a plurality of consecutive basic patterns are likely to be patterns of one character, based on the basic pattern position information obtained by the basic pattern area detection means 8. This is a character evaluation value calculation means for calculating a character evaluation value (hereinafter referred to as a "character evaluation value"). Reference numeral 10 denotes a character cutting position determining means for determining the position of a character pattern to be cut out based on the size of the character evaluation value calculated by the character evaluation value calculating means 9. Reference numeral 11 denotes a character cutting means for reading character patterns one character at a time from the pattern memory 3 based on the cutting position information determined by the character cutting position determining means 10 and transferring the read character patterns to the cutting pattern buffer 7. FIG. 2 is a diagram showing an example of an input character string as a one-line character string image written on a form. In the figure, 1 is the paper, 12 is the input character string "read" as an example, and 13 is the input character string. It is a character frame. FIG. 3 is a diagram for explaining the processing of the basic pattern area detection means 8, in which 14 is the image information stored in the pattern memory 3, 15 is a character projection diagram of the image information 14, and 16 ,17,1
8 and 19 are the coordinates of the left end, right end, top end, and bottom end of the basic pattern. The operation of the basic pattern area detecting means 8 will be explained below with reference to FIGS. 2 and 3. First, the character string "read" 12 written on the paper 1 in FIG. 2 is photoelectrically converted by the scanning means 2, and
This becomes image information for one line and is stored in the pattern memory 3. Note that the character frame 13 shown in FIG.
Although it is not particularly related to the processing of the present invention, the input character string "read" 12 is presented for convenience to make it clear that it is written at irregular pitches, and the input character string "read" 12 is presented for the sake of convenience to make it clear that it is written at an irregular pitch. The image information 14 does not include image information corresponding to character frames. Next, the image information 14 in the pattern memory 3 is
The data is transferred to the basic pattern area detection means 8. The basic pattern area detection means 8 extracts basic patterns that are constituent elements of characters from the image information 14, and detects the coordinates of the left end, right end, top end, and bottom end of a rectangle circumscribing each basic pattern as position information of the basic pattern. do. Specifically, each pixel in the pattern memory 3 is scanned in the vertical direction perpendicular to the input character string "read" 12 and the number of pixels representing the character part of the image information 14 is counted, thereby reading the image information 14. The marginal distribution value is calculated, and if this marginal distribution value is greater than or equal to a predetermined threshold value K, it is converted into binary image information of "1", otherwise it is "0", and the characters corresponding to the original image information are converted. A projection diagram 15 is created. Next, in the character projection diagram 15, the width of the part where the image information with the value "1" is continuous is regarded as the width of the basic pattern,
The coordinates 16 of the edge and the coordinate 17 of the right edge of each basic pattern are detected from the image information 14. Further, after detecting the coordinates 16 of the left end and the coordinates 17 of the right end of each basic pattern, the coordinates 18 of the top end and the coordinates 19 of the bottom end of each basic pattern are detected. For example, the coordinate 18 of the upper end of the basic pattern "word" in Figure 3 and the coordinate 1 of the lower end
9 scans each pixel of the image information 14 in the range surrounded by the leftmost coordinate 16 and the rightmost coordinate 17 of the basic pattern "word" in the horizontal direction from the top row to the bottom row. At this time, the coordinates when the first pixel representing the character part is encountered are determined as the coordinates 18 of the upper end of the basic pattern "word", and the coordinates of the row of pixels representing the last character part encountered are determined as the coordinates 19 of the lower end of the basic pattern. do. Table 1 is a table showing the position information of the basic pattern, including "word", "sale", and "sale" extracted from the image information 14.
Position information is shown for a total of six basic patterns: "mi", "mimi", "mata", and "ru".

【表】 次に、文字評価値算出手段9の処理について説
明する。文字評価値算出手段9では、第1表に示
した各基本パターンの位置情報を用いて1つの基
本パターンで構成されているパターンがどの程度
文字らしいか、また連続する複数個の基本パター
ンを結合して構成される結合パターンがどの程度
文字らしいかを示す文字評価値を算出する。 文字評価値は次の方法で算出される。 一般に文字は、個々に独立した小さな図形であ
り、以下に示す性質が実験的に確かめられてい
る。 (1) 1文字は、バランスのとれた形をしている。
文字に外接する矩形は正方形に近い形状を有
す。 (2) 文字と文字の間には、文字同士を分離する空
白部分が存在する。 (3) 「語」などのような文字要素を左右に分離し
ても1つの文字として成立する文字でも、この
文字内の空白部分は上記第2項に示した文字間
の空白部分の幅に比べて狭い。 そこで、本発明では、隣接する基本パターンを
複数個結合して得られる結合パターンと基本パタ
ーンとがどの程度文字らしいかを示す文字評価値
を基本パターンの形状(縦横比)と基本パターン
間に存在する空白部分の幅の大きさに基づいて計
算する。具体的には、画像情報14内の左側の基
本パターンから順にP11,P22…PMM(計M個)
とした時、左側から第i番目の基本パターンPii
から第j番目の基本パターンPjj(i≦j)を1つ
にしたパターンPijに対する文字評価値V(i,
j)の値の大小によりパターンPijがどの程度文
字パターンらしいかを評価する。 V(i,j)=C1−C2×|Wij−Hij|/MAX(Wij,Hi
j)−C3 ×IWij/Hij+C4×Owij/Hij ……(1) ここに、 Wij :パターンPijの幅 Hij :パターンPijの高さ IWij:パターンPij内に存在する空白部分 OWij:パターンPijの両端に存在する空白部分 C1〜C4:定数 である。 式1で求まる文字評価値V(i,j)はパター
ンPijに外接する矩形が正方形に近く、またパタ
ーンPij内に存在する空白部分が狭く、さらにパ
ターンPijの両端に存在する空白部分が広いほど
大きな値をとる。 この場合、WijからOWijは基本パターン領域
検出手段8で求めた各基本パターンの左端と右端
および上端と下端との座標から求めることができ
る。 例えば、基本パターンPiiの左端と右端の座標
をSXi,EXi(SXi≦EXi)とし、上端と下端の座
標SYi,EYi(SYi≦EYi)とした時、Wij,Hij,
IWij,OWij,は以下に示す式2〜7で求めるこ
とができる。 Wij=EXj−SXi+1 ……(2) Hij=MAX(EYk)−MIN(SYk)+1 ……(3) k=i,j k=i,j IWij=O (i=j) Σ(SXk+1−EXk−1(i<j) k=i,j−1 ……(4) OWij{(SXi−EXi-l−1)+(SXj+1−EXj−1)
}/2 (1<i,j<M) SXi−EXi-l−1(≠1,j=M) SXj+1−EXj−1(i=1,j≠M) O (i=1,かつj=M)……(5) 第2表は、文字評価値算出手段9における処理
結果を示す表であつて、第1表に示した6個の基
本パターンの位置情報に基づいて式1から基本パ
ターン「言」、「売」、「み」、「耳」、「又」、「る
」お
よび連続する複数個の基本パターンを結合した結
合パターン「読」、「売」、「み耳」、「取」、「又る
」、
……の文字評価値を求めたものである。例えば、
基本パターン「言」に対する文字評価値は、「68」
であり、2つの基本パターン「言」と「売」を結
合したパターンに対する文字評価値は、「146」と
なつたことを示している。なお、この例では、連
続する3個の基本パターンまでを結合したときの
文字評価値まで求めた例を示している。
[Table] Next, the processing of the character evaluation value calculation means 9 will be explained. The character evaluation value calculation means 9 uses the position information of each basic pattern shown in Table 1 to determine how much a pattern composed of one basic pattern is like a character, and also to combine multiple consecutive basic patterns. A character evaluation value indicating how much the combined pattern formed by the above characters resembles a character is calculated. The character evaluation value is calculated by the following method. Characters are generally small, independent figures, and the following properties have been experimentally confirmed. (1) Each letter has a well-balanced shape.
A rectangle circumscribing a character has a shape close to a square. (2) There is a blank space between characters that separates them. (3) Even if a character element such as "word" can be separated to the left and right as a single character, the blank space within this character is the same as the width of the blank space between characters as shown in item 2 above. narrow in comparison. Therefore, in the present invention, a character evaluation value indicating the degree to which the combined pattern obtained by combining a plurality of adjacent basic patterns and the basic pattern resembles a character is provided between the shape (aspect ratio) of the basic pattern and the basic pattern. Calculated based on the width of the blank area. Specifically, P 11 , P 22 ... PMM (total M pieces) in order from the left basic pattern in the image information 14
Then, the i-th basic pattern Pii from the left
The character evaluation value V(i,
The degree to which the pattern Pij resembles a character pattern is evaluated based on the magnitude of the value of j). V(i,j)=C 1 −C 2 × |Wij−Hij|/MAX(Wij, Hi
j) −C 3 × IWij / Hij + C 4 × Owij / Hij ... (1) Here, Wij : Width of pattern Pij Hij : Height of pattern Pij IWij : Blank area existing in pattern Pij OWij : Width of pattern Pij Blank portions C 1 to C 4 at both ends are constants. The character evaluation value V(i, j) determined by Equation 1 is determined by Takes a large value. In this case, Wij to OWij can be determined from the coordinates of the left end, right end, upper end, and lower end of each basic pattern determined by the basic pattern area detecting means 8. For example, when the coordinates of the left and right ends of basic pattern Pii are SXi, EXi (SXi≦EXi), and the coordinates of the top and bottom ends are SYi, EYi (SYi≦EYi), Wij, Hij,
IWij, OWij, can be determined using equations 2 to 7 shown below. Wij=EXj−SXi+1 …(2) Hij=MAX(EYk)−MIN(SYk)+1……(3) k=i,j k=i,j IWij=O (i=j) Σ(SX k+ 1 −EXk−1(i<j) k=i, j−1 …(4) OWij{(SXi−EX il −1)+(SX j+1 −EXj−1)
}/2 (1<i, j<M) SXi−EX il −1 (≠1, j=M) SX j+1 −EXj−1 (i=1, j≠M) O (i=1, and j=M)...(5) Table 2 is a table showing the processing results in the character evaluation value calculation means 9, and is a table that shows the processing results of the character evaluation value calculation means 9, and is a table that shows the processing results of the character evaluation value calculation means 9. Basic patterns ``goto'', ``sale'', ``mi'', ``mimi'', ``mata'', ``ru'' and combined patterns that combine multiple consecutive basic patterns ``yomi'', ``sale'', ``mimi'' , "tori", "mataru",
The character evaluation value of ... is calculated. for example,
The character evaluation value for the basic pattern “Word” is “68”
This shows that the character evaluation value for the pattern combining the two basic patterns "goto" and "sale" is "146". Note that this example shows an example in which character evaluation values are obtained when up to three consecutive basic patterns are combined.

【表】【table】

〔発明の効果〕〔Effect of the invention〕

この発明は以上説明したように、パターンの形
状とパターン間の位置関係に基づいて1文字ずつ
文字を切り出すため、文字枠などフオーマツト情
報が与えられてない一般の用紙上に記入された文
字列から文字を1文字単位で正しく切り出すこと
ができる。
As explained above, this invention cuts out characters one by one based on the shape of the patterns and the positional relationship between the patterns, so it is possible to cut out characters one by one based on the shape of the patterns and the positional relationship between the patterns. It is possible to accurately cut out characters one by one.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例の構成を示すブロ
ツク図、第2図は用紙に記入された入力文字列の
例を示す図、第3図は基本パターン領域検出手段
の処理を説明するための図、第4図は基本パター
ンと結合パターンの組み合わせの例を示す図、第
5図は切り出し評価値を求める方法を説明するた
めの図、第6図は切り出し評価値の例を示す図、
第7図は従来装置の構成を示すブロツク図であ
る。 1……用紙、2……走査手段、3……パターン
メモリ、8……基本パターン領域検出手段、9…
…文字評価値算出手段、10……文字切り出し位
置決定手段、11……文字切り出し手段、12…
…切り出しパターンバツフア。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention, FIG. 2 is a diagram showing an example of an input character string written on a sheet, and FIG. 3 is a diagram for explaining the processing of the basic pattern area detection means. , FIG. 4 is a diagram showing an example of a combination of a basic pattern and a combined pattern, FIG. 5 is a diagram for explaining a method for obtaining a cutout evaluation value, and FIG. 6 is a diagram showing an example of a cutout evaluation value.
FIG. 7 is a block diagram showing the configuration of a conventional device. DESCRIPTION OF SYMBOLS 1...Paper, 2...Scanning means, 3...Pattern memory, 8...Basic pattern area detection means, 9...
...Character evaluation value calculation means, 10...Character cutting position determining means, 11...Character cutting means, 12...
...Cut out pattern buffer.

Claims (1)

【特許請求の範囲】[Claims] 1 文書に記載された文字の画像を読取り、その
読取り画像に基づいて文字を認識する文書読取り
装置において、1行の文字列イメージを走査して
得た周辺分布値をしきい値で2値化し、その結果
の連続性に基づいて上記文字列イメージから切り
出した基本パターンの左、右、上、下端の座標を
基本パターン毎に検出する基本パターン領域検出
手段と、隣接する基本パターンを複数個結合して
得られる結合パターン及び基本パターンのそれぞ
れの形状の文字らしさを示す文字評価値を、上記
基本パターンの左、右、上、下端の座標から求め
たパターン幅と高さとパターン間の空白部分幅に
基づいて各々算出する文字評価値算出手段と、上
記文字列イメージにおける文字パターンの切り出
し候補位置のあらゆる可能な組合せを上記基本パ
ターンの位置情報から求め、各々の切り出し候補
位置の組について、上記切り出し候補位置で切り
出された基本パターン及び結合パターンそれぞれ
の文字評価値に基づいて1行の文字列に対する切
り出し評価値を求め、この切り出し評価値が最大
となる基本パターンと結合パターンによる文字切
り出し位置の組を最適な組み合せとして決定する
文字切り出し位置決定手段と、上記文字切り出し
位置決定手段で決定した基本パターンと結合パタ
ーンの組の位置情報に基づいて文字列イメージか
ら1文字づつ文字パターンを切り出す文字切り出
し手段とを備えて成る文書読取り装置。
1 In a document reading device that reads an image of characters written on a document and recognizes the characters based on the read image, the marginal distribution value obtained by scanning one line of character string image is binarized using a threshold value. , basic pattern area detection means for detecting the left, right, top, and bottom coordinates of the basic pattern cut out from the character string image for each basic pattern based on the continuity of the result, and combining a plurality of adjacent basic patterns. The character evaluation value indicating the character-likeness of each shape of the combined pattern and basic pattern obtained by A character evaluation value calculation means that calculates each character evaluation value based on A cutout evaluation value for one line of character strings is calculated based on the character evaluation values of the basic patterns and combined patterns cut out at candidate positions, and a set of character cutout positions based on the basic pattern and combined pattern that has the maximum cutout evaluation value is determined. a character cutting position determining means for determining an optimal combination of character cutting positions, and a character cutting means for cutting out character patterns one character at a time from a character string image based on positional information of a combination of a basic pattern and a combined pattern determined by the character cutting position determining means. A document reading device comprising:
JP60017265A 1985-01-31 1985-01-31 Document reading device Granted JPS61175878A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60017265A JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60017265A JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Publications (2)

Publication Number Publication Date
JPS61175878A JPS61175878A (en) 1986-08-07
JPH0467674B2 true JPH0467674B2 (en) 1992-10-29

Family

ID=11939132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60017265A Granted JPS61175878A (en) 1985-01-31 1985-01-31 Document reading device

Country Status (1)

Country Link
JP (1) JPS61175878A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0337782A (en) * 1989-07-04 1991-02-19 Mitsubishi Electric Corp Character pattern segmenting device
JP5032557B2 (en) * 2009-12-28 2012-09-26 株式会社東芝 Pattern recognition apparatus and pattern recognition method
JP6003705B2 (en) 2013-02-14 2016-10-05 富士ゼロックス株式会社 Information processing apparatus and information processing program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (en) * 1983-12-20 1985-07-15 Nec Corp Character separating device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (en) * 1983-12-20 1985-07-15 Nec Corp Character separating device

Also Published As

Publication number Publication date
JPS61175878A (en) 1986-08-07

Similar Documents

Publication Publication Date Title
US7194144B1 (en) Document image processing device, document image merging method, and storage medium recording a document image merging program
US8027539B2 (en) Method and apparatus for determining an orientation of a document including Korean characters
US7149352B2 (en) Image processing device, program product and system
JP3728224B2 (en) Document processing apparatus and method
JPH0467674B2 (en)
JP5041775B2 (en) Character cutting method and character recognition device
JP2009223612A (en) Image recognition device and program
JP2623844B2 (en) Character line extraction device
JPH0410087A (en) Base line extracting method
JPS6325391B2 (en)
JPH0728935A (en) Document image processor
JPH0916713A (en) Image area dividing method
JPH0373916B2 (en)
JPH0728934A (en) Document image processor
JP3334369B2 (en) Selection item recognition device
JP4180148B2 (en) Character / border separation method
JP2708604B2 (en) Character recognition method
JP3022655B2 (en) Character recognition device
JP2925270B2 (en) Character reader
JPS62169287A (en) Recorded character type discriminating system
JPH05135204A (en) Character recognition device
JPS61195474A (en) Character pattern segmenting device
JPH0573718A (en) Area attribute identifying system
JPH0713984A (en) Image processor
JP2022184331A (en) Ledger sheet particular field recognizing method and particular field reading device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term