JPS60132281A - Character separating device - Google Patents

Character separating device

Info

Publication number
JPS60132281A
JPS60132281A JP58240335A JP24033583A JPS60132281A JP S60132281 A JPS60132281 A JP S60132281A JP 58240335 A JP58240335 A JP 58240335A JP 24033583 A JP24033583 A JP 24033583A JP S60132281 A JPS60132281 A JP S60132281A
Authority
JP
Japan
Prior art keywords
character
separation
section
separation candidate
candidate position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58240335A
Other languages
Japanese (ja)
Other versions
JPH0368431B2 (en
Inventor
Yoshitake Tsuji
辻 善丈
Hiroshi Asai
淺井 紘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP58240335A priority Critical patent/JPS60132281A/en
Priority to US06/683,576 priority patent/US4635290A/en
Priority to DE8484115985T priority patent/DE3486104T2/en
Priority to EP91100048A priority patent/EP0428499B1/en
Priority to DE3486241T priority patent/DE3486241T2/en
Priority to EP84115985A priority patent/EP0146147B1/en
Publication of JPS60132281A publication Critical patent/JPS60132281A/en
Publication of JPH0368431B2 publication Critical patent/JPH0368431B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To determine easily and with a high accuracy a character separating candidate example position by calculating a sequence of the character separating candidate example position for minimizing a dispersion of a distance between each separating proposed example position, between each separating candidate example section, and a dispersion regarding a shift quantity of an average distance and a characer pitch, by using a dynamic planning method. CONSTITUTION:An allowable section which can set a character separating position is set by using a character pitch P and threshold levels T1, T2. Subsequently, by using the character pitch P and a threshold level T3, a separating candidate example section (k) (provided that k>=0) is set successively, and with respect to a separating candidate example position (x) (k, ik) (provided that ik>=1) in each separating candidate example section (k), a distance (d) (k, k+1; ik, kk+1) between each separating candidate example position is calculated. Subsequently, a dispersion sigma<2>d of the distance (d) (k, k+1; ik, ik+1) calculated in each separating candidate example section (k), and an evaluating measure U consisting of a double of a double error (mud-P)<2> of a shift of an average value mud and the character pitch P are calculated. Next, a sequence of a separating candidate example position (x) (k,ik) (k>=0) for minimizing its evaluating measure is derived, by which a character separation determining position is determined.

Description

【発明の詳細な説明】 本発明は、紙面上に記載された文字列イメージを個々の
文字に分離する文字分離装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character separation device that separates a character string image written on paper into individual characters.

各種印刷文字群を光学的に読み取る装置(以下、0C几
と呼ぶ)において、一連の文字を認識する場合、各文字
を1字毎に分離して文字認識部に送出してやる必要があ
る。ところで、郵便物や大量の文書をOC几により読み
取る場合、印刷物の品質や印字スタイルが多種存在して
おり、それ等を読取対象として取り扱う必要が生じる。
When recognizing a series of characters in a device that optically reads various groups of printed characters (hereinafter referred to as 0C), it is necessary to separate each character one by one and send it to a character recognition unit. By the way, when reading mail or a large amount of documents using an OC machine, there are many different qualities and printing styles of printed matter, and it is necessary to handle them as objects to be read.

このような場合、紙面上の文字列イメージに、文字間に
接触が生じたり% 1文字が2文字以上に分離する状態
が生じ、これらを効率良く取り扱うことができる文字分
離手法が要求される。従来、このような読取り対象の制
約条件が緩和された入力データも含まれる場合、個々の
ケースに有効と思われる機能を追加した文字分離手法が
適用されている。しかし、このように個々のケースに対
応した機能を適宜追加することは文字分離の精度を低下
させたリ、あるいは、個々の対象物毎に異なった機能を
持つ文字分離装置を開発する必要性が生じる。
In such a case, characters may come into contact with each other in the character string image on the paper, or a % 1 character may be separated into two or more characters, and a character separation method that can efficiently handle these situations is required. Conventionally, when input data that has relaxed constraints on the reading target is included, character separation methods have been applied that add functions that are considered effective in each case. However, adding functions corresponding to individual cases as appropriate may reduce the accuracy of character separation, or may require the development of character separation devices with different functions for each individual object. arise.

そこで、本発明の目的は、上記従来の問題点を解決する
ために文字ピッチ及び空白情報を用いて、順次、分離候
補区間を設定し、各分離候補区間の間で各分離候補位置
間の距離の分散や平均距離と文字ピッチとのずれ量に関
する分散を最小とするような文字分離候補位置の系列を
動的計画法を用いて算出することによって、文字間に接
触するイメージが生じた場合や1文字が2文字以上に分
離する状態が生じても特殊な機能を追加することなく容
易にしかも精度良く文字分離候補位置を決定することが
できる文字分離装置を提供することにある。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to sequentially set separation candidate sections using character pitch and blank information, and to determine the distance between each separation candidate position between each separation candidate section in order to solve the above conventional problems. By using dynamic programming to calculate a series of character separation candidate positions that minimizes the variance of the variance and the variance of the deviation between the average distance and the character pitch, it is possible to solve cases where an image of contact between characters occurs. To provide a character separation device capable of easily and accurately determining a character separation candidate position without adding any special function even if one character is separated into two or more characters.

以下、本発明について図面を用いて祥細に説明する。Hereinafter, the present invention will be explained in detail using the drawings.

第1図fa) 、 fb) 、 (C)は、部分文字列
イメージの一例を用いて、本発明における文字分離の分
離候補区間設定方法の一例を説明するための図である。
FIGS. 1 fa), fb), and (C) are diagrams for explaining an example of a separation candidate section setting method for character separation in the present invention using an example of a partial character string image.

なお、印刷物の品質や印字スタイルが多種存在する読取
対象における文字分離を行う場合、最初に文字ピッチを
検出する必要がある。文字ピッチ検出装置としでは、例
えば、同一出願人による特願昭58〜160763号明
細書「文字ピッチ検出装置」(以下引用例1とする)で
示されるような文字ピッチ検出装置があり、このような
装置を用いて一連の文字行イメージから文字ピッチを検
出することができる。− 第1図(ajは、文字間の接触イメージや1文字が2文
字にスプリットする場合を含む文字列イメージを斜線部
で示し、図中Pは文字ピッチを示している。第1図(a
)の部分文字−列イメージを垂直投影すると、第1図(
b)で示す投影分布が得られ、黒地領域(図中、斜線部
)、白地領域に分離することができる。文字ピッチPは
、第1図fatで示した文字列イメージから例えば前記
の引用例1で示されているような「文字ピッチ検出装置
」を用いても良いし、予め既知であれば、その既定値を
用いても良い。ここで、第1図fa)で示した接触文字
(amu)及びスプリットした文字(hlを正しく1文
字車位に分離するためには、その文字の分離開始位置を
正しく予測することが必要である。例えば、図において
、接触文字イメージ′a“と′m“とでは、aの方がわ
ずかに小さいため、その切り出し開始位置は、接触文字
イメージ(amu) の始端より少し左の方になる。こ
のような接触文字の位置ずれの補正は、従来、例えば文
字イメージを参照することによって行われていた。その
ため、文字イメージの接触の度合等により、イメージを
参照することによって処理時間を要するにもかかわらず
、正しく分離位置を決定することができない場合が生じ
る。そこで、本発明をこおける文字分離位置の決定方法
はまず、第1図(a)で示したような文字行イメージに
おいて、第1図(b)で示したような投影分布等から抽
出された白地領域(以下、空白と呼ぶ)及び黒地領域(
以下、文字塊と呼ぶ)の位置及び大きさを抽出する。例
えば、第1図(b)に示すような文字塊幅Vi(i==
1.・・・4)及び空白サイズWi (i = l、・
・・4)1更には、それらの位置情報が公知の技術によ
って、得られる。次に、前もって得られた文字ピッチP
及び閾値T、、T、を用いて、文字分離位置を設定する
ことが可能な区間(以下、許容区間と呼ぶ)を、例えば
、次に示す条件(1) 、 (2)を用いて設定するこ
とができる。
Note that when performing character separation in a reading target where there are various print qualities and printing styles, it is necessary to first detect the character pitch. As a character pitch detecting device, for example, there is a character pitch detecting device as shown in Japanese Patent Application No. 160763 (1982) filed by the same applicant (hereinafter referred to as Cited Example 1). Character pitch can be detected from a series of character line images using a conventional device. - Figure 1 (aj shows the character string image including the contact image between characters and the case where one character is split into two characters with diagonal lines, and P in the figure shows the character pitch.
) is vertically projected, the partial character-sequence image in Figure 1 (
The projection distribution shown in b) is obtained, and can be separated into a black background area (shaded area in the figure) and a white background area. The character pitch P may be determined from the character string image shown in FIG. A value may also be used. In order to correctly separate the touching character (amu) and the split character (hl) shown in FIG. 1 fa) into one character position, it is necessary to correctly predict the separation start position of the character. For example, in the figure, in the touching character images 'a' and 'm', a is slightly smaller, so its extraction start position is slightly to the left of the starting edge of the touching character image (amu). Conventionally, corrections for misalignment of touching characters have been carried out, for example, by referring to the character images.As a result, depending on the degree of contact between the character images, etc., it takes processing time to refer to the images. , it may not be possible to determine the separation position correctly.Therefore, the method for determining the character separation position in accordance with the present invention begins with the character line image shown in Fig. 1(a). A white background area (hereinafter referred to as a blank space) and a black background area (hereinafter referred to as a blank area) extracted from the projection distribution etc. shown in b)
The position and size of the character block (hereinafter referred to as a character block) are extracted. For example, the character block width Vi (i==
1. ...4) and blank size Wi (i = l, ・
...4)1 Furthermore, their positional information can be obtained using known techniques. Next, the character pitch P obtained in advance
and thresholds T, , T, to set an interval (hereinafter referred to as an allowable interval) in which a character separation position can be set using, for example, the following conditions (1) and (2). be able to.

条件(1)空白となる区間は許容区間とする。Condition (1) A blank section is a permissible section.

条件(2)任意の文字塊幅Vjにおいて、Vi>P+T
Condition (2) At any character block width Vj, Vi>P+T
.

を満たす黒地領域のうち1文字塊幅Viの両端からT2
までの黒地領域を除いた区間は、許容区間とする。
T2 from both ends of one character block width Vi in the black area that satisfies
The section excluding the black area up to is the permissible section.

上述した条件(1)及び条件(2)を満足する許容区間
は例えば、第1図(alの文字列イメージに対して、第
1図(C)の図中At 、 At 、 As 、 A4
. Asで示す区間として得られる。尚、上述した閾値
T、及びT、は、文字ピッチPの関数として、与えても
良い。また、閾値T1は前記引用例1に示される文字ピ
ッチPを推定した時の推定誤差等に基づいて設定しても
良い。次に、本発明における文字分離位置の決定は、前
述した許容区間内で、文字ピッチP及び閾値Tjを用い
て、順次第1図(C)で示すような分離候補区間k(−
但し、k≧0)を設定し、各分離候補区間に内の分離候
補位置X(k、1t)(但し、jk≧1であり、分離候
補区間に内の相対番号を表わす)に対して、それぞれの
分離候補位置間の距離d(k、に+1;ik、jk++
)を算出し、各分離候補区間kにおいて算出される距離
d(k、に+1;jk。
For example, the permissible intervals that satisfy the above-mentioned conditions (1) and (2) are At , At , As , A4 in Fig. 1 (C) for the character string image in Fig. 1 (al).
.. This is obtained as an interval indicated by As. Note that the threshold values T and T mentioned above may be given as functions of the character pitch P. Further, the threshold T1 may be set based on the estimation error when estimating the character pitch P shown in Cited Example 1 above. Next, character separation positions in the present invention are determined using the character pitch P and threshold Tj within the above-mentioned allowable interval, and sequentially determines the separation candidate interval k (-
However, k≧0) is set, and for a separation candidate position X (k, 1t) within each separation candidate section (however, jk≧1, representing a relative number within the separation candidate section), The distance between each separation candidate position d(k, +1; ik, jk++
), and the distance d(k, +1; jk) calculated in each separation candidate section k.

jh+t )の分散σ5及び平均値μdと文字ピッチP
とのずれの2乗誤差(μd−P)2からなる評価尺匿U
を計算し、その評価尺度を最小とするような分離候補位
置x(k、1k)(k≧0)の系列をめることによって
行われる。そこで、上述した分離候補区間にの設定方法
の一例について、第1図(C)を用いて説明する。
jh+t) variance σ5 and average value μd and character pitch P
The evaluation scale consisting of the squared error (μd-P)2 of the deviation from
This is done by calculating the separation candidate position x(k, 1k) (k≧0) that minimizes the evaluation scale. Therefore, an example of a method for setting the above-mentioned separation candidate sections will be explained using FIG. 1(C).

第1図(C)における黒点は、分離候補区間k(但し、
k:0,1,2,3.4)内の各分離候補位[x(k。
The black dots in FIG. 1(C) indicate separation candidate section k (however,
k: 0, 1, 2, 3.4) for each separation candidate position [x(k.

jh)を示しており、上述した許容区間内で、下記に示
す式(3)の関係を満たす位置として、順次設定される
jh), and are sequentially set as positions that satisfy the relationship of equation (3) shown below within the above-mentioned allowable interval.

1d(k、に+1;ik、jk+1) P I≦T3 
・・・(1)式(1)において、距離d (k 、 k
 + 1 ; ”k+ ”k+1)は、分離候補区間に
+1の分離候補位置x(k+1 、 ih+t )と分
離候補区間にの分離候補位置X(k−”i+)との距離
x(k+1 、 ih+x) x(k’: ih) を
示している。例えば、第1図(C)における分離候補位
置X(1,1)と分離候補位置X(2,2)との距離d
(1,2; 1,2 )において、IP−d(1,2;
 1,2)1≦P −4−T3 を満足している。また
、分離候補区間0の分離候補位置x(OJ)から式(1
)で示した関係式を満足する位置は、第1図(C)の白
点で示すような6個の位置があるが、上述した許容区間
内に属する白点は、第1図(C)の黒点で示すように、
2個となり、分離候補区間lの分離候補位置はX(1,
1)、x(1,2)の2つの位置としてまる。
1d (k, +1; ik, jk+1) P I≦T3
...(1) In equation (1), distance d (k, k
+ 1; "k+"k+1) is the distance x(k+1, ih+x) between the separation candidate position x (k+1, ih+t) of +1 in the separation candidate section and the separation candidate position X (k-"i+) in the separation candidate section x(k': ih).For example, the distance d between the separation candidate position X(1,1) and the separation candidate position X(2,2) in FIG. 1(C)
(1,2; 1,2 ), IP-d(1,2;
1, 2) 1≦P −4−T3 is satisfied. In addition, from the separation candidate position x (OJ) of separation candidate section 0, equation (1
) There are six positions that satisfy the relational expression shown in Figure 1 (C), as shown by the white dots in Figure 1 (C). As shown by the black dots,
The separation candidate position of the separation candidate section l is X(1,
1) and x(1,2).

尚、上述した閾値T3は前述したような閾値T1のよう
に文字ピッチPの関数として与えることができる。次に
、評価尺度Uを用いて、最適な分離候補位置をめるにあ
たり、終端状態となる分離候補区間は、例えば、文字行
の終端となる空白内のみ設定できるとしても良いし、前
述した空白サイズWiが文字ピッチPに対して、Wi 
> T4・P(但し、T4は閾値である)を満たす許容
区間内に設定できるとしても良い。後者の方法を採用す
ると、例えば、第1図(C)における領域Eが終端状態
となる許容区間として検出される。更に、評価尺度Uを
計算するにあたり、次に設定すべき分離候補区間(k+
1)を分離候補区間により前述した式(1)を用いて設
定する場合、式(1)を満たす分離候補区間(k+1)
がすべて許容区間でなけれ(ち分離候補区間kを終端状
態となる分離候補区間にとすることができる。一方、評
価尺度Uを用いて最適な分離候補位置をめるための始端
状態となる分離候補区間は、すでに検出された終端状態
となる分離候補区間の位置に基づいて設定することがで
きる。
Note that the threshold value T3 described above can be given as a function of the character pitch P, like the threshold value T1 described above. Next, when determining the optimal separation candidate position using the evaluation scale U, the separation candidate section that becomes the terminal state may be set only within the blank space that is the end of the character line, or the above-mentioned blank space When size Wi is character pitch P, Wi
> T4·P (however, T4 is a threshold value) may be set within an allowable interval. If the latter method is adopted, for example, region E in FIG. 1(C) is detected as a permissible section in which the end state is reached. Furthermore, in calculating the evaluation scale U, the separation candidate interval (k+
1) is set using the above-mentioned formula (1) using the separation candidate section, the separation candidate section (k+1) that satisfies the formula (1)
are not all allowable intervals (in other words, the separation candidate section k can be set as the separation candidate section that becomes the terminal state. On the other hand, the separation candidate section k that becomes the starting state is used to find the optimal separation candidate position using the evaluation scale U). The candidate section can be set based on the position of the separation candidate section that has already been detected as the terminal state.

尚、本発明の文字分離における分離候補区間設定方法は
、上述した条件以外でも1文字ピッチP。
Note that the separation candidate section setting method for character separation according to the present invention can be applied to one character pitch P even under conditions other than the above-mentioned conditions.

文字塊幅■i、inサイズWiに基づいて設定できるこ
とは言うまでもない。
Needless to say, it can be set based on the character block width ■i and the in size Wi.

第2図は本発明における最適な文字分離位置を抽出する
ための原理を説明するための図である。
FIG. 2 is a diagram for explaining the principle for extracting optimal character separation positions in the present invention.

図において、黒点で示した位置は、第1図fc)で示し
た分離候補区間k(lc=Q、・・・4)の各分離候補
位置x(k、ik)の値を示している。また、文字ピッ
チPは20である場合を示している。更に、本発明の原
理を簡単に説明するために、分離対象となる文字列イメ
ージは、第1図(C)Jこおける分離候補区間0から分
離候補区間4までとする。まず、記号の定義を行う。記
号μd(r*ntir*’n)(但し、l≦r;(n)
は、分離候補区間rの分離候補位置x(r、i、)から
分離候補区間nの分離候補位置x(n、1fi)に到る
までの各分離候補区間で任意に選択された11−r+1
個の分離候補位置x(r、 1r)eX(r+1.’r
+x)、・−e x(n、 in)から得られるn −
r個の距離d(’ * ’ + 1 ; 1、@ ir
+1 )d(r+1.r+2:ir+t*jr+z)・
−、d(n−1,n;in 1゜1n)の平均値を示す
。記号σd(rs”:ir+i+)(但し、1≦r≦n
)は、分離候補区間rの分離候補位置x(r、i、)か
ら分離候補区間nの分離候補位置x(n、1fl)に到
るまでの各分離候補区間で任意に選択されたn −r−
1−11同の分離候補位置X(reir)ex(r+1
.ir+x)、・−、x(n、i、、)から得られるn
 −r個の距wjd (r t r + 1 r ir
 −r+1 ) *d (r+1 、 r+2 : j
r+1 、1r−)2 )の前述した平均値μd(’o
n+’r+in)における分散を示す。そこで、始端状
態となる分離候補区間r(第2図においてはr=0であ
る)から終端状態となる分離1関補区間n(第2図にお
いてはn=4)に到るまでの文字分離位置は、式(2)
で示す評価尺度Uを最小とするような分離候補位置x(
r+ ir)+x(r+1+ ir+1)*・・・+x
(n+j11)をめることによって得られる。
In the figure, the positions indicated by black dots indicate the values of each separation candidate position x(k, ik) of the separation candidate section k (lc=Q, . . . 4) shown in FIG. 1 fc). Further, the case where the character pitch P is 20 is shown. Furthermore, in order to simply explain the principle of the present invention, the character string images to be separated are from separation candidate section 0 to separation candidate section 4 in J (C) of FIG. 1. First, let's define the symbols. Symbol μd(r*ntir*'n) (where l≦r; (n)
is 11-r+1 arbitrarily selected in each separation candidate section from separation candidate position x (r, i,) of separation candidate section r to separation candidate position x (n, 1fi) of separation candidate section n.
separation candidate positions x(r, 1r)eX(r+1.'r
+x), -e x(n, in) n −
r distances d(' * ' + 1; 1, @ir
+1)d(r+1.r+2:ir+t*jr+z)・
-, d(n-1, n; in 1°1n). Symbol σd(rs”:ir+i+) (1≦r≦n
) is arbitrarily selected n − in each separation candidate section from separation candidate position x (r, i,) of separation candidate section r to separation candidate position x (n, 1fl) of separation candidate section n. r-
1-11 Same separation candidate position X(reir)ex(r+1
.. ir+x), ・−, n obtained from x(n, i, ,)
−r distances wjd (r t r + 1 r ir
-r+1) *d (r+1, r+2: j
The average value μd('o
n+'r+in). Therefore, character separation is performed from the separation candidate interval r (r = 0 in Figure 2), which is the start state, to the separation candidate interval n (n = 4 in Figure 2), which is the terminal state. The position is given by formula (2)
Separation candidate position x (
r+ ir)+x(r+1+ ir+1)*...+x
It is obtained by subtracting (n+j11).

Ll(r、n)=βoff:(r、n; i、、1n)
−1−(1−β) ”(μd(r、n;峠4.)p)z
 ・・・・・・(2) 式(2)における重み係数βは、0≦β≦1を満たす。
Ll (r, n) = βoff: (r, n; i, 1n)
-1-(1-β) ”(μd(r,n; Pass 4.)p)z
(2) The weighting coefficient β in equation (2) satisfies 0≦β≦1.

ここで、式(2)を最小にするような分離候補位置のよ
り具体的な実現方法は、以下に示す動的計画法を用いて
、メモリ容量を費やすことなく行うことができる。そこ
で、分離候補区間に+1における任意の分離候補位置x
 (kr1 、 ik+t )において、1つ前の分離
候補区間k(但し、k=Qは、始端状態を含む分離候補
区間とする。)の任意の分離候補位置X(k、1k)(
但し、ik= 1.2 、、、 hkとし、h、≧1と
する)から式(2)を満足する分離候補位置x (k 
+ 1 + ’k) に到る最適な分離候補位置x(k
、il)を後述する漸化式を用いてめることができる。
Here, a more specific method for realizing separation candidate positions that minimizes Equation (2) can be performed without consuming memory capacity using dynamic programming described below. Therefore, any separation candidate position x at +1 in the separation candidate section
In (kr1, ik+t), any separation candidate position X(k, 1k)(
However, from ik = 1.2,..., hk, and h≧1), the separation candidate position x (k
+ 1 + 'k) The optimal separation candidate position x(k
, il) can be calculated using the recurrence formula described later.

まず、距離d(k、に+cik、jk+t)(但し、i
、 = 1.2・・・hk)をめ、以下に示す式(3−
1) 、式(3−2)、式(3−3)を計算する。
First, distance d(k, to +cik, jk+t) (however, i
, = 1.2...hk), the following formula (3-
1) Calculate Equation (3-2) and Equation (3-3).

μd(0,に+1;io、ik+1)= ” (k−J
(0,に:jo、jk)krl −4−d(k、に+cjk、jk+i) )・・・(3
−1)D(kr1 )=D*(kl+ d2(k、 k
r1 : ik、 !に+x)・・・(3−2)U(o
 、 krt )=β・(兜四土す−μ6 (0、k 
+ 1 r ’o + ”k))2に+1 +(1−β)(μd(0,に+1.io、lh) p)
t・・・(3−3) 分離候補区間にのhk個の分離候補位置x(k、l)。
μd (0, +1; io, ik+1) = ” (k-J
(0, to: jo, jk) krl -4-d (k, to +cjk, jk+i) )...(3
-1) D(kr1)=D*(kl+d2(k, k
r1: ik, ! +x)...(3-2)U(o
, krt ) = β・(Kabuto Shitosu − μ6 (0, k
+ 1 r 'o + ``k)) 2 + 1 + (1 - β) (μd (0, + 1.io, lh) p)
t...(3-3) hk separation candidate positions x(k, l) in the separation candidate section.

・・・x(k、hk)に対して、式(3−3)の評価尺
度U(0,に−1−1)を最小とする分離候補位置x(
k、ik)が分離候補区間k −1−1の任意の分離候
補位置x (kr1 、 ik+x )への最適な分離
候補位置となる。
...For x(k, hk), find the separation candidate position x(
k, ik) becomes the optimal separation candidate position for an arbitrary separation candidate position x (kr1, ik+x) in the separation candidate section k-1-1.

ここで、始端状態となる分離候補区間Oにおける各分離
候補位置X(0,1O)(第2図において1o=lとな
る月こおいて、式(3−1)に示す最適な平均値μd(
0,0,1o、1o)=Q 、式(3−2)に示す最適
な距離d (1、O;’−1−iO) の2乗累槓和D
*(0)−0とする。分離候補区間にの各分離候補位置
X(1(、jk)には上述した最適な平均値/4(0+
 kr ’に+ io )及び最適な距離d(k−1,
に;jk−s+jk)の2乗の累積和D”(k−1,k
)を記憶しておけば、次の分離候補区間に+1の各分離
候補位置x (k−1−1、ik+1 ) における分
離候補区間にの最適な分離候補位置X(k、jh)がめ
られる。尚、式(3−3)における1項は、式(2)で
示した分散σM(0,に+1;io、jh+t)の別の
表現方法になっている。
Here, for each separation candidate position X (0, 1O) in the separation candidate section O which is the starting end state (1o=l in Fig. 2), the optimum average value μd shown in equation (3-1) is calculated. (
0,0,1o,1o)=Q, the squared cumulative sum D of the optimal distance d (1,O;'-1-iO) shown in equation (3-2)
*(0)-0. The above-mentioned optimal average value/4(0+
kr' +io) and the optimal distance d(k-1,
; jk−s+jk) cumulative sum D”(k−1, k
), the optimal separation candidate position X(k, jh) for the separation candidate section at each separation candidate position x (k-1-1, ik+1) of +1 can be found in the next separation candidate section. Note that the first term in equation (3-3) is another way of expressing the variance σM (0, +1; io, jh+t) shown in equation (2).

次に、@2図を用いて、式(3−1)、式(3−3)の
計算過程を説明する。図において、カッコで示した値は
、それぞれ各分離候補区間k(k=Q、 1.2,3.
4 )の各分離候補位置x(k、ik)において、式(
3−1)及び式(3−3)の漸化式で示された平均値μ
h O、k * io 、 1k) 及び評価尺度U(
0,k)を示しており、分離候補位置x(k−1e”k
−i) からの最適な値として算出したものである。尚
、本説明では、式(3−3)における重み係数βは、0
.5とした場合について述べる。また、図における矢印
は、それぞれ、最適な分離候補位置の系列を示している
。例えば、分離候補位置X(2,1)は位置39であわ
、分離候補位置X(1,1)との距離d(1,1;1,
1)は19となる。
Next, the calculation process of equations (3-1) and (3-3) will be explained using diagram @2. In the figure, the values shown in parentheses are for each separation candidate section k (k=Q, 1.2, 3.
4) at each separation candidate position x(k, ik), the formula (
3-1) and the average value μ shown by the recurrence formula of formula (3-3)
h O, k * io , 1k) and evaluation scale U (
0, k), and the separation candidate position x(k-1e”k
-i) It is calculated as the optimal value from . In addition, in this explanation, the weighting coefficient β in equation (3-3) is 0.
.. The case where it is set to 5 will be described. Further, each arrow in the figure indicates a series of optimal separation candidate positions. For example, the separation candidate position X (2, 1) is located at position 39, and the distance from the separation candidate position
1) becomes 19.

そこで、分離候補位置X(1,1)を通る分離候補位置
X(2,1)における平均値μd(o、2)は、式(3
−1)及び図より−・(1X20+19 )となり、値
195となる。次に、分離候補位置X(1,1)には、
式(3−2) テ示すhルD”(1)=20’ カ記憶
すれている(図中、省略)ため、式(3−2)を用いて
、D (2)= 20” + 192となる。そこで、
分離候補位置X(1,1)を通る分離候補位置x(2,
1)にオケル評価尺iU (0,2)ハU(o、 2−
)−o、5(附5v−19,5” ) + 0.5・(
19,5−20) 2となり、値0138となる。同様
に、分離候補位置X(1,2)を通る分離候補位置X(
2,1)における評価尺度U(0゜2)も計算され(但
し、計算は省略する)、値1.26となる。そこで、分
離候補位置X(2,1)に対して2つの評価尺度U(0
,2)のうち、最小値をとると、1つ前の分離候補区間
1における最適な分離候補位置はx(1,1)となり、
また、平均値μtc 0.2 )= 19.5 、評価
尺iU (0,2)−0,38が選択される。以下、同
様な操作を式(3−1)。
Therefore, the average value μd(o, 2) at the separation candidate position X(2, 1) passing through the separation candidate position
-1) and the figure, it becomes -.(1X20+19), and the value is 195. Next, at the separation candidate position X (1, 1),
Equation (3-2) D"(1)=20' is stored (not shown in the figure), so using Equation (3-2), D(2)=20"+192 becomes. Therefore,
Separation candidate position x(2,
1) Oker rating scale iU (0,2) haU(o, 2-
)-o, 5 (appended 5v-19,5") + 0.5・(
19,5-20) 2, resulting in a value of 0138. Similarly, separation candidate position X(
The evaluation scale U (0°2) in 2.1) is also calculated (however, the calculation is omitted) and has a value of 1.26. Therefore, two evaluation scales U(0
, 2), the optimal separation candidate position in the previous separation candidate section 1 is x (1, 1),
Also, the average value μtc 0.2 )=19.5 and the rating scale iU (0,2)−0,38 are selected. Below, similar operations are performed using equation (3-1).

式(3−2)、式(3−3)で示した漸化式を用いて、
行うことによって、第2図で示したように。
Using the recurrence formulas shown in equations (3-2) and (3-3),
By doing as shown in FIG.

各分離候補位置X(J ’h)(k=Or 1.2,3
.4 )における評価尺度U(0,k)(但し、k =
 0.1.2.3゜4)が計算される。
Each separation candidate position X (J'h) (k=Or 1.2,3
.. 4) evaluation scale U(0,k) (where k =
0.1.2.3°4) is calculated.

次に、前述したように、終端状態となる分離候補区間内
の分離候補位置X(4,2) * X(43) ex(
4,4)のうち、評価尺度[J(0,4)が最小となる
分離候補位置x(4,2)を文字分離の終了位置として
選択する。そこで、最適な分離候補位置の系列を文字分
離の終了位置x(4,2)より逆にたどることによって
、x (4,2)=81 、 x (3,3)=60.
X(2,2)=20.X(1,1)=20.X(0゜1
)二〇としてめることができる。
Next, as described above, the separation candidate position X (4, 2) * X (43) ex (
4, 4), the separation candidate position x(4, 2) with the minimum evaluation scale [J(0, 4) is selected as the end position of character separation. Therefore, by tracing the series of optimal separation candidate positions backwards from the character separation end position x (4, 2), x (4, 2) = 81, x (3, 3) = 60, etc.
X(2,2)=20. X(1,1)=20. X(0゜1
) can be taken as 20.

第3図は、本発明の具体的一実施例を示す論理ブロック
図である。走査部1は、紙面上に記載された文字列イメ
ージを光学的に走査して、電気信号に変換し、2値量子
化後、文字列イメージメモリ2へ書き込む。文字塊抽出
部3は、文字列イメージメモ1J2jこ格納された文字
列イメージから文字塊を順次抽出し、各文字塊の位置及
び幅及び高さを文字塊情報レジスタ21へ格納する。尚
、このような文字塊抽出部3は、公知の技術を用いてめ
ることができる。文字ピッチ検出部4は1文字塊情報レ
ジスタ21に格納された各文字塊の位置及び文字塊幅、
更には文字の高さを用いて、文字ピッチPを推定し、文
字ピッチ情報レジスタ22に格納する。尚、このような
文字ピッチ検出部4は、同一出願人による前記引用例1
の明細書で示されている技術を用いてめることができる
し、また予め文字ピッチPが既知であれば、与えられた
文字ピッチPを用いても良い。パラメータ情報レジスタ
30は、本発明で用いる種々の閾値や重み係数であるパ
ラメータT11 ’r、 l rl、 e ’r、 I
 T5+βを格納する。許容区間抽出部5は、第1図を
用いで述べた条件(1)及び条件(2)を満足する許容
区間を抽出する。最初に、条件(1)で示した空白とな
る許容区間は、文字塊情報レジスタ21に格納された複
数個の文字塊の位置及び文字塊幅Viを用いて、空白と
なる位置及び空白サイズが比較回路等によって抽出され
る。次に、条件(2)で示した黒地領域内の許容区間は
、最初に、各文字塊幅Viが、文字ピッチ情報レジスタ
22に格納された文字ピッチPとパラメータ情報レジス
タ30に格納されたパラメータT1との和P+’l”、
より大きいか否かを比較し、大きければ、各文字塊幅V
iの両端からパラメータ情報レジスタT2で示された値
までを除いて、文字塊幅Viを含む区間を許容区間とし
て抽出する。以上のようにして、抽出された条件(1)
を満たす空白となる許容区間及び条件(2)を満たす黒
地領域内の許容区間が抽出され、許容区間情報レジスタ
23に、抽出された各許容区間の位置及び幅が格納され
る。終端候補区間抽出部6は1文字行イメージに対応し
て、順次許容区間レジスタ23に格納された許容区間の
うち、空白となる許容区間Wifこついて、パラメータ
情報レジスタ30に格納されたパラメータT4及び文字
ピッチPとの積T4・Pを算出し、積T4・Pと空白と
なる許容区間質とを比較することによって、M T4・
Pよりも大きくなる許容区間Wiを検出する。次に、許
容区間Wiの始端から、パラメータT、と文字ピッチP
との積T、・P(但しT、≦Tりまでの許容区1Luを
詩、出し、更に許容区間Wiの直前に存在する文字塊幅
Viの始端から文字ピッチP及びパラメータTIとの和
P−1−T、 内の許容区間を算出して、上述した2つ
の許容区間の論理和を、終端候補区間として、順次、終
端候補区間レジスタUに格納する。
FIG. 3 is a logical block diagram showing a specific embodiment of the present invention. A scanning unit 1 optically scans a character string image written on a paper surface, converts it into an electrical signal, and writes it into a character string image memory 2 after binary quantization. The character block extraction unit 3 sequentially extracts character blocks from the character string image stored in the character string image memo 1J2j, and stores the position, width, and height of each character block in the character block information register 21. Incidentally, such a character block extraction section 3 can be extracted using a known technique. The character pitch detection unit 4 detects the position and character block width of each character block stored in the 1-character block information register 21,
Furthermore, the character pitch P is estimated using the character height and stored in the character pitch information register 22. Incidentally, such a character pitch detection unit 4 is similar to the above-mentioned Cited Example 1 by the same applicant.
This can be done by using the technique shown in the specification of 2007, or if the character pitch P is known in advance, a given character pitch P can be used. The parameter information register 30 stores parameters T11'r, l rl, e'r, I which are various threshold values and weighting coefficients used in the present invention.
Store T5+β. The permissible interval extraction unit 5 extracts a permissible interval that satisfies the conditions (1) and (2) described using FIG. First, the allowable interval for blanks shown in condition (1) is determined by using the positions of a plurality of character blocks and the width of character blocks Vi stored in the character block information register 21. Extracted by a comparison circuit or the like. Next, in the permissible interval within the black background area shown in condition (2), first, each character block width Vi is determined by the character pitch P stored in the character pitch information register 22 and the parameter stored in the parameter information register 30. Sum P+'l'' with T1,
Compare whether it is larger or not, and if it is larger, each character block width V
Excluding both ends of i up to the value indicated by the parameter information register T2, the section including the character block width Vi is extracted as a permissible section. Condition (1) extracted as above
Blank allowable sections that satisfy condition (2) and allowable sections within the black background area that satisfy condition (2) are extracted, and the position and width of each extracted allowable section are stored in the allowable section information register 23. The terminal candidate section extracting unit 6 detects a blank allowable section Wif among the allowable sections sequentially stored in the allowable section register 23 corresponding to a single character line image, and extracts the parameters T4 and 2 stored in the parameter information register 30. By calculating the product T4・P with the character pitch P and comparing the product T4・P with the acceptable interval quality for blanks, M
A permissible interval Wi that is larger than P is detected. Next, from the start of the allowable interval Wi, the parameter T and the character pitch P
The product T, ・P (where T, ≦T, the permissible interval 1Lu is output, and the sum P of the character pitch P and the parameter TI from the starting end of the character block width Vi that exists immediately before the permissible interval Wi -1-T, is calculated, and the logical sum of the above-mentioned two permissible intervals is sequentially stored in the terminal candidate section register U as the terminal candidate section.

第4図ta)及び(b)に終端1菌補区間抽出部61こ
よりて、抽出される終端候補区間の一例を示す。第4図
(a)の場合、終端区間は、図中T3・Pで示した区間
としてめられる。第4図(b)の場合、終端区間は、図
中最後の矢印で示した区間であり、T、・PとP+TI
との論理和のうち、空白となる許容区間となっている。
FIGS. 4(a) and 4(b) show an example of a terminal candidate section extracted by the terminal 1 bacteria complementary section extraction unit 61. In the case of FIG. 4(a), the terminal section is defined as the section indicated by T3.P in the figure. In the case of Fig. 4(b), the terminal section is the section indicated by the last arrow in the figure, where T, ・P and P+TI
This is the allowable interval that is blank among the logical sums.

分離候補区間抽出部7は、第1図(C)を用いて説明し
たような分離候補区間にの各分離候補位置x(k、il
)を許容区間情報レジスタ23及びパラメータ情報レジ
スタ301こ格納された許容区間及びパラメータを用い
て、順次抽出する。尚、文字分離開始位置を含む始端分
離峡補区間Oの各分離候補位置x(0,1o)(但し、
io= 1.2 ・” ho )は制御部10によって
、最初に、文字列イメージの始端から文字ピッチPに基
づいて設定される一定範囲の空白となる許容区間内の各
分離候補位置よりめられ、最適分離位置情報レジスタ2
6に格納されているものとする。そこで1分離候補区間
抽出部7は、すでに、抽出され最適分離候補位置レジス
タ26に格納された分離候補区間k(但し、k= O,
1,2・・・)の分離候補位置x(k、jk)(但し、
ik= 1.2・・・hi)から式(1)を満たす許容
区間内に属する分離候補位置x (kll h ih+
v ) を算出する。
The separation candidate section extraction unit 7 extracts each separation candidate position x(k,il) in the separation candidate section as explained using FIG.
) are sequentially extracted using the permissible intervals and parameters stored in the permissible interval information register 23 and parameter information register 301. In addition, each separation candidate position x (0, 1o) of the starting end separation gorge supplementary section O including the character separation start position (however,
io=1.2・"ho) is first determined by the control unit 10 from each separation candidate position within a certain blank tolerance interval set based on the character pitch P from the starting end of the character string image. , optimal separation position information register 2
6. Therefore, the 1-separation candidate section extraction unit 7 extracts the separation candidate section k (where k=O,
1, 2...) separation candidate position x (k, jk) (however,
separation candidate position x (kll h ih+
v) is calculated.

即ち、分離候補区間にの第1番目の分離候補位置x(k
、1)から文字ピッチPとパラメータ情報レジスタ30
に格納されたパラメータT、を用いてx(k、1)+P
 T3となる位置を算出し、更に分離候補区間にの最後
の分離候補位置x(k、hk)から文字ピッチPとパラ
メータT、を用いてb x(k*tlk)+P+T、と
なる位置を算出する。上記2つの位置X(kll)+P
−T、 、 X(k、hk)+P−1−T、によって得
られる区間の各分離候補位置のうち、論理積をとること
によって前述した許容区間に属する分離候補位置を分離
候補区間に+1の各分離候補位置x(kll、jh+z
)(但し、i*+x = L 2− ”kll )とし
て抽出し、分離候補位置情報レジスタ25に格納される
。評価尺度演算部8に、分離候補位置情報レジスタ25
の内容が入力された時、最適分離位置情報レジスタ26
には、すでに演算された分離候補区間Oから分離候補区
間kまでの各分離候補位置x(o、to)(但し、i、
= 1・・−ho ) 、 x(1,1s)(但し、1
I=1・・・hl)、・・・x(k、1k)(但し、1
k=1・・・hk)が格納されている。更に、分離候補
区間m (m= 0−・k )の各分離候補位置x(m
、im)(但し、i□=1・・・塩)に対応して、評価
尺度演算部8によって、式(3−1)より計算された平
均値μ言(0,m; ’(le i、、)、式(3−2
)より計算された距離の2乗の累積和D*(k)、式(
3−3)より計算された評価尺度TJ(0,m)及び直
前の分離候補区間m−1の最適な分離候補位置x(m−
1゜’ny−1)が格納されている。尚、制御部IOに
よって、分離候補区間0の各分離候補位置x(0,io
)が格納された時、各分離候補位置x(o、io)に対
応して格納される平均値μT (o、o;to、io)
及び距離の2乗の累積和D*(0)は0が格納されてい
るものとする。そこで、評価尺度演算部8は、分離候補
位置情報レジスタ25より順次転送される分離候補位置
x (k + 1 # ’+c ) において、最初に
最適分離位置情報レジスタ26に格納された分離候補区
間にの各分離候補位置x(k、1k)(但し、jh =
 1.2− hk)における距離d(k、に+1:i、
、ik+t )を算出し。
That is, the first separation candidate position x(k
, 1) to character pitch P and parameter information register 30
x(k, 1)+P using the parameter T stored in
Calculate the position of T3, and then use the character pitch P and parameter T to calculate the position of b x (k * tlk) + P + T from the last separation candidate position x (k, hk) in the separation candidate section. do. Above two positions X(kll)+P
-T, , X(k, hk)+P-1-T, among the separation candidate positions in the interval obtained by Each separation candidate position x (kll, jh+z
) (where i*+x = L 2- "kll) and is stored in the separation candidate position information register 25.
When the contents of are input, the optimum separation position information register 26
, each separation candidate position x (o, to) (where i,
= 1...-ho ), x(1,1s) (however, 1
I=1...hl),...x(k, 1k) (however, 1
k=1...hk) are stored. Furthermore, each separation candidate position x (m
, im) (where i□=1...salt), the evaluation scale calculation unit 8 calculates the average value μ (0, m; '(le i ,, ), formula (3-2
), the cumulative sum D*(k) of the squares of the distances calculated from the formula (
3-3) and the optimum separation candidate position x(m-
1°'ny-1) is stored. Note that the control unit IO controls each separation candidate position x(0, io
) is stored, the average value μT (o, o; to, io) is stored corresponding to each separation candidate position x (o, io).
It is assumed that 0 is stored in the cumulative sum D*(0) of the squares of the distances. Therefore, the evaluation scale calculating unit 8 selects the separation candidate section initially stored in the optimum separation position information register 26 at the separation candidate position x (k + 1 #'+c) sequentially transferred from the separation candidate position information register 25. each separation candidate position x(k, 1k) (where, jh =
1.2-hk) distance d(k, +1:i,
, ik+t).

更にその平均値μdcOgksi0.1k)s距離の2
来県積和D*(k)及びパラメータ情報レジスタ30に
記憶されたパラメータβを用いて、順次、式(3−1)
で示した漸化式μ、1(0,に+1;io、jk+x)
=” (k+ kll + ik * ’に+1 )、
式(3−3)で示した漸化式LJ(0,に+1)=I・
4−μ’a(0゜kll に+1 ; io e jh+t ) )”+ (1−
β)・(μd(0、kll);’o、 jk+z ) 
P)2 を計算することによって、直前の分離候補区間
にの分離候補位置X(k、1k)(但し、ik= 1−
hk) +c対する評価尺111(0,に+1)を算出
する。
Furthermore, the average value μdcOgksi0.1k) s distance 2
Using the next prefecture product sum D*(k) and the parameter β stored in the parameter information register 30, the formula (3-1) is sequentially calculated.
Recurrence formula μ, 1 (0, +1; io, jk+x) shown in
=” (+1 to k+kll+ik*’),
Recurrence formula LJ (0, +1) shown in formula (3-3) = I・
4-μ'a(+1 to 0゜kll; io e jh+t) )"+ (1-
β)・(μd(0, kll);'o, jk+z)
By calculating P)2, the separation candidate position X(k, 1k) in the immediately preceding separation candidate section (where ik = 1-
hk) Calculate the rating scale 111 (0, +1) for +c.

次に、h、個の分離候補位置x(k、jh) のうち、
評価尺度U(0,に+1)が最小となる分離候補位置x
(k、ik)を分離候補位置x(kll 、 jk+t
 )へ到達する1つ前の最適な分離候補位置x(k、i
k) としてめ、更に、評価尺度[J(0,に+1)の
最小値及び評価尺度tJ(0,に+1)が最小値となる
平均値μ吉(0+ k+’ * ’o m ik )、
及び距離の2乗累積和D*(kl1) をそれぞれ分離
候補位置x (k + I * ik)と共に、最適分
離位置情報レジスタ26に格納する。
Next, among the h separation candidate positions x(k, jh),
Separation candidate position x where the evaluation scale U (0, +1) is the minimum
(k, ik) as separation candidate position x(kll, jk+t
) is the optimal separation candidate position x(k, i
k), and furthermore, the minimum value of the evaluation scale [J (0, +1) and the average value μ kichi (0 + k+' * 'o m ik ) at which the evaluation scale tJ (0, +1) is the minimum value,
and the cumulative sum of squared distances D*(kl1) are stored in the optimum separation position information register 26 together with the separation candidate position x (k + I * ik).

評価尺度演算部8において、以上述べた演算処理を分離
候補位置情報レジスタ25より順次転送されるすべての
分離候補位置x (kl1 、 ik++ ) に対し
て行われると、制御部10は、分離候補区間抽出部6に
次の分離候補区間に+2の各分離候補位置x (kl2
 、 ih+z )を抽出するように要求し、前述した
同様な操作が繰り返される。ここで、制御部10は、評
価尺度演算部8によって、最適分離位置情報レジスタ2
6iこ転送された分離候補区間に+1の分離候補位置x
 (kl1 、 jk+t ) が終端区間情報レジス
タ24に格納された終端候補区間に到達したか否かを調
べ、到達しない場合には、上述した要求のみを分離候補
区間抽出部6に出力する。一方、分離候補位置x (k
l1 、4に+t ) が終端候補区間に到達した場合
、制御部10は、上述した要求を分離候補区間抽出部6
に出力し、次の分離候補区間に+2の各分離候補位置x
 (kl2 、 ik+2) (但し、ik+z= 1
− hk+z )が前述したように評価尺度演算部8で
評価された後、制御部10によって、最適分離位置情報
レジスタ26に記憶された分離候補位置Xck’、ik
)のうち、上述した終端候補区間内にある複数個の分離
候補位置x(n、jl)の評価尺度U(0,1)が最小
となる分離候補位置x(n、in)を評価した区間内の
終点位置として検出され、終点位置となる分離候補位置
x(n、in)に到達する最適な分離候補位置の系列が
、最適分離位置情報レジスタ26を用いて、終点位置と
なる分離候補位置x(n、in)から順次、分離候補位
置X (n l 、1n−1) +・・・x(0,io
)と逆にたどることによって抽出され、文字分離位置レ
ジスタ27に把[意される。
When the evaluation scale calculation unit 8 performs the above-mentioned calculation processing on all the separation candidate positions x (kl1, ik++) sequentially transferred from the separation candidate position information register 25, the control unit 10 The extraction unit 6 extracts each separation candidate position x (kl2
, ih+z), and the similar operations described above are repeated. Here, the control unit 10 uses the evaluation scale calculation unit 8 to control the optimal separation position information register 2.
+1 separation candidate position x in the separation candidate section transferred 6i times
It is checked whether (kl1, jk+t) has reached the terminal candidate section stored in the terminal section information register 24, and if it has not arrived, only the above-mentioned request is output to the separation candidate section extraction section 6. On the other hand, separation candidate position x (k
l1, +t) reaches the terminal candidate section, the control section 10 transmits the above-mentioned request to the separation candidate section extraction section 6.
and output each separation candidate position x of +2 to the next separation candidate section.
(kl2, ik+2) (however, ik+z= 1
-hk+z) is evaluated by the evaluation scale calculation section 8 as described above, and then the control section 10 selects the separation candidate position Xck', ik stored in the optimum separation position information register 26.
), the section in which the separation candidate position x (n, in) with the minimum evaluation scale U (0, 1) of the plurality of separation candidate positions x (n, jl) in the above-mentioned terminal candidate section is evaluated. A series of optimal separation candidate positions that are detected as the end point positions in Separation candidate position X (n l , 1n-1) +... x (0, io
) and is stored in the character separation position register 27.

次Fこ制御部10は、前述した終点位置x(n、輸)か
ら最初に検出される文字塊の始端までの空白となる許容
区間内で、文字ピッチPiこ晶づいて設定される一定範
囲を次に分離すべき部分文字列イメージの始端となる分
離候補区間Oとして、最適分離位置情報レジスタ26に
格納し、前述したような操作を行うように、指令する。
The next control unit 10 controls the character pitch Pi within a certain range that is set within the blank tolerance interval from the end point position x (n, x) to the start of the first detected character block. is stored in the optimal separation position information register 26 as the separation candidate section O, which is the starting point of the partial character string image to be separated next, and commanded to perform the operations described above.

このようにして、文字列イメージメモリ2に格納された
文字列イメージの文字分離位置が文字分離位置レジスタ
27に格納され、上述した文字塊情報レジスタ21に記
憶された各文字塊の高さ及び文字分離位置レジスタ27
に格納された文字分離位置を用いることによって、1文
字単位に分離することができる。
In this way, the character separation position of the character string image stored in the character string image memory 2 is stored in the character separation position register 27, and the height and character of each character block stored in the above-mentioned character block information register 21 are stored. Separation position register 27
By using the character separation positions stored in , it is possible to separate each character.

第5図は、第3図における評価尺度演算部8の具体的な
一実施例を示す論理ブロック図である。
FIG. 5 is a logical block diagram showing a specific embodiment of the evaluation scale calculating section 8 in FIG. 3.

前述したように分離候補位置情報レジスタ25Iこ分離
候補区間に+1の各分離候補位置X(kl1゜jk+t
 ) (但し、tk+t = 1・・・hk+1)が格
納されると、第3図で示した制御部lOによって、分離
候補位置x (kl1. ik+t ) が距離算出部
81及び分離候補位置群レジスタ261の所定の位置へ
転送され、分離候補区間に+1はステージレジスタ80
及び分離候補位置群レジスタ261の所定の位置に格納
される。
As mentioned above, each separation candidate position X (kl1゜jk+t
) (However, when tk+t = 1...hk+1) is stored, the control unit IO shown in FIG. +1 is transferred to the predetermined position of the separation candidate section in the stage register 80.
and stored in a predetermined position of the separation candidate position group register 261.

距離算出部81に分離候補位置x(kl1 * ik+
v ) が格納されると、制御部10によって、分離候
補位置群レジスタ261に格納された分離候補区間にの
各分離候補位置X(k、1k)(但し、ik= 1−・
・hk)が順次、距離算出部81恢転送される。ここで
第3図で示した最適分離位置情報レジスタ26は分離族
264から構成される。距離算出部8は分離候補位置x
(kl 1 e ’に+1)と順次転送される分離候補
位置との距離d(k、 kl1 ; ik+ ik+x
)=X(kl1 + ik+t )−x(k、ik)を
算出する。
The separation candidate position x (kl1 * ik+
v ) is stored, the control unit 10 selects each separation candidate position X(k, 1k) (where ik=1−·
・hk) are sequentially transferred to the distance calculation unit 81. The optimal separation position information register 26 shown in FIG. 3 is composed of a separation group 264. The distance calculation unit 8 calculates the separation candidate position x
(+1 to kl 1 e') and the separation candidate position that is sequentially transferred d(k, kl1; ik+ ik+x
)=X(kl1+ik+t)-x(k, ik) is calculated.

統計量算出部82は、前述した式(3−1)及び式(3
−2)で示ニアた漸化式に基づいて、平均値μd(0,
に+1;to、ih+t)及び距離の2来県積和D(k
lを算出する。即ち、平均値μd(01kl1110 
The statistics calculation unit 82 calculates the above-mentioned equation (3-1) and equation (3).
-2), the average value μd(0,
+1; to, ih + t) and distance 2 prefecture product sum D(k
Calculate l. That is, the average value μd(01kl1110
.

jh+1)は読み出された最適統計群レジスタ263に
格納された分離候補位置x(k、ik)における平均値
μ才(0,に+io+ik)、距離算出部81の出力d
(k、 kl1 ; ih * lk+x )、ステー
ジレジスタ8oノ内容である分離区間に+1及びkを用
いて、計算式%式%) ) により算出される。一方、距離の2乗累積和D(k+1
 )は読み出された最適統計群レジスタ263に格納さ
れた分離候補位置x(k、jh)における距離の2来県
積和D*(k) と距離算出部81の出力d(k、に+
1;jk、 fh+t)を用いて、計算式%式%) により算出される。統計量算出部82により算出された
平均値μd(0,に+1;jo、ih+1)、及び距離
の2来県積和D(k+1 )はそれぞれ統計量格納レジ
スタ83に格納される。評価値算出部84は、前述した
式(3−2)に基づいて、評価尺度U(0,に+1)の
値を算出する。即ち、評価値[1(0、k+1 )は、
第3図で示した文字ピッチP及びパラメータ情報レジス
タ301こ格納されたパラメータβ及び統計量格納レジ
スタ83の内容及びステージレジスタ80の内容を用い
て、計算式 %式%)) ) により算出される。次に、比較部85において、評価値
算出部あの出力である評価値と最小評価値レジスタ86
の内容を比較し、評価値算出部84の出力が、最小評価
値レジスタ86の内容よりも小さければ、その出力信号
線851の出力信号851Sを’ON“にする。尚、最
小評価値レジスタ86の内容は、最初非常に大きな値が
セットされているものとする。
jh+1) is the average value μ (0, ni+io+ik) at the separation candidate position x(k, ik) stored in the read optimal statistical group register 263, and the output d of the distance calculation unit 81
(k, kl1; ih*lk+x), using +1 and k for the separation interval that is the content of the stage register 8o, is calculated by the calculation formula %). On the other hand, the cumulative sum of squared distances D(k+1
) is the sum of the two-prefecture product D*(k) of the distance at the separation candidate position x(k, jh) stored in the read optimal statistical group register 263 and the output d(k,
1; jk, fh+t), it is calculated by the calculation formula % formula %). The average value μd (0, +1; jo, ih+1) calculated by the statistics calculation unit 82 and the sum of products of two prefectures D (k+1) of the distance are stored in the statistics storage register 83, respectively. The evaluation value calculation unit 84 calculates the value of the evaluation scale U (0, +1) based on the above-mentioned formula (3-2). That is, the evaluation value [1(0, k+1) is
Using the character pitch P shown in FIG. 3, the parameter β stored in the parameter information register 301, the contents of the statistics storage register 83, and the contents of the stage register 80, it is calculated by the calculation formula %)) . Next, in the comparison section 85, the evaluation value which is the output of the evaluation value calculation section and the minimum evaluation value register 86
If the output of the evaluation value calculation unit 84 is smaller than the contents of the minimum evaluation value register 86, the output signal 851S of the output signal line 851 is turned ON. Assume that the contents of are initially set to a very large value.

出力信号851Sが’ON“になると、ゲート回路53
が開いて、評価値算出部84の出力が最小評価値レジス
タ86に転送される。
When the output signal 851S becomes 'ON', the gate circuit 53
is opened, and the output of the evaluation value calculation unit 84 is transferred to the minimum evaluation value register 86.

また、出力信号851Sが′″ON“になると、統計量
格納レジスタ羽に格納された平均値μd (0* k+
1 :jo m jk+t )及び距離の2来県積和D
(k+1)が、ゲート回路52が開くことによって、最
小統計量レジスタ88に格納される。
Furthermore, when the output signal 851S becomes ``ON'', the average value μd (0*k+
1: jo m jk + t) and the sum of the products of 2 prefectures D
(k+1) is stored in the minimum statistic register 88 by opening the gate circuit 52.

更に、出力信号851Sが’ON“になると、ゲート回
路51が開くことによって、距離算出部81に転送され
た分離候補区間にの分離候補位置x(k、ik)におけ
る位置情報k及び11.が連接情報レジスタ87に格納
される。
Further, when the output signal 851S becomes 'ON', the gate circuit 51 opens, and the position information k and 11. at the separation candidate position x (k, ik) in the separation candidate section transferred to the distance calculation unit 81 is It is stored in the connection information register 87.

以上の操作を最適分離位置情報261に格納された分離
候補区間にの分離候補位置X(k、jk)(但シ、ik
ニド・・hkに対して行われる。
The above operations are performed to determine the separation candidate position X (k, jk) (however, ik
This is done for nido...hk.

次に、第3図で示した制御部10は分離候補レジスタ5
より距離算出部に転送された分離候補位置x (k+1
 、 ik+t ) における最適な平均値μ*(0゜
k+’ e ”o e ”k+s )及び最適な距離の
2来県積和D*(k+1) として、最小統計量レジス
タ羽の内容を最小統計量群レジスタ263に転送し、分
離候補位置x (k+1 、 ik+x ) の最適な
評価値として、最小評価値レジスタ86の内容を最小評
価値群レジスタ264へ転送し、更に、分離候補区間k
における分離候補位置x (k + 1 e ’k)へ
の最適な分離パス情報として、連接情報レジスタ87の
内容を連接情報群レジスタ263へ転送する。
Next, the control unit 10 shown in FIG.
The separation candidate position x (k+1
, ik+t ) as the optimal mean value μ*(0°k+' e ``o e ''k+s ) and the sum of the products of two prefectures D*(k+1) of the optimal distance, the contents of the minimum statistics register wing are converted into the minimum statistics. The contents of the minimum evaluation value register 86 are transferred to the minimum evaluation value group register 264 as the optimal evaluation value of the separation candidate position x (k+1, ik+x), and further, the contents of the separation candidate section
The contents of the connection information register 87 are transferred to the connection information group register 263 as the optimal separation path information to the separation candidate position x (k + 1 e 'k) at .

次に、最小評価値レジスタ86の内容に、初期値(非常
に大きな値)をセットする。
Next, the contents of the minimum evaluation value register 86 are set to an initial value (a very large value).

以上の操作を繰り返すことによって分離候補区間に+1
のすべての分離候補位置x (k+1 * fh+x 
)(但し、jh+1= 1.2・・・hk+s ) に
対して、最適な評価値及び最適な分離パスが得られる。
By repeating the above operation, add 1 to the separation candidate section.
All separation candidate positions x (k+1 * fh+x
) (where jh+1=1.2...hk+s), an optimal evaluation value and an optimal separation path can be obtained.

尚、本発明の具体的な別の実現方法として、通常のマイ
クロコンピーータを用いて、実現できることは言うまで
もない。
It goes without saying that another specific method of implementing the present invention is to use an ordinary microcomputer.

以上、述べたように、本発明を適用することによって、
文字間の接触が生じてもまた、1文字が2文字以上にス
プリットする場合が生じても、容易にしかも女足に、−
文字単位の分離を行うことが可能となる。
As mentioned above, by applying the present invention,
Even if there is contact between letters, or if one letter is split into two or more letters, it is easy to write -
It becomes possible to perform character-by-character separation.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は部分文字列イメージの一例を用いて、本発明に
おける文字分離の分離候補区間設定方法の一例を説明す
るための図、第2図は本発明における最適な文字分離位
置を抽出するための原理を説明するための図、第3図は
本発明の具体的一実施例を示す論理ブロック図、@4図
は第3図における終端候補区間抽出部6によって、抽出
される終端候補区間の一例を示す。第5図は第3図ζこ
おける評価尺度演算部8の具体的な一実施例を示す論理
ブロック図である。 図において、1は走査部、2は文字列イメージメモリ、
3は文字塊抽出部、21は文字塊情報レジスタ、4は文
字ピッチ検出部、22は文字ピッチ情報レジスタ、30
はパラメータ情報レジスタ、5は許容区間抽出部、23
は許容区間情報レジスタ、6は終端候補区間抽出部、2
4は終端候補区間レジスタ、7は分離候補区間抽出部、
25は分離候補位置清報レジスタ、8は評価尺度演算部
、26は最適分離位置情報レジスタ、27は文字分離位
置レジスタ、10は制御部、8Oはステージレジスタ、
81は距離算出部、261は分離候補位置群レジスタ、
262は連接情報群レジスタ、263は最適統計1を群
レジスタ、264は最適評価値群レジスタ、82は統計
量算出部、83は統計量格納レジスタ、84は評価値算
出部、85は比軸部、86は最小評価値レジスタである
。 年 1 口 (a) d(f、2:L2) 4
FIG. 1 is a diagram for explaining an example of a method for setting separation candidate sections for character separation in the present invention using an example of a partial character string image, and FIG. FIG. 3 is a logical block diagram showing a specific embodiment of the present invention, and FIG. An example is shown. FIG. 5 is a logical block diagram showing a specific embodiment of the evaluation scale calculating section 8 in FIG. 3. In the figure, 1 is a scanning unit, 2 is a character string image memory,
3 is a character block extraction unit, 21 is a character block information register, 4 is a character pitch detection unit, 22 is a character pitch information register, 30
is a parameter information register, 5 is a permissible interval extraction unit, 23
is a permissible section information register, 6 is a terminal candidate section extractor, 2
4 is a terminal candidate section register, 7 is a separation candidate section extractor,
25 is a separation candidate position information register, 8 is an evaluation scale calculation unit, 26 is an optimal separation position information register, 27 is a character separation position register, 10 is a control unit, 8O is a stage register,
81 is a distance calculation unit, 261 is a separation candidate position group register,
262 is a linked information group register, 263 is an optimal statistics 1 group register, 264 is an optimal evaluation value group register, 82 is a statistics calculation section, 83 is a statistics storage register, 84 is an evaluation value calculation section, and 85 is a ratio axis section. , 86 is a minimum evaluation value register. Year 1 mouth (a) d (f, 2:L2) 4

Claims (1)

【特許請求の範囲】[Claims] 一連の文字行イメージから得られる投影分布を用いて、
前記文字行イメージを1文字単位に分離する文字分離装
置において、前記投影分布から空白で分離できる複数個
の文字塊を順次抽出する手段と、複数個の該文字塊を用
いて、文字ピッチを推定する手段と、前記文字行イメー
ジにおける前記投影分布及び前記文字ピッチを用いて、
分離候補区間を設定する手段と、前記分離候補区間内の
各分離候補位置と隣接する前記分離候補区間内の前記分
離候補位置との距離を算出し、前記文字行イメージにお
ける前記距離の分散及び前記距離の平均値と前記文字ピ
ッチ間の差に基づいて構成される評価尺度を前記文字行
イメージにわたって最小にする最適な分離候補位置の系
列を算出する手段とを有することを特徴とする文字分離
装置。
Using the projection distribution obtained from a series of character line images,
In the character separation device that separates the character line image into individual characters, means for sequentially extracting a plurality of character blocks that can be separated by spaces from the projection distribution, and estimating character pitch using the plurality of character blocks. and the projection distribution and the character pitch in the character line image,
means for setting a separation candidate section; calculating a distance between each separation candidate position in the separation candidate section and the separation candidate position in the adjacent separation candidate section; A character separation device comprising: means for calculating a series of optimal separation candidate positions that minimizes an evaluation scale configured based on an average value of distances and a difference between the character pitches over the character line image. .
JP58240335A 1983-12-20 1983-12-20 Character separating device Granted JPS60132281A (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP58240335A JPS60132281A (en) 1983-12-20 1983-12-20 Character separating device
US06/683,576 US4635290A (en) 1983-12-20 1984-12-19 Sectioning apparatus and method for optical character reader systems
DE8484115985T DE3486104T2 (en) 1983-12-20 1984-12-20 SEPARATOR AND METHOD FOR OPTICAL CHARACTER READING DEVICES.
EP91100048A EP0428499B1 (en) 1983-12-20 1984-12-20 Character pitch detector apparatus and method for optical character reader systems
DE3486241T DE3486241T2 (en) 1983-12-20 1984-12-20 Device and method for character spacing for optical character recognition systems.
EP84115985A EP0146147B1 (en) 1983-12-20 1984-12-20 Sectioning apparatus and method for optical character reader system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58240335A JPS60132281A (en) 1983-12-20 1983-12-20 Character separating device

Publications (2)

Publication Number Publication Date
JPS60132281A true JPS60132281A (en) 1985-07-15
JPH0368431B2 JPH0368431B2 (en) 1991-10-28

Family

ID=17057949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58240335A Granted JPS60132281A (en) 1983-12-20 1983-12-20 Character separating device

Country Status (1)

Country Link
JP (1) JPS60132281A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61175878A (en) * 1985-01-31 1986-08-07 Mitsubishi Electric Corp Document reading device
JPH02255995A (en) * 1988-04-28 1990-10-16 Seiko Epson Corp Character segmenting method
JPH03131995A (en) * 1989-10-18 1991-06-05 Fuji Facom Corp Method for segmenting contact character in japanese document
JPH07319998A (en) * 1988-04-28 1995-12-08 Seiko Epson Corp Method for segmenting character

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61175878A (en) * 1985-01-31 1986-08-07 Mitsubishi Electric Corp Document reading device
JPH0467674B2 (en) * 1985-01-31 1992-10-29 Mitsubishi Electric Corp
JPH02255995A (en) * 1988-04-28 1990-10-16 Seiko Epson Corp Character segmenting method
JPH07319998A (en) * 1988-04-28 1995-12-08 Seiko Epson Corp Method for segmenting character
JP2570415B2 (en) * 1988-04-28 1997-01-08 セイコーエプソン株式会社 Character extraction method
JPH03131995A (en) * 1989-10-18 1991-06-05 Fuji Facom Corp Method for segmenting contact character in japanese document

Also Published As

Publication number Publication date
JPH0368431B2 (en) 1991-10-28

Similar Documents

Publication Publication Date Title
US6259812B1 (en) Key character extraction and lexicon reduction cursive text recognition
Zhang et al. Correcting document image warping based on regression of curved text lines
JP5500480B2 (en) Form recognition device and form recognition method
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
CN1332348C (en) Blocks letter Arabic character set text dividing method
US8401299B2 (en) Character line recognition method and character line recognition device
Rossant et al. Robust and adaptive OMR system including fuzzy modeling, fusion of musical rules, and possible error detection
Wen et al. A new optical music recognition system based on combined neural network
IE56452B1 (en) Image processors
JP2000353215A (en) Character recognition device and recording medium where character recognizing program is recorded
JPH07200745A (en) Comparison method of at least two image sections
EP2553626A2 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US11715018B2 (en) Image processing apparatus and non-transitory computer readable medium
JP5110793B2 (en) Form identification device
CN111814673A (en) Method, device and equipment for correcting text detection bounding box and storage medium
JPS60132281A (en) Character separating device
US4887301A (en) Proportional spaced text recognition apparatus and method
US6198846B1 (en) Character recognition system
Reisswig et al. Chargrid-OCR: End-to-end trainable optical character recognition through semantic segmentation and object detection
JPS5991582A (en) Character reader
Bharathi et al. Improvement of Telugu OCR by segmentation of Touching Characters
Rebelo et al. Global constraints for syntactic consistency in OMR: an ongoing approach
JPH11328309A (en) Method and device for optical character read
Ting et al. A syntactic business form classifier
JP3957471B2 (en) Separating string unit

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term