JPH06251196A - Character segmenting device - Google Patents

Character segmenting device

Info

Publication number
JPH06251196A
JPH06251196A JP5038093A JP3809393A JPH06251196A JP H06251196 A JPH06251196 A JP H06251196A JP 5038093 A JP5038093 A JP 5038093A JP 3809393 A JP3809393 A JP 3809393A JP H06251196 A JPH06251196 A JP H06251196A
Authority
JP
Japan
Prior art keywords
character
block
line
characters
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5038093A
Other languages
Japanese (ja)
Inventor
Kenji Kurosu
健二 黒須
Hiroshi Yoshida
浩史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5038093A priority Critical patent/JPH06251196A/en
Publication of JPH06251196A publication Critical patent/JPH06251196A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To accurately perform character segmentation and to reduce a time required for data input and a cost by solving a problem in a conventional character segmenting device to divide one character into plural numbers. CONSTITUTION:When a character cluster segmenting part 131 segments a character cluster from character row image data, a character number judging part 132 verifies axial symmetry for the character cluster, and decides whether or not the number of characters in the character cluster is one. When it is decided that the number of characters in the character cluster is not one, the character cluster is further separated to a character pattern by every character at a contact character separation part 133.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は文字切り出し装置に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character slicing device.

【0002】[0002]

【従来の技術】媒体上の文章画像から該文章が持つ文字
情報を正確に得ることができれば、種々の情報処理装置
(例えば、文字情報を記憶する装置や文字情報を音声に
変換する装置等)の実現が可能となる。このような情報
処理装置を実現するためには、媒体上の入力文字列から
得た入力文字列データより、1文字ずつを正確に切り出
す必要がある。しかし、入力文字列によっては文字同士
の間隔が狭いものや、接触するものがあり、分離が困難
である。例えば、欧米の文章においては、隣接した文字
同士が接触する場合が頻出する。このような接触文字を
分離する装置として、特願平03−275470に開示
されているものがあった。この文献に記載された従来の
文字切り出し装置では、接触文字は文字同士の接触部分
でくびれている事が多い事に着目し、該くびれ部分で文
字を分離するものであり、以下に具体的に説明する。
2. Description of the Related Art Various information processing devices (for example, a device for storing character information or a device for converting character information into speech) if the character information of the sentence can be accurately obtained from a text image on a medium. Can be realized. In order to realize such an information processing apparatus, it is necessary to accurately cut out each character from the input character string data obtained from the input character string on the medium. However, depending on the input character string, there are characters that are close to each other and characters that are in contact with each other, which makes separation difficult. For example, in Western texts, adjacent characters often come into contact with each other. As a device for separating such contact characters, there is one disclosed in Japanese Patent Application No. 03-275470. In the conventional character slicing device described in this document, attention is paid to the fact that contact characters are often constricted at the contact parts between the characters, and the characters are separated at the constricted parts. explain.

【0003】従来の文字切り出し装置を用いた文字認識
装置のブロック図を図2に示す。文字認識装置20は、
画像入力部21、文字行切り出し部22、文字切り出し
装置23、文字認識部24、文字コード出力端子25か
らなる。文字、図形、記号等(以下文字という)が記載
された帳票からの光信号sは画像入力部21に入力され
る。画像入力部21は、入力された光信号sを文字部は
黒画素、背景部は白画素の白黒に二値化した電気信号
(以下帳票画像データと称する)に光電変換し、該帳票
画像データを文字行切り出し部22に出力する。文字行
切り出し部22は、帳票画像データより、1行ずつの文
字行を切り出し(以下文字行画像データと称する)、該
文字行画像データを文字切り出し装置23に出力する。
文字切り出し装置23では文字行画像データより個々の
文字を切り出し(以下文字パタンと称する)、該文字パ
タンを文字認識部24に出力する。文字認識部24は前
記文字パタンより文字を認識し、文字コードを得、該文
字コードを文字コード出力端子25に出力する。
FIG. 2 is a block diagram of a character recognition device using a conventional character slicing device. The character recognition device 20 is
The image input unit 21, the character line cutout unit 22, the character cutout device 23, the character recognition unit 24, and the character code output terminal 25. An optical signal s from a form in which characters, figures, symbols, etc. (hereinafter referred to as characters) are written is input to the image input unit 21. The image input unit 21 photoelectrically converts the input optical signal s into an electric signal (hereinafter referred to as “form image data”) that is binarized into black and white with black pixels in the character portion and white pixels in the background portion, and the form image data Is output to the character line cutout unit 22. The character line cutout unit 22 cuts out character lines one by one from the form image data (hereinafter referred to as character line image data), and outputs the character line image data to the character cutout device 23.
The character cutting device 23 cuts out individual characters from the character line image data (hereinafter referred to as character patterns), and outputs the character patterns to the character recognition unit 24. The character recognition unit 24 recognizes a character from the character pattern, obtains a character code, and outputs the character code to the character code output terminal 25.

【0004】以下、従来の文字切り出し装置23につい
て説明する。従来の文字切り出し装置23は文字塊切り
出し部231、くびれ検出部232、文字パタン切り出
し部233とを備えている。文字塊切り出し部231は
帳票画像データを、垂直方向を主走査方向(以後y方向
という場合もある)、水平方向を副走査方向(以後x方
向という場合もある)として走査し、黒画素の分布を作
成する。さらに、該黒画素の分布が「0」から「1」以
上に変化する位置から、「1」以上から「0」に変化す
る直前の位置までを文字塊として切り出し、該文字塊の
画像データを、くびれ検出部232に出力する。くびれ
検出部232においては入力された文字塊の画像データ
より、文字線のくびれ部分を検出し、該くびれ部分を分
離点とし、該分離点を文字パタン切り出し部233に出
力する。文字パタン切り出し部233は前記分離点にて
文字塊の分離を行い、分離した文字パタンを文字認識部
24に出力する。
The conventional character clipping device 23 will be described below. The conventional character cutout device 23 includes a character block cutout unit 231, a constriction detection unit 232, and a character pattern cutout unit 233. The character block clipping unit 231 scans the form image data in the vertical direction as the main scanning direction (hereinafter also referred to as the y direction) and in the horizontal direction as the sub scanning direction (hereinafter also referred to as the x direction) to distribute the black pixels. To create. Further, from the position where the distribution of the black pixels changes from "0" to "1" or more to the position immediately before the change from "1" or more to "0" is cut out as a character block, and the image data of the character block is extracted. , To the necking detection unit 232. The constriction detection unit 232 detects the constricted portion of the character line from the input image data of the character block, sets the constricted portion as a separation point, and outputs the separation point to the character pattern cutout unit 233. The character pattern cutout unit 233 separates the character blocks at the separation points and outputs the separated character patterns to the character recognition unit 24.

【0005】尚、前記くびれ検出部232での文字線の
くびれの検出は以下のように行う。即ち、切り出した文
字塊中の全ての黒画素に対して、水平方向、垂直方向、
左斜め45゜の方向、右斜め45゜の方向の連続黒画素
数を数え、式(1)のいずれかを満たしたときに、その
黒画素の位置を文字線幅のくびれ部分として検出する。 KH < TH KV < TV KL < TL (1) KR < TR ここで、KH、KV、KL、KRはそれぞれ水平方向、垂直
方向、左斜め45゜の方向、右斜め45゜の方向の連続
画素数である。また、TH、TV、TL、TRはそれぞれ水
平方向、垂直方向、左斜め45゜の方向、右斜め45゜
の方向のしきい値であり、予め定めた固定値である。
The detection of the constriction of the character line by the constriction detection section 232 is performed as follows. That is, for all black pixels in the extracted character block, the horizontal direction, the vertical direction,
The number of continuous black pixels in the direction of 45 ° to the left and 45 ° to the right is counted, and when any one of the expressions (1) is satisfied, the position of the black pixel is detected as a constricted portion of the character line width. KH <TH KV <TV KL <TL (1) KR <TR where KH, KV, KL, and KR are the number of continuous pixels in the horizontal direction, the vertical direction, the 45 ° left diagonal direction, and the 45 ° right diagonal direction, respectively. Is. Further, TH, TV, TL, and TR are threshold values in the horizontal direction, the vertical direction, the diagonal direction of 45 ° to the left, and the diagonal direction of 45 ° to the right, and are predetermined fixed values.

【0006】従来の文字切り出し装置を使って接触文字
を分離する一例を図3に示す。図3(a)は帳票31に
記載された文字32を示したものであり、33は文字
“r”と“s”との接触部分を表わしている。図3
(b)はこの文字の帳票画像データである。帳票画像デ
ータにおいて黒画素の部分は“0”で示してある(以後
の帳票画像データでは黒画素を“0”で表わす)。くび
れ検出部232は図3(b)の3aの部分を分離の候補
として選び、文字パタン切り出し部233にてこのくび
れ部分で文字塊を分離し、分離した文字パタンを文字認
識部24に出力する。
FIG. 3 shows an example of separating contact characters using a conventional character cutting device. FIG. 3A shows a character 32 described in the form 31, and 33 represents a contact portion between the characters "r" and "s". Figure 3
(B) is the form image data of this character. In the form image data, black pixels are indicated by "0" (black pixels are indicated by "0" in the following form image data). The constriction detection unit 232 selects the portion 3a in FIG. 3B as a separation candidate, the character pattern cutout unit 233 separates the character block at this constricted portion, and outputs the separated character pattern to the character recognition unit 24. .

【0007】[0007]

【発明が解決しようとする課題】しかし、従来の文字切
り出し装置では文字塊中の文字数が1文字であっても、
文字線幅にくびれがあれば、該くびれ部分で1文字を複
数の部分に分割してしまうという問題があった。例えば
図4(a)に示す文字塊“m”では、従来の文字切り出
し装置はくびれ4aと4bを見つけ、この二点で“m”を
三分割している。“m”の分割結果図4(b)の4cの
部分のみを見ると“l(エル)”の文字と同じ形をして
おり、切り出し結果を修正をするオペレータは、切り出
しの間違いに気がつかず、修正ができない。また、他の
文字塊の分離例を図5に挙げたが、例えば図5(c)の
文字塊“W”の分割例では、分割結果の5dの部分を
“V”と間違えてしまう問題点があった。
However, in the conventional character slicing device, even if the number of characters in the character block is one,
If the character line width has a constriction, there is a problem that one character is divided into a plurality of parts at the constricted part. For example, in the character block "m" shown in FIG. 4 (a), the conventional character segmentation device finds the constrictions 4a and 4b, and divides "m" into three at these two points. Result of division of "m" Looking only at the part 4c in Fig. 4 (b), it has the same shape as the character of "l (el)", and the operator who corrects the cutting result does not notice the mistake of cutting. , I can't fix it. Further, although an example of separating another character block is given in FIG. 5, for example, in the division example of the character block “W” in FIG. 5C, there is a problem that the 5d part of the division result is mistaken for “V”. was there.

【0008】以上のように従来の文字切り出し装置で
は、1文字を複数の部分に分割してしまうことにより、
誤った切り出し結果が生じ、正確なデータ入力が出来な
いという問題点があった。さらに誤った切り出し結果を
直すにも、オペレータによる修正作業が必要であるが、
この作業は膨大な切り出し結果の中から誤った切り出し
結果を見つけるもので、煩雑であり時間と費用を要する
ものであった。このため、文字切り出し装置本来の目的
であるデータ入力時間の短縮、それに要するコストの低
減をはかれないという問題点もあった。さらにこの文字
切り出し装置を文字認識装置に適用した場合には、間違
った認識結果の修正が必要だが、この作業には時間と費
用がかかるものであった。
As described above, in the conventional character slicing device, by dividing one character into a plurality of parts,
There was a problem that incorrect data could not be output due to incorrect cutting results. In addition, the operator needs to make corrections to correct the incorrect cutout result.
This work is to find an erroneous cutting result from a huge amount of cutting results, which is complicated and requires time and cost. Therefore, there is a problem in that the original purpose of the character segmentation device, namely, the data input time and the cost required therefor cannot be reduced. Further, when the character slicing device is applied to a character recognizing device, it is necessary to correct an erroneous recognition result, but this work takes time and cost.

【0009】本発明では、1文字を複数に分割してしま
うという従来の文字切り出し装置の問題点を解決し、正
確に文字切り出しを行い、データ入力に要する時間とコ
ストを低減する事、さらに前述の種々の情報処理装置、
例えば高性能な文字認識装置を提供することを目的とす
る。
According to the present invention, the problem of the conventional character slicing device that one character is divided into a plurality of characters is solved, the character is accurately segmented, and the time and cost required for data input are reduced. Various information processing devices,
For example, it is an object to provide a high-performance character recognition device.

【0010】[0010]

【課題を解決するための手段】この発明は、前記課題を
解決する為に、文字行画像データから文字塊を切り出す
文字塊切り出し部と、前記文字塊について線対称性を検
証し、前記文字塊中の文字数が1文字であるか否かを判
定する文字数判断部と、前記文字数判断部より当該文字
塊中の文字数が1文字でないと判定された場合に当該文
字塊を更に1文字ずつの文字パタンに分離する接触文字
分離部とを具備したことを特徴とする。
SUMMARY OF THE INVENTION In order to solve the above problems, the present invention provides a character block cutout section for cutting out a character block from character line image data and line symmetry of the character block to verify the character block. A character number determination unit that determines whether or not the number of characters in the character block is one character; and if the character number determination unit determines that the number of characters in the character block is not one character It is characterized in that it is provided with a contact character separating section for separating into patterns.

【0011】[0011]

【作用】図6及び図7は本発明の文字切り出し装置の原
理説明図であって、以下本発明の文字切り出し装置の原
理説明を行う。本発明の文字切り出し装置は、文字数判
断部において、文字行画像データより切り出した文字塊
の線対称性を検証し、これにより前記文字塊中の文字数
が1文字であるか否かを判断し、前記判断結果に基づい
て、前記文字塊を分離するか否かを選択することを特徴
とする。このように文字数判断部により、従来の文字切
り出し装置の1文字を分割してしまう問題点を解決し、
正確な文字切り出しを実現するものである。
6 and 7 are explanatory views of the principle of the character cutting device of the present invention. The principle of the character cutting device of the present invention will be described below. The character slicing device of the present invention, in the character number determination unit, verifies the line symmetry of the character block cut out from the character line image data, thereby determining whether or not the number of characters in the character block is one character, It is characterized in that whether to separate the character block is selected based on the determination result. Thus, the problem of dividing one character of the conventional character slicing device by the character number determination unit is solved,
It realizes accurate character segmentation.

【0012】文字数の判断に文字の線対称性を用いる根
拠は、以下の通りである。欧文文字で文字の中心軸に対
して左右線対称な形のものが他の文字と接触した場合を
考えると、その文字塊の形は左右に線対称にはならな
い。いくつかの例を図6及び図7に挙げる。例えば図6
(a)では、“w”と“i”が接触している。“w”と
“i”は共に左右に線対称だが、接触した文字塊の形は
線対称ではない。そのほかにも線対称な文字を含む接触
文字の例を図6(b)以降図7(a)〜(c)に挙げた
が、どの文字塊も線対称ではない。また、欧文文字には
文字の中心を軸として、左右線対称なもの(i,o,
u,v,M,A等)と、ほぼ線対称なもの(B、C、
D、Q、a、e、f等)が多い。以上の事から、切り出
した文字塊の形を見て左右に線対称ならば、その文字塊
が含む文字数は1だといえる。
The rationale for using the line symmetry of characters to judge the number of characters is as follows. Considering the case where a Western character that is symmetrical with respect to the central axis of a character contacts another character, the shape of the character block is not symmetrical with respect to the left and right. Some examples are given in FIGS. 6 and 7. For example, in FIG.
In (a), "w" and "i" are in contact. Both “w” and “i” are line-symmetrical to the left and right, but the shapes of the contacted character blocks are not line-symmetrical. In addition, examples of contact characters including line-symmetrical characters are shown in FIG. 6 (b) and subsequent FIGS. 7 (a) to 7 (c), but no character block is line-symmetrical. In addition, Roman characters have left-right line symmetry (i, o,
u, v, M, A, etc.) and a line symmetry (B, C,
D, Q, a, e, f, etc.). From the above, it can be said that the number of characters contained in the character block is 1 if the cut-out character block has line symmetry to the left and right.

【0013】[0013]

【実施例】本発明の文字切り出し装置を用いた文字認識
装置の一実施例を図1(a)に示す。文字認識装置10
は、画像入力部11、文字行切り出し部12、文字切り
出し装置13、文字認識部14、文字コード出力端子1
5から成る。以下、本発明の文字切り出し装置を文字認
識装置に用いた実施例について説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1A shows an embodiment of a character recognition device using the character cutting device of the present invention. Character recognition device 10
Is an image input unit 11, a character line cutout unit 12, a character cutout device 13, a character recognition unit 14, and a character code output terminal 1.
It consists of 5. Hereinafter, an example in which the character segmentation device of the present invention is used in a character recognition device will be described.

【0014】文字が記載された帳票からの光信号sを画
像入力部11に入力する。画像入力部11は、光信号s
を光電変換し、帳票画像データを得、該帳票画像データ
を文字行切り出し部12に出力する。文字行切り出し部
12は、帳票画像データより、1行ずつの文字行を切り
出し、文字行画像データを得、該文字行画像データを文
字切り出し装置13に出力する。文字切り出し装置13
では前記文字行画像データから一文字ずつの文字を切り
出し、文字パタンを得、該文字パタン文字認識部14に
出力する。文字認識部14では、前記文字パタンより、
文字コードを得、該文字コードを文字コード出力端子1
5に出力する。
An optical signal s from a form in which characters are written is input to the image input unit 11. The image input unit 11 uses the optical signal s
Is photoelectrically converted to obtain form image data, and the form image data is output to the character line cutout unit 12. The character line cutout unit 12 cuts out character lines one by one from the form image data, obtains the character line image data, and outputs the character line image data to the character cutout device 13. Character cutting device 13
Then, each character is cut out from the character line image data to obtain a character pattern, and the character pattern is output to the character recognition unit 14. In the character recognition unit 14, from the character pattern,
Obtain the character code, and output the character code to the character code output terminal 1
Output to 5.

【0015】以下、図1(b)の文字切り出し装置13
について説明する。文字切り出し装置13は文字塊切り
出し部131、文字数判断部132、接触文字分離部1
33から成る。文字行画像データを文字塊切り出し部1
31に入力し、文字塊切り出し部131は文字行画像デ
ータをy方向とx方向に走査し、黒画素の分布を作成す
る。さらに、該黒画素の分布が「0」から「1」以上に
変化する位置から、「1」以上から「0」に変化する直
前の位置までを文字塊として切り出し、該文字塊の画像
データを、文字数判断部132に出力する。文字数判断
部132では文字塊の形が線対称であるか否かを判断
し、線対称と判断した文字塊の画像データは、該文字塊
の画像データを文字認識部14に出力する。形が線対称
でないと判断した文字塊については、該文字塊の画像デ
ータを接触文字分離部133に出力する。接触文字離部
133は、従来の文字切り出し装置23と同じ方法で接
触文字のくびれ部分を見つけ、該くびれ部分で接触文字
を分離し、分離した文字パタンを文字認識部14に出力
する。
Hereinafter, the character extracting device 13 shown in FIG.
Will be described. The character cutout device 13 includes a character block cutout unit 131, a character number determination unit 132, and a contact character separation unit 1.
It consists of 33. Character block image data extraction unit 1
31. The character block cutout unit 131 scans the character line image data in the y direction and the x direction to create a black pixel distribution. Further, from the position where the distribution of the black pixels changes from "0" to "1" or more to the position immediately before the change from "1" or more to "0" is cut out as a character block, and the image data of the character block is extracted. , To the character number determination unit 132. The character number determination unit 132 determines whether or not the shape of the character block is line-symmetrical, and the image data of the character block determined to be line-symmetrical is output to the character recognition unit 14. For a character block whose shape is determined not to be line symmetrical, the image data of the character block is output to the contact character separation unit 133. The contact character separation unit 133 finds the constricted portion of the contact character by the same method as the conventional character cutting device 23, separates the contact character at the constricted portion, and outputs the separated character pattern to the character recognition unit 14.

【0016】前記文字数判断部132は文字塊の線対称
性の判断を以下のように行う。まず、文字塊の左右の
“縁”にあたる黒画素の位置を検索する。この処理は、
文字塊の画像データ上で、走査線のy値を一定としてx
の正の方向に走査したとき黒画素の最初にあらわれる位
置のx座標と、黒画素の最後に現れる位置のx座標を検
出することである。該処理を走査線のy値を文字塊のy
方向の最小値y=yminからy方向の最大値y=ymaxま
で変えて行い、前記のx座標をxl[i]、xr[i]
(i=1,2,・・,n;n=ymax−ymin+1(nは
文字塊の高さに相当する))として、記憶する。次に、
式(2)のw、L、H の値を求める。式(2)におい
てtの値は書体などにより変え得るパラメータであり、
0<t≦0.5の範囲の値をとる。 w = xmax − xmin L = xmin + t × w (2) H = xmax − t × w 但し、xminは文字塊のx方向の最小値であり、xmaxは
文字塊のx方向の最大値である。
The character number determination unit 132 determines the line symmetry of the character block as follows. First, the positions of the black pixels corresponding to the “edges” on the left and right of the character block are searched. This process
On the image data of a character block, x is assumed to be a constant y value of the scanning line.
Is to detect the x-coordinate of the position that first appears in the black pixel and the x-coordinate of the position that appears last in the black pixel when scanned in the positive direction. The y value of the scanning line is set to the y of the character block
The minimum value in the direction y = ymin is changed to the maximum value in the y direction y = ymax, and the x coordinate is xl [i], xr [i].
(I = 1, 2, ..., N; n = ymax-ymin + 1 (n corresponds to the height of the character block)) and is stored. next,
The values of w, L, and H in equation (2) are calculated. In equation (2), the value of t is a parameter that can be changed depending on the typeface, etc.
It takes a value in the range of 0 <t ≦ 0.5. w = xmax−xmin L = xmin + t × w (2) H = xmax−t × w where xmin is the minimum value of the character block in the x direction and xmax is the maximum value of the character block in the x direction.

【0017】次に、文字塊の左縁xl[i]と 右縁xr
[i]の中点をc[i]とする(式(3)参照)。x=
L と x=Hの間に、c[i]が幾つあるかを数え(式
(4)参照)、その数をmとする。mが式(5)の条件
を満足したときその文字は線対称と判断する。 c[i]=(xl[i]+xr[i])/2 (i=1,2,…,n) (3) L ≦ c[i]≦H (i=1,2,…,n) (4) m ≧ a × n (n=ymax−ymin+1) (5) 但し、aは文字の書体などにより適当な値をとる固定値
(0<a≦1)である。
Next, the left edge xl [i] and the right edge xr of the character block are
Let the midpoint of [i] be c [i] (see equation (3)). x =
The number of c [i] between L and x = H is counted (see the equation (4)), and the number is m. When m satisfies the condition of Expression (5), the character is determined to be line symmetric. c [i] = (xl [i] + xr [i]) / 2 (i = 1,2, ..., n) (3) L ≦ c [i] ≦ H (i = 1,2, ..., n) (4) m ≧ a × n (n = ymax−ymin + 1) (5) However, a is a fixed value (0 <a ≦ 1) that takes an appropriate value depending on the typeface of the character.

【0018】以上の文字数判断部132の処理を、図4
の文字塊“m”の場合について具体的に説明する。前記
文字塊“m”において、xl[i]、xr[i]を求める
様子を、文字パタンに座標を付けた図8を用いて説明す
る。線74は走査線を表す。該走査線にて文字塊の画像
データをxの正方向に走査すると、最初に現れる黒画素
は7aで、最後に現れる黒画素は7bである。この場合、
前記走査線74のy座標は、文字塊のy方向の最小値y
min(線73のy座標)より10大きいので、黒画素7a
のx座標を数列xl[11]に、黒画素7bのx座標をx
r[11]に記憶させる。該処理を走査線のy値をymin
から文字塊のy方向の最大値ymaxまで変えて行う。
The above-described processing of the character number determination unit 132 is shown in FIG.
The case of the character block “m” will be specifically described. How to obtain xl [i] and xr [i] in the character block “m” will be described with reference to FIG. 8 in which character patterns are coordinated. Line 74 represents a scan line. When the image data of the character block is scanned in the positive x direction by the scanning line, the first black pixel that appears is 7a and the last black pixel that appears is 7b. in this case,
The y coordinate of the scanning line 74 is the minimum value y in the y direction of the character block.
Black pixel 7a because it is 10 larger than min (y coordinate of line 73)
X-coordinate of the black pixel 7b in the sequence xl [11]
Store in r [11]. The y value of the scanning line is processed by ymin
To the maximum value ymax in the y direction of the character block.

【0019】文字数判断部132での図8の文字塊の対
称性の判断は、以下のようになる。図8より前記xmi
n、xmax、ymin、ymax、w、nの値は、 xmin(線71のx値)=9、 xmax(線72のx値)
=40 ymin(線73のy値)=17、ymax(線75のy値)
=35 となるため、 w = xmax − xmin =31 n = ymax − ymin +1=19 となり、式(2)に於て、tの値を1/3、式(5)で
のaの値を4/5とすると、L、Hの値は、 L = 9 + 31 × 1/3 = 19 H = 40 − 31 × 1/3 = 29 となる。x=L と x=Hの文字塊“m”の画像データ
に対する位置を図9に示す。図9において、線82のx
値がLの値、線83のx値がHの値である。線81のx
値がxmin、線84のx値がxmax、線85のy値がymi
n、線86のy値がymaxを示す(図9では xl[i]と
xr[i]にあたる黒画素を“#”で表わす)。図9で
はn=19、m=19(つまり図9において、c[i]
の点全てが線82と線83の間にある)なので式(5)
の条件を満たす。
The determination of the symmetry of the character block of FIG. 8 by the character number determination unit 132 is as follows. From FIG. 8, the xmi
The values of n, xmax, ymin, ymax, w, n are: xmin (x value of line 71) = 9, xmax (x value of line 72)
= 40 ymin (y value of line 73) = 17, ymax (y value of line 75)
= 35, w = xmax−xmin = 31 n = ymax−ymin + 1 = 19, so that in equation (2), the value of t is 1/3, and the value of a in equation (5) is 4 If it is set to / 5, the values of L and H will be L = 9 + 31 * 1/3 = 19H = 40-31 * 1/3 = 29. FIG. 9 shows the positions of the character block “m” of x = L and x = H with respect to the image data. In FIG. 9, line x
The value is an L value, and the x value of the line 83 is an H value. X on line 81
The value is xmin, the x value of line 84 is xmax, and the y value of line 85 is ymi.
The y value of n and the line 86 indicates ymax (black pixels corresponding to xl [i] and xr [i] are represented by "#" in FIG. 9). In FIG. 9, n = 19 and m = 19 (that is, in FIG. 9, c [i]
Since all the points of are between the line 82 and the line 83), the formula (5)
Satisfy the condition of.

【0020】以上のように、文字塊“m”は式(5)の
条件を満たすので文字数判断部132は、前記文字塊
“m”を線対称な1文字と判断し、接触文字の分離処理
を行わない。よって、文字数判断部132は、前記文字
塊“m”の文字パタンをそのまま文字認識部14に出力
する。また、図5(a)の文字塊“u”では式(5)m
の値は24、nの値は24、図5(b)の文字塊“n”
では式(5)mの値は27、nの値は27、図5(c)
の文字塊“W”では式(5)mの値は26、nの値は2
6で、いずれも式(5)の条件を満たす。よって、文字
数判断部132はこれらの文字に対しては接触文字分離
の処理を行わず、文字パタンをそのまま文字認識部14
に出力する。
As described above, since the character block "m" satisfies the condition of the expression (5), the character number determination unit 132 determines that the character block "m" is one line-symmetrical character, and the contact character separation processing is performed. Do not do. Therefore, the character number determination unit 132 outputs the character pattern of the character block “m” to the character recognition unit 14 as it is. Further, in the character block “u” in FIG.
Is 24, the value of n is 24, and the character block “n” in FIG.
Then, in Expression (5), the value of m is 27, the value of n is 27, and FIG.
In the character block “W” of formula (5), the value of m is 26 and the value of n is 2
6 all satisfy the condition of Expression (5). Therefore, the character number determination unit 132 does not perform contact character separation processing on these characters, and the character pattern is used as it is.
Output to.

【0021】また、図10に“p”と“e”の接触文字
の文字塊に、本発明の文字切り出し装置を用いた結果を
示した。図10に示した文字パタンの場合、式(5)の
mの値は25、nの値は34で、式(5)の条件を満た
さない。よって、文字数判断部132は前記文字塊の画
像データを接触文字分離部133に出力する。接触文字
分離部133は、文字塊をくびれの位置9aで分離し、
分離した文字パタンを文字認識部14に出力する。
FIG. 10 shows the result of using the character slicing device of the present invention for a character block of contact characters "p" and "e". In the case of the character pattern shown in FIG. 10, the value of m in expression (5) is 25 and the value of n is 34, which does not satisfy the condition of expression (5). Therefore, the character number determination unit 132 outputs the image data of the character block to the contact character separation unit 133. The contact character separation unit 133 separates the character block at the constricted position 9a,
The separated character pattern is output to the character recognition unit 14.

【0022】文字認識部14の動作を以下に説明する。
まず、文字パタンより文字平均線幅を算出する。前記文
字平均線幅の算出は、文字パタンを2×2の窓で走査し
たときに2×2の窓の全ての点が黒画素となる点の個数
Qと、入力文字パタンの全ての黒画素数Aとを計数し、
式(6)に示す文字平均線幅の近似式に基づいて文字パ
タン中の文字の文字平均線幅Wを算出することにより行
う。 W=A/(A−Q) (6)
The operation of the character recognition unit 14 will be described below.
First, the character average line width is calculated from the character pattern. The calculation of the character average line width is performed by calculating the number Q of points at which all the points in the 2 × 2 window are black pixels when the character pattern is scanned through the 2 × 2 window, and all the black pixels in the input character pattern. Count the number A and
This is performed by calculating the character average line width W of the character in the character pattern based on the approximate expression of the character average line width shown in the equation (6). W = A / (A-Q) (6)

【0023】次に、文字パタンより水平、垂直、左斜
め、右斜めの4方向の線素を抽出した4個のサブパタン
を抽出する。前記、サブパタン抽出の処理は、例えば水
平サブパタンの場合は、文字パタンを水平方向に走査し
黒画素の連続を検出し、黒画素の連続数LHが式(7)
を満足するときに当該黒画素の連続を水平方向のサブパ
タンとして抽出するものである。同様に式(7)より垂
直、左斜め、右斜めサブパタンの抽出も行う。 LH > 2 × W LV > 2 × W LL > 21/2 × W (7) LR > 21/2 × W 但し、LH、LV、LL、LRは各々水平、垂直、左斜め、
右斜め方向の連続黒画数である。
Next, four sub-patterns, which are line elements extracted in four directions of horizontal, vertical, left diagonal, and right diagonal, are extracted from the character pattern. In the sub pattern extraction process, for example, in the case of a horizontal sub pattern, the character pattern is scanned in the horizontal direction to detect the succession of black pixels, and the succession number LH of black pixels is calculated by the formula (7).
When the above condition is satisfied, the succession of black pixels is extracted as a horizontal sub-pattern. Similarly, the vertical, left diagonal, and right diagonal sub-patterns are also extracted from the equation (7). RH> 2 x W LV> 2 x W LL> 2 1/2 x W (7) LR> 2 1/2 x W where LH, LV, LL, and LR are horizontal, vertical, diagonal to the left,
The number of continuous black strokes in the right diagonal direction.

【0024】次に前記水平、垂直、左斜め、右斜めのサ
ブパタンを、小領域に分割し各サブパタンの各領域の黒
画素数を計数し、前記黒画素計結果及び前記平均線幅よ
り、式(8)に基づいて水平、垂直、左斜め及び右斜め
の特徴マトリクスを抽出する。 KH(m,n)=BH(m,n)/W KV(m,n)=BV(m,n)/W KL(m,n)=BL(m,n)/W (8) KR(m,n)=BR(m,n)/W 但し、KH、KV,KL、KRは各々水平、垂直、左斜め、
右斜めの特徴マトリクス、BH、BV,BL、BRは各々水
平、垂直、左斜め、右斜めの黒画素マトリクス、(m,
n)は各マトリクスの要素番号である前記小領域の分割
は本実施例においては、入力文字パタン外接枠を水平、
垂直方向に5等分して作成される5×5の25の小領域
に分割をするものとする。
Next, the horizontal, vertical, left diagonal, and right diagonal sub-patterns are divided into small areas, the number of black pixels in each area of each sub-pattern is counted, and from the black pixel meter result and the average line width, Based on (8), the horizontal, vertical, diagonal left and diagonal right feature matrices are extracted. KH (m, n) = BH (m, n) / W KV (m, n) = BV (m, n) / W KL (m, n) = BL (m, n) / W (8) KR ( m, n) = BR (m, n) / W However, KH, KV, KL, and KR are horizontal, vertical, left diagonal,
The right diagonal feature matrix, BH, BV, BL, and BR are horizontal, vertical, left diagonal, and right diagonal black pixel matrices, respectively (m,
In this embodiment, n) is the element number of each matrix. In the present embodiment, the input character pattern circumscribing frame is horizontal,
It is assumed that the image is divided into 25 small areas of 5 × 5, which are created by dividing the area into 5 in the vertical direction.

【0025】そして文字認識部14においては、前記特
徴マトリクスと、予め文字認識部14内に備えた辞書内
の標準文字の特徴マトリクスとを式(9)に基づいて照
合し、式(9)の距離値dが最も小さくなる標準文字の
文字コードを、当該入力文字パタンの認識結果として文
字コード出力端子15より出力するものである。 d=(Σ(gi−ki)21/2 (9) 但し、giは標準文字の特徴マトリクスの要素、kiは入
力文字パタンの特徴マトリクスの要素である。
Then, in the character recognition unit 14, the feature matrix is collated with the feature matrix of the standard characters in the dictionary provided beforehand in the character recognition unit 14 based on the formula (9), and the formula (9) The character code of the standard character having the smallest distance value d is output from the character code output terminal 15 as the recognition result of the input character pattern. d = (Σ (gi-ki) 2 ) 1/2 (9) where gi is an element of the standard character feature matrix and ki is an element of the input character pattern feature matrix.

【0026】以上の説明では、欧文文字に本発明の文字
切り出し装置を用いた場合について説明したが、他の文
字、記号であってもこの手法が有効であることは明かで
ある。
In the above description, the case where the character slicing device of the present invention is used for Roman characters has been described, but it is clear that this method is effective even for other characters and symbols.

【0027】[0027]

【発明の効果】以上詳細に説明したように、本発明の文
字切り出し装置によれば、欧文文字に左右が線対称な文
字が多いことを利用して、切り出した文字塊に含まれる
文字数が1文字か否かを判断し、該判断に基づき文字線
幅のくびれ部分で接触文字の分離を行う。従って、誤っ
て1文字を複数の部分に分割すること無く正確な文字切
り出しが出来る。また本発明によれば、正確な文字切り
出し、データ入力ができるためデータ入力に要する修正
作業、時間と費用の低減がはかれる。よって、種々の情
報処理装置の実現が可能となる。
As described above in detail, according to the character slicing device of the present invention, the number of characters included in a sliced character block is 1 by utilizing the fact that there are many characters which are line-symmetrical in the Roman alphabet. Whether or not it is a character is determined, and based on the determination, the contact character is separated at the constricted portion of the character line width. Therefore, accurate character cutting can be performed without accidentally dividing one character into a plurality of parts. Further, according to the present invention, since accurate character cutting and data input can be performed, correction work required for data input, time and cost can be reduced. Therefore, various information processing devices can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文字切り出し装置を組み込んだ文字認
識装置の実施例を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a character recognition device incorporating a character clipping device of the present invention.

【図2】従来の文字切り出し装置を組み込んだ文字認識
装置の実施例を示すブロック図である。
FIG. 2 is a block diagram showing an embodiment of a character recognition device incorporating a conventional character cutting device.

【図3】従来の文字切り出し装置による欧文接触文字の
分離の説明図である。
FIG. 3 is an explanatory diagram of separation of European-language contact characters by a conventional character clipping device.

【図4】従来の文字切り出し装置による1文字の分割例
を示す図である。
FIG. 4 is a diagram showing an example of dividing one character by a conventional character cutting device.

【図5】従来の文字切り出し装置による1文字の分割例
を示す図である。
FIG. 5 is a diagram showing an example of dividing one character by a conventional character cutting device.

【図6】接触文字で左右線対称の文字を含む例を示す図
である。
FIG. 6 is a diagram showing an example in which touch characters include left-right symmetrical characters.

【図7】接触文字で左右線対称の文字を含む例を示す図
である。
FIG. 7 is a diagram showing an example in which touch characters include left-right symmetrical characters.

【図8】文字塊の左端xl[i]と右端xr[i]の求め
方の説明図である。
FIG. 8 is an explanatory diagram of how to obtain a left end xl [i] and a right end xr [i] of a character block.

【図9】文字塊の対称性の判断方法の説明図である。FIG. 9 is an explanatory diagram of a method of determining the symmetry of a character block.

【図10】接触文字を分離する例を示す図である。FIG. 10 is a diagram showing an example of separating contact characters.

【符号の説明】[Explanation of symbols]

10 文字認識装置 11 画像入力部 12 文字行切り出し部 13 本発明の文字切り出し装置 14 文字認識部 15 文字コード出力端子 131 文字塊切り出し部 132 文字数判断部 133 接触文字分離部 DESCRIPTION OF SYMBOLS 10 character recognition device 11 image input unit 12 character line cutout unit 13 character cutout device 14 character recognition unit 15 character recognition unit 15 character code output terminal 131 character block cutout unit 132 character number determination unit 133 contact character separation unit

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 文字行画像データから文字塊を切り出す
文字塊切り出し部と、 前記文字塊について線対称性を
検証し、前記文字塊中の文字数が1文字であるか否かを
判定する文字数判断部と、 前記文字数判断部より当該文字塊中の文字数が1文字で
ないと判定された場合に当該文字塊を更に1文字ずつの
文字パタンに分離する接触文字分離部とを具備したこと
を特徴とする文字切り出し装置。
1. A character block cutout unit for cutting out a character block from character line image data, and a character number determination for verifying line symmetry with respect to the character block and determining whether or not the number of characters in the character block is one character. And a contact character separation unit that further separates the character block into character patterns one by one when the character number determination unit determines that the number of characters in the character block is not one character. Character cutting device.
【請求項2】 請求項1記載の文字切り出し装置におい
て、前記線対称性の検証は、文字塊の画像データから左
縁画素と右縁画素とを副走査方向の各走査線毎に検出
し、前記二つの画素の中点位置の分布により行うことを
特徴とする文字切り出し装置。
2. The character slicing device according to claim 1, wherein the line symmetry verification detects a left edge pixel and a right edge pixel from image data of a character block for each scanning line in the sub-scanning direction, A character slicing device characterized by performing distribution of the midpoint positions of the two pixels.
JP5038093A 1993-02-26 1993-02-26 Character segmenting device Pending JPH06251196A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5038093A JPH06251196A (en) 1993-02-26 1993-02-26 Character segmenting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5038093A JPH06251196A (en) 1993-02-26 1993-02-26 Character segmenting device

Publications (1)

Publication Number Publication Date
JPH06251196A true JPH06251196A (en) 1994-09-09

Family

ID=12515863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5038093A Pending JPH06251196A (en) 1993-02-26 1993-02-26 Character segmenting device

Country Status (1)

Country Link
JP (1) JPH06251196A (en)

Similar Documents

Publication Publication Date Title
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
JP3390000B2 (en) Image analysis method
EP0138445A2 (en) Method and apparatus for segmenting character images
JPH0713995A (en) Automatic determination device of feature of text
JPH0721319A (en) Automatic determination device of asian language
CN111259878A (en) Method and equipment for detecting text
JPH05233873A (en) Area dividing method
JPH06208625A (en) Method and device for processing image
JPH06251196A (en) Character segmenting device
JP3548234B2 (en) Character recognition method and device
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JPH02273884A (en) Detecting and correcting method for distortion of document image
JPH06251197A (en) Character segmenting device
JPH0916713A (en) Image area dividing method
JPH0581474A (en) Character string extracting method and character area detecting method
JPH05114047A (en) Device for segmenting character
JPH08272900A (en) Document reader
JP2859307B2 (en) Character extraction device
JPH06295356A (en) On-line character recognition device
JPH0660220A (en) Area extracting method for document image
JP3226355B2 (en) Recognition result evaluation method
JPH05135204A (en) Character recognition device
JPH10171919A (en) Character input system for handwritten character recognition
JPH05128305A (en) Area dividing method