JPH06195507A - Character segmentation device - Google Patents

Character segmentation device

Info

Publication number
JPH06195507A
JPH06195507A JP4345941A JP34594192A JPH06195507A JP H06195507 A JPH06195507 A JP H06195507A JP 4345941 A JP4345941 A JP 4345941A JP 34594192 A JP34594192 A JP 34594192A JP H06195507 A JPH06195507 A JP H06195507A
Authority
JP
Japan
Prior art keywords
character
character image
unit
image data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4345941A
Other languages
Japanese (ja)
Inventor
Yukiya Sugiyama
幸也 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4345941A priority Critical patent/JPH06195507A/en
Publication of JPH06195507A publication Critical patent/JPH06195507A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To correctly segment even image data, which includes a sideline touching a character, into even the character touching the sideline by the character segmentation part of a character recognition device. CONSTITUTION:The character segmentation part 3 segments the image data, read by an image read part 1, into character image data by characters. A circumscribed rectangle is found for each character image data and its longitudinal-lateral ratio is checked. When a longitudinal-lateral ratio is remarkably different, the histogram of black pixels in the character image is generated. When there is a black pixel area which projects nearby an end part in the character image, it is judged that there is a sideline. When it is judged that there is the sideline, image data other than the side line is segmented into characters again. Consequently, the character image having the sideline touching the character can correctly be cut.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、新聞,雑誌,小説など
の、活字,ドット文字及び手書き文字パターンをスキャ
ナなどの画像読み取り装置から画像データとして読み込
み、一文字ずつJISコード等のコード情報に変換する
文字認識装置に用いられる文字切り出し装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention reads print, dot character and handwritten character patterns of newspapers, magazines, novels, etc. as image data from an image reading device such as a scanner and converts each character into code information such as JIS code. The present invention relates to a character slicing device used for a character recognizing device.

【0002】[0002]

【従来の技術】一般に文字認識装置は、印刷文字、手書
き文字等を光学的に走査し読み取って電気信号に変換す
る入力段階と、この電気信号の文字画像データを検出し
て切り出し、正規化、雑音除去等を行う前処理段階と、
文字画像データの特徴を抽出する特徴抽出段階と、この
特徴に基づいて文字画像データをパターンマッチング等
の手法により判断する識別段階とに大別される。
2. Description of the Related Art Generally, a character recognition device has an input stage of optically scanning and reading a print character, a handwritten character, etc., and converting it into an electric signal, detecting character image data of the electric signal, cutting out, normalizing, A pre-processing stage such as noise removal,
It is roughly divided into a feature extraction step of extracting the characteristics of the character image data and an identification step of determining the character image data based on the characteristics by a method such as pattern matching.

【0003】特に、前処理段階には最も重要な文字パタ
ーンの切り出しが含まれ、文字パターンの切り出しは文
字行から1文字分の文字パターンを他の文字パターンか
ら分離する文字切り出し装置により行う。この文字切り
出し装置は文字ピッチ及び文字間の空白情報を利用して
分離し、また手書き文字では文字記入枠を用いて、文字
の切り出しを行っていた。
In particular, the most important character pattern cutout is included in the preprocessing stage, and the character pattern cutout is performed by a character cutout device for separating a character pattern for one character from a character line from other character patterns. This character slicing device uses the character pitch and space information between characters to separate characters, and for handwritten characters, character slicing is performed using a character entry frame.

【0004】[0004]

【発明が解決しようとする課題】従来の文字切り出し装
置では、黒画素の一連続領域を一文字分の文字画像デー
タとみなしてしまうために、例えば図9(A)のように
文字と接触するアンダーラインがあった場合、“A”,
“T”,“E”各文字は連続した領域とみなされて、切
り出し結果は図9(B)に示すように“ATE”単一の
文字として切り出すこととなり、正しい切り出し結果が
得られない。これは縦書き又は横書きのいずれの場合に
も生じ、傍線が付される文字を一文字ずつ正確に切り出
すことができないという課題を有していた。
In the conventional character slicing device, since one continuous region of black pixels is regarded as character image data for one character, underscores that contact a character as shown in FIG. 9A, for example. If there is a line, "A",
Characters "T" and "E" are regarded as continuous areas, and the cutout result is cut out as a single character "ATE" as shown in FIG. 9B, and a correct cutout result cannot be obtained. This occurs in both vertical writing and horizontal writing, and there is a problem in that it is not possible to accurately cut out characters to which a side line is attached one by one.

【0005】本発明は前記課題を解決するためになされ
たもので、切り出しの対象となる文字に傍線が付されて
いる文字画像データであっても各文字毎に正確に切り出
すことができる文字切り出し装置を提供することを目的
とする。
The present invention has been made in order to solve the above-mentioned problems, and it is possible to accurately cut out each character even if it is character image data in which a character to be cut out has a side line. The purpose is to provide a device.

【0006】[0006]

【課題を解決するための手段】本発明に係る文字切り出
し装置は、画像読み取り装置から読み取った画像データ
を一文字毎の文字画像データに切り出しする文字切り出
し部により文字画像データとして切り出し、切り出され
た一つの文字画像の外接矩形の縦横比が著しく異なる場
合は前記文字画像中の黒画素のヒストグラムをとり、前
記ヒストグラムにおいて文字画像中の端部近傍に突出し
た黒画素領域の存在の有無により文字画像中に傍線が付
されているか否かを判断し、前記判断に基づいて傍線以
外の画像データだけを用いて再度文字の切り出しをする
ものである。
A character cutout device according to the present invention cuts out image data read from an image reading device into character image data for each character, and cuts out the character data as character image data. When the aspect ratios of the circumscribed rectangles of the two character images are significantly different, a histogram of the black pixels in the character image is taken, and in the histogram the presence or absence of a black pixel region protruding near the end of the character image It is determined whether or not a line is attached to the line, and the character is again cut out using only the image data other than the line based on the determination.

【0007】[0007]

【作用】本発明は前記の構成により、切り出された文字
画像の縦横比の比率及び文字画像の黒画素ヒストグラム
のうち突出した黒画素領域の有無に基づいて、文字画像
中に傍線が含まれているか否かを判断し、傍線以外の文
字画像データより一文字毎の文字画像データを正しく切
り出す。
According to the present invention, according to the above-described structure, a lateral line is included in a character image based on the ratio of the aspect ratio of the extracted character image and the presence or absence of a protruding black pixel area in the black pixel histogram of the character image. It is determined whether or not the character image data for each character is correctly cut out from the character image data other than the line.

【0008】[0008]

【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0009】図1は本発明の一実施例における文字切り
出し装置のブロック図である。同図において文字切り出
し装置は、認識対象文書を光電変換する画像読み取り部
1と、認識対象文書の画像データより、文字行単位の画
像データを切り出す行切り出し部2と、切り出された文
字行単位の画像データより、文字単位の文字画像データ
を切り出す文字切り出し部3と、切り出された文字画像
データ中のアンダーラインの有無を判定するアンダーラ
イン判定部4と、文字画像中のアンダーライン部分の画
像データをバックアップして記憶するバックアップ部5
と、バックアップされた部分の画像データを原画像から
消去するアンダーライン消去部6と、アンダーラインの
消去された画像データに対して再度文字切り出しを行う
文字再切り出し部7と、バックアップしておいたアンダ
ーライン部分の画像データを原画像に復帰させる画像復
帰部8と、すべての行に対して処理が行われたかを判定
する終了判定部9とを備える構成である。
FIG. 1 is a block diagram of a character slicing device according to an embodiment of the present invention. In the figure, the character cutting device includes an image reading unit 1 for photoelectrically converting a recognition target document, a line cutting unit 2 for cutting image data of a character line unit from image data of the recognition target document, and a cut-out character line unit. A character cutout unit 3 that cuts out character image data in character units from image data, an underline determination unit 4 that determines whether there is an underline in the cut out character image data, and image data of an underlined portion in the character image. Backup unit 5 that backs up and stores
And an underline erasing unit 6 for erasing the image data of the backed up portion from the original image, a character re-clipping unit 7 for again performing character clipping for the image data with the underline erased, and a backup. The configuration includes an image restoration unit 8 that restores the image data of the underlined portion to the original image, and an end determination unit 9 that determines whether or not all the lines have been processed.

【0010】図2はアンダーライン判定部4の詳細なブ
ロック図を示す。同図においてアンダーライン判定部4
は、文字切り出し部3により切り出された文字画像デー
タの一つの文字画像の外接矩形の縦横比を検出する外接
矩形比検出部10と、この検出された縦横比が所定値以
上の縦横比と判断される文字画像をm(mは正の整数)
等分に分割する文字画像分割部11と、m等分された文
字画像のそれぞれについて文字画像中の黒画素のヒスト
グラムを演算するヒストグラム演算部12と、ヒストグ
ラムにおいて横書きの文書であれば文字画像下部、縦書
き文書であれば文字画像右部に突出した黒画素領域が存
在すれば文字画像中にアンダーライン又は傍線が付され
ていると判断する傍線判断部13とを備える構成であ
る。
FIG. 2 is a detailed block diagram of the underline determination unit 4. In the figure, the underline determination unit 4
Is a circumscribing rectangle ratio detecting unit 10 that detects an aspect ratio of a circumscribing rectangle of one character image of the character image data cut out by the character slicing unit 3, and determines that the detected aspect ratio is equal to or larger than a predetermined value. The displayed character image is m (m is a positive integer)
A character image division unit 11 that divides the image into equal parts, a histogram calculation unit 12 that calculates a histogram of black pixels in the character image for each of m character images, and a lower part of the character image if the histogram is a horizontally written document. In the case of a vertically written document, the side-line determining unit 13 determines that an underline or a side line is attached to the character image if a black pixel area protruding to the right of the character image exists.

【0011】以上のように構成された本実施例の文字切
り出し装置を図3,図4,図5,図6,図7,図8に基
づいてその動作について説明する。原画像は、横書き文
書であるとする。
The operation of the character slicing device of this embodiment constructed as described above will be described with reference to FIGS. 3, 4, 5, 6, 7 and 8. The original image is assumed to be a horizontal writing document.

【0012】図6は、本発明の一実施例における文字切
り出し装置のフローチャートである。
FIG. 6 is a flow chart of the character slicing device in one embodiment of the present invention.

【0013】図6において画像読み取り部1は、認識対
象文書を光学的に読み出すと共に光電変換し、画像デー
タを得る(21)。この画像データを行切り出し部2が
行単位の画像データを切り出す(22)。この切り出さ
れた行単位の画像データが文字切り出し部3に出力さ
れ、文字切り出し部3は切り出された複数行のうちの一
行に着目し(23)、着目行に対して文字切り出しを行
う(24)。
In FIG. 6, the image reading section 1 optically reads out a document to be recognized and performs photoelectric conversion to obtain image data (21). The line cutout unit 2 cuts out the image data line by line from the image data (22). The cut-out line-by-line image data is output to the character cutout unit 3, and the character cutout unit 3 focuses on one of the plurality of cutout lines (23) and performs character cutout on the focused line (24). ).

【0014】次に、アンダーライン判定部4は切り出さ
れた複数文字画像についてアンダーラインの有無を判定
する動作に移行する(20)。このアンダーライン有無
の判定動作フローチャートの詳細を図7に示す。この判
定動作の前処理として外接矩形比検出部10が複数の文
字画像のうちの一文字画像に着目し(25)、文字画像
の縦横比を求める(26)。
Next, the underline determination unit 4 shifts to an operation for determining the presence or absence of an underline in the cut out plural character image (20). FIG. 7 shows the details of the operation flow chart for determining the presence or absence of underline. As a pre-process of this determination operation, the circumscribing rectangle ratio detection unit 10 focuses on one character image of the plurality of character images (25) and obtains the aspect ratio of the character image (26).

【0015】次に、アンダーライン判定部4は一文字画
像の幅が高さの2倍以上であるか調べ(27)、2倍以
下であれば後述する動作(32)へ移行する。
Next, the underline determination unit 4 checks whether the width of one character image is more than twice the height (27), and if it is less than twice, moves to the operation (32) described later.

【0016】アンダーライン判定部4は一文字画像の縦
横比が1対2以上と判断(27)した場合には、さらに
文字画像内にアンダーラインが存在するか否かを具体的
に調べる(28)。
When the underline determination unit 4 determines that the aspect ratio of one character image is 1 to 2 or more (27), it further checks whether or not there is an underline in the character image (28). .

【0017】図7は、本発明の一実施例における文字切
り出し装置のアンダーライン判定部のフローチャートで
ある。
FIG. 7 is a flow chart of the underline determination unit of the character slicing device in one embodiment of the present invention.

【0018】この具体的なアンダーライン有無の判定は
図7に示すフローチャートを用いて説明する。
The specific determination of the presence or absence of underline will be described with reference to the flowchart shown in FIG.

【0019】図3は、図2記載装置のアンダーライン判
定部における分割升目内の黒画素分布図である。
FIG. 3 is a black pixel distribution diagram in the divided cells in the underline determination unit of the apparatus shown in FIG.

【0020】文字画像分割部11は外接矩形比検出部1
0で検出された2倍以上の縦横比を有する文字画像を図
3に示すようにm等分する(41)。この文字画像の縦
方向の画素数に対応するドット数の各行とm等分された
横方向の列とからなる各升目内についてヒストグラム演
算部12が黒画素のパーセンテージを求める(42)。
この結果を図3に示し、ここで同時に図3を基にしたヒ
ストグラムを図4に示すように作成しておく。傍線判断
部13は作成されたヒストグラムのうちドット数(行)
の1行全てが100%の黒画素である行を探し(4
3)、100%の黒画素である行が存在すればアンダー
ラインが有ると判断する(46)。傍線判断部13は1
00%の黒画素の行からなる分割升目領域が連続する幅
によりアンダーラインの長さを求める(44)。
The character image division unit 11 is a circumscribed rectangle ratio detection unit 1.
A character image having an aspect ratio of 2 times or more detected at 0 is divided into m equal parts as shown in FIG. 3 (41). The histogram calculation unit 12 obtains the percentage of black pixels in each square made up of rows each having a number of dots corresponding to the number of pixels in the vertical direction of this character image and columns in the horizontal direction equally divided into m (42).
This result is shown in FIG. 3, and at the same time, a histogram based on FIG. 3 is prepared as shown in FIG. The side line determination unit 13 determines the number of dots (rows) in the created histogram.
Search for a row in which all 1 rows of 100% are black pixels (4
3) If there is a line with 100% black pixels, it is determined that there is an underline (46). The side-line determination unit 13 is 1
The length of the underline is determined by the width of the continuous divided grid area consisting of a row of 00% black pixels (44).

【0021】図5は、図3記載装置の黒画素分布図に基
づく黒画素ヒストグラムである。このアンダーラインの
長さの求め方を図5を用いて説明する。同図において5
行0列の100に対して直右に位置する5行1列に10
0が存在する。この5行1列の100に対して直右下の
6行3列には100が存在する。このように、着目して
いる100の前後,左右,右上,右下,左上,左下に1
00があれば連続しているとみなす。図5においては、
連続するアンダーラインの幅は4となる。
FIG. 5 is a black pixel histogram based on the black pixel distribution chart of the apparatus shown in FIG. How to determine the length of this underline will be described with reference to FIG. 5 in the figure
10 in row 5, column 1 to the right of row 0, column 100
There is 0. In contrast to 100 in 5 rows and 1 column, 100 exists in 6 rows and 3 columns in the lower right corner. In this way, 1 to the front, back, left, right, upper right, lower right, upper left, lower left of the target 100
If 00 is present, it is regarded as continuous. In FIG.
The width of the continuous underline is 4.

【0022】さらに、傍線判断部13は100の連続幅
が文字画像全幅の90%以上であるか判定する(4
5)。この判定において90%以上であればアンダーラ
イン有りとし(46)、90%以下であればアンダーラ
イン無し(47)と判断する。
Further, the side-line judging unit 13 judges whether the continuous width of 100 is 90% or more of the entire width of the character image (4
5). In this determination, if it is 90% or more, it is determined that there is underline (46), and if it is 90% or less, it is determined that there is no underline (47).

【0023】アンダーラインの有無が判断されると、再
度図6の動作(30)、動作(32)に戻り処理を再開
する。
When it is determined whether or not there is an underline, the process returns to the operation (30) and the operation (32) in FIG. 6 and the processing is restarted.

【0024】傍線判断部13によりアンダーライン無し
と判定されたならば着目する行の文字画像に未処理の文
字画像があるか否かを判断する動作(32)へ移行す
る。アンダーライン有りと判定されたならば、着目文字
画像データからアンダーライン部分の文字画像データを
バックアップ部5にバックアップ記憶した後に、アンダ
ーライン消去部6が原画像からアンダーライン部分の画
像データを消去する(30)(31)。このアンダーラ
イン消去動作を図8を用いて説明する。
If the side-line determining unit 13 determines that there is no underline, the operation proceeds to an operation (32) for determining whether or not the character image of the line of interest has an unprocessed character image. If it is determined that the underline exists, the underline character image data from the focused character image data is backed up and stored in the backup unit 5, and then the underline erasing unit 6 erases the underline image data from the original image. (30) (31). This underline erase operation will be described with reference to FIG.

【0025】ここで、図8は、本発明の一実施例におけ
る文字切り出し装置のアンダーライン消去部のフローチ
ャートである。
Here, FIG. 8 is a flowchart of the underline erasing unit of the character slicing device in one embodiment of the present invention.

【0026】この図8においてヒストグラム演算部12
で求められたヒストグラムに基づき最も黒画素数の多い
行をアンダーライン消去部6が求め(50)、i行に最
多黒画素行の番号を代入(51)してi行から1をマイ
ナスする(52)。次に、i行中に100%部分が存在
するか調べ(53)、存在しないと判断されたならば動
作(56)へ移行する。また、i行の黒画素長がi+1
行の黒画素長の半分以下か調べ(54)、条件に一致す
れば動作(56)へ移行する。
In FIG. 8, the histogram calculation unit 12
The underline erasing unit 6 finds the row with the largest number of black pixels based on the histogram obtained in step (50), substitutes the number of the largest number of black pixel rows in row i (51), and subtracts 1 from row i ( 52). Next, it is checked whether or not the 100% portion exists in the i-th row (53), and if it is determined that the 100% portion does not exist, the operation shifts to the operation (56). Also, the black pixel length of row i is i + 1
It is checked whether the length is less than half the black pixel length of the row (54), and if the conditions are met, the operation moves to (56).

【0027】次に、i行の黒画素長がi+1行の黒画素
長よりも多いか調べ(55)、条件に一致すれば、up
perにi+1を代入し(56)、着目文字画像内のu
pper行以下の画像をバックアップ部5にバックアッ
プ記憶する(57)。
Next, it is checked whether the black pixel length of the i-th row is larger than the black pixel length of the i + 1-th row (55), and if the conditions are met, up is determined.
i + 1 is substituted for per (56), and u in the target character image
The images below the pper line are backed up and stored in the backup unit 5 (57).

【0028】次に、アンダーライン消去部6が着目文字
画像内のupper行以下の画像を消去する(58)。
Next, the underline erasing unit 6 erases the image below the upper line in the character image of interest (58).

【0029】この画像消去動作が終了すると再び図6へ
戻り動作を説明する。同図において着目している行に未
処理の文字画像が存在するかを調べ(32)、存在すれ
ば再度1つの文字画像に着目して処理を実行する(2
5)。
When the image erasing operation is completed, the operation will be described by returning to FIG. 6 again. In the figure, it is checked whether or not there is an unprocessed character image in the line of interest (32), and if it exists, the process is executed again by focusing on one character image (2).
5).

【0030】次に、アンダーライン付きの文字画像が存
在したか判定し(33)、存在しなければ未処理の行が
存在するか否かの判断(36)へ移行する。このアンダ
ーライン付きの文字画像が存在すると判定された場合に
は、着目行に対して再度文字切り出しする(34)。
Next, it is judged whether there is an underlined character image (33), and if there is not, a judgment is made as to whether there is an unprocessed line (36). When it is determined that the underlined character image exists, the character is cut out again for the line of interest (34).

【0031】次に、バックアップ部5にバックアップ記
憶していた画像データを画像復帰部8が原画像に復帰さ
せる(35)。この復帰された原画像に対して終了判定
部9が未処理の行が存在するか調べる(36)。存在す
ると判定された場合には文字切り出し部3へ戻って文字
切り出し動作(23)へ移行する。未処理の行が存在し
ないと判定された場合には文字切り出し動作を終了す
る。
Next, the image restoration unit 8 restores the image data backed up and stored in the backup unit 5 to the original image (35). The end determination unit 9 checks whether or not there is an unprocessed line in the restored original image (36). When it is determined that the character exists, the process returns to the character cutout unit 3 and proceeds to the character cutout operation (23). If it is determined that there is no unprocessed line, the character cutout operation ends.

【0032】なお、上記実施例では、アンダーライン画
像を消去した後に再度文字切り出しをおこなったが、他
の実施例としては、アンダーライン画像領域の位置情報
を抽出してその情報を文字切り出し部3に送出すること
により、アンダーライン画像領域以外の画像のみを用い
て再度文字切り出しを行っても正しい文字切り出し結果
が得られる。
In the above embodiment, the character cutting is performed again after the underline image is erased. In another embodiment, the position information of the underline image area is extracted and the information is extracted by the character cutting unit 3. By sending the data to the user, the correct character cutout result can be obtained even if the character cutout is performed again using only the image other than the underlined image area.

【0033】また、前記実施例において、アンダーライ
ン画像を消去した後に文字再切り出し部7で再度文字切
り出しを行う構成としたが、再度の文字切り出しも最初
に文字切り出し動作を実行する文字切り出し部3で行う
ようにしてもよい。
Further, in the above-described embodiment, the character re-cutout unit 7 performs the character cutout again after the underline image is erased. However, the character cutout unit 3 for executing the character cutout operation first also performs the character cutout operation again. May be performed in.

【0034】また、アンダーライン判定部4は文字画像
分割部11を備える構成としたが、外接矩形比検出部1
0で縦横比が所定値以上の縦横比と判断される文字画像
を直接にヒストグラム演算部12に出力し、ヒストグラ
ム演算部12が文字画像の黒画素ヒストグラムを演算す
るするようにしてもよい。
Further, although the underline determination unit 4 is configured to include the character image division unit 11, the circumscribed rectangle ratio detection unit 1
It is also possible to directly output the character image whose aspect ratio is 0 or more and the aspect ratio of which is equal to or greater than the predetermined value to the histogram calculation unit 12, and the histogram calculation unit 12 calculates the black pixel histogram of the character image.

【0035】さらに、前記実施例においてはアンダーラ
イン判定の条件として外接矩形の縦横比を1対2とした
が、入力文字の種類又は識別レベル等に応じて任意の比
率に設定することができる。
Further, in the above embodiment, the aspect ratio of the circumscribed rectangle is set to 1: 2 as a condition for underline determination, but it can be set to any ratio according to the type of input character or the identification level.

【0036】[0036]

【発明の効果】以上のように本発明によれば、切り出さ
れた文字画像の縦横比の比率及び文字画像の黒画素ヒス
トグラムのうち突出した黒画素領域の有無に基づいて、
文字画像中に傍線が含まれているか否かを判断するよう
にしたので、傍線以外の文字画像データより一文字毎の
文字画像データを正しく切り出すという効果を奏する。
As described above, according to the present invention, based on the ratio of the aspect ratio of the cut out character image and the presence or absence of the protruding black pixel area in the black pixel histogram of the character image,
Since it is determined whether the character image includes a lateral line, the character image data for each character is properly cut out from the character image data other than the lateral line.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における文字切り出し装置の
ブロック図
FIG. 1 is a block diagram of a character clipping device according to an embodiment of the present invention.

【図2】図1記載装置の文字切り出し装置におけるアン
ダーライン判定部のブロック図
FIG. 2 is a block diagram of an underline determination unit in the character clipping device of the device shown in FIG.

【図3】図2記載装置のアンダーライン判定部における
分割升目内の黒画素分布図
FIG. 3 is a black pixel distribution diagram in a divided grid in the underline determination unit of the apparatus shown in FIG.

【図4】図3記載装置の黒画素分布図に基づく黒画素ヒ
ストグラム
FIG. 4 is a black pixel histogram based on a black pixel distribution chart of the apparatus shown in FIG.

【図5】図3記載装置の黒画素分布図に基づく100%
黒画素の分布図
5 is 100% based on the black pixel distribution chart of the device shown in FIG.
Black pixel distribution map

【図6】本発明の一実施例における文字切り出し装置の
制御手順を示すフローチャート
FIG. 6 is a flowchart showing a control procedure of the character cutting device according to the embodiment of the present invention.

【図7】本発明の一実施例における文字切り出し装置の
アンダーライン判定部のフローチャート
FIG. 7 is a flowchart of an underline determination unit of the character cutting device according to the embodiment of the present invention.

【図8】本発明の一実施例における文字切り出し装置の
アンダーライン消去部のフローチャート
FIG. 8 is a flowchart of an underline erasing unit of the character slicing device according to the embodiment of the present invention.

【図9】(A)従来技術の課題を説明するための文字デ
ータの原図 (B)従来技術の課題を説明するための文字切り出し結
果態様を示す図
FIG. 9A is an original diagram of character data for explaining the problems of the conventional technology. FIG. 9B is a diagram showing a character cutout result mode for explaining the problems of the conventional technology.

【符号の説明】[Explanation of symbols]

1 画像読み取り部 2 行切り出し部 3 文字切り出し部 4 アンダーライン判定部 5 バックアップ部 6 アンダーライン消去部 7 文字再切り出し部 8 画像復帰部 9 終了判定部 10 外接矩形比検出部 11 文字画像分割部 12 ヒストグラム演算部 13 傍線判断部 1 image reading unit 2 line cutout unit 3 character cutout unit 4 underline determination unit 5 backup unit 6 underline deletion unit 7 character recutout unit 8 image restoration unit 9 end determination unit 10 circumscribed rectangle ratio detection unit 11 character image division unit 12 Histogram calculation unit 13 Side line determination unit

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】画像読み取り装置から読み取った画像デー
タを一文字毎の文字画像データに切り出す文字切り出し
部と、前記文字切り出し部において切り出された文字画
像データの一つの文字画像の外接矩形の縦横比を検出す
る外接矩形比検出部と、前記外接矩形比検出部において
検出された縦横比が著しく異なる文字画像中の黒画素の
ヒストグラムを演算するヒストグラム演算部と、前記ヒ
ストグラム演算部において文字画像中の端部近傍に突出
した黒画素領域の存在の有無に基づいて文字画像中に傍
線が付されているか否かを判断する傍線判断部とを備
え、前記傍線判断部の判断に基づいて傍線部以外の文字
画像データを再度文字切り出しすることを特徴とする文
字切り出し装置。
1. An aspect ratio of a circumscribing rectangle of a character cutout unit that cuts out image data read from an image reading device into character image data for each character and one character image of the character image data cut out by the character cutout unit. A circumscribing rectangle ratio detecting section for detecting, a histogram calculating section for calculating a histogram of black pixels in a character image whose aspect ratios detected by the circumscribing rectangular ratio detecting section are remarkably different, and an edge of the character image in the histogram calculating section And a side line determination unit that determines whether or not a side line is attached in the character image based on the presence or absence of a black pixel region protruding in the vicinity of the area, and based on the determination of the side line determination unit A character slicing device characterized by slicing out character image data again.
【請求項2】前記外接矩形比検出部により所定値以上の
縦横比と判断された文字画像を複数等分に分割する文字
画像分割部を備え、前記分割された文字画像をヒストグ
ラム演算部に出力することを特徴とする請求項1に記載
の文字切り出し装置。
2. A character image dividing unit that divides a character image, which is determined by the circumscribing rectangle ratio detecting unit to have an aspect ratio of a predetermined value or more, into a plurality of equal parts, and outputs the divided character image to a histogram calculating unit. The character slicing device according to claim 1, wherein
JP4345941A 1992-12-25 1992-12-25 Character segmentation device Pending JPH06195507A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4345941A JPH06195507A (en) 1992-12-25 1992-12-25 Character segmentation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4345941A JPH06195507A (en) 1992-12-25 1992-12-25 Character segmentation device

Publications (1)

Publication Number Publication Date
JPH06195507A true JPH06195507A (en) 1994-07-15

Family

ID=18380045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4345941A Pending JPH06195507A (en) 1992-12-25 1992-12-25 Character segmentation device

Country Status (1)

Country Link
JP (1) JPH06195507A (en)

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
EP0567344B1 (en) Method and apparatus for character recognition
JP3278471B2 (en) Area division method
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JP3411472B2 (en) Pattern extraction device
JP3615333B2 (en) Ruled line eraser
JPH07105312A (en) Method and device for eliminating dirt from character image in optical character reader
KR20030017304A (en) Half-tone dot elimination method and system thereof
JP4420440B2 (en) Image processing apparatus, image processing method, character recognition apparatus, program, and recording medium
JP2868134B2 (en) Image processing method and apparatus
JP4281236B2 (en) Image recognition apparatus, image recognition method, and computer-readable recording medium storing image recognition program
JPH06195507A (en) Character segmentation device
JP2796561B2 (en) Tabular document recognition method
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
JP3122476B2 (en) Automatic document copy machine
JP4439054B2 (en) Character recognition device and character frame line detection method
JP2000040122A (en) Character segmentation method
JPH0713994A (en) Character recognizing device
JPH0679348B2 (en) Line cutting method
JP2908495B2 (en) Character image extraction device
JP2003317107A (en) Method and device for ruled-line detection
JPH0581475A (en) Character area extracting method
JP3566738B2 (en) Shaded area processing method and shaded area processing apparatus
JP2000339408A (en) Character segment device