JP2000057261A - Character segmenting device - Google Patents

Character segmenting device

Info

Publication number
JP2000057261A
JP2000057261A JP10229744A JP22974498A JP2000057261A JP 2000057261 A JP2000057261 A JP 2000057261A JP 10229744 A JP10229744 A JP 10229744A JP 22974498 A JP22974498 A JP 22974498A JP 2000057261 A JP2000057261 A JP 2000057261A
Authority
JP
Japan
Prior art keywords
character
characteristic information
storage unit
extracting
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10229744A
Other languages
Japanese (ja)
Inventor
Masahiro Sakurai
雅寛 櫻井
Kazuhiro Ishikawa
和弘 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10229744A priority Critical patent/JP2000057261A/en
Publication of JP2000057261A publication Critical patent/JP2000057261A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a character segmenting device which improves a segmenting method for a character segmentation object pattern. SOLUTION: Image data Si supplied from a scanner, etc., are stored in an image storage part 1 and the image data S1 are outputted from the image storage part 1. Further, feature information S3 set by an input part or a control part, etc., is already stored in a feature storage part 3 and outputted to a character segmentation part 2. The character segmentation part 2 cuts characters out of the image data S1, one by one, through character segmentation corresponding to the feature information S3. The cutting result is outputted as the character cutting result S2 to the outside of the character segmenting device.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字又は記号から
なる文字切出し対象パターンの切出し方法を改善した文
字切出し装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting apparatus having an improved method for extracting a character extracting target pattern composed of characters or symbols.

【0002】[0002]

【従来の技術】従来の文字切出し装置では、例えばスキ
ャナ等の読取り装置から入力された画像に対して文字が
切出される。図2は従来の文字切出し装置における横書
きの文字の文字切出し処理の例を示す図であり、図3が
図2における文字切出し候補点の取得を説明するための
フローチャートである。これらの図2及び図3を参照し
つつ、従来の文字切出し装置における文字切出し処理
(a)〜(d)を説明する。
2. Description of the Related Art In a conventional character extracting device, characters are extracted from an image input from a reading device such as a scanner. FIG. 2 is a diagram showing an example of character extraction processing of horizontally written characters in a conventional character extraction device, and FIG. 3 is a flowchart for explaining the acquisition of character extraction candidate points in FIG. The character extraction processing (a) to (d) in the conventional character extraction device will be described with reference to FIGS.

【0003】(a) 文字パターンの画素(例えば、黒
ドット)の垂直方向に対する射影分布を測定し、この射
影分布の値が0となる部分の中点を文字切出し候補点1
〜8として取得する。この場合、図2に示すように、行
に垂直な黒ドットの個数で射影分布を測定する(ステッ
プST1)。始点座標を消去し(ステップST2)、処
理座標Xを行の左端に合わせる(ステップST3)。射
影分布の値が0でなくなるまで処理座標Xを右に移動す
る(ステップST4)。処理座標Xにおける射影分布の
値が0であるか否かを判定し(ステップST5)、0で
ない場合、始点座標が記憶されているか否かを判定する
(ステップST8)。始点座標が記憶されていない場
合、処理座標Xを右に1ドット移動する(ステップST
6)。処理座標Xが行の右端であるか否かを判定し、右
端である場合には処理を終了し、右端でない場合にはス
テップST5に戻る(ステップST7)。
(A) A projection distribution of pixels (for example, black dots) of a character pattern in the vertical direction is measured, and a middle point where the value of the projection distribution becomes 0 is a character extraction candidate point 1.
~ 8. In this case, as shown in FIG. 2, the projection distribution is measured by the number of black dots perpendicular to the row (step ST1). The start point coordinates are deleted (step ST2), and the processing coordinates X are adjusted to the left end of the row (step ST3). The processing coordinate X is moved to the right until the value of the projection distribution is no longer 0 (step ST4). It is determined whether or not the value of the projection distribution at the processing coordinates X is 0 (step ST5). If not, it is determined whether or not the starting point coordinates are stored (step ST8). If the start point coordinates are not stored, the processing coordinates X are moved to the right by one dot (step ST).
6). It is determined whether or not the processing coordinate X is at the right end of the row. If the processing coordinate X is at the right end, the process is terminated. If not, the process returns to step ST5 (step ST7).

【0004】前記ステップST5において、射影分布の
値が0である場合、ステップST12へ進む。始点座標
が記憶されているか否かを判定し(ステップST1
2)、記憶されている場合にステップST6へ進み、記
憶されていない場合に現在の処理座標Xを始点座標とし
て記憶し、ステップST6ヘ進む(ステップST1
1)。前記ステップST8において、始点座標が記憶さ
れている場合、ステップST9に進む。{(処理座標X
−1)+始点座標}/2を文字切出し候補点とする(ス
テップST9)。始点座標を消去し、前記ステップST
6へ進む(ステップST10)。
If the value of the projection distribution is 0 in step ST5, the process proceeds to step ST12. It is determined whether or not the start point coordinates are stored (step ST1).
2) If it is stored, the process proceeds to step ST6. If it is not stored, the current processing coordinate X is stored as the start point coordinate, and the process proceeds to step ST6 (step ST1).
1). If the start point coordinates are stored in step ST8, the process proceeds to step ST9. {(Processing coordinates X
-1) + Start point coordinate} / 2 is set as a character extraction candidate point (step ST9). The start point coordinates are deleted and the step ST
The process proceeds to step 6 (step ST10).

【0005】(b) 文字切出し候補点1〜8の隣同志
の間隔の例えば最大値(図2では、文字切出し候補点5
と文字切出し候補点6との間隔)を基準間隔Wとする。 (c) 基準間隔Wより一定値以下(例えば、基準間隔
Wの1/3以下)の間隔になる文字切出し候補点(図2
では、文字切出し候補点4,8)を候補から除外する。 (d) 残った文字切出し候補点1,2,3,5,6,
7を、最終的な文字切出し位置A,B,C,D,E,F
とする。 尚、図2では、文字切出し候補点1〜8の間隔の最大値
を基準間隔Wとしたが、これは基準間隔の決定方法の一
例であり、例えば文字切出し候補点1〜8の間隔の平均
値を基準間隔Wとしてもよい。
(B) For example, the maximum value of the interval between the adjacent character extraction candidate points 1 to 8 (in FIG. 2, the character extraction candidate point 5
And the character separation candidate point 6) as a reference interval W. (C) Character extraction candidate points having an interval equal to or less than a fixed value (for example, 1/3 or less of the reference interval W) from the reference interval W (FIG.
Then, character extraction candidate points 4, 8) are excluded from the candidates. (D) Remaining character extraction candidate points 1, 2, 3, 5, 6,
7 to the final character cutout positions A, B, C, D, E, F
And In FIG. 2, the maximum value of the intervals between the character extraction candidate points 1 to 8 is set as the reference interval W. However, this is an example of a method for determining the reference interval. The value may be set as the reference interval W.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、従来の
文字切出し装置では、次のような課題があった。図4
(a),(b),(c)は、問題となる文字切出しの例
を示す図である。図4(a)では、行La中の「旧」と
「1日」とを比較すると、垂直方向の黒ドットの射影分
布は似ているが、「旧」は1文字として切出し、「1
日」を2文字として切出すように判断する必要がある。
図4(b)では、行Lb中の微小なパターンを文字(例
えば、ピリオド)として切出すか、又はごみとして切出
さないように判断する必要がある。図4(c)では、行
Lc中の下側にあるパターンを文字(例えば、ピリオ
ド)として切出すか、ごみとして処理するように判断す
る必要がある。ところが、任意の画像に対してこれらの
判断を適切に行うことは困難であり、誤って1文字を2
文字として切出すことによって文字切出し率が低下する
か、或いは、ごみを文字として切出すことにより、不必
要な文字を切出すという課題があった。
However, the conventional character extracting apparatus has the following problems. FIG.
(A), (b), (c) is a figure which shows the example of character extraction which becomes a problem. In FIG. 4A, when “old” and “1 day” in the row La are compared, the projected distribution of black dots in the vertical direction is similar, but “old” is cut out as one character, and “1” is cut out.
It is necessary to determine that the date is cut out as two characters.
In FIG. 4B, it is necessary to determine whether a minute pattern in the line Lb is cut out as a character (for example, a period) or not as garbage. In FIG. 4C, it is necessary to determine that the pattern on the lower side in the line Lc is cut out as a character (for example, a period) or processed as garbage. However, it is difficult to appropriately perform these determinations on an arbitrary image, and one character is mistakenly replaced by two.
There has been a problem that the character extraction rate is reduced by extracting as characters, or unnecessary characters are extracted by extracting garbage as characters.

【0007】[0007]

【課題を解決するための手段】前記課題を解決するため
に、本発明のうちの請求項1に係る発明は、文字切出し
装置において、記号又は文字からなる文字切出し対象パ
ターンが記入された帳票の画像データを記憶する画像記
憶手段と、前記文字切出し対象パターンの特徴情報を記
憶する特徴情報記憶手段と、前記特徴情報に基づき前記
記憶された画像データから文字を切出す文字切出し手段
とを、備えている。このような構成を採用したことによ
り、帳票の画像データが画像記憶手段に記憶され、文字
切出し対象パターンの特徴情報が特徴情報記憶手段に記
憶される。文字切出し手段において、前記特徴情報に基
づき、前記画像記憶手段に記憶された画像データから文
字が切出される。
According to a first aspect of the present invention, there is provided a character extracting apparatus, comprising: Image storage means for storing image data, characteristic information storage means for storing characteristic information of the pattern for character extraction, and character extraction means for extracting characters from the stored image data based on the characteristic information. ing. By adopting such a configuration, the image data of the form is stored in the image storage unit, and the characteristic information of the character extraction target pattern is stored in the characteristic information storage unit. In a character extracting unit, a character is extracted from the image data stored in the image storage unit based on the characteristic information.

【0008】請求項2に係る発明では、請求項1の文字
切出し装置において、文字切出し対象パターンを記憶す
る対象文字記憶手段と、前記文字切出し対象パターンを
入力して前記特徴情報を出力する文字特徴判定手段とを
備え、前記文字特徴判定手段が出力する特徴情報を前記
特徴情報記憶手段に記憶するようにしている。このよう
な構成を採用したことにより、文字切出し対象パターン
が対象文字記憶手段に記憶され、該文字切出し対象パタ
ーンが文字特徴判定手段に入力されて特徴情報が出力さ
れる。前記文字特徴判定手段から出力された特徴情報
は、特徴情報記憶手段に記憶される。請求項3に係る発
明では、請求項1又は2の文字切出し装置において、前
記特徴情報は、前記文字切出し対象パターン固有の特徴
を表すようにしている。請求項4に係る発明では、請求
項1、2又は3の文字切出し装置において、前記文字切
出し手段は、前記特徴情報記憶手段が出力する前記特徴
情報に基づいて文字を切出すようにしている。
In the invention according to a second aspect, in the character extracting apparatus according to the first aspect, a target character storage unit for storing a character extraction target pattern, and a character characteristic for inputting the character extraction target pattern and outputting the characteristic information. Determining means for storing the characteristic information output by the character characteristic determining means in the characteristic information storage means. By adopting such a configuration, the character extraction target pattern is stored in the target character storage unit, and the character extraction target pattern is input to the character feature determination unit and the characteristic information is output. The feature information output from the character feature determination unit is stored in a feature information storage unit. According to a third aspect of the present invention, in the character extracting device according to the first or second aspect, the characteristic information represents a characteristic unique to the character extraction target pattern. According to a fourth aspect of the present invention, in the character extracting apparatus according to any one of the first to third aspects, the character extracting unit extracts a character based on the characteristic information output from the characteristic information storing unit.

【0009】請求項5に係る発明では、請求項2、3又
は4の文字切出し装置において、前記対象文字記憶手段
は、文字切出し対象パターンの文字コードを記憶するよ
うにしている。請求項6に係る発明では、請求項2、
3、4又は5の文字切出し装置において、前記文字特徴
判定手段は、前記文字切出し対象パターンの文字コード
に予め関連付けられた前記特徴情報を記憶する特徴情報
テーブル記憶手段を備えている。請求項7に係る発明で
は、請求項6の文字切出し装置において、前記特徴情報
テーブル記憶手段は、前記文字コードと該文字コードの
前記特徴情報を対応付けて記憶するようにしている。請
求項8に係る発明では、請求項6又は7の文字切出し装
置において、前記文字特徴判定手段は、前記対象文字記
憶手段が出力する前記文字コードに対応した前記特徴情
報を前記特徴情報テーブル記憶手段から取得し、前記特
徴情報記憶手段に出力するようにしている。
According to a fifth aspect of the present invention, in the character extracting device according to the second, third or fourth aspect, the target character storage means stores a character code of a character extraction target pattern. In the invention according to claim 6, claim 2,
In any of the character extraction devices of 3, 4, or 5, the character characteristic determination unit includes a characteristic information table storage unit that stores the characteristic information previously associated with a character code of the character extraction target pattern. In the invention according to claim 7, in the character extracting apparatus according to claim 6, the characteristic information table storage means stores the character code and the characteristic information of the character code in association with each other. In the invention according to claim 8, in the character cutout apparatus according to claim 6 or 7, the character feature determination means stores the feature information corresponding to the character code output from the target character storage means in the feature information table storage means. And outputs it to the feature information storage means.

【0010】請求項9に係る発明では、請求項1、2、
3、4、5、6、7又は8の文字切出し装置において、
前記文字切出し対象パターン固有の特徴は、前記文字切
出し対象パターンに対し左右分離可能文字の有無、上下
分離可能文字の有無、微小文字の有無、下付き文字の有
無、上付き文字の有無、又は数字以外の文字の有無の少
なくともいずれかを表すようにしている。請求項10に
係る発明では、請求項1、2、3、4、5、6、7、8
又は9の文字切出し装置において、前記文字切出し手段
は、前記特徴情報記憶手段が出力する前記特徴情報に左
右分離可能文字が存在しない場合、横書きの文字切出し
において縦の射影分布の値が設定された値以下となる区
間を全て文字として切出すか、又は上下分離可能文字が
無い場合、縦書きの文字切出しにおいて横の射影分布の
値が設定された値以下となる区間を全て文字として切出
すようにしている。
[0010] In the invention according to claim 9, claims 1, 2,
In the character extracting device of 3, 4, 5, 6, 7 or 8,
The unique features of the character extraction target pattern include the presence or absence of left / right separable characters, the presence / absence of upper / lower separable characters, the presence / absence of small characters, the presence / absence of subscripts, the presence / absence of superscript characters, and the number It indicates at least one of the presence or absence of a character other than. In the invention according to claim 10, claims 1, 2, 3, 4, 5, 6, 7, 8
Or, in the character extracting device according to 9, when the character information output by the characteristic information storage means does not include left-right separable characters, a vertical projection distribution value is set in horizontal writing character extraction. Cut out all sections where the value is less than the value as characters, or if there is no upper / lower separable character, cut out all sections where the value of the horizontal projection distribution is less than or equal to the set value in vertical writing character extraction. I have to.

【0011】請求項11に係る発明では、請求項1、
2、3、4、5、6、7、8又は9の文字切出し装置に
おいて、前記文字切出し手段は、前記特徴情報記憶手段
が出力する前記特徴情報に通常の文字より小さい微小文
字が存在しない場合にパターンのサイズが予め決めてお
いた閾値以下のものを文字として切出さないか、下付き
文字が存在しない場合に行の下側に予め決めておいた閾
値以下にパタンの上端が存在するものを文字として切出
さないか、又は上付き文字が存在しない場合に行の上側
に予め決めておいた閾値以上にパターンの下端が存在す
るものを文字として切出さないようにしている。請求項
12に係る発明では、請求項1、2、3、4、5、6、
7、8又は9の文字切出し装置において、前記文字切出
し手段は、前記特徴情報記憶手段が出力する前記特徴情
報に数字以外の文字が存在せず、文字と文字との間隔が
基準となる間隔以上の場合に、前記文字間隔の長さに応
じて前記文字間隔の間を切出すようにしている。
[0011] In the invention according to claim 11, claim 1,
In the character cutout device of 2, 3, 4, 5, 6, 7, 8 or 9, the character cutout means may include a case where a minute character smaller than a normal character does not exist in the feature information output by the feature information storage means. If the size of the pattern is not cut out as a character below the predetermined threshold, or if there is no subscript, the upper end of the pattern is below the predetermined threshold below the line Is not cut out as a character, or when there is no superscript character, a character whose lower end of the pattern is equal to or greater than a predetermined threshold value above the line is not cut out as a character. In the invention according to claim 12, claims 1, 2, 3, 4, 5, 6,
In the character extracting device according to 7, 8, or 9, the character extracting means is characterized in that the characteristic information output from the characteristic information storage means does not include any character other than a numeral, and the interval between characters is equal to or longer than a reference interval. In this case, the character interval is cut out in accordance with the length of the character interval.

【0012】[0012]

【発明の実施の形態】第1の実施形態 図1は、本発明の第1の実施形態を示す文字切出し装置
の構成図である。この文字切出し装置は、文字又は記号
からなる文字切出し対象パターンが横方向又は縦方向に
記入された帳票の画像データSiを記憶する画像記憶手
段(例えば、画像記憶部)1を有している。画像記憶部
1は、画像データSiを帳票上の文字切出し対象パター
ンの2次元座標が再現できる形式で格納できるメモリで
構成されている。又、この文字切出し装置には、文字切
出しパタン固有の特徴情報の記憶手段(例えば、特徴情
報記憶部)3が設けられている。特徴情報記憶部3は、
文字切出し対象パターン固有の特徴を表す特徴情報S3
を記憶するメモリである。特徴情報記憶部3の出力側に
は、文字切出し手段(例えば、文字切出し部)2が接続
されている。文字切出し部2は、画像記憶部1から出力
される画像データS1と特徴情報S3とを入力として文
字を切出す機能を有し、文字を切出して文字切出し結果
S2を文字切出し装置の外部に出力するものである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment FIG. 1 is a block diagram of a character extracting device according to a first embodiment of the present invention. The character extracting apparatus includes an image storage unit (for example, an image storage unit) 1 for storing image data Si of a form in which a character extracting target pattern composed of characters or symbols is written in a horizontal or vertical direction. The image storage unit 1 is configured by a memory capable of storing the image data Si in a format in which the two-dimensional coordinates of the character extraction target pattern on the form can be reproduced. In addition, the character extraction device is provided with a storage unit (for example, a characteristic information storage unit) 3 for characteristic information unique to the character extraction pattern. The feature information storage unit 3
Feature information S3 representing features unique to the character extraction target pattern
Is stored in the memory. On the output side of the feature information storage unit 3, a character extracting unit (for example, a character extracting unit) 2 is connected. The character cutout unit 2 has a function of cutting out characters by inputting the image data S1 and the feature information S3 output from the image storage unit 1, and cutting out characters and outputting a character cutout result S2 outside the character cutout device. Is what you do.

【0013】次に、図1の動作を説明する。図示しない
スキャナ等から供給された画像データSiは、画像記憶
部1に格納され、該画像記憶部1から画像データS1が
出力される。又、図示しない入力部又は制御部等により
設定された特徴情報S3が特徴記憶部3に記憶されてお
り、特徴情報S3は文字切出し部2に出力される。文字
切出し部2は、特徴情報S3に対応した文字切出しによ
って画像データS1から1文字毎に文字を切出す。切出
された結果は、文字切出し結果S2として文字切出し装
置の外に出力される。ここで、特徴情報S3の内容は、
例えば、次の(a)〜(f)に示すものがある。 (a) 左右に分離可能な文字がない。 (b) 上下に分離可能な文字がない。 (c) 通常の文字よりも小さい微小文字がない。 (d) 上付き文字がない。 (e) 下付き文字がない。 (f) 数字(0〜9)のみが存在する。
Next, the operation of FIG. 1 will be described. Image data Si supplied from a scanner or the like (not shown) is stored in the image storage unit 1, and the image storage unit 1 outputs image data S1. Further, feature information S3 set by an input unit or a control unit (not shown) is stored in the feature storage unit 3, and the feature information S3 is output to the character cutout unit 2. The character cutout unit 2 cuts out characters one by one from the image data S1 by character cutout corresponding to the characteristic information S3. The extracted result is output to the outside of the character extraction device as a character extraction result S2. Here, the content of the feature information S3 is
For example, there are the following (a) to (f). (A) There are no separable characters on the left and right. (B) There are no upper and lower separable characters. (C) There is no minute character smaller than a normal character. (D) There is no superscript. (E) There is no subscript. (F) Only numbers (0-9) are present.

【0014】図5(a),(b),(c)は、設定内容
(a)における左右に分離可能な文字と不可能な文字を
説明する図である。この図5(a)に示すように、左右
に分離可能な文字とは、1文字中に黒ドットの垂直方向
に対する射影分布の値が0となる部分が存在する文字で
ある。左右に分離不可能な文字とは、図5(b)に示す
ように、射影分布の値が0となる部分が存在しない文字
である。又、図5(c)に示すように、フォントによっ
ては、左右に分離可能とならない場合があるが、左右に
分離可能なフォントが存在するものは全て左右に分離可
能な文字とみなす。同様に、図6(a),(b)は、上
下に分離可能な文字と不可能な文字を説明する図であ
る。図6(a)は上下に分離可能な文字を示し、図6
(b)が上下に分離不可能な文字を示す。図5の場合と
同様に、上下に分離可能なフォントが存在するものは全
て上下に分離可能な文字とみなす。
FIGS. 5 (a), 5 (b) and 5 (c) are diagrams for explaining characters which can be separated to the left and right and those which cannot be set in the setting contents (a). As shown in FIG. 5A, a character that can be separated to the left and right is a character in which there is a portion where the value of the projection distribution of the black dot in the vertical direction is 0 in one character. The non-separable character on the left and right is a character having no portion where the value of the projection distribution becomes 0, as shown in FIG. Also, as shown in FIG. 5 (c), depending on the font, the font may not be separable left and right, but any font that has a font separable left and right is regarded as a character separable left and right. Similarly, FIGS. 6A and 6B are diagrams for explaining characters that can be vertically separated and characters that cannot be separated. FIG. 6A shows characters that can be separated up and down.
(B) shows characters that cannot be separated vertically. As in the case of FIG. 5, all fonts that have a vertically separable font are regarded as vertically separable characters.

【0015】設定内容(c)における微小文字とは、例
えば、カンマ(,)やシングルクォーテーション(’)
等、文字の縦及び横のサイズが他の一般的な文字(例え
ば、ゼロ「0」)よりも小さい(例えば、縦横それぞれ
が一般の文字サイズの1/3以下のサイズになる)文字
である。設定内答(d)における上付き文字とは、例え
ば、シングルクォーテーション(’)や半濁点(゜)
等、文字の下端が行の上側(例えば、行の中心よりも高
い)文字である。設定内答(e)における下付き文字と
は、カンマ(,)や促音や拗音を表す小文字の「っ」、
「ゅ」等、文字の上端が行の下側(例えば、行の中心よ
りも低い)文字である。
The small characters in the setting content (c) are, for example, commas (,) and single quotes (').
A character whose vertical and horizontal size is smaller than other general characters (for example, zero “0”) (for example, each vertical and horizontal size is 以下 or less of the general character size). . The superscript in the set answer (d) is, for example, a single quotation mark (') or a semi-voiced mark (゜)
The lower end of the character is a character above the line (for example, higher than the center of the line). The subscript in the set answer (e) is a lowercase letter “tsu” representing a comma (,)
The upper end of the character, such as "@", is the character below the line (for example, lower than the center of the line).

【0016】設定内容(a)〜(f)に基づく文字切出
し部2の動作は、次の(1−1)〜(1−6)に示すよ
うになる。 (1−1) 設定内容(a)に基づく動作 図7は、行L中に左右に分離可能な文字が存在しない場
合の文字切出し部2の動作を説明する図である。設定内
容(a)を特徴記憶部3が記憶し、特徴情報S3として
文字切出し部2に出力した場合、文字切出し部2は文字
切出しの候補の全てを文字切出し位置とするように制御
を行う。従って、図7中の行L中の「2月11日」で
は、文字切出し位置が文字切出し候補,,,と
なり、「2」、「月」、「1」、「1」、「日」と正確
に切出される。一方、従来の方式では、基準間隔Wは文
字切出し候補ととの間になり、文字切出し候補と
との間隔がこの基準間隔Wの半分以下のため、文字切
出し候補は切出しの候補から除外される。従って、
「1日」が1文字(即ち、「旧」)として誤って切出さ
れる。
The operation of the character extracting section 2 based on the setting contents (a) to (f) is as shown in the following (1-1) to (1-6). (1-1) Operation Based on Setting Content (a) FIG. 7 is a diagram illustrating an operation of the character cutout unit 2 when there is no separable character on the left and right in the line L. When the setting content (a) is stored in the feature storage unit 3 and output to the character cutout unit 2 as the feature information S3, the character cutout unit 2 controls so that all of the character cutout candidates are set as character cutout positions. Therefore, at “February 11” in the row L in FIG. 7, the character extraction positions are character extraction candidates,..., And “2”, “month”, “1”, “1”, “day” It is cut out exactly. On the other hand, in the conventional method, the reference interval W is between the character extraction candidate and the character extraction candidate, and the interval between the character extraction candidate and the character extraction candidate is less than half of the reference interval W. Therefore, the character extraction candidate is excluded from the extraction candidates. . Therefore,
“One day” is erroneously cut out as one character (ie, “old”).

【0017】(1−2) 設定内容(b)に基づく動作 図8は、行L中に上下に分離可能な文字が存在しない場
合の文字切出し部2の動作を説明する図である。設定内
容(b)を特徴記憶部3が記憶し、特徴情報S3として
文字切出し部2に出力した場合、文字切出し部2は(1
−1)の場合と同様に、文字切出しの候補の全てを文字
切出し位置とするように制御を行う。従って、図8中の
行L中の「あれ、それ」では、文字切出し位置が文字切
出し候補,,,となり、「あ」「れ」「、」
「そ」「れ」と正確に切出される。一方、従来の方式で
は、基準間隔Wは文字切出し候補ととの間になり、
文字切出し候補ととの間隔がこの基準間隔Wの半分
以下のため、文字切出し候補3は切出しの候補から除外
される。従って、「、そ」が1文字として誤って切出さ
れる。
(1-2) Operation Based on Setting Content (b) FIG. 8 is a diagram for explaining the operation of the character cutout unit 2 when there is no vertically separable character in the line L. When the setting content (b) is stored in the feature storage unit 3 and output to the character extraction unit 2 as the characteristic information S3, the character extraction unit 2 sets (1)
As in the case of -1), control is performed so that all character extraction candidates are set as character extraction positions. Therefore, in "Are, that" in the line L in FIG. 8, the character extraction positions are character extraction candidates,,, and "A", "RE", ","
"So" and "re" are cut out exactly. On the other hand, in the conventional method, the reference interval W is between the reference interval and the character cutout candidate,
Since the interval with the character extraction candidate is not more than half of the reference interval W, the character extraction candidate 3 is excluded from the extraction candidates. Therefore, ", so" is erroneously cut out as one character.

【0018】(1−3) 設定内容(c)に基づく動作 図9は、行L中に微小文字が存在しない場合の文字切出
し部2の動作を説明する図である。設定内容(c)を特
徴記憶部3が記憶し、特徴情報S3として文字切出し部
2に出力した場合、文字切出し部2は予め設定された閾
値以下のパタンサイズのものを文字として切出さない。
閾値を例えば行の高さの1/2とした場合、図9中のご
みA〜Eは文字として切出されない。従って、文字切出
し精度が向上する。 (1−4) 設定内容(d)に基づく動作 図10は、行L中に上付き文字が存在しない場合の文字
切出し部2の動作を説明する図である。この図では、数
字、カンマ(,)とごみA〜Cが混在している。設定内
容(d)を特徴記憶部3が記憶し、特徴情報S3として
文字切出し部2に出力した場合、文字切出し部2はパタ
ンの下端が行Lの上側に予め設定された閾値以上(例え
ば、行Lの中心よりも上側)に存在するものを文字とし
て切出さない。従来の方式では、行L中に存在するごみ
A〜Cが文字として切出されるが、本実施形態では、ご
みAの下端が行Lの中心よりも高い位置にあるため、文
字として切出されない。従って、文字切出し精度が向上
する。
(1-3) Operation Based on Setting Content (c) FIG. 9 is a diagram for explaining the operation of the character cutout unit 2 when a minute character does not exist in the line L. When the setting content (c) is stored in the feature storage unit 3 and output to the character extraction unit 2 as the characteristic information S3, the character extraction unit 2 does not extract a character having a pattern size equal to or smaller than a preset threshold value as a character.
If the threshold value is, for example, の of the height of the line, the dusts A to E in FIG. 9 are not cut out as characters. Therefore, the character extraction accuracy is improved. (1-4) Operation Based on Setting Content (d) FIG. 10 is a diagram illustrating an operation of the character cutout unit 2 when a superscript character does not exist in the line L. In this figure, numerals, commas (,) and garbage A to C are mixed. When the feature storage unit 3 stores the setting content (d) and outputs it to the character extraction unit 2 as the characteristic information S3, the character extraction unit 2 sets the lower end of the pattern above the line L to be equal to or greater than a predetermined threshold (for example, Those existing above the center of the line L) are not cut out as characters. In the conventional method, the garbage A to C existing in the line L is cut out as a character, but in the present embodiment, the garbage A is not cut out as a character because the lower end of the garbage A is located higher than the center of the line L. . Therefore, the character extraction accuracy is improved.

【0019】(1−5) 設定内容(e)に基づく動作 図11は、行L中に下付き文字が存在しない場合の文字
切出し部2の動作を説明する図である。この図では、数
字、シングルクォーテーション(’)、ダブルクォーテ
ーション(”)及びごみAが混在している。設定内容
(e)を特徴記憶部3が記憶し、特徴情報S3として文
字切出し部2に出力した場合、文字切出し部2はパター
ンの上端が行Lの下側に予め設定された閾値以下(例え
ば、行Lの中心よりも下側)に存在するものを文字とし
て切出さない。従来の方式では、行L中に存在する塵芥
Aが文字として切出されるが、本実施形態では、ごみA
の上端が行Lの中心よりも低い位置にあるため、文字と
して切出されない。従って、文字切出し精度が向上す
る。
(1-5) Operation Based on Setting Content (e) FIG. 11 is a diagram for explaining the operation of the character cutout unit 2 when a subscript character does not exist in the line L. In this figure, numerals, single quotes ('), double quotes ("), and garbage A are mixed. The setting contents (e) are stored in the feature storage unit 3 and output to the character extraction unit 2 as feature information S3. In this case, the character cutout unit 2 does not cut out a character whose upper end of the pattern is below a preset threshold below the line L (for example, below the center of the line L) as a character. Then, the trash A existing in the row L is cut out as a character.
Is located at a position lower than the center of the line L, and is not cut out as a character. Therefore, the character extraction accuracy is improved.

【0020】(1−6) 設定内容(f)に基づく動作 図12は、行L中に数字のみが存在する場合の文字切出
し部2の動作を説明する図である。設定内容(f)を特
徴記憶部3が記憶し、特徴情報S3として文字切出し部
2に出力した場合、文字切出し部2は次の(i)〜(i
v)のように文字を切出す。 (i) 黒ドットの垂直万向に対する射影分布を測定
し、文字切出し候補を求める。 (ii) 文字切出し候補のうちの隣接する文字切出し候
補の間隔の最小値minを求める。 (iii) 隣接する文字切出し候補の間隔が最小値min の
n倍以上であるとき、文字切出し候補の間隔の中にnの
値に応じて等分に文字切出し候補を作成する。例えば、
nの値がn<1.5であれば分割せず、1.5≦n<
2.5の場合は2等分し、2.5≦nの場合は3等分す
る処理を行う。
(1-6) Operation Based on Setting Contents (f) FIG. 12 is a diagram for explaining the operation of the character cutout unit 2 when only a numeral is present in the row L. When the setting content (f) is stored in the feature storage unit 3 and output to the character extraction unit 2 as the characteristic information S3, the character extraction unit 2 performs the following (i) to (i).
Cut out characters as in v). (I) The projection distribution of black dots in all directions is measured, and character cutout candidates are obtained. (Ii) Find the minimum value min of the interval between adjacent character extraction candidates among the character extraction candidates. (iii) When the interval between adjacent character extraction candidates is at least n times the minimum value min, character extraction candidates are created equally in the interval between character extraction candidates according to the value of n. For example,
If the value of n is n <1.5, no division is performed, and 1.5 ≦ n <
In the case of 2.5, a process of dividing into two is performed, and in the case of 2.5 ≦ n, a process of dividing into three is performed.

【0021】(iv) 作成された文字切出し候補を全て
文字切出し位置とする。図12に示すように、2つの
「4」と「4」とが接触している場合、従来方式では、
文字切出し候補点,,,,が取得され、文字
の切出しが1箇所行われない。一方、本実施形態では、
文字切出し候補点の間隔の最小値min が文字切出し候補
点ととの間であった場合、文字切出し候補点と
との距離は最小値min の約2倍となるが、それ以外の間
隔は1.5倍を超えない。従って、文字切出し候補点
ととの間を2等分して文字切出し候補を作成し、最
終的な文字切出し位置A,B,C,D,E,Fが取得さ
れる。よって、文字が接触した場合でも、正確に文字の
切出しが行われる。
(Iv) All the created character extraction candidates are set as character extraction positions. As shown in FIG. 12, when two “4” and “4” are in contact with each other,
Character extraction candidate points are acquired, and no character extraction is performed at one place. On the other hand, in the present embodiment,
When the minimum value min of the interval between the character extraction candidate points is between the character extraction candidate point and the character extraction candidate point, the distance between the character extraction candidate point and the character extraction candidate point is about twice the minimum value min. Not more than 5 times. Therefore, a character extraction candidate is created by dividing the space between the character extraction candidate point and the character extraction candidate point into two equal parts, and final character extraction positions A, B, C, D, E, and F are obtained. Therefore, even if the character touches, the character is accurately cut out.

【0022】第2の実施形態 図13は、本発明の第2の実施形態を示す文字切出し装
置の構成図であり、第1の実施形態を示す図1中の要素
と共通の要素には共通の符号が付されている。この文字
切出し装置では、対象文字記憶部5と、特徴情報テーブ
ル記憶部4Aを有する文字特徴判定部4とが設けられて
いる。この図13において、対象文字記憶部5は、文字
切出し対象の文字コード(例えば、JISコード)S5
を記憶し、該文字コードS5を文字特徴判定部4に出力
する。特徴情報テーブル記憶部4Aは、文字切出し対象
の文字コードに予め特徴情報を対応付けたテーブルであ
る。文字特徴判定部4は、文字コードS5に対応した特
徴情報S4を出力するものである。特徴情報S4は特徴
情報記憶部3に入力され、特徴情報S3として記憶され
るようになっている。他は、図1と同様の構成である。
Second Embodiment FIG. 13 is a block diagram of a character extracting apparatus according to a second embodiment of the present invention, and is common to the elements in FIG. Are given. In this character extracting apparatus, a target character storage unit 5 and a character feature determination unit 4 having a feature information table storage unit 4A are provided. In FIG. 13, the target character storage unit 5 stores a character code (for example, a JIS code) S5 to be extracted.
And outputs the character code S5 to the character feature determination unit 4. The characteristic information table storage unit 4A is a table in which character information is previously associated with a character code to be extracted. The character feature determination section 4 outputs feature information S4 corresponding to the character code S5. The feature information S4 is input to the feature information storage unit 3 and stored as the feature information S3. Other configurations are the same as those in FIG.

【0023】この文字切出し装置の動作では、次の点が
図1の文字切出し装置と異なっている。対象文字記憶部
5は、文字コードS5を文字特徴判定部4に出力する。
文字特徴判定部4は、特徴情報テーブル記憶部4Aから
文字コードS5に対応した特徴情報を取出し、特徴情報
S4として特徴情報記憶部3に出力する。例えば、文字
切出しの対象(文字コード)が数字「0」〜「9」とカ
ンマ「,」であった場合、文字特徴判定部4は数字
「0」に対応付けられている、(1)左右分離不可能文
字である、(2)上下分離不可能文字である、(3)微
小文字でない、(4)上付文字でない、(5)下付文字
でない、(6)数字である、といった特徴情報S4を特
徴情報記憶部3に出力する。数字「1」〜「9」に対し
ても「0」と同様に対応付けられている(1)左右分離
不可能文字である、(2)上下分離不可能文字である、
(3)微小文字でない、(4)上付文字でない、(5)
下付文字でない、(6)数字である、といった特徴情報
S4を出力する。更にカンマ「,」に対応付けられてい
る(1)左右分離不可能文字である、(2)上下分離不
可能文字である、(3)微小文字である、(4)上付文
字でない、(5)下付文字である、(6)数字でない、
といった特徴情報S4を出力する。
The operation of this character extracting apparatus differs from the character extracting apparatus shown in FIG. 1 in the following points. The target character storage unit 5 outputs the character code S5 to the character feature determination unit 4.
The character feature determination unit 4 extracts feature information corresponding to the character code S5 from the feature information table storage unit 4A, and outputs it to the feature information storage unit 3 as feature information S4. For example, if the character extraction target (character code) is a number “0” to “9” and a comma “,”, the character feature determination unit 4 is associated with the number “0”. It is a character that cannot be separated, (2) it is a character that cannot be separated vertically, (3) it is not a small character, (4) it is not a superscript, (5) it is not a subscript, and (6) it is a number. The information S4 is output to the feature information storage unit 3. The numbers "1" to "9" are similarly associated with "0" in the same manner as (1) a character that cannot be separated left and right, (2) a character that cannot be separated vertically.
(3) Not a small character, (4) Not a superscript, (5)
Characteristic information S4 such as not being a subscript or (6) being a number is output. Furthermore, (1) a character that cannot be separated horizontally, (2) a character that cannot be separated vertically, (3) a minute character, (4) a non-superscript character, 5) is a subscript, (6) is not a number,
Is output.

【0024】特徴情報記憶部3は上記の特徴情報S4を
統合して(A)左右に分離可能な文字がない、(B)上
下に分離可能な文字がない、(C)通常の文字よりも小
さい微小文字がある、(D)上付文字がない、(E)下
付文字がある、(F)数字(0〜9)以外の文字が存在
する、といった特徴情報S3を記憶する。前記(A),
(B),(D)は第1の実施形態で述べた特徴情報
(a),(b),(d)に一致しており、従って特徴情
報S3を使用した文字切出しは第1の実施形態における
(1−1),(1−2),(1−4)を合わせた処理、
もしくはどれか一つ以上を組合わせた処理となる。以上
のように、この第2の実施形態では、対象文字記憶部5
が文字コードS5を記憶し、文字特徴判定部4は文字コ
ードS5より特徴情報テーブル記憶部4Aにより変換し
た特徴情報S4を出力し、特徴情報記憶部3は特徴情報
S4より特徴情報S3を記憶するようにしたので、第1
の実施形態の利点に加えて、煩雑な情報で規定される特
徴情報よりも一義的に規定される文字コードを用いるこ
とにより簡便な手順で文字切出しを行うことができる。
尚、本発明は上記実施形態に限定されず、種々の変形が
可能である。例えば、第1の実施形態における設定内容
(c)〜(e)の閾値は、行の高さを基準にしたり、又
は文字サイズのドット数で設定してもよい。
The characteristic information storage unit 3 integrates the above characteristic information S4, (A) there is no character that can be separated on the left and right, (B) there is no character that can be separated on the top and bottom, and (C) it is better than normal characters Characteristic information S3 is stored, such as small small characters, (D) no superscript, (E) subscript, and (F) characters other than numbers (0 to 9). (A),
(B) and (D) correspond to the feature information (a), (b), and (d) described in the first embodiment. Therefore, character extraction using the feature information S3 is performed in the first embodiment. Processing combining (1-1), (1-2), and (1-4) in
Alternatively, the processing is a combination of any one or more. As described above, in the second embodiment, the target character storage unit 5
Stores the character code S5, the character characteristic determination unit 4 outputs the characteristic information S4 converted by the characteristic information table storage unit 4A from the character code S5, and the characteristic information storage unit 3 stores the characteristic information S3 from the characteristic information S4. So, the first
In addition to the advantages of the embodiment, character extraction can be performed in a simple procedure by using a character code defined more uniquely than characteristic information defined by complicated information.
Note that the present invention is not limited to the above embodiment, and various modifications are possible. For example, the thresholds of the setting contents (c) to (e) in the first embodiment may be set based on the height of the line or by the number of dots of the character size.

【0025】[0025]

【発明の効果】以上詳細に説明したように、請求項1に
係る発明によれば、文字切出し対象パターンの特徴情報
を特徴情報記憶手段に記憶させ、該特徴情報に基づき、
文字切出し手段で画像記憶手段に記憶された画像データ
から文字を切出すようにしたので、文字切出し精度を向
上できる。請求項2に係る発明によれば、文字切出し対
象パターンを対象文字記憶手段に記憶させ、文字切出し
対象パターンから特徴情報を出力するようにしたので、
請求項1に係る発明の効果に加え、更に簡便な手順で文
字切出しを行うことができる。請求項3に係る発明によ
れば、特徴情報は、文字切出し対象パターン固有の特徴
を表すようにしたので、文字切出し精度を向上できる。
請求項4に係る発明によれば、文字切出し手段は、特徴
情報記憶手段が出力する特徴情報に基づいて文字を切出
すようにしたので、文字切出し精度を向上できる。
As described in detail above, according to the first aspect of the present invention, the characteristic information of the character extraction target pattern is stored in the characteristic information storage means, and based on the characteristic information,
Since the character is cut out from the image data stored in the image storage means by the character cutout means, the character cutout accuracy can be improved. According to the invention according to claim 2, the character extraction target pattern is stored in the target character storage means, and the characteristic information is output from the character extraction target pattern.
In addition to the effect of the invention according to claim 1, character extraction can be performed in a simpler procedure. According to the third aspect of the invention, the characteristic information represents a characteristic peculiar to the character extraction target pattern, so that the character extraction accuracy can be improved.
According to the fourth aspect of the present invention, the character cutout unit cuts out the character based on the feature information output from the feature information storage unit, so that the character cutout accuracy can be improved.

【0026】請求項5に係る発明によれば、対象文字記
憶手段は、文字切出し対象パターンの文字コードを記憶
するようにしたので、文字切出し精度を向上できる。請
求項6に係る発明によれば、文字特徴判定手段は、文字
切出し対象パターンの文字コードに予め関連付けられた
特徴情報を記憶する特徴情報テーブル記憶手段を備えて
いるので、文字切出し精度を向上できる。請求項7に係
る発明によれば、特徴情報テーブル記憶手段は、文字コ
ードと該文字コードの特徴情報を対応付けて記憶するよ
うにしたので、文字切出し精度を向上できる。請求項8
に係る発明によれば、文字特徴判定手段は、対象文字記
憶手段が出力する文字コードに対応した特徴情報を特徴
情報テーブル記憶手段から取得し、特徴情報記憶手段に
出力するようにしたので、文字切出し精度を向上でき
る。請求項9に係る発明によれば、文字切出し対象パタ
ーン固有の特徴は、文字切出し対象パターンに対し左右
分離可能文字の有無、上下分離可能文字の有無、微小文
字の有無、下付き文字の有無、上付き文字の有無、又は
数字以外の文字の有無の少なくともいずれかを表すよう
にしたので、文字切出し精度を向上できる。
According to the fifth aspect of the present invention, since the target character storage means stores the character code of the character extraction target pattern, the character extraction accuracy can be improved. According to the invention according to claim 6, the character feature determination means includes the feature information table storage means for storing the feature information previously associated with the character code of the character extraction target pattern, so that the character extraction accuracy can be improved. . According to the invention according to claim 7, the characteristic information table storage means stores the character code and the characteristic information of the character code in association with each other, so that the character extraction accuracy can be improved. Claim 8
According to the invention, the character feature determination unit acquires the feature information corresponding to the character code output from the target character storage unit from the feature information table storage unit and outputs the acquired feature information to the feature information storage unit. Cutting accuracy can be improved. According to the ninth aspect of the present invention, the character extraction target pattern-specific features include a character extraction target pattern having left / right separable characters, a vertical character separable character, a minute character, a subscript character, Since at least one of the presence of a superscript character and the presence or absence of a character other than a number is indicated, the accuracy of character extraction can be improved.

【0027】請求項10に係る発明によれば、文字切出
し手段は、特徴情報記憶手段が出力する特徴情報に左右
分離可能文字が存在しない場合、横書きの文字切出しに
おいて縦の射影分布の値が設定された値以下となる区間
を全て文字として切出すか、又は上下分離可能文字が無
い場合に、縦書きの文字切出しにおいて横の射影分布の
値が設定された値以下となる区間を全て文字として切出
すようにしたので、文字切出し精度を向上できる。請求
項11に係る発明によれば、文字切出し手段は、特徴情
報記憶手段が出力する特徴情報に通常の文字より小さい
微小文字が存在しない場合にパターンのサイズが予め決
めておいた閾値以下のものを文字として切出さないか、
下付き文字が存在しない場合に行の下側に予め決めてお
いた閾値以下にパターンの上端が存在するものを文字と
して切出さないか、又は上付き文字が存在しない場合に
行の上側に予め決めておいた閾値以上にパターンの下端
が存在するものを文字として切出さないようにしたの
で、文字切出し精度を向上できる。請求項12に係る発
明によれば、文字切出し手段は、特徴情報記憶手段が出
力する特徴情報に数字以外の文字が存在せず、文字と文
字との間隔が基準となる間隔以上の場合に、文字間隔の
長さに応じて前記文字間隔の間を切出すようにしたの
で、文字切出し精度を向上できる。
According to the tenth aspect, the character extracting means sets the value of the vertical projection distribution in the horizontal character extracting when the character information which is output from the characteristic information storage means does not include a character which can be separated into right and left. All the sections where the value of the horizontal projection distribution is less than or equal to the set value in vertical character extraction are extracted as characters. Since the clipping is performed, the precision of character clipping can be improved. According to the eleventh aspect of the present invention, the character cutout means has a pattern size equal to or smaller than a predetermined threshold when there is no small character smaller than a normal character in the characteristic information output from the characteristic information storage means. Is not extracted as a character,
If there is no superscript character, do not cut out the character with the upper end of the pattern below the predetermined threshold below the line as a character, or if there is no superscript character, Since the pattern having the lower end of the pattern exceeding the predetermined threshold is not cut out as a character, the character cutout accuracy can be improved. According to the twelfth aspect of the invention, the character extracting unit is configured to output the characteristic information stored by the characteristic information storage unit when there is no character other than a numeral and the interval between the characters is equal to or longer than a reference interval. Since the character interval is cut out in accordance with the length of the character interval, the character extraction accuracy can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態の文字切出し装置の構
成図である。
FIG. 1 is a configuration diagram of a character cutout device according to a first embodiment of the present invention.

【図2】従来の文字切出し処理の例を示す図である。FIG. 2 is a diagram illustrating an example of a conventional character cutout process.

【図3】図2におけるフローチャートである。FIG. 3 is a flowchart in FIG. 2;

【図4】問題となる文字切出しの例を示す図である。FIG. 4 is a diagram illustrating an example of extracting a character in question.

【図5】左右に分離可能な文字と不可能な文字を説明す
る図である。
FIG. 5 is a diagram illustrating characters that can be separated into right and left and characters that cannot be separated.

【図6】上下に分離可能な文字と不可能な文字を説明す
る図である。
FIG. 6 is a diagram illustrating characters that can be separated vertically and characters that cannot be separated.

【図7】左右に分離可能な文字が存在しない場合の動作
を説明する図である。
FIG. 7 is a diagram illustrating an operation when there is no character that can be separated on the left and right.

【図8】上下に分離可能な文字が存在しない場合の動作
を説明する図である。
FIG. 8 is a diagram illustrating an operation when there is no character that can be vertically separated.

【図9】微小文字が存在しない場合の動作を説明する図
である。
FIG. 9 is a diagram for explaining an operation when a small character does not exist;

【図10】上付き文字が存在しない場合の動作を説明す
る図である。
FIG. 10 is a diagram illustrating an operation when a superscript does not exist.

【図11】下付き文字が存在しない場合の動作を説明す
る図である。
FIG. 11 is a diagram illustrating an operation when a subscript does not exist.

【図12】数字列のみが存在する場合の動作を説明する
図である。
FIG. 12 is a diagram illustrating an operation when only a numeric string exists.

【図13】本発明の第2の実施形態の文字切出し装置の
構成図である。
FIG. 13 is a configuration diagram of a character cutout device according to a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 画像記憶部 2 文字切出し部 3 特徴情報記憶部 4 文字特徴判定部 4A 特徴情報テーブル記憶部 5 対象文字記憶部 REFERENCE SIGNS LIST 1 image storage unit 2 character extraction unit 3 feature information storage unit 4 character feature determination unit 4A feature information table storage unit 5 target character storage unit

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 記号又は文字からなる文字切出し対象パ
ターンが記入された帳票の画像データを記憶する画像記
憶手段と、 前記文字切出し対象パターンの特徴情報を記憶する特徴
情報記憶手段と、 前記特徴情報に基づき前記記憶された画像データから文
字を切出す文字切出し手段とを、備えたことを特徴とす
る文字切出し装置。
An image storage unit configured to store image data of a form in which a character extraction target pattern including a symbol or a character is written; a characteristic information storage unit configured to store characteristic information of the character extraction target pattern; Character extracting means for extracting a character from the stored image data based on the character data.
【請求項2】 文字切出し対象パターンを記憶する対象
文字記憶手段と、 前記文字切出し対象パターンを入力して前記特徴情報を
出力する文字特徴判定手段とを備え、 前記文字特徴判定手段が出力する前記特徴情報を前記特
徴情報記憶手段に記憶することを特徴とする請求項1記
載の文字切出し装置。
2. A target character storage unit that stores a character extraction target pattern, and a character characteristic determination unit that inputs the character extraction target pattern and outputs the characteristic information, wherein the character characteristic determination unit outputs 2. The character extracting apparatus according to claim 1, wherein characteristic information is stored in said characteristic information storage means.
【請求項3】 前記特徴情報は、 前記文字切出し対象パターン固有の特徴を表すことを特
徴とする請求項1又は2記載の文字切出し装置。
3. The character extraction device according to claim 1, wherein the characteristic information represents a characteristic unique to the character extraction target pattern.
【請求項4】 前記文字切出し手段は、 前記特徴情報記憶手段が出力する前記特徴情報に基づい
て文字を切出すことを特徴とする請求項1、2又は3記
載の文字切出し装置。
4. The character extracting device according to claim 1, wherein the character extracting unit extracts a character based on the characteristic information output from the characteristic information storage unit.
【請求項5】 前記対象文字記憶手段は、 文字切出し対象パターンの文字コードを記憶することを
特徴とする請求項2、3又は4記載の文字切出し装置。
5. The character extraction device according to claim 2, wherein the target character storage unit stores a character code of a character extraction target pattern.
【請求項6】 前記文字特徴判定手段は、 前記文字切出し対象パターンの文字コードに予め関連付
けられた前記特徴情報を記憶する特徴情報テーブル記憶
手段を備えたことを特徴とする請求項2、3、4又は5
記載の文字切出し装置。
6. The character information determination unit according to claim 2, further comprising: a characteristic information table storage unit configured to store the characteristic information previously associated with a character code of the character extraction target pattern. 4 or 5
The character extraction device described.
【請求項7】 前記特徴情報テーブル記憶手段は、 前記文字コードと該文字コードの前記特徴情報を対応付
けて記憶することを特徴とする請求項6記載の文字切出
し装置。
7. The character extracting apparatus according to claim 6, wherein the characteristic information table storage unit stores the character code and the characteristic information of the character code in association with each other.
【請求項8】 前記文字特徴判定手段は、 前記対象文字記憶手段が出力する前記文字コードに対応
した前記特徴情報を前記特徴情報テーブル記憶手段から
取得し、前記特徴情報記憶手段に出力することを特徴と
する請求項6又は7記載の文字切出し装置。
8. The method according to claim 8, wherein the character feature determination unit acquires the feature information corresponding to the character code output from the target character storage unit from the feature information table storage unit and outputs the acquired feature information to the feature information storage unit. 8. The character extracting device according to claim 6, wherein the character extracting device is a character extracting device.
【請求項9】 前記文字切出し対象パターン固有の特徴
は、 前記文字切出し対象パターンに対し、左右分離可能文字
の有無、上下分離可能文字の有無、微小文字の有無、下
付き文字の有無、上付き文字の有無、又は数字以外の文
字の有無の少なくともいずれかを表すことを特徴とする
請求項1、2、3、4、5、6、7又は8記載の文字切
出し装置。
9. The unique features of the character extraction target pattern include: the presence or absence of left / right separable characters, the presence / absence of vertical characters, the presence / absence of minute characters, the presence / absence of subscripts, and the superscript 9. The character extracting device according to claim 1, wherein the character extracting device indicates at least one of the presence or absence of a character and the presence or absence of a character other than a number.
【請求項10】 前記文字切出し手段は、 前記特徴情報記憶手段が出力する前記特徴情報に左右分
離可能文字が存在しない場合、横書きの文字切出しにお
いて縦の射影分布の値が設定された値以下となる区間を
全て文字として切出すか、又は上下分離可能文字が無い
場合に、縦書きの文字切出しにおいて横の射影分布の値
が設定された値以下となる区間を全て文字として切出す
ことを特徴とする請求項1、2、3、4、5、6、7、
8又は9記載の文字切出し装置。
10. The character extracting unit, when there is no left-right separable character in the characteristic information output by the characteristic information storage unit, the value of a vertical projection distribution in horizontal character extraction is set to a value equal to or less than a set value. Character section, or when there is no upper / lower separable character, all sections where the value of the horizontal projection distribution is equal to or less than the set value in vertical character cutout are cut out as characters. Claims 1, 2, 3, 4, 5, 6, 7,
10. The character extracting device according to 8 or 9.
【請求項11】 前記文字切出し手段は、 前記特徴情報記憶手段が出力する前記特徴情報に通常の
文字より小さい微小文字が存在しない場合にパターンの
サイズが予め決めておいた閾値以下のものを文字として
切出さないか、下付き文字が存在しない場合に行の下側
に予め決めておいた閾値以下にパタンの上端が存在する
ものを文字として切出さないか、又は上付き文字が存在
しない場合に行の上側に予め決めておいた閾値以上にパ
ターンの下端が存在するものを文字として切出さないこ
とを特徴とする請求項1、2、3、4、5、6、7、8
又は9記載の文字切出し装置。
11. The method according to claim 1, wherein the character information extracting unit outputs, when the feature information output from the feature information storing unit does not include a minute character smaller than a normal character, a pattern whose size is equal to or less than a predetermined threshold. If the subscript is not present, or if there is no subscript, the character with the upper end of the pattern below the predetermined threshold below the line is not extracted as a character, or the superscript does not exist 9. The method according to claim 1, wherein a character having a lower end of the pattern above a predetermined threshold value above the line is not cut out as a character.
Or the character extracting device according to 9.
【請求項12】 前記文字切出し手段は、 前記特徴情報記憶手段が出力する前記特徴情報に数字以
外の文字が存在せず、文字と文字との間隔が基準となる
間隔以上の場合に、前記文字間隔の長さに応じて該文字
間隔の間を切出すことを特徴とする請求項1、2、3、
4、5、6、7、8又は9記載の文字切出し装置。
12. The character extracting unit, when there is no character other than a number in the characteristic information output by the characteristic information storage unit and the interval between characters is equal to or longer than a reference interval, 4. The method according to claim 1, wherein the character space is cut out in accordance with the length of the space.
A character extracting device according to 4, 5, 6, 7, 8 or 9.
JP10229744A 1998-08-14 1998-08-14 Character segmenting device Pending JP2000057261A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10229744A JP2000057261A (en) 1998-08-14 1998-08-14 Character segmenting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10229744A JP2000057261A (en) 1998-08-14 1998-08-14 Character segmenting device

Publications (1)

Publication Number Publication Date
JP2000057261A true JP2000057261A (en) 2000-02-25

Family

ID=16897014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10229744A Pending JP2000057261A (en) 1998-08-14 1998-08-14 Character segmenting device

Country Status (1)

Country Link
JP (1) JP2000057261A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image

Similar Documents

Publication Publication Date Title
JP3996579B2 (en) Form processing system for identifying active areas of machine-readable forms
US5809167A (en) Page segmentation and character recognition system
JP3805005B2 (en) Image processing apparatus, optical character recognition apparatus, and methods thereof
JP4271878B2 (en) Character search method and apparatus in video, and character search processing program
JP4533273B2 (en) Image processing apparatus, image processing method, and program
JP4310288B2 (en) Image processing apparatus and method, program, and storage medium
US7783108B2 (en) Document management method and apparatus
JP4655335B2 (en) Image recognition apparatus, image recognition method, and computer-readable recording medium on which image recognition program is recorded
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP2013033416A (en) Character recognition device, character recognition method, and program
JP2010157107A (en) Business document processor
US11568623B2 (en) Image processing apparatus, image processing method, and storage medium
US6947596B2 (en) Character recognition method, program and recording medium
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
US6504540B1 (en) Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
JP2021044803A (en) Image processing device, image processing method, and program
US7508986B2 (en) Document recognition device, document recognition method and program, and storage medium
JP2000057261A (en) Character segmenting device
US8295602B2 (en) Image processing apparatus and image processing method
JP2000181988A (en) Optical character reader
JP2003046746A (en) Method and apparatus for processing image
JP2020047138A (en) Information processing apparatus
JP5298830B2 (en) Image processing program, image processing apparatus, and image processing system
JP5277750B2 (en) Image processing program, image processing apparatus, and image processing system
JP2022167414A (en) Image processing device, image processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081021