JP2795222B2 - Character extraction method and character extraction device - Google Patents

Character extraction method and character extraction device

Info

Publication number
JP2795222B2
JP2795222B2 JP7178450A JP17845095A JP2795222B2 JP 2795222 B2 JP2795222 B2 JP 2795222B2 JP 7178450 A JP7178450 A JP 7178450A JP 17845095 A JP17845095 A JP 17845095A JP 2795222 B2 JP2795222 B2 JP 2795222B2
Authority
JP
Japan
Prior art keywords
character
block
registration information
blocks
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7178450A
Other languages
Japanese (ja)
Other versions
JPH0934991A (en
Inventor
康治 板本
博史 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP7178450A priority Critical patent/JP2795222B2/en
Publication of JPH0934991A publication Critical patent/JPH0934991A/en
Application granted granted Critical
Publication of JP2795222B2 publication Critical patent/JP2795222B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、紙面上に印刷さ
れている文字などを光学的に読み取る文字読み出しにお
ける文字切り出し方法および文字切り出し装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character cutout method and a character cutout device in character reading for optically reading characters or the like printed on paper.

【0002】[0002]

【従来の技術】従来、この種の文字切り出し装置は、以
下のようにして文字の切り出しを行っていた。まず、文
字列方向にこれと直行するラインを走査して、文字を構
成する線の濃淡を検出していく。これは通常、投影と呼
ばれる。そして、走査していく中で、検出される濃度が
なくなる切れ目の部分を文字の区切りとし、切れ目から
次の切れ目までを横の線とし、文字の高さを縦の線とし
た文字列を内包する外接矩形の座標情報を抽出する。そ
して、例えば、この外接矩形のブロックを、文字の高さ
を1つの単位として、分割して1文字単位の文字候補の
ブロックを出力する。
2. Description of the Related Art Heretofore, this type of character cutout device cuts out characters as follows. First, a line orthogonal to the line is scanned in the direction of the character string to detect the shading of the line constituting the character. This is commonly called projection. Then, during scanning, the part of the cut where the detected density disappears is used as a character delimiter, the horizontal line from the break to the next break is used, and the character string with the height of the character as a vertical line is included. The coordinate information of the circumscribed rectangle to be extracted is extracted. Then, for example, the circumscribed rectangular block is divided using the character height as one unit, and a block of character candidates in units of one character is output.

【0003】ここで、上述したことにより得られるブロ
ックでは、正しい文字候補のブロックを得ることが困難
な場合がある。すなわち、1文字が偏と旁のように分離
していて別のブロックとして出力されている場合や、隣
り合う文字が接触していて複数の文字で1つのブロック
が出力されている場合である。しかし、一般に、印刷活
字の場合には、文字のピッチはほぼ一定であるので、1
文字分のブロックが偏と旁で分離していた場合でも、1
文字分の推定ピッチを満たすように2つのブロックを統
合するようにしている。このことにより、1文字分の文
字候補のブロックを、比較的容易に正しく求めることが
できる。
Here, in the blocks obtained by the above, it may be difficult to obtain a block of a correct character candidate. That is, there are cases where one character is separated like a partial and is output as another block, or where adjacent characters are in contact and one block is output with a plurality of characters. However, in general, in the case of print type, the pitch of characters is almost constant, and
Even if a block of characters is separated from one side,
The two blocks are integrated so as to satisfy the estimated pitch of the character. As a result, a block of character candidates for one character can be obtained relatively easily and correctly.

【0004】[0004]

【発明が解決しようとする課題】しかし、従来では、以
下に示すような状況では1文字を1ブロックに切り出す
ことができないという問題があった。すなわち、「川」
の文字のように、1文字が3つに分離し、かつ、文字の
一部が隣接する文字と接触するか非常に近い場合には、
ブロックの組み合わせにより「川」を1ブロックに出力
することができない。また、ピッチ推定によるブロック
分割でも、隣の文字に近い部分の幅が小さいので、ここ
だけを切り出して「川」の他の分離した部分と統合する
のは困難であるという問題があった。同様の文字に
「小」などがあり、これらは文字の形状によって、構成
する各部分の接触しやすい方向が異なるので、正しい文
字候補の切り出しが困難であるという問題があった。
However, conventionally, there has been a problem that one character cannot be cut into one block in the following situation. That is, "river"
If one character separates into three and some of the characters touch or are very close to adjacent characters, such as
“River” cannot be output to one block due to the combination of blocks. In addition, even in block division based on pitch estimation, since the width of a portion close to the adjacent character is small, there is a problem that it is difficult to cut out only this portion and integrate it with another separated portion of "river". Similar characters include "small" and the like, because the directions in which the constituent parts easily contact each other differ depending on the shape of the character, and there has been a problem that it is difficult to cut out a correct character candidate.

【0005】この発明は、以上のような問題点を解消す
るためになされたものであり、文字1つひとつを正確に
切り出せるようにすることを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems, and has as its object to accurately cut out each character.

【0006】[0006]

【課題を解決するための手段】この発明の文字切り出し
方法は、所定の文字の1部をのぞいた他の部分を構成す
る各部分の外接矩形の大きさおよびそれぞれの配置関係
からなる照合条件と、この照合条件を満たした場合の処
置内容とから構成された登録情報を備える。そして、ま
ず、画像データとして取り込んだ文字列を、画像の途切
れているところで区切るようにブロック分けしてブロッ
クを抽出する。ついで、この抽出したブロックの中で登
録情報に一致するものがあるかどうかを照合し、この照
合によって一致するものがあった場合、その登録情報の
処置内容にしたがってブロックの統合を行う。ついで、
それらブロックの横方向の長さを自然数で割った解の中
で、文字列の高さに最も近いものを文字ピッチとし、統
合を行ったブロックをその文字ピッチ毎に分割すること
で文字の切り出しを行うことを特徴とする。このため、
1文字であるのに、これを分割してブロック抽出して
も、分割したブロックは1つの文字として統合する。
According to the character extracting method of the present invention, a collating condition comprising a size of a circumscribed rectangle of each part constituting another part except for a part of a predetermined character and a positional relationship between the parts is defined. , Registration information composed of the processing contents when the matching condition is satisfied. Then, first, the character string captured as the image data is divided into blocks so as to be separated at the breaks of the image, and the blocks are extracted. Next, it is checked whether or not there is any one of the extracted blocks that matches the registration information. If there is a match that matches the registration information, the blocks are integrated in accordance with the processing content of the registration information. Then
From the solution obtained by dividing the horizontal length of these blocks by a natural number, the character pitch closest to the height of the character string is used as the character pitch, and the integrated block is divided for each character pitch to extract characters. Is performed. For this reason,
Even if it is one character, even if it is divided and extracted as a block, the divided block is integrated as one character.

【0007】また、この発明の文字切り出し装置は、画
像データとして取り込んだ文字列を、画像の途切れてい
るところで区切るようにブロック分けしてブロックを抽
出するブロック抽出手段と、所定の文字の1部をのぞい
た他の部分を構成する各部分の外接矩形の大きさおよび
それぞれの配置関係からなる照合条件とこの照合条件を
満たした場合の処置内容とから構成された登録情報を備
えた登録情報格納手段と、ブロック抽出手段が抽出した
ブロックの中で、登録情報に一致するものがあるかどう
かを照合する照合手段と、その照合によって一致するも
のがあった場合、その登録情報の処置内容にしたがって
ブロックの統合を行うブロック統合手段と、ブロック統
合手段が統合したブロックの横方向の長さを自然数で割
った解の中で、文字列の高さに最も近いものを文字ピッ
チとする文字ピッチ推定手段と、統合を行ったブロック
を文字ピッチ毎に分割することで文字の切り出しを行う
ブロック分け手段とを備えたことを特徴とする。このこ
とにより、1文字であるのに分割してブロック抽出され
ても、分割したブロックが1つの文字として統合され
る。
The character extracting apparatus according to the present invention further comprises a block extracting means for extracting a block by dividing a character string taken as image data into blocks where the image is broken, and a part of a predetermined character. Registration information storage including registration information consisting of the size of the circumscribed rectangle of each part constituting the other part except for the above, the collation condition consisting of the respective arrangement relations, and the treatment content when the collation condition is satisfied Means, and matching means for checking whether or not there is a match in the registered information among the blocks extracted by the block extracting means, and if there is a match in the matching, according to the action content of the registered information. In the block integration unit that integrates the blocks and the solution obtained by dividing the horizontal length of the block integrated by the block integration unit by a natural number, Character pitch estimating means for setting the character pitch closest to the column height to character pitch, and block dividing means for cutting out characters by dividing the integrated block for each character pitch. . Thus, even if one character is divided and a block is extracted, the divided block is integrated as one character.

【0008】[0008]

【発明の実施の形態】以下この発明の1実施の形態を図
を参照して説明する。図1は、本発明の1実施の形態に
おける文字切り出し装置の構成を示す構成図である。同
図において、1は文字列の画像データを入力する文字列
画像入力手段、2は入力した文字列の画像から投影を行
って、互いに接触しない画像の塊をブロックと呼ぶ外接
矩形の座標情報として抽出するブロック抽出手段、3は
登録情報格納手段3aに予め登録してあるブロックの登
録情報と抽出したブロックとを照合する照合手段、4は
照合によって条件を満たした場合に、指定した方向にブ
ロックを統合するブロック統合手段、5は文字列を構成
するブロックのピッチを、文字列の高さを基準に平均文
字ピッチを推定する文字ピッチ推定手段、6は推定した
文字ピッチによりブロックを分割するブロック分割手
段、7は分割したブロックを文字候補として出力するブ
ロック出力手段である
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a configuration diagram showing a configuration of a character cutout device according to one embodiment of the present invention. In the figure, 1 is a character string image input means for inputting image data of a character string, and 2 is a projection of the image of the input character string, and a block of images that do not touch each other is coordinate information of a circumscribed rectangle called a block. The extracting block extracting means 3 is a collating means for collating the extracted block with the registered information of the block pre-registered in the registered information storing means 3a. The collating means 4 is a block in a designated direction when the condition is satisfied by the collation. 5 is a character pitch estimating means for estimating the pitch of the blocks constituting the character string, and an average character pitch based on the height of the character string. 6 is a block for dividing the block by the estimated character pitch. The dividing means 7 is a block output means for outputting the divided blocks as character candidates.

【0009】以下、図2のフローチャートを用いて、こ
の実施の形態における文字切り出し装置の動作について
説明する。まず、文字列画像入力手段1から文字列画像
データを入力し(ステップS1)、ブロック抽出手段2
により投影を行って、互いに接触しない画像の塊となっ
ているブロックにわけ、この座標情報を抽出する(ステ
ップS2)。ここで、この実施の形態の説明において
は、図3(a)に示すような文字列画像データにおける
文字の切り出しについて考える。
The operation of the character segmenting apparatus according to this embodiment will be described below with reference to the flowchart of FIG. First, character string image data is input from the character string image input means 1 (step S1), and the block extracting means 2
Is performed to separate the blocks into blocks of images that do not touch each other, and this coordinate information is extracted (step S2). Here, in the description of this embodiment, the extraction of characters from character string image data as shown in FIG.

【0010】この文字列画像を、上述したようにブロッ
クに分けると、図3(b)に示すようになる。このブロ
ック分けでは、入力文字列が接触している部分が、1つ
のブロックとして抽出される。ここで、「川」のよう
に、構成部分が分離した文字では、その一部が隣接する
ブロック内に入ったり、また、他の一部が単独のブロッ
クとなったりする。
When the character string image is divided into blocks as described above, the result is as shown in FIG. In this block division, a portion in contact with the input character string is extracted as one block. Here, in a character whose constituent part is separated, such as “river”, a part of the character is included in an adjacent block, and another part is a single block.

【0011】次いで、照合対象の開始ブロックを指定し
(ステップS3)、照合手段3により、登録情報格納手
段3aに格納された登録情報と、抽出されたブロックと
の照合を行う(ステップS4)。図4は、図1の登録情
報格納手段3aに格納されている登録情報の構成を示す
説明図である。図4は、想定対象(想定カテゴリ)が
「川」の文字に関する登録情報、想定対象が「小」の文
字に関する登録情報、想定対象が「小」の文字に関する
もう1つの登録情報から構成されている状態を示してい
る。例えば想定文字が「川」の登録情報は、「川」の文
字が示すように、1つの文字が3つの部分から構成さ
れ、それらが分離しており、その左の部分が左側の文字
と近接している状態を想定している。
Next, a start block to be compared is specified (step S3), and the matching unit 3 compares the registered information stored in the registered information storage unit 3a with the extracted block (step S4). FIG. 4 is an explanatory diagram showing the configuration of the registration information stored in the registration information storage unit 3a of FIG. FIG. 4 shows registration information relating to a character whose assumed object (assumed category) is “river”, registration information relating to a character whose assumed object is “small”, and another registration information relating to a character whose assumed object is “small”. It shows the state where it is. For example, in the registration information with the assumed character “kawa”, as indicated by the character “kawa”, one character is composed of three parts, which are separated, and the left part is close to the left character. It is assumed that you are in the state.

【0012】この想定は、文字「川」の左の部分が左側
の文字が含まれるブロックに分けられ、文字「川」の中
央の部分,および文字「川」の右の部分がそれぞれ1つ
のブロックとなる場合である。文字「川」は、左の部分
は曲線で構成されているため、左側の文字が近寄ってい
ると、そちらのブロックに含まれるものとして認識され
やすい。一方、「川」の右の部分は直線で構成されてい
るため、右側の文字に近寄っていても、分離して認識さ
れやすい。
This assumption is based on the assumption that the left part of the character “kawa” is divided into blocks including the left character, and the central part of the character “river” and the right part of the character “river” are one block each. This is the case. Since the character "river" has a curved portion on the left side, if the character on the left side approaches, it is easily recognized as being included in that block. On the other hand, the right part of the “river” is composed of straight lines, so that even if it is close to the character on the right, it is easily separated and recognized.

【0013】また、文字「小」に関しては、それを構成
する左の部分も右の部分も、他の文字が近寄っていると
そちらのブロックに含まれるものとして認識されやす
い。このため、右の部分が右側の文字のブロックに含ま
れている場合を想定した登録情報と、左の部分が左側の
文字のブロックに含まれている場合を想定した登録情報
とが必要となる。
[0013] Further, regarding the character "small", both the left part and the right part constituting it are easily recognized as being included in the block when another character is approaching. For this reason, registration information assuming that the right part is included in the right character block and registration information assuming that the left part is included in the left character block are required. .

【0014】次に、登録情報の詳細な構成に関して説明
する。登録情報は、想定対象文字を示す想定カテゴリ
と、対象ブロックと、照合する条件と、条件を満たした
場合になされる処理内容とから構成されている。照合す
る条件は、ブロック1情報とブロック2情報と、それら
2つのブロックの相対位置関係を規定する相対位置情報
とから構成されている。
Next, a detailed configuration of the registration information will be described. The registration information includes an assumed category indicating an assumed target character, a target block, a condition to be matched, and processing to be performed when the condition is satisfied. The conditions for collation are composed of block 1 information and block 2 information, and relative position information defining the relative positional relationship between these two blocks.

【0015】例えば、想定カテゴリ「川」のブロック1
情報は、対象とするブロック1の高さH1および幅W1
が、規定している値h1および値w1と一致しているか
どうかを判断するためのものである。また、ブロック2
情報は、ブロック1情報との照合がなされるブロック1
の右のブロック2に関してのものであり、その対象とす
るブロック2の高さH2および幅W2が、規定している
値h2および値w2と一致しているかどうかを判断する
ためのものである。
For example, block 1 of the assumed category "river"
The information is the height H1 and width W1 of the target block 1
Is used to determine whether the values match the prescribed values h1 and w1. Block 2
The information is a block 1 that is checked against the block 1 information
Is to determine whether the height H2 and the width W2 of the target block 2 match the prescribed values h2 and w2.

【0016】そして、相対位置情報は、ブロック1とブ
ロック2の相対的な位置関係が規定されている。すなわ
ち、ブロック1と左のブロックとの距離G1およびブロ
ック1とブロック2との距離G2が、規定している値g
1および規定している値g2と一致しているかどうかを
判定するものである。加えて、ブロック1とブロック2
との縦方向の位置関係A1およびA2が、規定している
値a1およびa2と一致しているかどうかを判断するた
めのものである。なお、上述において、図4にも示して
いるように、規定の値に幅を持たせてあるが、この単位
は画素数であり、約6%程度にあたる。
In the relative position information, the relative positional relationship between the block 1 and the block 2 is defined. That is, the distance G1 between the block 1 and the left block and the distance G2 between the block 1 and the block 2 are defined values g
It is determined whether or not the value matches 1 and the prescribed value g2. In addition, Block 1 and Block 2
Is to determine whether or not the vertical positional relationships A1 and A2 with the specified values a1 and a2 match. In the above description, as shown in FIG. 4, the specified value has a width, but this unit is the number of pixels, which is about 6%.

【0017】ステップS4(図2)の照合では、上述し
た登録情報を用い、そして、それらの条件を満たしてい
るかどうかを判断する(ステップS5)。ここでは、登
録情報を満たすブロックが存在するかどうかを、抽出し
たブロック全てについてその照合を行う。ここで、登録
情報を満たすブロックが存在した場合(図3(c))、
その登録情報の対応処置に示されている方向に、ブロッ
クを統合する(ステップS6)。
In the collation in step S4 (FIG. 2), the above-mentioned registration information is used, and it is determined whether or not those conditions are satisfied (step S5). Here, whether or not there is a block satisfying the registration information is checked for all the extracted blocks. Here, when there is a block satisfying the registration information (FIG. 3C),
The blocks are integrated in the direction indicated by the corresponding action of the registration information (step S6).

【0018】例えば、図3に示した例の場合、図4の想
定カテゴリ「川」の登録情報における照合条件を満たす
ブロックが存在している。このため、この対応処置に示
されているように、「川」の中央部を含むブロック1と
右部分を含むブロック2を、ブロック1の左のブロック
へ統合する。そして、ステップS7の判断により、他に
も登録情報を満たすブロックがあるかどうか判断し(ス
テップS8)、上述と同様にしていき、ブロックを統合
していく(図3(d))。
For example, in the case of the example shown in FIG. 3, there is a block which satisfies the matching condition in the registration information of the assumed category "river" in FIG. Therefore, as shown in the corresponding action, the block 1 including the central portion of the “river” and the block 2 including the right portion are integrated into the block to the left of the block 1. Then, based on the determination in step S7, it is determined whether there is another block that satisfies the registration information (step S8), and the blocks are integrated as described above (FIG. 3D).

【0019】以上の結果、全てのブロックについて照合
が終了し、ブロックの統合が行われたら(ステップS
8)、文字ピッチ推定手段5により、平均の文字ピッチ
を推定する(ステップS9)。平均文字ピッチの推定
は、文字列のブロックの幅がその整数倍となっている値
で、文字列の高さに最も近い値とする。すなわち、ある
ブロックに関して、自然数でその幅を割っていき、得ら
れた解の中で文字列の高さに最も近い値を採用する。最
後に、図3(e)に示すように、推定した文字ピッチに
よりブロックを分割し(ステップS10)、図3(f)
に示すように、文字候補ブロックとして出力する(ステ
ップS11)。
As a result, when the collation is completed for all the blocks and the blocks are integrated (step S
8) The character pitch estimating means 5 estimates an average character pitch (step S9). The estimation of the average character pitch is a value in which the width of the block of the character string is an integral multiple thereof, and is a value closest to the height of the character string. That is, for a certain block, its width is divided by a natural number, and the value closest to the height of the character string in the obtained solution is adopted. Finally, as shown in FIG. 3E, the block is divided according to the estimated character pitch (step S10), and FIG.
As shown in (1), it is output as a character candidate block (step S11).

【0020】以上のことにより、図3(b)に示したよ
うに、「川」の文字が1つブロックとして抽出されてい
なくても、図4に示した登録情報を用いた照合により、
1つのブロックに統合される(図3(d))。そして、
1つの文字が異なるブロックに分割された状態が解消さ
れたところで、推定した文字ピッチから1つ1つの文字
毎に分割するようにしたので、正しい文字候補を出力で
きる。
As described above, as shown in FIG. 3B, even if the character "kawa" has not been extracted as a single block, the collation using the registration information shown in FIG.
It is integrated into one block (FIG. 3D). And
When the state where one character is divided into different blocks is resolved, the character is divided into individual characters from the estimated character pitch, so that correct character candidates can be output.

【0021】[0021]

【発明の効果】以上説明したように、この発明によれ
ば、所定の文字の1部をのぞいた他の部分を構成する各
部分の外接矩形の大きさおよびそれぞれの配置関係から
なる照合条件と、この照合条件を満たした場合の処置内
容とから構成された登録情報を備えるようにした。そし
て、この登録情報との照合によって一致するものがあっ
た場合、その登録情報の処置内容にしたがってブロック
の統合を行うようにした。このため、文字「川」などの
ように、一部が他のブロックに含まれ、他の部分がそれ
ぞれ1つのブロックとして抽出されてしまう場合でも、
ブロック統合により結果として1つの文字として切り出
せるという効果がある。
As described above, according to the present invention, the collation conditions based on the size of the circumscribed rectangle of each part constituting the other part except for one part of the predetermined character and the respective arrangement relations are obtained. , And the registration information composed of the processing contents when the collation condition is satisfied. Then, if there is a match with the registered information, the blocks are integrated according to the treatment of the registered information. For this reason, even when a part is included in another block and the other part is extracted as one block, such as the character “river”,
As a result, there is an effect that the character can be cut out as one character by block integration.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の1実施の形態における文字切り出し
装置の構成を示す構成図である。
FIG. 1 is a configuration diagram illustrating a configuration of a character cutout device according to an embodiment of the present invention.

【図2】 この発明の文字切り出し装置の動作を示すフ
ローチャートである。
FIG. 2 is a flowchart showing the operation of the character segmenting device of the present invention.

【図3】 文字の切り出しを行う文字列画像データの一
例を示す説明図である。
FIG. 3 is an explanatory diagram showing an example of character string image data from which characters are cut out.

【図4】 図1の登録情報格納手段3aに格納されてい
る登録情報の構成を示す説明図である。
FIG. 4 is an explanatory diagram showing a configuration of registration information stored in a registration information storage unit 3a of FIG. 1;

【符号の説明】[Explanation of symbols]

1…文字列画像入力手段、2…ブロック抽出手段、3…
照合手段、3a…登録情報格納手段、4…ブロック統合
手段、5…文字ピッチ推定手段、6…ブロック分割手
段、7…ブロック出力手段。
1 ... Character string image input means, 2 ... Block extraction means, 3 ...
Collation means, 3a registration information storage means, 4 block integration means, 5 character pitch estimation means, 6 block division means, 7 block output means.

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/34──────────────────────────────────────────────────続 き Continued on front page (58) Field surveyed (Int.Cl. 6 , DB name) G06K 9/34

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文字列を画像として取り込み、取り込ん
だ画像より各々1つの文字に対応する画像データを取り
出す文字切り出し方法であって、 所定の文字の1部をのぞいた他の部分を構成する各部分
の外接矩形の大きさおよびそれぞれの配置関係からなる
照合条件と、この照合条件を満たした場合の処置内容と
から構成された登録情報を備え、 画像データとして取り込んだ文字列を、画像の途切れて
いるところで区切るようにブロック分けしてブロックを
抽出し、 前記抽出したブロックの中で、前記登録情報に一致する
ものがあるかどうかを照合し、 前記照合によって一致するものがあった場合、その登録
情報の処置内容にしたがってブロックの統合を行い、 ブロックの横方向の長さを自然数で割った解の中で、文
字列の高さに最も近いものを文字ピッチとし、 統合を行ったブロックを前記文字ピッチ毎に分割するこ
とで文字の切り出しを行うことを特徴とする文字切り出
し方法。
1. A character extracting method for capturing a character string as an image and extracting image data corresponding to one character from each of the captured images, wherein each of the characters constitutes another part except a part of a predetermined character. The character string captured as image data is provided with registration information consisting of matching conditions consisting of the size of the circumscribed rectangle of the part and the positional relationship of each part, and the treatment details when the matching conditions are satisfied. The block is divided so as to be separated where it is extracted, and a block is extracted.In the extracted block, it is checked whether or not there is a match with the registration information. Blocks are integrated according to the treatment of the registration information, and the solution that is closest to the height of the character string is the solution obtained by dividing the horizontal length of the block by a natural number. Character segmentation method for the the character pitch, and performs clipping of a character by dividing the block was integrated for each of the character pitch.
【請求項2】 文字列を画像として取り込み、取り込ん
だ画像より各々1つの文字に対応する画像データを取り
出す文字切り出し装置であって、 画像データとして取り込んだ文字列を、画像の途切れて
いるところで区切るようにブロック分けしてブロックを
抽出するブロック抽出手段と、 所定の文字の1部をのぞいた他の部分を構成する各部分
の外接矩形の大きさおよびそれぞれの配置関係からなる
照合条件と、この照合条件を満たした場合の処置内容と
から構成された登録情報を備えた登録情報格納手段と、 前記ブロック抽出手段が抽出したブロックの中で、前記
登録情報に一致するものがあるかどうかを照合する照合
手段と、 前記照合手段の照合によって一致するものがあった場
合、その登録情報の処置内容にしたがってブロックの統
合を行うブロック統合手段と、 前記ブロック統合手段が統合したブロックの横方向の長
さを自然数で割った解の中で、前記文字列の高さに最も
近いものを文字ピッチとする文字ピッチ推定手段と、 統合を行ったブロックを前記文字ピッチ毎に分割するこ
とで文字の切り出しを行うブロック分け手段とを備えた
ことを特徴とする文字切り出し装置。
2. A character cutout device for taking in a character string as an image and extracting image data corresponding to one character from each of the captured images, wherein the character string captured as image data is separated at a break in the image. Extracting means for extracting blocks by dividing blocks as described above, collating conditions consisting of the size of the circumscribed rectangle of each part constituting other parts except for a part of a predetermined character and their respective arrangement relations, A registration information storage unit having registration information composed of the contents of a treatment when a matching condition is satisfied; and checking whether there is a block that matches the registration information among the blocks extracted by the block extraction unit. If there is a match found by the matching means and the matching by the matching means, the block is integrated in accordance with the action of the registered information. And a character pitch estimating unit that sets a character pitch closest to the height of the character string in a solution obtained by dividing the horizontal length of the block integrated by the block integrating unit by a natural number. And a block dividing means for dividing the integrated block for each character pitch to extract characters.
JP7178450A 1995-07-14 1995-07-14 Character extraction method and character extraction device Expired - Fee Related JP2795222B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7178450A JP2795222B2 (en) 1995-07-14 1995-07-14 Character extraction method and character extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7178450A JP2795222B2 (en) 1995-07-14 1995-07-14 Character extraction method and character extraction device

Publications (2)

Publication Number Publication Date
JPH0934991A JPH0934991A (en) 1997-02-07
JP2795222B2 true JP2795222B2 (en) 1998-09-10

Family

ID=16048737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7178450A Expired - Fee Related JP2795222B2 (en) 1995-07-14 1995-07-14 Character extraction method and character extraction device

Country Status (1)

Country Link
JP (1) JP2795222B2 (en)

Also Published As

Publication number Publication date
JPH0934991A (en) 1997-02-07

Similar Documents

Publication Publication Date Title
JP3343864B2 (en) How to separate words
JPH09179937A (en) Method for automatically discriminating boundary of sentence in document picture
US6947596B2 (en) Character recognition method, program and recording medium
JP2795222B2 (en) Character extraction method and character extraction device
JPH05334490A (en) Table recognizing device
JPH0410087A (en) Base line extracting method
JP3276555B2 (en) Format recognition device and character reader
JP3090070B2 (en) Form identification method and device
JPH10207981A (en) Document recognition method
JP2918666B2 (en) Text image extraction method
JP2630261B2 (en) Character recognition device
JPH05128308A (en) Character recognition device
JP2821303B2 (en) Sharp character combination method
JP4580520B2 (en) Character recognition method and character recognition apparatus
JP3197441B2 (en) Character recognition device
JP2539026B2 (en) Character extraction device
JP3276554B2 (en) Format recognition device and character reader
JP4209511B2 (en) Character recognition method, character recognition device, and computer-readable recording medium recording a program for causing a computer to execute the character recognition method
JP3196603B2 (en) Barcode recognition method and system
JP2778436B2 (en) Character segmentation device
JPH0554189A (en) Picture information processor
JPH05174185A (en) Japanese character recognizing device
JP2925270B2 (en) Character reader
JP4878057B2 (en) Character recognition method, program, and recording medium
JP2002230481A (en) Optical character reader

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080626

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090626

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees