JPH01149184A - Character area extracting system - Google Patents
Character area extracting systemInfo
- Publication number
- JPH01149184A JPH01149184A JP62307616A JP30761687A JPH01149184A JP H01149184 A JPH01149184 A JP H01149184A JP 62307616 A JP62307616 A JP 62307616A JP 30761687 A JP30761687 A JP 30761687A JP H01149184 A JPH01149184 A JP H01149184A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character area
- line
- information
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000005484 gravity Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000005731 Bambusa membranacea Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
本発明は、主に線分で構成される図形と文字が用紙上に
混在して書き込まれた図面において。DETAILED DESCRIPTION OF THE INVENTION [Objective of the Invention] (Industrial Application Field) The present invention relates to drawings in which figures and characters mainly composed of line segments are mixedly written on a sheet of paper.
図面の中の文字を認識するための文字領域抽出方式に関
する。This invention relates to a character area extraction method for recognizing characters in drawings.
(従来の技術)
図面の中には図形と文字が混在して書かれているものが
多くある。そのような図面の自動認識技術において図形
領域と文字領域を分離する技術(1不可欠なものである
。切シ出された文字領域は文字認識部に送られ1図形と
は別に処理される。(Prior Art) Many drawings include figures and characters mixed together. In such automatic drawing recognition technology, a technology for separating graphic areas and character areas (1) is indispensable.The cut out character areas are sent to a character recognition unit and processed separately from one graphic.
淀来では5文字領域の切出し方法として、文字のrイズ
が一般に図形に比べて小さいととに着目し、図面におけ
る連結成分ごとにラベリングを行い成分ごとの二次元的
広がシの大きさにより文字領域と図形領域との判別を行
りていた。しかし、この方法で、抹15文字が一歩吟接
しτ、諭た換金・辷及q文字ど之し力5接員てセ木操合
には胆しく91客字領域を切シ出すことができなかった
。At Yodorai, as a method for cutting out 5-character areas, we focused on the fact that the r size of characters is generally smaller than that of figures, and we labeled each connected component in the drawing and determined the size of the two-dimensional spread of each component. Discrimination was made between character areas and graphic areas. However, with this method, the 15 letters are taken one step closer to τ, and the 5 characters are combined into 5 characters, and the 91 character area is boldly cut out. There wasn't.
(発明が解決しようとする問題点)
この様に従来方式によれば、文字が図形や文字どうしで
接触していた場合には正しく文字領域を切り出せないと
いう欠点があった。(Problems to be Solved by the Invention) As described above, the conventional method has a drawback in that a character area cannot be correctly cut out when characters are in contact with each other due to figures or characters.
本発明では、以上述べてきたような文字が他の文字及び
図形と接している場合にも正しく文字領域を判別する文
字領域判定方式の一つを提供することを目的とする。It is an object of the present invention to provide one of the character area determination methods that can correctly determine the character area even when the characters described above are in contact with other characters or figures.
(問題点を解決するための手段)
本発明は、文字列を含んだ図面情報を格納するための画
像メモリと、この画像メモリの図面情報に対して線情報
を求める手段と、求められた線情報を直線近似する手段
と、直線近似された線分に対し抽出すべき文字サイズよ
り定まる一定しきい値以下の長さの密集領域を求める手
段と、求められた密集領域を結合する手段と、結合され
た領域の特徴より文字領域であるか否かを判定する手段
とを具備したことを特徴とするものである。(Means for Solving the Problems) The present invention provides an image memory for storing drawing information including character strings, a means for obtaining line information from the drawing information in the image memory, and a means for obtaining line information from the drawing information in the image memory. means for linearly approximating information; means for determining a dense region having a length equal to or less than a certain threshold determined by the character size to be extracted for the linearly approximated line segment; and means for combining the determined dense regions; The present invention is characterized by comprising means for determining whether or not the combined area is a character area based on the characteristics of the combined area.
(作 用)
本発明の文字領域抽出方式は1図形及び文字が混在する
図面を入力し、図面を走査量子化する手段によって量子
化して2値付号をイメージとして記憶し、そのイメージ
データの線情報(境界線あるいは細線化図形)を直線近
似した後その情報?ご基づいて予め定められた抽出すべ
き文字のサイズより決定されるしきい値以下の短かい線
分が局所的に密集している領域を求め、それらの領域を
近傍関係に基づいて統合し、前記統合された領域piの
複雑度を定義することによ〕複雑な領域を文字領域とす
ることを特徴とする。(Function) The character area extraction method of the present invention inputs a drawing in which a single figure and characters are mixed, quantizes the drawing by means of scanning and quantizing it, stores the binary code as an image, and stores the image data as a line. After linearly approximating the information (boundary line or thinned figure)? Find regions where short line segments smaller than a threshold value determined in advance based on the size of characters to be extracted are locally concentrated, and integrate these regions based on neighborhood relationships. [By defining the degree of complexity of the integrated area pi], a complex area is set as a character area.
(実施例)
第1図は、本発明の一実施例を説明するための図である
。装置全体の制御は、処理プロセッサ山が行なう、入力
したい図面はAIスキャナ(2)を用いて2値画像とし
て入力されスΦヤナインタフェース(3)を介して、画
像メモリコントローラ(4ンの制傳により画像メモリ(
5)に格納でれる。画像メモリの番地制御はアドレスコ
ントローラ(6)が行なう。(Example) FIG. 1 is a diagram for explaining an example of the present invention. The control of the entire device is carried out by the processor. The drawing to be input is input as a binary image using the AI scanner (2), and is sent to the image memory controller (4) via the scanner interface (3). Image memory (
5). Address control of the image memory is performed by an address controller (6).
図面入力指示は、ユーザがシート上のメ、ニーをタブレ
ット(8)を用いて選択することによりナサレる。画像
メモリに格納された画像は、処理プ。(!ツサにより後
述のように処13Uされ文字領域が抽出される。抽出結
果は、 CRT(7)に表示され、確認が行なわれる。Drawing input instructions are given by the user selecting menus and knees on the sheet using the tablet (8). Images stored in image memory are processed. (!The character area is extracted by processing 13U as described later. The extraction result is displayed on the CRT (7) for confirmation.
タブレット及びCRTの制御は処理プロセッサの起動に
よりタブレットインタフェース(9)、入水コントロー
ラ0〔がそれぞれ行なう。The tablet and CRT are controlled by the tablet interface (9) and water entry controller 0, respectively, upon activation of the processor.
第2図は第1図における処理プロセッサ(1)が行なう
処理を説明するための図である。FIG. 2 is a diagram for explaining the processing performed by the processor (1) in FIG.
先ずAIスキヤナ2は第3図に示す図形と文字が混在し
た図面を走査し、光電効果を行い、黒い領域をto1#
、白い背景を0#とする2値イメージに量子化する。こ
の2値図面情報に対する本発明の処理を、第2図の各ス
テップ毎に述べる。First, the AI scanner 2 scans the drawing shown in Fig. 3, which contains a mixture of figures and characters, performs a photoelectric effect, and converts the black area into to1#.
, is quantized into a binary image with a white background as 0#. The processing of the present invention for this binary drawing information will be described for each step in FIG.
■境界線追跡では、2値イメージを用いて、公知である
4連絡又は8連絡のルールに基づいて白い竹原と接して
いる黒い領域の境界線を追跡する。(2) In boundary line tracing, a binary image is used to trace the boundary line of a black area that is in contact with a white bamboo field based on the well-known 4-contact or 8-contact rule.
第4図は追跡された境界線の軌跡である。FIG. 4 shows the traced trajectory of the boundary line.
■境界線直線近似では(C,Williams、Bou
ndedstraight−1ine approx
imation of digitiledplana
r curues and 1ines、Compu
、Grahics Jmageprocess 16,
1981.370−381等)既知の方法を使って境界
線を直線近似を行う。近似を行った結果が第5図であシ
黒い点が近似を行った線分のノードを表わしている。線
分情報は、−本の境界線ごとに連続した線分を第6図に
示す表に登録しておく。登録情報としては線分の始点と
終点の座標及び長さである。また予め定められた文字サ
イズより算出される文字の一部の線分が越えない長さを
しきい値として定め、そのしきい値より長りものにはフ
ラグを0に、短かいものにはフラグを1に設定する。■In boundary line approximation (C, Williams, Bou
ndedstraight-1ine approx
imation of digitized plana
r cures and 1ines,Compu
, Graphics Jmageprocess 16,
1981.370-381, etc.) The boundary line is approximated by a straight line using a known method. The result of the approximation is shown in FIG. 5, where the black dots represent the nodes of the line segment where the approximation was performed. As for the line segment information, consecutive line segments are registered in the table shown in FIG. 6 for each boundary line of a book. The registered information includes the coordinates and length of the starting point and ending point of the line segment. In addition, the length that some line segments of characters do not exceed, which is calculated from a predetermined character size, is set as a threshold value, and if the length is longer than the threshold value, the flag is set to 0, and if it is shorter, the flag is set to 0. Set flag to 1.
■線分集合抽出では、8g6図の線分情報においてフラ
グ75j 1に設定されているものに注目し、lのフラ
グをもつ連続した線分を第7図に示す表に登録する。容
認される情報は線分が含まれている境界番号とその線分
番号の開始番号と終了番号でしる。また、それらの線分
を含む外接長方形を求める。この実施例では長方形の各
辺がX、y軸に対して水平又は垂直であるという制限を
つケルコとにする。文字が横書き及び縦書きに制限され
。(2) Line segment set extraction focuses on the line segment information in Figure 8g6 that is set to flag 75j 1, and registers continuous line segments with flag 1 in the table shown in Figure 7. Acceptable information is the boundary number that the line segment is included in, and the start and end numbers of the line segment number. Also, find a circumscribed rectangle that includes those line segments. In this embodiment, each side of the rectangle is restricted to be horizontal or perpendicular to the X and y axes. Text is limited to horizontal and vertical writing.
いる彦らばこれで十分である。求められた長方形の左上
点、右下点及び重心を登録する。これを線分セットと呼
ぶことにする。This is enough for Iruhiko. Register the upper left point, lower right point, and center of gravity of the obtained rectangle. This will be called a line segment set.
■線分集合統合では、前述の線分セットを統合する。統
合の条件としては、線分セットの長方形の重心が近傍に
あるものをまとめる。その時統合された線分を含む外接
長方形の各辺が文字のサイズより大きくかつ短かい方の
辺が文字のサイズ程度であることが条件である。■In line segment set integration, the line segment sets described above are integrated. As a condition for integration, line segment sets whose rectangular centers of gravity are in the vicinity are grouped together. The conditions are that each side of the circumscribed rectangle containing the integrated line segments is larger than the size of the character, and the shorter side is approximately the size of the character.
0纒特徴抽出では1以上の条件で統何された線分セット
を第8図に示す表に登録する。登録する情報は統合され
た線分セット番号、それらの線分をすべて含む外接長方
形の左上点、右下点の座標及び長方形の面績周囲長と含
まれる線分の長さの総和である。フラグは後に文字領域
の判定の正誤の情報がTl#、*0”で書き込まれる。In zero line feature extraction, line segment sets unified under one or more conditions are registered in the table shown in FIG. The information to be registered is the integrated line segment set number, the coordinates of the upper left point and lower right point of the circumscribed rectangle that includes all of these line segments, the total circumference of the rectangle, and the length of the included line segments. Information on whether the determination of the character area is correct or incorrect is later written in the flag as Tl#, *0''.
■文字領域判定では、第8図の表の情報を用いて文字領
域かどうかの判定を行う判定条件とじては、長方形の面
積及び周囲長と線分の長さの総和たすものを文字領域と
断定し第8図のフラグに1を書きこんでおく、その他は
0を書き込む。■In character area determination, the judgment condition for determining whether or not it is a character area using the information in the table in Figure 8 is that the character area is the sum of the area and perimeter of a rectangle and the length of the line segment. 8, and write 1 in the flag shown in FIG. 8. Otherwise, write 0.
(但しSは長方形の面積、Lは長方形の周囲長LSは線
分の長ざの総和)
■文字の切出しでは文字領域の情報をもらい2イλイメ
一ジ記憶部から文字領域の切出しを行う。(However, S is the area of the rectangle, L is the perimeter of the rectangle, and LS is the sum of the lengths of line segments.) ■For character cutting, information on the character area is obtained and the character area is extracted from the 2-step λ image storage unit. .
第1図のメモリαυに切り出てれた文字画像は、従来技
術として公知である文字認識技術を用いて文字認識され
る。The character image cut out into the memory αυ of FIG. 1 is recognized as a character using a character recognition technique which is known as a conventional technique.
次に、短かい線分の密集部の総合処理について具体的な
例によって詳しく説明する。Next, comprehensive processing of dense portions of short line segments will be explained in detail using a specific example.
第9図の図面を前述の手順にょシ境界線を直線近似し、
連続した短かい線分の集合を求めその線分セットの外接
長方形を求めたのが第10図である。12#という文字
は2つの線分セットがらなっている。一方の線分セット
の外接長方形aがもう−1の線分セットの外接長方形す
を含んだ形にな″c′Aる013”の文字については上
下に切断されているため2つの離れ線分セットからなっ
ている・4″・“5″の文字については接しているタメ
ニーつの線分セットで@4#と5#の文字を含んでいる
・求められた線分セットは外接長方形の重心が近傍にあ
るものどうし統合式れる。この例にオイテハ外接長方形
12aと13bの距離Aが短かいので統合される。その
時新しく2つの線分セットを含む外接長方形19Aは第
11図に示すように大きさがかわらないので統合は成功
する。The drawing in Figure 9 is approximated as a straight line by the boundary line as described above,
FIG. 10 shows a set of short continuous line segments and a circumscribed rectangle of the set of line segments. The character 12# consists of two sets of line segments. The character "c'Aru013", which has a shape in which the circumscribed rectangle a of one line segment set includes the circumscribed rectangle a of the other -1 line segment set, has two separate line segments because it is cut vertically.・For the characters 4" and "5", there are two tangent line segment sets that include the characters @4# and 5#. The obtained line segment set has the center of gravity of the circumscribed rectangle. In this example, since the distance A between the Oiteha circumscribed rectangles 12a and 13b is short, the circumscribed rectangles 12a and 13b are integrated.At this time, the new circumscribed rectangle 19A containing the two line segment sets has a large size as shown in FIG. The integration will be successful because no changes will be made.
次に外接長方形14cと15dの距1111i18Bが
短かいので統合される。その時新しく2つの線分セット
を含む外接長方形20Bはfff12図に示すように大
きさがかわるものの前述の新しい外接長方形の太き場は
条件を満たしているので成功する。第10図における外
接長方形16eは、統合するおいての線分セットがない
が、領域得補としてそれ自体条件を満たすのでggs図
に示すような表に登録される。セット個数は必然的に1
となる。Next, since the distance 1111i18B between the circumscribed rectangles 14c and 15d is short, they are integrated. At this time, although the size of the new circumscribed rectangle 20B including the two line segment sets changes as shown in FIG. fff12, the thickness of the new circumscribed rectangle mentioned above satisfies the conditions, so the process is successful. Although the circumscribed rectangle 16e in FIG. 10 does not have a line segment set for integration, it satisfies the conditions as a region complement and is therefore registered in a table as shown in the ggs diagram. The number of sets is necessarily 1
becomes.
3つの文字領域候補は、文字領域判定において前述の方
法で判定でれ゛文字領域である”と判定された場合は第
8図の表のフラグに1が魯き込まれ、外接長方形が文字
領域となる。If the three character area candidates cannot be determined by the above-mentioned method in character area determination and are determined to be character areas, 1 is written to the flag in the table in Figure 8, and the circumscribed rectangle is determined to be a character area. becomes.
上記、実施例では1文字が横書きが縦ゼtきであること
を想定して外接長方形をその辺がX、y軸に対して水平
又は垂直であるという制限をつけたが1文字の方向が任
意である場合には、面積最小の長方形1円、あるいは多
角形を求めることにより、変形して適用することが可能
である。In the example above, assuming that one character is written horizontally and vertically, the circumscribing rectangle is restricted so that its sides are horizontal or perpendicular to the X and y axes, but the direction of one character is If it is arbitrary, it can be modified and applied by finding a rectangle with the minimum area or a polygon.
以上説明したようVC、本発明によれば、文字が図形よ
り局所的に複雑なストロークをもつ性質を利用している
ため、文字が図形及び他の文字々接していても抽出する
ことが可能であり、文字認識にも残りの図形認識にも有
効である。As explained above, according to the present invention, characters utilize the property that characters have locally more complex strokes than shapes, so even if characters are in contact with shapes or other characters, it is possible to extract them. It is effective for both character recognition and remaining figure recognition.
第1図は本発明の一実施例の構成図。
第2図は本発明の一実施例の処理フローチャート図。
第3図は図形と文字が混在する図面の原画像の図、
第4図は図形と文字が混在する図面の境界線の口、
第5図は図形と文字が混在する図面の境界線の「■線近
似の図。
第6図は直線近似を行った線分(1¥報の表の図、第7
図は短かい連続した線分を示す表の図。
第8図は統合した線分セットの表の図。
第9図は具体例の原画像の図、
第10図は具体例の処理を説明する図、第11111.
第12図は文字と外接長方形の関係を示す図である。
l・・・処理プロセッサ、2・・・AIスキャナ。
3・・・スキャナインタフェース、4・・・画像メモリ
コントローラ、5・・・画像メモリ、6・・・アドレス
コントローラ、7・・・CRT、8・・・タブレット、
9・・・タフ’レットインタフェース、10・・・R示
=r 7トローラ、11・・・メモリ。
代理人 弁理士 則 近 ■ 佑
同 松山光之
画イ東バス
第1図
第2図
s3図
第6図
第7図
第 B 図
第 it IIK i 12 間第
9 図
、第1O図FIG. 1 is a configuration diagram of an embodiment of the present invention. FIG. 2 is a processing flowchart of an embodiment of the present invention. Figure 3 is a diagram of the original image of a drawing with a mixture of figures and text, Figure 4 is the opening of the boundary line of a drawing with a mixture of figures and text, and Figure 5 is a diagram of the boundary line of a drawing with a mixture of figures and text. ■Illustration of line approximation.
The figure is a diagram of a table showing short continuous line segments. FIG. 8 is a diagram of a table of integrated line segment sets. FIG. 9 is a diagram of the original image of the specific example, FIG. 10 is a diagram explaining the processing of the specific example, and No. 11111.
FIG. 12 is a diagram showing the relationship between characters and circumscribed rectangles. l...processor, 2...AI scanner. 3... Scanner interface, 4... Image memory controller, 5... Image memory, 6... Address controller, 7... CRT, 8... Tablet,
9...Tough'let interface, 10...R indication=r7 troller, 11...Memory. Agent Patent Attorney Nori Chika ■ Yudo Mitsuyuki Matsuyama I Higashi Bus Figure 1 Figure 2 S3 Figure 6 Figure 7 Figure B It IIK i 12 Figure 9, Figure 1O
Claims (3)
モリと、この画像メモリの図面情報に対して線情報を求
める手段と、求められた線情報を直線近似する手段と、
直線近似された線分に対し抽出すべき文字サイズより定
まる一定しきい値以下の長さの密集領域を求める手段と
、求められた密集領域を結合する手段と、結合された領
域の特徴より文字領域であるか否かを判定する手段とを
具備したことを特徴とする文字領域抽出方式。(1) an image memory for storing drawing information including character strings, means for obtaining line information from the drawing information in the image memory, and means for linearly approximating the obtained line information;
Means for finding a dense region with a length less than a certain threshold determined by the character size to be extracted for a line segment approximated by a straight line, means for combining the found dense regions, and character extraction from the characteristics of the combined region. A character area extraction method characterized by comprising means for determining whether or not the character area is a region.
に境界線を追跡するものである特許請求の範囲第1項記
載の文字領域抽出方式。(2) The character area extraction method according to claim 1, wherein the means for obtaining line information traces boundary lines after binarizing drawing information.
して細線化処理を行ない、この細線化画像を線追跡する
ものである特許請求の範囲第2項記載の文字領域抽出方
式。(3) The character area extraction method according to claim 2, wherein the means for obtaining line information performs line thinning processing on the binarized drawing information and lines-traces the thinned image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62307616A JPH01149184A (en) | 1987-12-07 | 1987-12-07 | Character area extracting system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62307616A JPH01149184A (en) | 1987-12-07 | 1987-12-07 | Character area extracting system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01149184A true JPH01149184A (en) | 1989-06-12 |
Family
ID=17971175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62307616A Pending JPH01149184A (en) | 1987-12-07 | 1987-12-07 | Character area extracting system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01149184A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072639A (en) * | 2004-09-01 | 2006-03-16 | Ricoh Co Ltd | Device, method, and program for dividing handwritten information, and recording medium |
-
1987
- 1987-12-07 JP JP62307616A patent/JPH01149184A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006072639A (en) * | 2004-09-01 | 2006-03-16 | Ricoh Co Ltd | Device, method, and program for dividing handwritten information, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6640010B2 (en) | Word-to-word selection on images | |
US5751851A (en) | Method of splitting handwritten input | |
US5903666A (en) | Methods of splitting and joining handwritten input | |
JP2713622B2 (en) | Tabular document reader | |
JP2000207489A (en) | Character extracting method and device and record medium | |
JP2002015280A (en) | Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program | |
JP2890306B2 (en) | Table space separation apparatus and table space separation method | |
JPH01149184A (en) | Character area extracting system | |
JP3171626B2 (en) | Character recognition processing area / processing condition specification method | |
JP3487494B2 (en) | Menu selection method and device | |
JP3276555B2 (en) | Format recognition device and character reader | |
JPH06187489A (en) | Character recognizing device | |
JPH0586585B2 (en) | ||
JPS61175880A (en) | Broken line extracting device | |
JPH0797390B2 (en) | Character recognition device | |
JP2978801B2 (en) | Character input method for handwritten character recognition | |
JPH11242716A (en) | Image processing method and storage medium | |
JPH07168911A (en) | Document recognition device | |
JP2972443B2 (en) | Character recognition device | |
JPH04311283A (en) | Line direction discriminating device | |
JPH0658689B2 (en) | Line figure separation device | |
JP4571447B2 (en) | Character image extraction program, character image extraction method, and character image extraction apparatus | |
JPH03217993A (en) | Character size recognizer | |
JPH0524555B2 (en) | ||
JPH11126254A (en) | Image processor and program storage medium |