JPH02220185A - Document image recognizing device - Google Patents

Document image recognizing device

Info

Publication number
JPH02220185A
JPH02220185A JP8942800A JP4280089A JPH02220185A JP H02220185 A JPH02220185 A JP H02220185A JP 8942800 A JP8942800 A JP 8942800A JP 4280089 A JP4280089 A JP 4280089A JP H02220185 A JPH02220185 A JP H02220185A
Authority
JP
Japan
Prior art keywords
character
image
data
document image
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8942800A
Other languages
Japanese (ja)
Inventor
Takashi Ishikawa
孝 石川
Akihiro Oka
昭宏 岡
Takao Horikoshi
堀越 卓男
Yuji Kozasa
小篠 裕司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pentel Co Ltd
Original Assignee
Pentel Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pentel Co Ltd filed Critical Pentel Co Ltd
Priority to JP8942800A priority Critical patent/JPH02220185A/en
Publication of JPH02220185A publication Critical patent/JPH02220185A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To attain a document syntactic analysis with the use of position information on a host device side, and to improve recognizing ratio by means of the addition of a meaning processing, etc., by outputting the coordinate data of a converted character or a character string. CONSTITUTION:A picture processing part 4 extracts a character string area from inputted character image data, a character string area 8 is expressed by coordinates (X1, Y1) and (X2, Y2) of two points A and B at mutually opposite angles of a rectangle, and the extracted character string area 8 is identified as the sets of coordinate values. The image processing part 4 extracts a character image 6 from each character image area by means of a projecting method, etc., and each extracted character image 7 is impressed to a character recognizing part 5, and converted into a character code. Further the image processing part 4 stores the character code to be the recognition result of the character recognizing part 5 corresponding to the coordinate data of the character image 7, and based on the recognition result, text data are generated. Thus the recognition ratio can be improved.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文書画像をテキストデータに変換する文書画像
認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a document image recognition device that converts a document image into text data.

[従来の技術] 文書画像データをテキストデータに変換する文書画像認
識装置は、定型の伝票や原稿用紙から読み取るものが実
用化されており、近年では文字の大きさや配置にある程
度の変化があっても読み取れるものが開発されている。
[Prior Art] Document image recognition devices that convert document image data into text data have been put into practical use by reading standard slips and manuscript paper, and in recent years there have been some changes in the size and arrangement of characters. A device that can also be read has been developed.

[発明が解決しようとする課題] 上述した従来の文書画像認識装置では、認識結果をテキ
ストデータとして出力することを主な機能としているた
めに、文字の配置に関する情報を使っての認識処理には
不便であった。また1文字認識の結果でリジェクトされ
た文字についても、その候補のみを出力するものだけで
あり、文字の原画像は原稿を見て確認する必要があるた
めに操作性に問題があった。
[Problems to be Solved by the Invention] In the conventional document image recognition device described above, the main function is to output recognition results as text data, so recognition processing using information regarding character arrangement is difficult. It was inconvenient. Furthermore, for characters rejected as a result of single character recognition, only the candidates are output, and the original image of the character needs to be confirmed by looking at the document, which poses a problem in operability.

[課題を解決するための手段] 本発明は如上の問題点を解決するためになされたもので
あって、画素データからなる文書画像を、文字コードデ
ータからなるテキストに変換する文書画像認識装置にお
いて、変換する文字または文字列の座標データを出力す
る、或いは文字画像データを出力する文書画像L&識装
置を提案するものである。
[Means for Solving the Problems] The present invention has been made to solve the above problems, and is directed to a document image recognition device that converts a document image consisting of pixel data into a text consisting of character code data. The present invention proposes a document image L&I device that outputs coordinate data of characters or character strings to be converted, or character image data.

[作 用] 本発明の文書画像認識装置は、入力データである文書画
像から文字列領域および文字画像を抽出する画像処理部
からの信号と、文字画像を文字コードに変換する文字認
識部の信号とで文字列や文字の座標データ、文字画像デ
ータを出力するものである。
[Function] The document image recognition device of the present invention receives a signal from an image processing unit that extracts a character string region and a character image from a document image that is input data, and a signal from a character recognition unit that converts the character image into a character code. This outputs character strings, character coordinate data, and character image data.

[実施例] 本発明の実施例を添付図面を参照して説明する。[Example] Embodiments of the present invention will be described with reference to the accompanying drawings.

第1図は本発明の文書画像認識装置を示す全体の概略ブ
ロック図、第2図は文字の説明図である。
FIG. 1 is a schematic block diagram of the entire document image recognition apparatus of the present invention, and FIG. 2 is an explanatory diagram of characters.

参照符号1は文書画像認識装置であり、内部には画像処
理部4と文字認識部5が含まれており、スキャナ3は文
書画像認識装置I!1の入力データである文書画像デー
タを出力する装置であり、また、ホスト計算機6は文書
画像認識装置1が出力するテキストデータ、文字列の座
標データ、文字の座標データおよび文字画像データを処
理するための装置である。スキャナ3で文書2の文書画
像を撮像して、文書画像認識装置1の画像処理部4に印
加する。この画像処理部4は、入力された文字画像デー
タから輪郭追跡法や投影法等の手法°によって文字列領
域を抽出する0文字列領域とは第2図に示すように文字
画像7が一定の距離を以って並んでいる矩形領域8であ
る。またこの文字列領域8は矩形の対角する2点A、B
の座4m (Xi、 YL)(Xis Y3)によって
表現される。抽出された文字列領域8は、この座標値の
組として識別される。
Reference numeral 1 is a document image recognition device, which includes an image processing section 4 and a character recognition section 5, and a scanner 3 is a document image recognition device I! 1, and the host computer 6 processes the text data, character string coordinate data, character coordinate data, and character image data output by the document image recognition device 1. It is a device for A document image of document 2 is captured by scanner 3 and applied to image processing section 4 of document image recognition device 1 . This image processing unit 4 extracts a character string region from the input character image data by a method such as a contour tracing method or a projection method. These are rectangular areas 8 lined up at a distance. Also, this character string area 8 consists of two diagonal points A and B of a rectangle.
It is represented by the locus 4m (Xi, YL) (Xis Y3). The extracted character string area 8 is identified as this set of coordinate values.

画像処理部4は各文字列領域について投影法等の手法に
よって文字画像7を抽出する0文字画像7は1文字分の
画像を囲繞する矩形領域の画像である0文字画像7につ
いても文字列領域8と同様に、対角する2点の座標によ
って座標データが求められ、各文字画像7はこの座標値
の組合せによって識別される。更に、抽出された各々の
文字画像7は文字認識部5に印加されて文字コードに変
換される0文字認識部5は公知の文字認識手法により寒
現される1画像処理部4は文字認識部5の認識結果であ
る文字コードを文字画像7の座標データに対応させて記
憶する。
The image processing unit 4 extracts a character image 7 from each character string area using a method such as a projection method.The 0 character image 7 is an image of a rectangular area surrounding an image of one character. 8, coordinate data is obtained from the coordinates of two diagonal points, and each character image 7 is identified by the combination of these coordinate values. Further, each extracted character image 7 is applied to a character recognition section 5 and converted into a character code.0 The character recognition section 5 is cold-represented by a known character recognition method.1 Image processing section 4 is a character recognition section. The character code that is the recognition result of No. 5 is stored in correspondence with the coordinate data of character image 7.

画像処理部4は以上の認識結果から1次の規則によって
テキストデータを生成する。
The image processing unit 4 generates text data based on the above recognition results according to a first-order rule.

(1)文字列領域8内での文字画像の並び順によって文
字コードを並べて文字列データをする。
(1) Character codes are arranged according to the order of character images in the character string area 8 to generate character string data.

(2)文字列領域に対しx (y)座標の重なりを持つ
文字列領域を同じ行に属する文字列として。
(2) Character string regions that have overlapping x (y) coordinates with character string regions are treated as character strings belonging to the same line.

文字列データをスペース等で結合して行を表す文字列デ
ータとする。
Combine string data with spaces etc. to create string data representing a line.

(3)行の終わりに改行コードを付加する。(3) Add a line feed code to the end of the line.

テキストデータは位置情報無しで出力する場合は、上述
の手順で生成したテキストデータをそのまま出力すれば
良い。
If text data is to be output without position information, the text data generated in the above procedure may be output as is.

次に、位置情報を付加してテキストデータを出力する場
合は1次式の例のように出力データを構成して出力する
Next, when outputting text data with position information added, the output data is configured and output as in the example of the linear equation.

文字列1・・・・・・xi、yt、 xi、 yi文字
列n・・・・・J、B* Xp、Yp文字についての位
置情報についても上式の文字列を文字コードに置き換え
れば同様にして表現することができる。また、文字画像
を出力する場合は上式に画像データをコード化して付加
すれば良い。
String 1...xi, yt, xi, yi String n...J, B* The position information for Xp, Yp characters is the same if you replace the string in the above formula with the character code. It can be expressed as Furthermore, when outputting a character image, the image data may be encoded and added according to the above formula.

[発明の効果] 本発明は如上のような構成となしたので、テキストデー
タだけでなく、文字列や文字の位置情報を同時に出力す
ることができるので、ホスト機側で位置情報を使っての
文書構造解析が可能となり。
[Effects of the Invention] Since the present invention has the above configuration, it is possible to output not only text data but also character strings and character position information at the same time. Document structure analysis is now possible.

意味処理等の追加による認識率の向上を図ることができ
る。更に、文字画像も合わせて出力できるので、文字の
修正等をホスト機側で行なう場合に極めて有効なもので
ある。
The recognition rate can be improved by adding semantic processing, etc. Furthermore, since character images can also be output, it is extremely effective when correcting characters, etc. on the host machine side.

【図面の簡単な説明】[Brief explanation of the drawing]

図面は本発明の一実施例を示すものであり、第1図は概
略ブロック図、第2図は文字の説明図である。 1・・
・文書画像認識装置、 2・・・文書、3・・・スキャ
ナ、  4・・・画像処理部、5・・・文字認識部、 
7・・・文字画像。 8・・・文字列領域
The drawings show one embodiment of the present invention, and FIG. 1 is a schematic block diagram, and FIG. 2 is an explanatory diagram of characters. 1...
・Document image recognition device, 2... document, 3... scanner, 4... image processing section, 5... character recognition section,
7... Character image. 8...Character string area

Claims (1)

【特許請求の範囲】 1)画素データからなる文書画像を、文字コードデータ
からなるテキストに変換する文書画像認識装置において
、変換する文字または文字列の座標データを出力するこ
とを特徴とする文書画像認識装置。 2)画素データからなる文書画像を、文字コードデータ
からなるテキストに変換する文書画像認識装置において
、変換する文字画像データを出力することを特徴とする
文書画像認識装置。
[Claims] 1) A document image recognition device that converts a document image consisting of pixel data into a text consisting of character code data, which outputs coordinate data of a character or character string to be converted. recognition device. 2) A document image recognition device that converts a document image made of pixel data into text made of character code data, and outputs the converted character image data.
JP8942800A 1989-02-22 1989-02-22 Document image recognizing device Pending JPH02220185A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8942800A JPH02220185A (en) 1989-02-22 1989-02-22 Document image recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8942800A JPH02220185A (en) 1989-02-22 1989-02-22 Document image recognizing device

Publications (1)

Publication Number Publication Date
JPH02220185A true JPH02220185A (en) 1990-09-03

Family

ID=12646042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8942800A Pending JPH02220185A (en) 1989-02-22 1989-02-22 Document image recognizing device

Country Status (1)

Country Link
JP (1) JPH02220185A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103755A (en) * 2010-11-05 2012-05-31 Ntt Docomo Inc Character string output device, character recognition system, program, and character string output method
CN111225120A (en) * 2018-11-26 2020-06-02 佳能株式会社 Image processing apparatus, control method thereof, and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103755A (en) * 2010-11-05 2012-05-31 Ntt Docomo Inc Character string output device, character recognition system, program, and character string output method
CN111225120A (en) * 2018-11-26 2020-06-02 佳能株式会社 Image processing apparatus, control method thereof, and storage medium
US11295156B2 (en) 2018-11-26 2022-04-05 Canon Kabushiki Kaisha Image processing apparatus, method of controlling the same, and storage medium
CN111225120B (en) * 2018-11-26 2022-12-06 佳能株式会社 Image processing apparatus, control method thereof, and storage medium

Similar Documents

Publication Publication Date Title
JP4557765B2 (en) Image processing apparatus and method
US20060114484A1 (en) Image processing apparatus and method therefor
JPH02220185A (en) Document image recognizing device
JP3234736B2 (en) I / O integrated information operation device
JPS606992A (en) Display unit
JP2001202471A (en) Data entry system
JP2007052471A (en) Two-dimensional pattern reader and two-dimensional pattern reading method
JPS594358Y2 (en) Character control device in character correction
JP2022144740A (en) OCR target area position acquisition system, OCR target area position acquisition program, actual document, actual document generation system, and actual document generation program
JPH0266681A (en) Drawing processor
JPS59194269A (en) On-line character recognition system
JPS62123581A (en) Document picture input device
EP0381794A1 (en) Method for registering image data
JPS6220473A (en) Character output control system
JPH02177763A (en) Image scanner
JPH0433079A (en) Table processing system
JPH03246610A (en) Tracing device
JPS6080363A (en) Positioning method of manuscript information input form
JPS58137085A (en) Character processor
JPS62160590A (en) Format generating system for character reader
JP2006261772A (en) Image forming apparatus and image forming method
JPH02189625A (en) Inclined character forming system
JPH03217994A (en) Document processor
JPS5998287A (en) Recognizing device of dot character
JPS62206680A (en) Graphic input device