JPH02202689A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH02202689A
JPH02202689A JP1020917A JP2091789A JPH02202689A JP H02202689 A JPH02202689 A JP H02202689A JP 1020917 A JP1020917 A JP 1020917A JP 2091789 A JP2091789 A JP 2091789A JP H02202689 A JPH02202689 A JP H02202689A
Authority
JP
Japan
Prior art keywords
character
dictionary
deformed
deformation
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1020917A
Other languages
English (en)
Inventor
Jun Sato
純 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1020917A priority Critical patent/JPH02202689A/ja
Publication of JPH02202689A publication Critical patent/JPH02202689A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 印刷された活字等の文字変形が予測定量化できる文書を
読み取る文字認識装置に関し、辞書の曖昧性が少なく、
高速な認識が可能で、字種の追加/削除、変形パターン
の追加/削除が容易であるようにすることを目的とし、
基本字形を記憶する基本字形辞書と、該基本字形に所定
の変形を加える字形変形手段と、前記変形を加えられた
字形と、認識対象の文字データとを照合して、一致する
字形の文字を検出する照合手段とを有してなるように構
成する。
〔産業上の利用分野〕
本発明は、印刷された活字等の文字変形が予測定量化で
きる文書を読み取る文字認識装置に関する。
一般に、文字認識を行なう場合、読み取り対象文字は基
本字形に対して何らかの文字変形を伴っているため、こ
の文字変形に対処することが必要となる。
ここでいう文字変形とは、例えば、手書き文字の癖、筆
記具のかすれ1つぶれ、印刷字体の書体の違い、印刷/
複写時に生ずるかすれ/っぷれ、あるいは、光学式読み
取り装置(スキャナ)の特性による変形等が考えられる
〔従来の技術、および発明が解決しようとする課題〕
前述のような変形に対処するために、従来は、■文字変
形と独立した文字の特徴を選択して抽出し、この特徴に
よって文字を認識する。
■文字変形の許容範囲を予め設定しておき、この範囲内
のゆらぎは無視して識別する。
等の方法を採用していた。
しかしながら、上記■の方法においては、認識対象文字
に対して文字毎に逐一、特徴抽出を行なう必要があるた
め、文字認識速度を向上させることが困難である。また
、各文字が持つ特徴を予め記憶させておく必要があるた
め、対応可能な文字変形の種類に制限があり、さらに、
文字変形に対応させるためには、抽出する特徴を変更さ
せることが必要となるため、読み取り対象に合わせて柔
軟に対応をとることが困難であるという問題があった。
また、上記■の方法においては、予め、各文字について
大量の変形例を用意して文字変形と独立した部分を字形
辞書に登録し、変形により揺らぐ部分は変形の許容範囲
として辞書上に登録する。
したがって、辞書を作成するために多大な労力を要する
。また、多くの種類の文字変形に対応するためには、変
形による揺らぎを許容する領域を広くとる必要があるが
、この場合、識別に有効な領域が小さくなり、誤読が多
くなる傾向があるという問題があった。
本発明は上記の問題点に鑑み、なされたもので、辞書の
曖昧性が少なく、高速な認識が可能で、字種の追加/削
除、変形パターンの追加/削除が容易である文字認識装
置を提供することを目的とするものである。
〔課題を解決するための手段〕
第1図は本発明の基本構成図である。本図において、1
は基本字形辞書、2は字形変形手段、そして、3は照合
手段である。
基本字形辞書1は、基本字形を記憶する。字形変形手段
2は、基本字形に所定の変形を加える。
照合手段3は、前記変形を加えられた字形と、認識対象
の文字データとを照合して、一致する字形の文字を検出
する。
〔作 用〕
文字変形に着目すると、1つの文書内では一定の変形を
している場合が多い。例えば、印刷において1ページ内
の文字サイズや書体は一定である場合が多(、−枚の手
書き帳票に対して同一筆記者が記入する場合は筆記者の
癖はほぼ一定している。すなわち、1つの文書内の文字
変形はある程度定量化できる。
本発明では、基本字形とは分離して、読み取り対象の文
書上の文字の変形(前述の書体、手書き文字の癖、筆記
具のかすれ1つぶれ、印刷文字の書体の違い、印刷/複
写時に生ずるかすれ1つぶれ、あるいは、光学式読み取
り装置(スキャナ)の特性による変形等)を文字変形辞
書2に格納する。ここで、格納する変形は、上記の認識
対象の文書内で(はぼ)一定の変形である。
文字認識時には、基本字形辞書lに記憶された基本字形
に対して、文字変形辞書2に格納された文字変形を加え
た上で、認識対象文字と比較する。
したがって、辞書の曖昧性が少なく、高速な認識が可能
で、字種の追加/削除、変形パターンの追加/削除が容
易である。
〔実施例〕
第2図は、本発明の実施例の概略構成図である。
第2図において、11は画像人力部、12は文字切出し
部、13は基本字形辞書、14.15゜および16は文
字変形辞書、17.18.および19は文字変形フィル
タ、20は変形字形レジスタ、そして、21は文字照合
部である。
画像人力部11は、文書を画像として人力するもので、
通常、光電素子を用いた画像読み取り機構(スキャナ)
で構成される。また、文字切出し部12は、上記文書画
像から各々の文字の範囲の画像を切り出す機能を実現す
る。切り出された文字画像は、文字照合部21に認識対
象文字とじて入力される。これらは従来の文字認識装置
において用いられているものと同様である。
基本字形辞書13は、活字文字であれば、例えば、明朝
体、ゴシック対等の字母パターン(デザイナが設計した
ままの変形のない元のパターン)を格納し、手書き文字
であれば、措置で書かれた文字パターンを格納する。
文字変形辞書■14は、文字サイズの違いを変形とする
変形パターンを格納する。すなわち、基本字形に対する
相似変形のパターンを各サイズについて格納する。
文字変形辞書■15は、書体による変形パターンを格納
する。例えば、第4図に示すように、明朝体の横線の右
端の三角形の飛び出しくうろこ)を生成する変形パター
ンを格納する。
文字変形辞書■16は、印字品質による変形パターンを
格納する。例えば、印刷・複写時に生ずる文字線の間の
空白であるべき部分のつぶれや、第5図に示すように、
文字線の交差部分の太り等の変形パターンを格納する。
文字変形フィルタ17〜19は、前記基本字形辞書13
の字形に対して、それぞれ、文字変形辞書14〜16に
より与えられたパラメータに従って変形を加える。
変形字形レジスタ20は、変形を加えられた字形パター
ンを基本字形辞書13の全部または一部の字種に対して
一時保持する。
上記変形字形レジスタ20の出力は、前記文字照合部2
1に順に印加され、前記認識対象文字と一致するものが
検出される。
なお、文字サイズによる字形変形については、辞書を用
いずに、従来の文字認識装置におけるように、認識対象
文字に対して文字サイズ正規化を行なうようにすること
もできる。
第2図の文字変形辞書14〜16のパラメータの切替は
、外部から切り替えられるものとするが、複数種類のパ
ラメータを予め容易して、照合結果をフィードバックし
て最適な変形パターンを選択するようにすることもでき
る。
第3図は、基本字形の変形のためのより具体的な構成の
1例を示すものである。
第3図において、31は基本字形辞書、32はシフトレ
ジスタ、33はウィンドウ部分、34は変形パターンメ
モリ、35は変形辞書レジスタ、36は文字照合部、そ
して、37は制御部である。
すなわち、第3図の構成によれば、基本字形辞書31に
記憶された基本字形の各々の所定の大きさの部分がサー
チされ、もし、変形を加えるべき部分が検出されると、
これに対応して変形パターンメモリ34より、該変形を
加えるべき部分に対して変形を加えられた部分が出力さ
れ、変形辞書レジスタ35に格納される。例えば、第4
図に示されるように、基本字形の各々の6X6画素の部
分領域をサーチして、第4図(1)のような部分パター
ンが検出されたときにのみ、第4図(2)のようなウロ
コが付加された部分パターンを出力し、変形辞書レジス
タ35上の基本字形の対応する部分に変形を加えるよう
にすれば、基本字形にたいするウロコ付加の変形を行な
うことができる。
第5図の文字線の交差部分の大すの付加についでも同様
である。
〔発明の効果〕
本発明の文字認識装置によれば、辞書の曖昧性が少なく
、高速な認識が可能で、字種の追加/削除、変形パター
ンの追加/削除が容易となる。
【図面の簡単な説明】
第1図は本発明の基本構成図、 第2図は本発明の実施例の構成図、 第3図は基本字形に対する変形のための構成の1例を示
す図、 第4図はウロコの付加の様子を示す図、そして、第5図
は文字線の交差部分の大すの付加の様子を示す図である
。 〔符号の説明〕 1・・・基本字形辞書、2・・・字形変形手段、3・・
・照合手段、31・・・基本字形辞書、32・・・シフ
トレジスタ、33・・・ウィンドウ部分、34・・・変
形パターンメモリ、35・・・変形辞書レジスタ、36
・・・文字照合部、37・・・制御部。 「ウロコ」の付加 ウロコの付加の様子を示す図 太すの付加の様子を示す図 第5図

Claims (1)

  1. 【特許請求の範囲】 1、基本字形を記憶する基本字形辞書(1)と、該基本
    字形に所定の変形を加える字形変形手段(2)と、 前記変形を加えられた字形と、認識対象の文字データと
    を照合して、一致する字形の文字を検出する照合手段(
    3)とを有してなることを特徴とする文字認識装置。
JP1020917A 1989-02-01 1989-02-01 文字認識装置 Pending JPH02202689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1020917A JPH02202689A (ja) 1989-02-01 1989-02-01 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1020917A JPH02202689A (ja) 1989-02-01 1989-02-01 文字認識装置

Publications (1)

Publication Number Publication Date
JPH02202689A true JPH02202689A (ja) 1990-08-10

Family

ID=12040577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1020917A Pending JPH02202689A (ja) 1989-02-01 1989-02-01 文字認識装置

Country Status (1)

Country Link
JP (1) JPH02202689A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0555023A3 (ja) * 1992-02-07 1994-03-09 Canon Kk
JPH0749927A (ja) * 1993-08-09 1995-02-21 Nireco Corp パターン認識方法
EP0694875A2 (en) * 1994-07-28 1996-01-31 AT&T Corp. A method of nonlinear filtering of degraded document images
US10056924B2 (en) 2013-08-19 2018-08-21 Analog Devices, Inc. High output power digital-to-analog converter system
USRE47601E1 (en) 2013-08-19 2019-09-10 Analog Devices, Inc. High output power digital-to-analog converter system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0555023A3 (ja) * 1992-02-07 1994-03-09 Canon Kk
US5901255A (en) * 1992-02-07 1999-05-04 Canon Kabushiki Kaisha Pattern recognition method and apparatus capable of selecting another one of plural pattern recognition modes in response to a number of rejects of recognition-processed pattern segments
JPH0749927A (ja) * 1993-08-09 1995-02-21 Nireco Corp パターン認識方法
EP0694875A2 (en) * 1994-07-28 1996-01-31 AT&T Corp. A method of nonlinear filtering of degraded document images
EP0694875A3 (en) * 1994-07-28 1996-04-24 At & T Corp Non-linear filtering method for degraded images of documents
US5647023A (en) * 1994-07-28 1997-07-08 Lucent Technologies Inc. Method of nonlinear filtering of degraded document images
US5745597A (en) * 1994-07-28 1998-04-28 Lucent Technologies Inc. Method of nonlinear equalization of degraded document images
US10056924B2 (en) 2013-08-19 2018-08-21 Analog Devices, Inc. High output power digital-to-analog converter system
USRE47601E1 (en) 2013-08-19 2019-09-10 Analog Devices, Inc. High output power digital-to-analog converter system

Similar Documents

Publication Publication Date Title
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
DE69517564T2 (de) Verfahren und Gerät zur Erzeugung einer hybriden Datenstruktur zur Anzeige eines Rasterbildes
US5119437A (en) Tabular document reader service
Le Bourgeois et al. Document images analysis solutions for digital libraries
US7593600B2 (en) Black white image scaling for optical character recognition
US20190005325A1 (en) Identification of emphasized text in electronic documents
US10586133B2 (en) System and method for processing character images and transforming font within a document
EP2545498A2 (en) Resolution adjustment of an image that includes text undergoing an ocr process
JPH02202689A (ja) 文字認識装置
US20020181779A1 (en) Character and style recognition of scanned text
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
Suchenwirth et al. Optical recognition of Chinese characters
JPH0333990A (ja) マスク処理を用いる光学式文字認識装置及び方法
JP2006252164A (ja) 中国語文書処理装置
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质
JPH08123904A (ja) 書体種類処理装置
Sarnacki et al. Character Recognition Based on Skeleton Analysis
JPH07262317A (ja) 文書処理装置
JPS6385695A (ja) 連綿文字作成方式
JPH0252329A (ja) 画像情報記録・読取方法
Ajao et al. Database corpus for Yoruba handwriting
JP2976990B2 (ja) 文字認識装置
CN116306493A (zh) 一种维吾尔语pdf文档中中英文文本、阿拉伯数字的提取和还原方法
JP2917396B2 (ja) 文字認識方式
Pitcher Reading images