JPH02202689A - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPH02202689A JPH02202689A JP1020917A JP2091789A JPH02202689A JP H02202689 A JPH02202689 A JP H02202689A JP 1020917 A JP1020917 A JP 1020917A JP 2091789 A JP2091789 A JP 2091789A JP H02202689 A JPH02202689 A JP H02202689A
- Authority
- JP
- Japan
- Prior art keywords
- character
- dictionary
- deformed
- deformation
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 abstract 1
- 230000009466 transformation Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 8
- 238000000844 transformation Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
印刷された活字等の文字変形が予測定量化できる文書を
読み取る文字認識装置に関し、辞書の曖昧性が少なく、
高速な認識が可能で、字種の追加/削除、変形パターン
の追加/削除が容易であるようにすることを目的とし、
基本字形を記憶する基本字形辞書と、該基本字形に所定
の変形を加える字形変形手段と、前記変形を加えられた
字形と、認識対象の文字データとを照合して、一致する
字形の文字を検出する照合手段とを有してなるように構
成する。
読み取る文字認識装置に関し、辞書の曖昧性が少なく、
高速な認識が可能で、字種の追加/削除、変形パターン
の追加/削除が容易であるようにすることを目的とし、
基本字形を記憶する基本字形辞書と、該基本字形に所定
の変形を加える字形変形手段と、前記変形を加えられた
字形と、認識対象の文字データとを照合して、一致する
字形の文字を検出する照合手段とを有してなるように構
成する。
本発明は、印刷された活字等の文字変形が予測定量化で
きる文書を読み取る文字認識装置に関する。
きる文書を読み取る文字認識装置に関する。
一般に、文字認識を行なう場合、読み取り対象文字は基
本字形に対して何らかの文字変形を伴っているため、こ
の文字変形に対処することが必要となる。
本字形に対して何らかの文字変形を伴っているため、こ
の文字変形に対処することが必要となる。
ここでいう文字変形とは、例えば、手書き文字の癖、筆
記具のかすれ1つぶれ、印刷字体の書体の違い、印刷/
複写時に生ずるかすれ/っぷれ、あるいは、光学式読み
取り装置(スキャナ)の特性による変形等が考えられる
。
記具のかすれ1つぶれ、印刷字体の書体の違い、印刷/
複写時に生ずるかすれ/っぷれ、あるいは、光学式読み
取り装置(スキャナ)の特性による変形等が考えられる
。
前述のような変形に対処するために、従来は、■文字変
形と独立した文字の特徴を選択して抽出し、この特徴に
よって文字を認識する。
形と独立した文字の特徴を選択して抽出し、この特徴に
よって文字を認識する。
■文字変形の許容範囲を予め設定しておき、この範囲内
のゆらぎは無視して識別する。
のゆらぎは無視して識別する。
等の方法を採用していた。
しかしながら、上記■の方法においては、認識対象文字
に対して文字毎に逐一、特徴抽出を行なう必要があるた
め、文字認識速度を向上させることが困難である。また
、各文字が持つ特徴を予め記憶させておく必要があるた
め、対応可能な文字変形の種類に制限があり、さらに、
文字変形に対応させるためには、抽出する特徴を変更さ
せることが必要となるため、読み取り対象に合わせて柔
軟に対応をとることが困難であるという問題があった。
に対して文字毎に逐一、特徴抽出を行なう必要があるた
め、文字認識速度を向上させることが困難である。また
、各文字が持つ特徴を予め記憶させておく必要があるた
め、対応可能な文字変形の種類に制限があり、さらに、
文字変形に対応させるためには、抽出する特徴を変更さ
せることが必要となるため、読み取り対象に合わせて柔
軟に対応をとることが困難であるという問題があった。
また、上記■の方法においては、予め、各文字について
大量の変形例を用意して文字変形と独立した部分を字形
辞書に登録し、変形により揺らぐ部分は変形の許容範囲
として辞書上に登録する。
大量の変形例を用意して文字変形と独立した部分を字形
辞書に登録し、変形により揺らぐ部分は変形の許容範囲
として辞書上に登録する。
したがって、辞書を作成するために多大な労力を要する
。また、多くの種類の文字変形に対応するためには、変
形による揺らぎを許容する領域を広くとる必要があるが
、この場合、識別に有効な領域が小さくなり、誤読が多
くなる傾向があるという問題があった。
。また、多くの種類の文字変形に対応するためには、変
形による揺らぎを許容する領域を広くとる必要があるが
、この場合、識別に有効な領域が小さくなり、誤読が多
くなる傾向があるという問題があった。
本発明は上記の問題点に鑑み、なされたもので、辞書の
曖昧性が少なく、高速な認識が可能で、字種の追加/削
除、変形パターンの追加/削除が容易である文字認識装
置を提供することを目的とするものである。
曖昧性が少なく、高速な認識が可能で、字種の追加/削
除、変形パターンの追加/削除が容易である文字認識装
置を提供することを目的とするものである。
第1図は本発明の基本構成図である。本図において、1
は基本字形辞書、2は字形変形手段、そして、3は照合
手段である。
は基本字形辞書、2は字形変形手段、そして、3は照合
手段である。
基本字形辞書1は、基本字形を記憶する。字形変形手段
2は、基本字形に所定の変形を加える。
2は、基本字形に所定の変形を加える。
照合手段3は、前記変形を加えられた字形と、認識対象
の文字データとを照合して、一致する字形の文字を検出
する。
の文字データとを照合して、一致する字形の文字を検出
する。
文字変形に着目すると、1つの文書内では一定の変形を
している場合が多い。例えば、印刷において1ページ内
の文字サイズや書体は一定である場合が多(、−枚の手
書き帳票に対して同一筆記者が記入する場合は筆記者の
癖はほぼ一定している。すなわち、1つの文書内の文字
変形はある程度定量化できる。
している場合が多い。例えば、印刷において1ページ内
の文字サイズや書体は一定である場合が多(、−枚の手
書き帳票に対して同一筆記者が記入する場合は筆記者の
癖はほぼ一定している。すなわち、1つの文書内の文字
変形はある程度定量化できる。
本発明では、基本字形とは分離して、読み取り対象の文
書上の文字の変形(前述の書体、手書き文字の癖、筆記
具のかすれ1つぶれ、印刷文字の書体の違い、印刷/複
写時に生ずるかすれ1つぶれ、あるいは、光学式読み取
り装置(スキャナ)の特性による変形等)を文字変形辞
書2に格納する。ここで、格納する変形は、上記の認識
対象の文書内で(はぼ)一定の変形である。
書上の文字の変形(前述の書体、手書き文字の癖、筆記
具のかすれ1つぶれ、印刷文字の書体の違い、印刷/複
写時に生ずるかすれ1つぶれ、あるいは、光学式読み取
り装置(スキャナ)の特性による変形等)を文字変形辞
書2に格納する。ここで、格納する変形は、上記の認識
対象の文書内で(はぼ)一定の変形である。
文字認識時には、基本字形辞書lに記憶された基本字形
に対して、文字変形辞書2に格納された文字変形を加え
た上で、認識対象文字と比較する。
に対して、文字変形辞書2に格納された文字変形を加え
た上で、認識対象文字と比較する。
したがって、辞書の曖昧性が少なく、高速な認識が可能
で、字種の追加/削除、変形パターンの追加/削除が容
易である。
で、字種の追加/削除、変形パターンの追加/削除が容
易である。
第2図は、本発明の実施例の概略構成図である。
第2図において、11は画像人力部、12は文字切出し
部、13は基本字形辞書、14.15゜および16は文
字変形辞書、17.18.および19は文字変形フィル
タ、20は変形字形レジスタ、そして、21は文字照合
部である。
部、13は基本字形辞書、14.15゜および16は文
字変形辞書、17.18.および19は文字変形フィル
タ、20は変形字形レジスタ、そして、21は文字照合
部である。
画像人力部11は、文書を画像として人力するもので、
通常、光電素子を用いた画像読み取り機構(スキャナ)
で構成される。また、文字切出し部12は、上記文書画
像から各々の文字の範囲の画像を切り出す機能を実現す
る。切り出された文字画像は、文字照合部21に認識対
象文字とじて入力される。これらは従来の文字認識装置
において用いられているものと同様である。
通常、光電素子を用いた画像読み取り機構(スキャナ)
で構成される。また、文字切出し部12は、上記文書画
像から各々の文字の範囲の画像を切り出す機能を実現す
る。切り出された文字画像は、文字照合部21に認識対
象文字とじて入力される。これらは従来の文字認識装置
において用いられているものと同様である。
基本字形辞書13は、活字文字であれば、例えば、明朝
体、ゴシック対等の字母パターン(デザイナが設計した
ままの変形のない元のパターン)を格納し、手書き文字
であれば、措置で書かれた文字パターンを格納する。
体、ゴシック対等の字母パターン(デザイナが設計した
ままの変形のない元のパターン)を格納し、手書き文字
であれば、措置で書かれた文字パターンを格納する。
文字変形辞書■14は、文字サイズの違いを変形とする
変形パターンを格納する。すなわち、基本字形に対する
相似変形のパターンを各サイズについて格納する。
変形パターンを格納する。すなわち、基本字形に対する
相似変形のパターンを各サイズについて格納する。
文字変形辞書■15は、書体による変形パターンを格納
する。例えば、第4図に示すように、明朝体の横線の右
端の三角形の飛び出しくうろこ)を生成する変形パター
ンを格納する。
する。例えば、第4図に示すように、明朝体の横線の右
端の三角形の飛び出しくうろこ)を生成する変形パター
ンを格納する。
文字変形辞書■16は、印字品質による変形パターンを
格納する。例えば、印刷・複写時に生ずる文字線の間の
空白であるべき部分のつぶれや、第5図に示すように、
文字線の交差部分の太り等の変形パターンを格納する。
格納する。例えば、印刷・複写時に生ずる文字線の間の
空白であるべき部分のつぶれや、第5図に示すように、
文字線の交差部分の太り等の変形パターンを格納する。
文字変形フィルタ17〜19は、前記基本字形辞書13
の字形に対して、それぞれ、文字変形辞書14〜16に
より与えられたパラメータに従って変形を加える。
の字形に対して、それぞれ、文字変形辞書14〜16に
より与えられたパラメータに従って変形を加える。
変形字形レジスタ20は、変形を加えられた字形パター
ンを基本字形辞書13の全部または一部の字種に対して
一時保持する。
ンを基本字形辞書13の全部または一部の字種に対して
一時保持する。
上記変形字形レジスタ20の出力は、前記文字照合部2
1に順に印加され、前記認識対象文字と一致するものが
検出される。
1に順に印加され、前記認識対象文字と一致するものが
検出される。
なお、文字サイズによる字形変形については、辞書を用
いずに、従来の文字認識装置におけるように、認識対象
文字に対して文字サイズ正規化を行なうようにすること
もできる。
いずに、従来の文字認識装置におけるように、認識対象
文字に対して文字サイズ正規化を行なうようにすること
もできる。
第2図の文字変形辞書14〜16のパラメータの切替は
、外部から切り替えられるものとするが、複数種類のパ
ラメータを予め容易して、照合結果をフィードバックし
て最適な変形パターンを選択するようにすることもでき
る。
、外部から切り替えられるものとするが、複数種類のパ
ラメータを予め容易して、照合結果をフィードバックし
て最適な変形パターンを選択するようにすることもでき
る。
第3図は、基本字形の変形のためのより具体的な構成の
1例を示すものである。
1例を示すものである。
第3図において、31は基本字形辞書、32はシフトレ
ジスタ、33はウィンドウ部分、34は変形パターンメ
モリ、35は変形辞書レジスタ、36は文字照合部、そ
して、37は制御部である。
ジスタ、33はウィンドウ部分、34は変形パターンメ
モリ、35は変形辞書レジスタ、36は文字照合部、そ
して、37は制御部である。
すなわち、第3図の構成によれば、基本字形辞書31に
記憶された基本字形の各々の所定の大きさの部分がサー
チされ、もし、変形を加えるべき部分が検出されると、
これに対応して変形パターンメモリ34より、該変形を
加えるべき部分に対して変形を加えられた部分が出力さ
れ、変形辞書レジスタ35に格納される。例えば、第4
図に示されるように、基本字形の各々の6X6画素の部
分領域をサーチして、第4図(1)のような部分パター
ンが検出されたときにのみ、第4図(2)のようなウロ
コが付加された部分パターンを出力し、変形辞書レジス
タ35上の基本字形の対応する部分に変形を加えるよう
にすれば、基本字形にたいするウロコ付加の変形を行な
うことができる。
記憶された基本字形の各々の所定の大きさの部分がサー
チされ、もし、変形を加えるべき部分が検出されると、
これに対応して変形パターンメモリ34より、該変形を
加えるべき部分に対して変形を加えられた部分が出力さ
れ、変形辞書レジスタ35に格納される。例えば、第4
図に示されるように、基本字形の各々の6X6画素の部
分領域をサーチして、第4図(1)のような部分パター
ンが検出されたときにのみ、第4図(2)のようなウロ
コが付加された部分パターンを出力し、変形辞書レジス
タ35上の基本字形の対応する部分に変形を加えるよう
にすれば、基本字形にたいするウロコ付加の変形を行な
うことができる。
第5図の文字線の交差部分の大すの付加についでも同様
である。
である。
本発明の文字認識装置によれば、辞書の曖昧性が少なく
、高速な認識が可能で、字種の追加/削除、変形パター
ンの追加/削除が容易となる。
、高速な認識が可能で、字種の追加/削除、変形パター
ンの追加/削除が容易となる。
第1図は本発明の基本構成図、
第2図は本発明の実施例の構成図、
第3図は基本字形に対する変形のための構成の1例を示
す図、 第4図はウロコの付加の様子を示す図、そして、第5図
は文字線の交差部分の大すの付加の様子を示す図である
。 〔符号の説明〕 1・・・基本字形辞書、2・・・字形変形手段、3・・
・照合手段、31・・・基本字形辞書、32・・・シフ
トレジスタ、33・・・ウィンドウ部分、34・・・変
形パターンメモリ、35・・・変形辞書レジスタ、36
・・・文字照合部、37・・・制御部。 「ウロコ」の付加 ウロコの付加の様子を示す図 太すの付加の様子を示す図 第5図
す図、 第4図はウロコの付加の様子を示す図、そして、第5図
は文字線の交差部分の大すの付加の様子を示す図である
。 〔符号の説明〕 1・・・基本字形辞書、2・・・字形変形手段、3・・
・照合手段、31・・・基本字形辞書、32・・・シフ
トレジスタ、33・・・ウィンドウ部分、34・・・変
形パターンメモリ、35・・・変形辞書レジスタ、36
・・・文字照合部、37・・・制御部。 「ウロコ」の付加 ウロコの付加の様子を示す図 太すの付加の様子を示す図 第5図
Claims (1)
- 【特許請求の範囲】 1、基本字形を記憶する基本字形辞書(1)と、該基本
字形に所定の変形を加える字形変形手段(2)と、 前記変形を加えられた字形と、認識対象の文字データと
を照合して、一致する字形の文字を検出する照合手段(
3)とを有してなることを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1020917A JPH02202689A (ja) | 1989-02-01 | 1989-02-01 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1020917A JPH02202689A (ja) | 1989-02-01 | 1989-02-01 | 文字認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02202689A true JPH02202689A (ja) | 1990-08-10 |
Family
ID=12040577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1020917A Pending JPH02202689A (ja) | 1989-02-01 | 1989-02-01 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02202689A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0555023A3 (ja) * | 1992-02-07 | 1994-03-09 | Canon Kk | |
JPH0749927A (ja) * | 1993-08-09 | 1995-02-21 | Nireco Corp | パターン認識方法 |
EP0694875A2 (en) * | 1994-07-28 | 1996-01-31 | AT&T Corp. | A method of nonlinear filtering of degraded document images |
US10056924B2 (en) | 2013-08-19 | 2018-08-21 | Analog Devices, Inc. | High output power digital-to-analog converter system |
USRE47601E1 (en) | 2013-08-19 | 2019-09-10 | Analog Devices, Inc. | High output power digital-to-analog converter system |
-
1989
- 1989-02-01 JP JP1020917A patent/JPH02202689A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0555023A3 (ja) * | 1992-02-07 | 1994-03-09 | Canon Kk | |
US5901255A (en) * | 1992-02-07 | 1999-05-04 | Canon Kabushiki Kaisha | Pattern recognition method and apparatus capable of selecting another one of plural pattern recognition modes in response to a number of rejects of recognition-processed pattern segments |
JPH0749927A (ja) * | 1993-08-09 | 1995-02-21 | Nireco Corp | パターン認識方法 |
EP0694875A2 (en) * | 1994-07-28 | 1996-01-31 | AT&T Corp. | A method of nonlinear filtering of degraded document images |
EP0694875A3 (en) * | 1994-07-28 | 1996-04-24 | At & T Corp | Non-linear filtering method for degraded images of documents |
US5647023A (en) * | 1994-07-28 | 1997-07-08 | Lucent Technologies Inc. | Method of nonlinear filtering of degraded document images |
US5745597A (en) * | 1994-07-28 | 1998-04-28 | Lucent Technologies Inc. | Method of nonlinear equalization of degraded document images |
US10056924B2 (en) | 2013-08-19 | 2018-08-21 | Analog Devices, Inc. | High output power digital-to-analog converter system |
USRE47601E1 (en) | 2013-08-19 | 2019-09-10 | Analog Devices, Inc. | High output power digital-to-analog converter system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10606933B2 (en) | Method and system for document image layout deconstruction and redisplay | |
DE69517564T2 (de) | Verfahren und Gerät zur Erzeugung einer hybriden Datenstruktur zur Anzeige eines Rasterbildes | |
US5119437A (en) | Tabular document reader service | |
Le Bourgeois et al. | Document images analysis solutions for digital libraries | |
US7593600B2 (en) | Black white image scaling for optical character recognition | |
US20190005325A1 (en) | Identification of emphasized text in electronic documents | |
US10586133B2 (en) | System and method for processing character images and transforming font within a document | |
EP2545498A2 (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
JPH02202689A (ja) | 文字認識装置 | |
US20020181779A1 (en) | Character and style recognition of scanned text | |
Baloun et al. | ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles. | |
Suchenwirth et al. | Optical recognition of Chinese characters | |
JPH0333990A (ja) | マスク処理を用いる光学式文字認識装置及び方法 | |
JP2006252164A (ja) | 中国語文書処理装置 | |
CN112101356A (zh) | 一种图片中特定文本的定位方法、装置及存储介质 | |
JPH08123904A (ja) | 書体種類処理装置 | |
Sarnacki et al. | Character Recognition Based on Skeleton Analysis | |
JPH07262317A (ja) | 文書処理装置 | |
JPS6385695A (ja) | 連綿文字作成方式 | |
JPH0252329A (ja) | 画像情報記録・読取方法 | |
Ajao et al. | Database corpus for Yoruba handwriting | |
JP2976990B2 (ja) | 文字認識装置 | |
CN116306493A (zh) | 一种维吾尔语pdf文档中中英文文本、阿拉伯数字的提取和还原方法 | |
JP2917396B2 (ja) | 文字認識方式 | |
Pitcher | Reading images |