JPH0520505A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0520505A
JPH0520505A JP3201520A JP20152091A JPH0520505A JP H0520505 A JPH0520505 A JP H0520505A JP 3201520 A JP3201520 A JP 3201520A JP 20152091 A JP20152091 A JP 20152091A JP H0520505 A JPH0520505 A JP H0520505A
Authority
JP
Japan
Prior art keywords
character
character string
classification
name
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3201520A
Other languages
English (en)
Inventor
Takahiro Koga
孝博 古閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Home Electronics Ltd
NEC Corp
Original Assignee
NEC Home Electronics Ltd
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Home Electronics Ltd, Nippon Electric Co Ltd filed Critical NEC Home Electronics Ltd
Priority to JP3201520A priority Critical patent/JPH0520505A/ja
Publication of JPH0520505A publication Critical patent/JPH0520505A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文書中の文字を認識する文字認識装置におい
て、ある程度文字列の位置やキーワードが定型化されて
いる文書中の文字認識効率を高くする。 【構成】 名刺上の文字を電子的に読取る画像入力部1
を文字列生成部3に接続する。文字列生成部3は入力画
像信号から文字列矩形を生成し文字列分類部5へ出力す
る。文字列分類部5は、記憶部9に格納した分類規則を
参照して名刺を構成する分類項目に文字列矩形を割当て
て文字認識部7へ出力する。文字認識部7は、記憶部9
に分類項目毎に格納された単語を読み出し、文字列矩形
を形成する文字画像とその単語のパターンとを分類項目
毎に比較し、一致するパターンの単語コードを出力して
文字認識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字認識装置に係り、特
に、距離的にまとまりのある複数の文字からなる文字列
の配置がある程度定型化されて分散する文書について、
それら文字を認識する文字認識装置に関する。
【0002】
【従来の技術】近年、例えば高度なデータベースを構築
するために、文書中の文字を電子的に認識して多量の文
字を自動的に読み込む文字認識装置が提供されている。
従来、この種の文字認識装置では、文書中の文字画像を
光学的に画像信号に変換して読取り、読取った画像信号
から文字列を切出し、その文字列から更に個々の文字を
切出し、予め記憶した文字パターンと個々の文字画像を
比較し、一致した文字パターンの文字コードを出力する
ことにより文字を認識する、いわゆるパターンマッチン
グ方法等が採用されている。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たパターンマッチング法による文字認識装置は、文書中
の文字列の位置関係が一定でない非定型文書において好
適すると考えられているが、文書中の個々の文字全てを
端から文字パターンと逐次比較して文字認識するから、
認識効率が低くて文字読取りに時間がかかる難点があ
る。他方、文字認識する文書には、例えば名刺等のよう
にある程度その文書に依存した文字列のレイアウトや文
字列を形成するキーワード等が同一であるとか、同一で
なくとも似ていたり種類が限られているものがある。
【0004】本発明者は名刺等のように文字列のレイア
ウトやキーワードが限られている文書において、それら
レイアウトやキーワードを文字認識情報として機能させ
ることが可能である点に着目し、本発明を完成させた。
本発明はこのような状況の下になされたもので、ある程
度文字列のレイアウトやキーワードの限定された文書中
の文字を高速で認識可能であり、文字認識効率の高い文
字認識装置の提供を目的とする。
【0005】
【課題を解決するための手段】このような課題を解決す
るために本発明は、文書上の文字画像を光学的に読取っ
て画像信号を入力する画像入力部と、入力されたその画
像信号から文字列を生成する文字列生成部と、その文字
列を分類する分類規則、この分類規則に基づきその文字
列を分類する項目、並びにその分類項目に対応させた単
語を格納した記憶部と、その分類規則に基づき各文字列
の位置もしくは形状から各文字列を分類項目に分類する
文字列分類部と、分類されたそれら各文字列中の文字画
像を、その記憶部に格納された単語のパターンを用いて
分類項目毎に文字として認識する文字認識部とを有して
構成されている。
【0006】
【作用】このような手段を備えた本発明では、画像入力
部で文書上の文字画像を読取って画像信号を入力する
と、文字列生成部がその入力画像信号から文字列を生成
し、文字列分類部がその生成文字列間の相対位置や形状
からその文字列を記憶部からの分類規則に基づいて分類
し、文字認識部が単語を記憶部から読み出して各分類項
目毎に文字列の文字画像とパターン比較して文字認識す
る。
【0007】
【実施例】以下本発明の実施例を図面を参照して説明す
る。図1は本発明に係る文字認識装置の一実施例を示す
機能ブロック図である。図1において、画像入力部1、
文字列生成部3、文字列分類部5および文字認識部7を
直列接続するとともに、文字列分類部5および文字認識
部7に記憶部9を接続して本発明の文字認識装置が構成
されている。画像入力部1は、文書に光を当てるととも
に例えばCCD(Charge Coupled Device )によって文
書上に印刷された文字画像を電子的に読取って画像信号
に変換して入力する公知のイメージリーダである。
【0008】文書としては、例えば図2のAに示すよう
に、縦長の用紙11aの右端から社名11b、部署名1
1c、肩書11d、氏名11eおよび住所11fが印刷
された名刺11が好適する。以下、この名刺11を例に
して説明する。文字列生成部3は、画像入力部1で入力
した画像信号から、文字列を形成する文字画像間の相対
位置や形状によって文字列矩形を生成するものである。
例えば、図2のAにおける肩書11dおよび氏名11e
の部分について言えば、肩書11dの「技術顧問」およ
び「技術士」、並びに氏名11eの「特許太郎」の文字
画像を、まず図2のBのような初期矩形13を生成し、
同図のCのように「技術顧問」および「技術士」、並び
に「特許太郎」を各々1個ずつの各々まとまった文字列
矩形15に生成するものである。なお、社名11b、部
署名11cおよび住所11fについても同様である。
【0009】文字列分類部5は、文字列生成部3で生成
された文字列矩形15について記憶部9の分類規則(図
3参照、詳細は後述する)を参照し、名刺モデルを構成
する項目例えば社名11b、部署名11c、肩書11
d、氏名11eおよび住所11f等のいずれに各文字列
矩形15が該当するかを判別し、各項目毎に各文字列矩
形15を割当てて文字認識部7へ出力するものである。
もっとも、文字列分類部5における処理を簡素化するた
めに、図4に示すように、まず社名項目群、氏名項目群
および住所項目群等に大きく項目群に分け、次いで社名
項目群内で社名、部署名および肩書に項目分けし、氏名
項目群内で肩書、氏名および振り仮名に項目分けし、住
所項目群内で電話番号、郵便番号および住所に項目分け
するとよい。なお、社名項目群および氏名項目群内の双
方に肩書があるのは、名刺11の形式によっては、肩書
が氏名の上ではなく、部署名に併記される場合もあるた
めである。
【0010】記憶部9は、予め分類規則および単語辞書
が格納された不揮発性のROMである。分類規則は、図
2のCの文字列矩形15間の位置や個々の文字列矩形1
5の形状から、社名項目群、氏名項目群および住所項目
群のいずれに該当するかを判別するとともに、社名項目
群内で社名、部署名および肩書のいずれに該当するか、
氏名項目群内で肩書、氏名および振り仮名のいずれに該
当するか、住所項目群内で電話番号、郵便番号および住
所のいずれに該当するかを各々判別するためのもので、
文字列矩形のレイアウト規則である。分類規則として
は、図3に示すように、「各項目群は1つずつ存在す
る」、「各項目群は水平方向に並んでおり、画像の左か
ら住所、氏名、部署名および社名が存在する」、「項目
群内の文字列間隔は項目間隔よりも小さい」、「住所項
目群は氏名項目群の左下に下げられる」と言った項目群
の規定が、社名項目群、氏名項目群および住所項目毎に
規定されている。
【0011】さらに、個々の項目群、例えば氏名項目群
については、「氏名は1個存在する」、「肩書の個数は
3以下である」、「肩書は氏名の上に存在する」、「肩
書が複数個存在するときには左右に並ぶ」……等の規定
がある。記憶部9には、社名、部署名、肩書、氏名およ
び住所等に使用される単語辞書がこれらの項目毎に対応
して格納されている。そのため、例えば部署名および肩
書について使用される単語は限られるから、これら部署
名や肩書に対応する格納単語数は少なく、一定の記憶領
域が確保される場合には専用のキーワードを多数格納可
能である。
【0012】文字認識部7は、各分類項目毎にこれに対
応する単語を記憶部9から順次読み出し抽出し、各文字
列矩形15から個々の文字画像を抽出して読み出し単語
に基づく単語パターンとを比較し、一致する単語パター
ンの文字コードを出力するものである。ところで、上述
した図1の文字認識装置は、具体的には図5に示すよう
な構成で形成される。すなわち、上述した文字列矩形生
成処理、文字列分類処理および文字認識等を実行するC
PU17a、このCPU17aにおける動作プログラム
を格納したROM17bおよびインターフェース(I/
O)17cを有する制御回路17を有し、この制御回路
17に上記画像入力部1、キーボード19、記憶部9の
他に印刷装置21や表示装置23を接続して構成されて
いる。
【0013】従って、制御回路17が図1の文字列生成
部3、文字列分類部5および文字認識部7として機能す
る。次に、上述した文字認識装置の動作を図6のフロー
チャートを用いて簡単に説明する。プログラムがスター
トすると、ステップ601において画像入力部1が図2
のAの名刺11の文字画像を入力し、画像信号が文字列
生成部3へ取込まれる。続くステップ602では文字列
生成部3が画像信号から図2のBの初期矩形13を生成
するとともに同図のCの文字列矩形15を生成し、ステ
ップ603で文字列分類部5が文字列矩形15について
その位置や形状から記憶部9の判別規定を参照し、例え
ば図4の氏名項目群を割当ててから、氏名項目群内の氏
名や肩書のいずれかに割当てて文字認識部7へ出力す
る。
【0014】ステップ604で文字認識部7が各文字列
矩形15から文字列を抽出し、ステップ605で文字認
識部7が各文字列の割当てられた分類項目の単語を記憶
部9から抽出し、ステップ606で文字認識部7が文字
列から個々の文字画像を抽出し、ステップ607で個々
の文字画像と単語パターンを比較し、一致した単語パタ
ーンの文字コードを出力する。これら文字列生成、文字
列分類および文字認識動作処理は実際には図5の制御回
路17によって実行される。
【0015】このように本発明の文字認識装置は、名刺
11における各文字列矩形15をこの位置や形状から名
刺モデルを形成する項目に割当て、各分類項目に対応し
た単語辞書を用いて各項目毎に文字列の文字画像の文字
を認識する構成としたから、従来のように名刺11の端
から順次文字画像を辞書の単語パターンと比較する構成
に比べて、文字認識速度が極めて速くなる。しかも、名
刺モデルを形成する項目に対応した単語辞書を用いるこ
とが可能となり、この点からも認識効率が高まる。
【0016】上述した実施例では、図4のように文字列
矩形15を項目群に分類してから個々の項目への割当て
を行なう構成であったが、本発明では文字列矩形15か
ら直接個々の項目へ割当てる構成であってもよい。とこ
ろで、本発明において文字認識する文書としては、上述
した名刺11に限らず、例えば請求書、アンケート用紙
等のようにある程度その文書に依存した文字列のレイア
ウトや文字列を形成するキーワード等が同一であると
か、同一でなくとも似ていたり種類が限られている文書
に応用できる。すなわち、本発明は定型文字認識と非定
型文字認識の中間に位置する文書について有用である。
なお、本発明において文字とは、狭義の文字以外に例え
ば郵便番号を示すマーク等、日常使用される符号をも含
むものである。
【0017】
【発明の効果】以上説明したように本発明は、文書上の
文字画像を入力する画像入力部と、その画像信号から文
字列を生成する文字列生成部と、生成文字列を所定の分
類規則に従って分類する文字列分類部と、それら分類規
則や各項目に対応させた単語を格納した記憶部と、分類
項目毎に文字列中の文字画像を文字として認識する文字
認識部を有する構成としたから、文字列を文字認識情報
として機能させて文字列毎の文字認識処理を簡素化する
ことが可能となり、文字を高速で認識できるようにな
る。
【図面の簡単な説明】
【図1】本発明に係る文字認識装置の一実施例を示す機
能ブロック図である。
【図2】図1中の文字列生成部の機能を説明する図であ
る。
【図3】図1中の記憶部に格納された分類規則を表にし
て示す図である。
【図4】図1中の文字列分類部における文字列の割当て
動作を説明する図である。
【図5】図1の文字認識装置を具体的に構成するブロッ
ク図である。
【図6】図1の文字認識装置の動作を説明するフローチ
ャートである。
【符号の説明】
1 画像入力部 3 文字列生成部 5 文字列分類部 7 文字認識部 9 記憶部 11 文書(名刺) 11a 縦長の用紙 11b 社名 11c 部署名 11d 肩書 11e 氏名 11f 住所 13 初期矩形 15 文字列矩形 17 制御回路 19 キーボード 21 印刷装置 23 表示装置

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 文書上の文字画像を光学的に読取って画
    像信号を入力する画像入力部と、 入力された前記画像信号から文字列を生成する文字列生
    成部と、 前記文字列を分類する分類規則、この分類規則に基づき
    前記文字列を分類する項目、並びにこの分類項目に対応
    させた単語を格納した記憶部と、 前記分類規則に基づき前記各文字列の位置もしくは形状
    から前記各文字列を前記分類項目に分類する文字列分類
    部と、 分類された前記各文字列中の文字画像を、前記記憶部に
    格納された前記単語のパターンを用いて前記分類項目毎
    に文字として認識する文字認識部と、 を具備することを特徴とする文字認識装置。
JP3201520A 1991-07-16 1991-07-16 文字認識装置 Pending JPH0520505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3201520A JPH0520505A (ja) 1991-07-16 1991-07-16 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3201520A JPH0520505A (ja) 1991-07-16 1991-07-16 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0520505A true JPH0520505A (ja) 1993-01-29

Family

ID=16442411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3201520A Pending JPH0520505A (ja) 1991-07-16 1991-07-16 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0520505A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
AU2006290162B2 (en) * 2005-09-13 2010-01-28 Fujikura Ltd. Film forming apparatus and method of film formation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6153102A (en) * 1995-02-13 2000-11-28 Aksys, Ltd. Disinfection of dead-ended lines in medical instruments
US20150021245A1 (en) * 2013-07-18 2015-01-22 B. Braun Avitum Ag Extracorporeal blood treatment system with heat recovery

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6153102A (en) * 1995-02-13 2000-11-28 Aksys, Ltd. Disinfection of dead-ended lines in medical instruments
US20150021245A1 (en) * 2013-07-18 2015-01-22 B. Braun Avitum Ag Extracorporeal blood treatment system with heat recovery

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
AU2006290162B2 (en) * 2005-09-13 2010-01-28 Fujikura Ltd. Film forming apparatus and method of film formation
AU2009250961B2 (en) * 2005-09-13 2011-02-24 Fujikura Ltd. Film forming apparatus and method of film formation
AU2009250961B8 (en) * 2005-09-13 2011-03-17 Fujikura Ltd. Film forming apparatus and method of film formation
US7913643B2 (en) 2005-09-13 2011-03-29 Fujikura Ltd. Film forming apparatus and film forming method

Similar Documents

Publication Publication Date Title
US20140064618A1 (en) Document information extraction using geometric models
KR19980042782A (ko) 문자 인식 장치 및 방법
JP2002290714A (ja) スキャナプリンタ統合装置及び文書認証方法
US20060285748A1 (en) Document processing device
JPS5947641A (ja) 名刺デ−タベ−ス作成装置
JPH0520505A (ja) 文字認識装置
JPH05216932A (ja) 情報管理システム
JPH08263587A (ja) 文書入力方法および文書入力装置
JPH06103402A (ja) 名刺認識装置
JP2000148906A (ja) 文書認識装置および郵便区分機
JPS5853393B2 (ja) モジヨミトリソウチ
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP2615834B2 (ja) 単語読取装置
JP2784004B2 (ja) 文字認識装置
JP2924356B2 (ja) 光学文字読取装置
JP2904849B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH02240789A (ja) 文字列切り出し方式
JPH0357506B2 (ja)
JPH10328624A (ja) 文書理解装置および郵便区分機
JPH0589292A (ja) 文字列認識装置
JPH05210635A (ja) 入力装置
JPS5949628B2 (ja) 光学式文字読取装置
JP2813600B2 (ja) 表形式文書読取装置
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体