JPH02240788A - 光学式文字読み取り装置 - Google Patents

光学式文字読み取り装置

Info

Publication number
JPH02240788A
JPH02240788A JP1062882A JP6288289A JPH02240788A JP H02240788 A JPH02240788 A JP H02240788A JP 1062882 A JP1062882 A JP 1062882A JP 6288289 A JP6288289 A JP 6288289A JP H02240788 A JPH02240788 A JP H02240788A
Authority
JP
Japan
Prior art keywords
character
document
dictionary
layout
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1062882A
Other languages
English (en)
Inventor
Yasuhisa Nakamura
安久 中村
Toshiaki Morita
敏明 森田
Yoshihiro Kitamura
義弘 北村
Tadashi Hirose
斉志 広瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1062882A priority Critical patent/JPH02240788A/ja
Publication of JPH02240788A publication Critical patent/JPH02240788A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、光学式文字読み取り装置に関し、特に名刺画
像等の特定文書の文書データベースの作成、管理を容易
にする文書レイアウト辞書を具備するものである。
く従来の技術〉 従来、文書データベースを作成する入力手段として、文
字認識装置が知られている。この文字認識装置では、文
字認識の前処理である文字切り出しとして、文字画像の
黒画素の投影をとり文字列を抽出し、その文字列より文
字幅等の情報を用いて文字を切り出し、認識の後処理と
して日本語を解析する為の単語辞書を使用してデータ入
力手段を提供していた。
〈発明の解決しようとする問題点〉 しかし、名刺などの文書では、人名、会社等の組織名、
住所、電話番号などの項目が、様々な、大きさ、文字ピ
ッチ、字体で印刷されている。したがって、上記従来の
文字認識装置では、例えば、電話番号や郵便番号に良く
見られる半角文字や、氏名の上部に見られる、肩書が2
行にわたったものなどが間違って切り出される場合が多
い。またvk処理手段で用いる、日本語を解析するため
の単語辞書は、高度な処理が要求されるため、非常に大
規模なものになるという問題があった。また従来では上
記問題点を解決すべく、個々の処理に特定の文書の形態
を考慮した処理内容を内部プログラムに直接付加して、
性能の向上を図っている。
しかし、この場合は、システム全体が限られた文書の為
のみ有効なものとなり、また高価であることから実用性
に欠けている。
そこで本発明の目的は、上記特定文書に依存した構造を
、各処理手段で、効率良く使用することができ、なおか
つ他の文書に適応させるための追加登録作業が、容易に
できるように設計した文書レイアウト辞書を提供するこ
とで、操作性の向上を図るものである。
く問題を解決する手段〉 上記目的を達成するため、本発明の光学式文書読み取り
装置は、起動時に、外部記憶装置及び外部記憶装置を有
する計算機、または計算機システムから各処理手段で共
通に参照する事ができる共有メモリl二1文書に含まれ
る各項目毎にそのレイアウト情報を意味内容や接続関係
を付加して記憶する文書レイアウト辞書を格納するもの
である。
く作用〉 一例として、名刺の郵便番号の箇所をコードに変換する
場合を示す。文字切り出し部では、切り出した文字がど
の項目に該当するかを、文書レイアウト辞書と比較する
ことで決定する。即ち、郵便番号は名刺の住所の上部に
書かれている場合が非常に多く、このような情報が文書
レイアウト辞書に表現されており、そこの文字画像が郵
便番号の項目であると、推定する。文字後処理部では、
認識結果がその項目に準拠したものであるか、その項目
でキーワードをなす文字が存在するかを調べる。もしキ
ーワードが存在し、尚且つ認識結果が項目の内容を満た
すならば、正しい認識結果とする。例えば文字切り出し
の結果その文字が郵便番号に関するものであったとする
。認識結果として第1位に「甲」、第2位に「〒」が出
力されたとすると、郵便番号には第1位の文字は存在し
ないとして第2位の候補を正解とすることができる。
また文字切り出しに失敗して、r−Jr’l’Jと切り
出したとしても、「T」はこの項目では存在しないとし
て、正しい文字切り出しを行う。また文字の表す項目が
肩書であると推定されれば、肩書に関連した単語辞書「
部」 「課J 「工学」 「博士」「修士」などとマツ
チングすることができ、氏名項目であれば、むしろ単語
処理は効果がないとして、行わないように制御できる。
〈実施例〉 以下、本発明の光学式文字読み取り装置を名刺画像の読
み取りに実施した例を図面を参照しながら詳細に説明す
る。
第り図は、本発明の光学式文字読み取り装置の文書画像
文字認識システム、及びデータベース管理機能を有する
ホスト計算機、及び画像入力装置などのスキャナを接続
したシステムのブロック図であり、lは文書画像を2値
データに変換し2値データをホスト計算機に転送するス
キャナ等の光学系、2は文書画像の上記スキャナ等の光
学系lで読み込んだ2値データより、文字を切り出し、
その文字がどの項目に含まれるかを後述する文書レイア
ウト辞書6を参照して得る文字切り出しユニット、3は
上記文字切り出しユニットで切り出された文字を入力と
し文字候補を生成する文字認識ユニット、4は上記文字
切り出しユニット2で得られた文字が構成する項目と、
文字認識ユニット3で生成された文字候補より正しい結
果を出力する為の日本語解析を行う後処理ユニット、5
は、上記後処理ユニット4より得られた結果をメモリ及
び外部記憶装[7に格納するホスト計算機、6は上記文
字切り出しユニット2、文字認識ユニット3、後処理ユ
ニット4、で参照し得る共有メモリであり、この共有メ
モリにはシステム立ち上がり時に、ホスト計算機の外部
記憶装置7に格納されていた前述の文書レイアウト辞書
がロードされる。ホスト計算機5はデータベースを蓄え
る外部記憶装置7及び、結果を表示するCRTデイスプ
レィ8、認識後処理の結果をデータベースの形態に編集
するデータベース管理機能、またはそのような機能を満
たすソフトウェアを有するものであり、必要に応じてプ
リンタ等(図示せず)に出力するものである。
上記共有メモリ6には、システムが起動されると、文書
レイアウト辞書が格納される。これは第2図に示すよう
に、特定文書に依存しないものと特定文書に依存するも
のを切り分けて使用しており、この2つはお互いにリン
クした構造をなしている。また、名刺画像ではブロック
と項目も階層性を有している。即ち、第3図に示すよう
に、名刺には組織ブロック9、氏名ブロック10、住所
ブロック11に分類され、組織ブロック9には会社名1
2、部署名13などがあり、氏名ブロックには肩書14
、振り仮名15、氏名16があり、住所ブロックには、
見出し17、住所18、郵便番号19、電話番号20が
表されている。
上記各ブロック、及び各項目は第4図に示すように表現
されている。文書レイアウト辞書は、この構造により過
不足なく、冗長性を最小限に押えた形で表現されている
。ここでNAME :はそのブロックまたは項目の名前
、ISA:は上位ブロック(第2図)の名前、5ELF
はブロックまたは項目の特徴、:PART  OF:は
1つ上のレベルの項目(第3図):SIMILARIT
Yは同じレベルの構成要素(第3図)を表している。
またここで辞書の表現に使用しているものは、第5図に
示したように修正改良が容易にできるべく専用の記述方
式を提供している。操作者は第5図の表現を会話的に、
システムに追加できる。これは具体的にデータを表現し
たものでなく、視覚的な情報をそのまま表現できるよう
に考慮しl;ものである。このシステムでは、各ユニッ
トで文書レイアウト辞書を使用する場合は、共有メモリ
に格納されるときに実際の内部で決められた数値データ
に一括して変換されるので、処理速度が上記辞書追加に
よって落ちることはない。
上記実施例による文書レイアウト辞書の構造の文字切り
出しに利用される箇所について第6図、第7図、第8図
、第9図を参照しつつ以下に述べる。第7図は住所項目
を表現した一例で、第6図はそのISA:関係を満たす
部分文字列を表しており、第8図は、第6図の形態を、
第9図は、第7図の形態をそれぞれ表しものである。
第7図では、項目の個数はlである。住所ブロックでは
右端で、最下部に配置されている。同じレベルの項目は
、電話番号と見出しで電話番号とは水平方向に揃ってお
り、見出しは上部に存在する。を示している。
ここでrigh−edge、bottom  end、
horizontal−alignment等の文字列
は、以上で述べた機能を満たすかどうかを調べる関数の
サブルーチンのアドレスを示す。
次に、上記実施例による文書レイアウト辞書の構造の後
処理に関連した処理を述べる。文字認識ユニット3では
文字コードとその文字コードが正しいかどうかの確信度
をある数値で後処理ユニット4に送る。該後処理ユニッ
ト4では、その数値が低い場合、第1O図に示される、
各項目毎の特定単語辞書との照合を行い、認識候補の中
に、該当する文字があれば、その候補の確信度を調べ、
認識結果を確定する。
次に第11図に上記文書レイアウト辞書を有する光学式
文字読み取り装置のシステム動作例を示す。システムが
起動すると、上記文書レイアウト辞書を、外部記憶装置
から共有メモリ6にロードする(S l)。ホスト計算
機は画像入力指示を操作者より受けると(S2)、スキ
ャナから画像を読み込み(S3)、上記共有メモリ6に
画像を転送する(S4) 次に転送された画像から項目
毎に文字列を切り出しくS5)、文字を切り出しくS6
)、文字を認識しくS7)、文字列が上記項目の情報と
矛盾がないかを調べ(S8)、結果を表示する(S9)
。なお、上記実施例では、画像入力手段にスキャナを用
いたがこれをファクシミリで実現しても良い。また上記
各ユニット及びホスト計算機が1つの機器で実現されて
いても良い。
また切り出した文字をホスト計算機に転送し、結果を操
作者にマウスやキーボードやライトペン等のボインティ
ングデイバイス等で確認させるように構成することもで
きるのは、言うまでもない。
〈発明の効果〉 以上の説明で明らかなように、本発明の光学式文書読み
取り装置は、光学系で読み取った画像データより文字を
切り出し、認識しコードを生成する各処理段階において
、文書固有のレイアウトに依存する情報を外部記憶装置
より供給し、特定文書に依存する部分と、そうでない部
分に分割し、視覚的に分かり易い記述方式で表現するこ
とで、文字切り出し手段や、文字認識手段、後処理手段
が、効率良く実行されると共に、操作者に特定文書の文
書レイアウト辞書を容易に提供することが可能になり、
各種文書のデータベース作成に多大な効率を与えるもの
である。
【図面の簡単な説明】
第1図は本発明の光学式文書読み取り装置の概略ブロッ
ク図、第2図、第3図は文書の概念図、第4図、第5図
は、辞書における文書レイアウトの表現方法、第6図は
辞書の記述内容の説明、第7図、第8図、第9図は辞書
の具体的な表現例、第10図は各項目毎の特定単語辞書
、第11図は実施例の処理動作を示している。 ■・・・スキャナ 2・・・文字切り出しニー”7ト 3・・・文字認識ユニット

Claims (1)

  1. 【特許請求の範囲】 2値画像データより1文字の画像領域を抽出する文字切
    り出し手段と、切り出された文字領域のデータより該当
    文字候補のコードを出力する文字認識手段と、認識した
    結果の前後関係から、正しい文字を確定する後処理手段
    を有する、光学式文字読み取り装置において、 記載項目がほぼ画一的である特定文書について、上記文
    書のレイアウト情報をその文書に含まれる各項目毎に、
    意味内容や接続関係を付加して記憶する文書レイアウト
    辞書を具備して、前記文字切り出し手段、前記文字認識
    手段、前記後処理手段が前記レイアウト辞書を参照し処
    理を行うことを特徴とする光学式文字読み取り装置。
JP1062882A 1989-03-14 1989-03-14 光学式文字読み取り装置 Pending JPH02240788A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1062882A JPH02240788A (ja) 1989-03-14 1989-03-14 光学式文字読み取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1062882A JPH02240788A (ja) 1989-03-14 1989-03-14 光学式文字読み取り装置

Publications (1)

Publication Number Publication Date
JPH02240788A true JPH02240788A (ja) 1990-09-25

Family

ID=13213080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1062882A Pending JPH02240788A (ja) 1989-03-14 1989-03-14 光学式文字読み取り装置

Country Status (1)

Country Link
JP (1) JPH02240788A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206985A (ja) * 2006-02-01 2007-08-16 Sharp Corp 文字列抽出装置、文字列抽出方法、そのプログラムおよび記録媒体
US8805074B2 (en) 2010-09-27 2014-08-12 Sharp Laboratories Of America, Inc. Methods and systems for automatic extraction and retrieval of auxiliary document content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206985A (ja) * 2006-02-01 2007-08-16 Sharp Corp 文字列抽出装置、文字列抽出方法、そのプログラムおよび記録媒体
US8805074B2 (en) 2010-09-27 2014-08-12 Sharp Laboratories Of America, Inc. Methods and systems for automatic extraction and retrieval of auxiliary document content

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US7013309B2 (en) Method and apparatus for extracting anchorable information units from complex PDF documents
US5708766A (en) Filing device
Déjean et al. A system for converting PDF documents into structured XML format
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US7668814B2 (en) Document management system
US6510243B1 (en) Image processing apparatus for managing image data
JPH11120185A (ja) 情報処理装置及びその方法
US6175843B1 (en) Method and system for displaying a structured document
JP3683925B2 (ja) 電子ファイリング装置
CN116110051A (zh) 一种文件信息处理方法、装置、计算机设备及存储介质
JPH02240788A (ja) 光学式文字読み取り装置
JPH09282328A (ja) 文書画像処理装置及びその方法
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
US7590936B1 (en) Method for extracting information associated with a search term
JP2007011683A (ja) 文書管理支援装置
JP3928739B2 (ja) 文書ファイリングシステム
JP3470930B2 (ja) 自然語解析方法及び装置
Chen et al. Automating index preparation
Sharpe II et al. Document understanding using layout styles of title page images
JPH04123262A (ja) 表形式データ処理装置
JPH07107711B2 (ja) 文書画像の処理装置
JPH0678119A (ja) 画像ファイリング装置および画像読取処理装置
JP2021157627A (ja) 情報処理装置
Schmidt et al. Knowledge acquisition and representation for document structure recognition: the carol project