JPH02240789A - 文字列切り出し方式 - Google Patents

文字列切り出し方式

Info

Publication number
JPH02240789A
JPH02240789A JP1062883A JP6288389A JPH02240789A JP H02240789 A JPH02240789 A JP H02240789A JP 1062883 A JP1062883 A JP 1062883A JP 6288389 A JP6288389 A JP 6288389A JP H02240789 A JPH02240789 A JP H02240789A
Authority
JP
Japan
Prior art keywords
character
item
string
segmenting
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1062883A
Other languages
English (en)
Inventor
Yasuhisa Nakamura
安久 中村
Toshiaki Morita
森田 敏昭
Yoshihiro Kitamura
義弘 北村
Tadashi Hirose
斉志 広瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1062883A priority Critical patent/JPH02240789A/ja
Publication of JPH02240789A publication Critical patent/JPH02240789A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、文字認識装置を利用して、名刺等の文書デー
タベースを作成し、そのデータベースを運用する文書デ
ータベース管理システムにおける文字認識装置の前処理
部の文字切り出し方式の改良に関する。
く従来の技術〉 従来、文書データベースを作成する入力手段として、項
目推定を持たない文字認識装置が知られている。この文
字認識装置は、文字認識前処理である文字切り出し方法
として、文字画像の黒画素の投影をとり文字列を抽出し
、その文字列より文字幅等の情報を用いて文字切り出し
を実現し、文字認識部に生成した文字枠の位置情報や切
り出した文字画像を送る事によりおこなわれていた。
〈発明の解決しようとする問題点〉 ところが名刺には横型、縦型があり、個々の名刺には人
名、組織名(会社名)、住所、電話番号などが記載され
ている。そしてそこには様々な大きさ、ピッチ、字体で
印刷されている文字が記載されている。しかし上記従来
の文字認識装置では、文字行切り出し手段に、文字画像
の黒画素の投影をとる方法を用いたり、文字切り出し手
段に文字幅等の情報を用いたりしているため、同一行に
大きさの違う文字が混在している場合や、文字行の方向
が縦横混在している文書画像に対しては、正しい文字切
り出しが実現されない。そのため、従来では、上記文字
切り出しの問題点を解決する為に、文字認識結果を情報
として文字切り出し部にフィードバックし、より正しい
文字切り出しを実現している。しかしながらこの方式で
は、文字認識部に多大な負担をかけ、またシステムの処
理時間もかなり増大するという問題点がある。そこで、
本発明の目的は、文字切り出しの前処理として、文字列
を抽出した後、あらかじめ備え付けられている文書レイ
アウト辞書を利用し、文字列などの項目を推定する手段
を設けることにより、最適な文字枠の切り出しを高速に
実現できる機能を提供することである。
〈問題点を解決するための手段〉 上記目的を達成するため、本発明の文字切り出し方式は
、文書画像の2値データから1文字のデータ領域を抽出
する文字切り出し手段と、切り出された文字領域のデー
タから対応する文字コードの候補を出力する文字認識手
段と、文書画像の2値データ文字列について、項目毎に
その位置情報と意味内容との対応関係を示すレイアウト
辞書と。
該レイアウト辞書を参照して上記2値データから項目毎
の文字列を推定し切り出す項目推定手段とを備え、該項
目推定手段で生成される各項目毎の文字列を前記文字切
り出し手段に送り、項目文字列毎に文字枠の切り出しを
行うようにし、文書画像の2値データから文字列をその
意味内容を含めた形で切り出し、文字切り出し部分の負
担を少なくしたことを特徴としている。
く作用〉 一例として、名刺画像の郵便番号の文字列を切り出す場
合を示す。項目推定部はその名刺画像で位置情報や、文
字画像の黒画素の分布を上記レイアウト辞書を利用して
、その文字列が郵便番号であると推定する。具体的には
名刺画像の縦型のものにおいては名刺の右下の文字分布
(以下ブロックという)の6または〒等のマークが上に
ありその下に、543等の算用数字が並んでいる場合、
その文字画像の名刺上の位置を辞書と比較し、そこに記
載されている項目が郵便番号であること、及び横方向の
「〒」、「543」という文字列があることを項目推定
部が推定し文字切り出し部に文字列の座標値と、「〒」
は郵便番号のマークらしい、「543」は算用数字らし
いので、半角の可能性がある、文字数は3〜6であるな
どその文字列の意味内容等の情報を渡す。これらの情報
を基に文字切り出し部は項目推定部から得られる情報を
もちいて、「〒」、「5」、「4」、「3」という個々
の文字を切り出すように作用する。即ち、この場合は文
字列として2行にわたっているが、それがなんらかの意
味を有するものとしてとらえられるので、後処理の負担
が減少し、文字と文字が接触、またはオーバーラツプし
ているといった場合でも簡単な処理機能を追加する事で
問題の解決を図ることができる。
〈実施例〉 以下、本発明の実施例を図面を用いて詳細に説明する。
尚本発明は、名刺、葉書の宛名側部所定位置に所定内容
が記述された文書画像全般に適用可能であるが、以下名
刺に適用した場合について説明する。
第1図は本発明の名刺画像における光学式文字読み取り
装置の文字列切り出し手法を採用した文書画像文字認識
システム、及びデータベース管理機能を有するホスト計
算機、及び画像入力装置としてのスキャナを接続したシ
ステムのブロック図であり、1は文書画像を2値データ
に変換し2値デ一タ針ホスト計算機に転送するスキャナ
等の光学系、2は文書画像のレイアウト情報を格納した
レイアウト辞書2aを有し、上記スキャナ等の光学系1
で取り込んだ文書画像の各文字列を抽出しその文字列の
意味内容を推定する項目推定ユニット、3は上記項目推
定ユニット2で得られた文字列より文字を切り出す文字
切り出しユニット、4は上記文字切り出しユニット3で
切り出された文字画像ないしは文字位置を入力とし、文
字候補を文字コードの形で生成する文字認識ユニット、
5は上記項目推定ユニット2で得られた文字列とその意
味内容、及び上記文字認識ユニット4で生成された文字
候補より正しい文字を確定するIIkj&理ユニット、
6は上記後処理ユニット5より得られた結果をメモリ及
び外部記憶装置21に格納するホスト計算機である。
ホスト計算機6はデータベースを蓄える外部記憶装置2
1及び、結果を表示するCRTデイスプレィ22にも接
続されており、認識後処理の結果をデータベースの形態
に編集するデータベース管理機能、又はそのような機能
を満たすソフトウェアを内部に有しており、入力データ
や各種処理結果を必要に応じてプリンタ等に出力するも
のである。 第2図は項目推定ユニット2のメモリ部に
格納されているレイアウト辞書のデータ配置の一例を示
す図であり、名刺の場合はブロックに関する領域7と、
項目に関する領域8に分けて格納されている。ここでブ
ロックとは項目の上位概念であり、複数の項目がかたま
って1つのブロックが形成されている。
第3図は名刺の場合のレイアウト辞書のブロックと項目
の階層関係を示す図である。中段のブロックに下段の項
目が階層的につながれており、お互いにポインタで結合
されている。即ち、第3図に示すように、名刺は組織ブ
ロック9、氏名ブロック10.住所ブロック11に分類
され、組織ブロック9は会社名12、部署名13などの
項目に、氏名ブロックlOは肩書14、振り仮名15、
氏名16等の項目に、及び住所ブロック11は、見出し
I7、住所I8、郵便番号19、電話番号20等の項目
にそれぞれ分類される。
第4図は項目とその項目を特定するための要素との関連
を示す図であり、最上段の横方向に項目24を縦方向に
要素23を項目毎に示している。
要素23は個数の最小値、最大値、相対位置、上位ブロ
ック名、半角文字の存在数、文字列方向、文字列数、文
字数等項目を特定する情報で構成される。
第4図に示す例では、項目「肩書」25は、個数がO〜
3で、相対位置は上部にあり、上位ブロック名は氏名で
、半角文字は存在せず、2文字以上の1個の文字列で成
り、文字列の方向が主方向であること、を示している。
上記第1〜第3図に示す内容がレイアウト辞書として項
目推定ユニット2内のメモリに記憶されている。
次に、第5図の動作70−図を参照しながら本発明の動
作について説明する。
まず上記2値化された画像が項目推定ユニット2に送ら
れる(S l)。項目推定ユニット2では、まず最小矩
形を切り出す(S2)、最小矩形とは文字、写真、マー
ク、罫線をそれを含む最小の矩形で近似したものであり
、以下の処理の基本データとなるものである。次にノイ
ズ、罫線、マークを除去する(S3)。これはあらかじ
め定められた文字や文字の1部の大きさに該当しないも
のを除去するものである。次にあらかじめ与えられた主
文字方向に投影を取り仮文字列を生成しメモリに書き込
む(S4)。主文字方向とは主な文字列が縦方向か横方
向かを示したものである。また仮文字列とはその記載さ
れている項目にかかわらず、−行を切り出したものをい
う。ここで幅がある値より小さい等文字列として妥当で
ない仮文字列を除去する(S5)。
更に得られた仮の文字列どうしの近いものを統合し、上
記組織ブロック9、氏名ブロックIO1住所ブロック1
1を得る(S6)。上記組織ブロック9では、文字ピッ
チの推移をみて文字列を切り出す(S7)。また氏名ブ
ロックlOでは肩書と氏名を構成する最小矩形のなかで
、肩書と氏名を構成するものを矩形の幅の情報を使用し
分離し、それぞれで文字列を抽出する(S8)。
即ち、ここでは文字の大きさが肩書が小さく、氏名が大
きい事を基本的な情報に使用している。
また住所ブロック11では突き出した見出し、郵便番号
を分離し、それぞれで文字列を抽出する(S9)。分離
する方法としては、主文字方向と垂直に投影を取り、投
影値0の長さの分布を取り板部分ブロックに分離する。
そして板部分ブロックごとに主文字方向に投影を取り、
上記各項目毎に分離し、その後上記項目毎に文字列の抽
出を行う。
その後、座標値に、項目名に対応した番号と文字切り出
しパラメータ等を補足情報として追加しくS l O)
 、それらを文字切り出し部に送る(S11)。
文字切り出しパラメータは各文字列に含まれる文字の縦
横比を表したもので、通常の漢字の場合と電話郵便番号
の数字部分で値が違う事を考慮したものである。そのた
め、例えば算用数字が半角サイズで2文字が接触してい
る場合や、縦型名刺に多く見られる漢数字の一二三等の
分離文字に対しても、あらかじめ決められた個数の数字
列の長さと文字幅の推移をチエツクすることで分離する
かどうかを余り計算時間をかける事なく決定できる。即
ち、認識手段の性能いかん、にかかわらず切り出しがか
なり精度良く行えるのである。
もちろん上記処理を施しても完全に決定する事ができな
い場合もあり、その場合認識ユニットに複数の文字画像
を与えてその結果で文字コードを決定するが、上記処理
を施さない場合に比べて結果を出力する時間は明らかに
減少する。
なお、上記実施例では、画像入力手段にスキャナlを用
いた用いた場合を示したが、これをファクシミリで実現
しても良い。また上記各ユニット及びホスト計算機が1
つの機器で実現されていても良い。また切り出した文字
枠をホスト計算機に転送し、結果を操作者にマウスやキ
ーボードやライトペンなどのポインティングデバイス等
で修正・確認させるように構成することもできる。
〈発明の効果〉 以上の説明で明らかなように本発明の文字切り出し方式
は、光学系で読み取った2値の画像データより文字を切
り出す際、文書を特定するレイアウト情報を文字切り出
しの重要な情報として使用するようにしたので、文字切
り出し部や文字認識部の負担を最小限に押えることが可
能になり、特に名刺画像のような様々な文字の大きさ、
字体、ピッチ、幅が存在する場合に適用すれば大きな効
果を発揮する。
【図面の簡単な説明】
第1図は本発明を採用したシステムの概略ブロック図、
第2図はレイアウト辞書のデータ配置図、第3図はレイ
アウト辞書の階層関係を示す図、第4図は名刺画像の項
目と要素の関係を示す図、及び第5図は本発明の動作フ
ロー図をそれぞれ示す。 2I・・・外部記憶装置 22・・・デイスプレィ

Claims (1)

    【特許請求の範囲】
  1. 文書画像の2値データから1文字のデータ領域を抽出す
    る文字切り出し手段と、切り出された文字領域のデータ
    から対応する文字コードの候補を出力する文字認識手段
    と、文書画像の2値データ文字列について、項目毎にそ
    の位置情報と意味内容との対応関係を示すレイアウト辞
    書と、該レイアウト辞書を参照して上記2値データから
    項目毎の文字列を推定し切り出す項目推定手段とを備え
    、該項目推定手段で生成される各項目毎の文字列を前記
    文字切り出し手段に送り、項目文字列毎に文字枠の切り
    出しを行うようにしたことを特徴とする文字列切り出し
    方式。
JP1062883A 1989-03-14 1989-03-14 文字列切り出し方式 Pending JPH02240789A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1062883A JPH02240789A (ja) 1989-03-14 1989-03-14 文字列切り出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1062883A JPH02240789A (ja) 1989-03-14 1989-03-14 文字列切り出し方式

Publications (1)

Publication Number Publication Date
JPH02240789A true JPH02240789A (ja) 1990-09-25

Family

ID=13213106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1062883A Pending JPH02240789A (ja) 1989-03-14 1989-03-14 文字列切り出し方式

Country Status (1)

Country Link
JP (1) JPH02240789A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014068770A1 (ja) * 2012-11-02 2014-05-08 株式会社日立製作所 データ抽出方法、データ抽出装置及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014068770A1 (ja) * 2012-11-02 2014-05-08 株式会社日立製作所 データ抽出方法、データ抽出装置及びそのプログラム
JPWO2014068770A1 (ja) * 2012-11-02 2016-09-08 株式会社日立製作所 データ抽出方法、データ抽出装置及びそのプログラム

Similar Documents

Publication Publication Date Title
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
EP1739574B1 (en) Method of identifying words in an electronic document
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
EP0544434B1 (en) Method and apparatus for processing a document image
CA2077604C (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US6351559B1 (en) User-enclosed region extraction from scanned document images
CN101443790A (zh) 数字图像中的非回流内容的有效处理
Dori et al. The representation of document structure: A generic object-process analysis
US20190005325A1 (en) Identification of emphasized text in electronic documents
JP3683925B2 (ja) 電子ファイリング装置
JPH02240789A (ja) 文字列切り出し方式
JP3841318B2 (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
CN110727820B (zh) 一种为图片获得标签的方法和系统
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JPH02240788A (ja) 光学式文字読み取り装置
JP2001056857A (ja) 図形の電子化方法
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JPH05174185A (ja) 日本語文字認識装置
Said Automatic processing of documents and bank cheques
Sharpe II et al. Document understanding using layout styles of title page images
JP2021157627A (ja) 情報処理装置
JPH0375891A (ja) 文書画像認識管理システム
JP3243389B2 (ja) 文書識別方法
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器