JPH0375891A - 文書画像認識管理システム - Google Patents

文書画像認識管理システム

Info

Publication number
JPH0375891A
JPH0375891A JP1213928A JP21392889A JPH0375891A JP H0375891 A JPH0375891 A JP H0375891A JP 1213928 A JP1213928 A JP 1213928A JP 21392889 A JP21392889 A JP 21392889A JP H0375891 A JPH0375891 A JP H0375891A
Authority
JP
Japan
Prior art keywords
character
recognition
pattern
dictionary
character pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1213928A
Other languages
English (en)
Inventor
Yasuhisa Nakamura
安久 中村
Toshiaki Morita
森田 敏昭
Yoshihiro Kitamura
義弘 北村
Tadashi Hirose
斉志 広瀬
Hideaki Tanaka
秀明 田中
Hisafumi Saika
尚史 齋鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1213928A priority Critical patent/JPH0375891A/ja
Publication of JPH0375891A publication Critical patent/JPH0375891A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は例えは名刺や帳票などのような特定の項目の
記述がある文書画像をデータベース化することのできる
文書画像認識管理ノステムに関する。
(a)従来の技術 従来この種の文書画像認識管理ノステムは、名刺なとの
定型的な文書の紙面−にに印刷された特定項目と文字と
を光学式文書読取装置により読み取り、特定項目と文字
とを対応させてデータベース化を図っている。例えば、
名刺にあっては、縦書きのものや横書きのちのが存在し
、人名、会社名なとの組織名、その組織の住所や電話番
号なとか各項目ごとに記載されている。
(ハ)発明が解決しようとする課題 しかしながら、−股間に文書に使用されている文字は、
必ずしも明朝体やゴノノク体なとの一定の書体(フォノ
l−)とは限らず、正しく文字認識がおこなわれる保証
は少なく、データヘースを構築するには不具合が多い。
すなわち、例えば名刺では、会社名なとに装飾文字など
を使用している場合である。
名刺はその小さな紙面にてきるかぎりの情報をもつ必要
があり、かつ他のものと区別を容易にするためにも、各
組織で文字のフォントを変えているのが一般的である。
例えば会社名などに使用される装飾文字を認識する場合
は、高性能な認識手法を用いても、認識された文字か正
しい可能性(よ低くなる。通常このような場合は、リノ
エクトといって認識結果としていくつかの候補を表示し
、その中から使用者に正しい文字を選択させる方法や、
その候補中に該当文字が存在しない場合、いわゆるかな
漢字変換機能を使用して正しい文字を人力する方法が用
いられる。
しかしなから、上記の方法にあっては、同様の形態の名
刺に対して常に使用者が同様の処理をおこなう必要性が
生じ、大量の画像を処理する場合には時間かかかり、使
い勝手か悪かった。
この発明は上記の事情を考慮してなされたもので、認識
の困難な文字については、読み取った文字のパターンを
項目ごとに認識辞書に登録することにより、項目なとが
画一的に配列された名刺などの定型的な文書をデータベ
ース化する際の人力作業を向上させることができる文書
画像認識管理ノステムを提供しようとするらのである。
(ニ)課題を解決するための手段 第1図はこの発明の構成を明示するブロック図で、同図
に示すように、この発明は紙面上の文字を含むパターン
を2値画像データに変換する光学式文字読取手段Iと、
光学式文字読取手段1から出力される2値画像データに
存在する文字部分を切り出す文字切り出し手段2と、文
字パターンが記憶されていない空き領域を有するととも
に所定領域に各種文字の文字パターンを記憶した文字認
識辞書手段3と、文字切り出し手段2により切り出され
た文字部分にある文字パターンを文字認識辞書手段3に
記憶された文字パターンに基いて認識しその認識結果及
び確信度を出力する文字認識手段4と、文字認識手段4
から出ツノされる確信度の低い認識結果を所定の文字パ
ターンて文字認識辞書手段3の空き領域に記憶さ0゛る
辞書管理手段5とを備えることを特徴とする文書画像認
識管理ンステムである。
この発明における光学式文字読取手段1は、紙面上に記
された文字なとのパターンをディジタル化し、2値画像
データに変換する乙ので、代表的にはスキャナにて構成
される。
文字切り出し手段2は、2値画像データに存在する文字
部分を切り出すもので、当該分野で公知の構成であって
上い。
文字認識辞書手段3は、各種の文字の文字パタンを記憶
している例えばROMからなる所定領域と、文字パター
ンか記憶されていない例えばRAMからなる空き領域と
て構成すればよい。空き領域に記憶される文字パターン
は、文字認識手段4から出力される確信度の低い認識結
果に対応する文字パターンである。すなわち、所定領域
に記憶された文字パターンとは多少異なる。例えば装飾
文字などの文字パターンがこれに該当する。
辞書管理手段5は、上記した空き領域に文字パターンを
記憶されるらのである。文字パターンを記憶させるにあ
たって、使用者に認識結果を確認させ、その結果問題か
なければ使用者からの指示に従って記憶させるよう構成
すればよい。したがって、辞書管理手段5は、例えばC
RTやLCDなどの表示装置と、記憶すなわち辞書登録
の指示を入力するためのキーボードあるいはマウスなど
のポインティングデハイスなどの入力装置を具備するら
のである。また記憶される文字パターンは、認識結果の
パターンをそのまま使用するのではなく、これを所定領
域に記憶されている文字パターンと同形式の文字パター
ンに変換したものとする。
辞書管理手段5としては、データベース化能を上記とあ
わせて有するホスト計算機ンステムを使用すればよい。
(ホ)作用 文字切り出し手段2は、光学式文字読取手段lから出力
される、紙面上の文字を含むパターンに対応する2値画
像データに存在する文字部分を切り出す。そして切り出
された文字部分にある文字パターンが、文字認識手段4
により、文字認識辞書手段3にある文字パターンと照合
されて認識される。
舌゛1書管理手段5は、文字認識手段4から出力される
確信度の低い認識結果を所定の文字パターンで文字認識
辞書手段3の空き領域に記憶させる。
したがって、上記確信度の低い認R結果と同じ文字パタ
ーンが再度切り出された場合、文字認識辞書手段3にそ
の文字パターンが記憶されているのて、容易に認識でき
る。
(へ)実施例 以下この発明の実施σりを図面にて詳述するが、この発
明は以下の実施例に限定されるものではない。
第2図において、11はスキャナて、紙面上の文書画像
を2値画像データに変換し、その2値画像データを文字
切り出しユニット12及び項目抽出ユニット13に転送
する。文字切り出しユニット12は、転送された2値画
像データより文字を切り出し、その結果を文字認識ユニ
ット14に出力する。項目抽出ユニット13は、転送さ
れた2値画像データがとの項目を示すしのかを、文書レ
イアウト辞書15に記憶された項目ごとの位置情報や項
目を構成する文字列の幅情報などを参照して推定して抽
出する。文字認識ユニットI4は、文字認識辞書16に
記憶された各種の文字パターンに基いて、文字切り出し
ユニット12て切り出された文字部分にある文字パター
ンを認識し、その認識結果と確信度とを後処理ユニット
17に出力する。後処理ユニットI7は、項目抽出ユニ
ット17からの出力と文字認識ユニット14からの出力
より、確信度に対応して認識結果の文字パターンに対応
する文字コードを推定して読み取り、その文字コードを
データベースとして蓄えるホスト計算機システムI8に
出力する。確信度が低い認識結果の場合、後処理ユニッ
ト17はその認識結果の文字パターンをホスト計算機シ
ステムI8に出力する。ホスト計算機システム18は、
CH3 Tデイスプレィ18aを有するとともに、データベース
を蓄える外部記憶装置18bを有する。ホス1−計算機
システム18は、後処理ユニット17から入ノJされる
情報をデータベースの形態に編集するデータベース管理
機能、またはそのような機能を尚たすソフトウェアを有
するものである。
次に第3図を交えてこの実施例の動作について説明する
まずスキャナ11により例えば名刺紙面上の画像か2値
画像データに変換され、文字切り出しユニシトI2及び
項目抽出ユニットI3に転送される。文字切り出しユニ
シト12は2値画像データより順次文字部分を切り出し
くステップエ00)文字認識ユニット14に出力する。
文字認識ユニット14は入力される文字部分にある文字
パターンを認識する(ステップ101)。
後処理ユニット17は、文字認識ユニット14から出力
される確信度に基いて認識結果の判定をおこない(ステ
ップ102) 、その結果確信度が高い認識結果に対し
ては、その認識結果の文字パターンに対応する文字コー
ド゛をホスト計算機システム18に、確信度が高いこと
を示すためにフラグ”i“を“0”にして出力する。ホ
スト計算機システム18は入力された文字コートをフラ
グiとともに外部記憶装置18bに格納する(ステップ
103)。これとは逆に、確信度が低い認識結果の場合
、後処理ユニッ1−17は、認識結果の文字パターンそ
のらのをホスト計算機システム18に、確信度か低いこ
とを示ずfこめにフラグ1を“l”にして出力する。そ
してホスト計算機システム18はその文字パターンに共
通のヘッダを付して画像データとして外部記憶装置17
bに格納する(ステップl04)。
上記ステップ103,1.04て格納される文字コード
または画像データの文字パターンは、ホスト計算機シス
テム18によりCRT I 8 aに表示される(ステ
ップ105)。画像データの文字パターンを表示する場
合、認識結果に対応する文字コードを表示するものであ
ってもよい。
この後、表示された文字コードあるいは文字パターンの
確信度により文字が確定するのかとうか判定され(ステ
ップ106) 、確定した文字コートであればデータヘ
ースへの情報の追加がおこなわれる(ステップ107)
ステップ106において、確信度の低い文字パターンは
文字として確定しないので、画像の修正かおこなわれる
(ステップ108)。画像の修正は、ホスト計算機シス
テムI8において、表示された画像データの文字パター
ンから画像」二のノイズを除去することによりおこなわ
れろ。修正された文字パターンは、使用者かホスト計算
機ノステム18のキーボード(図示しない)から辞書登
録の指示を入力すると、共通のヘッダを有する画像デー
タとして文字認識辞書I6の空き領域に追加記憶(登録
)される(ステップ109)。この時文字パターンは、
文字認識辞616に先に記憶されている文字パターンと
同じ形式の人カバターンデータに変換されるものである
。辞書登録の指示の入力はマウスなとのポインティング
デバイスでなされるものであってもよい。
なお、文字切り出しユニット12ては通常1文字に対応
する文字部分を切り出すものであるが、装飾文字なとの
場合に、2文字に対応する文字部分を同時に切り出すと
、その2文字の文字パターンを認識結果として文字認識
辞書16に登録するちのてあってもよい。
(ト)発明の効果 この発明によれば、名刺などのように表記されている項
目などが画一的である定型的な文書をデータベース化す
る際に、通常の文字書体とは異なる装飾文字などの特殊
なブザイノの文字を、その文字が最初に認識された際の
文字パターンにより文字認識辞書手段に記憶されるのて
、次回から同じ文字を認識することが容易になり、デー
タベス化する際の人力作業を向上させることができる文
書画像認識管理ンステムか得られる。
【図面の簡単な説明】
第1図はこの発明の構成を明示するブロック図、第2図
はこの発明の実施例の構成を示すブロック図、第3図は
実施例の動作を示すフローチャート1 2 である。 光学式文字読取手段、 文字切り出し手段、 文字認識辞書手段、 文字認識手段、  5 辞書管理手段。

Claims (1)

  1. 【特許請求の範囲】 1、紙面上の文字を含むパターンを2値画像データに変
    換する光学式文字読取手段と、 光学式文字読取手段から出力される2値画像データに存
    在する文字部分を切り出す文字切り出し手段と、 文字パターンが記憶されていない空き領域を有するとと
    もに所定領域に各種文字の文字パターンを記憶した文字
    認識辞書手段と、 文字切り出し手段により切り出された文字部分にある文
    字パターンを文字認識辞書手段に記憶された文字パター
    ンに基いて認識しその認識結果及び確信度を出力する文
    字認識手段と、 文字認識手段から出力される確信度の低い認識結果を所
    定の文字パターンで文字認識辞書手段の空き領域に記憶
    させる辞書管理手段と、 を備えることを特徴とする文書画像認識管理システム。
JP1213928A 1989-08-17 1989-08-17 文書画像認識管理システム Pending JPH0375891A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1213928A JPH0375891A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1213928A JPH0375891A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Publications (1)

Publication Number Publication Date
JPH0375891A true JPH0375891A (ja) 1991-03-29

Family

ID=16647365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1213928A Pending JPH0375891A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Country Status (1)

Country Link
JP (1) JPH0375891A (ja)

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
US7705848B2 (en) Method of identifying semantic units in an electronic document
JP4854491B2 (ja) 画像処理装置及びその制御方法
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP3452774B2 (ja) 文字認識方法
JPH0798765A (ja) 方向検出方法および画像解析装置
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
JPH0375891A (ja) 文書画像認識管理システム
JP2008193580A (ja) 情報処理装置
CN110727820B (zh) 一种为图片获得标签的方法和系统
JP2002055985A (ja) 文書属性識別装置及び方法
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2001056857A (ja) 図形の電子化方法
JP3928739B2 (ja) 文書ファイリングシステム
JP2021157627A (ja) 情報処理装置
JPH0375888A (ja) 文書画像認識管理システム
JP2004164376A (ja) 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム
JP3412998B2 (ja) 画像処理装置及びその方法