JPH0375888A - 文書画像認識管理システム - Google Patents

文書画像認識管理システム

Info

Publication number
JPH0375888A
JPH0375888A JP1213929A JP21392989A JPH0375888A JP H0375888 A JPH0375888 A JP H0375888A JP 1213929 A JP1213929 A JP 1213929A JP 21392989 A JP21392989 A JP 21392989A JP H0375888 A JPH0375888 A JP H0375888A
Authority
JP
Japan
Prior art keywords
character
code
recognition result
recognition
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1213929A
Other languages
English (en)
Inventor
Yasuhisa Nakamura
安久 中村
Toshiaki Morita
森田 敏昭
Yoshihiro Kitamura
義弘 北村
Tadashi Hirose
斉志 広瀬
Hideaki Tanaka
秀明 田中
Hisafumi Saika
尚史 齋鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1213929A priority Critical patent/JPH0375888A/ja
Publication of JPH0375888A publication Critical patent/JPH0375888A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は例えば名刺や帳票などのような特定の項目の
記述がある文書画像をデータベース化することのできる
文書画像認識管理システムに関する。
(ロ)従来の技術 従来この種の文書画像認識管理システムは、名刺などの
定型的な文書の紙面上に印刷された特定項目と文字とを
光学式文書読取装置により読み取り、特定項目と文字と
を対応させてデータベース化を図っている。例えば、名
刺にあっては、縦書きのらのや横書きのものが存在し、
人名、会社名などの組織名、その組織の住所や電話番号
などが各項目ごとに記載されている。
(ハ)発明が解決しようとする課題 しかしながら、−股間に文書に使用されている文字は、
必ずしも明朝体やゴノック体なとの一定の書体(フォン
ト)とは限らず、正しく文字認識かおこなわれる保証は
少なく、データヘースを構築するには不具合が多い。す
なわち、例えば名刺では、会社名などに装飾文字などを
使用している場合である。
名刺はその小さな紙面にてきるかぎりの情報をもつ必要
があり、かつ池のちのと区別を容易にするためにも、各
組織で文字のフォントを変えているのが一般的である。
例えば会社名などに使用される装飾文字を認識する場合
は、高性能な認識手法を用いても、認識された文字が正
しい可能性は低くなる。通常このような場合は、リノエ
クトといって認識結果としていくつかの候補を表示し、
その中から使用者に正しい文字を選択させる方法や、そ
の候補中に該当文字か存在しない場合、いわゆるかな漢
字変換機能を使用して正しい文字を入力する方法が用い
られる。
しかしながら、上記の方法にあっては、同様の形態の名
刺に対して常に使用者が同様の処理をおこなう必要性が
生じ、大量の画像を処理する場合には時間がかかり、使
い勝手が悪かった。
この発明は上記の事情を考慮してなされたもので、認識
の困難な文字については、読み取った文字のパターンに
符号を付加して項目ごとに記憶し、所望に応じて修正を
加えろことにより、項目などが画一的に配列された名刺
などの定型的な文書をデータヘース化する際の入力作業
を向上させることかできる文書画像認識管理システムを
提供しようとするものである。
(ニ)課題を解決するための手段 第1図はこの発明の構成を明示するブロック図で、同図
に示すように、この発明は紙面上の文字を含むパターン
を2値画像データに変換する光学式文字読取手段lと、
光学式文字読取手段1から出力される2値画像データに
存在する文字部分を切り出す文字切り出し手段2と、文
字切り出し手段2により切り出された文字部分にある文
字パターンを認識し認識結果及びその確信度を出力する
文字認識手段3と、文字認識手段3から出力される確信
度の低い認識結果に符号を付加する符号付加手段4と、
符号付加手段4により符号が付加された認識結果を記憶
する記憶手段5と、認識結果の修正の指示を入力する入
力手段6と、入力手段6上り認識結果の修正の指示が入
力された際に記憶手段5に記憶された符号の付加された
認識結果を検索する検索手段7と、検索手段7により検
索された認識結果を表示する表示手段8と、表示手段8
に表示された認識結果を入力手段6から入力された認識
結果の修正の指示に基づいて修正ずろ修正手段9とを備
えたことを特徴とする文書画像認識管理システムである
この発明における光学式文字読取手段lは、紙面上に記
された文字などのパターンをデインタル化し、2値画像
データに変換するものて、代表的にはスキャナにて構成
される。
文字切り出し手段2は、2値画像データに存在する文字
部分を切り出すもので、当該分野で公知の構成であって
よい。
文字認識手段3は、たとえば各種の文字の文字パターン
を記憶している文字認識辞書の文字パターンと、文字切
り出し手段2により切り出された文字部分にある文字パ
ターンとを照合して文字パターンを認識し、認識結果及
びその確信度を出力するよう構成されろものである。確
信度は、たとえば切り出された文字部分にある文字パタ
ーンが、明朝体などの書体であれば高くなり、装飾文字
などの場合は低くなる。
符号付加手段4は、確信度の低い認識結果に、文字パタ
ーンに対応する文字コードとは区別できる符号を付加す
るよう構成されている。
記憶手段5は、たとえばRAM、フロッピーディスク装
置、ハードディスク装置などで構成されるものであって
よい。
入力手段6としては、代表的にはキーボードを使用すれ
ばよい。またキーボードとマウスなどのポインティング
デバイスとを相み合せたちのてあってもよい。
表示手段7としては、当該分野で公知の各種の表示装置
、たとえばCRTデイスプレィ、LCDデイスプレィな
どが使用できる。
検索手段7は記憶手段5に記憶された符号を認識結果の
修正の指示が入力された際に検索し、その符号の付加さ
れた認識結果を読み出すよう構成される。
修正手段9は、表示手段8に表示された認識結果、すな
わち、検索された認識結果を入力手段6から入力された
修正の指示に基いて修正するよう構成される。修正の指
示は、修正開始の指示と、修正内容の指示とからなる。
修正内容の指示は、たとえば表示された認識結果に対応
する文字コードの入力あるいはかな漢字変換機能におい
ては読み情報の入力なとである。
上記入力手段6、検索手段7、表示手段8及び修正手段
9は、たとえばデータベース機能を有するホスト計算機
システムにて実施されるものであってもよい。
(ホ)作用 文字切り出し手段2は、光学式文字読取手段Iから出力
される、紙面上の文字を含むパターンに対応する2値画
像データに存在する文字部分を切り出す。そして切り出
された文字部分にある文字パターンが、文字認識手段3
により認識される。
文字認識手段3より出力される確信度の低い認識結果に
は、符号付加手段4にて符号が付加されて、記憶手段5
に記憶される。そして入力手段6から認識結果の修正の
指示が入力されると、検索手段7により符号が付加され
た認識結果が検索され、表示手段8に表示される。
修正手段9は、表示された符号の付加された認識結果を
、入力手段6から入力された修正の指示に基いて修正す
る。
したがって、確信度の低い認識結果の修正の作業性が向
上する。
(へ)実施例 以下この発明の実施例を図面にて詳述するが、一 この発明は以下の実施例に限定されるものてはない。
第2図において、11はスキャナて、、紙面上の文書画
像を2値画像データに変換し、その2値画像データを文
字切り出しユニット12及び項目抽出ユニット13に転
送する。文字切り出しユニット12は、転送された2値
画像データより文字を切り出し、その結果を文字認識ユ
ニット14に出力する。項目抽出ユニットI3は、転送
された2値画像データかどの項目を示すものかを、文書
レイアウト辞書I5に記憶された項目ごとの位置情報や
項目を構成する文字列の幅情報などを参照して推定して
抽出する。文字認識ユニットI4は、その内部にある文
字認識辞書(図示しない)に記憶された各種の文字パタ
ーンに基いて、文字切り出しユニットI2で切り出され
た文字部分にある文字パターンを認識し、その認識結果
と確信度とを後処理ユニット16に出力する。後処理ユ
ニット16は、項目抽出ユニッ1−13からの出力と文
字認識ユニット14からの出力より、確信度に対応して
認識結果の文字パターンに対応する文字コードを推定し
、コード変換ユニット17に出力する。確信度が低い認
識結果は、確信度が低いことを示す符合であるヘッダが
後処理ユニット16により付加されてコード変換ユニッ
ト17の内部に記憶される。また確信度の高い認識結果
は、後処理ユニット16で推定された文字コートがコー
ド変換ユニット17を介してホスト計算機システム18
に転送される。ホスト計算機システム18は、入力装置
としてのキーボード18a1表示装置としてのCRT 
18 b及びデータベースを蓄えるための外部記憶装置
+8cを有している。ホスト計算機システム18は、後
述する機能、かな漢字変換機能及び入力される情報をデ
ータベースの形態に編集するデータベース管理機能、ま
たはそのような機能を満たずソフトウェアを有するもの
である。
次に第3図を交えてこの実施例の動作について説明する
まずスキャナ11により例えば名刺紙面上の画像か2値
画像データに変換され、文字切り出しユニット12及び
項目抽出ユニットI3に転送される。文字切り出しユニ
ット12は2値画像データより順次文字部分を切り出し
くステップ100)文字認識ユニット14に出力する。
文字認識ユニット14は入力される文字部分にある文字
パターンを認識する(ステップ101)。
後処理ユニット16は、文字認識ユニット14から出力
される確信度に基いて認識結果の判定をおこない(ステ
ップ102) 、その結果確信度か高い認識結果に対し
ては、その認識結果に対応する文字コードをホスト計算
機システム18に、コード変換ユニソ)・17を介して
転送する。確信度が低い認識結果については、ステップ
102で認識不可と判定され、後処理ユニッ)+6て認
識結果にヘッダか付加される。そしてヘッダ及びヘッダ
の付加された認識結果は、文字認識ユニット14から入
力されるその認識結果に対応する文字バタンとともにコ
ート変換ユニットI7に格納される(ステップ104)
ステップ103またはステップ104の後、ホスト計算
機システム18のキーボード18aから認識結果の修正
(文字修正)の指示か入力されたかどうかホスト計算機
ソステム18にて判定される(ステップ105)。上記
指示の入力がな(プればステップ101に戻る。
ステップ(05にて修正の指示かあれば、ホスト計算機
システム18はコード変換ユニット17に記憶されたヘ
ッダの付加された認識結果を検索し、その認識結果に対
応する文字パターンをCRT 18bに表示する(ステ
ップ106)。使用者は表示された文字パターンを確認
して、かな漢字変換機能を用いて、その文字パターンに
対応する文字を選択する。そして選択された文字の文字
コードがコード変換ユニット17に転送される。コード
変換ユニット17は、認識結果に対応する文字パターン
とヘッダとを抹消し、認識結果に転送された文字コード
を付加して修正する(ステップ107)。
修正がなされた認識結果はホスト計算機システム18に
よりデータベースに追加登録される(ステップ108)
(ト)発明の効果 この発明によれば、確信度の低い認識結果を使用者の所
望の時期に正しい文字コードに修正できるのて、データ
ベース化する際の入力作業を向上させることができる文
書画像認識管理システムが得られる。
【図面の簡単な説明】
第1図はこの発明の構成を明示するブロック図、第2図
はこの発明の実施例の構成を示すブロック図、第3図は
実施例の動作を示ケフローチャートである。 1・・・・・光学式文字読取手段、 2・・・文字切り出し手段、3 ・・文字認識手段、4
・−・ 符号付加手段、   5・・ 記憶手段、6・
・・入力手段、     7・・・・検索手段、8 ・
・表示手段、     9  修正手段。

Claims (1)

  1. 【特許請求の範囲】 1、紙面上の文字を含むパターンを2値画像データに変
    換する光学式文字読取手段と、 光学式文字読取手段から出力される2値画像データに存
    在する文字部分を切り出す文字切り出し手段と、 文字切り出し手段により切り出された文字部分にある文
    字パターンを認識し認識結果及びその確信度を出力する
    文字認識手段と、 文字認識手段から出力される確信度の低い認識結果に符
    号を付加する符号付加手段と、 符号付加手段により符号が付加された認識結果を記憶す
    る記憶手段と、 認識結果の修正の指示を入力する入力手段と、入力手段
    より認識結果の修正の指示が入力された際に記憶手段に
    記憶された符号の付加された認識結果を検索する検索手
    段と、 検索手段により検索された認識結果を表示する表示手段
    と、 表示手段に表示された認識結果を入力手段から入力され
    た認識結果の修正の指示に基づいて修正する修正手段と を備えたことを特徴とする文書画像認識管理システム。
JP1213929A 1989-08-17 1989-08-17 文書画像認識管理システム Pending JPH0375888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1213929A JPH0375888A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1213929A JPH0375888A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Publications (1)

Publication Number Publication Date
JPH0375888A true JPH0375888A (ja) 1991-03-29

Family

ID=16647380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1213929A Pending JPH0375888A (ja) 1989-08-17 1989-08-17 文書画像認識管理システム

Country Status (1)

Country Link
JP (1) JPH0375888A (ja)

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
US8532384B2 (en) Method of retrieving information from a digital image
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP2005108254A (ja) アイコン生成方法、アイコン選択方法及び文書検索方法
JPH10207988A (ja) 文字認識方法および文字認識装置
JP2006085733A (ja) ファイリング・検索装置およびファイリング・検索方法
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP2008310772A (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2006065477A (ja) 文字認識装置
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH0785080A (ja) 全文書検索システム
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JPH0375888A (ja) 文書画像認識管理システム
JP3958722B2 (ja) イメージデータ文書検索システム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JPH1021043A (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JPH08115330A (ja) 類似文書検索方法および装置