JP3190603B2 - 文字読み取り装置、その読み取り方法および記録媒体 - Google Patents

文字読み取り装置、その読み取り方法および記録媒体

Info

Publication number
JP3190603B2
JP3190603B2 JP24144597A JP24144597A JP3190603B2 JP 3190603 B2 JP3190603 B2 JP 3190603B2 JP 24144597 A JP24144597 A JP 24144597A JP 24144597 A JP24144597 A JP 24144597A JP 3190603 B2 JP3190603 B2 JP 3190603B2
Authority
JP
Japan
Prior art keywords
character
type
analysis
character string
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24144597A
Other languages
English (en)
Other versions
JPH1185899A (ja
Inventor
広信 宍戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsubasa System Co Ltd
Original Assignee
Tsubasa System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsubasa System Co Ltd filed Critical Tsubasa System Co Ltd
Priority to JP24144597A priority Critical patent/JP3190603B2/ja
Publication of JPH1185899A publication Critical patent/JPH1185899A/ja
Application granted granted Critical
Publication of JP3190603B2 publication Critical patent/JP3190603B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列が記載され
た原稿画像を読み取り、文字列の字句を解析する文字読
み取り装置、その読み取り方法および記録媒体に関す
る。
【0002】
【従来の技術】文字読み取り装置は、文字列が記載され
た原稿画像をスキャナーにより読み取り、読み取った文
字画像を文字認識して文字コードに変換する。このよう
な文字読み取り装置を使用して、健康保険証や運転免許
証に記載された氏名、住所等の個人関連情報を読み取
り、データベースに読み取った個人関連情報を登録する
ことが可能となったきた。
【0003】データベースは周知のように1レコードを
複数項目のデータで構成し、複数のレコードを集積して
記憶したものである。このため、文字読み取り装置によ
り読み取り、変換した文字コードが上記どの項目に対応
するかを分類しなければならない。
【0004】この対応関係の指示方法は以下の方法が知
られている。
【0005】a)読み取り対象の原稿を文字列の記載位
置が定まっている原稿に限定する。
【0006】原稿上の文字列の記載位置、すなわち、画
像の読み取り領域の位置とこの位置に対応するレコード
の項目の種類を文字読み取り装置に対してユーザが指示
する。文字処理装置では指定された複数の領域の文字を
読み取り、文字コード列に変換して、データベース登録
用のレコードを作成する。
【0007】b)原稿上の文字列の記載内容、たとえ
ば、名刺のように氏名、会社名、住所、電話番号、郵便
番号のように個々の情報が固有名詞や一定の桁数を持つ
数字からなる原稿に、読み取り対象を限定する。
【0008】文字読み取り装置は、固有名詞辞書や人名
辞書、地名辞書等を使用して、読み取った文字列が氏
名、会社名等いずれの項目名に該当するかを解析し、こ
の解析結果に基づきデータベースに登録するレコードを
作成する。
【0009】
【発明が解決しようとする課題】上述のa)の読み取り
条件設定方法では。ユーザが読み取り領域と、この読み
取り領域に記載された文字列の属性をユーザが指示しな
ければならないので、読み取り領域が増えるほどユーザ
の指示操作が煩雑であるという問題がある。
【0010】一方、上述のb)の読み取り条件設定方法
では、原稿に記載された情報の属性が自動判別されるの
で、ユーザの指示操作労力は低減されるが、文字列を解
析するので文字列の属性が増えるほど属性解析に時間が
かかるという問題がある。
【0011】そこで、上述の目的は、本発明の目的は、
上述のb)の問題点を解消し、かつ、ユーザの指示操作
を煩雑化することのない文字読み取り装置、その読み取
り方法および記録媒体を提供することにある。
【0012】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、複数の文字列が記載され
た原稿画像を読み取り、当該読み取られた複数の文字列
を文字認識し、当該文字認識の結果に対して解析処理を
施すことにより、文字列の意味内容の種類を識別し、当
該識別結果に基づいて前記文字認識の結果を分類する文
字読み取り装置において、前記解析処理の対象となる意
味内容の種類と、前記原稿画像上の文字列の個数を前記
意味内容の種類毎に指示する指示手段と、前記複数の文
字列の意味内容の種類が判明する毎に、当該判明の回数
をその種類毎に計数する計数手段と、当該計数の結果が
前記指示手段により指示された前記個数に到達した種類
については、実行すべき解析処理の種類から除外する制
御手段とを具えたことを特徴とする。
【0013】請求項2の発明は、請求項1に記載の文字
読み取り装置において、前記解析処理は、文字列の特徴
を前記意味内容の種類毎に定義した複数の解析ルールを
使用する字句解析処理であることを特徴とする。
【0014】請求項3の発明は、請求項1に記載の文字
読み取り装置において、前記解析処理は、文字列の意味
内容別に該文字列の表記を記載した辞書であることを特
徴とする。
【0015】請求項4の発明は、請求項1に記載の文字
読み取り装置において、文字認識された1つの文字列に
つき、複数の種類の識別結果が得られた場合には、予め
定めた選択基準に基づき、前記複数の種類の識別結果の
中の1つを最終的な識別結果として選択する選択手段を
さらに有することを特徴とする。
【0016】請求項5の発明は、複数の文字列が記載さ
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
文字読み取り装置の文字読み取り方法において、前記解
析処理の対象となる意味内容の種類と、前記原稿画像上
の文字列の個数を前記意味内容の種類毎に前記文字読み
取り装置に対して指示し、文字読み取り装置は、前記複
数の文字列の意味内容の種類が判明する毎に、当該判明
の回数をその種類毎に計数し、当該計数の結果が指示さ
れた前記個数に到達した種類については、実行すべき解
析処理の種類から除外することを特徴とする。
【0017】請求項6の発明は、請求項5に記載の文字
読取装置の文字読み取り方法において、前記解析処理
は、文字列の特徴を前記意味内容の種類毎に定義した複
数の解析ルールを使用する字句解析処理であることを特
徴とする。
【0018】請求項7の発明は、請求項5に記載の文字
読み取り装置の文字読み取り方法において、前記解析処
理は、文字列の意味内容別に該文字列の表記を記載した
辞書であることを特徴とする。
【0019】請求項8の発明は、請求項5に記載の文字
読み取り装置の文字読み取り方法において、前記文字処
理装置は、文字認識された1つの文字列につき、複数の
種類の識別結果が得られた場合には、予め定めた選択基
準に基づき、前記複数の種類の識別結果の中の1つを最
終的な識別結果として選択することを特徴とする。
【0020】請求項9の発明は、複数の文字列が記載さ
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
一連の処理を規定した処理プログラムを文字読み取り装
置内のコンピュータにより実行するために前記処理プロ
グラムを記録した記録媒体において、前記処理プログラ
ムは、前記解析処理の対象となる意味内容の種類と、前
記原稿画像上の文字列の個数を前記意味内容の種類毎に
前記文字読み取り装置に対して指示する処理手順と、前
記複数の文字列の意味内容の種類が判明する毎に、当該
判明の回数をその種類毎に計数する処理手順と、当該計
数の結果が指示された前記個数に到達した種類について
は、実行すべき解析処理の種類から除外する処理手順と
を具えたことを特徴とする。
【0021】請求項10の発明は、請求項9に記載の記
録媒体において、前記解析処理は、文字列の特徴を前記
意味内容の種類毎に定義した複数の解析ルールを使用す
る字句解析処理であることを特徴とする。
【0022】請求項11の発明は、請求項9に記載の記
録媒体において、前記解析処理は、文字列の意味内容別
に該文字列の表記を記載した辞書であることを特徴とす
る。
【0023】請求項12の発明は、請求項9に記載の記
録媒体において、前記処理プログラムは、文字認識され
た1つの文字列につき、複数の種類の識別結果が得られ
た場合には、予め定めた選択基準に基づき、前記複数の
種類の識別結果の中の1つを最終的な識別結果として選
択する処理手順をさらに具えたことを特徴とする。
【0024】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0025】図1は本発明を適用した文字読み取り装置
のシステム構成を示す。図1において、文字読み取り装
置10には汎用パーソナルコンピュータを使用すること
ができる。文字読み取り装置10の本体は以下の回路が
バスに接続されている。入出力インターフェース(I/
O)11はスキャナー20と接続し、スキャナー20に
より読み取られた原稿画像を入力してCPU13に引き
渡す。
【0026】システムメモリ12は、オペレーティング
システム等のシステム制御用のシステムプログラム、デ
ータ、表示用イメージ、演算データ等を記憶する。CP
U13は後述の文字読み取り用プログラムを実行して、
スキャナー20から入力した原稿画像に基づきデータベ
ース登録用のレコードを作成する。また、システムプロ
グラムにしたがってシステム全体の動作制御を行う。通
信インターフェース14はLAN(ローカルエリアネッ
トワーク)等と接続し、他のコンピュータと通信を行
う。
【0027】ハードディスク記憶装置(HDD)15は
システムプログラム、文字読み取り用プログラム、およ
び文字読み取り処理において、ユーザーが情報入力を行
うためのウィンドウ画面等を記憶する。
【0028】フロッピーディスクドライブ(FDD)1
6はフロッピーディスクを受け付け、フロッピーディス
クに対して情報の読み書きを行う。本発明に係る文字読
み取り用のプログラムおよび関連データはフロッピーデ
ィスクからHDD15にインストールされる。入力装置
17はキーボードおよびマウスを有し、情報入力を行
う。ディスプレイ18は読み取り原稿や読み取り条件入
力用のグラフィカルインタフェース、属性解析結果等を
表示する。
【0029】スキャナー20はCCD(固体撮像素子)
により原稿を撮像し、読み取り画像をデジタル信号形態
で文字読み取り装置10に出力する。
【0030】このようなシステム構成の文字読み取り装
置の動作説明に先立って、読み取り条件の設定や読み取
りの指示に使用する画面(グラフィカルインターフェー
ス)を説明する。
【0031】本実施形態では図2に示すような健康保険
被保険者証(保険証と略記する) や図4に示す葉書き等
書式が異なる原稿を読み取り対象とすることができる。
図3は図2の保険証についての読み取り条件を設定する
画面である。101は読み取り条件に与える書式名であ
り、この書式名により読み取り条件の保存、表示等を行
う。
【0032】102は原稿に記載される文字列の種類お
よび重複の個数を設定する欄である。ユーザはレ記号を
マウスの操作により付すことにより項目原稿に記載され
る文字列の種類内容を指示する。また、ユーザはキーボ
ードから数字を入力して同一の種類の文字列数を指示す
る。図3の例では人名、ふりがな、性別、団体名に関す
る文字列がそれぞれ1組あり、識別コードが2組、日付
に関する文字列が2組、地名・住所に関する文字列が5
組あること示している。
【0033】本実施の形態では、解析可能な文字列の種
類をすべて案内表示し、ユーザが解析すべき文字列の種
類内容を図3の画面で選択する。また、原稿に記載され
た文字列の個数を種類毎に図3の画面で選択する。ユー
ザはこれだけの読み取り条件を設定するだけで、以後
は、文字読み取り装置側が読み取りの文字列の種類内容
を自動的に解析して、指定された個数の項目を持つレコ
ードを作成する。
【0034】図4の葉書を読み取るためにユーザが設定
する読み取り条件を図5に参考のために示しておく。図
6は原稿読み取り時のマスク色を設定する画面201を
示す。205は選択可能な色をすべて表示する領域であ
る。206の領域にはサンプルの色が表示され、ユーザ
はマウスによりサンプルを指定することによりマスク色
を指定する。202は設定クリアボタンであり、現在の
設定を初期設定に戻すよう指示するボタンである。20
3はOKボタンであり、現在の設定色を確定するボタン
である。204はキャンセルボタンであり、図6のマス
ク色設定モードをキャンセルし、ウィンドウ画面を消去
するように指示するボタンである。このようなウィンド
ウ画面はカラーピッカーと呼ばれ、画像処理ソフトでよ
く使用される。
【0035】図7はマスク色を設定する画面の第2の例
である。図7において、301は低い解像度で読み取ら
れた原稿画像を表示する領域であり、この領域の特定位
置をマウスでクリックすることによりその位置に対応す
る色をマスク色として設定する。302は画像の読み取
りを指示するためのボタン、303は設定されたマスク
色をクリアするように指示するボタンである。304は
選択されたマスク色を表示する領域である。305は現
在のマスク色の設定の確定を指示するOKボタンであ
り、306はマスク色の設定のキャンセルを指示するボ
タンである。
【0036】本実施の形態ではこのようにして設定した
マスク色で読み取り画像のマスクを行って、カラーの背
景や特定色の文字認識に供さない文字を消去する。
【0037】図8は文字認識の結果と、認識された文字
列の解析結果を表示するウィンドウ画面である。401
は書式名を入力する欄、402はファイルの新規作成を
指示するボタンである。403は編集モードを指示する
ボタン、404は読み取り実行を指示するボタンであ
る。405は文字の種類内容の解析結果を、表示する領
域である。
【0038】ユーザは新規作成ボタン402をマウスに
より指示した後、読み取り実行ボタン404を操作する
と、文字読み取り装置では、スキャナー20に対して画
像の読み取りを指示し、次に読み取り画像の文字認識、
種類内容の解析を行う。その解析結果が文字列の種類内
容(いわゆる属性)と関連させて表示領域405に表示
される。
【0039】この解析結果は、データベースに登録可能
な書式、たとえば、コンマ付きテキスト等各種の書式の
ファイルで保存される。
【0040】次に本実施形態で解析可能な文字列の属性
の種類内容およびその解析ルールについて図9を参照し
て説明する。図9は解析可能な属性の種類内容および解
析ルールを示す。
【0041】a)人名 解析対象の文字列が人名であるか否かを解析するために
は人名辞書が使用される。人名辞書は、姓、名の表記、
この場合、文字コード列を複数記載した辞書であり、H
DD15に格納される。人名辞書の検索により文字認識
の結果得られた文字コード列(解析対象の文字コード
列)と同じ文字コード列が人名辞書に記載されている場
合には、解析対象の文字コード列は人名であると判断さ
れる。
【0042】b)ふりがな ふりがなは解析対象の文字列がすべてひらがなかカタカ
ナで構成されているか否かを判定する。JIS(日本工
業規格)のひらがなの文字コードおよびカタカナの文字
コードは、特定のコード範囲にはいるように制定されて
いるので、解析対象の文字列の個々の文字コードが上記
コード範囲にあるか否かを判定することで、解析対象の
文字列がふりがなかを判別する。
【0043】c)肩書き 肩書きは解析対象の文字列と同じ文字列が専用の肩書き
辞書に記載されているか否かにより判別する。肩書き辞
書は係長、課長等の肩書きを表す文字コード列を記載し
た辞書であり、HDD15に格納される。
【0044】d)年齢 年齢については文字コード列が数字に関する文字コード
で構成されること、かつ文字コードの示す値がたとえ
ば、0以上120以下というように年齢に該当する値の
範囲内にある場合にその文字列は年齢であると判断され
る。なお、文字コードを数値コードに変換する機能はコ
ンピュータが有しているので、この機能を使用して文字
コードを数値変換するとよい。漢字コードやひらがなの
文字コードについては数値変換しようとしたときに不可
の応答がコンピュータから返るので、この場合、解析対
象の文字コード列は年齢ではないと判断することができ
る。 e)性別 性別については、解析対象の文字コード列が「男」、
「女」、「M」、「F」、「Male」、「Femal
e」のいずれかの文字コード列であるか否かを判定す
る。解析対象の文字コード列が上記特定の文字コード列
に合致する場合には解析対象の文字コード列は性別であ
ると判断される。
【0045】地名・住所については解析対象の文字列と
同じ文字列が地名辞書に記載されている場合に解析対象
の文字列は地名・住所と判断される。上記地名辞書は地
名を表す文字コード列を記載した辞書であり、HDD1
5に格納される。
【0046】f)郵便番号 郵便番号については解析対象の文字コード列が数字のみ
もしくは数字と「−」記号で構成されること、かつ数字
の値の範囲が郵便番号に割り当てられた値の範囲(もし
くは桁数の範囲)の条件に合致する場合に解析対象の文
字列は郵便番号であると判断される。
【0047】g)団体名、事業所名、組織・部門名 解析対象の文字列と同一の文字列が団体名辞書、事業所
名辞書、組織・部門名辞書に記載されている場合、解析
対象の文字列は記載の辞書に対応して団体名、事業所
名、組織・部門名と判別する。
【0048】h)電話番号 解析対象の文字列が「電話」、「TE
L」、「(」「)」、「−」の記号を伴う数字の文字列
で構成される文字列は電話番号と判断される。なお、よ
り正確な解析を行う場合には、数字の桁数が電話番号の
桁数と合致しているかをも判定するとよい。
【0049】g)識別コード 解析対象の文字列の中に「第」、「号」「No」のいず
れかの文字コードを含む場合に種別が識別コードと判断
する。このために、解析対象の文字コード列の先頭文字
コードを取り出し、取り出した文字コードが「第」、
「号」の文字コードであるかの一致比較を行う。不一致
判定の場合には先頭の2つの文字コードを解析対象の文
字コード列から取り出し、上記(No)の文字コード列
と一致比較する。上述のいずれかの一致判定において、
一致の判定結果が得られた場合には、解析対象の文字コ
ード列は識別コード判断する。
【0050】h)日付 解析対象の文字列の中に「平成」「昭和」「/」「Ja
n.」等の日付で使用される特定文字列を含み、数字の
値が日付で使用される数値の範囲内にある場合に解析対
象の文字列は日付と判断される。
【0051】i)その他数値 解析対象の文字コードが数字コードで構成される場合種
別がその他数値と判断される。
【0052】j)解析対象の文字列の種別が2つ以上得
られた場合には後述の予め定めた選択基準に基づき種別
を最終決定する。
【0053】以上述べた解析ルールや辞書にしたがっ
て、文字読み取り装置は、文字認識結果の文字列に対し
て解析を行い、その種類を判断する。
【0054】次に本発明に係る文字読み取り処理を図1
0〜図15を参照して説明する。図10は文字読み取り
処理のメイン処理の内容を示し、図11〜図15はメイ
ン処理の中の個別処理の詳細を示す。
【0055】図10から図15に示す処理プログラムは
CPU13が実行可能なプログラム言語で記載され、H
DD15に格納される。この文字読み取りプログラムの
起動が指示されると、文字読み取りプログラムはシステ
ムメモリ12にロードされて、CPU13において実行
される。
【0056】k)読み取り条件の設定 ユーザはメニュー画面においてマウス等により読み取り
条件設定モードを指示する。これにより図3に示すウィ
ンドウ画面が表示される。ユーザは読み取るべき原稿に
記載された文字列の種別および同一種類の文字列の個数
を指示する。指示の終了後は書式名を入力し、保存を指
示する。CPU13は図16の(b)に示すようなテー
ブル形態の読み取り条件ファイルをHDD15に記憶す
る(ステップS10→S20→S30)。なお、マスク
処理に関する設定もステップS30の読み取り条件設定
処理中に行われることは言うまでもない。
【0057】原稿の読み取りを行う場合には、ユーザは
たとえば、図2に示すような原稿をスキャナー20にセ
ットする。ユーザはメニュー画面上で図8のウィンドウ
画面を呼び出す。書式名記入欄401に先ほど記憶した
読み取り条件ファイルの名前をキーボードから入力し
て、読み取り実行ボタンを404をマウスにより操作す
る。この操作に応じてCPU13の実行手順は図10の
ステップS10→S20→S100へと進む。
【0058】CPU13は従来と同様にしてスキャナ−
駆動用のドライバソフトを実行してスキャナー20を制
御し、原稿画像の読み取りを行わせる。読み取られたカ
ラー原稿画像はI/O11を介して文字読み取り装置に
入力され、CPU13によりシステムメモリ12内のワ
ーク領域に一時記憶される。この後、文字認識に好適な
画像を作成するための画像処理が行われる(ステップ1
00)。
【0059】ステップS100の詳細手順を図11に示
す。図11の処理手順では、スキャナー20により読み
取られたカラーの原稿画像が、システムメモリ12に記
憶された後(ステップS1001)、マスク処理および
2値化処理が行われる(ステップS1002)。
【0060】2値化処理により原稿画像データの文字部
分の各画素はビッ1、原稿画像の背景部分の各画素はビ
ット0の値に変換される。
【0061】CPU13は2値化処理後の画像データの
ストローク分布、すなわち、ビット1の分布を調べるこ
とにより文字列領域とその他の空白領域を検出する(ス
テップS1003)。
【0062】次に、原稿が斜めにセットされた場合に生
じる画像の傾斜補正が行われ、罫線画像が除去される
(ステップS1005)。
【0063】図10に戻り、CPU13は上述の処理に
より検出された文字列領域を従来手法によりブロック化
する。本実施の形態ではブロック化とは文字が連続する
文字列を検出し、この文字列と外接するブロック(矩
形)の位置を自動検出する処理を意味する(ステップS
200)。このブロック内の画像が文字認識の対象とな
る。検出されたブロックにはブロック番号が検出順に付
され、図16の(a)に示すようにブロック番号とブロ
ックの座標位置を記載したテーブルAがシステムメモリ
12内のワーク領域に作成される(図12、ステップS
2001〜S2003)。また、図16の(b)に示す
ようなブロック番号に対応させて文字認識結果を記憶す
るためのテーブルBも上記ワーク領域内に作成される。
【0064】CPU13はブロック化された領域の中の
個々の文字画像を文字認識し、文字コードに変換する
(ステップS300)。文字認識結果は上記テーブル
(図15(b)参照)にブロック番号に対応させて格納
される。文字認識処理の詳細手順の一例を図13に示
す。この詳細手順では、ブロック内の画像の濃度ヒスト
グラムを調べ、画像に濃度(階調)の変化がない場合に
はその画像は文字画像と判断し、文字認識を行う(ステ
ップS3001→S3002→S3003→S3004
〜S3006)。一方、画像に濃度変化がある場合に
は、その画像は汚れがあるか、文字画像ではないので、
誤認識を阻止するために文字認識は行わず、画像そのも
のをテーブルBのブロック番号に対応する認識結果記憶
欄に記憶する(ステップS3001→S3002→S3
003→S3004→S3007))。
【0065】CPU13はすべてのブロックの文字認識
を行うと、その文字認識結果の属性解析、すなわち、本
発明に係る意味内容の種類解析を行う(ステップS40
0)。種類解析の詳細を図14および図15に示す。
【0066】CPU13は図16のテーブルBの第1行
目に行ポインタを設定し、第1行目の文字認識結果とし
て記載されている文字列をシステムメモリ12のワーク
領域に取り出す。
【0067】取り出した文字列につき上述した各解析ル
ールと照合し、合致する属性名を図16のテーブルBの
候補属性記載欄に記載する。なお、解析ルール毎に解析
プログラムを用意して、ある1つの解析プログラムを実
行し、解析ルールに合致しないの判定が得られた場合に
は、次の解析プログラムを実行するというようにして、
文字列の字句解析が行われる(ステップS4001→S
4002→S4003→S4004→S4006)。
【0068】図2の健康保険証が読み取られた場合、テ
ーブルBの第1行目に記載されている文字認識結果は
「平成8年3月1日発行」であるので、この文字列は日
付に関する解析プログラムを実行したときに、日付の解
析ルールに合致の判定が得られ、候補属性として「日
付」が与えられる(図16(b)参照)。
【0069】CPU13は特定の解析ルールの合致の判
定が得られた後も図16の現在のテーブルCの示すすべ
ての解析ルールと照合し、解析ルールに文字列の属性を
判別する毎にその属性をテーブルBの候補属性記載欄に
記入していく(ステップS4002〜S4004→S4
006→S4002のループ処理)。また、字句解析終
了後は後述の辞書解析を実行し(ステップS401
0)、辞書解析の終了後、得られた複数の候補属性の中
から予め定めた属性選択基準(後述)に基づき、属性を
決定する(S4011)。
【0070】一方、選択された字句解析プログラムを実
行して、解析ルールに合致せずの判定が得られた場合に
は(ステップS4004のNO判定)、他の解析プログ
ラムを選択して、字句解析を続ける(ステップ4004
→S4006→S4002)。字句解析の後は辞書解析
処理が行われる(ステップS4002→S4010)。
【0071】図2の原稿の第1行目の認識文字列に関す
る候補属性としては「日付」のみが得られるので、「日
付」が最終的な属性と自動決定され、図17の(b)に
示すように属性記載欄に決定結果が記入される。また、
日付に関するテーブルCの設定値が現在の“3”から
“2”に更新(デクリメント、日付について得られた識
別結果の個数の計数と同等)される(図16(c)、図
17(b)参照)。ここで注意して欲しい点は上記属性
の設定値が1以上となっている場合には、その属性につ
いての字句解析あるいは辞書解析が行われ、属性の設定
値が0になると(特定の種類の識別結果の計数結果が、
設定値に到達したことと同等)、その属性は解析の対象
から外されるという点である。従来では、解析に使用さ
れる字句解析ルールは辞書の個数は固定であるのに対
し、本実施形態では使用する解析ルールや辞書の数が減
少していくので、解析処理時間が大幅に減少する。
【0072】図16のテーブルCの第1行目の認識文字
列の解析が終了すると、CPU13は第2行目の認識文
字列を解析の対象に選択し、上述の解析処理を実行す
る。テーブルCの第1行目から第4行目までの認識文字
列は図14の字句解析処理において、解析結果が得られ
るが、第5行目の認識文字列は、属性が人名であるの
で、図14の字句解析処理で解析結果が得られないまま
(ステップS4002のYES判定)、ステップS40
10の辞書解析処理に手順が進む。
【0073】辞書解析処理の詳細を図15に示す。
【0074】CPU13はテーブルCの示す第1番目の
辞書(この場合、人名辞書)を解析に使用する辞書とし
て選択する(ステップS5010)。CPU13は、第
5行目の認識文字列をシステムメモリ12のワーク領域
上に取り出して、以下の辞書解析を行う。
【0075】人名解析の一例を紹介すると、取り出した
文字列の第1番目の文字を抽出し(ステップS503
0)、第1番目の文字について選択された辞書を検索す
る。たとえば、氏名辞書を検索し、第1番目の文字と同
じ文字が姓として記載されている場合には、認識文字列
は氏名であることが検出される(ステップS504
0)。
【0076】第1番目の文字と同じ文字が辞書に記載さ
れていない場合には、次にワーク領域に取り出した文字
列の第1番目の文字と第2番目の文字を組み合わせ、こ
の組み合わせ文字列について選択の辞書を参照する。こ
のようにして、記載文字列が判明するまで、組み合わせ
の文字を増やして行く(ステップS5030→S504
0→S5050→S5070→S5030のループ処
理)。
【0077】取り出した認識文字列の文字のすべての組
み合わせを検索しても記載がない場合には、選択した辞
書を第2番目の辞書に変更して、記載の有無確認を行う
(ステップS5080→S5090→S5030→S5
040)。
【0078】このようにして、認識文字列が記載された
辞書の種類、換言すると認識文字列の属性を検出すると
CPU13は図17のテーブルBの候補属性記載欄に検
出した属性を記入する(ステップS5060)。以下、
選択辞書を変更して残りの辞書についても認識文字列の
記載の有無を確認する(ステップS5060→S509
0〜S5095→S5030→S5040)。
【0079】以上述べた字句解析や辞書解析により複数
の候補属性、たとえば、「人名」および「地名」のよう
な複数の候補属性が得られる場合がある(図18(a)
第12行、第13行参照、このときのテーブルCの内容
を図18(b)に示す)。このような場合には、予め選
択基準を設け、その選択基準に基づき複数の候補属性の
中から属性を1つ決定する。
【0080】選択基準の一例を紹介する。図16(c)
の符号に記載する属性の種類に重み(あるいは優先順
位)を予め定めておき、複数の候補属性の重みを比較す
る。これにより重みの最も大きい候補属性を最終の属性
と決定することができる。この重みは、固定化してもよ
いし、読み取り条件で設定された属性の個数の値を使用
してもよい。この例では、「人名」が1、「地名(・住
所)」が5に初期設定されているので(図16(c)参
照)、属性として重みが大きい地名・住所が属性として
決定される(図14のステップS4011)。
【0081】このようにして、テーブルCに記入された
すべての行の認識文字列について、字句解析および辞書
解析を行うと、CPU13は図14および図15の処理
手順を終了し、テーブルBに記載された属性(決定済)
を図8の符号405に示すように表示する(図10のス
テップS500)。
【0082】ユーザはこの表示を見て、もし、修正の必
要があれば、ワープロ文書の修正と同様にして、文字の
修正を行って、データベース登録用のデータを作成する
(ステップS500→S600)。最後に、従来と同様
にして、作成されたデータをデータベースに登録して
(ステップS700)、図10の処理手順を終了する。
【0083】以上の述べた実施形態の他に次の形態を実
施できる。
【0084】1)本実施の形態では、マスク処理により
文字列の解析に不要な原稿画像を消去しているが、ユー
ザが指示した領域を原稿画像から消去し、消去処理後の
原稿画像に対して文字認識処理を施すことも可能であ
る。
【0085】2)上述の実施の形態では、意味内容の種
類、個数をマウスやキーボードにより指示されている
が、他のコンピュータとの通信により他のコンピュータ
から指示を受けたり、他のアプリケーションプログラム
から指示を受けてもよい。さらには原稿の種類毎に指示
すべきデータ(種類、個数)をデータベースに登録して
おき、読み取り原稿の種類に対応させてデータベースか
ら指示データを取り出すようにしてもよい。
【0086】以上の例では、他のコンピュータ、プログ
ラム、データベースが本発明の指示手段となる。
【0087】
【発明の効果】以上、説明したように、請求項1、5、
9の発明によれば、人名、ふりがな等各種の解析の種類
と、原稿上の文字列の種類数を指定する。たとえば、原
稿画像上の人名の文字列の種類数が1と指示され、人名
の識別が終了すると、以後、他の文字列の解析において
人名についての解析は行われない。従来では、全ての文
字列に対して、全種類の解析を行っていたので、実行す
べき解析の種類が減少することにより解析処理時間の短
縮化が図られる。また、単に文字列の個数と、種類の指
定操作だけを行えばよいので、ユーザは読み取り領域の
位置と属性の指定の関連付けなどの煩雑な従来行われて
いた指定操作を行う必要はない。
【0088】請求項2、6、10の発明では字句解析を
行うことにより、ふりがな、年齢、性別といった文字列
の種類を識別できる。
【0089】請求項3、7、11の発明では、辞書を使
用した解析を行うことにより、氏名、人名・住所といた
文字列を識別できる。
【0090】請求項4、8、12の発明では、実行可能
な解析処理の種類の中で、解析を行い、複数の識別結果
を取得しておき、その候補の中から最終的な識別結果を
取得するので、たとえば、地名や人名に共通する文字列
についての誤解析を極力減らすことができる。
【図面の簡単な説明】
【図1】本発明実施形態のシステム構成を示すブロック
図である。
【図2】読み取り対象の原稿の一例を示す説明図であ
る。
【図3】読み取り条件を設定するグラフィカルインター
フェースの設定内容を示す説明図である。
【図4】読み取り対象の原稿の他の例を示す説明図であ
る。
【図5】読み取り条件を設定するグラフィカルインター
フェースの設定内容を示す説明図である。
【図6】マスク色設定のためのグラフィカルインタフェ
ースの表示内容を示す説明図である。
【図7】原稿画像のプレビューを行うためのグラフィカ
ルインタフェースの表示内容を示す説明図である。
【図8】解析結果の表示内容を示す説明図である。
【図9】文字列の解析に使用する辞書および解析ルール
を示す説明図である。
【図10】CPU13が実行する処理手順を示すフロー
チャートである。
【図11】CPU13が実行する処理手順を示すフロー
チャートである。
【図12】CPU13が実行する処理手順を示すフロー
チャートである。
【図13】CPU13が実行する処理手順を示すフロー
チャートである。
【図14】CPU13が実行する処理手順を示すフロー
チャートである。
【図15】CPU13が実行する処理手順を示すフロー
チャートである。
【図16】属性解析に使用するテーブルの構成および記
載内容を示す説明図である。
【図17】テーブルB、Cの記載内容の変化を示す説明
図である。
【図18】テーブルB、Cの記載内容の変化を示す説明
図である。
【符号の説明】
10 文字読み取り装置 11 I/O 12 システムメモリ 13 CPU 14 通信インタフェース 15 HDD 16 FDD 17 入力装置 18 ディスプレイ

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の文字列が記載された原稿画像を読
    み取り、当該読み取られた複数の文字列を文字認識し、
    当該文字認識の結果に対して解析処理を施すことによ
    り、文字列の意味内容の種類を識別し、当該識別結果に
    基づいて前記文字認識の結果を分類する文字読み取り装
    置において、 前記解析処理の対象となる意味内容の種類と、前記原稿
    画像上の文字列の個数を前記意味内容の種類毎に指示す
    る指示手段と、 前記複数の文字列の意味内容の種類が判明する毎に、当
    該判明の回数をその種類毎に計数する計数手段と、 当該計数の結果が前記指示手段により指示された前記個
    数に到達した種類については、実行すべき解析処理の種
    類から除外する制御手段とを具えたことを特徴とする文
    字読み取り装置。
  2. 【請求項2】 請求項1に記載の文字読み取り装置にお
    いて、前記解析処理は、文字列の特徴を前記意味内容の
    種類毎に定義した複数の解析ルールを使用する字句解析
    処理であることを特徴とする文字読み取り装置。
  3. 【請求項3】 請求項1に記載の文字読み取り装置にお
    いて、前記解析処理は、文字列の意味内容別に該文字列
    の表記を記載した辞書であることを特徴とする文字読み
    取り装置。
  4. 【請求項4】 請求項1に記載の文字読み取り装置にお
    いて、文字認識された1つの文字列につき、複数の種類
    の識別結果が得られた場合には、予め定めた選択基準に
    基づき、前記複数の種類の識別結果の中の1つを最終的
    な識別結果として選択する選択手段をさらに有すること
    を特徴とする文字読み取り装置。
  5. 【請求項5】 複数の文字列が記載された原稿画像を読
    み取り、当該読み取られた複数の文字列を文字認識し、
    当該文字認識の結果に対して解析処理を施すことによ
    り、文字列の意味内容の種類を識別し、当該識別結果に
    基づいて前記文字認識の結果を分類する文字読み取り装
    置の文字読み取り方法において、 前記解析処理の対象となる意味内容の種類と、前記原稿
    画像上の文字列の個数を前記意味内容の種類毎に前記文
    字読み取り装置に対して指示し、 前記文字読み取り装置は、 前記複数の文字列の意味内容の種類が判明する毎に、当
    該判明の回数をその種類毎に計数し、 当該計数の結果が指示された前記個数に到達した種類に
    ついては、実行すべき解析処理の種類から除外すること
    を特徴とする文字読み取り装置の文字読み取り方法。
  6. 【請求項6】 請求項5に記載の文字読み取り装置の文
    字読み取り方法において、前記解析処理は、文字列の特
    徴を前記意味内容の種類毎に定義した複数の解析ルール
    を使用する字句解析処理であることを特徴とする文字読
    み取り装置の文字読み取り方法。
  7. 【請求項7】 請求項5に記載の文字読み取り装置の文
    字読み取り方法において、前記解析処理は、文字列の意
    味内容別に該文字列の表記を記載した辞書であることを
    特徴とする文字読み取り装置の文字読み取り方法。
  8. 【請求項8】 請求項5に記載の文字読み取り装置の文
    字読み取り方法において、前記文字処理装置は、文字認
    識された1つの文字列につき、複数の種類の識別結果が
    得られた場合には、予め定めた選択基準に基づき、前記
    複数の種類の識別結果の中の1つを最終的な識別結果と
    して選択することを特徴とする文字読み取り装置の文字
    読み取り方法。
  9. 【請求項9】 複数の文字列が記載された原稿画像を読
    み取り、当該読み取られた複数の文字列を文字認識し、
    当該文字認識の結果に対して解析処理を施すことによ
    り、文字列の意味内容の種類を識別し、当該識別結果に
    基づいて前記文字認識の結果を分類する一連の処理を規
    定した処理プログラムを文字読み取り装置内のコンピュ
    ータにより実行するために前記処理プログラムを記録し
    た記録媒体において、前記処理プログラムは、 前記解析処理の対象となる意味内容の種類と、前記原稿
    画像上の文字列の個数を前記意味内容の種類毎に前記文
    字読み取り装置に対して指示する処理手順と、 前記複数の文字列の意味内容の種類が判明する毎に、当
    該判明の回数をその種類毎に計数する処理手順と、 当該計数の結果が指示された前記個数に到達した種類に
    ついては、実行すべき解析処理の種類から除外する処理
    手順とを具えたことを特徴とする記録媒体。
  10. 【請求項10】 請求項9に記載の記録媒体において、
    前記解析処理は、文字列の特徴を前記意味内容の種類毎
    に定義した複数の解析ルールを使用する字句解析処理で
    あることを特徴とする記録媒体。
  11. 【請求項11】 請求項9に記載の記録媒体において、
    前記解析処理は、文字列の意味内容別に該文字列の表記
    を記載した辞書であることを特徴とする記録媒体。
  12. 【請求項12】 請求項9に記載の記録媒体において、
    前記処理プログラムは、文字認識された1つの文字列に
    つき、複数の種類の識別結果が得られた場合には、予め
    定めた選択基準に基づき、前記複数の種類の識別結果の
    中の1つを最終的な識別結果として選択する処理手順を
    さらに具えたことを特徴とする記録媒体。
JP24144597A 1997-09-05 1997-09-05 文字読み取り装置、その読み取り方法および記録媒体 Expired - Fee Related JP3190603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24144597A JP3190603B2 (ja) 1997-09-05 1997-09-05 文字読み取り装置、その読み取り方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24144597A JP3190603B2 (ja) 1997-09-05 1997-09-05 文字読み取り装置、その読み取り方法および記録媒体

Publications (2)

Publication Number Publication Date
JPH1185899A JPH1185899A (ja) 1999-03-30
JP3190603B2 true JP3190603B2 (ja) 2001-07-23

Family

ID=17074422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24144597A Expired - Fee Related JP3190603B2 (ja) 1997-09-05 1997-09-05 文字読み取り装置、その読み取り方法および記録媒体

Country Status (1)

Country Link
JP (1) JP3190603B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4631133B2 (ja) * 2000-06-09 2011-02-16 コニカミノルタビジネステクノロジーズ株式会社 文字認識処理のための装置、方法及び記録媒体
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP4871889B2 (ja) * 2008-01-18 2012-02-08 株式会社日立ソリューションズ 表認識方法及び表認識装置
JP5628710B2 (ja) * 2011-03-03 2014-11-19 Sky株式会社 日付領域判定システムおよび日付領域判定プログラム

Also Published As

Publication number Publication date
JPH1185899A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
US5802534A (en) Apparatus and method for editing text
US6501864B1 (en) Data medium handling apparatus and data medium handling method
US8270721B2 (en) Method and system for acquiring data from machine-readable documents
US6400845B1 (en) System and method for data extraction from digital images
JP4356847B2 (ja) フィールド定義情報生成方法、ならびび、フィールド定義情報生成装置
EP1986106A2 (en) Decision criteria for automated form population
WO2006002009A2 (en) Document management system with enhanced intelligent document recognition capabilities
JPS63155386A (ja) 帳票デ−タ読取装置
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
JP3190603B2 (ja) 文字読み取り装置、その読み取り方法および記録媒体
JP2003242441A (ja) 帳票処理方法および装置並びにプログラム
JP2000231505A (ja) データオブジェクト群の自動命名方法およびその記憶媒体
JPH1011443A (ja) 文書符号検査システム
JPH06103411A (ja) 文書読取装置
JP3930466B2 (ja) 文字認識装置、文字認識プログラム
JP3487523B2 (ja) 文書処理装置
JP3335863B2 (ja) 文字入力簡易化装置及び方法
JPH10187751A (ja) 認識データ処理装置およびそのプログラム記録媒体
JP3221968B2 (ja) 文字認識装置
JP2006252575A (ja) 財務諸表自動入力装置及び財務諸表自動入力方法
JP7480536B2 (ja) 文書処理装置及びプログラム
JPH0689330A (ja) 画像ファイリングシステム
JPH06195343A (ja) 文書格納表示方式
JPH0562008A (ja) 文字認識方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090518

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100518

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 12

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees