JP3190603B2

JP3190603B2 - 文字読み取り装置、その読み取り方法および記録媒体

Info

Publication number: JP3190603B2
Application number: JP24144597A
Authority: JP
Inventors: 広信宍戸
Original assignee: Tsubasa System Co Ltd
Current assignee: Tsubasa System Co Ltd
Priority date: 1997-09-05
Filing date: 1997-09-05
Publication date: 2001-07-23
Anticipated expiration: 2017-09-05
Also published as: JPH1185899A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列が記載され
た原稿画像を読み取り、文字列の字句を解析する文字読
み取り装置、その読み取り方法および記録媒体に関す
る。

【０００２】

【従来の技術】文字読み取り装置は、文字列が記載され
た原稿画像をスキャナーにより読み取り、読み取った文
字画像を文字認識して文字コードに変換する。このよう
な文字読み取り装置を使用して、健康保険証や運転免許
証に記載された氏名、住所等の個人関連情報を読み取
り、データベースに読み取った個人関連情報を登録する
ことが可能となったきた。

【０００３】データベースは周知のように１レコードを
複数項目のデータで構成し、複数のレコードを集積して
記憶したものである。このため、文字読み取り装置によ
り読み取り、変換した文字コードが上記どの項目に対応
するかを分類しなければならない。

【０００４】この対応関係の指示方法は以下の方法が知
られている。

【０００５】ａ）読み取り対象の原稿を文字列の記載位
置が定まっている原稿に限定する。

【０００６】原稿上の文字列の記載位置、すなわち、画
像の読み取り領域の位置とこの位置に対応するレコード
の項目の種類を文字読み取り装置に対してユーザが指示
する。文字処理装置では指定された複数の領域の文字を
読み取り、文字コード列に変換して、データベース登録
用のレコードを作成する。

【０００７】ｂ）原稿上の文字列の記載内容、たとえ
ば、名刺のように氏名、会社名、住所、電話番号、郵便
番号のように個々の情報が固有名詞や一定の桁数を持つ
数字からなる原稿に、読み取り対象を限定する。

【０００８】文字読み取り装置は、固有名詞辞書や人名
辞書、地名辞書等を使用して、読み取った文字列が氏
名、会社名等いずれの項目名に該当するかを解析し、こ
の解析結果に基づきデータベースに登録するレコードを
作成する。

【０００９】

【発明が解決しようとする課題】上述のａ）の読み取り
条件設定方法では。ユーザが読み取り領域と、この読み
取り領域に記載された文字列の属性をユーザが指示しな
ければならないので、読み取り領域が増えるほどユーザ
の指示操作が煩雑であるという問題がある。

【００１０】一方、上述のｂ）の読み取り条件設定方法
では、原稿に記載された情報の属性が自動判別されるの
で、ユーザの指示操作労力は低減されるが、文字列を解
析するので文字列の属性が増えるほど属性解析に時間が
かかるという問題がある。

【００１１】そこで、上述の目的は、本発明の目的は、
上述のｂ）の問題点を解消し、かつ、ユーザの指示操作
を煩雑化することのない文字読み取り装置、その読み取
り方法および記録媒体を提供することにある。

【００１２】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、複数の文字列が記載され
た原稿画像を読み取り、当該読み取られた複数の文字列
を文字認識し、当該文字認識の結果に対して解析処理を
施すことにより、文字列の意味内容の種類を識別し、当
該識別結果に基づいて前記文字認識の結果を分類する文
字読み取り装置において、前記解析処理の対象となる意
味内容の種類と、前記原稿画像上の文字列の個数を前記
意味内容の種類毎に指示する指示手段と、前記複数の文
字列の意味内容の種類が判明する毎に、当該判明の回数
をその種類毎に計数する計数手段と、当該計数の結果が
前記指示手段により指示された前記個数に到達した種類
については、実行すべき解析処理の種類から除外する制
御手段とを具えたことを特徴とする。

【００１３】請求項２の発明は、請求項１に記載の文字
読み取り装置において、前記解析処理は、文字列の特徴
を前記意味内容の種類毎に定義した複数の解析ルールを
使用する字句解析処理であることを特徴とする。

【００１４】請求項３の発明は、請求項１に記載の文字
読み取り装置において、前記解析処理は、文字列の意味
内容別に該文字列の表記を記載した辞書であることを特
徴とする。

【００１５】請求項４の発明は、請求項１に記載の文字
読み取り装置において、文字認識された１つの文字列に
つき、複数の種類の識別結果が得られた場合には、予め
定めた選択基準に基づき、前記複数の種類の識別結果の
中の１つを最終的な識別結果として選択する選択手段を
さらに有することを特徴とする。

【００１６】請求項５の発明は、複数の文字列が記載さ
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
文字読み取り装置の文字読み取り方法において、前記解
析処理の対象となる意味内容の種類と、前記原稿画像上
の文字列の個数を前記意味内容の種類毎に前記文字読み
取り装置に対して指示し、文字読み取り装置は、前記複
数の文字列の意味内容の種類が判明する毎に、当該判明
の回数をその種類毎に計数し、当該計数の結果が指示さ
れた前記個数に到達した種類については、実行すべき解
析処理の種類から除外することを特徴とする。

【００１７】請求項６の発明は、請求項５に記載の文字
読取装置の文字読み取り方法において、前記解析処理
は、文字列の特徴を前記意味内容の種類毎に定義した複
数の解析ルールを使用する字句解析処理であることを特
徴とする。

【００１８】請求項７の発明は、請求項５に記載の文字
読み取り装置の文字読み取り方法において、前記解析処
理は、文字列の意味内容別に該文字列の表記を記載した
辞書であることを特徴とする。

【００１９】請求項８の発明は、請求項５に記載の文字
読み取り装置の文字読み取り方法において、前記文字処
理装置は、文字認識された１つの文字列につき、複数の
種類の識別結果が得られた場合には、予め定めた選択基
準に基づき、前記複数の種類の識別結果の中の１つを最
終的な識別結果として選択することを特徴とする。

【００２０】請求項９の発明は、複数の文字列が記載さ
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
一連の処理を規定した処理プログラムを文字読み取り装
置内のコンピュータにより実行するために前記処理プロ
グラムを記録した記録媒体において、前記処理プログラ
ムは、前記解析処理の対象となる意味内容の種類と、前
記原稿画像上の文字列の個数を前記意味内容の種類毎に
前記文字読み取り装置に対して指示する処理手順と、前
記複数の文字列の意味内容の種類が判明する毎に、当該
判明の回数をその種類毎に計数する処理手順と、当該計
数の結果が指示された前記個数に到達した種類について
は、実行すべき解析処理の種類から除外する処理手順と
を具えたことを特徴とする。

【００２１】請求項１０の発明は、請求項９に記載の記
録媒体において、前記解析処理は、文字列の特徴を前記
意味内容の種類毎に定義した複数の解析ルールを使用す
る字句解析処理であることを特徴とする。

【００２２】請求項１１の発明は、請求項９に記載の記
録媒体において、前記解析処理は、文字列の意味内容別
に該文字列の表記を記載した辞書であることを特徴とす
る。

【００２３】請求項１２の発明は、請求項９に記載の記
録媒体において、前記処理プログラムは、文字認識され
た１つの文字列につき、複数の種類の識別結果が得られ
た場合には、予め定めた選択基準に基づき、前記複数の
種類の識別結果の中の１つを最終的な識別結果として選
択する処理手順をさらに具えたことを特徴とする。

【００２４】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。

【００２５】図１は本発明を適用した文字読み取り装置
のシステム構成を示す。図１において、文字読み取り装
置１０には汎用パーソナルコンピュータを使用すること
ができる。文字読み取り装置１０の本体は以下の回路が
バスに接続されている。入出力インターフェース（Ｉ／
Ｏ）１１はスキャナー２０と接続し、スキャナー２０に
より読み取られた原稿画像を入力してＣＰＵ１３に引き
渡す。

【００２６】システムメモリ１２は、オペレーティング
システム等のシステム制御用のシステムプログラム、デ
ータ、表示用イメージ、演算データ等を記憶する。ＣＰ
Ｕ１３は後述の文字読み取り用プログラムを実行して、
スキャナー２０から入力した原稿画像に基づきデータベ
ース登録用のレコードを作成する。また、システムプロ
グラムにしたがってシステム全体の動作制御を行う。通
信インターフェース１４はＬＡＮ（ローカルエリアネッ
トワーク）等と接続し、他のコンピュータと通信を行
う。

【００２７】ハードディスク記憶装置（ＨＤＤ）１５は
システムプログラム、文字読み取り用プログラム、およ
び文字読み取り処理において、ユーザーが情報入力を行
うためのウィンドウ画面等を記憶する。

【００２８】フロッピーディスクドライブ（ＦＤＤ）１
６はフロッピーディスクを受け付け、フロッピーディス
クに対して情報の読み書きを行う。本発明に係る文字読
み取り用のプログラムおよび関連データはフロッピーデ
ィスクからＨＤＤ１５にインストールされる。入力装置
１７はキーボードおよびマウスを有し、情報入力を行
う。ディスプレイ１８は読み取り原稿や読み取り条件入
力用のグラフィカルインタフェース、属性解析結果等を
表示する。

【００２９】スキャナー２０はＣＣＤ（固体撮像素子）
により原稿を撮像し、読み取り画像をデジタル信号形態
で文字読み取り装置１０に出力する。

【００３０】このようなシステム構成の文字読み取り装
置の動作説明に先立って、読み取り条件の設定や読み取
りの指示に使用する画面（グラフィカルインターフェー
ス）を説明する。

【００３１】本実施形態では図２に示すような健康保険
被保険者証（保険証と略記する) や図４に示す葉書き等
書式が異なる原稿を読み取り対象とすることができる。
図３は図２の保険証についての読み取り条件を設定する
画面である。１０１は読み取り条件に与える書式名であ
り、この書式名により読み取り条件の保存、表示等を行
う。

【００３２】１０２は原稿に記載される文字列の種類お
よび重複の個数を設定する欄である。ユーザはレ記号を
マウスの操作により付すことにより項目原稿に記載され
る文字列の種類内容を指示する。また、ユーザはキーボ
ードから数字を入力して同一の種類の文字列数を指示す
る。図３の例では人名、ふりがな、性別、団体名に関す
る文字列がそれぞれ１組あり、識別コードが２組、日付
に関する文字列が２組、地名・住所に関する文字列が５
組あること示している。

【００３３】本実施の形態では、解析可能な文字列の種
類をすべて案内表示し、ユーザが解析すべき文字列の種
類内容を図３の画面で選択する。また、原稿に記載され
た文字列の個数を種類毎に図３の画面で選択する。ユー
ザはこれだけの読み取り条件を設定するだけで、以後
は、文字読み取り装置側が読み取りの文字列の種類内容
を自動的に解析して、指定された個数の項目を持つレコ
ードを作成する。

【００３４】図４の葉書を読み取るためにユーザが設定
する読み取り条件を図５に参考のために示しておく。図
６は原稿読み取り時のマスク色を設定する画面２０１を
示す。２０５は選択可能な色をすべて表示する領域であ
る。２０６の領域にはサンプルの色が表示され、ユーザ
はマウスによりサンプルを指定することによりマスク色
を指定する。２０２は設定クリアボタンであり、現在の
設定を初期設定に戻すよう指示するボタンである。２０
３はＯＫボタンであり、現在の設定色を確定するボタン
である。２０４はキャンセルボタンであり、図６のマス
ク色設定モードをキャンセルし、ウィンドウ画面を消去
するように指示するボタンである。このようなウィンド
ウ画面はカラーピッカーと呼ばれ、画像処理ソフトでよ
く使用される。

【００３５】図７はマスク色を設定する画面の第２の例
である。図７において、３０１は低い解像度で読み取ら
れた原稿画像を表示する領域であり、この領域の特定位
置をマウスでクリックすることによりその位置に対応す
る色をマスク色として設定する。３０２は画像の読み取
りを指示するためのボタン、３０３は設定されたマスク
色をクリアするように指示するボタンである。３０４は
選択されたマスク色を表示する領域である。３０５は現
在のマスク色の設定の確定を指示するＯＫボタンであ
り、３０６はマスク色の設定のキャンセルを指示するボ
タンである。

【００３６】本実施の形態ではこのようにして設定した
マスク色で読み取り画像のマスクを行って、カラーの背
景や特定色の文字認識に供さない文字を消去する。

【００３７】図８は文字認識の結果と、認識された文字
列の解析結果を表示するウィンドウ画面である。４０１
は書式名を入力する欄、４０２はファイルの新規作成を
指示するボタンである。４０３は編集モードを指示する
ボタン、４０４は読み取り実行を指示するボタンであ
る。４０５は文字の種類内容の解析結果を、表示する領
域である。

【００３８】ユーザは新規作成ボタン４０２をマウスに
より指示した後、読み取り実行ボタン４０４を操作する
と、文字読み取り装置では、スキャナー２０に対して画
像の読み取りを指示し、次に読み取り画像の文字認識、
種類内容の解析を行う。その解析結果が文字列の種類内
容（いわゆる属性）と関連させて表示領域４０５に表示
される。

【００３９】この解析結果は、データベースに登録可能
な書式、たとえば、コンマ付きテキスト等各種の書式の
ファイルで保存される。

【００４０】次に本実施形態で解析可能な文字列の属性
の種類内容およびその解析ルールについて図９を参照し
て説明する。図９は解析可能な属性の種類内容および解
析ルールを示す。

【００４１】ａ）人名解析対象の文字列が人名であるか否かを解析するために
は人名辞書が使用される。人名辞書は、姓、名の表記、
この場合、文字コード列を複数記載した辞書であり、Ｈ
ＤＤ１５に格納される。人名辞書の検索により文字認識
の結果得られた文字コード列（解析対象の文字コード
列）と同じ文字コード列が人名辞書に記載されている場
合には、解析対象の文字コード列は人名であると判断さ
れる。

【００４２】ｂ）ふりがなふりがなは解析対象の文字列がすべてひらがなかカタカ
ナで構成されているか否かを判定する。ＪＩＳ（日本工
業規格）のひらがなの文字コードおよびカタカナの文字
コードは、特定のコード範囲にはいるように制定されて
いるので、解析対象の文字列の個々の文字コードが上記
コード範囲にあるか否かを判定することで、解析対象の
文字列がふりがなかを判別する。

【００４３】ｃ）肩書き肩書きは解析対象の文字列と同じ文字列が専用の肩書き
辞書に記載されているか否かにより判別する。肩書き辞
書は係長、課長等の肩書きを表す文字コード列を記載し
た辞書であり、ＨＤＤ１５に格納される。

【００４４】ｄ）年齢年齢については文字コード列が数字に関する文字コード
で構成されること、かつ文字コードの示す値がたとえ
ば、０以上１２０以下というように年齢に該当する値の
範囲内にある場合にその文字列は年齢であると判断され
る。なお、文字コードを数値コードに変換する機能はコ
ンピュータが有しているので、この機能を使用して文字
コードを数値変換するとよい。漢字コードやひらがなの
文字コードについては数値変換しようとしたときに不可
の応答がコンピュータから返るので、この場合、解析対
象の文字コード列は年齢ではないと判断することができ
る。ｅ）性別性別については、解析対象の文字コード列が「男」、
「女」、「Ｍ」、「Ｆ」、「Ｍａｌｅ」、「Ｆｅｍａｌ
ｅ」のいずれかの文字コード列であるか否かを判定す
る。解析対象の文字コード列が上記特定の文字コード列
に合致する場合には解析対象の文字コード列は性別であ
ると判断される。

【００４５】地名・住所については解析対象の文字列と
同じ文字列が地名辞書に記載されている場合に解析対象
の文字列は地名・住所と判断される。上記地名辞書は地
名を表す文字コード列を記載した辞書であり、ＨＤＤ１
５に格納される。

【００４６】ｆ）郵便番号郵便番号については解析対象の文字コード列が数字のみ
もしくは数字と「−」記号で構成されること、かつ数字
の値の範囲が郵便番号に割り当てられた値の範囲（もし
くは桁数の範囲）の条件に合致する場合に解析対象の文
字列は郵便番号であると判断される。

【００４７】ｇ）団体名、事業所名、組織・部門名解析対象の文字列と同一の文字列が団体名辞書、事業所
名辞書、組織・部門名辞書に記載されている場合、解析
対象の文字列は記載の辞書に対応して団体名、事業所
名、組織・部門名と判別する。

【００４８】ｈ）電話番号解析対象の文字列が「電話」、「ＴＥ
Ｌ」、「（」「）」、「−」の記号を伴う数字の文字列
で構成される文字列は電話番号と判断される。なお、よ
り正確な解析を行う場合には、数字の桁数が電話番号の
桁数と合致しているかをも判定するとよい。

【００４９】ｇ）識別コード解析対象の文字列の中に「第」、「号」「Ｎｏ」のいず
れかの文字コードを含む場合に種別が識別コードと判断
する。このために、解析対象の文字コード列の先頭文字
コードを取り出し、取り出した文字コードが「第」、
「号」の文字コードであるかの一致比較を行う。不一致
判定の場合には先頭の２つの文字コードを解析対象の文
字コード列から取り出し、上記（Ｎｏ）の文字コード列
と一致比較する。上述のいずれかの一致判定において、
一致の判定結果が得られた場合には、解析対象の文字コ
ード列は識別コード判断する。

【００５０】ｈ）日付解析対象の文字列の中に「平成」「昭和」「／」「Ｊａ
ｎ．」等の日付で使用される特定文字列を含み、数字の
値が日付で使用される数値の範囲内にある場合に解析対
象の文字列は日付と判断される。

【００５１】ｉ）その他数値解析対象の文字コードが数字コードで構成される場合種
別がその他数値と判断される。

【００５２】ｊ）解析対象の文字列の種別が２つ以上得
られた場合には後述の予め定めた選択基準に基づき種別
を最終決定する。

【００５３】以上述べた解析ルールや辞書にしたがっ
て、文字読み取り装置は、文字認識結果の文字列に対し
て解析を行い、その種類を判断する。

【００５４】次に本発明に係る文字読み取り処理を図１
０〜図１５を参照して説明する。図１０は文字読み取り
処理のメイン処理の内容を示し、図１１〜図１５はメイ
ン処理の中の個別処理の詳細を示す。

【００５５】図１０から図１５に示す処理プログラムは
ＣＰＵ１３が実行可能なプログラム言語で記載され、Ｈ
ＤＤ１５に格納される。この文字読み取りプログラムの
起動が指示されると、文字読み取りプログラムはシステ
ムメモリ１２にロードされて、ＣＰＵ１３において実行
される。

【００５６】ｋ）読み取り条件の設定ユーザはメニュー画面においてマウス等により読み取り
条件設定モードを指示する。これにより図３に示すウィ
ンドウ画面が表示される。ユーザは読み取るべき原稿に
記載された文字列の種別および同一種類の文字列の個数
を指示する。指示の終了後は書式名を入力し、保存を指
示する。ＣＰＵ１３は図１６の（ｂ）に示すようなテー
ブル形態の読み取り条件ファイルをＨＤＤ１５に記憶す
る（ステップＳ１０→Ｓ２０→Ｓ３０）。なお、マスク
処理に関する設定もステップＳ３０の読み取り条件設定
処理中に行われることは言うまでもない。

【００５７】原稿の読み取りを行う場合には、ユーザは
たとえば、図２に示すような原稿をスキャナー２０にセ
ットする。ユーザはメニュー画面上で図８のウィンドウ
画面を呼び出す。書式名記入欄４０１に先ほど記憶した
読み取り条件ファイルの名前をキーボードから入力し
て、読み取り実行ボタンを４０４をマウスにより操作す
る。この操作に応じてＣＰＵ１３の実行手順は図１０の
ステップＳ１０→Ｓ２０→Ｓ１００へと進む。

【００５８】ＣＰＵ１３は従来と同様にしてスキャナ−
駆動用のドライバソフトを実行してスキャナー２０を制
御し、原稿画像の読み取りを行わせる。読み取られたカ
ラー原稿画像はＩ／Ｏ１１を介して文字読み取り装置に
入力され、ＣＰＵ１３によりシステムメモリ１２内のワ
ーク領域に一時記憶される。この後、文字認識に好適な
画像を作成するための画像処理が行われる（ステップ１
００）。

【００５９】ステップＳ１００の詳細手順を図１１に示
す。図１１の処理手順では、スキャナー２０により読み
取られたカラーの原稿画像が、システムメモリ１２に記
憶された後（ステップＳ１００１）、マスク処理および
２値化処理が行われる（ステップＳ１００２）。

【００６０】２値化処理により原稿画像データの文字部
分の各画素はビッ１、原稿画像の背景部分の各画素はビ
ット０の値に変換される。

【００６１】ＣＰＵ１３は２値化処理後の画像データの
ストローク分布、すなわち、ビット１の分布を調べるこ
とにより文字列領域とその他の空白領域を検出する（ス
テップＳ１００３）。

【００６２】次に、原稿が斜めにセットされた場合に生
じる画像の傾斜補正が行われ、罫線画像が除去される
（ステップＳ１００５）。

【００６３】図１０に戻り、ＣＰＵ１３は上述の処理に
より検出された文字列領域を従来手法によりブロック化
する。本実施の形態ではブロック化とは文字が連続する
文字列を検出し、この文字列と外接するブロック（矩
形）の位置を自動検出する処理を意味する（ステップＳ
２００）。このブロック内の画像が文字認識の対象とな
る。検出されたブロックにはブロック番号が検出順に付
され、図１６の（ａ）に示すようにブロック番号とブロ
ックの座標位置を記載したテーブルＡがシステムメモリ
１２内のワーク領域に作成される（図１２、ステップＳ
２００１〜Ｓ２００３）。また、図１６の（ｂ）に示す
ようなブロック番号に対応させて文字認識結果を記憶す
るためのテーブルＢも上記ワーク領域内に作成される。

【００６４】ＣＰＵ１３はブロック化された領域の中の
個々の文字画像を文字認識し、文字コードに変換する
（ステップＳ３００）。文字認識結果は上記テーブル
（図１５（ｂ）参照）にブロック番号に対応させて格納
される。文字認識処理の詳細手順の一例を図１３に示
す。この詳細手順では、ブロック内の画像の濃度ヒスト
グラムを調べ、画像に濃度（階調）の変化がない場合に
はその画像は文字画像と判断し、文字認識を行う（ステ
ップＳ３００１→Ｓ３００２→Ｓ３００３→Ｓ３００４
〜Ｓ３００６）。一方、画像に濃度変化がある場合に
は、その画像は汚れがあるか、文字画像ではないので、
誤認識を阻止するために文字認識は行わず、画像そのも
のをテーブルＢのブロック番号に対応する認識結果記憶
欄に記憶する（ステップＳ３００１→Ｓ３００２→Ｓ３
００３→Ｓ３００４→Ｓ３００７））。

【００６５】ＣＰＵ１３はすべてのブロックの文字認識
を行うと、その文字認識結果の属性解析、すなわち、本
発明に係る意味内容の種類解析を行う（ステップＳ４０
０）。種類解析の詳細を図１４および図１５に示す。

【００６６】ＣＰＵ１３は図１６のテーブルＢの第１行
目に行ポインタを設定し、第１行目の文字認識結果とし
て記載されている文字列をシステムメモリ１２のワーク
領域に取り出す。

【００６７】取り出した文字列につき上述した各解析ル
ールと照合し、合致する属性名を図１６のテーブルＢの
候補属性記載欄に記載する。なお、解析ルール毎に解析
プログラムを用意して、ある１つの解析プログラムを実
行し、解析ルールに合致しないの判定が得られた場合に
は、次の解析プログラムを実行するというようにして、
文字列の字句解析が行われる（ステップＳ４００１→Ｓ
４００２→Ｓ４００３→Ｓ４００４→Ｓ４００６）。

【００６８】図２の健康保険証が読み取られた場合、テ
ーブルＢの第１行目に記載されている文字認識結果は
「平成８年３月１日発行」であるので、この文字列は日
付に関する解析プログラムを実行したときに、日付の解
析ルールに合致の判定が得られ、候補属性として「日
付」が与えられる（図１６（ｂ）参照）。

【００６９】ＣＰＵ１３は特定の解析ルールの合致の判
定が得られた後も図１６の現在のテーブルＣの示すすべ
ての解析ルールと照合し、解析ルールに文字列の属性を
判別する毎にその属性をテーブルＢの候補属性記載欄に
記入していく（ステップＳ４００２〜Ｓ４００４→Ｓ４
００６→Ｓ４００２のループ処理）。また、字句解析終
了後は後述の辞書解析を実行し（ステップＳ４０１
０）、辞書解析の終了後、得られた複数の候補属性の中
から予め定めた属性選択基準（後述）に基づき、属性を
決定する（Ｓ４０１１）。

【００７０】一方、選択された字句解析プログラムを実
行して、解析ルールに合致せずの判定が得られた場合に
は（ステップＳ４００４のＮＯ判定）、他の解析プログ
ラムを選択して、字句解析を続ける（ステップ４００４
→Ｓ４００６→Ｓ４００２）。字句解析の後は辞書解析
処理が行われる（ステップＳ４００２→Ｓ４０１０）。

【００７１】図２の原稿の第１行目の認識文字列に関す
る候補属性としては「日付」のみが得られるので、「日
付」が最終的な属性と自動決定され、図１７の（ｂ）に
示すように属性記載欄に決定結果が記入される。また、
日付に関するテーブルＣの設定値が現在の“３”から
“２”に更新（デクリメント、日付について得られた識
別結果の個数の計数と同等）される（図１６（ｃ）、図
１７（ｂ）参照）。ここで注意して欲しい点は上記属性
の設定値が１以上となっている場合には、その属性につ
いての字句解析あるいは辞書解析が行われ、属性の設定
値が０になると（特定の種類の識別結果の計数結果が、
設定値に到達したことと同等）、その属性は解析の対象
から外されるという点である。従来では、解析に使用さ
れる字句解析ルールは辞書の個数は固定であるのに対
し、本実施形態では使用する解析ルールや辞書の数が減
少していくので、解析処理時間が大幅に減少する。

【００７２】図１６のテーブルＣの第１行目の認識文字
列の解析が終了すると、ＣＰＵ１３は第２行目の認識文
字列を解析の対象に選択し、上述の解析処理を実行す
る。テーブルＣの第１行目から第４行目までの認識文字
列は図１４の字句解析処理において、解析結果が得られ
るが、第５行目の認識文字列は、属性が人名であるの
で、図１４の字句解析処理で解析結果が得られないまま
（ステップＳ４００２のＹＥＳ判定）、ステップＳ４０
１０の辞書解析処理に手順が進む。

【００７３】辞書解析処理の詳細を図１５に示す。

【００７４】ＣＰＵ１３はテーブルＣの示す第１番目の
辞書（この場合、人名辞書）を解析に使用する辞書とし
て選択する（ステップＳ５０１０）。ＣＰＵ１３は、第
５行目の認識文字列をシステムメモリ１２のワーク領域
上に取り出して、以下の辞書解析を行う。

【００７５】人名解析の一例を紹介すると、取り出した
文字列の第１番目の文字を抽出し（ステップＳ５０３
０）、第１番目の文字について選択された辞書を検索す
る。たとえば、氏名辞書を検索し、第１番目の文字と同
じ文字が姓として記載されている場合には、認識文字列
は氏名であることが検出される（ステップＳ５０４
０）。

【００７６】第１番目の文字と同じ文字が辞書に記載さ
れていない場合には、次にワーク領域に取り出した文字
列の第１番目の文字と第２番目の文字を組み合わせ、こ
の組み合わせ文字列について選択の辞書を参照する。こ
のようにして、記載文字列が判明するまで、組み合わせ
の文字を増やして行く（ステップＳ５０３０→Ｓ５０４
０→Ｓ５０５０→Ｓ５０７０→Ｓ５０３０のループ処
理）。

【００７７】取り出した認識文字列の文字のすべての組
み合わせを検索しても記載がない場合には、選択した辞
書を第２番目の辞書に変更して、記載の有無確認を行う
（ステップＳ５０８０→Ｓ５０９０→Ｓ５０３０→Ｓ５
０４０）。

【００７８】このようにして、認識文字列が記載された
辞書の種類、換言すると認識文字列の属性を検出すると
ＣＰＵ１３は図１７のテーブルＢの候補属性記載欄に検
出した属性を記入する（ステップＳ５０６０）。以下、
選択辞書を変更して残りの辞書についても認識文字列の
記載の有無を確認する（ステップＳ５０６０→Ｓ５０９
０〜Ｓ５０９５→Ｓ５０３０→Ｓ５０４０）。

【００７９】以上述べた字句解析や辞書解析により複数
の候補属性、たとえば、「人名」および「地名」のよう
な複数の候補属性が得られる場合がある（図１８（ａ）
第１２行、第１３行参照、このときのテーブルＣの内容
を図１８（ｂ）に示す）。このような場合には、予め選
択基準を設け、その選択基準に基づき複数の候補属性の
中から属性を１つ決定する。

【００８０】選択基準の一例を紹介する。図１６（ｃ）
の符号に記載する属性の種類に重み（あるいは優先順
位）を予め定めておき、複数の候補属性の重みを比較す
る。これにより重みの最も大きい候補属性を最終の属性
と決定することができる。この重みは、固定化してもよ
いし、読み取り条件で設定された属性の個数の値を使用
してもよい。この例では、「人名」が１、「地名（・住
所）」が５に初期設定されているので（図１６（ｃ）参
照）、属性として重みが大きい地名・住所が属性として
決定される（図１４のステップＳ４０１１）。

【００８１】このようにして、テーブルＣに記入された
すべての行の認識文字列について、字句解析および辞書
解析を行うと、ＣＰＵ１３は図１４および図１５の処理
手順を終了し、テーブルＢに記載された属性（決定済）
を図８の符号４０５に示すように表示する（図１０のス
テップＳ５００）。

【００８２】ユーザはこの表示を見て、もし、修正の必
要があれば、ワープロ文書の修正と同様にして、文字の
修正を行って、データベース登録用のデータを作成する
（ステップＳ５００→Ｓ６００）。最後に、従来と同様
にして、作成されたデータをデータベースに登録して
（ステップＳ７００）、図１０の処理手順を終了する。

【００８３】以上の述べた実施形態の他に次の形態を実
施できる。

【００８４】１）本実施の形態では、マスク処理により
文字列の解析に不要な原稿画像を消去しているが、ユー
ザが指示した領域を原稿画像から消去し、消去処理後の
原稿画像に対して文字認識処理を施すことも可能であ
る。

【００８５】２）上述の実施の形態では、意味内容の種
類、個数をマウスやキーボードにより指示されている
が、他のコンピュータとの通信により他のコンピュータ
から指示を受けたり、他のアプリケーションプログラム
から指示を受けてもよい。さらには原稿の種類毎に指示
すべきデータ（種類、個数）をデータベースに登録して
おき、読み取り原稿の種類に対応させてデータベースか
ら指示データを取り出すようにしてもよい。

【００８６】以上の例では、他のコンピュータ、プログ
ラム、データベースが本発明の指示手段となる。

【００８７】

【発明の効果】以上、説明したように、請求項１、５、
９の発明によれば、人名、ふりがな等各種の解析の種類
と、原稿上の文字列の種類数を指定する。たとえば、原
稿画像上の人名の文字列の種類数が１と指示され、人名
の識別が終了すると、以後、他の文字列の解析において
人名についての解析は行われない。従来では、全ての文
字列に対して、全種類の解析を行っていたので、実行す
べき解析の種類が減少することにより解析処理時間の短
縮化が図られる。また、単に文字列の個数と、種類の指
定操作だけを行えばよいので、ユーザは読み取り領域の
位置と属性の指定の関連付けなどの煩雑な従来行われて
いた指定操作を行う必要はない。

【００８８】請求項２、６、１０の発明では字句解析を
行うことにより、ふりがな、年齢、性別といった文字列
の種類を識別できる。

【００８９】請求項３、７、１１の発明では、辞書を使
用した解析を行うことにより、氏名、人名・住所といた
文字列を識別できる。

【００９０】請求項４、８、１２の発明では、実行可能
な解析処理の種類の中で、解析を行い、複数の識別結果
を取得しておき、その候補の中から最終的な識別結果を
取得するので、たとえば、地名や人名に共通する文字列
についての誤解析を極力減らすことができる。

【図面の簡単な説明】

【図１】本発明実施形態のシステム構成を示すブロック
図である。

【図２】読み取り対象の原稿の一例を示す説明図であ
る。

【図３】読み取り条件を設定するグラフィカルインター
フェースの設定内容を示す説明図である。

【図４】読み取り対象の原稿の他の例を示す説明図であ
る。

【図５】読み取り条件を設定するグラフィカルインター
フェースの設定内容を示す説明図である。

【図６】マスク色設定のためのグラフィカルインタフェ
ースの表示内容を示す説明図である。

【図７】原稿画像のプレビューを行うためのグラフィカ
ルインタフェースの表示内容を示す説明図である。

【図８】解析結果の表示内容を示す説明図である。

【図９】文字列の解析に使用する辞書および解析ルール
を示す説明図である。

【図１０】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１１】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１２】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１３】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１４】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１５】ＣＰＵ１３が実行する処理手順を示すフロー
チャートである。

【図１６】属性解析に使用するテーブルの構成および記
載内容を示す説明図である。

【図１７】テーブルＢ、Ｃの記載内容の変化を示す説明
図である。

【図１８】テーブルＢ、Ｃの記載内容の変化を示す説明
図である。

【符号の説明】

１０文字読み取り装置１１Ｉ／Ｏ１２システムメモリ１３ＣＰＵ１４通信インタフェース１５ＨＤＤ１６ＦＤＤ１７入力装置１８ディスプレイ

Claims

(57)【特許請求の範囲】

【請求項１】複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する文字読み取り装
置において、前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に指示す
る指示手段と、前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数する計数手段と、当該計数の結果が前記指示手段により指示された前記個
数に到達した種類については、実行すべき解析処理の種
類から除外する制御手段とを具えたことを特徴とする文
字読み取り装置。
【請求項２】請求項１に記載の文字読み取り装置にお
いて、前記解析処理は、文字列の特徴を前記意味内容の
種類毎に定義した複数の解析ルールを使用する字句解析
処理であることを特徴とする文字読み取り装置。
【請求項３】請求項１に記載の文字読み取り装置にお
いて、前記解析処理は、文字列の意味内容別に該文字列
の表記を記載した辞書であることを特徴とする文字読み
取り装置。
【請求項４】請求項１に記載の文字読み取り装置にお
いて、文字認識された１つの文字列につき、複数の種類
の識別結果が得られた場合には、予め定めた選択基準に
基づき、前記複数の種類の識別結果の中の１つを最終的
な識別結果として選択する選択手段をさらに有すること
を特徴とする文字読み取り装置。
【請求項５】複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する文字読み取り装
置の文字読み取り方法において、前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に前記文
字読み取り装置に対して指示し、前記文字読み取り装置は、前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数し、当該計数の結果が指示された前記個数に到達した種類に
ついては、実行すべき解析処理の種類から除外すること
を特徴とする文字読み取り装置の文字読み取り方法。
【請求項６】請求項５に記載の文字読み取り装置の文
字読み取り方法において、前記解析処理は、文字列の特
徴を前記意味内容の種類毎に定義した複数の解析ルール
を使用する字句解析処理であることを特徴とする文字読
み取り装置の文字読み取り方法。
【請求項７】請求項５に記載の文字読み取り装置の文
字読み取り方法において、前記解析処理は、文字列の意
味内容別に該文字列の表記を記載した辞書であることを
特徴とする文字読み取り装置の文字読み取り方法。
【請求項８】請求項５に記載の文字読み取り装置の文
字読み取り方法において、前記文字処理装置は、文字認
識された１つの文字列につき、複数の種類の識別結果が
得られた場合には、予め定めた選択基準に基づき、前記
複数の種類の識別結果の中の１つを最終的な識別結果と
して選択することを特徴とする文字読み取り装置の文字
読み取り方法。
【請求項９】複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する一連の処理を規
定した処理プログラムを文字読み取り装置内のコンピュ
ータにより実行するために前記処理プログラムを記録し
た記録媒体において、前記処理プログラムは、前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に前記文
字読み取り装置に対して指示する処理手順と、前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数する処理手順と、当該計数の結果が指示された前記個数に到達した種類に
ついては、実行すべき解析処理の種類から除外する処理
手順とを具えたことを特徴とする記録媒体。
【請求項１０】請求項９に記載の記録媒体において、
前記解析処理は、文字列の特徴を前記意味内容の種類毎
に定義した複数の解析ルールを使用する字句解析処理で
あることを特徴とする記録媒体。
【請求項１１】請求項９に記載の記録媒体において、
前記解析処理は、文字列の意味内容別に該文字列の表記
を記載した辞書であることを特徴とする記録媒体。
【請求項１２】請求項９に記載の記録媒体において、
前記処理プログラムは、文字認識された１つの文字列に
つき、複数の種類の識別結果が得られた場合には、予め
定めた選択基準に基づき、前記複数の種類の識別結果の
中の１つを最終的な識別結果として選択する処理手順を
さらに具えたことを特徴とする記録媒体。