JP3190603B2 - 文字読み取り装置、その読み取り方法および記録媒体 - Google Patents
文字読み取り装置、その読み取り方法および記録媒体Info
- Publication number
- JP3190603B2 JP3190603B2 JP24144597A JP24144597A JP3190603B2 JP 3190603 B2 JP3190603 B2 JP 3190603B2 JP 24144597 A JP24144597 A JP 24144597A JP 24144597 A JP24144597 A JP 24144597A JP 3190603 B2 JP3190603 B2 JP 3190603B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- type
- analysis
- character string
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
Description
た原稿画像を読み取り、文字列の字句を解析する文字読
み取り装置、その読み取り方法および記録媒体に関す
る。
た原稿画像をスキャナーにより読み取り、読み取った文
字画像を文字認識して文字コードに変換する。このよう
な文字読み取り装置を使用して、健康保険証や運転免許
証に記載された氏名、住所等の個人関連情報を読み取
り、データベースに読み取った個人関連情報を登録する
ことが可能となったきた。
複数項目のデータで構成し、複数のレコードを集積して
記憶したものである。このため、文字読み取り装置によ
り読み取り、変換した文字コードが上記どの項目に対応
するかを分類しなければならない。
られている。
置が定まっている原稿に限定する。
像の読み取り領域の位置とこの位置に対応するレコード
の項目の種類を文字読み取り装置に対してユーザが指示
する。文字処理装置では指定された複数の領域の文字を
読み取り、文字コード列に変換して、データベース登録
用のレコードを作成する。
ば、名刺のように氏名、会社名、住所、電話番号、郵便
番号のように個々の情報が固有名詞や一定の桁数を持つ
数字からなる原稿に、読み取り対象を限定する。
辞書、地名辞書等を使用して、読み取った文字列が氏
名、会社名等いずれの項目名に該当するかを解析し、こ
の解析結果に基づきデータベースに登録するレコードを
作成する。
条件設定方法では。ユーザが読み取り領域と、この読み
取り領域に記載された文字列の属性をユーザが指示しな
ければならないので、読み取り領域が増えるほどユーザ
の指示操作が煩雑であるという問題がある。
では、原稿に記載された情報の属性が自動判別されるの
で、ユーザの指示操作労力は低減されるが、文字列を解
析するので文字列の属性が増えるほど属性解析に時間が
かかるという問題がある。
上述のb)の問題点を解消し、かつ、ユーザの指示操作
を煩雑化することのない文字読み取り装置、その読み取
り方法および記録媒体を提供することにある。
るために、請求項1の発明は、複数の文字列が記載され
た原稿画像を読み取り、当該読み取られた複数の文字列
を文字認識し、当該文字認識の結果に対して解析処理を
施すことにより、文字列の意味内容の種類を識別し、当
該識別結果に基づいて前記文字認識の結果を分類する文
字読み取り装置において、前記解析処理の対象となる意
味内容の種類と、前記原稿画像上の文字列の個数を前記
意味内容の種類毎に指示する指示手段と、前記複数の文
字列の意味内容の種類が判明する毎に、当該判明の回数
をその種類毎に計数する計数手段と、当該計数の結果が
前記指示手段により指示された前記個数に到達した種類
については、実行すべき解析処理の種類から除外する制
御手段とを具えたことを特徴とする。
読み取り装置において、前記解析処理は、文字列の特徴
を前記意味内容の種類毎に定義した複数の解析ルールを
使用する字句解析処理であることを特徴とする。
読み取り装置において、前記解析処理は、文字列の意味
内容別に該文字列の表記を記載した辞書であることを特
徴とする。
読み取り装置において、文字認識された1つの文字列に
つき、複数の種類の識別結果が得られた場合には、予め
定めた選択基準に基づき、前記複数の種類の識別結果の
中の1つを最終的な識別結果として選択する選択手段を
さらに有することを特徴とする。
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
文字読み取り装置の文字読み取り方法において、前記解
析処理の対象となる意味内容の種類と、前記原稿画像上
の文字列の個数を前記意味内容の種類毎に前記文字読み
取り装置に対して指示し、文字読み取り装置は、前記複
数の文字列の意味内容の種類が判明する毎に、当該判明
の回数をその種類毎に計数し、当該計数の結果が指示さ
れた前記個数に到達した種類については、実行すべき解
析処理の種類から除外することを特徴とする。
読取装置の文字読み取り方法において、前記解析処理
は、文字列の特徴を前記意味内容の種類毎に定義した複
数の解析ルールを使用する字句解析処理であることを特
徴とする。
読み取り装置の文字読み取り方法において、前記解析処
理は、文字列の意味内容別に該文字列の表記を記載した
辞書であることを特徴とする。
読み取り装置の文字読み取り方法において、前記文字処
理装置は、文字認識された1つの文字列につき、複数の
種類の識別結果が得られた場合には、予め定めた選択基
準に基づき、前記複数の種類の識別結果の中の1つを最
終的な識別結果として選択することを特徴とする。
れた原稿画像を読み取り、当該読み取られた複数の文字
列を文字認識し、当該文字認識の結果に対して解析処理
を施すことにより、文字列の意味内容の種類を識別し、
当該識別結果に基づいて前記文字認識の結果を分類する
一連の処理を規定した処理プログラムを文字読み取り装
置内のコンピュータにより実行するために前記処理プロ
グラムを記録した記録媒体において、前記処理プログラ
ムは、前記解析処理の対象となる意味内容の種類と、前
記原稿画像上の文字列の個数を前記意味内容の種類毎に
前記文字読み取り装置に対して指示する処理手順と、前
記複数の文字列の意味内容の種類が判明する毎に、当該
判明の回数をその種類毎に計数する処理手順と、当該計
数の結果が指示された前記個数に到達した種類について
は、実行すべき解析処理の種類から除外する処理手順と
を具えたことを特徴とする。
録媒体において、前記解析処理は、文字列の特徴を前記
意味内容の種類毎に定義した複数の解析ルールを使用す
る字句解析処理であることを特徴とする。
録媒体において、前記解析処理は、文字列の意味内容別
に該文字列の表記を記載した辞書であることを特徴とす
る。
録媒体において、前記処理プログラムは、文字認識され
た1つの文字列につき、複数の種類の識別結果が得られ
た場合には、予め定めた選択基準に基づき、前記複数の
種類の識別結果の中の1つを最終的な識別結果として選
択する処理手順をさらに具えたことを特徴とする。
施形態を詳細に説明する。
のシステム構成を示す。図1において、文字読み取り装
置10には汎用パーソナルコンピュータを使用すること
ができる。文字読み取り装置10の本体は以下の回路が
バスに接続されている。入出力インターフェース(I/
O)11はスキャナー20と接続し、スキャナー20に
より読み取られた原稿画像を入力してCPU13に引き
渡す。
システム等のシステム制御用のシステムプログラム、デ
ータ、表示用イメージ、演算データ等を記憶する。CP
U13は後述の文字読み取り用プログラムを実行して、
スキャナー20から入力した原稿画像に基づきデータベ
ース登録用のレコードを作成する。また、システムプロ
グラムにしたがってシステム全体の動作制御を行う。通
信インターフェース14はLAN(ローカルエリアネッ
トワーク)等と接続し、他のコンピュータと通信を行
う。
システムプログラム、文字読み取り用プログラム、およ
び文字読み取り処理において、ユーザーが情報入力を行
うためのウィンドウ画面等を記憶する。
6はフロッピーディスクを受け付け、フロッピーディス
クに対して情報の読み書きを行う。本発明に係る文字読
み取り用のプログラムおよび関連データはフロッピーデ
ィスクからHDD15にインストールされる。入力装置
17はキーボードおよびマウスを有し、情報入力を行
う。ディスプレイ18は読み取り原稿や読み取り条件入
力用のグラフィカルインタフェース、属性解析結果等を
表示する。
により原稿を撮像し、読み取り画像をデジタル信号形態
で文字読み取り装置10に出力する。
置の動作説明に先立って、読み取り条件の設定や読み取
りの指示に使用する画面(グラフィカルインターフェー
ス)を説明する。
被保険者証(保険証と略記する) や図4に示す葉書き等
書式が異なる原稿を読み取り対象とすることができる。
図3は図2の保険証についての読み取り条件を設定する
画面である。101は読み取り条件に与える書式名であ
り、この書式名により読み取り条件の保存、表示等を行
う。
よび重複の個数を設定する欄である。ユーザはレ記号を
マウスの操作により付すことにより項目原稿に記載され
る文字列の種類内容を指示する。また、ユーザはキーボ
ードから数字を入力して同一の種類の文字列数を指示す
る。図3の例では人名、ふりがな、性別、団体名に関す
る文字列がそれぞれ1組あり、識別コードが2組、日付
に関する文字列が2組、地名・住所に関する文字列が5
組あること示している。
類をすべて案内表示し、ユーザが解析すべき文字列の種
類内容を図3の画面で選択する。また、原稿に記載され
た文字列の個数を種類毎に図3の画面で選択する。ユー
ザはこれだけの読み取り条件を設定するだけで、以後
は、文字読み取り装置側が読み取りの文字列の種類内容
を自動的に解析して、指定された個数の項目を持つレコ
ードを作成する。
する読み取り条件を図5に参考のために示しておく。図
6は原稿読み取り時のマスク色を設定する画面201を
示す。205は選択可能な色をすべて表示する領域であ
る。206の領域にはサンプルの色が表示され、ユーザ
はマウスによりサンプルを指定することによりマスク色
を指定する。202は設定クリアボタンであり、現在の
設定を初期設定に戻すよう指示するボタンである。20
3はOKボタンであり、現在の設定色を確定するボタン
である。204はキャンセルボタンであり、図6のマス
ク色設定モードをキャンセルし、ウィンドウ画面を消去
するように指示するボタンである。このようなウィンド
ウ画面はカラーピッカーと呼ばれ、画像処理ソフトでよ
く使用される。
である。図7において、301は低い解像度で読み取ら
れた原稿画像を表示する領域であり、この領域の特定位
置をマウスでクリックすることによりその位置に対応す
る色をマスク色として設定する。302は画像の読み取
りを指示するためのボタン、303は設定されたマスク
色をクリアするように指示するボタンである。304は
選択されたマスク色を表示する領域である。305は現
在のマスク色の設定の確定を指示するOKボタンであ
り、306はマスク色の設定のキャンセルを指示するボ
タンである。
マスク色で読み取り画像のマスクを行って、カラーの背
景や特定色の文字認識に供さない文字を消去する。
列の解析結果を表示するウィンドウ画面である。401
は書式名を入力する欄、402はファイルの新規作成を
指示するボタンである。403は編集モードを指示する
ボタン、404は読み取り実行を指示するボタンであ
る。405は文字の種類内容の解析結果を、表示する領
域である。
より指示した後、読み取り実行ボタン404を操作する
と、文字読み取り装置では、スキャナー20に対して画
像の読み取りを指示し、次に読み取り画像の文字認識、
種類内容の解析を行う。その解析結果が文字列の種類内
容(いわゆる属性)と関連させて表示領域405に表示
される。
な書式、たとえば、コンマ付きテキスト等各種の書式の
ファイルで保存される。
の種類内容およびその解析ルールについて図9を参照し
て説明する。図9は解析可能な属性の種類内容および解
析ルールを示す。
は人名辞書が使用される。人名辞書は、姓、名の表記、
この場合、文字コード列を複数記載した辞書であり、H
DD15に格納される。人名辞書の検索により文字認識
の結果得られた文字コード列(解析対象の文字コード
列)と同じ文字コード列が人名辞書に記載されている場
合には、解析対象の文字コード列は人名であると判断さ
れる。
ナで構成されているか否かを判定する。JIS(日本工
業規格)のひらがなの文字コードおよびカタカナの文字
コードは、特定のコード範囲にはいるように制定されて
いるので、解析対象の文字列の個々の文字コードが上記
コード範囲にあるか否かを判定することで、解析対象の
文字列がふりがなかを判別する。
辞書に記載されているか否かにより判別する。肩書き辞
書は係長、課長等の肩書きを表す文字コード列を記載し
た辞書であり、HDD15に格納される。
で構成されること、かつ文字コードの示す値がたとえ
ば、0以上120以下というように年齢に該当する値の
範囲内にある場合にその文字列は年齢であると判断され
る。なお、文字コードを数値コードに変換する機能はコ
ンピュータが有しているので、この機能を使用して文字
コードを数値変換するとよい。漢字コードやひらがなの
文字コードについては数値変換しようとしたときに不可
の応答がコンピュータから返るので、この場合、解析対
象の文字コード列は年齢ではないと判断することができ
る。 e)性別 性別については、解析対象の文字コード列が「男」、
「女」、「M」、「F」、「Male」、「Femal
e」のいずれかの文字コード列であるか否かを判定す
る。解析対象の文字コード列が上記特定の文字コード列
に合致する場合には解析対象の文字コード列は性別であ
ると判断される。
同じ文字列が地名辞書に記載されている場合に解析対象
の文字列は地名・住所と判断される。上記地名辞書は地
名を表す文字コード列を記載した辞書であり、HDD1
5に格納される。
もしくは数字と「−」記号で構成されること、かつ数字
の値の範囲が郵便番号に割り当てられた値の範囲(もし
くは桁数の範囲)の条件に合致する場合に解析対象の文
字列は郵便番号であると判断される。
名辞書、組織・部門名辞書に記載されている場合、解析
対象の文字列は記載の辞書に対応して団体名、事業所
名、組織・部門名と判別する。
L」、「(」「)」、「−」の記号を伴う数字の文字列
で構成される文字列は電話番号と判断される。なお、よ
り正確な解析を行う場合には、数字の桁数が電話番号の
桁数と合致しているかをも判定するとよい。
れかの文字コードを含む場合に種別が識別コードと判断
する。このために、解析対象の文字コード列の先頭文字
コードを取り出し、取り出した文字コードが「第」、
「号」の文字コードであるかの一致比較を行う。不一致
判定の場合には先頭の2つの文字コードを解析対象の文
字コード列から取り出し、上記(No)の文字コード列
と一致比較する。上述のいずれかの一致判定において、
一致の判定結果が得られた場合には、解析対象の文字コ
ード列は識別コード判断する。
n.」等の日付で使用される特定文字列を含み、数字の
値が日付で使用される数値の範囲内にある場合に解析対
象の文字列は日付と判断される。
別がその他数値と判断される。
られた場合には後述の予め定めた選択基準に基づき種別
を最終決定する。
て、文字読み取り装置は、文字認識結果の文字列に対し
て解析を行い、その種類を判断する。
0〜図15を参照して説明する。図10は文字読み取り
処理のメイン処理の内容を示し、図11〜図15はメイ
ン処理の中の個別処理の詳細を示す。
CPU13が実行可能なプログラム言語で記載され、H
DD15に格納される。この文字読み取りプログラムの
起動が指示されると、文字読み取りプログラムはシステ
ムメモリ12にロードされて、CPU13において実行
される。
条件設定モードを指示する。これにより図3に示すウィ
ンドウ画面が表示される。ユーザは読み取るべき原稿に
記載された文字列の種別および同一種類の文字列の個数
を指示する。指示の終了後は書式名を入力し、保存を指
示する。CPU13は図16の(b)に示すようなテー
ブル形態の読み取り条件ファイルをHDD15に記憶す
る(ステップS10→S20→S30)。なお、マスク
処理に関する設定もステップS30の読み取り条件設定
処理中に行われることは言うまでもない。
たとえば、図2に示すような原稿をスキャナー20にセ
ットする。ユーザはメニュー画面上で図8のウィンドウ
画面を呼び出す。書式名記入欄401に先ほど記憶した
読み取り条件ファイルの名前をキーボードから入力し
て、読み取り実行ボタンを404をマウスにより操作す
る。この操作に応じてCPU13の実行手順は図10の
ステップS10→S20→S100へと進む。
駆動用のドライバソフトを実行してスキャナー20を制
御し、原稿画像の読み取りを行わせる。読み取られたカ
ラー原稿画像はI/O11を介して文字読み取り装置に
入力され、CPU13によりシステムメモリ12内のワ
ーク領域に一時記憶される。この後、文字認識に好適な
画像を作成するための画像処理が行われる(ステップ1
00)。
す。図11の処理手順では、スキャナー20により読み
取られたカラーの原稿画像が、システムメモリ12に記
憶された後(ステップS1001)、マスク処理および
2値化処理が行われる(ステップS1002)。
分の各画素はビッ1、原稿画像の背景部分の各画素はビ
ット0の値に変換される。
ストローク分布、すなわち、ビット1の分布を調べるこ
とにより文字列領域とその他の空白領域を検出する(ス
テップS1003)。
じる画像の傾斜補正が行われ、罫線画像が除去される
(ステップS1005)。
より検出された文字列領域を従来手法によりブロック化
する。本実施の形態ではブロック化とは文字が連続する
文字列を検出し、この文字列と外接するブロック(矩
形)の位置を自動検出する処理を意味する(ステップS
200)。このブロック内の画像が文字認識の対象とな
る。検出されたブロックにはブロック番号が検出順に付
され、図16の(a)に示すようにブロック番号とブロ
ックの座標位置を記載したテーブルAがシステムメモリ
12内のワーク領域に作成される(図12、ステップS
2001〜S2003)。また、図16の(b)に示す
ようなブロック番号に対応させて文字認識結果を記憶す
るためのテーブルBも上記ワーク領域内に作成される。
個々の文字画像を文字認識し、文字コードに変換する
(ステップS300)。文字認識結果は上記テーブル
(図15(b)参照)にブロック番号に対応させて格納
される。文字認識処理の詳細手順の一例を図13に示
す。この詳細手順では、ブロック内の画像の濃度ヒスト
グラムを調べ、画像に濃度(階調)の変化がない場合に
はその画像は文字画像と判断し、文字認識を行う(ステ
ップS3001→S3002→S3003→S3004
〜S3006)。一方、画像に濃度変化がある場合に
は、その画像は汚れがあるか、文字画像ではないので、
誤認識を阻止するために文字認識は行わず、画像そのも
のをテーブルBのブロック番号に対応する認識結果記憶
欄に記憶する(ステップS3001→S3002→S3
003→S3004→S3007))。
を行うと、その文字認識結果の属性解析、すなわち、本
発明に係る意味内容の種類解析を行う(ステップS40
0)。種類解析の詳細を図14および図15に示す。
目に行ポインタを設定し、第1行目の文字認識結果とし
て記載されている文字列をシステムメモリ12のワーク
領域に取り出す。
ールと照合し、合致する属性名を図16のテーブルBの
候補属性記載欄に記載する。なお、解析ルール毎に解析
プログラムを用意して、ある1つの解析プログラムを実
行し、解析ルールに合致しないの判定が得られた場合に
は、次の解析プログラムを実行するというようにして、
文字列の字句解析が行われる(ステップS4001→S
4002→S4003→S4004→S4006)。
ーブルBの第1行目に記載されている文字認識結果は
「平成8年3月1日発行」であるので、この文字列は日
付に関する解析プログラムを実行したときに、日付の解
析ルールに合致の判定が得られ、候補属性として「日
付」が与えられる(図16(b)参照)。
定が得られた後も図16の現在のテーブルCの示すすべ
ての解析ルールと照合し、解析ルールに文字列の属性を
判別する毎にその属性をテーブルBの候補属性記載欄に
記入していく(ステップS4002〜S4004→S4
006→S4002のループ処理)。また、字句解析終
了後は後述の辞書解析を実行し(ステップS401
0)、辞書解析の終了後、得られた複数の候補属性の中
から予め定めた属性選択基準(後述)に基づき、属性を
決定する(S4011)。
行して、解析ルールに合致せずの判定が得られた場合に
は(ステップS4004のNO判定)、他の解析プログ
ラムを選択して、字句解析を続ける(ステップ4004
→S4006→S4002)。字句解析の後は辞書解析
処理が行われる(ステップS4002→S4010)。
る候補属性としては「日付」のみが得られるので、「日
付」が最終的な属性と自動決定され、図17の(b)に
示すように属性記載欄に決定結果が記入される。また、
日付に関するテーブルCの設定値が現在の“3”から
“2”に更新(デクリメント、日付について得られた識
別結果の個数の計数と同等)される(図16(c)、図
17(b)参照)。ここで注意して欲しい点は上記属性
の設定値が1以上となっている場合には、その属性につ
いての字句解析あるいは辞書解析が行われ、属性の設定
値が0になると(特定の種類の識別結果の計数結果が、
設定値に到達したことと同等)、その属性は解析の対象
から外されるという点である。従来では、解析に使用さ
れる字句解析ルールは辞書の個数は固定であるのに対
し、本実施形態では使用する解析ルールや辞書の数が減
少していくので、解析処理時間が大幅に減少する。
列の解析が終了すると、CPU13は第2行目の認識文
字列を解析の対象に選択し、上述の解析処理を実行す
る。テーブルCの第1行目から第4行目までの認識文字
列は図14の字句解析処理において、解析結果が得られ
るが、第5行目の認識文字列は、属性が人名であるの
で、図14の字句解析処理で解析結果が得られないまま
(ステップS4002のYES判定)、ステップS40
10の辞書解析処理に手順が進む。
辞書(この場合、人名辞書)を解析に使用する辞書とし
て選択する(ステップS5010)。CPU13は、第
5行目の認識文字列をシステムメモリ12のワーク領域
上に取り出して、以下の辞書解析を行う。
文字列の第1番目の文字を抽出し(ステップS503
0)、第1番目の文字について選択された辞書を検索す
る。たとえば、氏名辞書を検索し、第1番目の文字と同
じ文字が姓として記載されている場合には、認識文字列
は氏名であることが検出される(ステップS504
0)。
れていない場合には、次にワーク領域に取り出した文字
列の第1番目の文字と第2番目の文字を組み合わせ、こ
の組み合わせ文字列について選択の辞書を参照する。こ
のようにして、記載文字列が判明するまで、組み合わせ
の文字を増やして行く(ステップS5030→S504
0→S5050→S5070→S5030のループ処
理)。
み合わせを検索しても記載がない場合には、選択した辞
書を第2番目の辞書に変更して、記載の有無確認を行う
(ステップS5080→S5090→S5030→S5
040)。
辞書の種類、換言すると認識文字列の属性を検出すると
CPU13は図17のテーブルBの候補属性記載欄に検
出した属性を記入する(ステップS5060)。以下、
選択辞書を変更して残りの辞書についても認識文字列の
記載の有無を確認する(ステップS5060→S509
0〜S5095→S5030→S5040)。
の候補属性、たとえば、「人名」および「地名」のよう
な複数の候補属性が得られる場合がある(図18(a)
第12行、第13行参照、このときのテーブルCの内容
を図18(b)に示す)。このような場合には、予め選
択基準を設け、その選択基準に基づき複数の候補属性の
中から属性を1つ決定する。
の符号に記載する属性の種類に重み(あるいは優先順
位)を予め定めておき、複数の候補属性の重みを比較す
る。これにより重みの最も大きい候補属性を最終の属性
と決定することができる。この重みは、固定化してもよ
いし、読み取り条件で設定された属性の個数の値を使用
してもよい。この例では、「人名」が1、「地名(・住
所)」が5に初期設定されているので(図16(c)参
照)、属性として重みが大きい地名・住所が属性として
決定される(図14のステップS4011)。
すべての行の認識文字列について、字句解析および辞書
解析を行うと、CPU13は図14および図15の処理
手順を終了し、テーブルBに記載された属性(決定済)
を図8の符号405に示すように表示する(図10のス
テップS500)。
要があれば、ワープロ文書の修正と同様にして、文字の
修正を行って、データベース登録用のデータを作成する
(ステップS500→S600)。最後に、従来と同様
にして、作成されたデータをデータベースに登録して
(ステップS700)、図10の処理手順を終了する。
施できる。
文字列の解析に不要な原稿画像を消去しているが、ユー
ザが指示した領域を原稿画像から消去し、消去処理後の
原稿画像に対して文字認識処理を施すことも可能であ
る。
類、個数をマウスやキーボードにより指示されている
が、他のコンピュータとの通信により他のコンピュータ
から指示を受けたり、他のアプリケーションプログラム
から指示を受けてもよい。さらには原稿の種類毎に指示
すべきデータ(種類、個数)をデータベースに登録して
おき、読み取り原稿の種類に対応させてデータベースか
ら指示データを取り出すようにしてもよい。
ラム、データベースが本発明の指示手段となる。
9の発明によれば、人名、ふりがな等各種の解析の種類
と、原稿上の文字列の種類数を指定する。たとえば、原
稿画像上の人名の文字列の種類数が1と指示され、人名
の識別が終了すると、以後、他の文字列の解析において
人名についての解析は行われない。従来では、全ての文
字列に対して、全種類の解析を行っていたので、実行す
べき解析の種類が減少することにより解析処理時間の短
縮化が図られる。また、単に文字列の個数と、種類の指
定操作だけを行えばよいので、ユーザは読み取り領域の
位置と属性の指定の関連付けなどの煩雑な従来行われて
いた指定操作を行う必要はない。
行うことにより、ふりがな、年齢、性別といった文字列
の種類を識別できる。
用した解析を行うことにより、氏名、人名・住所といた
文字列を識別できる。
な解析処理の種類の中で、解析を行い、複数の識別結果
を取得しておき、その候補の中から最終的な識別結果を
取得するので、たとえば、地名や人名に共通する文字列
についての誤解析を極力減らすことができる。
図である。
る。
フェースの設定内容を示す説明図である。
る。
フェースの設定内容を示す説明図である。
ースの表示内容を示す説明図である。
ルインタフェースの表示内容を示す説明図である。
を示す説明図である。
チャートである。
チャートである。
チャートである。
チャートである。
チャートである。
チャートである。
載内容を示す説明図である。
図である。
図である。
Claims (12)
- 【請求項1】 複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する文字読み取り装
置において、 前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に指示す
る指示手段と、 前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数する計数手段と、 当該計数の結果が前記指示手段により指示された前記個
数に到達した種類については、実行すべき解析処理の種
類から除外する制御手段とを具えたことを特徴とする文
字読み取り装置。 - 【請求項2】 請求項1に記載の文字読み取り装置にお
いて、前記解析処理は、文字列の特徴を前記意味内容の
種類毎に定義した複数の解析ルールを使用する字句解析
処理であることを特徴とする文字読み取り装置。 - 【請求項3】 請求項1に記載の文字読み取り装置にお
いて、前記解析処理は、文字列の意味内容別に該文字列
の表記を記載した辞書であることを特徴とする文字読み
取り装置。 - 【請求項4】 請求項1に記載の文字読み取り装置にお
いて、文字認識された1つの文字列につき、複数の種類
の識別結果が得られた場合には、予め定めた選択基準に
基づき、前記複数の種類の識別結果の中の1つを最終的
な識別結果として選択する選択手段をさらに有すること
を特徴とする文字読み取り装置。 - 【請求項5】 複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する文字読み取り装
置の文字読み取り方法において、 前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に前記文
字読み取り装置に対して指示し、 前記文字読み取り装置は、 前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数し、 当該計数の結果が指示された前記個数に到達した種類に
ついては、実行すべき解析処理の種類から除外すること
を特徴とする文字読み取り装置の文字読み取り方法。 - 【請求項6】 請求項5に記載の文字読み取り装置の文
字読み取り方法において、前記解析処理は、文字列の特
徴を前記意味内容の種類毎に定義した複数の解析ルール
を使用する字句解析処理であることを特徴とする文字読
み取り装置の文字読み取り方法。 - 【請求項7】 請求項5に記載の文字読み取り装置の文
字読み取り方法において、前記解析処理は、文字列の意
味内容別に該文字列の表記を記載した辞書であることを
特徴とする文字読み取り装置の文字読み取り方法。 - 【請求項8】 請求項5に記載の文字読み取り装置の文
字読み取り方法において、前記文字処理装置は、文字認
識された1つの文字列につき、複数の種類の識別結果が
得られた場合には、予め定めた選択基準に基づき、前記
複数の種類の識別結果の中の1つを最終的な識別結果と
して選択することを特徴とする文字読み取り装置の文字
読み取り方法。 - 【請求項9】 複数の文字列が記載された原稿画像を読
み取り、当該読み取られた複数の文字列を文字認識し、
当該文字認識の結果に対して解析処理を施すことによ
り、文字列の意味内容の種類を識別し、当該識別結果に
基づいて前記文字認識の結果を分類する一連の処理を規
定した処理プログラムを文字読み取り装置内のコンピュ
ータにより実行するために前記処理プログラムを記録し
た記録媒体において、前記処理プログラムは、 前記解析処理の対象となる意味内容の種類と、前記原稿
画像上の文字列の個数を前記意味内容の種類毎に前記文
字読み取り装置に対して指示する処理手順と、 前記複数の文字列の意味内容の種類が判明する毎に、当
該判明の回数をその種類毎に計数する処理手順と、 当該計数の結果が指示された前記個数に到達した種類に
ついては、実行すべき解析処理の種類から除外する処理
手順とを具えたことを特徴とする記録媒体。 - 【請求項10】 請求項9に記載の記録媒体において、
前記解析処理は、文字列の特徴を前記意味内容の種類毎
に定義した複数の解析ルールを使用する字句解析処理で
あることを特徴とする記録媒体。 - 【請求項11】 請求項9に記載の記録媒体において、
前記解析処理は、文字列の意味内容別に該文字列の表記
を記載した辞書であることを特徴とする記録媒体。 - 【請求項12】 請求項9に記載の記録媒体において、
前記処理プログラムは、文字認識された1つの文字列に
つき、複数の種類の識別結果が得られた場合には、予め
定めた選択基準に基づき、前記複数の種類の識別結果の
中の1つを最終的な識別結果として選択する処理手順を
さらに具えたことを特徴とする記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24144597A JP3190603B2 (ja) | 1997-09-05 | 1997-09-05 | 文字読み取り装置、その読み取り方法および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24144597A JP3190603B2 (ja) | 1997-09-05 | 1997-09-05 | 文字読み取り装置、その読み取り方法および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185899A JPH1185899A (ja) | 1999-03-30 |
JP3190603B2 true JP3190603B2 (ja) | 2001-07-23 |
Family
ID=17074422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24144597A Expired - Fee Related JP3190603B2 (ja) | 1997-09-05 | 1997-09-05 | 文字読み取り装置、その読み取り方法および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3190603B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4631133B2 (ja) * | 2000-06-09 | 2011-02-16 | コニカミノルタビジネステクノロジーズ株式会社 | 文字認識処理のための装置、方法及び記録媒体 |
JP4613397B2 (ja) * | 2000-06-28 | 2011-01-19 | コニカミノルタビジネステクノロジーズ株式会社 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
JP4871889B2 (ja) * | 2008-01-18 | 2012-02-08 | 株式会社日立ソリューションズ | 表認識方法及び表認識装置 |
JP5628710B2 (ja) * | 2011-03-03 | 2014-11-19 | Sky株式会社 | 日付領域判定システムおよび日付領域判定プログラム |
-
1997
- 1997-09-05 JP JP24144597A patent/JP3190603B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1185899A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5802534A (en) | Apparatus and method for editing text | |
US6501864B1 (en) | Data medium handling apparatus and data medium handling method | |
US8270721B2 (en) | Method and system for acquiring data from machine-readable documents | |
US6400845B1 (en) | System and method for data extraction from digital images | |
JP4356847B2 (ja) | フィールド定義情報生成方法、ならびび、フィールド定義情報生成装置 | |
EP1986106A2 (en) | Decision criteria for automated form population | |
WO2006002009A2 (en) | Document management system with enhanced intelligent document recognition capabilities | |
JPS63155386A (ja) | 帳票デ−タ読取装置 | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
JP3190603B2 (ja) | 文字読み取り装置、その読み取り方法および記録媒体 | |
JP2003242441A (ja) | 帳票処理方法および装置並びにプログラム | |
JP2000231505A (ja) | データオブジェクト群の自動命名方法およびその記憶媒体 | |
JPH1011443A (ja) | 文書符号検査システム | |
JPH06103411A (ja) | 文書読取装置 | |
JP3930466B2 (ja) | 文字認識装置、文字認識プログラム | |
JP3487523B2 (ja) | 文書処理装置 | |
JP3335863B2 (ja) | 文字入力簡易化装置及び方法 | |
JPH10187751A (ja) | 認識データ処理装置およびそのプログラム記録媒体 | |
JP3221968B2 (ja) | 文字認識装置 | |
JP2006252575A (ja) | 財務諸表自動入力装置及び財務諸表自動入力方法 | |
JP7480536B2 (ja) | 文書処理装置及びプログラム | |
JPH0689330A (ja) | 画像ファイリングシステム | |
JPH06195343A (ja) | 文書格納表示方式 | |
JPH0562008A (ja) | 文字認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090518 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100518 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110518 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110518 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120518 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120518 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130518 Year of fee payment: 12 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |