JP5107157B2 - 文字認識プログラム、文字認識装置および文字認識方法 - Google Patents

文字認識プログラム、文字認識装置および文字認識方法 Download PDF

Info

Publication number
JP5107157B2
JP5107157B2 JP2008169844A JP2008169844A JP5107157B2 JP 5107157 B2 JP5107157 B2 JP 5107157B2 JP 2008169844 A JP2008169844 A JP 2008169844A JP 2008169844 A JP2008169844 A JP 2008169844A JP 5107157 B2 JP5107157 B2 JP 5107157B2
Authority
JP
Japan
Prior art keywords
character
candidate
character string
word
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008169844A
Other languages
English (en)
Other versions
JP2010009440A (ja
Inventor
健一 廣岡
稔 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP2008169844A priority Critical patent/JP5107157B2/ja
Publication of JP2010009440A publication Critical patent/JP2010009440A/ja
Application granted granted Critical
Publication of JP5107157B2 publication Critical patent/JP5107157B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、文字認識プログラム、文字認識装置および文字認識方法に関し、特に、画像情報に含まれる文字列を特定する文字認識プログラム、文字認識装置および文字認識方法に関する。
従来、帳票等に記入された1文字以上の文字列を画像情報として読み込んで、読み込んだ画像情報から記入された文字列を認識する文字認識システムが用いられている。このシステムは、例えば、画像読込装置と画像読込装置に接続されたコンピュータを有している。画像読込装置は、帳票等の画像情報を読み込む。画像読込装置は、例えば、イメージスキャナである。そして、コンピュータが、画像読込装置から画像情報を取得し、画像情報に含まれる文字列に対応する文字列画像を認識する。更に、コンピュータが、文字列画像に対応する文字列を、コンピュータで処理可能な、この文字列に対応する所定の文字コード列として特定する。
コンピュータにおいて、このような処理を実現するアプリケーションソフトウェアは、光学文字認識(OCR:Optical Character Recognition)ソフトと呼ばれる。また、このようなシステムを実現する装置全体を光学文字読取装置(OCR:Optical Character Reader)と呼ぶこともある。以下では、OCRという場合、前者のOCRソフトを指すものとする。
ここで、文字認識システムでは、認識する文字列画像に記入者の筆跡の違い等による揺らぎが含まれる。この揺らぎは、文字コード列の特定精度を低下させる原因となり、文字コード列が一意に特定されない場合もある。このため、文字認識システムでは、文字コード列の特定精度を向上することが課題となる。特定精度が高いとは、すなわち、少数の候補に正確に絞り込むことができることを意味する。
この課題に対し、画像情報の所定範囲内での文字パターン(文字形状の特徴)の出現頻度情報を保持し、この頻度情報に基づいて、文字列画像の認識結果を絞り込む技術が知られている(例えば、特許文献1参照)。また、文字列画像として認識され得る文字コード列を予め限定しておき、その他の文字コード列が得られた場合には、これを特定結果から除外する技術も知られている(例えば、特許文献2参照)。更に、得られた文字コード列の前回までの取得頻度を保持し、この取得頻度に基づいて文字コード列の特定結果を絞り込む技術も知られている(例えば、特許文献3参照)。
特開平5−298489号公報 特開平6−096287号公報 特開平8−016730号公報
しかし、上記特許文献1,3に記載の方法では、頻度情報を文字列認識の実行のたびに更新する必要がある。このため、文字列認識の処理実行時にコンピュータに余計な負荷が生じるという課題がある。
また、上記特許文献2に記載の方法では、利用され得る文字列が多数存在する場合には、精度良く少数の候補に絞り込むことが困難となるという課題がある。
本発明はこのような点に鑑みてなされたものであり、低負荷の処理で文字列を精度良く認識することが可能な文字認識プログラム、文字認識装置および文字認識方法を提供することを目的とする。
上記課題を解決するために、画像情報に含まれる文字列を認識する文字認識プログラムが提供される。この文字認識プログラムを実行するコンピュータは、文字推定手段、候補文字列生成手段および文字列特定手段として機能する。文字推定手段は、画像情報を基に文字列の各文字を推定し、その推定結果の候補としての1つ以上の候補文字を文字列内の各文字について出力する。候補文字列生成手段は、複数の単語が登録された単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた重み付け情報に基づき、文字推定手段が出力した文字列内の各文字に対応する候補文字を出現回数が多い順に1つずつ抽出して組み合わせることで、文字列の候補としての1つ以上の候補文字列を順次生成する。文字列特定手段は、候補文字列をその生成順に単語登録情報内の単語と照合し、その照合結果から文字列に対応する単語を特定する。
このような文字認識プログラムによれば、文字推定手段により、画像情報を基に文字列の各文字が推定され、その推定結果の候補として1つ以上の候補文字が文字列内の各文字について出力される。次に、候補文字列生成手段により、複数の単語が登録された単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた重み付け情報に基づき、文字推定手段が出力した文字列内の各文字に対応する候補文字が出現回数の多い順に1つずつ抽出されて組み合わされることで、文字列の候補としての1つ以上の候補文字列が順次生成される。そして、文字列特定手段により、候補文字列がその生成順に単語登録情報内の単語と照合され、その照合結果から文字列に対応する単語が特定される。
また、上記課題を解決するために、画像情報に含まれる第1の文字列と第2の文字列とを認識する文字認識プログラムが提供される。この文字認識プログラムを実行するコンピュータは、文字推定手段、第1の候補文字列生成手段、第1の文字列特定手段、第2の候補文字列生成手段および第2の文字列特定手段として機能する。文字推定手段は、画像情報を基に第1の文字列および第2の文字列の各文字を推定し、その推定結果の候補として、第1の文字列の各文字に対応する第1の候補文字と、第2の文字列の各文字に対応する第2の候補文字とを、それぞれ1つ以上出力する。第1の候補文字列生成手段は、複数の単語が登録された第1の単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた第1の重み付け情報に基づき、文字推定手段が出力した第1の文字列内の各文字に対応する第1の候補文字を第1の単語登録情報における出現回数が多い順に1つずつ抽出して組み合わせることで、第1の文字列の候補としての1つ以上の第1の候補文字列を順次生成する。第1の文字列特定手段は、第1の候補文字列をその生成順に第1の単語登録情報内の単語と照合し、その照合結果から第1の文字列と一致すると推定される単語を示す第1の候補単語を複数選択して出力する。第2の候補文字列生成手段は、複数の単語がそれぞれ登録された複数の第2の単語登録情報の中から、第1の候補単語から特定される第2の単語登録情報を第1の候補単語ごとに選択し、選択した第2の単語登録情報のそれぞれに含まれる文字の出現回数を文字ごとに対応付けた複数の第2の重み付け情報に基づき、文字推定手段が出力した第2の文字列内の各文字に対応する第2の候補文字を第2の単語登録情報における出現回数が多い順に1つずつ組み合わせることで、第2の文字列の候補としての1つ以上の第2の候補文字列を第1の候補単語ごとにそれぞれ順に生成する。第2の文字列特定手段は、第2の候補文字列をその生成順に対応する第2の単語登録情報内の単語と照合し、その照合結果から第2の文字列と一致すると推定される単語を示す第2の候補単語を、いずれかの第2の単語登録情報から選択して出力するとともに、第2の候補単語に対応する第1の候補単語を第1の文字列と一致する単語として確定する。
このような文字認識プログラムを実行するコンピュータによれば、文字推定手段により、画像情報を基に第1の文字列および第2の文字列の各文字が推定され、その推定結果の候補として、第1の文字列の各文字に対応する第1の候補文字と、第2の文字列の各文字に対応する第2の候補文字とが、それぞれ1つ以上出力される。次に、第1の候補文字列生成手段により、複数の単語が登録された第1の単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた第1の重み付け情報に基づき、文字推定手段が出力した第1の文字列内の各文字に対応する第1の候補文字が第1の単語登録情報における出現回数が多い順に1つずつ抽出されて組み合わされることで、第1の文字列の候補としての1つ以上の第1の候補文字列が順次生成される。そして、第1の文字列特定手段により、第1の候補文字列がその生成順に第1の単語登録情報内の単語と照合され、その照合結果から第1の文字列と一致すると推定される単語を示す第1の候補単語が複数選択されて出力される。更に、第2の候補文字列生成手段により、複数の単語がそれぞれ登録された複数の第2の単語登録情報の中から、第1の候補単語から特定される第2の単語登録情報を第1の候補単語ごとに選択し、選択した第2の単語登録情報のそれぞれに含まれる文字の出現回数を文字ごとに対応付けた複数の第2の重み付け情報に基づき、文字推定手段が出力した第2の文字列内の各文字に対応する第2の候補文字が第2の単語登録情報における出現回数が多い順に1つずつ組み合わされることで、第2の文字列の候補としての1つ以上の第2の候補文字列が第1の候補単語ごとにそれぞれ順に生成される。そして、第2の文字列特定手段により、第2の候補文字列がその生成順に対応する第2の単語登録情報内の単語と照合され、その照合結果から第2の文字列と一致すると推定される単語を示す第2の候補単語がいずれかの第2の単語登録情報から選択して出力されるとともに、第2の候補単語に対応する第1の候補単語が第1の文字列と一致する単語として確定される。
また、上記課題を解決するために、上記文字認識プログラムを実行するコンピュータと同様の処理を行う文字認識装置および文字認識方法が提供される。
上記文字認識プログラム、文字認識装置および文字認識方法によれば、低負荷の処理で文字列を精度良く認識することが可能となる。
以下、本実施の形態を図面を参照して詳細に説明する。
図1は、文字認識システムの概要を示す図である。この文字認識システムは、コンピュータ1および画像情報取込装置2を有する。コンピュータ1と画像情報取込装置2とは、所定のインタフェースによって接続されており、相互にデータ通信が可能である。コンピュータ1は、画像情報取込装置2から画像情報を取得する。そして、コンピュータ1は、画像情報に含まれる1文字以上の文字列を、その文字列に対応する文字コード列として特定する。ここで、以降の説明では、文字列を特定することと文字コード列を特定することとは同義であるものとする。コンピュータ1は、このような文字列の特定処理を行う文字認識プログラムを実行している。このコンピュータ1は、文字認識プログラムを実行することにより、単語登録情報記憶手段1a、重み付け情報記憶手段1b、画像情報入力手段1c、文字推定手段1d、候補文字列生成手段1eおよび文字列特定手段1fとして機能する。
単語登録情報記憶手段1aは、複数の所定の単語を登録した単語登録情報を記憶する。
重み付け情報記憶手段1bは、単語登録情報記憶手段1aに記憶された単語登録情報に含まれる文字の出現回数を各文字に対応付けた重み付け情報を記憶する。
画像情報入力手段1cは、画像情報取込装置2から取得する画像情報を文字推定手段1dに出力する。
文字推定手段1dは、画像情報入力手段1cから画像情報を取得すると、画像情報に含まれる複数の文字を推定し、推定した複数の文字それぞれに対する複数の候補文字を生成する。そして、文字推定手段1dは、生成した複数の候補文字を候補文字列生成手段1eに出力する。
候補文字列生成手段1eは、重み付け情報記憶手段1bに記憶された重み付け情報および文字推定手段1dが生成した複数の候補文字に基づいて、画像情報に含まれる文字列に対する複数の候補文字列を生成する。このとき候補文字列生成手段1eは、この複数の候補文字列それぞれに、重み付け情報に基づいて優先順位を付与する。そして、候補文字列生成手段1eは、生成した複数の候補文字列を文字列特定手段1fに出力する。
文字列特定手段1fは、単語登録情報記憶手段1aに記憶された単語登録情報に基づいて、候補文字列生成手段1eが生成した複数の候補文字列から画像情報に含まれる文字列を特定する。特定方法としては、例えば、複数の候補文字列それぞれと単語登録情報に含まれる複数の単語それぞれとの一致の度合い(一致率)に基づく方法が考えられる。このとき、文字列特定手段1fは、上記の優先順位の高い順に一致率を判定する。
画像情報取込装置2は、文字列が記入された紙面の情報を画像情報として取り込む。画像情報取込装置2は、取り込んだ画像情報をコンピュータ1に出力する。画像情報取込装置2は、例えば、イメージスキャナ(以下、単にスキャナという)である。
このような文字認識システムによれば、所定の文字列情報に含まれる文字の出現回数が重み付け値として各文字に予め対応付けられ、重み付け情報として保持される。そして、この重み付け情報に基づいて、候補文字列が優先順位を付与されて、生成される。更に、生成された候補文字列、候補文字列に付与された優先順位および単語登録情報に基づいて、画像情報に含まれる文字列が特定される。
このように、予め単語登録情報に基づいて各文字に重み付けを付与しておくことで、文字の特定精度を向上することができる。また、優先順位の高い順に候補文字列の一致率判定処理等を行うことにより、文字列を短時間に特定できるようになる。更に、優先順位の低い候補文字列の一致率判定を省略することができるため、認識処理の負荷を低減することができる。すなわち、低負荷の処理で文字列を精度良く認識することが可能となる。
ところで、図1に示した文字認識システムは、例えば、金融機関の業務において紙帳票に記入された文字列を特定し、それに基づいて業務処理を行う場合に有用である。そこで、このような文字認識システムを銀行業務に関連付けた場合を例に挙げ、実施の形態を図面を参照して詳細に説明する。
図2は、本実施の形態のコンピュータのハードウェア構成を示す図である。コンピュータ100は、本実施の形態の文字認識プログラムを実行しており、所定の帳票の画像情報に含まれる金融機関の名称を特定する。コンピュータ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス108を介してRAM(Random Access Memory)102、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105,106および通信インタフェース107が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションソフト(以下、アプリケーションという)のプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
HDD103は、データを記憶するためのディスク装置である。HDD103には、OSのプログラムやアプリケーションのプログラムが格納される。また、HDD103には、CPU101による処理に必要な各種データが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。
入力インタフェース105,106は、外部装置からのデータの入力を受け付けるインタフェースである。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス108を介してCPU101に送信する。入力インタフェース106には、スキャナ14が接続されている。入力インタフェース106は、スキャナ14から送られてくる所定の帳票の画像情報に対応する信号をバス108を介してCPU101に送信する。また、入力インタフェース106は、入力インタフェース106の有するDMA(Direct Memory Access)機能により取得する画像情報をバス108を介して直接RAM102に格納することもある。
通信インタフェース107は、ネットワーク10に接続されている。通信インタフェース107は、ネットワーク10を介して、他の情報処理装置との間でデータの送受信を行う。
図3は、本実施の形態のコンピュータの機能を示すブロック図である。コンピュータ100は、文字コード記憶部110、金融機関辞書記憶部120、重み付け情報記憶部130、更新情報入力部140、重み付け処理部145、画像情報入力部150、文字識別部160、候補文字除外部170、候補名称生成部180および名称特定部190を有する。
文字コード記憶部110は、コンピュータ100で使用可能な文字を文字コードに対応付けた文字コード対応テーブルを記憶する。
金融機関辞書記憶部120は、金融機関名を登録した金融機関名テーブルを記憶する。また、金融機関辞書記憶部120は、各金融機関の支店名を各金融機関名に対応付けて登録した、支店名テーブル群を記憶する。なお、金融機関名テーブルおよび支店名テーブル群を含む情報を金融機関辞書と呼ぶこととする。
重み付け情報記憶部130は、金融機関辞書に含まれる金融機関名で使用される文字の出現回数を上記の文字コードに対応付けた金融機関名用重み付けテーブルを記憶する。また、重み付け情報記憶部130は、各金融機関の支店名で使用される文字の出現回数を上記の文字コードに対応付けた支店名用重み付けテーブルを各金融機関名に対応付けて記憶する。
更新情報入力部140は、金融機関辞書に対する更新情報を取得する。更新情報には、金融機関名や各金融機関の支店名の変更が含まれる。更新情報は、例えば、オペレータにより定期的に入力されたり、ネットワーク等を介して定期的に配信されたりする。更新情報入力部140は、更新情報を取得すると金融機関辞書記憶部120に記憶された金融機関辞書を更新情報に応じて更新する。
重み付け処理部145は、金融機関辞書記憶部120に記憶された金融機関辞書が更新されたことを検知すると、金融機関名テーブルに含まれる文字の出現回数を算出し、各文字に対応付けて金融機関名用重み付けテーブルを生成する。重み付け処理部145は、生成した金融機関名用重み付けテーブルを重み付け情報記憶部130に格納する。
また、重み付け処理部145は、名称特定部190の指示に基づいて、金融機関辞書記憶部120に記憶された支店名テーブルを参照して、支店名テーブルに含まれる文字の出現回数を算出し、各文字に対応付けて支店名用重み付けテーブルを生成する。重み付け処理部145は、生成した支店名用重み付けテーブルを重み付け情報記憶部130に格納する。
画像情報入力部150は、スキャナ14から取得する画像情報を文字識別部160に出力する。
文字識別部160は、画像情報入力部150から画像情報を取得すると、画像情報に含まれる文字画像を抽出する。文字識別部160は、抽出した文字画像に所定の画像識別処理を行う。ここで、文字識別部160が抽出する文字画像には、金融機関名および各金融機関の支店名が含まれる。金融機関名や各金融機関の支店名といった名称の種別は、例えば、記入された画像上の領域によって区別される。そして、文字識別部160は、文字コード記憶部110に記憶された文字コード対応テーブルに基づいて、各文字の形状に対応する文字コードを取得する。
ここで、文字識別部160による文字画像の識別結果は、帳票に記入された文字の筆跡の違い等により一意に定まる可能性は小さい。このため、文字識別部160は、識別結果の尤度(確からしさ)等に基づいて、その尤度の優位な識別結果から順に複数の候補文字を特定する。すなわち、文字識別部160は、複数の候補文字に対応する複数の候補文字コードを確からしいものから順に取得する。文字識別部160は、取得した複数の候補文字コードを金融機関名用および支店名用を区別して候補文字除外部170に出力する。なお、以下では、候補文字という場合、候補文字に対応する候補文字コードを示すものとする。
候補文字除外部170は、文字識別部160から金融機関名用の候補文字および支店名用の候補文字を取得する。候補文字除外部170は、金融機関名用の候補文字に関して、重み付け情報記憶部130に記憶された金融機関名用重み付けテーブルで重み付け値が0である候補文字を候補から除外する。候補文字除外部170は、この除外処理の結果、残った金融機関名用の候補文字を候補名称生成部180に出力する。
また、候補文字除外部170は、名称特定部190の指示に基づいて、支店名用の候補文字に対し、重み付け情報記憶部130に記憶された支店名用重み付けテーブルで重み付け値が0である候補文字を候補から除外する。候補文字除外部170は、この除外処理の結果、残った支店名用の候補文字を候補名称生成部180に出力する。
候補名称生成部180は、候補文字除外部170から候補除外処理後の金融機関名用の候補文字および支店名用の候補文字を取得する。候補名称生成部180は、取得した金融機関名用の候補文字を用いて、重み付け情報記憶部130に記憶された金融機関名用重み付けテーブルに基づき、複数の候補金融機関名を生成する。このとき、候補名称生成部180は、金融機関名用重み付けテーブルの重み付け値に基づいて、候補金融機関名に優先順位を付与する。例えば、重み付け値が大きい候補文字同士を組み合わせて生成された候補金融機関名は、重み付け値が小さい候補文字同士で組み合わせて生成された候補金融機関名に比べて優先順位が高くなるようにする。候補名称生成部180は、このように優先順位を付与して生成した複数の候補金融機関名を名称特定部190に出力する。
また、候補名称生成部180は、候補文字除外部170から取得する支店名用の候補文字を用いて、重み付け情報記憶部130に記憶された支店名用重み付けテーブルに基づき、複数の候補支店名を生成する。このとき、候補名称生成部180は、支店名用重み付けテーブルの重み付け値に基づいて、候補支店名に優先順位を付与する。優先順位の付与の方法は、候補金融機関名の生成の際と同様の方法が考えられる。候補名称生成部180は、生成した複数の候補支店名を名称特定部190に出力する。
名称特定部190は、候補名称生成部180から複数の候補金融機関名を取得する。名称特定部190は、金融機関辞書記憶部120に記憶された金融機関名テーブルに、取得した複数の候補金融機関名それぞれに対応する金融機関名が存在するか否かを判定する。このとき、名称特定部190は、付与された優先順位の高い候補金融機関名から順に判定を行う。名称特定部190の上記判定の方法としては、例えば、双方の文字列を比較して、同じ文字である割合を示す一致率を算出する方法を用い、一致率の大きいものを優先的に判定結果として採用する。
その後、名称特定部190は、判定の結果得られた金融機関名に対応する支店名用重み付けテーブルの生成を、重み付け処理部145に指示する。名称特定部190は、支店名用重み付けテーブルの生成処理が完了すると、候補文字除外部170に候補支店名に対する処理を指示する。そして、名称特定部190は、候補名称生成部180から候補支店名を取得すると、金融機関辞書記憶部120に記憶された支店名テーブルに、取得した複数の候補支店名それぞれに対応する支店名が存在するか否かを判定する。このとき、名称特定部190は、金融機関名の特定の場合と同様に、付与された優先順位の高い候補支店名から順に判定を行う。この判定の方法には、金融機関名の判定を行う場合と同様に一致率を算出する方法を用いる。このとき、名称特定部190は、金融機関名の特定の結果で金融機関名が一意に特定されていない場合には、特定した支店名に基づいて金融機関名の特定を行う。
図4は、文字コード記憶部に記憶されるテーブルを示す図である。文字コード記憶部110には、文字コード対応テーブル111が記憶される。文字コード対応テーブル111は、文字画像に含まれる文字とその文字に対応する文字コードを対応付けた情報である。
図5は、文字コード対応テーブルのデータ構造例を示す図である。文字コード対応テーブル111には、No.を示す項目、文字コードを示す項目および文字を示す項目が設けられている。各項目の横方向に関連付けられた情報同士が1つの文字コードに関する情報を構成する。
No.を示す項目には、項目の番号を示す値が設定される。文字コードを示す項目には、コンピュータ100で認識可能なコードが設定される。文字を示す項目には、文字コードに対応付けられる文字が設定される。
文字コード対応テーブル111には、例えば、No.が“12306”、文字コードが“0x3012”、文字が“東”という情報が設定される。これは、項目番号“12306”番目の文字コードとして“0x3012”が定められており、この文字コードに対応する文字が“東”であることを示している。すなわち、文字識別部160は、文字として“東”を認識すると、これに対する文字コード“0x3012”を取得する。
なお、“null”は、文字コードに対応する文字が定義されていないことを示す。
文字コード対応テーブル111のコード体系としては、例えば、UnicodeやJIS(Japanese Industrial Standards)コード等を用いることができる。
図6は、金融機関辞書記憶部に記憶されるテーブルを示す図である。金融機関辞書記憶部120には、金融機関名テーブル121および支店名テーブル群122が記憶される。金融機関名テーブル121は、業務処理システムで利用する金融機関名を登録したテーブルである。支店名テーブル群122は、各金融機関に対応付けられた支店名を登録するテーブルの集合である。支店名テーブル群122は、支店名テーブル122a,122b,122cを含む。支店名テーブル122a,122b,122cは、金融機関名テーブル121に登録された各金融機関の支店名を各金融機関に対応付けて登録したテーブルである。なお、金融機関名および支店名は、文字コード列の情報として登録される。
図7は、金融機関名テーブルのデータ構造例を示す図である。金融機関名テーブル121には、No.を示す項目、金融機関名を示す項目が設けられている。
No.を示す項目には、項目の番号を示す値が設定される。金融機関名を示す項目には、金融機関の名称を示す情報が設定される。
金融機関名テーブル121には、例えば、No.が“1”、金融機関名が“東京ABC銀行”という情報が設定される。
図8は、支店名テーブルのデータ構造例を示す図である。支店名テーブル122a,122b,122cには、No.を示す項目、支店名を示す項目が設けられている。ここでは、金融機関名“東京ABC銀行”の支店名を登録したテーブルである支店名テーブル122aに関して説明するが、支店名テーブル122b,122cに関しても同様である。
No.を示す項目には、項目の番号を示す値が設定される。支店名を示す項目には、支店の名称を示す情報が設定される。
支店名テーブル122aには、例えば、No.が“1”、支店名が“本店”という情報が設定される。同様にして支店名テーブル122b,122cに関しても他の金融機関の各支店名が登録される。
図9は、重み付け情報記憶部に記憶されるテーブルを示す図である。重み付け情報記憶部130には、金融機関名用重み付けテーブル131および支店名用重み付けテーブル群132が記憶される。金融機関名用重み付けテーブル131は、金融機関名テーブル121に登録された金融機関名に含まれる各文字コードの出現回数を、各文字コードに対応付けたテーブルである。支店名用重み付けテーブル群132は、各金融機関に対応付けられた支店名に含まれる各文字コードの出現回数を、各文字コードに対応付けたテーブルの集合である。支店名用重み付けテーブル群132は、支店名用重み付けテーブル132a,132b,132cを含む。支店名用重み付けテーブル132a,132b,132cは、それぞれ支店名テーブル122a,122b,122cに登録された金融機関の支店名に含まれる各文字コードの出現回数を、各文字コードに対応付けたテーブルである。
ここで、金融機関名用重み付けテーブル131と支店名用重み付けテーブル群132は、同時に重み付け情報記憶部130に記憶されている必要はない。本実施の形態では、重み付け処理部145は、金融機関名用重み付けテーブル131に関しては、システムの起動時や金融機関名テーブルの更新時に一度だけ重み付け処理を行って生成して重み付け情報記憶部130に格納する。一方、支店名の重み付け処理に関しては、その処理負荷が小さい場合も多いため、重み付け処理部145は、必要に応じて重み付け処理を行い重み付け情報記憶部130に登録する。このようにすることで、コンピュータ100が利用可能なメモリリソースを効率良く利用することができる。
なお、支店名用重み付けテーブル群132も金融機関名用重み付けテーブル131と同様にシステムの起動時や金融機関名テーブル121の更新時に一度だけ重み付け処理を行い、重み付け情報記憶部130に格納するようにしてもよい。
また、支店名用重み付けテーブル群132に含まれる支店名用重み付けテーブルの数は、図9のように複数の場合もあるし、単数の場合もある。
図10は、金融機関名用重み付けテーブルのデータ構造例を示す図である。金融機関名用重み付けテーブル131には、No.を示す項目、文字コードを示す項目、重み付け値を示す項目が設けられている。各項目の横方向に関連付けられた情報同士が1つの文字コードに関する情報を構成する。
No.を示す項目には、項目の番号を示す値が設定される。文字コードを示す項目には、コンピュータ100で使用可能な文字コードが設定される。重み付け値を示す項目には、対応する文字コードの、金融機関名テーブル121に登録された金融機関名における出現回数が設定される。
金融機関名用重み付けテーブル131には、例えば、No.が“12306”、文字コードが“0x3012(東)”、重み付け値が“5”という情報が設定される。これは、文字コード“0x3012(東)”が、金融機関名テーブル121に登録された金融機関名に5回出現することを示している。
図11は、支店名用重み付けテーブルのデータ構造例を示す図である。支店名用重み付けテーブル132a,132b,132cには、No.を示す項目、文字コードを示す項目、重み付け値を示す項目が設けられている。ここでは、金融機関名“東京ABC銀行”の支店名を登録したテーブルである支店名用重み付けテーブル132aに関して説明するが、支店名テーブル132b,132cに関しても同様である。各項目の横方向に関連付けられた情報同士が1つの文字コードに関する情報を構成する。
No.を示す項目には、項目の番号を示す値が設定される。文字コードを示す項目には、コンピュータ100で使用可能な文字コードが設定される。重み付け値を示す項目には、対応する文字コードの、支店名テーブル122aに登録された支店名における出現回数が設定される。
支店名用重み付けテーブル132aには、例えば、No.が“33446”、文字コードが“0x82A6(新)”という情報が設定される。これは、文字コード“0x82A6(新)”が、“東京ABC銀行”の支店名テーブル122aに登録された支店名に4回出現することを示している。
次に、以上のような構成を備えるコンピュータ100において実行される処理の詳細を説明する。
図12は、金融機関名に対する重み付け処理の手順を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。
[ステップS11]更新情報入力部140は、オペレータの入力やネットワーク等による配信により取得する更新情報に基づいて、金融機関辞書記憶部120に記憶された金融機関名テーブル121および支店名テーブル群122を更新する。
[ステップS12]重み付け処理部145は、金融機関辞書記憶部120に記憶された金融機関名テーブル121が更新されたことを検知すると、金融機関名テーブル121に含まれる各文字の出現回数を算出する。重み付け処理部145は、算出した出現回数を重み付け値として、該当の文字に対応付けた金融機関名用重み付けテーブル131を生成する。
[ステップS13]重み付け処理部145は、生成した金融機関名用重み付けテーブル131を重み付け情報記憶部130に格納する。
このように、コンピュータ100は、更新情報を取得すると、更新後の金融機関名テーブル121に基づいて金融機関名用重み付けテーブル131を更新する。
なお、重み付け処理部145が、金融機関名テーブル121の更新を検知する方法としては、例えば、更新情報入力部140からその旨の通知を受けたり、金融機関名テーブル121を所定の間隔で監視したりする方法が考えられる。
これにより、金融機関辞書の更新が発生した場合にも、金融機関名テーブル121と金融機関名用重み付けテーブル131とを適正に同期することができる。
図13は、金融機関名・支店名の特定処理の手順を示すフローチャートである。以下、図13に示す処理をステップ番号に沿って説明する。
[ステップS21]画像情報入力部150は、スキャナ14から帳票に対応する画像情報を取得する。画像情報入力部150は、取得した画像情報を文字識別部160に出力する。
[ステップS22]文字識別部160は、画像情報に含まれる金融機関名用の文字およびこの金融機関の支店名用の文字を識別する。そして、識別結果および文字コード記憶部110に記憶された文字コード対応テーブル111に基づいて金融機関名用の候補文字および支店名用の候補文字を取得し、候補文字除外部170に出力する。
[ステップS23]候補文字除外部170は、文字識別部160より取得した金融機関名用の候補文字に対し、重み付け情報記憶部130に記憶された金融機関名用重み付けテーブル131で重み付け値が0である候補文字を候補から除外する。候補文字除外部170は、除外処理後の金融機関名用の候補文字を候補名称生成部180に出力する。また、候補文字除外部170は、文字識別部160より支店名用の候補文字を取得する。この支店名用の候補文字は、金融機関名の特定処理が完了するまで、候補文字除外部170が利用可能な記憶領域に保持される。
[ステップS24]候補名称生成部180は、候補文字除外部170から金融機関名用の候補文字を取得する。候補名称生成部180は、取得した金融機関名用の候補文字を用いて、重み付け情報記憶部130に記憶された金融機関名用重み付けテーブル131に基づき、複数の候補金融機関名を優先順位を付与しながら生成する。候補名称生成部180は、生成した複数の候補金融機関名を名称特定部190に出力する。
[ステップS25]名称特定部190は、候補名称生成部180から複数の候補金融機関名を取得する。名称特定部190は、金融機関辞書記憶部120に記憶された金融機関名テーブル121に、取得した複数の候補金融機関名それぞれに対応する金融機関名が存在するか否かを優先順位の高い順に判定し、その金融機関名を特定する。ここでは、特定された金融機関名に“東京ABC銀行”が含まれるものとする。なお、上記の特定処理は、候補金融機関名と金融機関名テーブル121に存在する金融機関名との一致率を算出し、一致率の高いものを選択する方法で行われる。
[ステップS26]名称特定部190は、上記ステップS25の特定の結果が一意であるか否かを判定する。一意である場合、名称特定部190は、重み付け処理部145に特定した金融機関の支店名に対する重み付け処理を実行するよう指示して、処理がステップS27に移される。一意でない場合、名称特定部190は、重み付け処理部145に特定した複数の金融機関の支店名に対する重み付け処理を実行するよう指示して、処理がステップS31に移される。
[ステップS27]重み付け処理部145は、金融機関辞書記憶部120に記憶された該当の金融機関の支店名テーブル122aに含まれる各文字の出現回数を算出して支店名用重み付けテーブル132aを生成し、重み付け情報記憶部130に格納する。そして、重み付け処理部145は、名称特定部190に重み付け処理が完了したことを通知する。名称特定部190は、重み付け処理部145から重み付け処理が完了した旨の通知を取得すると、候補文字除外部170に支店名用の候補文字に関する処理を実行するよう指示する。
[ステップS28]候補文字除外部170は、名称特定部190からの指示に基づいて、取得した支店名用の候補文字に対し、重み付け情報記憶部130に記憶された支店名用重み付けテーブル132aで重み付け値が0である候補文字を候補から除外する。そして、候補文字除外部170は、除外処理後の支店名用の候補文字を候補名称生成部180に出力する。
[ステップS29]候補名称生成部180は、候補文字除外部170から支店名用の候補文字を取得する。候補名称生成部180は、取得した支店名用の候補文字を用いて、重み付け情報記憶部130に記憶された支店名用重み付けテーブル132aに基づき、複数の候補支店名を優先順位を付与しながら生成する。候補名称生成部180は、生成した複数の候補支店名を名称特定部190に出力する。
[ステップS30]名称特定部190は、候補名称生成部180から複数の候補支店名を取得する。名称特定部190は、金融機関辞書記憶部120に記憶された支店名テーブル122aに、取得した複数の候補支店名それぞれに対応する支店名が存在するか否かを優先順位の高い順に判定し、その支店名を特定する。なお、上記の特定処理は、候補支店名と支店名テーブル122aに存在する支店名との一致率を算出し、一致率の高いものを選択する方法で行われる。
[ステップS31]重み付け処理部145は、金融機関辞書記憶部120に記憶された上記ステップS26で特定された複数の金融機関の支店名テーブルに含まれる各文字の出現回数を算出して、金融機関ごとの支店名用重み付けテーブルを生成する。重み付け処理部145は、生成した複数の支店名用重み付けテーブルを重み付け情報記憶部130に格納する。そして、重み付け処理部145は、名称特定部190に重み付け処理が完了したことを通知する。名称特定部190は、重み付け処理部145から重み付け処理が完了した旨の通知を取得すると、候補文字除外部170に支店名用の候補文字に関する処理を複数の支店名用重み付けテーブルそれぞれを用いて実行するよう指示する。
[ステップS32]候補文字除外部170は、名称特定部190からの指示に基づいて、支店名用の候補文字に対し、重み付け情報記憶部130に記憶された複数の支店名用重み付けテーブルそれぞれについて、重み付け値が0である候補文字を候補から除外して、金融機関ごとに候補文字を生成する。そして、候補文字除外部170は、除外処理後の金融機関ごとの支店名用の候補文字を候補名称生成部180に出力する。
[ステップS33]候補名称生成部180は、候補文字除外部170から金融機関ごとの支店名用の候補文字を取得する。候補名称生成部180は、取得した支店名用の候補文字を用いて、重み付け情報記憶部130に記憶された支店名用重み付けテーブルに基づき、金融機関毎に複数の候補支店名を優先順位を付与しながら生成する。候補名称生成部180は、生成した金融機関ごとの候補支店名を名称特定部190に出力する。
[ステップS34]名称特定部190は、候補名称生成部180から金融機関ごとの複数の候補支店名を取得する。名称特定部190は、金融機関辞書記憶部120に記憶された金融機関ごとの支店名テーブルに、取得した複数の候補支店名それぞれに対応する支店名が存在するか否かを優先順位の高い順に判定し、その支店名を特定する。なお、上記の特定処理は、金融機関ごとに、候補支店名と支店名テーブルに存在する支店名との一致率を算出し、一致率の高いものを選択する方法で行われる。そして、名称特定部190は、一致率の最も高い支店名を有する金融機関名を特定する。
[ステップS35]名称特定部190は、特定した金融機関名および支店名を必要に応じて他の業務システムに出力する。
このようにして、コンピュータ100は取得した画像情報に含まれる金融機関名および支店名を特定することができる。予め算出した重み付け値により、候補となる名称に優先順位を付与し、この優先順位の高いものから判定処理を実行することで、特定結果の確からしさの高いものから順に処理が完了する。すなわち、優先順位の低いものに対する判定処理を省略することもでき、特定処理の精度を維持しつつ、コンピュータ100の処理負荷を低減することができる。
次に、以上の処理の流れを更に具体的に説明する。
図14は、帳票の記入例を示す図である。帳票には、金融機関名を記入する欄201および支店名を記入する欄202が設けられている。金融機関名を記入する欄201には、記入者により、金融機関の名称が記入される。支店名を記入する欄202には、記入者により、記入した金融機関の支店の名称が記入される。このような情報は、例えば、業務システムにおいて銀行口座を特定するための情報として用いられる。
そして、金融機関名および支店名が記入された帳票は、スキャナ14によって画像情報として取り込まれる。コンピュータ100は、スキャナ14が取り込んだ画像情報を取得する。
図15は、名称特定処理の流れを示す第1の模式図である。以下、図15に示す処理をステップ番号に沿って説明する。
[ステップST1]文字識別部160は、図14の帳票に記入された金融機関名に対する文字識別部160の文字識別処理の結果、候補文字リスト301を取得する。これらの候補文字は、文字識別部160による識別処理の結果の確からしさ等による順序で並んでおり、その順序に特に意味はない。
[ステップST2]候補文字除外部170は、候補文字リスト301に含まれる文字のうち、金融機関名用重み付けテーブル131において重み付け値が0である“糸”、“余”、“令”、“P”、“及”、“て”および“O”の文字を候補から除外する。更に、候補文字除外部170は、残った文字の重み付け値に基づいて優先順位の高い文字から第1候補、第2の候補、・・・とし、候補文字リスト302を取得する。
ここで候補文字リスト302において“−(ハイフン)”で示される欄は、該当候補となる文字が存在しないことを意味する。例えば、“3文字目”に該当する候補文字は、第4候補以降には、存在しないことを示している。また、“4文字目”および“5文字目”に該当する候補文字は、ともに第3候補以降には、存在しないことを示している。
このように明らかに入力として有り得ない文字を候補から除外することで、以降の処理で不要なステップが発生するのを防止することができる。
図16は、名称特定処理の流れを示す第2の模式図である。以下、図16に示す処理をステップ番号に沿って説明する。なお、図16に示す処理は、図15に示すステップST2の後に実行される。
[ステップST3]候補名称生成部180は、候補文字リスト302に含まれる文字を組み合わせて、候補名称リスト303を取得する。候補名称リスト303では、各候補文字の重み付け値の大きい文字の組み合わせが優先順位の高い候補となる。例えば、金融機関名用重み付けテーブル131において、“東”は、重み付け値が“5”であり、“束”は重み付け値が“4”である。このため、1文字目として識別された候補文字のうち、“束”よりも“東”を用いて生成された候補金融機関名の方が、優先順位が高くなる。2文字目以降の候補文字に関しても同様である。候補名称生成部180は、生成した候補金融機関名のうち、優先順位の高いもの(例えば、第1候補から第5候補)を名称特定部190に出力する。
このようにすると、名称特定部190における特定処理の負荷を軽減することができる。また、候補金融機関名の作成に利用する候補文字を、重み付け値による優先順位が高いものから利用することで候補の作成精度を向上することができる。
図17は、名称特定処理の流れを示す第3の模式図である。以下、図17に示す処理をステップ番号に沿って説明する。なお、図17に示す処理は、図16に示すステップST3の後に実行される。
[ステップST4]名称特定部190は、候補名称生成部180から取得する各候補金融機関名を、金融機関辞書記憶部120に記憶された金融機関名テーブル121の金融機関名と比較して一致率を算出し、候補名称リスト304を取得する。そして、候補名称リスト304に含まれる候補金融機関名のうち、一致率の最も高いものを金融機関名テーブル121から特定する。一致率の最も高い金融機関が1つであった場合、処理がステップST5aに移される。また、一致率の最も高い金融機関が複数であった場合、処理がステップST5bに移される。
[ステップST5a]特定結果リスト305aは、一致率の最も高い金融機関が1つであった場合、すなわち、金融機関名を一意に特定できた場合を示している。ここでは、第1候補であった“東京ABC銀行”が金融機関名テーブル121に含まれる“東京ABC銀行”と一致率100%で一致し、他の候補がそれよりも低い一致率である場合である。この場合、名称特定部190は、“東京ABC銀行”を帳票に記入された金融機関名として一意に特定する。そして、“東京ABC銀行”の支店名として帳票に記入された“新宿西支店”を特定するために、再度、図15〜17のステップST1〜ステップST4迄の処理が実行される。
[ステップST5b]特定結果リスト305bは、一致率の最も高い金融機関が2つであった場合、すなわち、金融機関名を一意に特定できなかった場合を示している。名称特定部190は、例えば、第1候補であった“東京ABC銀行”が金融機関名テーブル121に含まれる“東京ABC銀行”と一致率100%であると判定する。また、名称特定部190は、例えば、第5候補であった“東西ABC銀行”が金融機関名テーブル121に含まれる“東西ABC銀行”と一致率100%であると判定する。この場合、名称特定部190の特定結果は、一意に定まらず、“東京ABC銀行”および“東西ABC銀行”となる。この場合、2つの金融機関名のうちのいずれかを更に特定するために、支店名の特定結果を用いる。
なお、上記の説明では、一致率が同じとなった金融機関名が複数存在した場合にステップST5bのように判定しているが、他に例えば、算出された一致率が所定の範囲内(例えば、90%〜100%)となったすべての金融機関名を候補として、次に示すステップST6のような処理を行うようにしてもよい。このとき、一致率の判定範囲を、算出された一致率の最大値を基準とした範囲(例えば、所定の割合の範囲、あるいは所定の数値範囲)としてもよい。また、別の例としては、算出された一致率が大きい順に所定数の金融機関名を抽出して候補としてもよい。
図18は、名称特定処理の流れを示す第4の模式図である。以下、図18に示す処理をステップ番号に沿って説明する。なお、図18に示す処理は、図17に示したステップST5bの後に実行される。
[ステップST6]名称特定部190は、候補名称生成部180から“東京ABC銀行”および“東西ABC銀行”の候補支店名を取得する。次に、名称特定部190は、“東京ABC銀行”の各候補支店名について、支店名テーブル122aの支店名と比較する。そして、各候補に対する文字の一致率を算出し、候補名称リスト306aを取得する。更に、名称特定部190は、“東西ABC銀行”の各候補支店名について、“東西ABC銀行”の支店名テーブルに含まれる支店名と比較する。そして、各候補に対する文字の一致率を算出し、候補名称リスト306bを取得する。
そして、名称特定部190は、候補名称リスト306a,306bに基づいて、最も一致率の高い候補支店名を特定する。候補名称リスト306aでは、“東京ABC銀行”の支店名“新宿西支店”が、支店名テーブル122aに含まれる“新宿西支店”と一致率100%である場合を示している。この一致率は、候補名称リスト306a,306bに含まれる候補支店名の中で最も大きい。
[ステップST7]名称特定部190は、帳票に記入された支店名を“新宿西支店”と特定すると同時に、帳票に記入された金融機関名を“東京ABC銀行”と特定し、特定結果307を取得する。
なお、候補支店名に関して最も高い一致率となる支店名が、“東京ABC銀行”と“東西ABC銀行”との双方に存在する場合も考えられる。例えば、上記ステップST6において、“新宿西支店”という名称の支店が双方の金融機関に存在する場合である。この場合、双方に一致率100%となる支店名が存在することになる。この場合には、例えば、図16の候補名称リスト303において、優先順位の高い候補金融機関名として生成された方を採用する。すなわち、第1候補である“東京ABC銀行”を採用する。このようにすることで、確からしさにおいて優位な名称を優先的に選択することができ、特定精度を向上することができる。
本実施の形態の説明では、金融機関の業務を想定した例を挙げて説明したが、特定対象とする文字列は、銀行名や支店名に限らない。例えば、紙面等に記入された住所の特定に用いることもできる。そして、2段階で特定する方法は、県名および市町村名の対応等、階層的に管理される情報を特定する場合に適用することができる。
以上説明したように、予め金融機関辞書に基づいて各文字に重み付けを付与しておくことで、文字の特定精度を向上することができる。また、優先順位の高い順に候補文字列の一致率判定処理等を行うことにより、文字列を短時間に特定できるようになる。更に、優先順位の低い候補文字列の一致率判定を省略することができるため、認識処理の負荷を低減することができる。すなわち、低負荷の処理で文字列を精度良く認識することが可能となる。
なお、図1や図3に示した処理機能の少なくとも一部は、コンピュータによって実現することができる。その場合には、これらの処理機能の処理内容を記述したプログラムが提供される。そして、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録された光ディスクなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、そのプログラムを、サーバコンピュータからネットワークを介して他のコンピュータに転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、そのプログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上、本発明の文字認識プログラム、文字認識装置および文字認識方法を図示の実施の形態に基づいて説明したが、これらに限定されるものではなく、各部の構成は同様の機能を有する任意の構成のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。また、本発明は前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
文字認識システムの概要を示す図である。 本実施の形態のコンピュータのハードウェア構成を示す図である。 本実施の形態のコンピュータの機能を示すブロック図である。 文字コード記憶部に記憶されるテーブルを示す図である。 文字コード対応テーブルのデータ構造例を示す図である。 金融機関辞書記憶部に記憶されるテーブルを示す図である。 金融機関名テーブルのデータ構造例を示す図である。 支店名テーブルのデータ構造例を示す図である。 重み付け情報記憶部に記憶されるテーブルを示す図である。 金融機関名用重み付けテーブルのデータ構造例を示す図である。 支店名用重み付けテーブルのデータ構造例を示す図である。 金融機関名に対する重み付け処理の手順を示すフローチャートである。 金融機関名・支店名の特定処理の手順を示すフローチャートである。 帳票の記入例を示す図である。 名称特定処理の流れを示す第1の模式図である。 名称特定処理の流れを示す第2の模式図である。 名称特定処理の流れを示す第3の模式図である。 名称特定処理の流れを示す第4の模式図である。
符号の説明
1 コンピュータ
1a 単語登録情報記憶手段
1b 重み付け情報記憶手段
1c 画像情報入力手段
1d 文字推定手段
1e 候補文字列生成手段
1f 文字列特定手段
2 画像情報取込装置

Claims (15)

  1. 画像情報に含まれる文字列を認識する文字認識プログラムにおいて、
    コンピュータを、
    前記画像情報を基に前記文字列の各文字を推定し、その推定結果の候補としての1つ以上の候補文字を前記文字列内の各文字について出力する文字推定手段、
    複数の単語が登録された単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた重み付け情報に基づき、前記文字推定手段が出力した前記文字列内の各文字に対応する前記候補文字を前記出現回数が多い順に1つずつ抽出して組み合わせることで、前記文字列の候補としての1つ以上の候補文字列を順次生成する候補文字列生成手段、
    前記候補文字列をその生成順に前記単語登録情報内の単語と照合し、その照合結果から前記文字列に対応する単語を特定する文字列特定手段、
    として機能させることを特徴とする文字認識プログラム。
  2. 前記候補文字列生成手段は、前記文字推定手段が出力した前記候補文字のうち、前記単語登録情報に含まれない文字を除外して、前記候補文字列を生成することを特徴とする請求項1記載の文字認識プログラム。
  3. 前記文字列特定手段は、前記候補文字列と前記単語登録情報内の単語との文字の一致率に基づいて、前記文字列に対応する単語を特定することを特徴とする請求項1または2に記載の文字認識プログラム。
  4. 前記コンピュータを、更に、
    前記単語登録情報に含まれる文字の出現回数を算出して前記重み付け情報を生成する重み付け処理手段、
    として機能させることを特徴とする請求項1乃至3のいずれか1項記載の文字認識プログラム。
  5. 画像情報に含まれる第1の文字列と第2の文字列とを認識する文字認識プログラムにおいて、
    コンピュータを、
    前記画像情報を基に前記第1の文字列および前記第2の文字列の各文字を推定し、その推定結果の候補として、前記第1の文字列の各文字に対応する第1の候補文字と、前記第2の文字列の各文字に対応する第2の候補文字とを、それぞれ1つ以上出力する文字推定手段、
    複数の単語が登録された第1の単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた第1の重み付け情報に基づき、前記文字推定手段が出力した前記第1の文字列内の各文字に対応する前記第1の候補文字を前記第1の単語登録情報における出現回数が多い順に1つずつ抽出して組み合わせることで、前記第1の文字列の候補としての1つ以上の第1の候補文字列を順次生成する第1の候補文字列生成手段、
    前記第1の候補文字列をその生成順に前記第1の単語登録情報内の単語と照合し、その照合結果から前記第1の文字列と一致すると推定される単語を示す第1の候補単語を複数選択して出力する第1の文字列特定手段、
    複数の単語がそれぞれ登録された複数の第2の単語登録情報の中から、前記第1の候補単語から特定される前記第2の単語登録情報を前記第1の候補単語ごとに選択し、選択した前記第2の単語登録情報のそれぞれに含まれる文字の出現回数を文字ごとに対応付けた複数の第2の重み付け情報に基づき、前記文字推定手段が出力した前記第2の文字列内の各文字に対応する前記第2の候補文字を前記第2の単語登録情報における出現回数が多い順に1つずつ組み合わせることで、前記第2の文字列の候補としての1つ以上の第2の候補文字列を前記第1の候補単語ごとにそれぞれ順に生成する第2の候補文字列生成手段、
    前記第2の候補文字列をその生成順に対応する前記第2の単語登録情報内の単語と照合し、その照合結果から前記第2の文字列と一致すると推定される単語を示す第2の候補単語を、いずれかの前記第2の単語登録情報から選択して出力するとともに、前記第2の候補単語に対応する前記第1の候補単語を、前記第1の文字列と一致する単語として確定する第2の文字列特定手段、
    として機能させることを特徴とする文字認識プログラム。
  6. 前記第2の文字列特定手段は、前記第2の候補文字列と照合されたすべての単語の中で、照合対象の前記第2の候補文字列との一致率が最も高かった単語を、前記第2の候補単語として選択することを特徴とする請求項5記載の文字認識プログラム。
  7. 前記第1の文字列特定手段は、前記第1の候補文字列と前記第1の単語登録情報内の単語との一致率に基づいて、前記第1の文字列と一致すると推定される単語を1つに確定できるか否かを判定し、
    1つに確定できなかった場合には、複数の前記第1の候補単語を選択して前記第2の文字列特定手段に出力し、
    1つに確定できた場合には、確定した単語を唯一の前記第1の候補単語として前記第2の文字列特定手段に出力して、当該第1の候補単語から特定される1つの前記第2の重み付け情報に基づいて前記第2の候補文字列を生成させ、生成された前記第2の候補文字列を用いて前記第2の文字列特定手段に照合処理を実行させる、
    ことを特徴とする請求項5または6に記載の文字認識プログラム。
  8. 前記第1の文字列特定手段は、算出された前記一致率のうちの最大値から所定の割合の範囲または所定の数値の範囲に複数の算出値が存在するか、または1つの算出値のみ存在するかによって、前記第1の文字列と一致すると推定される単語を1つに確定できるか否かを判定することを特徴とする請求項7記載の文字認識プログラム。
  9. 前記コンピュータを、更に、
    前記第1の単語登録情報に含まれる文字の出現回数を算出して前記第1の重み付け情報を生成し、複数の前記第2の単語登録情報のそれぞれに含まれる文字の出現回数を算出して前記第2の単語登録情報ごとに対応付けた複数の前記第2の重み付け情報を生成する重み付け処理手段、
    として機能させることを特徴とする請求項5乃至8のいずれか1項記載の文字認識プログラム。
  10. 前記第1の文字列は、金融機関の名称であり、
    前記第2の文字列は、前記金融機関の支店の名称である、
    ことを特徴とする請求項5乃至9のいずれか1項記載の文字認識プログラム。
  11. 画像情報に含まれる文字列を認識する文字認識装置において、
    前記画像情報を基に前記文字列の各文字を推定し、その推定結果の候補としての1つ以上の候補文字を前記文字列内の各文字について出力する文字推定手段と、
    複数の単語が登録された単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた重み付け情報に基づき、前記文字推定手段が出力した前記文字列内の各文字に対応する前記候補文字を前記出現回数が多い順に1つずつ抽出して組み合わせることで、前記文字列の候補としての1つ以上の候補文字列を順次生成する候補文字列生成手段と、
    前記候補文字列をその生成順に前記単語登録情報内の単語と照合し、その照合結果から前記文字列に対応する単語を特定する文字列特定手段と、
    を有することを特徴とする文字認識装置。
  12. 前記候補文字列生成手段は、前記文字推定手段が出力した前記候補文字のうち、前記単語登録情報に含まれない文字を除外して、前記候補文字列を生成することを特徴とする請求項11記載の文字認識装置。
  13. 前記文字列特定手段は、前記候補文字列と前記単語登録情報内の単語との文字の一致率に基づいて、前記文字列に対応する単語を特定することを特徴とする請求項11または12に記載の文字認識装置。
  14. 前記単語登録情報に含まれる文字の出現回数を算出して前記重み付け情報を生成する重み付け処理手段を更に有することを特徴とする請求項11乃至13のいずれか1項記載の文字認識装置。
  15. 画像情報に含まれる文字列を認識する文字認識装置の文字認識方法において、
    文字推定手段が、前記画像情報を基に前記文字列の各文字を推定し、その推定結果の候補としての1つ以上の候補文字を前記文字列内の各文字について出力し、
    候補文字列生成手段が、複数の単語が登録された単語登録情報に含まれる文字の出現回数を文字ごとに対応付けた重み付け情報に基づき、前記文字推定手段が出力した前記文字列内の各文字に対応する前記候補文字を前記出現回数が多い順に1つずつ抽出して組み合わせることで、前記文字列の候補としての1つ以上の候補文字列を順次生成し、
    文字列特定手段が、前記候補文字列をその生成順に前記単語登録情報内の単語と照合し、その照合結果から前記文字列に対応する単語を特定する、
    ことを特徴とする文字認識方法。
JP2008169844A 2008-06-30 2008-06-30 文字認識プログラム、文字認識装置および文字認識方法 Expired - Fee Related JP5107157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008169844A JP5107157B2 (ja) 2008-06-30 2008-06-30 文字認識プログラム、文字認識装置および文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008169844A JP5107157B2 (ja) 2008-06-30 2008-06-30 文字認識プログラム、文字認識装置および文字認識方法

Publications (2)

Publication Number Publication Date
JP2010009440A JP2010009440A (ja) 2010-01-14
JP5107157B2 true JP5107157B2 (ja) 2012-12-26

Family

ID=41589822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008169844A Expired - Fee Related JP5107157B2 (ja) 2008-06-30 2008-06-30 文字認識プログラム、文字認識装置および文字認識方法

Country Status (1)

Country Link
JP (1) JP5107157B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5724356B2 (ja) 2010-01-19 2015-05-27 株式会社リコー 搬送装置、画像形成装置およびプログラム
JP6127676B2 (ja) 2013-04-12 2017-05-17 オムロン株式会社 画像認識装置、画像認識プログラム、記録媒体、および画像認識方法
JP6527256B1 (ja) * 2018-01-29 2019-06-05 株式会社 みずほ銀行 帳票対応システム、帳票対応方法及び帳票対応プログラム
JP7118923B2 (ja) * 2019-05-09 2022-08-16 株式会社 みずほ銀行 帳票対応システム、帳票対応方法及び帳票対応プログラム
JP2022088183A (ja) * 2020-12-02 2022-06-14 株式会社三菱Ufj銀行 帳票読取装置及び帳票読取方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696287A (ja) * 1992-09-17 1994-04-08 Nec Corp 単語照合前処理方式
JP3221968B2 (ja) * 1993-04-02 2001-10-22 沖電気工業株式会社 文字認識装置
JPH0816730A (ja) * 1994-06-29 1996-01-19 Oki Electric Ind Co Ltd 文字認識システム
JP3085107B2 (ja) * 1994-11-01 2000-09-04 松下電器産業株式会社 文字認識装置
JP3275704B2 (ja) * 1996-05-21 2002-04-22 株式会社日立製作所 入力文字列推測認識装置
JPH1153474A (ja) * 1997-08-07 1999-02-26 Oki Electric Ind Co Ltd 文字列認識方法
JP2001195636A (ja) * 2000-01-07 2001-07-19 Hitachi Ltd 自動取引装置のイメージデータ認識装置
JP2005208927A (ja) * 2004-01-22 2005-08-04 Fujitsu Ltd 為替データ誤り防止プログラム

Also Published As

Publication number Publication date
JP2010009440A (ja) 2010-01-14

Similar Documents

Publication Publication Date Title
US10489672B2 (en) Video capture in data capture scenario
CN109522538B (zh) 表格内容的自动分列方法、装置、设备及存储介质
WO2019233421A1 (zh) 图像处理方法及装置、电子设备、存储介质
US20210312166A1 (en) System and method for face recognition based on dynamic updating of facial features
WO2019024692A1 (zh) 语音输入方法、装置、计算机设备和存储介质
AU2019419888A1 (en) System and method for information extraction with character level features
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
JP5107157B2 (ja) 文字認識プログラム、文字認識装置および文字認識方法
CN108596079B (zh) 手势识别方法、装置及电子设备
US20100045787A1 (en) Authenticating apparatus, authenticating system, and authenticating method
CN113780098A (zh) 文字识别方法、装置、电子设备以及存储介质
CN113033271A (zh) 利用人工智能模块学习脸部辨识的处理方法
US20210279460A1 (en) Information processing system, information processing method, and non-transitory recording medium
KR20200082932A (ko) 광학 문자 판독 장치를 포함하는 로봇 프로세스 자동화 시스템
JP2015045984A (ja) 情報処理装置、文字認識方法、及びプログラム
US20150178346A1 (en) Using biometric data to identify data consolidation issues
JP4715704B2 (ja) 音声認識装置、および音声認識プログラム
JP2020095374A (ja) 文字認識システム、文字認識装置、プログラム及び文字認識方法
US20210374147A1 (en) Information processing apparatus, information processing method, and storage medium
CN113971810A (zh) 文档生成方法、装置、平台、电子设备以及存储介质
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
CN117081727B (zh) 一种弱口令检测方法以及装置
WO2022259304A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7388677B2 (ja) 入力支援装置、入力支援方法、及びプログラム
WO2021230128A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121003

R150 Certificate of patent or registration of utility model

Ref document number: 5107157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees