JP3886720B2 - 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3886720B2 JP3886720B2 JP2000348347A JP2000348347A JP3886720B2 JP 3886720 B2 JP3886720 B2 JP 3886720B2 JP 2000348347 A JP2000348347 A JP 2000348347A JP 2000348347 A JP2000348347 A JP 2000348347A JP 3886720 B2 JP3886720 B2 JP 3886720B2
- Authority
- JP
- Japan
- Prior art keywords
- registered
- dictionary
- information
- specific area
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Description
【発明の属する技術分野】
この発明は、各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を作成する辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特に、オペレータの作業負担や時間を軽減し、もって効率良く辞書を作成することができる辞書作成装置、辞書作成方法および記録媒体に関する。
【0002】
【従来の技術】
従来、帳票類の種類を判別する技術として、帳票の本質的特徴である罫線を利用して判別した後に、罫線の特徴が類似する帳票については、帳票の特定領域に印刷された文字列を文字認識して判別する帳票類の判別方法がある(本願出願人による特願2000−95514号参照)。
【0003】
この方法では、文字列を用いて帳票類判別をおこなう場合に、帳票の判別に先立って、各帳票上の罫線の特徴を辞書登録し、さらに各帳票上の特定領域内の文字列とその位置を辞書登録する必要がある。
【0004】
このため、新規帳票を登録する際には、新規帳票の文字列に係る情報と、既登録帳票の文字列に係る情報とが競合するか否かを判定し、競合しないと判定されるに至るまで、文字列に係る情報の追加登録と競合判定とを繰り返して文字列の情報に係る辞書を作成している。
【0005】
ここで、この従来技術に係る辞書作成処理を説明する。図9(a)は、新規帳票、すなわち新規に登録しようとする帳票の一例を示す図であり、同図(b)は、既登録帳票、すなわち新規帳票の罫線特徴と類似する既に登録された帳票の一例を示す図である。なお、同図(b)に示すように、既登録帳票には、「位置1に文字列Aが存在する」という文字列情報および「位置2に文字列Bが存在する」という文字列情報が辞書登録されているものとする。
【0006】
まず最初に、オペレータの作業によって新規帳票の文字列情報を辞書登録する。たとえば、図9(a)に示すように、新規帳票の画像を画面表示し、オペレータの判断によって、「位置1に文字列Aが存在する」という文字列情報と、「位置3に文字列Cが存在する」という文字列情報を辞書登録する場合を想定する。
【0007】
この場合、新規帳票と既登録帳票とが競合するか否かをまず判定する。たとえば、図9に示す既登録帳票の場合には、位置1に文字列Aが存在し、かつ、位置3に文字列Cが存在するので、かかる文字列情報を新規帳票に付与するだけではこの新規帳票を既登録帳票と区別することができず、両者は競合するものと判定される。
【0008】
そして、このように両帳票が競合すると判定された場合には、オペレータは、画面に表示された両者の画像を見比べて文字列の相違する箇所を見つけだし、その文字列を辞書に追加登録する。たとえば、図9の例では、新規帳票に「位置4に文字列Dが存在する」という文字列情報を追加登録する。その後、この追加登録された文字列情報を考慮したうえで両者が競合するか否かを再度判定する。
【0009】
同様に、新規帳票の罫線特徴と類似する別の既登録帳票に対しても競合するか否かを判定し、競合する場合には新たな文字列情報を辞書に追加登録する。かかる一連の処理を新規帳票の罫線特徴と類似する全ての既登録帳票に対しておこなうことによって、罫線特徴が類似する帳票を正しく判別することができる辞書を作成する。
【0010】
【発明が解決しようとする課題】
しかしながら、上記の従来技術は、オペレータの登録作業に長時間を要し、効率良く辞書を作成できないという問題点があった。すなわち、取り扱う帳票の種類が膨大になると、新規帳票と似たような文字列が印刷された帳票も既に大量に登録されているので、オペレータが文字列の相違する箇所を短時間で見つけだすことは容易ではない。
【0011】
さらに、オペレータが相違する箇所を見つけだして辞書に追加登録できたとしても、新規帳票と似たような文字列が印刷された帳票が既に大量に登録されている状況では、別の既登録帳票と競合が生じてしまうことがある。このような場合には、相違する文字列をさらに見つけださなければならず、オペレータの作業負担や作業時間が累増するため、辞書作成の効率化が図れない。
【0012】
この発明は、上述した従来技術による問題点を解決するためになされたものであり、オペレータの作業負担や時間を軽減し、もって効率良く辞書を作成することができる辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0013】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1の発明に係る辞書作成装置は、各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を作成する辞書作成装置において、新たに登録する新規帳票の特定領域の情報が前記辞書に登録された際に、当該辞書に既に登録された既登録帳票と前記新規帳票とを前記辞書に登録された特定領域の情報によって区別できるか否かを判定する判定手段と、前記判定手段によって区別できないと判定された場合に、前記辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出する検出手段と、前記検出手段により検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を前記辞書に登録する登録手段とを備えたことを特徴とする。
【0014】
また、請求項2の発明に係る辞書作成装置は、請求項1に記載の発明において、前記判定手段は、前記辞書に登録された前記新規帳票の特定領域の情報が前記既登録帳票の特定領域に存在するか否かを判定するとともに、前記辞書に登録されている前記既登録帳票の特定領域の情報が前記新規帳票の特定領域に存在するか否かを判定し、前記検出手段は、前記辞書に登録された前記新規帳票または前記辞書に登録されている前記既登録帳票の特定領域の情報のなかから、前記判定手段により他方の帳票には存在しないと判定された情報を検出することを特徴とする。
【0015】
また、請求項3の発明に係る辞書作成装置は、請求項1または2に記載の発明において、前記判定手段は、前記登録手段により登録された特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と前記新規帳票とを区別できるか否かを繰り返し判定することを特徴とする。
【0016】
また、請求項4の発明に係る辞書作成方法は、各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を作成する辞書作成方法において、新たに登録する新規帳票の特定領域の情報が前記辞書に登録された際に、当該辞書に既に登録された既登録帳票と前記新規帳票とを前記辞書に登録された特定領域の情報によって区別できるか否かを判定する判定工程と、前記判定工程によって区別できないと判定された場合に、前記辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出する検出工程と、前記検出工程により検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を前記辞書に登録する登録工程とを含んだことを特徴とする。
【0017】
また、請求項5の発明に係る辞書作成方法は、請求項4に記載の発明において、前記判定工程は、前記辞書に登録された前記新規帳票の特定領域の情報が前記既登録帳票の特定領域に存在するか否かを判定するとともに、前記辞書に登録されている前記既登録帳票の特定領域の情報が前記新規帳票の特定領域に存在するか否かを判定し、前記検出工程は、前記辞書に登録された前記新規帳票または前記辞書に登録されている前記既登録帳票の特定領域の情報のなかから、前記判定工程により他方の帳票には存在しないと判定された情報を検出することを特徴とする。
【0018】
また、請求項6の発明に係る辞書作成方法は、請求項4または5に記載の発明において、前記判定工程は、前記登録工程により登録された特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と前記新規帳票とを区別できるか否かを繰り返し判定することを特徴とする。
【0019】
また、請求項7の発明に係る記録媒体は、請求項4、5または6のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項4、5または6のいずれか一つの動作をコンピュータによって実行することができる。
【0020】
【発明の実施の形態】
以下に添付図面を参照して、この発明に係る辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。
【0021】
図1は、本実施の形態で用いる辞書作成装置の構成を示す機能ブロック図である。同図に示す辞書作成装置10は、帳票の特定領域に印刷された文字などに基づいて帳票の種類を判別する帳票類判別技術に用いられる装置であり、具体的には、帳票の判別に先立って、各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を帳票類判別時の比較対象として作成する。
【0022】
図1に示すように、この辞書作成装置10は、画像入力部11と、罫線特徴抽出部12と、辞書作成部13と、罫線特徴辞書14と、文字列情報辞書15と、罫線特徴照合部16と、詳細判定部17と、出力表示部18と、文字列入力部19とからなる。なお、この詳細判定部17は請求項1の判定手段および検出手段に対応し、辞書作成部13は請求項1の登録手段に対応する。
【0023】
画像入力部11は、新たに登録する新規帳票の画像データを光学的に入力するスキャナであり、白画素が画素値「0」となり黒画素が画素値「1」となる二値画像を罫線特徴抽出部12に出力する。
【0024】
罫線特徴抽出部12は、画像入力部11から受け取った二値画像データから罫線特徴を抽出する処理部である。具体的には、あらかじめ指定された区間についての水平・垂直方向の黒画素割合を算定し、この黒画素割合をブロックごとに加算して罫線特徴を抽出する。
【0025】
辞書作成部13は、罫線特徴抽出部12から受け取った帳票の罫線特徴を罫線特徴辞書14に登録するとともに、罫線特徴抽出部12から受け取った帳票の画像データおよび詳細判定部17や文字列入力部19から受け取った帳票の特定領域の情報、すなわち帳票画像の特定領域内に含まれる「帳票タイトル」や「会社名」などの帳票の特徴をなす文字列情報を文字列辞書15に登録する処理部である。
【0026】
罫線特徴辞書14は、各帳票、すなわち新規帳票および既登録帳票の種別ごとに罫線特徴を対応づけて記憶した辞書である。文字列情報辞書15は、各帳票の種別ごとに画像データおよび文字列情報を対応づけて記憶した辞書である。たとえば、図9(a)に示すように、この文字列情報辞書15は、帳票の画像データとともに「位置1に文字列Aが存在する」というような文字列情報を記憶する。
【0027】
罫線特徴照合部16は、新規帳票の罫線特徴と罫線特徴辞書14に既に記憶されている各既登録帳票の罫線特徴とを照合して、罫線特徴が類似する既登録帳票を複数検出して詳細判定部17に出力する処理部である。なお、かかる照合処理としては、従来の文字認識などで広く使用されている手法を適用することができ、たとえばユークリッド距離などに基づいて識別することができる。
【0028】
詳細判定部17は、既登録帳票と新規帳票とを文字列情報辞書15に登録された文字列情報によって区別できるか否かを判定する処理部であり、具体的には、新規帳票の文字列がすべて既登録帳票に存在するか否かを判定し、また、既登録帳票の文字列情報がすべて新規帳票に存在するか否かを判定することにより、新規帳票と既登録帳票とを区別できるか否か、すなわち帳票判別時に両者が競合するか否かを判定する。
【0029】
なお、詳細判定部17が既登録帳票と新規帳票とを文字列情報によって区別できないと判定した場合には、一方の帳票に存在して他方の帳票には存在しない文字列を検出し、検出した文字列の文字列情報を辞書作成部13に出力する。辞書作成部13では、たとえば、「位置1に文字列Aが存在しない」というような否定形の文字列情報を文字列情報辞書15に追加登録する。
【0030】
出力表示部18は、詳細判定部17から受け取った判定結果を出力表示する処理部である。文字列入力部19は、オペレータの作業によって文字列情報を辞書作成装置10内に入力する処理部であり、入力された文字列情報を辞書作成部13に出力する。
【0031】
次に、図1に示した辞書作成装置10による辞書作成の処理手順について説明する。図2は、図1に示した辞書作成装置10による辞書作成の処理手順を示すフローチャートである。
【0032】
同図に示すように、まず最初に画像入力部11は、新規帳票の画像データを取り込み、二値画像データを罫線特徴抽出部12に出力する(ステップS201)。そして、罫線特徴抽出部12は、画像入力部11から受け取った二値画像データから新規帳票の罫線特徴を抽出する(ステップS202)。なお、抽出された新規帳票の罫線特徴は、辞書作成部13によって新規帳票の種別と対応付けて罫線特徴辞書14に登録される。また、新規帳票の画像データも、辞書作成部13によって新規帳票の種別と対応付けて文字列情報辞書15に登録される。
【0033】
その後、オペレータの作業によって文字列入力部19から新規帳票の文字列情報が入力される(ステップS203)。具体的には、図示しない表示部に表示された新規帳票の画像における特定領域がオペレータによって指定された場合に、指定された特定領域内に含まれる「帳票タイトル」や「会社名」などの帳票の特徴をなす文字列情報を文字認識によって抽出する。たとえば、図9(a)に示すような帳票の画像において、オペレータによって位置1の特定領域が指定された場合には、位置1に存在する文字列Aとして「入金伝票」という文字列情報が抽出される。なお、オペレータの作業により入力される文字列情報の個数は任意であり、また、文字認識が正しくおこなわれなかった場合には、オペレータが修正する。
【0034】
そして、辞書作成部13は、文字列入力部19から入力された文字列情報を新規帳票の画像データに対応付けて文字列情報辞書15に登録する(ステップS204)。たとえば、図9(a)に示すような帳票の画像において、位置1の特定領域に存在する文字列Aとして「入金伝票」という文字列が抽出された場合には、「位置1に文字列Aが存在する」という文字列情報が文字列情報辞書15に登録される。
【0035】
その後、罫線特徴照合部16は、新規帳票の罫線特徴と罫線特徴辞書14に既に記憶されている各既登録帳票の罫線特徴とを照合して、罫線特徴が類似する既登録帳票を複数検出し(ステップS205)、類似する既登録帳票を登録シミュレーションの対象として距離値が近い順にソートする(ステップS206)。具体的には、新規帳票の罫線特徴と各既登録帳票の罫線特徴を各々照合し罫線マッチング量、すなわち距離値を各々求め、この距離値が所定のしきい値以内のもの、つまり類似していると思われる既登録帳票を距離値が近いものから順にソートする。
【0036】
罫線特徴照合部16は、ソートされた既登録帳票に対してソート順に識別番号ID(i)を与え、既登録帳票ID(i)をi=0から順に登録シミュレーションの対象としてセットし詳細判定部17に出力する(ステップS207)。そして、詳細判定部17は、セットされた既登録帳票と新規帳票との間で登録シミュレーションをおこなって、帳票判別時に新規帳票と既登録帳票とが競合するか否かを判定する(ステップS208およびS209)。
【0037】
具体的には、この登録シミュレーションにおいては、文字列情報辞書15に既に登録された既登録帳票と新規帳票とを文字列情報辞書15に登録された文字列情報によって区別できるか否かを判定し、区別できないと判定された場合に、文字列情報辞書15に登録されている文字列情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出し、検出された情報が他方の帳票の特定領域には存在しない旨の情報を文字列情報辞書15に追加登録して、既登録帳票と新規帳票とを区別できるか否かを再び判定する処理が繰り返される。なお、この登録シュミレーションの手順については後述する。
【0038】
その結果、新規帳票と既登録帳票とが競合する場合には(ステップS209否定)、出力表示部18に「新規帳票と既登録帳票とは競合する」旨の情報が出力表示され、オペレータは文字列入力部19から新たな文字列情報を入力する(ステップS210)。そして、辞書作成部13は、オペレータによって新たに入力された文字列情報を文字列情報辞書15に追加登録し(ステップS211)、詳細判定部17は、この追加登録された文字列情報を用いて登録シュミレーションをおこなう(ステップS208)。
【0039】
このような登録シュミレーションおよび文字列情報の追加登録(ステップS208〜S211)を繰り返し、新規帳票と既登録帳票とが競合しないと判定された場合には(ステップS209肯定)、出力表示部18に「新規帳票と既登録帳票とは競合しない」旨の情報を出力表示して処理を終了する。
【0040】
上記一連の処理をおこなうことにより、帳票の判別に先立って、各種帳票の罫線特徴および文字列情報を罫線特徴辞書14および文字列情報辞書15にそれぞれ辞書登録することができる。
【0041】
次に、図1に示した詳細判定部17による登録シミュレーション(図2、ステップS208)の手順について説明する。図3は、図1に示した詳細判定部17による登録シミュレーションの手順を示すフローチャートであり、図4〜図8は、新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【0042】
図3に示すように、まず最初に罫線特徴照合部16は、既登録帳票のID(i)を初期化し、すなわちi=0として(ステップS301)、ID(i)の既登録帳票をセットする(ステップS302)。
【0043】
そして、罫線特徴照合部16は、セットされた既登録帳票と新規帳票の罫線マッチング量が所定のしきい値を越えるか否かを判定し(ステップS303)、このしきい値を越える場合には(ステップS303肯定)、詳細判定部17を介して出力表示部18に「新規帳票と既登録帳票とは競合しない」旨の情報を出力表示して処理を終了する(ステップS304)。
【0044】
一方、既登録帳票と新規帳票の罫線マッチング量が所定のしきい値を越えない場合には(ステップS303否定)、詳細判定部17は、登録シミュレーションの結果を示すフラグf1およびフラグf2に「0」をセットして、フラグf1およびフラグf2を初期化する(ステップS305)。
【0045】
その後、詳細判定部17は、文字列情報辞書15に登録されている既登録帳票の文字列情報全てを用いて新規帳票の画像を認識可能であるか否か(ID(i)の既登録帳票の文字列情報がすべて新規帳票の対応する位置に存在するか否か)を判定し(ステップS306)、全ての文字列情報が新規帳票の画像に対して認識可能である場合には(ステップS306肯定)、フラグf1を「1」にセットする(ステップS307)。なお、新規帳票に対して認識可能でない文字列情報がある場合には(ステップS306否定)、フラグf1を「0」に維持する。
【0046】
ここで、このフラグf1とは、ID(i)の既登録帳票の各文字列情報に含まれる文字列がすべて新規帳票の対応する位置に存在するか否かを判定するためのフラグであり、このフラグf1が「1」の場合には、ID(i)の既登録帳票の文字列情報に含まれる文字列がすべて新規帳票の対応する位置に存在することになる。
【0047】
たとえば、図5に示す新規帳票と既登録帳票を比較した場合を説明すると、この既登録帳票ID(i)の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置3に文字列Cが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、新規帳票の画像を照合すると新規帳票の画像には、位置1に文字列Aが存在し、なおかつ位置3に文字列Cが存在しているので、このような場合には、新規帳票での文字列情報として▲1▼「位置1に文字列Aが存在する」、▲2▼「位置2に文字列Bが存在する」の2つの文字列情報のみを登録しても既登録帳票とは区別できないことになる。フラグf1が「1」とは、このような状態になっていることを意味している。
【0048】
また、図4に示す新規帳票と既登録帳票の場合には、この既登録帳票ID(i)の文字列情報は▲1▼「位置2に文字列Bが存在する」、▲2▼「位置4に文字列Dが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、新規帳票の画像を照合すると新規帳票の画像の位置2には文字列Bが存在するが、位置4には文字列Dが存在しないので、この場合はフラグf1が「0」のままである。
【0049】
その後、詳細判定部17は、文字列情報辞書15に登録されている新規帳票の文字列情報全てを用いて既登録帳票の画像を認識可能であるか否か(ID(i)の新規帳票の文字列情報がすべて既登録帳票の対応する位置に存在するか否か)を判定し(ステップS308)、全ての文字列情報が既登録帳票の画像に対して認識可能である場合には(ステップS308肯定)、フラグf2を「1」にセットする(ステップS309)。なお、既登録帳票に対して認識可能でない文字列情報がある場合には(ステップS308否定)、フラグf2を「0」に維持する。
【0050】
ここで、このフラグf2とは、新規帳票の各文字列情報に含まれる文字列がすべて登録帳票の対応する位置に存在するか否かを判定するためのフラグであり、このフラグf2が「1」の場合には、新規帳票の文字列情報に含まれる文字列がすべて登録帳票の対応する位置に存在することになる。
【0051】
たとえば、図5に示す新規帳票と既登録帳票を比較した場合を説明すると、この新規帳票の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置2に文字列Bが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、ID(i)の既登録帳票の画像を照合すると既登録帳票の画像には、位置1に文字列Aが存在し、なおかつ位置2に文字列Bが存在しているので、このような場合には、新規帳票での文字列情報として▲1▼「位置1に文字列Aが存在する」、▲2▼「位置2に文字列Bが存在する」の2つの文字列情報のみを登録しても既登録帳票とは区別できないことになる。フラグf2が「1」とは、このような状態になっていることを意味している。
【0052】
また、図4に示す新規帳票と既登録帳票の場合には、この新規帳票の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置3に文字列Cが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、ID(i)の既登録帳票の画像を照合すると既登録帳票の画像の位置1には文字列Aが存在するが、位置3には文字列Cが存在しないので、この場合はフラグf2が「0」のままである。
【0053】
ここで、このフラグf1およびf2の設定処理をまとめると、図4に示す新規帳票および既登録帳票の例では、既登録帳票の各文字列情報の文字列がすべて新規帳票の対応する位置に存在するわけではないので、フラグf1は「0」に維持され、また、同図に示す新規帳票の各文字列情報の文字列もすべて既登録帳票に存在するわけではないので、フラグf2についても「0」に維持される。
【0054】
また、図5に示す新規帳票および既登録帳票の例では、既登録帳票の各文字列情報の文字列がすべて新規帳票の対応する位置に存在するので、フラグf1が「1」となり、また、同図に示す新規帳票の各文字列情報の文字列がすべて既登録帳票にも存在するので、フラグf2についても「1」となる。
【0055】
さらにフラグf1およびf2の設定処理を図6、図7に基づいて具体的に説明する。図6に示す新規帳票および既登録帳票の例の場合、既登録帳票ID(i)の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置4に文字列Dが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、新規帳票の画像を照合すると新規帳票の画像には、位置1には文字列Aが存在するが、位置4には文字列Dが存在しないので、既登録帳票の各文字列情報の文字列がすべて新規帳票の対応する位置に存在するわけではなく、ステップS306で、「ID(i)の文字列情報全てを用いて新規帳票を認識可能である」の条件は否定となり、フラグf1は「0」に維持される。
【0056】
しかし、図6において、新規帳票の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置2に文字列Bが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、ID(i)の既登録帳票の画像を照合すると既登録帳票の画像には、位置1に文字列Aが存在し、なおかつ位置2に文字列Bが存在しているので、このような場合には、規帳票の各文字列情報の文字列がすべて既登録帳票に存在するので、ステップS308で、「新規帳票の文字列情報全てを用いてID(i)帳票を認識可能である」の条件は肯定となり、フラグf2については「1」となる。
【0057】
また、図7に示す新規帳票および既登録帳票の例では、既登録帳票ID(i)の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置3に文字列Cが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、新規帳票の画像を照合すると新規帳票の画像には、位置1には文字列Aが存在し、なおかつ位置3に文字列Cが存在するので、既登録帳票の各文字列情報の文字列がすべて新規帳票の対応する位置に存在することになり、フラグf1が「1」となる。
【0058】
しかし、図7において、新規帳票の文字列情報は▲1▼「位置1に文字列Aが存在する」、▲2▼「位置2に文字列Bが存在する」の2つの文字列情報であり、この2つの文字列情報を用いて、ID(i)の既登録帳票の画像を照合すると既登録帳票の画像には、位置1に文字列Aが存在するが、位置2には文字列Bが存在しないので、フラグf2は「0」に維持される。
【0059】
図3の説明に戻ると、このようにしてフラグf1およびf2を設定したならば、これらのフラグに基づいて図3に示すステップS310〜ステップS316の処理がおこなわれる。
【0060】
具体的には、詳細判定部17は、まずフラグf1およびフラグf2がともに「0」であるか否かを判定し(ステップS310)、ともに「0」である場合には(ステップS310肯定)、文字列情報辞書15に登録されている文字列情報によって新規帳票と既登録帳票とが区別できるとして、続行する既登録帳票を新たにセットする(ステップS316およびS302)。たとえば、図4に示す場合には、フラグf1およびフラグf2がともに「0」であるので、次に続く既登録帳票が新たにセットされる。
【0061】
これに対して、フラグf1またはフラグf2の少なくとも一方が「0」でない場合には(ステップS310否定)、詳細判定部17は、フラグf1およびフラグf2がともに「1」であるか否かを判定する(ステップS311)。その結果、これらのフラグがともに「1」である場合には(ステップS311肯定)、文字列情報辞書15に登録されている文字列情報によって新規帳票と既登録帳票とを区別できないものとして、出力表示部18に「新規帳票と既登録帳票とは競合する」旨の情報を出力表示して処理を終了する(ステップS312)。たとえば、図5に示す場合には、フラグf1およびフラグf2がともに「1」であるので、競合する旨を表示して処理を終了する。
【0062】
なお、この場合には、オペレータによって文字列入力部19から新たな文字列情報が文字列情報辞書15に追加登録された際に、この追加登録された文字列情報を用いて、改めて図3に示すステップS305から処理がおこなわれる。
【0063】
また、ステップS311において、フラグf1およびフラグf2の少なくとも一方が「1」でない場合には(ステップS311否定)、詳細判定部17は、フラグf1が「0」であり、かつ、フラグf2が「1」であるか否かを判定する(ステップS313)。
【0064】
そして、フラグf1が「0」であり、かつ、フラグf2が「1」である場合には(ステップS313肯定)、詳細判定部17は、既登録帳票の各文字列情報に含まれる文字列のなかから新規帳票の対応する位置に存在しない文字列を検出し、検出した文字列が新規帳票には存在しない旨の文字列情報を文字列情報辞書15に追加登録する(ステップS314)。
【0065】
たとえば、図6に示す場合には、フラグf1が「0」であり、かつ、フラグf2が「1」であるので、新規帳票の対応する位置に存在しない文字列Dを検出し、「位置4に文字列Dが存在しない」旨の文字列情報を新規帳票の文字列情報辞書15に追加登録する。
【0066】
一方、フラグf1が「1」であり、かつ、フラグf2が「0」である場合には(ステップS313否定)、詳細判定部17は、新規帳票の文字列情報に含まれる文字列のなかから既登録帳票の対応する位置に存在しない文字列を検出し、検出した文字列が既登録帳票には存在しない旨の文字列情報を文字列情報辞書15に追加登録する(ステップS315)。
【0067】
たとえば、図7に示す場合には、フラグf1が「1」であり、かつ、フラグf2が「0」であるので、既登録帳票の対応する位置に存在しない文字列Bを検出し、「位置2に文字列Bが存在しない」旨の文字列情報を既登録帳票の文字列情報辞書15に追加登録する。
【0068】
かかる文字列情報を追加登録した後(ステップS314またはステップS315)、次の既登録帳票が新たにセットされる(ステップS316およびステップS302)。
【0069】
次に、上記ステップS316において、新たにセットされた既登録帳票との間でおこなわれる登録シミュレーションについて具体的に説明する。図8は、新規帳票、既登録帳票および新たにセットされる既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【0070】
まず最初に、図8(a)に示す新規帳票と同図(b)に示す既登録帳票ID(0)との間で上記に示す登録シミュレーションをおこなうと、図6に示した場合と同様の関係にあるので、その結果として「位置4に文字列Dが存在しない」旨の文字列情報が新規帳票の文字列情報辞書15に追加登録される。
【0071】
その後、図8(a)に示す新規帳票と同図(c)に示す新たにセットされた既登録帳票ID(1)との間で登録シミュレーションをおこなう場合には、新たに追加登録された「位置4に文字列Dが存在しない」という文字列情報が用いられる。具体的には、図3に示したステップS306においては、既登録帳票ID(1)の文字列情報に含まれる文字列がすべて新規帳票の対応する位置に存在するわけではないので、フラグf1は「0」に維持される。
【0072】
そして、図3に示したステップS308においては、新規帳票の文字列情報に含まれる条件、すなわち「位置4に文字列Dが存在しない」(図8(a)の▲3▼)は既登録帳票ID(1)の位置4に文字列Dが存在するため、偽となるので、フラグf2は「0」に維持される。その結果、図3に示したステップS310においては、フラグ1およびフラグ2ともに「0」に維持されるので、次に続く既登録帳票ID(2)が新たにセットされる。
【0073】
なお、「位置4に文字列Dが存在しない」という文字列情報を用いないで新規帳票と既登録帳票ID(1)との間で登録シミュレーションをおこなった場合には、その結果として「位置4に文字列Dが存在しない」という文字列情報が新規帳票の文字列情報辞書15に追加登録されてしまうので、登録シミュレーションの処理遅延が生ずる結果となる。このため、本実施の形態では、文字列情報辞書15に追加登録された文字列情報を用いて、新たにセットされた既登録帳票との間で登録シミュレーションをおこなうことによって、迅速に辞書を作成することとしている。
【0074】
上記一連の処理をおこなうことにより、図3に示すステップS314またはステップS315において、オペレータの作業を必要とすることなく、新規帳票と既登録帳票とを区別できる文字列情報辞書15を作成することができる。なお、図3に示すステップS306およびステップS308の判定は、いずれの順序で処理しても良く、また並列的に処理しても良い。同様に、図3に示すステップS310およびステップS311の判定も、いずれの順序で処理しても良く、また並列的に処理しても良い。
【0075】
上述してきたように、本実施の形態では、詳細判定部17が新規帳票と既登録帳票とを文字列情報辞書に登録された文字列情報によって区別できるか否かを判定し、区別できない場合には、文字列情報辞書15に登録された文字列情報のなかから、一方の帳票に存在して他方の帳票には存在しない文字列情報を検出し、辞書作成部13が詳細判定部17によって検出された文字列情報が当該他方の帳票に存在しない旨の情報を文字列情報辞書15に追加登録するよう構成したので、オペレータの作業負担や時間を軽減し、もって効率良く辞書を作成することができる。
【0076】
また、本実施の形態では、文字列情報からなる文字列情報辞書15を作成する場合を示したが、本発明はこれに限定されるものではなく、各帳票の種別ごとに特定領域の図形や記号などの画像データを対応付けて記憶した辞書を作成する場合にも適用することができる。
【0077】
なお、本実施の形態で説明した辞書作成方法は、あらかじめ用意されたプログラムをパーソナル・コンピューターやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、ハードディスク、フロッピーディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、上記記録媒体を介して、インターネットなどのネットワークを介して配布することができる。
【0078】
【発明の効果】
以上説明したように、請求項1の発明によれば、新たに登録する新規帳票の特定領域の情報が辞書に登録された際に、当該辞書に既に登録された既登録帳票と新規帳票とを辞書に登録された特定領域の情報によって区別できるか否かを判定し、区別できないと判定された場合に、辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出し、検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を辞書に登録することとしたので、オペレータの作業負担や時間を軽減し、もって効率良く辞書を作成することが可能な辞書作成装置が得られるという効果を奏する。
【0079】
また、請求項2の発明によれば、辞書に登録された新規帳票の特定領域の情報が既登録帳票の特定領域に存在するか否かを判定するとともに、辞書に登録されている既登録帳票の特定領域の情報が新規帳票の特定領域に存在するか否かを判定し、辞書に登録された新規帳票または辞書に登録されている既登録帳票の特定領域の情報のなかから、他方の帳票には存在しないと判定された情報を検出することとしたので、一方の帳票に存在して他方の帳票には存在しない情報を迅速に検出することができ、もってオペレータの作業負担や時間を軽減して効率良く辞書を作成することが可能な辞書作成装置が得られるという効果を奏する。
【0080】
また、請求項3の発明によれば、特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と新規帳票とを区別できるか否かを繰り返し判定することとしたので、当該別の既登録帳票と新規帳票とを辞書に登録された特定領域の情報によって区別できるか否かの判定を迅速におこなうことができ、もってオペレータの作業負担や時間を軽減して効率良く辞書を作成することが可能な辞書作成装置が得られるという効果を奏する。
【0081】
また、請求項4の発明によれば、新たに登録する新規帳票の特定領域の情報が辞書に登録された際に、当該辞書に既に登録された既登録帳票と新規帳票とを辞書に登録された特定領域の情報によって区別できるか否かを判定し、区別できないと判定された場合に、辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出し、検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を辞書に登録することとしたので、オペレータの作業負担や時間を軽減し、もって効率良く辞書を作成することが可能な辞書作成方法が得られるという効果を奏する。
【0082】
また、請求項5の発明によれば、辞書に登録された新規帳票の特定領域の情報が既登録帳票の特定領域に存在するか否かを判定するとともに、辞書に登録されている既登録帳票の特定領域の情報が新規帳票の特定領域に存在するか否かを判定し、辞書に登録された新規帳票または辞書に登録されている既登録帳票の特定領域の情報のなかから、他方の帳票には存在しないと判定された情報を検出することとしたので、一方の帳票に存在して他方の帳票には存在しない情報を迅速に検出することができ、もってオペレータの作業負担や時間を軽減して効率良く辞書を作成することが可能な辞書作成方法が得られるという効果を奏する。
【0083】
また、請求項6の発明によれば、特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と新規帳票とを区別できるか否かを繰り返し判定することとしたので、当該別の既登録帳票と新規帳票とを辞書に登録された特定領域の情報によって区別できるか否かの判定を迅速におこなうことができ、もってオペレータの作業負担や時間を軽減して効率良く辞書を作成することが可能な辞書作成方法が得られるという効果を奏する。
【0084】
また、請求項7の発明によれば、請求項4、5または6のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことで、そのプログラムを機械読み取り可能となり、これによって、請求項4、5または6のいずれか一つの動作をコンピュータによって実現することが可能な記録媒体が得られるという効果を奏する。
【図面の簡単な説明】
【図1】本実施の形態で用いる辞書作成装置の構成を示す機能ブロック図である。
【図2】図1に示した辞書作成装置による辞書作成の処理手順を示すフローチャートである。
【図3】図1に示した詳細判定部による登録シミュレーションの手順を示すフローチャートである。
【図4】本実施の形態で対象とする新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【図5】本実施の形態で対象とする新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【図6】本実施の形態で対象とする新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【図7】本実施の形態で対象とする新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【図8】本実施の形態で対象とする新規帳票および既登録帳票の画像および文字列情報の一例をそれぞれ示す図である。
【図9】従来技術に係る辞書作成処理を説明するための図である。
【符号の説明】
10 辞書作成装置
11 画像入力部
12 罫線特徴抽出部
13 辞書作成部
14 罫線特徴辞書
15 文字列情報辞書
16 罫線特徴照合部
17 詳細判定部
18 出力表示部
19 文字列入力部
Claims (7)
- 各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を作成する辞書作成装置において、
新たに登録する新規帳票の特定領域の情報が前記辞書に登録された際に、当該辞書に既に登録された既登録帳票と前記新規帳票とを前記辞書に登録された特定領域の情報によって区別できるか否かを判定する判定手段と、
前記判定手段によって区別できないと判定された場合に、前記辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出する検出手段と、
前記検出手段により検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を前記辞書に登録する登録手段と
を備えたことを特徴とする辞書作成装置。 - 前記判定手段は、前記辞書に登録された前記新規帳票の特定領域の情報が前記既登録帳票の特定領域に存在するか否かを判定するとともに、前記辞書に登録されている前記既登録帳票の特定領域の情報が前記新規帳票の特定領域に存在するか否かを判定し、前記検出手段は、前記辞書に登録された前記新規帳票または前記辞書に登録されている前記既登録帳票の特定領域の情報のなかから、前記判定手段により他方の帳票には存在しないと判定された情報を検出することを特徴とする請求項1に記載の辞書作成装置。
- 前記判定手段は、前記登録手段により登録された特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と前記新規帳票とを区別できるか否かを繰り返し判定することを特徴とする請求項1または2に記載の辞書作成装置。
- 各帳票の種別ごとに該帳票の特定領域の情報を対応付けて登録した辞書を作成する辞書作成方法において、
新たに登録する新規帳票の特定領域の情報が前記辞書に登録された際に、当該辞書に既に登録された既登録帳票と前記新規帳票とを前記辞書に登録された特定領域の情報によって区別できるか否かを判定する判定工程と、
前記判定工程によって区別できないと判定された場合に、前記辞書に登録されている特定領域の情報のなかから、一方の帳票の特定領域に存在して他方の帳票の特定領域には存在しない情報を検出する検出工程と、
前記検出工程により検出された情報が前記他方の帳票の特定領域には存在しない旨の情報を前記辞書に登録する登録工程と
を含んだことを特徴とする辞書作成方法。 - 前記判定工程は、前記辞書に登録された前記新規帳票の特定領域の情報が前記既登録帳票の特定領域に存在するか否かを判定するとともに、前記辞書に登録されている前記既登録帳票の特定領域の情報が前記新規帳票の特定領域に存在するか否かを判定し、前記検出工程は、前記辞書に登録された前記新規帳票または前記辞書に登録されている前記既登録帳票の特定領域の情報のなかから、前記判定工程により他方の帳票には存在しないと判定された情報を検出することを特徴とする請求項4に記載の辞書作成方法。
- 前記判定工程は、前記登録工程により登録された特定領域には存在しない旨の情報を含んだ辞書によって、当該既登録帳票とは別の既登録帳票と前記新規帳票とを区別できるか否かを繰り返し判定することを特徴とする請求項4または5に記載の辞書作成方法。
- 前記請求項4、5または6のいずれか一つに記載された方法をコンピュータに実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000348347A JP3886720B2 (ja) | 2000-11-15 | 2000-11-15 | 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000348347A JP3886720B2 (ja) | 2000-11-15 | 2000-11-15 | 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002150263A JP2002150263A (ja) | 2002-05-24 |
JP3886720B2 true JP3886720B2 (ja) | 2007-02-28 |
Family
ID=18821949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000348347A Expired - Fee Related JP3886720B2 (ja) | 2000-11-15 | 2000-11-15 | 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3886720B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009025856A (ja) * | 2007-07-17 | 2009-02-05 | Hitachi Computer Peripherals Co Ltd | 帳票識別プログラム及び帳票識別装置 |
JP4998220B2 (ja) * | 2007-11-09 | 2012-08-15 | 富士通株式会社 | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 |
-
2000
- 2000-11-15 JP JP2000348347A patent/JP3886720B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002150263A (ja) | 2002-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3639126B2 (ja) | 住所認識装置及び住所認識方法 | |
KR100324847B1 (ko) | 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법 | |
US6735335B1 (en) | Method and apparatus for discriminating between documents in batch scanned document files | |
US20050094850A1 (en) | Location information recognition apparatus and method and recording medium | |
WO2011128777A2 (en) | Segmentation of textual lines in an image that include western characters and hieroglyphic characters | |
JP3851742B2 (ja) | 帳票処理方法及び装置 | |
WO2000062243A1 (fr) | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document | |
JP3886720B2 (ja) | 辞書作成装置、辞書作成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
US9811726B2 (en) | Chinese, Japanese, or Korean language detection | |
CN111832497A (zh) | 一种基于几何特征的文本检测后处理方法 | |
JPH09161013A (ja) | 文字読取り方法及び住所読取り方法 | |
JP4229521B2 (ja) | 文字認識方法および装置 | |
JPH06180771A (ja) | 英文字認識装置 | |
JP2005250786A (ja) | 画像認識方法 | |
JP2006023983A (ja) | 文字画像分離装置、文字画像分離方法、文字画像分離プログラム、およびこのプログラムを格納した記録媒体 | |
JP2002099555A (ja) | 文書分類装置及び文書分類方法 | |
JP2571236B2 (ja) | 文字切出し識別判定方法 | |
JP2001291058A (ja) | 文字認識装置及び記録媒体 | |
JP2643092B2 (ja) | 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム | |
JPH08243504A (ja) | 住所読取り方法 | |
JPH1011541A (ja) | 文字認識装置 | |
JP2002150276A (ja) | 二値化装置、二値化方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000090203A (ja) | 文字認識方法及びその装置 | |
JPH10235299A (ja) | 手書宛先認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3886720 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091201 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |