JP5060053B2 - 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置 - Google Patents

媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置 Download PDF

Info

Publication number
JP5060053B2
JP5060053B2 JP2006012802A JP2006012802A JP5060053B2 JP 5060053 B2 JP5060053 B2 JP 5060053B2 JP 2006012802 A JP2006012802 A JP 2006012802A JP 2006012802 A JP2006012802 A JP 2006012802A JP 5060053 B2 JP5060053 B2 JP 5060053B2
Authority
JP
Japan
Prior art keywords
medium
database
registration
information
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006012802A
Other languages
English (en)
Other versions
JP2007193678A (ja
Inventor
勝利 小原
真一 江口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Ltd
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Fujitsu Frontech Ltd filed Critical Fujitsu Ltd
Priority to JP2006012802A priority Critical patent/JP5060053B2/ja
Priority to US11/411,825 priority patent/US20070172154A1/en
Priority to KR1020060045206A priority patent/KR100744205B1/ko
Priority to CNB2006100847329A priority patent/CN100468408C/zh
Publication of JP2007193678A publication Critical patent/JP2007193678A/ja
Application granted granted Critical
Publication of JP5060053B2 publication Critical patent/JP5060053B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Description

本発明は、金融機関等で取り扱う帳票やビジネス文書等の媒体の自動判別や自動文字認識を行なう帳票判別装置において、かかる自動判別を行なう際に用いる、帳票の種類を定義したデータベース(媒体判別情報データベース)を作成・管理するための技術に関する。
近年、文字,記号,数字,絵,罫線,バーコード等の情報を記入された媒体(例えば、帳票)をイメージデータとして読み取って、かかる媒体の判別や文字認識を行なう装置として、光学式文字読み取り装置(OCR(Optical Character Recognition/Reader)装置)等の帳票判別装置が開発され、各種産業においてはこの帳票判別装置を広く利用することにより、業務の効率化等を図っている。
例えば、金融機関等における窓口業務を行なうオペレータは、上述の帳票判別装置を用いて、帳票媒体(以下、単に帳票という)を効率的に処理することを通じて、業務の効率化を図っている。
上述のような帳票処理装置において、帳票処理をより高効率に実行するために、同一種類の帳票の多量処理を行なうだけでなく、多種多様なフォーマットを有する帳票を自動的に処理する技術がある(例えば、下記特許文献1〜4参照)。
このような帳票判別装置では、帳票(帳票種類)を判別するための帳票判別情報を帳票の種類に対応付けてデータベースに予め登録しておき、帳票のイメージデータから得られた帳票判別情報を、かかるデータベースに登録された帳票判別情報と照合することによって、帳票を判別する。
つまり、判別対象の帳票を読み取って得られたイメージデータから得られた帳票判別情報がデータベースに登録保持されている場合には、判別対象の帳票が、そのデータベースに登録されている帳票判別情報が示す種類の帳票であると判別する。
なお、イメージデータから得られた帳票判別情報がデータベースに登録保持されていない場合には、このデータベースに基づいて帳票を判別することはできない。
そして、従来の帳票判別装置では、取り扱う判別対象の帳票の種類(以下、単に帳票ともいう)が少ない場合には、すべての帳票の帳票判別情報をデータベースに登録できるが、取り扱う認証対象の帳票が多くそのすべてをデータベースに登録できない場合には、専任者(作業者;例えば、オペレータ)がデータベースに登録する帳票を選別している。
国際公開WO97/05561号 特開2001−325563号公報 国際公開WO01/26024号 特開2003−168075号公報
ところで、上述した従来の帳票判別装置では、専任者は、重要とみなされる帳票を目視で判断しなければならず、そのため、専任者は取り扱う帳票に関する専門的な知識を要求される。
例えば、専任者は、ある帳票は毎年改定される、また、別の帳票は不定期に改定される、さらに、別の帳票は特定時期にのみ取り扱う等の非常に専門的な知識を要求される。
したがって、専任者が手動で登録処理を行なう場合には、専任者の能力や経験に頼るところが大きく、また専任者にとって大きな負担になってしまう。
また、取り扱う帳票が数十種類であれば人手による登録処理も可能であるが、例えば、金融機関等では、数百種類以上の帳票を常に取り扱っており、これらが更新されることもあるので、年間では数千種類以上もの種類の帳票を扱うことになる。
このような膨大な種類の帳票の登録処理を人手によって行なうことは、作業工数の観点からも現実的に困難である。
さらに、金融機関等では、銀行改定などに伴う改訂帳票や新規帳票、あるいは、エンドユーザが持ち込む新しいフォーマットの私製伝票を、帳票判別情報がデータベースに登録することは非常に重要であるが、全帳票を登録することは、工数的にも困難であるとともに冗長な場合を除けなくなる。
また、数千種類以上のすべての帳票の種類をデータベースに登録してしまうと、帳票の種類が増え過ぎることに伴って類似帳票が増えた結果、誤った判別が行なわれる可能性が高くなる。これにより、判別率が低下してしまうという不具合が生じ、すべての帳票の種類をデータベースに登録するというのは、判別率劣化の観点からも運用上好ましくない。
しかしながら、上述した従来の帳票判別装置では、データベースに一旦登録したものを削除する機構はなく、データベースにはすべての帳票の種類、もしくは、専任者によって選別された帳票の種類を登録するだけである。
ここで、データベースからの削除作業を専任者が実行することが考えられるが、帳票種類によっては、月ごと、年ごとの特定時期にのみ取り扱う必要があるものもあり、データベースからの帳票種類の削除は、単にその流通(取扱)頻度だけでなく、帳票種類の流通(取扱)特徴に応じた判断が必要になるので、専任者により高度な専門的知識が要求されることになり、数百、数千種類もの帳票を取り扱う場合には、専任者等の人手によって削除作業を実行することは現実的に困難である。
本発明は、このような課題に鑑み創案されたもので、媒体の判別に用いる媒体種類と媒体判別情報との対を保持するデータベース(媒判別情報データベース)を、自動的に、媒体の流通頻度に応じた最適なものにできるようにして、良好な帳票判別率を実現できるようにすることを目的とする。
上記目的を達成するために、本発明の媒体判別情報データベース作成装置は、情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成するものであって、前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部と、この判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる複数種類の候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部と、媒体判別情報として登録しうる前記複数種類の候補情報のうち分割処理に用いるキーワードを、複数の組ごとに示すキーワードデータベースと、前記キーワードデータベースにおける前記複数の組からいずれかの組を決定し、前記登録候補データベースに登録されている複数の媒体を、前記複数種類の候補情報と決定した組のキーワードとに基づいて複数のグループに分割し、分割された各グループにおける媒体の該仮登録部による前記登録候補データベースへの登録頻度に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定し、前記登録候補データベースに登録された前記複数種類の候補情報を当該決定した媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえことを特徴としている。
また、上記目的を達成するために、本発明の媒体判別情報データベース作成装置は、情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成するものであって、前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部と、この判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる複数種類の候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部と、この仮登録部による前記登録候補データベースへの前記複数種類の候補情報のそれぞれについての登録頻度を媒体ごとに合計した値に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定し、前記候補情報を当該媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえことを特徴としている。
また、前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度に重み付けを施したものを媒体ごとに合計した値に基づいて、記媒体判別情報データベースに登録する媒体の種類を決定することが好ましい。
さらに、前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、前記判断部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていると判断された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることが好ましい。
このように、本発明によれば、登録部が、仮登録部によって登録された登録候補データベースの候補情報の登録頻度に基づいて、候補情報を媒体の種類と対応付けて媒体判別情報として媒体判別情報データベースに登録するので、媒体の登録に専門的な知識を必要とする専任者が不要になり、さらに、媒体判別情報データベースを常に媒体の流通頻度に応じた良好なものに更新することができる。その結果、媒体の判別率も向上し、安定した良好な媒体判別率を実現することができる。
また、削除部が、流通頻度データベースに保持された媒体の種類ごとの流通頻度に基づいて、媒体判別情報データベースから媒体の種類と媒体判別情報との対を削除するので、媒体判別情報データベースから、流通頻度の少ない不要な媒体の種類にかかる対を削除することができる。したがって、媒体判別情報データベースが保持する媒体の種類の数が膨大になって媒体の判別率が低下してしまうようなことを抑止でき、安定した良好な媒体判別率を実現することができる。
さらに、登録部及び削除部によれば、媒体判別情報データベース内のデータを常に良好な状態、すなわち、使用頻度の高いものを登録し、頻度の低いものは削除することにより、判別時の媒体判別情報データベースの検索効率の向上を図ることができる。
以下、図面を参照しながら本発明の実施の形態について説明する。
〔1〕本発明の一実施形態について
まず、図1に示すブロック図を参照しながら、本発明の一実施形態としての帳票判別装置(媒体判別装置)の構成について説明する。この図1に示すように、本帳票判別装置1aは、スキャナ装置(イメージデータ取得部)10,帳票読込部11,登録データベース(帳票判別情報データベース;図中“登録DB”と表記)12,帳票判別部13,仮登録部14,登録候補データベース(図中“登録候補DB”と表記)15a,登録部16a,文字認識部17,流通頻度データベース(図中“流通頻度DB”と表記)18,更新部19,及び削除部20をそなえて構成されている。
なお、本帳票判別装置1aにおいて、帳票読込部11,登録データベース12,帳票判別部13,仮登録部14,登録候補データベース15a,登録部16a,流通頻度データベース18,更新部19,及び削除部20は、本発明の媒体判別情報データベース作成(管理)装置9として機能する。
さらに、本帳票判別装置1aは、例えば、図2に示すごとく表示部4,入力インタフェースとしてのキーボード5及びマウス6,並びに記憶装置7をそなえて構成されたコンピュータ3の演算部(例えば、CPU:Central Processing Unit)8によって実現される。
つまり、本帳票判別装置1aのスキャナ装置10が演算部8に接続され、本帳票判別装置1aの帳票読込部11,帳票判別部13,仮登録部14,登録部16a,文字認識部17,更新部19,及び削除部20は、演算部8が、所定のアプリケーションプログラム(例えば、後述する媒体判別情報データベース作成(管理)プログラム)を実行することによって実現される。
スキャナ装置10は、情報が記入された媒体としての帳票2を光学的に読み取ってイメージデータを取得するものである。
帳票読込部11は、スキャナ装置10が帳票2を読み取って得られたイメージデータを読み込むものである。
登録データベース12は、帳票の種類を判別するための帳票の種類ごとの特徴である帳票判別情報(媒体判別情報)を保持するものであり、帳票の種類と、当該帳票の種類にかかる帳票判別情報とを対応付けて保持している。
具体的には、登録データベース12は、例えば、図3に示すように、帳票名(帳票種類)ごとに、帳票判別情報として、かかる帳票に記入された帳票種別コード(帳票ID)や罫線に関する情報を保持している。つまり、帳票名“A”については、帳票ID“0101”や罫線に関する情報“(XA1,YA1)−(XA2,YA2)”が保持されるとともに、帳票名“B”については、ID番号“−(なし)”や罫線に関する情報“(XB1,YB1)−(XB2,YB2)”が保持されている。
なお、本帳票判別装置1aにおいて、この登録データベース12に保持される帳票判別情報の種類は限定されるものではなく、帳票判別部13が帳票の種類を確実に判別できるものであればよい。したがって、登録データベース12が保持する帳票判別情報としては、上述した帳票IDや罫線に関する情報以外に、例えば、帳票に記入された帳票ID以外の文字情報として、“帳票種別コード”,“依頼人コード”,“受取人コード”,“固定文言”,“印鑑の有無”,及び“印鑑の位置”等が考えられる。また、文字情報以外の情報として、“帳票サイズ”,“色相系”,“取扱時期”等が帳票判別情報となる。
帳票判別部13は、帳票読込部11によって読み込まれた帳票2のイメージデータと、登録データベース12に保持された帳票判別情報とに基づいて、帳票2を判別するものである。つまり、帳票判別部13は、イメージデータとして取得された帳票2の種類を、登録データベース12に保持された帳票判別情報に基づいて判別するものであり、帳票2のイメージデータから得られる帳票2にかかる帳票判別情報を、登録データベース12から検索して、検索された帳票判別情報に対応する帳票の種類を、帳票2の種類と判別する。
このように、帳票判別部13は、帳票2のイメージデータから得られる帳票2にかかる帳票判別情報が、登録データベース12に保持されているか否かを判断する判断部として機能する。
仮登録部14は、帳票判別部13によって帳票2にかかる帳票判別情報が登録データベース12に保持されていないと判断された場合、つまり、帳票判別部13が帳票2を判別できなかった場合に、帳票2のイメージデータから帳票2の帳票判別情報となりうる候補情報を抽出して登録候補データベース15aに帳票2と対応付けて登録するものである。
図4に登録候補データベース15aの構成例を示す。仮登録部14は、帳票判別部13によって判別されなかった帳票2のイメージデータから、帳票2に記入された情報のうち、帳票判別情報となりうる図4に示すような候補情報を抽出する。つまり、仮登録部14は、帳票2の受取日時(つまり、処理日時)とともに、“帳票サイズ”,“色相系”,“帳票種別コード”,“依頼人コード”,“受取人コード”,“取扱時期”,“固定文言”,“印鑑の有無”,及び“印鑑の位置”を、帳票2のイメージデータから抽出して、登録候補データベース15aに登録する。なお、これらの候補情報は、後述する図5に示すキーワードデータベース16a−1のすべてのキーワードに対応している。
登録部16aは、仮登録部14による登録候補データベース15aへの候補情報の登録頻度に基づいて、候補情報を帳票の種類と対応付けて帳票判別情報として登録データベース12に登録するものである。
つまり、登録部16aは、登録候補データベース15aに登録されている複数の帳票を、複数種類の候補情報に基づいて複数のグループに分割し、分割された各グループにおける帳票の登録頻度(つまり、数)に基づいて、登録データベース12に登録する帳票の種類を決定し、登録データベース12に登録する。
具体的には、登録部16aは、例えば、図5に示すようなキーワードデータベース16a−1に保持されたキーワードとしての候補情報を用いて、登録候補データベース15aに登録された帳票を分割し、分割された各グループの帳票数(つまり、同種類の帳票の登録頻度)がより多いものを登録データベース12に登録する。
また、登録部16aは、分割された各グループの帳票数が所定数以上の帳票種類を登録データベース12に登録するか、もしくは、かかる帳票数が多い順に上位から所定種類の帳票(つまり、かかる帳票数が最も多い帳票の種類から順に所定数の帳票の種類)を登録データベース12に登録する。
ここで、図5に示すキーワードデータベース16a−1について説明すると、キーワードデータベース16a−1は、帳票判別情報として登録しうる複数の候補情報のうち分割処理に用いるキーワードを、複数のケース(ここでは、ケース1〜4)ごとに示すものである。なお、図5における各ケースにおいて、“○”は分割処理に用いるキーワードを示し、“×”は分割処理に用いないものを示しており、ケース1は、すべての候補情報(“帳票サイズ”,“色相系”,“帳票種別コード”,“依頼人コード”,“受取人コード”,“取扱時期”,“固定文言”,“印鑑の有無”,及び“印鑑の位置”)をキーワードとして用いる場合を示し、ケース2は、“帳票サイズ”,“色相系”,“帳票種別コード”,“依頼人コード”,“受取人コード”をキーワードとして用いる場合を示し、ケース3は、“帳票サイズ”,“帳票種別コード”,及び“受取人コード”をキーワードとして用いる場合を示し、ケース4は、“依頼人コード”をキーワードとして用いる場合を示している。
また、登録部16aが、登録候補データベース15aに登録された複数の帳票をいずれのケース1〜4を用いて分割するかは、登録対象の帳票の種別に応じて決定してもよいし、登録データベース12に登録する帳票の種類の数に応じて決定してもよいし、オペレータがキーボード5及びマウス6を用いて任意に選択してもよい。例えば、登録対象の帳票の種別に応じて決定する場合には、単票の帳票を取り扱っている場合にはケース3を選択し、連記の帳票を取り扱っている場合にはケース4を選択することが考えられる。
ここで、登録部16aが、キーワードデータベース16a−1のケース2のキーワードを用いて、登録候補データベース15aに登録された帳票を分割する場合について説明する。この場合、登録部16aは、図6に示すように、上記図4に示す登録候補データベース15aのうちの、“帳票サイズ”,“色相系”,“帳票種別コード”,“依頼人コード”,及び“受取人コード”に着目して分割処理を実行する。
このときの登録部16aの動作手順を図7のフローチャート(ステップS1〜S9)に示す。この図7に示すように、登録部16aは、まず、図6に示す登録候補データベース15aに登録された複数の帳票を、帳票サイズごとに分割(分類)し(ステップS1)、色相系ごとに分割し(ステップS2)、帳票種別コードごとに分割し(ステップS3)、依頼人コードごとに分割し(ステップS4)、最後に受取人コードごとに分割する(ステップS5)。
次いで、登録部16aは、分割されたグループごとの帳票数を算出し(ステップS6)、算出された帳票数に応じて、各グループを降順ソートして並び替える(ステップS7)。
そして、登録部16aは、ここでは、上位から所定数のグループを登録する帳票の種類として選択し(ステップS8)、選択した各グループを当該グループの候補情報とともに登録データベース12に登録する(ステップS9)。
すなわち、登録部16aは、上記ステップS8で選択(決定)したグループについて、このグループが示す帳票の種類の候補情報を、当該帳票の種類と対応付けて帳票判別情報として登録データベース12に登録する(ステップS9)。
また、図1に示すように、文字認識部17は、帳票判別部13によって帳票2にかかる帳票判別情報が登録データベース12に保持されていると判断された場合、つまり、帳票判別部13が帳票2を判別できた場合に、判別された帳票2の種類に基づいて、帳票2に記入された文字情報等を認識するものである。
なお、文字認識部17は、例えば、帳票の種類ごとに、その帳票のどこにどのような情報が記入されているかを示すデータベース(図示略)をそなえ、このデータベースに基づいて、帳票2の文字認識を行なう。
流通頻度データベース18は、登録データベース12に帳票判別情報を登録された帳票の種類ごとの、本帳票判別装置1aでの流通頻度(取扱頻度;処理枚数)を保持するものであり、例えば、図8に示すように、帳票の種類ごとに、その種類の帳票を処理した最終日,最終日からその後の一週目までの流通頻度(図中“一週目”と表記),最終日からその後の二週目までの流通頻度(図中“二週目”と表記),及び最終日からその後の一ヶ月目までの流通頻度(図中“一ヶ月目”と表記)から構成される。
更新部19は、帳票判別部13によって帳票2にかかる帳票判別情報が登録データベース12に保持されていると判断された場合、つまり、帳票判別部13が帳票2を判別できた場合に、流通頻度データベース18における帳票2の種類の流通頻度を更新する。
具体的には、図8に示す流通頻度データベースの“最終日”を“今日”に更新するとともに、“一週目”,“二週目”,“一ヶ月目”の値をそれぞれ“1”カウントアップする。
なお、この更新部19による流通データベース18の更新処理は、文字認識部17による文字認識処理と並行して実行される。
削除部20は、流通頻度データベース18における帳票の種類ごとの流通頻度に基づいて、登録データベース12から帳票の種類と帳票判別情報との対を削除するものであり、削除部20は流通頻度データベース18において、流通頻度が少ない帳票の種類にかかる対を削除する。
ここで、本帳票判別装置1aが取り扱う処理対象の帳票の流通特性について説明すると、本帳票判別装置1aでは、様々な種類の帳票を処理対象としており、例えば、本帳票判別装置1aは金融機関等での帳票処理業務に利用される場合がある。その場合には、処理対象の帳票は、例えば、図9に示すように1ヶ月のうちの“5日”,“10日”,“15日”,“20日”,“25日”のいわゆる五十日前後に特に流通頻度が多くなるという流通特性を有する帳票種類や、あるいは、図10に示すように、毎日略一定の流通頻度があるという流通特性を有する帳票種類や、もしくは、図11に示すように月の所定日の前後に特に流通頻度が多くなるという流通特性を有する帳票種類や、さらには、図12に示すように年間の所定月前後だけ流通があるという流通特性を有する帳票種類などを取り扱う。
したがって、削除部20は、流通頻度だけでなく、帳票の種類ごとの図9〜図12に示すような流通特性も踏まえて登録データベース12から削除する帳票の種類を選択することで、図11や図12に示す帳票種類のように、月間の流通頻度や年間の流通頻度が少なくても必ず所定の期間に流通するような流通特性を有する帳票の種類については、登録データベース12から削除しないようにしている。
具体的には、例えば、流通頻度データベース18が削除対象から省く(削除しない)ことを示すフラグをそなえ、図11や図12に示すような、所定の期間だけでも必ず流通する帳票種類であって登録データベース12から削除しないことが望ましい帳票種類については、かかるフラグをオンに設定し、削除部20はかかるフラグがオンの帳票種類については登録データベース12から削除しないように構成する。
また、削除部20は、かかるフラグがオフの帳票種類については、流通頻度データベース18に保持された流通頻度に基づいて、流通頻度がより少ない帳票の種類を登録データベース12から削除するように構成され、具体的には、流通頻度が所定値以下(例えば、一週目で10以下)の帳票種類を登録データベース12から削除するか、もしくは、流通頻度が少ない順に下位から所定種類の帳票(つまり、流通頻度が最も少ない帳票の種類から順に所定数の帳票の種類)を登録データベース12から削除する。
さらに、削除部20が登録データベース12から削除する帳票の種類の数は、登録部16aに対応して、登録部16aによる登録数と同数であることが好ましく、もしくは、登録部16aが、削除部20の処理に対応して削除部20による削除数と同数の帳票の種類を登録することが好ましく、これにより、登録部16a及び削除部20の処理を連携させてより効率的に、登録データベース12を最新の良好な状態に保つことができる。
また、これら登録部16a及び削除部20の処理は、一日の業務の終了後など、所定期間おきに周期的に実行されてもよいし、もしくは、登録候補データベース15aの帳票の登録数に応じて、この登録数が所定値に到達すると実行するように構成してもよい。これにより、登録データベース12を自動的に効率良く、更新・管理することができる。
例えば、登録部16aは、一ヶ月ごとに登録データベース12の見直しを行ない、登録候補データベース15aにおいて一ヶ月の間で上位のものを登録データベース12へ登録し、登録データベース12に登録しなかったものについては、登録候補データベース15aにおいて継続して頻度を管理する。そして、登録部16aは、さらに一ヵ月後に、登録候補データベース15aにおいて継続して管理しているものについても登録の要否の判断を行なう。なお、このとき、登録部16aは、一年程度経過しても登録データベース12に登録されなかった帳票については、利用頻度が極端に少ないため、登録候補データベース15aから削除することが考えられる。
このように、本発明の一実施形態としての帳票判別装置1aによれば、登録部16aが、仮登録部14によって登録された登録候補データベース15aの候補情報の登録頻度に基づいて、候補情報を帳票の種類と対応付けて帳票判別情報として登録データベース12に登録するので、帳票の登録に専門的な知識を必要とする専任者が不要になり、登録データベース12を常に帳票の流通頻度に応じた良好なものに更新することができる。その結果、帳票判別部13による帳票の判別率も向上し、安定した良好な帳票判別率を実現することができる。
また、削除部20が、帳票の種類ごとの流通頻度に応じて、流通頻度がより少ないものを登録データベース12から削除するように構成されているので、登録データベース12からあまり使用されない不要な帳票の種類にかかる対を削除することができる。したがって、登録データベース12が保持する帳票の種類の数が膨大になって帳票判別部13による帳票の判別率が低下してしまうようなことを抑止でき、安定した良好な帳票判別率を実現することができる。
つまり、登録部16a及び削除部20によって、登録データベース12内のデータを常に良好な状態、すなわち、使用頻度の高いものを登録し、頻度の低いものは削除することにより、照合(判別)時の検索効率の向上を図ることができる。
さらに、削除部20は、帳票の種類ごとの流通特徴に応じて、特定の流通特徴(例えば、図11,図12参照)を示す帳票の種類に対しては、流通頻度の多さに関係なく、登録データベース12から削除しないように構成されているので、流通頻度自体は少なくても所定の期間には必ず取り扱うような種類の帳票を、登録データベース12から削除することなく保持することができる。したがって、流通頻度が少なくても必要な帳票については登録データベース12が必ず保持しているように構成することができ、登録データベース12を、帳票を判別するために非常に良好なものに維持することができる。
〔2〕本発明の変形例について
なお、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
〔2−1〕第1変形例
ここで、本発明の第1変形例について説明すると、上述した実施形態では、登録部16aが、登録候補データベース15aに登録された帳票を複数の候補情報で分割し、分割した各グループの帳票数に応じて登録データベース12に登録する帳票の種類を決定するように構成したが、例えば、図1に示すように、本発明の第1変形例としての帳票判別装置1bの登録部16bが、一つの候補情報の登録頻度に基づいて登録データベース12に登録する帳票の種類を決定してもよい。
具体的には、例えば、登録部16bが、候補情報としての依頼人コードに着目し、登録候補データベース15aに登録された複数種類の依頼人コードごとにその登録数を集計する。つまり、登録部16bが、登録候補データベース15bに登録された複数の帳票を、依頼人コードに基づいて分割する。
例えば、登録部16bは、図13に示すように、依頼人コードが“IA1”,“IA2”,“IB1”,“IB2”,“IC1”,“IC2”,“IC3”,“IE1”,“IF1”,“IG1”,“IH1”,及び“IH2”の12種類ある場合に、これら12種類の依頼人コードのそれぞれの登録頻度を算出する。
ここでは、登録部16bは、依頼人コード“IA1”,“IA2”,“IB1”,“IB2”,“IC1”,“IC2”,“IC3”,“IE1”,“IF1”,“IG1”,“IH1”,及び“IH2”の登録頻度を、それぞれ順に“50”,“1”,“20”,“40”,“100”,“10”,“10”,“90”,“6”,“5”,“1”,“39”と算出する。
そして、登録部16bは、図14に示すごとく、登録頻度が多いものから順にソートし、上位5つの依頼人コードを選択し、これらの依頼人コードが記入された帳票に対応する帳票の種類を登録データベース12に登録する。
これにより、本発明の第1変形例としての帳票判別装置1bによれば、上述した実施形態と同様の効果を得ることができる。
〔2−2〕本発明の第2変形例について
次に、本発明の第2変形例について説明すると、上述した実施形態では、登録部16aが登録候補データベース15aに登録された複数の帳票を、候補情報に基づいて複数のグループに分割し、分割されたグループの帳票の登録頻度に基づいて登録データベース12に登録する帳票の種類を決定するように構成したが、図1に示すように、本発明の第2変形例としての帳票判別装置1cの登録部16cは、登録候補データベース15aに登録された複数種類の候補情報のそれぞれについての登録頻度を、登録データベース12に登録された帳票ごとに合計した値に基づいて、登録データベース12に登録する帳票の種類を決定する。特に、ここでは、複数種類の候補情報のそれぞれに重み付けを施して、帳票ごとにその重み付けされた登録頻度の合計値(合計スコア)がより多いものを、登録データベース12に登録する帳票の種類を決定する。
ここで、登録部16cによる登録データベース12への帳票の種類の登録処理を、仮登録部14によって図15に示すごとく登録候補データベース15cが構成された場合を例あげて説明する。
登録部16cは、複数種類の候補情報(ここでは、“帳票サイズ”,“色相系”,及び“帳票種別コード”)ごとの登録頻度を算出する。ここで、図16に登録部16cによる登録頻度の算出結果をツリー状に示す。なお、図16において括弧内の数字は、その候補情報の登録頻度(スコア)を示す。
この図16に示すように、図15に示す登録候補データベース15cでは、帳票サイズとして“Y”と“T”があり、登録頻度はそれぞれ、“30”,“40”となる。また、色相系として“赤”,“青”,“黒”,及び“白青”があり、登録頻度はそれぞれ、“15”,“15,“30”,“10”となる。さらに、帳票種別コードとして“J”,“K”,“L”,“M”,“N”,“P”,及び“Q”があり、登録頻度はそれぞれ、“5”,“10”,“15”,“20”,“10”,“5”,“”となる。
そして、登録部16cは、図17に示すごとく予め設定された、もしくは、オペレータが任意に設定した、各候補情報の重み付け係数(重み係数;ここでは、帳票サイズ及び色相系は“1”、帳票種別コードは“3”)を踏まえて、登録候補データベース15cに登録された帳票ごとに、各候補情報の登録頻度(スコア)を合計した合計スコアを算出する。
つまり、図18に示すごとく、登録部16cは、帳票種別コードのスコアは登録頻度を3倍にした値を、また、他の帳票サイズ及び色相系のスコアは登録頻度そのままの値を用いて、帳票ごとに該当する候補情報のスコアを合計して合計スコアを算出する。
例えば、登録部16cは、項番1の帳票に対しては、帳票サイズ“Y”のスコア“30”と、色相系“赤”のスコア“15”と、帳票判別コード“5”の3倍の“15”とを合計して、合計スコアを“60”と算出する。登録部16cは、項番2以降についても同様に図18に示すごとく合計スコアを算出する。
そして、登録部16cは、この合計スコアがより大きい帳票にかかる帳票の種類を、登録データベース12に登録する。つまり、登録部16cは、合計スコアが最も大きい帳票の種類から順に所定数の帳票の種類を登録データベース12に登録するか、もしくは、合計スコアが所定値以上の帳票の種類を登録データベース12に登録する。
このように、本発明の第2変形例としての帳票判別装置1cによれば、上述した実施形態と同様の効果を得ることができる。
なお、本帳票判別装置1cの登録部16cのさらなる変形例として、登録部16cが、算出した合計スコアの値に基づいて、まず足きり処理を実行するように構成してもよい。
つまり、図19に示すフローチャート(ステップS10〜S15)に示すごとく、登録部16cが、各候補情報の重み付けを、例えば図17に示すテーブルに基づいて決定し(ステップS10)、次いで、この重み付けを踏まえて上記図18に示すように各帳票の合計スコアを算出する(ステップS11)。
さらに、登録部16cは、算出したすべての帳票の合計スコアのそれぞれに対して、予め設定された所定値もしくは最低スコアを差し引くことにより、各帳票の新合計スコアを算出する(ステップS12)。
そして、登録部16cは、算出した新合計スコアが0以下である帳票については、登録データベース12には登録しないと判断して足きりする(ステップS13)。
次に、登録部16cは、新合計スコアを値が大きい順(降順)にソートして並びかえ(ステップS14)、上位所定番目までの帳票にかかる帳票の種類を、登録データベース12に登録して(ステップS15)、処理を終了する。
このように、登録部16cが足きり処理を行なうことによって、登録データベース12への帳票の種類の登録を、より効率よく実行できるとともに、一定の処理頻度を有する帳票の種類だけを確実に登録データベース12に登録することができ、登録データベース12の品質をより良好なものにすることができる。
〔2−3〕その他
なお、上述した実施形態では、キーワードデータベース16a−1をそなえ、登録部16aが、このキーワードデータベース16a−1に保持されたキーワードに基づいて登録候補データベース15aに登録された複数の帳票を分割するように構成したが、本発明はこれに限定されるものではなく、例えば、キーワードデータベース16a−1をそなえず、オペレータが分割に用いるキーワードを、キーボード5やマウス6などを用いて任意に選択することができるように構成してもよく、この場合、登録部16aはオペレータによって選択されたキーワードを用いて複数の帳票を分割し、登録データベース12に登録する帳票の種類を決定する。これにより、登録データベース12に登録される帳票の種類を、オペレータの意思をより確実に反映したものにすることができる。
また、上述した、帳票読込部11,帳票判別部13,仮登録部14,登録部16a〜16c,文字認識部17,更新部19,及び削除部20としての機能は、コンピュータ(CPU,情報処理装置,各種端末を含む)が所定のアプリケーションプログラム(媒体判別情報データベース作成(管理)プログラム)を実行することによって実現されてもよい。
そのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RWなど),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD−RW,DVD+R,DVD+RWなど)等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体から媒体判別情報データベース作成(管理)プログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。
また、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。
ここで、コンピュータとは、ハードウェアとOS(オペレーティングシステム)とを含む概念であり、OSの制御の下で動作するハードウェアを意味している。また、OSが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえている。
上記媒体判別情報データベース作成(管理)プログラムとしてのアプリケーションプログラムは、上述のようなコンピュータに、帳票読込部11,帳票判別部13,仮登録部14,登録部16a〜16c,文字認識部17,更新部19,及び削除部20としての機能を実現させるプログラムコードを含んでいる。また、その機能の一部は、アプリケーションプログラムではなくOSによって実現されてもよい。
なお、本実施形態としての記録媒体としては、上述したフレキシブルディスク,CD,DVD,磁気ディスク,光ディスク,光磁気ディスクのほか、ICカード,ROMカートリッジ,磁気テープ,パンチカード,コンピュータの内部記憶装置(RAMやROMなどのメモリ),外部記憶装置等や、バーコードなどの符号が印刷された印刷物等の、コンピュータ読取可能な種々の媒体を利用することもできる。
〔3〕付記
(付記1)
情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成する媒体判別情報データベース作成装置であって、
前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部と、
該判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部と、
該仮登録部による前記登録候補データベースへの前記候補情報の登録頻度に基づいて、前記候補情報を当該媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえて構成されていることを特徴とする、媒体判別情報データベース作成装置。
(付記2)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記登録候補データベースに登録されている複数の媒体を、前記複数種類の候補情報に基づいて複数のグループに分割し、分割された各グループにおける媒体の登録頻度に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定することを特徴とする、付記1記載の媒体判別情報データベース作成装置。
(付記3)
前記登録部は、前記の分割された各グループにおける媒体の登録頻度が最も多い媒体の種類から順に所定数の媒体の種類を前記媒体判別情報データベースに登録することを特徴とする、付記2記載の媒体判別情報データベース作成装置。
(付記4)
前記登録部は、前記の分割された各グループにおける媒体の登録頻度が所定値以上の媒体の種類を前記媒体判別情報データベースに登録することを特徴とする、付記2記載の媒体判別情報データベース作成装置。
(付記5)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度を媒体ごとに合計した値に基づいて、記媒体判別情報データベースに登録する媒体の種類を決定することを特徴とする、付記1記載の媒体判別情報データベース作成装置。
(付記6)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度に重み付けを施したものを媒体ごとに合計した値に基づいて、記媒体判別情報データベースに登録する媒体の種類を決定することを特徴とする、付記1記載の媒体判別情報データベース作成装置。
(付記7)
前記登録部は、前記の合計した値が最も大きい媒体の種類から順に所定数の媒体の種類を前記媒体判別情報データベースに登録することを特徴とする、付記5または付記6記載の媒体判別情報データベース作成装置。
(付記8)
前記登録部は、前記の合計した値が所定値以上の媒体の種類を前記媒体判別情報データベースに登録することを特徴とする、付記5または付記6記載の媒体判別情報データベース作成装置。
(付記9)
前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、
前記判断部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていると判断された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、
前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることを特徴とする、付記1〜6のいずれか1項に記載の媒体判別情報データベース作成装置。
(付記10)
前記削除部が、前記流通頻度が最も小さい媒体の種類から順に所定数の媒体の種類にかかる対を前記媒体判別情報データベースから削除することを特徴とする、付記9記載の媒体判別情報データベース作成装置。
(付記11)
前記削除部が、前記流通頻度が所定値以下の媒体の種類にかかる対を前記媒体判別情報データベースから削除することを特徴とする、付記9記載の媒体判別情報データベース作成装置。
(付記12)
情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を当該媒体の種類と対応付けて保持する媒体判別情報データベースを管理する媒体判別情報データベース管理装置であって、
前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、
前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されているか否かを判断する判断部と、
該判断部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていると判断された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、
前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることを特徴とする、媒体判別情報データベース管理装置。
(付記13)
情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成する機能をコンピュータに実現させるための媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体であって、
前記媒体判別情報データベース作成プログラムが、
前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部、
該判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部、および、
該仮登録部による前記登録候補データベースへの前記候補情報の登録頻度に基づいて、前記候補情報を当該媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部として、前記コンピュータを機能させることを特徴とする、媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体。
(付記14)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記登録候補データベースに登録されている複数の媒体を、前記複数種類の候補情報に基づいて複数のグループに分割し、分割された各グループにおける媒体の登録頻度に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定するように、ことを特徴とする、付記13記載の媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体。
(付記15)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度を媒体ごとに合計した値に基づいて、記媒体判別情報データベースに登録する媒体の種類を決定するように、前記媒体判別情報データベース作成プログラムが前記コンピュータを機能させることを特徴とする、付記13記載の媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体。
(付記16)
前記仮登録部が、前記媒体から複数種類の候補情報を抽出して前記登録候補データベースに登録するとともに、
前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度に重み付けを施したものを媒体ごとに合計した値に基づいて、記媒体判別情報データベースに登録する媒体の種類を決定するように、前記媒体判別情報データベース作成プログラムが前記コンピュータを機能させることを特徴とする、付記13記載の媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体。
(付記17)
前記媒体判別情報データベース作成プログラムが、
前記判断部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていると判断された場合に、前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部、および、
前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部として、前記コンピュータを機能させることを特徴とする、付記13〜16のいずれか1項に記載の媒体判別情報データベース作成プログラムを記録したコンピュータ読取可能な記録媒体。
(付記18)
情報を記入された媒体を読み取って当該媒体のイメージデータを取得するイメージデータ取得部と、
前記媒体を判別するための媒体判別情報を媒体の種類と対応付けて保持する媒体判別情報データベースと、
前記イメージデータ取得部によって取得された前記媒体のイメージデータと、前記媒体判別情報データベースに保持された媒体判別情報とに基づいて、当該媒体を判別する媒体判別部と、
該媒体判別部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないために当該媒体を判別することができなかった場合に、前記イメージデータから当該媒体の媒体判別情報となりうる候補情報を抽出して登録候補データベースに登録する仮登録部と、
該仮登録部による前記登録候補データベースへの前記候補情報の登録頻度に基づいて、前記候補情報を、当該媒体の種類に対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえて構成されていることを特徴とする、媒体判別装置。
(付記19)
前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、
前記媒体判別部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていることにより当該媒体が判別された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、
前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることを特徴とする、付記18記載の媒体判別装置。
(付記20)
情報を記入された媒体を読み取って当該媒体のイメージデータを取得するイメージデータ取得部と、
前記媒体を判別するための媒体判別情報を媒体の種類と対応付けて保持する媒体判別情報データベースと、
前記イメージデータ取得部によって取得された前記媒体のイメージデータと、前記媒体判別情報データベースに保持された媒体判別情報とに基づいて、当該媒体を判別する媒体判別部と、
前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、
前記媒体判別部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていることにより当該媒体が判別された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、
前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることを特徴とする、媒体判別装置。
本発明の一実施形態としての帳票判別装置の構成を示すブロック図である。 本発明の一実施形態としての帳票判別装置が実現されるコンピュータの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の登録データベースの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の登録候補データベースの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の登録部のキーワードデータベースの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の登録候補データベースの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の登録部の動作手順の一例を示すフローチャートである。 本発明の一実施形態としての帳票判別装置の流通頻度データベースの構成例を示す図である。 本発明の一実施形態としての帳票判別装置の処理対象である帳票の流通特徴の一例を示す図である。 本発明の一実施形態としての帳票判別装置の処理対象である帳票の流通特徴の一例を示す図である。 本発明の一実施形態としての帳票判別装置の処理対象である帳票の流通特徴の一例を示す図である。 本発明の一実施形態としての帳票判別装置の処理対象である帳票の流通特徴の一例を示す図である。 本発明の第1変形例としての帳票判別装置の登録部による一の候補情報の登録頻度の算出結果の一例を示す図である。 本発明の第1変形例としての帳票判別装置の登録部による帳票の種類の決定方法を説明するための図である。 本発明の第2変形例としての帳票判別装置の登録候補データベースの構成例を示す図である。 本発明の第2変形例としての帳票判別装置の登録部による登録頻度の算出結果の一例を説明するための図である。 本発明の第2変形例としての帳票判別装置の登録部が用いる候補情報の重み付け係数の一例を示す図である。 本発明の第2変形例としての帳票判別装置の登録部による複数の帳票ごとの合計スコアの算出結果の一例を示す図である。 本発明の第2変形例としての帳票判別装置の登録部の動作手順の一例を示すフローチャートである。
符号の説明
1a〜1c 帳票判別装置(媒体判別装置)
2 帳票(媒体)
3 コンピュータ
4 表示部
5 キーボード
6 マウス
7 記憶装置
8 演算部(CPU:Central Processing Unit)
9 媒体判別情報データベース作成装置(媒体判別情報データベース管理装置)
10 スキャナ装置(イメージデータ取得部)
11 帳票読込部
12 登録データベース(媒体判別情報データベース)
13 帳票判別部(判断部)
14 仮登録部
15a〜15c 登録候補データベース
16a〜16c 登録部
17 文字認識部
18 流通頻度データベース
19 更新部
20 削除部

Claims (4)

  1. 情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成する媒体判別情報データベース作成装置であって、
    前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部と、
    該判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる複数種類の候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部と、
    媒体判別情報として登録しうる前記複数種類の候補情報のうち分割処理に用いるキーワードを、複数の組ごとに示すキーワードデータベースと、
    前記キーワードデータベースにおける前記複数の組からいずれかの組を決定し、前記登録候補データベースに登録されている複数の媒体を、前記複数種類の候補情報と決定した組のキーワードとに基づいて複数のグループに分割し、分割された各グループにおける媒体の該仮登録部による前記登録候補データベースへの登録頻度に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定し、前記登録候補データベースに登録された前記複数種類の候補情報を当該決定した媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえことを特徴とする、媒体判別情報データベース作成装置。
  2. 情報を記入された媒体を読み取って得られたイメージデータに基づいて当該媒体を判別するための媒体判別情報を、当該媒体の種類と対応付けて保持する媒体判別情報データベースを作成する媒体判別情報データベース作成装置であって、
    前記媒体のイメージデータから得られる当該媒体にかかる媒体判別情報が、前記媒体判別情報データベースに保持されているか否かを判断する判断部と、
    該判断部によって当該媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていないと判断された場合に、前記イメージデータから当該媒体の媒体判別情報となりうる複数種類の候補情報を抽出して登録候補データベースに当該媒体と対応付けて登録する仮登録部と、
    該仮登録部による前記登録候補データベースへの前記複数種類の候補情報のそれぞれについての登録頻度を媒体ごとに合計した値に基づいて前記媒体判別情報データベースに登録する媒体の種類を決定し、前記候補情報を当該媒体の種類と対応付けて媒体判別情報として前記媒体判別情報データベースに登録する登録部とをそなえことを特徴とする、媒体判別情報データベース作成装置。
  3. 前記登録部が、前記複数種類の候補情報のそれぞれについての登録頻度に重み付けを施したものを媒体ごとに合計した値に基づいて、前記媒体判別情報データベースに登録する媒体の種類を決定することを特徴とする、請求項2記載の媒体判別情報データベース作成装置。
  4. 前記媒体判別情報データベースに前記媒体判別情報を保持された媒体の種類ごとの流通頻度を保持する流通頻度データベースと、
    前記判断部によって前記媒体にかかる媒体判別情報が前記媒体判別情報データベースに保持されていると判断された場合に、前記流通頻度データベースにおける当該媒体の種類の流通頻度を更新する更新部と、
    前記流通頻度データベースにおける前記媒体の種類ごとの流通頻度に基づいて、前記媒体判別情報データベースから前記媒体の種類と前記媒体判別情報との対を削除する削除部とをそなえて構成されていることを特徴とする、請求項1〜3のいずれか1項に記載の媒体判別情報データベース作成装置。
JP2006012802A 2006-01-20 2006-01-20 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置 Expired - Fee Related JP5060053B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006012802A JP5060053B2 (ja) 2006-01-20 2006-01-20 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置
US11/411,825 US20070172154A1 (en) 2006-01-20 2006-04-27 Data medium discrimination information database creating apparatus, data medium discrimination information database managing apparatus, computer readable recording medium recorded thereon data medium discrimination information database creating program, and data medium discriminating apparatus
KR1020060045206A KR100744205B1 (ko) 2006-01-20 2006-05-19 데이터 매체 판별 정보 데이터베이스 작성 장치, 데이터매체 판별 정보 데이터베이스 관리 장치, 데이터 매체 판별정보 데이터베이스 작성 프로그램을 기록한 컴퓨터 판독가능한 기록 매체, 및 데이터 매체 판별 장치
CNB2006100847329A CN100468408C (zh) 2006-01-20 2006-05-19 数据媒体判别信息数据库生成装置、管理装置、记录介质及数据媒体判别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006012802A JP5060053B2 (ja) 2006-01-20 2006-01-20 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置

Publications (2)

Publication Number Publication Date
JP2007193678A JP2007193678A (ja) 2007-08-02
JP5060053B2 true JP5060053B2 (ja) 2012-10-31

Family

ID=38285644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006012802A Expired - Fee Related JP5060053B2 (ja) 2006-01-20 2006-01-20 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置

Country Status (4)

Country Link
US (1) US20070172154A1 (ja)
JP (1) JP5060053B2 (ja)
KR (1) KR100744205B1 (ja)
CN (1) CN100468408C (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2090969A4 (en) * 2006-11-30 2013-01-09 Nec Corp INFORMATION SELECTION SUPPORT DEVICE, INFORMATION SELECTION SUPPORT METHOD, AND PROGRAM
JP5670787B2 (ja) * 2011-03-18 2015-02-18 株式会社Pfu 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
JP5953145B2 (ja) * 2012-07-02 2016-07-20 グローリー株式会社 帳票登録支援方法及び装置並びにプログラム
JP2014016762A (ja) * 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp 帳票認識装置および帳票認識方法
US10614109B2 (en) * 2017-03-29 2020-04-07 International Business Machines Corporation Natural language processing keyword analysis

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6030993B2 (ja) * 1980-03-25 1985-07-19 富士通株式会社 実時間手書文字認識装置
JPH05309341A (ja) * 1992-05-07 1993-11-22 Nec Corp 文字認識装置
EP1818857B1 (en) * 1995-07-31 2010-06-23 Fujitsu Limited Document processor and document processing method
JP2806340B2 (ja) * 1996-01-29 1998-09-30 日本電気株式会社 帳票管理装置
JPH09330323A (ja) * 1996-06-13 1997-12-22 Canon Inc 情報処理方法及びその装置と前記方法を実施するプログラムを記憶したコンピュータにより読取り可能な記憶媒体
JPH1185901A (ja) * 1997-09-03 1999-03-30 Toshiba Corp 文書画像理解装置と方法、及び郵便宛名自動認識装置と方法、及び記録媒体
WO2001026024A1 (fr) * 1999-09-30 2001-04-12 Fujitsu Limited Dispositif et procede d'identification de document
US6694065B2 (en) * 2000-03-10 2004-02-17 Fujitsu Limited Image collating apparatus and image collating method
US6862604B1 (en) * 2002-01-16 2005-03-01 Hewlett-Packard Development Company, L.P. Removable data storage device having file usage system and method
US6944634B2 (en) * 2002-04-24 2005-09-13 Hewlett-Packard Development Company, L.P. File caching method and apparatus
JP2004318596A (ja) * 2003-04-17 2004-11-11 Oki Electric Ind Co Ltd Ocr為替システム
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
KR20050122950A (ko) * 2004-06-26 2005-12-29 삼성전자주식회사 파일 및 폴더를 사용 빈도에 따라 정렬하여디스플레이하는 방법 및 장치
US7536502B2 (en) * 2004-07-23 2009-05-19 Funai Electric Co., Ltd. Controller device to be connected to IEEE 1394 serial bus
US20060059204A1 (en) * 2004-08-25 2006-03-16 Dhrubajyoti Borthakur System and method for selectively indexing file system content
US20060206462A1 (en) * 2005-03-13 2006-09-14 Logic Flows, Llc Method and system for document manipulation, analysis and tracking

Also Published As

Publication number Publication date
US20070172154A1 (en) 2007-07-26
CN101004747A (zh) 2007-07-25
KR100744205B1 (ko) 2007-08-01
KR20070077016A (ko) 2007-07-25
JP2007193678A (ja) 2007-08-02
CN100468408C (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
US20190279170A1 (en) Dynamic resource management associated with payment instrument exceptions processing
JP6268352B2 (ja) 会計データ入力システム、方法、およびプログラム
US6125196A (en) Method for identifying suspect items in an out-of-balance transaction
US20120136862A1 (en) System and method for presenting comparisons of electronic documents
JP5060053B2 (ja) 媒体判別情報データベース作成装置及び媒体判別情報データベース管理装置
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
JP2007179395A (ja) 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体
EP3541057A1 (en) Scan apparatus and scan result display program
KR101889007B1 (ko) 객체 속성을 이용한 도면관리 방법 및 도면관리 시스템
CN113269101A (zh) 一种票据识别方法、装置和设备
CN1967591A (zh) 营业店系统中的交易联合方法
JP2016177383A (ja) 識別番号検索システム及び識別番号検索方法
US20160379190A1 (en) Element level presentation of elements of a payment instrument for exceptions processing
JP4356908B2 (ja) 財務諸表自動入力装置
US20230306768A1 (en) Systems and methods for machine learning key-value extraction on documents
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
JP2007280413A (ja) 財務諸表自動入力装置
JP2010244235A (ja) 帳票処理装置及び帳票処理プログラム
JP5953145B2 (ja) 帳票登録支援方法及び装置並びにプログラム
CN113449763A (zh) 信息处理装置以及记录媒体
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
US12067039B1 (en) Systems and methods for providing user interfaces for configuration of a flow for extracting information from documents via a large language model
US20240257123A1 (en) Device and method for validation and processing of a transaction slip image
CN113469005B (zh) 一种银行回单的识别方法、相关装置及存储介质
CN116911641B (zh) 资助推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5060053

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees