JP2009238217A - 情報処理システム、情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理システム、情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2009238217A
JP2009238217A JP2009053865A JP2009053865A JP2009238217A JP 2009238217 A JP2009238217 A JP 2009238217A JP 2009053865 A JP2009053865 A JP 2009053865A JP 2009053865 A JP2009053865 A JP 2009053865A JP 2009238217 A JP2009238217 A JP 2009238217A
Authority
JP
Japan
Prior art keywords
information
label name
entry area
area
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009053865A
Other languages
English (en)
Other versions
JP5402099B2 (ja
Inventor
Kunio Okita
邦夫 沖田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009053865A priority Critical patent/JP5402099B2/ja
Publication of JP2009238217A publication Critical patent/JP2009238217A/ja
Application granted granted Critical
Publication of JP5402099B2 publication Critical patent/JP5402099B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】位置情報や書式情報の設定作業などの帳票に記載する記入領域の記載位置情報と、その記入領域に関するメタデータの書式情報を出力する情報処理システム、情報処理装置、情報処理方法およびプログラムを提供する。
【解決手段】帳票からファイル情報または画像情報を入力し、入力された帳票の記入領域を抽出して取得し、取得した記入領域内の文字または記号情報から帳票に記入する情報の内容を暗示するラベル名を取得し、ラベル名とそれに対応する記入領域の書式設定の情報を有する書式情報テーブルを保持し、ラベル名から書式情報テーブルを探索して、ラベル名に対応する帳票の記入領域の書式設定を取得し、取得した記入領域とラベル名と書式設定とを出力する。
【選択図】図1

Description

本発明は、帳票内情報の記入領域に書かれる書式情報の内容がその記載位置を確認すると共にその記載内容が適切な範囲にあるかチェック可能な情報処理システム、情報処理装置、情報処理方法およびプログラムに関する。
従来から、紙の帳票をスキャナなどで読み取ってこの帳票の画像を入力し、帳票上の予め定義されている記入領域に対しOCR(Optical Character Reader)処理などをするシステムが知られている。
このようなシステムの場合、その各記入領域の位置情報をシステムが予め正確に知っているだけでは不十分であり、その記入領域に書かれる内容のチェックも行われることが併せて重要である。この記入領域に書かれる内容のチェックがなされない場合、ユーザが間違って帳票に書いてしまったうっかりミスなどを含む人為的ミスや、システムがOCR段階での読み取りミスをチェックすることができないため、システムの信頼性やパフォーマンスは大きく損なわれることになる。
このため、予め定義されている記入領域の設定に対し、その位置情報だけでなく、どのような情報が書かれるべきかという情報(以降、書式情報と言う)も同時に必要となる。
この書式情報は、その記入領域にどのような種類(入力される情報として日本語による情報である場合には、「数字、ひらがな、漢字等」となる)の値が入力されるべきかなどの情報や、その値の制限の情報、たとえば数字が入力されるなら30を超えてはいけない等の制限の情報等で構成される。このように書式情報は記載する文字種と、その種類が規定されるとその範囲も定まるような一体となった情報であり、たとえば「歳」という文字が、ある記入領域に関連して存在するならば、記入されるべき情報の種類としては「数字」が選択され、また数字ではあってもマイナスは選択されず、またこの数字はヒトの年齢であることを意味しているので、150を越えない範囲であろうと推測できるものである。
しかしながら、この位置情報や書式情報の設定作業は非常に面倒で手間がかかるため、それら書式情報などを設定するための自動化が求められている。
このような従来公知の発明として、たとえば特許文献1には、帳票フィールド属性作成システムおよび方法、並びにプログラムの発明が開示されている。
より具体的には、予め作成しておいた原帳票を光学的に走査し、フィールドイメージと文字イメージからなる帳票イメージを入力する入力手段と、前記イメージ入力手段によって入力された帳票イメージからフィールドと文字を認識してフィールド領域と文字データを出力する認識手段と、前記文字認識手段によって出力されたフィールド領域と文字データを対比させた帳票イメージを表示する表示手段と、前記表示手段により表示された帳票イメージからフィールド領域を指定する指定手段と、前記フィールド指定手段により指定されたフィールドに対応する項目定義データに基づいて、該フィールドの属性情報を作成する作成手段と、を具備したことを特徴とする帳票フィールド属性作成システムなどの発明が開示されている(特許請求の範囲)。
すなわち、OCR帳票作成・編集装置2は、表示された帳票イメージのフィールドに相当する領域をポインティングデバイスを用いて指示すると、当該領域内又は近傍の領域のイメージデータに基づいて、フィールド項目属性情報の作成を行なう発明が開示されている。
また、特許文献2には、フィールド情報作成プログラム、フィールド情報作成方法、および帳票画面用電子フォーム作成装置の発明が開示されている。
具体的には、従来の帳票画面用電子フォーム作成装置に用いられるフィールド情報作成方法では、紙帳票上の下線で示された文字記入領域に対応するフィールド情報を自動生成する機能がなく、フィールド情報作成効率が悪いのを解決するために、紙帳票上の文字列と罫線に対応する情報を格納した文字列・罫線データベースに基づいて、独立した水平な線分を抽出する独立水平線分抽出段階と、該抽出された独立水平線分に基づいて、フィールド左下端座標とフィールド幅とを決定したフィールド候補を作成するフィールド候補生成段階とを有するフィールド情報作成方法によって、紙帳票上の下線で示された文字記入領域に対応するフィールド情報を自動生成できるプログラムなどの発明が提案されている。
また特許文献3には、セル状になっている帳票から記入領域候補のラベル名を階層的に探索する装置の発明が開示されている。
このような従来公知の技術では、記入領域の位置情報や記入領域のラベルを自動的に取得するにとどまっており、書式情報を自動的に設定する発明は、未だ開示されていない。
本発明は、上述した実情を考慮してなされたものであって、位置情報や書式情報の設定作業などの帳票に記載する記入領域に対して自動的に書式情報を設定するシステム等の発明の提供を目的とし、このような記載位置情報と、その記入領域に関するメタデータの書式情報を出力する情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
上記の問題を解決するために、本発明は、以下の解決手段を提供する。
(1)帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理システムであって、前記帳票からファイル情報または画像情報により前記入力を行う入力手段と、入力された前記帳票の記入領域を抽出して取得する記入領域ラベル取得手段と、記入領域のラベル名を取得する領域として前記記入領域を相対座標で示したラベル名取得領域テーブルを有し、前記記入領域ラベル取得手段が帳票内の文字情報から前記ラベル名を取得する際に、前記ラベル名取得領域テーブルから、前記ラベル名を取得する領域の情報を取得して記入領域のラベル名を取得するラベル名取得手段と、前記取得したラベル名とそれに対応する記入領域の書式設定の情報を有する書式情報テーブルを保持する書式情報テーブル保持手段と、前記取得したラベル名から前記書式情報テーブルを探索して、前記ラベル名に対応する帳票の記入領域の書式設定を取得する記入領域書式取得手段と、取得した前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行う記入領域設定出力手段とを有することを特徴とする。
(2)帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理システムであって、前記帳票からファイル情報または画像情報により前記入力を行う入力手段と、前記入力部から受け取った前記帳票内の記入領域を抽出して取得する記入領域ラベル取得手段と、抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得するラベル名取得手段と、前記ラベル名に対応する記入領域の書式設定の情報を有する書式情報テーブルを保持する書式情報テーブル保持手段と、取得した前記ラベル名から前記書式情報テーブルを探索し、前記ラベル名に対応した記入領域の書式設定を取得する記入領域書式取得手段と、取得した前記記入領域と前記ラベル名と前記書式設定とを確認訂正入力を可能に表示する記入領域設定表示手段と、前記記入領域設定表示部からの前記確認訂正の入力情報に基づき前記書式情報テーブルの更新を行う書式情報テーブル更新手段と、確認訂正された前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行う記入領域設定出力手段とを有することを特徴とする。
(3)前記(1)または(2)に記載の情報処理システムにおいて、前記ラベル名取得領域テーブルは前記ラベル名の記入領域に対する位置関係毎にラベル名取得領域を有し、前記記入領域ラベル取得手段が前記位置関係毎のラベル名取得領域のそれぞれに対して記入領域のラベル名を取得し、記入領域書式取得手段が取得したこのラベル名と位置情報から書式情報テーブルを探索し、対応する記入領域の設定を取得することを特徴とする。
(4)前記(3)に記載の情報処理システムにおいて、前記ラベル名取得領域テーブルはラベル名の言語毎にラベル名取得領域を有し、前記記入領域ラベル取得手段が前記ラベル名取得領域の各々に対し前記記入領域のラベル名を取得することを特徴とする。
(5)前記(4)に記載の情報処理システムにおいて、前記記入領域ラベル取得手段が記入領域の周囲の文字列に対応するラベル名取得領域を取得して前記記入領域のラベル名を取得することを特徴とする。
(6)前記(3)から(5)のいずれかに記載の情報処理システムにおいて、前記ラベル名取得領域テーブルは縦書き、横書きの両方のラベル名取得領域を有し、前記記入領域ラベル取得部が記入領域の記載が縦書きか横書きかを判断して対応するラベル名取得領域から前記記入領域のラベル名を取得することを特徴とする。
(7)前記(2)から(6)のいずれかに記載の情報処理システムにおいて、前記書式情報テーブル更新手段がユーザから入力された訂正情報が前記書式情報テーブル内に存在しない場合に前記書式情報テーブルに前記訂正情報を追加して更新することを特徴とする。
(8)前記(2)から(7)のいずれかに記載の情報処理システムにおいて、前記ラベル名取得手段が複数のラベル名候補を発見した場合、ラベル名が書式情報テーブルに掲載されているかを探索し,書式情報テーブルに掲載されているラベル名候補を選択することを特徴とする。
(9)前記(2)から(7)のいずれかに記載の情報処理システムにおいて、前記書式情報テーブル更新手段がユーザからの訂正情報に教師あり学習を用いて前記書式情報テーブルの更新を行うことを特徴とする。
(10)前記(1)から(9)のいずれか1項の情報処理システムを一体の装置として構成した情報処理装置。
(11)帳票に記載する記入領域の周囲を分割し各分割した領域に含まれる文字情報の記載に基づいて縦書きか横書きかの記入方向を判別し、前記記入領域の記載内容を暗示する情報の検索のための優先順位を前記記入領域の周囲の分割した領域毎に決めて前記記入領域に記載する情報を暗示する関連情報を検索することを特徴とする情報処理方法。
(12)帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理方法であって、前記帳票から画像情報を入力し、読み取った前記帳票の記入領域を抽出し、抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得し、取得した前記ラベル名から書式情報テーブルを探索して前記ラベル名に対応する帳票の記入領域の書式設定の情報を取得し、取得した前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行うことを特徴とする。
(13)帳票からの情報を入力し、前記帳票内の記入領域を抽出し、出力する情報処理方法であって、帳票からの情報を入力し、前記入力部から受け取った前記帳票内の記入領域を抽出し、抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得し、取得した前記ラベル名から書式情報テーブルを探索して前記ラベル名に対応した記入領域の書式設定の情報を取得し、取得した前記記入領域と前記ラベル名と前記書式設定とを確認または訂正の入力を表示し、前記確認または訂正の入力情報に基づき前記書式情報テーブルの更新を行い、前記確認または訂正された前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行うことを特徴とする。
(14)前記(13)に記載の情報処理方法において、前記帳票内の文字情報からラベル名を取得する際に、記入領域のラベル名を取得する領域として前記記入領域を相対座標で示したラベル名取得領域テーブルから前記ラベル名を取得可能な領域の情報を取得して前記記入領域のラベルを取得することを特徴とする。
(15)前記(14)に記載の情報処理方法において、前記ラベル名取得領域テーブルはラベル名の記入領域に対する位置関係毎にラベル名取得領域を有する前記ラベル名取得領域のそれぞれに対して記入領域のラベル名を取得し、取得した各ラベル名と位置情報から書式情報テーブルを探索して対応する記入領域の設定を取得することを特徴とする。
(16)前記(14)または(15)に記載の情報処理方法において、前記ラベル名取得領域テーブルはラベル名の言語ごとにラベル名取得領域を有する前記ラベル名取得領域それぞれに対して記入領域のラベル名を取得することを特徴とする。
(17)前記(16)に記載の情報処理方法において、前記記入領域周囲の文字列の言語に対応するラベル名取得領域から記入領域のラベル名を取得することを特徴とする。
(18)前記(14)から(17)のいずれかに記載の情報処理方法において、前記ラベル名取得領域テーブルが縦書きまたは横書き毎にラベル名取得領域を有する前記記入領域周囲の縦書きか横書きかを判断して対応するラベル名取得領域により前記記入領域のラベル名を取得することを特徴とする。
(19)前記(12)から(18)のいずれかに記載の情報処理方法において、前記確認または訂正の入力情報に該当する訂正情報が書式情報テーブルから欠落している前記書式情報テーブルに前記訂正情報を追加することを特徴とする。
(20)前記(12)から(19)のいずれかに記載の情報処理方法において、入力された前記訂正情報を教師あり学習を用いて前記書式情報テーブルの更新を行うことを特徴とする。
(21)前記(11)から(20)のいずれかの情報処理方法を情報処理装置または情報処理システムに実行させるための読取可能なプログラム。
本発明によれば、位置情報や書式情報の設定作業などの帳票に記載する記入領域の記載位置情報と、その記入領域に関するメタデータの書式情報を出力する情報処理システム、情報処理装置、情報処理方法およびプログラムを提供することができる。
本発明の情報処理システムの実施形態1における概略動作を示す図である。 本発明の情報処理システムの実施形態1におけるシステムの構成を示すブロック図である。 帳票の記入領域において横書き、縦書きの文章の記入領域の上方や左方あるいは下方や右方の文字列を後方のラベル名を取得可能な領域とすることを説明するための図である。 ラベル名を取得するときの記入領域周囲の文字列の方向から横書きか縦書きかを判別してテーブルを選択する際の説明をするための図である。 本発明の情報処理システムの各部の動作を説明するためのシーケンス図である。 本発明の情報処理システムの実施形態2における概略動作を示す図である。 本発明の情報処理システムの実施形態2におけるシステムの構成を示すブロック図である。 本発明の情報処理システムの実施形態2における実施形態1の動作に加え新しく加わった各部の動作を説明するためのシーケンス図である。
以下、図面を参照して、本発明の情報処理システムなどの発明を実施形態により詳細に説明する。
(実施形態1)
まず本発明の概略的な全体概念を以下に記載する。
以下のようなベクタの帳票ファイルやラスタの帳票画像を入力し、この画像をスキャナなどで読取ったり、羅線抽出処理などの処理を行ったり、あるいはファイル(電子ファイル)の中に含まれているデータを入力手段によりあるいは入力手段を介して入力し、帳票内の記入領域の位置情報とその記入領域に関するメタデータである書式情報を出力するシステムの発明を完成した。ここで、書式情報は、その帳票の記入領域のラベル名、入力文字種および記入領域への入力値の制限などの情報を含んで構成される。なお本明細書中、文字と言う文言には、日本語の場合には、漢字(漢数字を含む)、ひらがな、かたかな、数字、記号等の集合体を含むものとして説明する。またその他の言語の場合にはアルファベット体などで表示する言語以外の数字、記号などでもコンピュータで処理あるいは読取可能であれば、その記号等も含むものとして説明する。
本発明の帳票情報処理システムは、まず、帳票から記入領域の位置情報および帳票内の
文字情報を抽出する。この抽出した記入領域の位置情報と文字情報の対応付けを行って、
記入領域のラベル名を取得する。このラベル名は、帳票作成を行うユーザがこの帳票に記
入する際のヒントとなる文字情報のことである。例えば、
「氏名○○○○○○○○○」
のような情報が帳票内(帳票の記入領域内)に含まれている場合、上記例で示す下線部分が氏名を書き入れることとユーザは理解し、認識する。これは上記例において、ユーザは「氏名」という文字列が存在し、その同じ領域内に下線で示される記入領域を含んでいるという相関関係を経験的に容易に見出せるからである。そして「氏名」という文字列の存在の後に、このように下線部が存在しているので、この下線部分に何を書き込むかが意図(指示)されているとユーザが理解(あるいは把握)する。これによって、この「氏名」が記入領域のラベル名である(あるいはラベル名として定義される)ことになる。
次に、この記入領域のラベル名を、システム内に保存されている書式情報テーブルと比較してその記入領域にその他の書式情報の対応付けを行う。システムが有する(保存している)書式情報テーブルには、ラベル名とその位置、入力文字種、記入領域への入力値の制限等の情報が対応付けられている(図1の「書式情報テーブル」参照)。したがって、記入領域のラベル名とその位置で検索されると、そのラベル名に適した入力文字種や入力値の制限などの情報を取得でき、記入領域に取得した情報を対応付けすることができる。
たとえば、「歳」というようなラベル名に対応付けされている記入領域がある場合に、ラベル名「歳」でシステムが持つテーブルを検索し、その記入領域に入力すべき文字種が「歳」から、入力されるべき情報が「数字」であることや、その値が「20以上」(二十歳以上)であるなどの情報であるのでこれらの情報を取得し、これを記入領域に対応付けることになる。
このようにして、記入領域の位置情報と記入領域のラベル名および書式情報テーブルから取得した書式情報を出力する。さらに、出力した書式情報をユーザが確認し不適切な書式情報が設定された記入領域の訂正および書式情報テーブルの修正が行われた後にユーザから入力された修正情報に基づいて行われることが可能になる。ただしこのテーブルの修正は強化学習における教師あり学習を用いて行われることが好ましい。
実施形態1におけるシステムの全体像
以下にベクタの帳票ファイルを入力して取得することを例に挙げて説明する(図5のa1参照)。ベクタの帳票ファイルは矩形や罫線の情報および文字情報をベクタとして持っている。ベクタの帳票ファイルの代表的なフォーマットとして、PDF(Portable Document Format)が挙げられる。また、今回の例では利用しないがラスタで表される帳票画像からも罫線や矩形の抽出とOCRによる文字の取得をして、ベクタの帳票ファイルと類似の情報が取得でき、略同様に処理することもできる。
図1に、本発明の情報処理システムの大略的な全体の流れを示す。また図2は本実施形態で使用される情報処理システムの構成例を示し、図5は図2に示す各構成間(各ブロック間)でのやり取りを示すシーケンス図を示す。
まず本発明の情報処理システムの大略的な全体の流れを、図1及び図5を参照しながら説明する。
図1に示すように、まず情報処理システムはインターネット等を介してベクタの帳票ファイルをダウンロード等することによって入手する(図5のa1〜a2参照)。入力された帳票ファイルから、ベクタで表される矩形情報と罫線情報と文字情報とを取得する(図1のS1、図5のa1〜a5)。図1に示すように、これらの情報は矩形情報と罫線情報とを1つの記録手段(第1のストレージ)に、また文字情報を他の記録手段(第2のストレージ)に分けて保存することができる。これら第1、第2のストレージは同一の記録手段内に確保することもでき、第1の記憶領域と、第2の記憶領域として1つのストレージ(記憶手段)内に保存したり、あるいは1台の装置(コンピュータ)内に記憶領域を分けて設けておくこともできる。本実施形態1では、文字情報・矩形情報・羅線情報取得部がこれらのストレージとしての機能を有している。なお図5に示すように、通信部11を介して入力されたベクタ帳票ファイル(図5のa2参照)は、記入領域抽出部1の文字情報・矩形情報・羅線情報取得部12〜15などを介して、書式情報テーブル部内に図1の書式情報テーブルに示すようなテーブルに情報を振り分けてテーブルとし、これを書式情報テーブル部内に格納しておいたり、前もって図1に示すような書式情報テーブルとして書式情報テーブル部2に格納しておいてもよい。
次いで取得したベクタ帳票ファイルと、書式情報テーブルからの前記した情報(図5のa5参照)から、記入領域抽出部(記入領域アプリケーション部)1では、記入領域の位置座標を決定する(図1のS2、図5のa5〜a7)。本実施形態では、上記した取得情報の矩形情報と罫線情報と文字情報との組み合わせから、記入領域の抽出を行う(図5のa7)。この抽出した記入領域は、その位置情報を持つ。たとえば(x、y、w(幅)、h(高さ))などの座標情報)が挙げられる(図5のa7)。
次に、前記した抽出した記入領域図1の書式情報テーブル中の「位置」の欄に記載された文字情報とを対応させ、記入領域抽出部(記入領域アプリケーション部)1では、これによって記入領域のラベル名を取得する(図1のS3、図5のa8)。
本実施形態1では記入領域の「位置」の欄に、「前方」と、「後方」という2種類が存在し、この2種類からラベル名(すなわち記入領域の「後方」には「円」あるいは「月」が存在するラベル名と、記入領域の「前方」には「氏名」などが存在している)を取得する。これは、本実施形態において、前方を記入領域の上部および左部、後方を記入領域の下部および右部としているので(図3参照)、「前方、後方と2種類」のラベル名を取得することになる。また後述する書式情報テーブルの検索精度を高めるため、記入領域としては「上」、「下」、「左」、「右」の4種類が存在するが、後に説明する横書き、縦書きの区別を行った後では、この記入領域の「前」「後」のみの2種類の概念が残るため、位置情報に関して、2種類が重要なものとなる。すなわち、横書きと区別されればこの記入領域の「左」「右」が記入される記入領域の情報に対して「前」「後」となり、4つある方向のうち、元の「前」「後」2種類は排除され、そして新しく「前」「後」となったこの記入領域の「左」「右」が、書式情報として重要となるようにすることもできる。このようにして取得できたラベル名とその種類から書式情報テーブルを参照できるようにしてもよい。
次に記入領域の前記取得したラベル名と位置情報を、書式情報テーブル(の各情報)と比較する(図1のS4、図5のa9)。これによって記入領域に設定する記入領域の入力文字種や入力する値の制限等の情報を取得することができる。この書式情報テーブルは記入領域のラベル名、ラベル名の位置、記入領域の入力文字種、入力値の制限等の情報を有している(図1の「書式情報テーブル」参照)。
以上により、各記入領域に対し、そのラベル名と入力文字種、入力値の制限などの書式情報を取得しこの情報を出力として返す(図5のa10)。
システムの内部構成
図2は本実施形態1におけるシステム構成を示す図である。
本発明の情報処理システムは、図2に示すように、以下のブロックから構成されている。
[帳票入力部4]
帳票入力部4は、ユーザにより帳票ファイルや帳票画像を入力するためのインターフェイスである。たとえば画像読取装置(スキャナ)等および入力された画像からデジタルデータに変換するアプリケーションソフトにより構成される。本実施形態1では、前記したように帳票データとしてインターネット等を介して帳票ファイルをダウンロード等により帳票入力部4が入手する(図5のa1)。
[記入領域出力部5]
記入領域出力部5は、ユーザにより入力されたベクタ帳票ファイルを処理した結果である記入領域定義一覧を出力するためのインターフェイス(GUIを含む)である。
以下、書式情報テーブル部2のブロック等、残りの部1等について説明する。
[書式情報テーブル部2]
書式情報テーブル部2は、制御部21と書式情報テーブルを保存している書式情報テーブル保持部22とからなる。
[制御部21]
書式情報テーブル部2内の制御部21は、書式情報テーブル保持部に書式情報テーブルの少なくとも1部に情報を書き込んだり、その書式情報テーブルに訂正情報を加えたり、書式情報テーブルを読み出したり、その一部を抽出したりする部である。
本実施形態1では、書式情報テーブル部2内の書式情報テーブル保持部22から書式情報テーブルを取得し(図5のa3)、記入領域抽出部(記入領域抽出アプリケーション部)1に送る(図5のa4)。記入領域抽出部1から、書式情報テーブル検索のためのクエリが書式情報テーブル部2に送られた場合には、クエリに合致する書式情報テーブルの一部だけを記入領域抽出部1に返信してもよい(図5のa3、a4)。
[書式情報テーブル保持部22]
書式情報テーブル部2内の書式情報テーブル保持部22は、入力される書式情報を書式情報テーブルとして保存しておく部である。
書式情報テーブル保持部22内に保存されているたとえば表1に示す書式情報テーブルには、たとえば記入領域のラベル名(ラベル名)と、その位置情報(ラベル位置)と、記入領域の入力文字種(入力文字種)と、入力値の制限(入力値制限)などの書式情報を有することができる。
Figure 2009238217
前記表1の入力値制限において「null」とあるのは、入力値の制限が無いことを意味している。
次に記入領域抽出部(記入領域抽出アプリケーション部)1のブロック構成(アプリケーションブロック構成)について説明する。
[通信部11]
記入領域抽出部(記入領域抽出アプリケーション部)1内の通信部11は、書式情報テーブル部2内の書式情報テーブル保持部22から、書式情報テーブルを取得したり、他の部に対して情報を送ったり受け取る部である。
また通信部11は、帳票入力部4からベクタ帳票ファイル(ベクタ帳票ファイル形式で入力された情報)を受け取り(図5のa2)、受け取ったベクタ帳票ファイル(ベクタ帳票ファイル形式で入力された情報を含む)と、取得した書式情報テーブルとを、文字情報・矩形情報・罫線情報取得部12に送る部である(図5のa3〜a5)。
また通信部11は、書式情報設定部14から記入領域定義一覧を取得し(a3-1)、記入領域出力部5に送る部である(図5のa10)。
[文字情報・矩形情報・罫線情報取得部12]
記入領域抽出部(記入領域抽出アプリケーション部)1内の文字情報・矩形情報・罫線情報取得部12は、通信部11からベクタ帳票ファイルと書式情報テーブルを受け取り、受け取ったベクタ帳票ファイルからベクタで表現されている文字情報、矩形情報、罫線情報を取得する(図5のa5)。この取得した文字情報、矩形情報、罫線情報と受け取った書式情報テーブルを記入領域取得部に送る部である(図5のa6)。
[記入領域取得部13]
記入領域抽出部1内の記入領域取得部13は、文字情報・矩形情報・罫線情報部12から、ベクタで表現されている文字情報、矩形情報、罫線情報と、書式情報テーブルを受け取り(図5のa6)、記入領域の座標を抽出する部である。また抽出した記入領域の座標と、受け取った書式情報テーブルと、文字情報とを、ラベル名取得部15に送る部である(図5のa7)。
この部で用いられる記入領域抽出アルゴリズムは公知のアルゴリズムが用いられ、またこのアルゴリズムについては本発明の特徴的な部分でないので、このアルゴリズムの説明は省略する。
[ラベル名取得部15]
記入領域抽出部1内のラベル名取得部15は、記入領域取得部13から記入領域の座標とベクタで表現されている文字情報と書式情報テーブルを受け取る部である(図5のa7)。また、ラベル取得可能領域保持部16から、ラベル取得領域テーブルを受け取る部である。
そして記入領域取得部13から受け取った文字情報の中から記入領域のラベル名を取得し、記入領域の座標と、取得した記入領域のラベル名と、記入領域と、ラベル名の相対位置関係(本実施形態1では前方、後方の2種類)と、書式情報テーブルとを、書式情報設定部14に送る部である(図5のa8)。
本実施形態1では、左から右に文字を横書きにするか上から下に縦書きにするような言語(たとえば日本語など)を対象としている。
図3に示すように、横書きの文章では記入領域の上方や左方を前方のラベル名が取得可能な領域、下方や右方の文字列を後方のラベル名が取得可能な領域とする。縦書きの文章では上方や右方が前方のラベル名を取得可能な領域、下方もしくは左方を後方のラベル名が取得可能な領域とする。
このラベルが取得可能な領域の大きさは予め定まっており、表2に例示するようなテーブルとして有している。表2中のx1、y1、x2、y2はそれぞれ、領域の左上の頂点のx座標、左上の頂点のy座標、右下の頂点のx座標、右下の頂点のy座標を表しており、ラベルが取得可能な領域は記入領域から相対的に定義されている。また、ラベルが取得可能な領域は記入領域と重複する領域は含まれない。本実施形態1では矩形として取得可能な領域が定められている例を示したものであるが、矩形以外のどのような形でもよい。
また、アラビア語のように右から左に書くような言語では、前方と後方がこの例と反転して解釈するようにすることができる。このように言語によって取得可能な領域の定義が異なるため、言語毎に領域あるいはその解釈を定義したテーブルを有していることが好ましく、記入領域の周囲の文字列から言語を判別して利用するテーブルに切り替えることができる。本発明では、上記したように、言語毎に領域あるいはその解釈を定義したテーブルを有するようにしてもよいが、言語を、その取得可能な領域が同じ言語群毎に群として分類し、選択、抽出しやすいようにしておくこともできる。これにより選択、抽出にかかる占有時間を短くすることにより、システム内あるいは装置内の制御部がこれらの占有する時間を少なくできる。また全体のシステム(装置)内の占有時間をチェック等に割あてることができ、さらにパフォーマンスを上げることに資する。
また、例えば前方の領域に対して記入領域からの距離が異なる複数のラベルが取得可能領域が定義されているような場合、記入領域からの距離が近い順にラベルの探索を行なうことによって、精度が高くまたパフォーマンスのよいラベル探索が行うことができる。
Figure 2009238217
本実施形態1では、ラベル名を取得するときに、まず記入領域周囲の文字列の方向から記入領域が横書きであるか縦書きであるかを判別し、記入方向に応じたテーブルを選択して、ラベル名の取得可能な領域に関する大きさを取得する。次に、ラベル名の取得可能な領域を記入領域の辺の両端を延長した延長線を元の線分の長さの2倍に取り、これら延長した線分を3分割する。分割した領域を図4に示すように優先順位が高い順(図4では優先順の高い順番を数字で表した)に選び、そこに含まれる文字列を探索する。それらの領域内に文字列が発見された場合、その領域で探索を終了し、発見した文字列を記入領域のラベルと定義する。本発明の情報処理システム等において、このような手法を好ましく採用することができる。たとえば文書の上下判定(天地判定)の代表的なアルゴリズムとして、文書にOCRをかけることにより、OCR結果の文字方向から判定することなどを挙げることができる。またラベル名として、住所または居所の場合、このラベル名の欄には文字表記部分と数字表記の部分とが混じっている。このような場合、日本語表記での住所(居所)表記では、漢字などの文字表記部分と数字の部分とからなっており、それも文字表記部分が先にあり、次いで数字部分がこれに続く表記となっている。また英語などの住所(居所)表記の場合には数字部分が先にあり、次いで文字表記部分が続くものとなっている。これらのことから、住所(居所)が表記されているアルゴリズムとして、数字と文字表記の両方が混じっていることとなる。また逆に数字と文字表記の両方が混じっていると、ラベル名は、住所(居所)表示であると見做して、これをラベル名として取得することもできる。
[ラベル取得可能領域保持部16]
記入領域抽出部1内のラベル取得可能領域保持部16は、ラベル取得可能領域テーブル
を保持(保存)している部である。
[書式情報設定部14]
記入領域抽出部1内の書式情報設定部14は、ラベル名取得部15から、記入領域の座標と、取得した記入領域のラベル名と、記入領域と、ラベル名の相対位置関係と、書式情報テーブルとを、受け取る部である(図5のa8)。また受け取った書式情報テーブルを記入領域のラベル名と相対位置関係とによって検索を行い、記入領域の入力文字種や入力される値の制限を取得する部である。また書式情報設定部14は、記入領域の座標と、記入領域のラベル名と、取得した入力文字種と、入力値制限とを、記入領域定義一覧として通信部に送る部である(図5のa9)。
ラベルが書式情報テーブル内に存在しない場合、ラベルが取得可能な領域が定義されていてまだラベルの探索が行なわれていない領域を再探索することによってラベルの再取得を行なうという方法を採用することもできる。また、予め一つの記入領域に対し複数のラベルを抽出しておき、書式情報テーブル内にラベルが存在するものだけをラベルとして採用することもできる。
本実施形態1では、書式情報テーブル全体を取得し、書式情報設定部14で記入領域のラベル名と、記入領域と、ラベル名の相対位置関係とを検索する。これを通信部11を介して書式情報テーブル部22に対して検索クエリを送信し、検索結果だけ(検索情報に関する部分のみ)を取得する方式も可能である。
また、出力される記入領域定義一覧はたとえば以下のようなデータ構造になっている。
Figure 2009238217
以上説明した本発明の情報処理システムにおいて本実施形態1で説明した記入領域抽出部1(具体的にはこの部1内の通信部11)と、書式情報テーブル部2とは、バスを介して接続されていてもよく、あるいはLANなどの通信回線を介して接続されていても良い。たとえば図2に示す各ブロックは、通信回線を介して電気的に一体化されたシステムとして構成されていてもよく、また各ブロックがUSBなどの有線あるいは無線で接続され1つの装置(コンピュータを含む)として構成されていてもよい。
また記入領域抽出部(記入領域抽出アプリケーション部)1と、書式情報テーブル部2とが通信回線で接続され、その他の帳票入力部5、記入領域出力部4がそれぞれ前記した通信回線を介して接続されることもできる。あるいはこれらが記入領域抽出部1内に存在したり、あるいはこれらが書式情報テーブル部2内に存在したりなど、自在に接続しあって1つのシステムとして形成されていてもよい。また、記入領域抽出部(記入領域抽出アプリケーション部)1と、書式情報テーブル部2と帳票入力部5と、記入領域出力部4とが、1台の装置として存在していてもよい。さらに、図5に示す各部が動作するようにアプリケーションシステムとしてコンピュータ読取可能なプログラムであって、このプログラムをソートすることにより、1台のコンピュータを本発明の情報処理システムとして機能を発揮するようにすることもできる。あるいはコンピュータに記入領域抽出機能を有するプログラムをソートさせて記入領域抽出部を実現させ、書式情報テーブル部2と帳票入力部5と、記入領域出力部4とをネットワーク上に配したシステムとして構成することもできる。あるいは上記したように、記入領域抽出部(記入領域抽出アプリケーション部)1と、書式情報テーブル部2と帳票入力部5と、記入領域出力部4とが、1台の装置として機能するようなプログラムも本発明の一態様に含まれる。なお図5において、a3、a4およびa10において、a3をa3-1とa3-2に分け、a4をa4-1とa4-2に分け、a10を、a10-1〜a10-3に分けたのは、本発明の情報処理システム内で記入領域抽出部1と書式情報テーブル部2との情報のやり取りが6を介して行われる。このため、本発明の情報処理システムあるいは情報処理装置が1体不可分の1装置のような構成の場合には6としてバスが例えば選択され、上記a3、a4、a10で示されるように情報が送られることになっていてもよい。また、本発明の情報処理システムとして、記入領域抽出部(記入領域抽出アプリケーション部)1と、書式情報テーブル部2と帳票入力部5と、記入領域出力部4とが6としてネットワークを介して接続されるような別個独立して存在しているシステムの構成も可能である。この場合には、それぞれ分けられた、a3-1とa3-2などのように、枝番の「-1」などが付いた情報の流れの様に動作するようであってもよい。
(実施形態2)
システムの全体像
本実施形態2は、前記した実施形態1と異なる部分を中心にして、説明する。本実施形態2においても前記した実施形態1と同様に、ベクタの帳票ファイルを入力して取得する。
また前記した図1のS1〜S4までは同様であるので説明を省略する。
そして本実施形態2では、S4の後に、以下に説明するS5の動作を有している。
すなわち、S5では、S4において取得された記入領域の書式情報をユーザによって確認され、好ましくはユーザにより訂正情報が入力される動作を含む。このとき、ユーザによって入力された訂正内容によって、書式情報テーブルを学習(好ましくは強化学習)により更新する構成を含ませることができる。このようにして本実施形態2では、各記入領域に対してそのラベル名と入力文字種、入力値の制限などを含む書式情報を取得することができ、本発明の情報処理システムはこの情報を出力(好ましくはGUIを介してユーザに画像情報)として返すようにしている。
本実施形態2において、前記した実施形態1で用いられるシステムの構成(図2参照)に、図2と図7とを比較すれば判るように、新たに記入領域設定確認訂正部3が加わった構成となっている。
その他の部(記入領域抽出部(記入領域抽出アプリケーション部)1、書式情報テーブル部2、帳票入力部5、記入領域出力部4)は同様である。
システムの内部構成の違い
[記入領域確認設定部(記入領域確認設定アプリケーション部)3]
本発明の情報処理システムなどにおける第2の実施形態では、実施形態1に比較して、さらに、記入領域確認設定部3を有している。この記入領域確認設定部3は、以下に説明する通信部31と記入領域設定表示部32とを有して構成される。
[通信部32]
記入領域確認設定部3内の通信部32は、記入領域抽出部1から記入領域定義一覧を受け取り(図8のa11)、記入設定表示部31に送る(図8のa12)。
記入設定表示部31では領域設定修正情報が入力され、これを書式情報テーブル部2に送る。
ユーザにより修正された記入領域定義一覧の情報が記入設定表示部31を介して入力されるとこの情報を記入領域出力部に送る(図8のa13〜a15)。
[領域設定表示部31]
記入領域確認設定部3内の領域設定表示部31は、通信部32を介して記入領域抽出部1からの領域設定定義一覧を受け取り、ユーザに一覧を表示する(図8のa11〜a12)。
表示された一覧を見たユーザは、領域設定定義一覧の確認訂正を行う。
そしてこの領域設定を訂正した情報は領域設定表示部32を介して入力されると、通信部31に訂正情報が送られる(図8のa13)。本実施形態2では、この訂正情報は、ラベル名とその相対位置情報および入力文字種と入力値制限からなる。
ユーザが確認訂正の入力を完了すると、通信部31に訂正された領域設定定義一覧が送られる。
出力される記入領域定義一覧は以下のようなデータ構造になっている。基本的なデータ構造は表3と同様の構造である。
Figure 2009238217
ブロック間のフロー
ベクタの帳票ファイルが入力されてから記入領域設定確認アプリケーションに記入領域定義一覧を出力するまでのブロック間の情報のやり取りは実施形態1のブロック間のフローを示す図5のシーケンス図と同様であるので省略する。
また、ユーザが記入領域定義一覧の確認修正をするときの情報のやりとりは本実施形態2に採用された記入領域確認設定部3と、書式情報テーブル部2と、記入領域出力部5との間で行われるものであり、これを図8のシーケンス図に記す。
すなわち図1に示すS4において、システムは取得した記入領域のラベル名と位置情報を書式情報テーブルと比較することによって、記入領域に設定する記入領域の入力文字種や入力する値の制限等の情報を取得する。ここで書式情報テーブルは記入領域のラベル名、ラベル名の位置、記入領域の入力文字種、入力値の制限等の情報を有する。
次いで本実施形態2では、取得された記入領域の書式情報をユーザが確認し、場合によっては訂正が行われる。この訂正の情報が入力されるときに、ユーザによって入力された訂正内容を用いることによって、書式情報テーブルを、学習(好ましくは強化学習)により更新される。
以上により、各記入領域に対してそのラベル名と入力文字種、入力値の制限などを含む書式情報を取得することができ、本実施形態2の情報処理システム(情報処理装置)は、この情報を出力として返す(図8のa16、a17)。
より詳細には、記入領域確認設定部3内の通信部31は、記入領域抽出部1から記入領域定義一覧を受け取り(図8のa11)、記入設定表示部31に送る(図8のa12)。
そして領域設定表示部31は、通信部32を介して記入領域抽出部1からの領域設定定義一覧を受け取り、ユーザに一覧を表示する(図8のa12)。
表示された一覧を見たユーザは、領域設定定義一覧の確認訂正を行う。
そしてこの領域設定を訂正した情報は領域設定表示部32を介して入力されると、通信部31に訂正情報が送られる(図8のa13)。この訂正情報が記入領域接待確認情報部3から書式情報テーブル部2内に制御部22を介して入力されると(図8のa14)、制御部22は書式情報テーブル保持部21に送り(図8のa15)、書式情報テーブル保持部21に保持されている、ある書式情報テーブルを選択し、書式情報テーブルの更新を行う(図8のa15)。
以上により、各記入領域に対してそのラベル名と入力文字種、入力値の制限などを含む書式情報を取得することができ、本実施形態2の情報処理システム(情報処理装置)は、この情報を出力として返す(図8のa16、a17)。
上記した実施形態2においても、前記した実施形態1と同様に、図7に示す各ブロックが、バスを介して接続されていてもよく、あるいはLANなどの通信回線を介して接続されていてもよい。その他、図7に示す各ブロックが、実施形態1と同様に、プログラムを読み込んで機能するような発明であってもよい。あるいはプログラムを読み込んで、図5、図8に示すようなシーケンス図と同様に送信、受信を行うような情報処理方法を実行するプログラム(読取可能なCD、DVDなどを含むデジタル記録媒体に記録されたプログラムなど)も本発明に含まれる。
1 記入領域抽出部
2 書式情報テーブル部
3 記入領域設定確認訂正部
4 帳票入力部
5 記入領域出力部
6 バスまたは通信網
11 通信部
12 情報取得部
13 記入領域取得部
14 書式情報設定部
15 ラベル名取得部
16 ラベル取得可能領域保持部
21 制御部
22 書式情報テーブル保持部
31 通信部
32 領域設定表示部
特開2005−044256号公報 特開2003−323580号公報 特開2004−220340号公報

Claims (21)

  1. 帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理システムであって、
    前記帳票からファイル情報または画像情報により前記入力を行う入力手段と、
    入力された前記帳票の記入領域を抽出して取得する記入領域ラベル取得手段と、
    記入領域のラベル名を取得する領域として前記記入領域を相対座標で示したラベル名取得領域テーブルを有し、
    前記記入領域ラベル取得手段が帳票内の文字情報から前記ラベル名を取得する際に、前記ラベル名取得領域テーブルから、前記ラベル名を取得する領域の情報を取得して記入領域のラベル名を取得するラベル名取得手段と、
    前記取得したラベル名とそれに対応する記入領域の書式設定の情報を有する書式情報テーブルを保持する書式情報テーブル保持手段と、
    前記取得したラベル名から前記書式情報テーブルを探索して、前記ラベル名に対応する帳票の記入領域の書式設定を取得する記入領域書式取得手段と、
    取得した前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行う記入領域設定出力手段と、
    を有することを特徴とする情報処理システム。
  2. 帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理システムであって、
    前記帳票からファイル情報または画像情報により前記入力を行う入力手段と、
    前記入力部から受け取った前記帳票内の記入領域を抽出して取得する記入領域ラベル取得手段と、
    抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得するラベル名取得手段と、
    前記ラベル名に対応する記入領域の書式設定の情報を有する書式情報テーブルを保持する書式情報テーブル保持手段と、
    取得した前記ラベル名から前記書式情報テーブルを探索し、前記ラベル名に対応した記入領域の書式設定を取得する記入領域書式取得手段と、
    取得した前記記入領域と前記ラベル名と前記書式設定とを確認訂正入力を可能に表示する記入領域設定表示手段と、
    前記記入領域設定表示部からの前記確認訂正の入力情報に基づき前記書式情報テーブルの更新を行う書式情報テーブル更新手段と、
    確認訂正された前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行う記入領域設定出力手段と、
    を有することを特徴とする情報処理システム。
  3. 前記ラベル名取得領域テーブルは前記ラベル名の記入領域に対する位置関係毎にラベル名取得領域を有し、
    前記記入領域ラベル取得手段が前記位置関係毎のラベル名取得領域のそれぞれに対して記入領域のラベル名を取得し、
    記入領域書式取得手段が取得したこのラベル名と位置情報から書式情報テーブルを探索し、対応する記入領域の設定を取得することを特徴とする請求項1または2に記載の情報処理システム。
  4. 前記ラベル名取得領域テーブルはラベル名の言語毎にラベル名取得領域を有し、
    前記記入領域ラベル取得手段が前記ラベル名取得領域の各々に対し前記記入領域のラベル名を取得することを特徴とする請求項3に記載の情報処理システム。
  5. 前記記入領域ラベル取得手段が記入領域の周囲の文字列に対応するラベル名取得領域を取得して前記記入領域のラベル名を取得することを特徴とする請求項4に記載の情報処理システム。
  6. 前記ラベル名取得領域テーブルは縦書き、横書きの両方のラベル名取得領域を有し、
    前記記入領域ラベル取得部が記入領域の記載が縦書きか横書きかを判断して対応するラベル名取得領域から前記記入領域のラベル名を取得することを特徴とする請求項3から請求項5のいずれかに記載の情報処理システム。
  7. 前記書式情報テーブル更新手段がユーザから入力された訂正情報が前記書式情報テーブル内に存在しない場合に前記書式情報テーブルに前記訂正情報を追加して更新することを特徴とする請求項2から請求項6のいずれかに記載の情報処理システム。
  8. 前記ラベル名取得手段が複数のラベル名候補を発見した場合,ラベル名が書式情報テーブルに掲載されているかを探索し,書式情報テーブルに掲載されているラベル名候補を選択することを特徴とする請求項3から請求項7のいずれかに記載の情報処理システム。
  9. 前記書式情報テーブル更新手段がユーザからの訂正情報に教師あり学習を用いて前記書式情報テーブルの更新を行うことを特徴とする請求項2から請求項8のいずれかに記載の情報処理システム。
  10. 請求項1から請求項9のいずれか1項の情報処理システムを一体の装置として構成した情報処理装置。
  11. 帳票に記載する記入領域の周囲を分割し各分割した領域に含まれる文字情報の記載に基づいて縦書きか横書きかの記入方向を判別し、前記記入領域の記載内容を暗示する情報の検索のための優先順位を前記記入領域の周囲の分割した領域毎に決めて前記記入領域に記載する情報を暗示する関連情報を検索することを特徴とする情報処理方法。
  12. 帳票を入力し、前記帳票内の記入領域を抽出し、出力する情報処理方法であって、
    前記帳票から画像情報を入力し、
    読み取った前記帳票の記入領域を抽出し、
    抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得し、
    取得した前記ラベル名から書式情報テーブルを探索して前記ラベル名に対応する帳票の記入領域の書式設定の情報を取得し、
    取得した前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行うことを特徴とする情報処理方法。
  13. 帳票からの情報を入力し、前記帳票内の記入領域を抽出し、出力する情報処理方法であって、
    帳票からの情報を入力し、
    前記入力部から受け取った前記帳票内の記入領域を抽出し、
    抽出した前記記入領域内の文字または記号情報から前記帳票に記入する情報の内容を暗示するラベル名を取得し、
    取得した前記ラベル名から書式情報テーブルを探索して前記ラベル名に対応した記入領域の書式設定の情報を取得し、
    取得した前記記入領域と前記ラベル名と前記書式設定とを確認または訂正の入力を表示し、
    前記確認または訂正の入力情報に基づき前記書式情報テーブルの更新を行い、
    前記確認または訂正された前記記入領域と前記ラベル名と前記書式設定とを前記出力することを行うことを特徴とする情報処理方法。
  14. 前記帳票内の文字情報からラベル名を取得する際に、記入領域のラベル名を取得する領域として前記記入領域を相対座標で示したラベル名取得領域テーブルから前記ラベル名を取得可能な領域の情報を取得して前記記入領域のラベルを取得することを特徴とする請求項12または請求項13に記載の情報処理方法。
  15. 前記ラベル名取得領域テーブルはラベル名の記入領域に対する位置関係毎にラベル名取得領域を有する前記ラベル名取得領域のそれぞれに対して記入領域のラベル名を取得し、
    取得した各ラベル名と位置情報から書式情報テーブルを探索して対応する記入領域の設定を取得することを特徴とする請求項14に記載の情報処理方法。
  16. 前記ラベル名取得領域テーブルはラベル名の言語ごとにラベル名取得領域を有する前記ラベル名取得領域それぞれに対して記入領域のラベル名を取得することを特徴とする請求項14または15に記載の情報処理方法。
  17. 前記記入領域周囲の文字列の言語に対応するラベル名取得領域から記入領域のラベル名を取得することを特徴とする請求項16に記載の情報処理方法。
  18. 前記ラベル名取得領域テーブルが縦書きまたは横書き毎にラベル名取得領域を有する前記記入領域周囲の縦書きか横書きかを判断して対応するラベル名取得領域により前記記入領域のラベル名を取得することを特徴とする請求項14から請求項17のいずれかに記載の情報処理方法。
  19. 前記確認または訂正の入力情報に該当する訂正情報が書式情報テーブルから欠落している前記書式情報テーブルに前記訂正情報を追加することを特徴とする請求項12から請求項18のいずれかに記載の情報処理方法。
  20. 入力された前記訂正情報を教師あり学習を用いて前記書式情報テーブルの更新を行うことを特徴とする請求項12から請求項19のいずれかに記載の情報処理方法。
  21. 請求項11から請求項20のいずれかの情報処理方法を情報処理装置または情報処理システムに実行させるための読取可能なプログラム。
JP2009053865A 2008-03-06 2009-03-06 情報処理システム、情報処理装置、情報処理方法およびプログラム Expired - Fee Related JP5402099B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009053865A JP5402099B2 (ja) 2008-03-06 2009-03-06 情報処理システム、情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008057033 2008-03-06
JP2008057033 2008-03-06
JP2009053865A JP5402099B2 (ja) 2008-03-06 2009-03-06 情報処理システム、情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009238217A true JP2009238217A (ja) 2009-10-15
JP5402099B2 JP5402099B2 (ja) 2014-01-29

Family

ID=41053659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009053865A Expired - Fee Related JP5402099B2 (ja) 2008-03-06 2009-03-06 情報処理システム、情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US20090226090A1 (ja)
JP (1) JP5402099B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013509662A (ja) * 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 動的変動ネットワークを使用するシステムおよび方法
US9141691B2 (en) 2001-08-27 2015-09-22 Alexander GOERKE Method for automatically indexing documents
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
JP2020113054A (ja) * 2019-01-11 2020-07-27 京セラドキュメントソリューションズ株式会社 情報処理装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930447B2 (en) 2008-10-17 2011-04-19 International Business Machines Corporation Listing windows of active applications of computing devices sharing a keyboard based upon requests for attention
US10311114B2 (en) 2010-06-17 2019-06-04 Google Llc Displaying stylized text snippets with search engine results
US8724931B2 (en) * 2011-05-27 2014-05-13 Ebay Inc. Automated user information provision using images
US9858548B2 (en) 2011-10-18 2018-01-02 Dotloop, Llc Systems, methods and apparatus for form building
US8788930B2 (en) * 2012-03-07 2014-07-22 Ricoh Co., Ltd. Automatic identification of fields and labels in forms
US8792730B2 (en) * 2012-03-07 2014-07-29 Ricoh Co., Ltd. Classification and standardization of field images associated with a field in a form
US10826951B2 (en) 2013-02-11 2020-11-03 Dotloop, Llc Electronic content sharing
US9575622B1 (en) 2013-04-02 2017-02-21 Dotloop, Llc Systems and methods for electronic signature
US10552525B1 (en) * 2014-02-12 2020-02-04 Dotloop, Llc Systems, methods and apparatuses for automated form templating
US10176159B2 (en) * 2014-05-05 2019-01-08 Adobe Systems Incorporated Identify data types and locations of form fields entered by different previous users on different copies of a scanned document to generate an interactive form field
US10733364B1 (en) 2014-09-02 2020-08-04 Dotloop, Llc Simplified form interface system and method
US10270934B2 (en) * 2016-12-01 2019-04-23 Kyocera Document Solutions Inc. Image processing apparatus and image forming apparatus
CN110362802A (zh) * 2019-07-18 2019-10-22 中国工商银行股份有限公司 用于将单据信息录入系统的方法、装置、计算设备、介质
CN117436419B (zh) * 2023-12-12 2024-02-23 佳瑛科技有限公司 一种货物登记报表数据自动化更新的控制方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03179570A (ja) * 1989-07-10 1991-08-05 Hitachi Ltd 文書処理方式およびプログラム自動生成方法
JP2004220340A (ja) * 2003-01-15 2004-08-05 Fujitsu Ltd 帳票書式編集装置および帳票書式編集プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997026B2 (ja) * 1999-01-29 2007-10-24 キヤノン株式会社 フォーム編集方法及び装置及びコンピュータ読取り可能なプログラムが格納された記憶媒体
US6651217B1 (en) * 1999-09-01 2003-11-18 Microsoft Corporation System and method for populating forms with previously used data values
US6981028B1 (en) * 2000-04-28 2005-12-27 Obongo, Inc. Method and system of implementing recorded data for automating internet interactions
US7054509B2 (en) * 2000-10-21 2006-05-30 Cardiff Software, Inc. Determining form identification through the spatial relationship of input data
US6782144B2 (en) * 2001-03-12 2004-08-24 Multiscan Corp. Document scanner, system and method
JP2002324236A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
US20030028792A1 (en) * 2001-08-02 2003-02-06 International Business Machines Corportion System, method, and computer program product for automatically inputting user data into internet based electronic forms
US7469270B1 (en) * 2001-11-14 2008-12-23 At&T Intellectual Property I, L.P. Method, system, and apparatus for presenting forms and publishing form data
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US7660779B2 (en) * 2004-05-12 2010-02-09 Microsoft Corporation Intelligent autofill
KR100747879B1 (ko) * 2004-06-10 2007-08-08 캐논 가부시끼가이샤 화상 처리 장치, 제어 방법 및 기록 매체
US7333658B2 (en) * 2004-11-01 2008-02-19 International Business Machines Corporation Data verification using text messaging
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US20070168382A1 (en) * 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
JP5126541B2 (ja) * 2006-05-26 2013-01-23 日本電気株式会社 情報分類装置、情報分類方法、及び情報分類プログラム
GB0622863D0 (en) * 2006-11-16 2006-12-27 Ibm Automated generation of form definitions from hard-copy forms
JP4739309B2 (ja) * 2007-11-09 2011-08-03 株式会社リコー 情報処理装置、及び情報処理方法
US7992087B1 (en) * 2008-02-27 2011-08-02 Adobe Systems Incorporated Document mapped-object placement upon background change

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03179570A (ja) * 1989-07-10 1991-08-05 Hitachi Ltd 文書処理方式およびプログラム自動生成方法
JP2004220340A (ja) * 2003-01-15 2004-08-05 Fujitsu Ltd 帳票書式編集装置および帳票書式編集プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159584B2 (en) 2000-08-18 2015-10-13 Gannady Lapir Methods and systems of retrieving documents
US9141691B2 (en) 2001-08-27 2015-09-22 Alexander GOERKE Method for automatically indexing documents
JP2013509662A (ja) * 2009-11-02 2013-03-14 ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル 動的変動ネットワークを使用するシステムおよび方法
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
JP2020113054A (ja) * 2019-01-11 2020-07-27 京セラドキュメントソリューションズ株式会社 情報処理装置
JP7322407B2 (ja) 2019-01-11 2023-08-08 京セラドキュメントソリューションズ株式会社 情報処理装置

Also Published As

Publication number Publication date
JP5402099B2 (ja) 2014-01-29
US20090226090A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5402099B2 (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
US20210073531A1 (en) Multi-page document recognition in document capture
JP3425408B2 (ja) 文書読取装置
EP0539106B1 (en) Electronic information delivery system
US6697056B1 (en) Method and system for form recognition
US20080040655A1 (en) Table data processing method and apparatus
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
US20220222292A1 (en) Method and system for ideogram character analysis
JP2021152924A (ja) 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
JP2021043478A (ja) 情報処理装置、その制御方法及びプログラム
US20170132484A1 (en) Two Step Mathematical Expression Search
US10803233B2 (en) Method and system of extracting structured data from a document
US7716639B2 (en) Specification wizard
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2021028770A (ja) 情報処理装置及び表認識方法
US20160203133A1 (en) Systems and methods for indexing and linking electronic documents
JP2021012741A (ja) 画像処理装置、画像処理方法およびプログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
JP4280939B2 (ja) 位置面システム画像認識コンピューターソフトウェア
JPH0689330A (ja) 画像ファイリングシステム
JP2016189146A (ja) 文字認識装置、分類装置及び文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120228

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131014

LAPS Cancellation because of no payment of annual fees