JP7015706B2 - 計算機及び文書データの処理方法 - Google Patents

計算機及び文書データの処理方法 Download PDF

Info

Publication number
JP7015706B2
JP7015706B2 JP2018023162A JP2018023162A JP7015706B2 JP 7015706 B2 JP7015706 B2 JP 7015706B2 JP 2018023162 A JP2018023162 A JP 2018023162A JP 2018023162 A JP2018023162 A JP 2018023162A JP 7015706 B2 JP7015706 B2 JP 7015706B2
Authority
JP
Japan
Prior art keywords
variable
management information
document data
arithmetic unit
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018023162A
Other languages
English (en)
Other versions
JP2019139564A (ja
Inventor
賢吾 稲村
庸昂 堤
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2018023162A priority Critical patent/JP7015706B2/ja
Publication of JP2019139564A publication Critical patent/JP2019139564A/ja
Application granted granted Critical
Publication of JP7015706B2 publication Critical patent/JP7015706B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、テンプレートを用いて文書データを処理する計算機及び処理方法に関する。
近年、帳票等の文書を扱う業務では、計算機が電子化された文書(文書データ)の認識結果に基づいて自動的に業務処理を行うシステムが採用されている。当該システムは、文書データを用いた文字認識処理及び画像認識処理を実行することによって文書に記載された文字列及び画像を認識し、認識結果に基づいて記載内容の妥当性を判定する検定処理を実行する。記載内容が妥当である場合、システムは文書データの認識結果を用いた業務処理を自動的に実行する。記載内容が妥当でない場合には、ユーザが認識結果等を確認し、必要な作業を行う。
本明細書では、文書内の認識対象となる文字列及び画像をオブジェクトと記載する。また、本明細書では、文字認識処理及び画像認識処理を区別しない認識処理と記載する。
従来のシステムでは、認識処理の高速化及び認識精度の向上を実現するために、予め、オブジェクトの種別及びオブジェクトを認識する領域等を定義したテンプレートが用いられる。テンプレートが適切でない場合、システムは、文書に記載されたオブジェクトを認識できない。したがって、適切なテンプレートを保持することが重要となる。
テンプレートを管理する技術として特許文献1に記載の技術が知られている。特許文献1には、「帳票処理端末が帳票識別に失敗したとき、端末が業務センタに帳票の画像情報を送信する。業務センタの帳票識別辞書管理部は、識別失敗の原因分析を行い、帳票処理システムを運用しながら帳票識別辞書を更新し、更新情報を端末に送信する。」ことが記載されている。
従来のシステムは、オブジェクトの妥当性を判定するための辞書情報を保持し、テンプレート及び辞書情報に基づいて、内容及び位置等、認識されたオブジェクトが妥当であるか否かを判定する。少なくとも一つのオブジェクトが妥当でないと判定された場合、検定処理の結果は失敗と判定される。特許文献1に記載の技術を用いてテンプレートの管理を行う場合、テンプレートが更新される。
特開2012-103879号公報
印又はサインは手動で押印又は記載等が行われるため、位置の変動が大きい。そのため、テンプレートに設定された印又はサインを認識する領域の位置と、文書内の印又はサインの位置とのズレが大きい場合、検定処理の結果は失敗となり、テンプレートが更新される。テンプレートの更新では、前述の位置のズレを考慮して、印又はサインを認識する領域が拡大される。
オブジェクトを認識する領域が拡大された場合、誤ったオブジェクトが認識結果に含まれる可能性がある。例えば、社印をオブジェクトとして認識する領域が拡大された結果、社印の近くに押印された認印が認識される可能性がある。この場合、検定処理が正常に行われないため、誤った業務が実行される。したがって、業務効率を向上できない。
本発明は、前述の位置のズレを考慮した検定処理を実現し、業務効率を向上させることを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数のオブジェクトを含む文書データを処理する計算機であって、前記計算機は、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、文書データから取得するオブジェクトの種別及び当該オブジェクトを取得するための認識処理の対象領域である認識領域を定義したテンプレートを管理するためのテンプレート管理情報と、同一種類の文書データに含まれるオブジェクトであって、前記文書データ毎に位置が変動するオブジェクトである変動オブジェクトを取得するための認識処理の対象領域である変動領域を管理するための変動領域管理情報と、前記変動オブジェクトの位置に基づいて当該変動オブジェクトの妥当性を判定するための検定ルールを管理するための検定ルール管理情報と、を保持し、前記テンプレートに基づいて、前記文書データの認識領域に対して第一認識処理を実行し、前記第一認識処理によって認識されたオブジェクトに基づいて、前記文書データから取得された前記オブジェクトの妥当性を検定し、前記オブジェクトの妥当性がないと判定された場合、前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであるか否かを判定し、前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであると判定された場合、前記変動領域に対して第二認識処理を実行し、前記第二認識処理によって認識された変動オブジェクト及び当該変動オブジェクトの位置に対応する前記検定ルールに基づいて、前記変動オブジェクトの妥当性を検定し、前記検定の結果に基づいて、前記文書データを処理する。
本発明によれば、変動オブジェクトの定義情報及び位置ズレを考慮した検定ルールの情報を保持することによって、オブジェクトと認識範囲との間の位置ズレを考慮した検定処理を実現できる。これによって、業務効率を向上できる。
実施例1の計算機システムの構成の一例を示す図である。 実施例1のテンプレート管理情報のデータ構造の一例を示す図である。 実施例1の変動領域管理情報のデータ構造の一例を示す図である。 実施例1の検定ルール管理情報のデータ構造の一例を示す図である。 実施例1のテンプレート管理情報に格納されるテンプレートのイメージを示す図である。 実施例1の位置履歴管理情報のデータ構造の一例を示す図である。 実施例1の業務計算機が文書データに対して実行する処理を説明するフローチャートである。 実施例1の業務計算機が文書データに対して実行する処理を説明するフローチャートである。 実施例1の業務計算機が処理する文書データの一例を示す図である。 実施例1の業務計算機が実行するテンプレートの生成処理を説明するフローチャートである。 実施例1の業務計算機が表示する画面の一例を示す図である。 実施例1の業務計算機が実行する判定範囲設定処理を説明するフローチャートである。 実施例1の業務計算機が表示する画面の一例を示す図である。 実施例2の業務計算機が実行する判定範囲設定処理を説明するフローチャートである。 実施例2の業務計算機が表示する画面の一例を示す図である。
以下、本発明に係る実施例を添付図面を用いて説明する。各図において共通の構成については同一の参照符号が付されている。
図1は、実施例1の計算機システムの構成の一例を示す図である。
計算機システムは、業務計算機100及び複数の端末101から構成される。各端末101は、ネットワーク105を介して業務計算機100と接続する。
業務計算機100は、帳票等の業務処理で扱われる文書を用いて認識処理及び検定処理を実行する。業務計算機100は、検定処理の結果が「成功」である場合、認識結果に基づいて業務処理を実行する。検定処理の結果が「失敗」である場合、業務計算機100は、ユーザの手動による操作を促す情報を提示し、また、テンプレート生成処理を実行する。検定処理の結果が「失敗」である場合、ユーザが業務処理を実行し、又は、ユーザによって修正された情報に基づいて、業務計算機100が業務処理を実行する。
端末101は、文書の入力及び各種設定を行うための計算機である。端末101は、文書データを業務計算機100に送信する。なお、ユーザは、業務計算機100に直接又は業務計算機100を運用する管理者に、電子化される前の文書を提出してもよい。
業務計算機100及び端末101のハードウェア構成及びソフトウェア構成について説明する。
業務計算機100は、プロセッサ110、主記憶装置111、副記憶装置112、ネットワークインタフェース113、及びスキャン装置114を有する。各ハードウェアは、バスを介して接続される。
プロセッサ110は、主記憶装置111に格納されるプログラムを実行する。プロセッサ110がプログラムにしたがって処理を実行することによって、特定の機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ110がモジュールを実現するプログラムを実行していることを示す。
主記憶装置111は、DRAM(Dynamic Random Access Memory)等であり、プロセッサ110が実行するプログラム及びプログラムが使用する情報を格納する。また、主記憶装置111は、プログラムが使用するワークエリアを提供する。主記憶装置111に格納されるプログラムについては後述する。
副記憶装置112は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等であり、データを永続的に格納する。副記憶装置112に格納されるデータについては後述する。
ネットワークインタフェース113はネットワーク105を介して他の装置と接続するためのインタフェースである。スキャン装置114は、電子化される前の文書を読み込み、電子データを生成する。本明細書では、文書の電子データを文書データと記載する。
ここで、主記憶装置111に格納されるプログラム及び副記憶装置112に格納されるデータについて説明する。
主記憶装置111は、識別モジュール120、業務処理モジュール121、及びテンプレート生成モジュール122を実現するプログラムを格納する。
識別モジュール120は、文書データ及び後述するテンプレート管理情報130に格納されるテンプレートを用いて、文書の認識処理及び検定処理を実行する。業務処理モジュール121は、文書データの認識結果及び業務管理情報132に基づいて業務を実行する。本実施例は、実行される業務の種別に限定されない。テンプレート生成モジュール122は、テンプレートを生成し、また、テンプレートを更新する。
なお、業務計算機100が有する各モジュールについては、複数のモジュールを一つのモジュールにまとめてもよいし、一つのモジュールを機能毎に複数のモジュールに分けてもよい。
副記憶装置112は、テンプレート管理情報130、辞書管理情報131、業務管理情報132、変動領域管理情報133、検定ルール管理情報134、及び位置履歴管理情報135を格納する。
テンプレート管理情報130は、テンプレートを管理するための情報である。テンプレート管理情報130のデータ構造の詳細は図2を用いて説明する。後述するように、テンプレートには、オブジェクト及び文書上の認識処理の対象となる領域を指定する情報が含まれる。本明細書では、文書上の認識処理の対象となる領域を認識領域と記載する。
本実施例の少なくとも一つのテンプレートには変動オブジェクトに関する情報が含まれる。変動オブジェクトは、文書毎に、位置が大きく変動するオブジェクトを表す。
辞書管理情報131は、文字認識処理及び検定処理に使用される文字列辞書及び項目名辞書等を格納する。本実施例は、辞書管理情報131に格納される情報に限定されない。辞書管理情報131は公知のものであるため詳細な説明は省略する。
業務管理情報132は、業務処理モジュール121が業務処理に使用するデータを管理するための情報である。本実施例では、業務管理情報132に格納されるデータの種別及びデータ形式に限定されない。
変動領域管理情報133は、オブジェクトの位置のズレを考慮した認識処理の対象となる領域である変動領域を管理するための情報である。変動領域管理情報133のデータ構造の詳細は図3を用いて説明する。後述するように変動領域には、妥当性を判定するポリシが異なる複数の判定範囲が設定される。
検定ルール管理情報134は、変動オブジェクの妥当性を判定する場合に使用する検定ルールを管理するための情報である。検定ルール管理情報134のデータ構造の詳細は図4を用いて説明する。
位置履歴管理情報135は、変動領域管理情報133を用いた認識処理によって得られた変動オブジェクトの位置に関する情報の履歴を管理するための情報である。位置履歴管理情報135は、変動領域を設定する場合に用いられる。位置履歴管理情報135のデータ構造の詳細は図6を用いて説明する。
本実施例では、業務計算機100が業務処理モジュール121を有しているが、他の計算機が業務処理モジュール121を有してもよい。この場合、業務計算機100は、検定処理の結果が成功である場合、業務処理モジュール121を有する他の計算機に業務処理の実行を指示する。また、識別モジュール120及びテンプレート生成モジュール122についても別々の業務計算機100が有してもよい。
端末101は、プロセッサ150、主記憶装置151、ネットワークインタフェース152、入力装置153、及び出力装置154を有する。入力装置153は、キーボード、マウス、及びタッチパネル等、データを入力するための装置である。出力装置154は、ディスプレイ及びプリンタ等、データを出力するための装置である。なお、端末101の主記憶装置151には、オペレーティングシステム及びアプリケーションを実現するプログラムが格納され、プロセッサ150によって当該プログラムが実行される。
図2は、実施例1のテンプレート管理情報130のデータ構造の一例を示す図である。
テンプレート管理情報130は、テンプレートID201、種別202、オブジェクトID203、識別対象204、位置205、及び変動領域ID206から構成されるエントリを含む。一つのエントリが一つのテンプレートに対応する。
テンプレートID201は、テンプレートを一意に識別するための識別情報を格納するフィールドである。種別202は、テンプレートを使用する文書の種別を格納するフィールドである。
オブジェクトID203は、オブジェクトの識別情報を格納するフィールドである。なお、異なるテンプレートのオブジェクトID203に格納される識別情報は重複してもよい。一つのテンプレートには一つ以上のオブジェクトが設定される。
識別対象204は、オブジェクトの種別を格納するフィールドである。識別対象204には、例えば、「文字」及び「印」等が格納される。識別対象204が「文字」である場合、当該オブジェクトに対して文字認識処理が実行され、識別対象204が「印」である場合、当該オブジェクトに対して画像認識処理が実行される。
位置205は、認識領域を指定する情報を格納するフィールドである。本実施例では、認識領域は矩形領域として設定される。そのため、位置205には、矩形の対角線の両端の座標が格納される。なお、位置205には、紙面(文書)の左上を原点とする座標系の値が格納される。
変動領域ID206は、変動領域を一意に識別するための識別情報を格納するフィールドである。オブジェクトが変動オブジェクトでない場合、変動領域ID206は空欄となる。一方、オブジェクトが変動オブジェクトである場合、変動領域ID206には変動領域の識別情報が格納される。
図3は、実施例1の変動領域管理情報133のデータ構造の一例を示す図である。
変動領域管理情報133は、変動領域ID301、変動領域位置302、及び変動領域スコアデータ303から構成されるエントリを含む。一つのエントリが一つの変動領域に対応する。
変動領域ID301は、変動領域を一意に識別するための識別情報を格納するフィールドである。
変動領域位置302は、変動領域の位置を指定する情報を格納するフィールドである。本実施例では、変動領域は矩形領域として表される。変動領域位置302には、紙面(文書)の左上を原点とする座標系の値が格納される。
変動領域スコアデータ303は、変動領域内のスコアの分布を示すデータを格納するフィールドである。変動領域スコアデータ303には、例えば、DSM(Digital Elevation Model)データが格納される。DSMデータは、変動領域を一定のサイズのメッシュで分割し、各メッシュの中心にスコアを設定することによって生成できる。本実施例の変動領域スコアデータ303には、メッシュの中心の座標(u,v)及びスコア(hij)の組から構成されるデータがメッシュの数だけ格納される。なお、メッシュの中心の座標は、変動領域の左上を原点とする座標系を用いて表される。
図4は、実施例1の検定ルール管理情報134のデータ構造の一例を示す図である。
検定ルール管理情報134は、変動領域ID401、判定範囲402、及び検定ルール403から構成されるエントリを含む。一つのエントリが一つの変動領域に設定される検定ルールに対応する。
変動領域ID401は、変動領域を一意に識別するための識別情報を格納するフィールドである。
判定範囲402は、変動領域内に設定される判定領域の定義情報を格納するフィールドである。本実施例では、スコアの範囲が判定範囲の定義情報として格納される。
検定ルール403は、各判定範囲に設定される検定ルールを格納するフィールドである。検定ルール403には、条件式等が格納される。
本実施例の業務計算機100は、変動領域管理情報133及び検定ルール管理情報134は別々の情報として管理しているが、一つの情報として管理してもよい。
図5は、実施例1のテンプレート管理情報130に格納されるテンプレートのイメージを示す図である。
テンプレート500は、認識領域501、502、503、504、505を含む。各認識領域501、502、503、504、505は、位置205によって定義される。
認識領域501、502、503、504、505は、位置のズレが考慮されていない認識処理を行う領域である。認識領域504の近傍には変動領域511が設定される。変動領域511は変動領域位置302によって定義される。また、変動領域511内には、等高線型の判定範囲521、522、523、524、525、526が設定される。判定範囲521、522、523、524、525、526は、判定範囲402によって定義される。なお、図5に示す等高線型の判定領域は、変動領域スコアデータ303及び判定範囲402を用いて表現することができる。
図6は、実施例1の位置履歴管理情報135のデータ構造の一例を示す図である。
位置履歴管理情報135は、テンプレートID601、オブジェクトID602、及び位置履歴603から構成されるエントリを含む。一つのエントリが一つの変動オブジェクトの位置の履歴に対応する。
テンプレートID601は、テンプレートを一意に識別するための識別情報を格納するフィールドである。オブジェクトID602は、オブジェクトの識別情報を格納するフィールドである。
位置履歴603は、変動領域から取得された変動オブジェクトの位置の座標を格納するフィールドである。本実施例では、変動オブジェクトの重心の座標が格納される。なお、変動オブジェクトが文字列又は複雑な図形等の場合、文字列又は図形を包含する矩形領域の重心の座標を変動オブジェクトの位置の座標とする。
図7A及び図7Bは、実施例1の業務計算機100が文書データに対して実行する処理を説明するフローチャートである。図8は、実施例1の業務計算機100が処理する文書データの一例を示す図である。
業務計算機100は、文書データの入力を受け付ける(ステップS101)。なお、電子化される前の文書が入力された場合、業務計算機100は、スキャン装置114を用いて文書データを生成する。
次に、業務計算機100の識別モジュール120は、文書データの読取処理を実行する(ステップS102)。
具体的には、識別モジュール120は、テンプレート管理情報130からテンプレートを選択し、選択されたテンプレートに基づいて、各認識領域に対して認識処理を実行する。例えば、図5に示すテンプレートを用いて図8に示す文書データ800の読取処理を実行する場合、識別モジュール120は、認識領域501、502、503、504、505に対して認識処理を実行する。
次に、業務計算機100の識別モジュール120は、認識結果に基づいて、各オブジェクトの検定処理を実行する(ステップS103)。検定処理は公知の技術を用いればよいため詳細な説明は省略する。図8に示す文書データ800の場合、社印等に対応する印の位置が認識領域504からずれているため、検定結果が失敗となる可能性がある。
次に、業務計算機100の識別モジュール120は、検定結果が成功であるか否かを判定する(ステップS104)。
検定結果が成功であると判定された場合、業務計算機100の識別モジュール120は、業務処理モジュール121に自動業務処理の実行を指示する(ステップS105)。業務処理モジュール121は、認識結果及び業務管理情報132に基づいて、所定の業務を実行する。その後、業務計算機100は処理を終了する。
ステップS104において、検定結果が失敗であると判定された場合、業務計算機100の識別モジュール120は、妥当でないオブジェクトは変動オブジェクトのみであるか否かを判定する(ステップS106)。
変動オブジェクト以外に妥当でないオブジェクトが存在すると判定された場合、業務計算機100の識別モジュール120は、テンプレート生成モジュール122に新規テンプレートの追加処理の実行を指示する(ステップS110)。新規テンプレートの追加処理は、図9を用いて説明する新規テンプレートの生成処理と同一の処理である。
次に、業務計算機100の識別モジュール120は、手動による業務処理の実行を業務処理モジュール121に指示する(ステップS111)。業務計算機100は、その後、処理を終了する。
ステップS106において、妥当でないオブジェクトは変動オブジェクトのみであると判定された場合、業務計算機100の識別モジュール120は、変動オブジェクトの検定処理を実行する(ステップS107)。具体的には、以下のような処理が実行される。
(処理1)識別モジュール120は、テンプレート管理情報130を参照し、選択したテンプレートに対応するエントリに含まれる変動オブジェクトの行の変動領域ID206から変動領域の識別情報を取得する。また、識別モジュール120は、当該行の識別対象204からオブジェクトの種別を示す値を取得する。
(処理2)識別モジュール120は、変動領域管理情報133を参照して、変動領域ID301が取得した変動領域の識別情報に一致するエントリを検索する。識別モジュール120は、検索されたエントリの変動領域位置302から変動領域の位置を示す情報を取得する。識別モジュール120は、変動領域の位置を示す情報及びオブジェクトの種別を示す情報に基づいて、変動領域に対して認識処理を実行する。
(処理3)識別モジュール120は、認識処理によって得られたオブジェクトを包含する矩形領域を特定し、また、矩形領域の重心座標を算出する。識別モジュール120は、位置履歴管理情報135を参照し、テンプレートID601及びオブジェクトID602の値の組合せが、テンプレートの識別情報及びオブジェクトの識別情報の組合せに一致するエントリの位置履歴603に矩形領域の重心座標を登録する。図8に示す文書データ800の場合、印の画像の外形が矩形領域となり、また、印の中心が矩形領域の重心となる。
(処理4)識別モジュール120は、変動領域管理情報133から検索されたエントリの変動領域スコアデータ303に基づいて、矩形領域の重心のスコアを算出する。例えば、識別モジュール120は、メッシュの中心及び矩形領域の重心の距離を算出し、当該距離が最も短くなるメッシュのスコアを矩形領域の重心のスコアに決定する。
(処理5)識別モジュール120は、文字列又は画像の特徴量を算出する。本実施例では、基準となる文字列と文字認識処理で得られた文字列との類似度、又は、基準となる画像と画像認識処理で得られた画像との類似度が特徴量として算出される。
(処理6)識別モジュール120は、検定ルール管理情報134を参照して、変動領域ID401が取得した変動領域の識別情報に一致するエントリを検索する。識別モジュール120は、検索されたエントリの判定範囲402を参照し、(処理4)で決定されたスコアを含む判定範囲を特定し、当該判定範囲に対応する行の検定ルール403から判定範囲の検定ルールを取得する。
(処理7)識別モジュール120は、算出された特徴量及び取得された検定ルールに基づいて、変動オブジェクトが妥当であるか否かを判定する。すなわち、識別モジュール120は、条件式を満たすか否かを判定する。
(処理8)条件式を満たす場合、識別モジュール120は、オブジェクトは妥当であるものとして、成功を示す検定結果を出力する。一方、条件を満たさない場合、識別モジュール120は、オブジェクトは妥当でないものとして、失敗を示す検定結果を出力する。以上がステップS107の処理の説明である。
次に、業務計算機100の識別モジュール120は、テンプレート生成モジュール122に既存テンプレートの更新処理の実行を指示する(ステップS108)。
次に、業務計算機100の識別モジュール120は、検定結果が成功であるか否かを判定する(ステップS109)。
検定結果が失敗であると判定された場合、業務計算機100の識別モジュール120は、ステップS111に進む。
検定結果が成功であると判定された場合、業務計算機100の識別モジュール120は、ステップS105に進む。
図9は、実施例1の業務計算機100が実行するテンプレートの生成処理を説明するフローチャートである。図10は、実施例1の業務計算機100によって表示される画面の一例を示す図である。テンプレートの生成処理は、テンプレート生成モジュール122が実行する。
テンプレート生成モジュール122は、図10に示すような設定画面1000を表示する(ステップS201)。設定画面1000は、端末101の出力装置154に表示される。ここで、設定画面1000の構成及び操作方法について説明する。
設定画面1000は、文書データ操作欄1001、種別設定欄1002、オブジェクト設定欄1003、追加ボタン1004、及び登録ボタン1005を含む。
文書データ操作欄1001は、認識領域を設定するための欄である。ユーザは、文書データ操作欄1001に表示される文書データに対して、文字列又は画像等のオブジェクトを包含する矩形領域を指定することによって認識領域を設定できる。
種別設定欄1002は、テンプレートを使用する文書の種別を設定するための欄である。
オブジェクト設定欄1003は、オブジェクトの認識処理に必要な情報を設定するための欄である。オブジェクト設定欄1003は、オブジェクトID1011、識別対象1012、位置1013、フラグ1014、及びファイルID1015から構成されるエントリを含む。一つのエントリが一つのオブジェクトに対応する。
オブジェクトID1011は、オブジェクトの識別情報を格納するフィールドである。識別対象1012は、オブジェクトの種別を格納するフィールドである。位置1013は、認識領域の位置を指定する情報を格納するフィールドである。フラグ1014は、オブジェクトが変動オブジェクトであるか否かを示すフラグを設定するフィールドである。フラグ1014には、オブジェクトが変動オブジェクトであることを示す「ON」又はオブジェクトが変動オブジェクトでないことを示す「OFF」のいずれかが設定される。ファイルID1015は、後述する判定範囲設定処理に使用する位置履歴に対応するファイルの識別情報を設定するフィールドである。本実施例では、ファイルが予め存在するものとする。
追加ボタン1004は、オブジェクトに関する情報を追加するための操作ボタンである。本実施例では、ユーザが追加ボタン1004を操作した場合、文書データ操作欄1001に対する入力が有効化される。登録ボタン1005は、テンプレートを登録するための操作ボタンである。ユーザが登録ボタン1005を操作した場合、業務計算機100に登録要求が送信される。
ユーザは、テンプレートを設定する文書のサンプル文書データを入力する。入力されたサンプル文書データは文書データ操作欄1001に表示される。ユーザは、種別設定欄1002にテンプレートを使用する文書の種別を設定する。
ユーザは、追加ボタン1004を操作し、文書データ操作欄1001に表示される文書データに認識領域を一つ設定する。このとき、テンプレート生成モジュール122は、オブジェクトの識別情報を決定する。テンプレート生成モジュール122は、オブジェクト設定欄1003にエントリを追加し、追加されたエントリのオブジェクトID1011に決定されたオブジェクトの識別情報を設定し、位置1013に矩形領域の座標を設定し、また、フラグ1014に「OFF」を設定する。ユーザは、オブジェクト設定欄1003に追加されたエントリの識別対象1012に値を設定し、必要に応じて、フラグ1014に「ON」を設定する。設定したオブジェクトが変動オブジェクトである場合、ユーザは、追加されたエントリのファイルID1015に使用するファイルの識別情報を設定する。ユーザは、設定するオブジェクトの数だけ同様の操作を繰り返し実行する。なお、種別設定欄1002及びオブジェクト設定欄1003に設定された値は、主記憶装置111上に一時的に格納される。
ユーザは、全てのオブジェクトの設定が完了した場合、登録ボタン1005を操作する。以上が、設定画面1000の構成及び操作方法の説明である。図9の説明に戻る。
テンプレート生成モジュール122は、登録要求を受信したか否かを判定する(ステップS202)。
登録要求を受信していない場合、テンプレート生成モジュール122は、待ち状態に移行し、一定時間経過した後、ステップS202に戻る。
登録要求を受信した場合、テンプレート生成モジュール122は、新規テンプレートの設定情報をテンプレート管理情報130に登録する(ステップS203)。具体的には、以下のような処理が実行される。
(処理10)テンプレート生成モジュール122は、テンプレートの識別情報を決定する。テンプレート生成モジュール122は、テンプレート管理情報130にエントリを追加し、追加されたエントリのテンプレートID201に決定されたテンプレートの識別情報を設定し、また、種別202に種別設定欄1002に設定された値を設定する。
(処理11)テンプレート生成モジュール122は、追加されたエントリに、主記憶装置111に格納されるオブジェクト設定欄1003のエントリの数と同数の行を生成する。
(処理12)テンプレート生成モジュール122は、オブジェクト設定欄1003からエントリを一つ選択する。テンプレート生成モジュール122は、追加されたエントリの一つの行のオブジェクトID203、識別対象204、及び位置205に、選択されたエントリのオブジェクトID1011、識別対象1012、及び位置1013の値を設定する。選択されたエントリのフラグ1014が「ON」である場合、テンプレート生成モジュール122は、変動領域の識別情報を決定し、当該行の変動領域ID206に決定された変動領域の識別情報を設定する。さらに、テンプレート生成モジュール122は、位置履歴管理情報135にエントリを追加し、追加されたエントリのテンプレートID601に(処理10)で決定されたテンプレートの識別情報を設定し、オブジェクトID602及び位置履歴603に選択されたエントリのオブジェクトID1011の値及びファイルID1015に対応するファイルのデータを設定する。
テンプレート生成モジュール122は、オブジェクト設定欄1003に登録された全てのエントリに対して(処理12)を繰り返し実行する。以上がステップS203の処理の説明である。
次に、テンプレート生成モジュール122は、新規テンプレートに変動オブジェクトが含まれるか否かを判定する(ステップS204)。
新規テンプレートに変動オブジェクトが含まれないと判定された場合、テンプレート生成モジュール122は、テンプレートの生成処理を終了する。
新規テンプレートに変動オブジェクトが含まれると判定された場合、テンプレート生成モジュール122は、判定範囲設定処理を実行し(ステップS205)、その後、テンプレートの生成処理を終了する。判定範囲設定処理の詳細は図11を用いて説明する。
図11は、実施例1の業務計算機100が実行する判定範囲設定処理を説明するフローチャートである。図12は、実施例1の業務計算機100によって表示される画面の一例を示す図である。
まず、判定範囲設定処理における設定画面1000の表示について説明する。判定範囲設定処理の実行時には、設定画面1000の左側が一部変更される。具体的には、グラフ表示欄1201、判定範囲設定欄1202、設定ボタン1203、及び登録ボタン1204が表示される。
グラフ表示欄1201は、変動領域におけるスコアの分布を示すグラフを表示する欄である。なお、グラフの縦軸はオブジェクトの重心の数を表し、グラフの横軸はスコアを表す。
判定範囲設定欄1202は、判定範囲及び検定ルールを設定するための欄である。判定範囲設定欄1202は、判定範囲1211及び検定ルール1212から構成されるエントリを含む。一つのエントリが一つの判定範囲に対応する。判定範囲1211は、判定範囲を指定するスコアの範囲を格納するフィールドである。検定ルール1212は、妥当性を確認するための検定ルールを格納するフィールドである。
設定ボタン1203は、判定範囲設定欄1202にエントリを追加するための操作ボタンである。登録ボタン1204は、判定範囲の設定情報を登録するための操作ボタンである。
次に、判定範囲設定処理について説明する。まず、テンプレート生成モジュール122は、位置履歴管理情報135から位置履歴を取得する(ステップS301)。
具体的には、テンプレート生成モジュール122は、テンプレートID601及びオブジェクトID602の値の組合せが、テンプレートの識別情報及び変動オブジェクトの識別情報の組合せに一致するエントリを検索し、検索されたエントリの位置履歴603から位置履歴を取得する。
次に、テンプレート生成モジュール122は、クラスタリングを行って、オブジェクトの重心が分布する領域を特定する(ステップS302)。
次に、テンプレート生成モジュール122は、特定された領域を包含する変動領域を設定する(ステップS303)。本実施例では、特定された領域を包含する矩形領域が変動領域として設定される。
次に、テンプレート生成モジュール122は、変動領域にメッシュを設定し、各メッシュにスコアを設定する(ステップS304)。スコアの設定方法としては、数値標高モデル(Digital Elevation Model)データの生成方法と同様の方法を用いる。具体的には以下のような方法が考えられる。
テンプレート生成モジュール122は、変動領域を所定のサイズのブロックに分割する。ブロックのサイズは、メッシュのサイズ以下に設定されているものとする。
テンプレート生成モジュール122は、各ブロックに含まれるオブジェクトの重心の数をカウントする。ブロック内のオブジェクトの重心のカウント方法としては、ブロック内を所定の大きさの探索領域で走査する方法が考えられる。
テンプレート生成モジュール122は、オブジェクトの重心の数が最も多いブロックを基準にスコアを設定する。本明細書では、オブジェクトの重心の数が最も多いブロックを基準ブロックと記載する。
例えば、テンプレート生成モジュール122は、基準ブロックにスコアの最大値を設定する。スコアの最大値は予め設定されているものとする。さらに、テンプレート生成モジュール122は、基準ブロックに含まれるオブジェクトの重心の数、基準ブロック以外のブロックに含まれるオブジェクトの重心の数、及びブロック間の距離に基づいて、各ブロックに設定するスコアを算出する。テンプレート生成モジュール122は、ブロックのスコアを、当該ブロックに含まれるオブジェクトの重心のスコアとして設定する。
テンプレート生成モジュール122は、メッシュに含まれるオブジェクトの重心のスコアに基づいて、メッシュに設定するスコアを算出する。メッシュに複数のオブジェクトの重心が含まれる場合、メッシュの重心に最も近いオブジェクトの重心に設定されたスコアがメッシュのスコアとして設定される。
テンプレート生成モジュール122は、変動領域管理情報133にエントリを追加し、追加されたエントリの変動領域ID301に、ステップS203で決定された変動領域の識別情報を設定する。また、テンプレート生成モジュール122は、追加されたエントリの変動領域位置302に、ステップS303において設定された変動領域の対角線の座標を設定する。さらに、テンプレート生成モジュール122は、追加されたエントリの変動領域スコアデータ303に、前述の処理結果を設定する。以上がステップS304の処理の説明である。
次に、テンプレート生成モジュール122は、スコアの分布を提示する(ステップS305)。
具体的には、テンプレート生成モジュール122は、グラフ表示欄1201に、スコアの分布を示すグラフを表示する。この時点では、判定範囲設定欄1202にはエントリは存在しない。
ユーザは、設定ボタン1203を操作し、判定範囲設定欄1202にエントリを追加する。ユーザは、グラフを参照して、追加されたエントリの判定範囲1211に値を設定する。また、ユーザは、追加されたエントリの検定ルール1212に検定ルールを設定する。ユーザは、必要な数だけ判定範囲を設定した後、登録ボタン1204を操作する。
次に、テンプレート生成モジュール122は、判定範囲の登録要求を受け付けた場合、検定ルール管理情報134を更新する(ステップS306)。その後、テンプレート生成モジュール122は、判定範囲設定処理を終了する。
具体的には、テンプレート生成モジュール122は、検定ルール管理情報134にエントリを追加し、追加されたエントリの変動領域ID401に、ステップS203で決定された変動領域の識別情報を設定する。テンプレート生成モジュール122は、追加されたエントリに、判定範囲設定欄1202のエントリの数と同数の行を生成する。テンプレート生成モジュール122は、各行の判定範囲402に各エントリの判定範囲1211の値を設定し、また、各行の検定ルール403に各エントリの検定ルール1212の値を設定する。
なお、テンプレート生成モジュール122は、変動領域管理情報133及び検定ルール管理情報134に基づいて、図12に示すように、文書データ操作欄1001に変動領域及び判定範囲を表示してもよい。
ここで、テンプレート生成モジュール122が既存テンプレートの更新指示を受け付けた場合の処理について説明する。
テンプレート生成モジュール122は、既存テンプレートの更新指示を受け付けた場合、既存テンプレートに変動オブジェクトが含まれるか否かを判定する。
既存テンプレートに変動オブジェクトが含まれないと判定された場合、テンプレート生成モジュール122は、既存テンプレートを更新せずに処理を終了する。
既存テンプレートに変動オブジェクトが含まれると判定された場合、テンプレート生成モジュール122は、図11を用いて説明した判定範囲設定処理を実行する。
この場合、ステップS301からステップS304までの処理によって、新たな変動領域が設定され、また、スコアが設定される。テンプレート生成モジュール122は、変動領域管理情報133の既存のエントリの変動領域位置302及び変動領域スコアデータ303を更新する。また、ステップS305からステップS306の処理によって、新たな判定範囲及び新たな検定ルールを設定される。テンプレート生成モジュール122は、検定ルール管理情報134の既存のエントリを初期化し、新たな判定範囲の数だけ行を生成し、各行の判定範囲402及び検定ルール403に値を設定する。
以上で説明したように、業務計算機100は、認識領域から得られたオブジェクトを用いた検定処理において変動オブジェクトが妥当でないと判定された場合、変動領域管理情報133及び検定ルール管理情報134に基づいて、位置のズレを考慮した検定処理を実行する。したがって、オブジェクトの位置が認識領域からずれた文書データが入力された場合でも検定結果が成功となる。したがって、業務効率が向上する。
また、オブジェクトの位置が認識領域からずれた文書データが入力された場合、変動領域、判定範囲、及び検定ルールが変更される。一方、認識領域は変更されない。したがって、従来のような認識領域の拡大が発生しない。そのため、誤ったオブジェクトが認識される確率を低減できる。これによって、検定処理が正しく行われるため、業務効率が向上する。
実施例2では、判定範囲の設定方法が異なる。以下、実施例1との差異を中心に実施例2を説明する。
実施例2の計算機システムは実施例1と同一である。実施例2の業務計算機100及び端末101の装置構成は実施例1と同一である。実施例2の業務計算機100が保持するデータの構造は実施例1と同一である。実施例2の業務計算機100が文書データに対して実行する処理は実施例1と同一である。
実施例2では判定範囲設定処理が異なる。図13は、実施例2の業務計算機100が実行する判定範囲設定処理を説明するフローチャートである。図14は、実施例2の業務計算機100によって表示される画面の一例を示す図である。
まず、判定範囲設定処理における設定画面1000の表示について説明する。判定範囲設定処理の実行時には、設定画面1000の左側が一部変更される。具体的には、範囲数設定欄1401、倍率1402、判定範囲設定欄1202、設定ボタン1203、及び登録ボタン1204が表示される。
範囲数設定欄1401は、判定範囲の数を設定するための欄である。倍率1402は、基準の判定範囲に基づいて他の判定範囲を算出する場合に使用する値である。
実施例2では、ユーザは、範囲数設定欄1401及び倍率1402に値を設定し、また、文書データ操作欄1001に基準の判定範囲を設定し、設定ボタン1203を操作する。
次に、判定範囲設定処理について説明する。まず、テンプレート生成モジュール122は、基準の判定範囲の設定を受け付ける(ステップS401)。
テンプレート生成モジュール122は、主記憶装置111に、基準の判定範囲の重心の座標及び形状、並びに、範囲数設定欄1401及び倍率1402の値を格納する。
次にテンプレート生成モジュール122は、変数k及び変数nを初期化する(ステップS402)。ここで、変数kは倍率を表す変数であり、変数nは判定範囲の数を表す変数である。
具体的には、テンプレート生成モジュール122は、変数kに「1」に倍率1402の値を加算した値を設定し、変数nに「1」を設定する。
次に、テンプレート生成モジュール122は、ループ処理を開始する(ステップS403)。テンプレート生成モジュール122は、基準の判定範囲及び倍率に基づいて新たな判定範囲を生成し(ステップS404)、その後、変数k及び変数nを更新する(ステップS405)。
具体的には、テンプレート生成モジュール122は、基準の判定範囲の大きさをk倍することによって新たな判定範囲を生成する。また、テンプレート生成モジュール122は、変数kに倍率1402の値を加算し、変数nに「1」を加算する。本実施例では、基準の判定範囲に基づいて算出される判定範囲は、基準の判定範囲と相似関係にある。
次に、テンプレート生成モジュール122は、変数nの値が範囲数設定欄1401の値と同一であるか否かを判定する(ステップS406)。
変数nの値が範囲数設定欄1401の値と同一でないと判定された場合、テンプレート生成モジュール122は、ステップS403に戻り、同様の処理を実行する。
変数nの値が範囲数設定欄1401の値と同一であると判定された場合、テンプレート生成モジュール122は、変動領域を設定する(ステップS407)。
具体的には、テンプレート生成モジュール122は、全ての判定範囲を包含する矩形領域を変動領域として設定する。
次に、テンプレート生成モジュール122は、変動領域にメッシュを設定し、各メッシュにスコアを設定する(ステップS408)。具体的には、以下のような処理が実行される。
テンプレート生成モジュール122は、0からS_maxまでの範囲を、判定範囲の数で除算する。S_maxはスコアの最大値を表す。テンプレート生成モジュール122は、判定範囲の大きさが小さい順に、スコアが大きくなるようにスコアの範囲を割り当てる。
テンプレート生成モジュール122は、変動領域管理情報133にエントリを追加し、追加されたエントリの変動領域ID301に、ステップS203で決定された変動領域の識別情報を設定する。また、テンプレート生成モジュール122は、追加されたエントリの変動領域位置302に、ステップS407において設定された変動領域の対角線の座標を設定する。さらに、テンプレート生成モジュール122は、追加されたエントリの変動領域スコアデータ303に、前述の処理結果を設定する。以上がステップS408の処理の説明である。
実施例2では自動的にスコアの範囲が決定される。したがって、判定範囲設定欄1202には自動的にエントリが登録される。ユーザは、各エントリの検定ルール1212を設定し、登録ボタン1204を操作する。
次に、テンプレート生成モジュール122は、判定範囲の登録要求を受け付けた場合、検定ルール管理情報134を更新する(ステップS409)。その後、テンプレート生成モジュール122は、判定範囲設定処理を終了する。ステップS409の処理はステップS306の処理と同一である。
実施例2によれば、オブジェクトの重心に関する位置履歴が存在しない場合でも、ユーザに負担を与えることなく変動領域及び判定範囲を設定することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成及び処理手段等は、少なくとも一部をハードウェアを用いて実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納してもよい。
100 業務計算機
101 端末
105 ネットワーク
110、150 プロセッサ
111、151 主記憶装置
112 副記憶装置
113、152 ネットワークインタフェース
114 スキャン装置
120 識別モジュール
121 業務処理モジュール
122 テンプレート生成モジュール
130 テンプレート管理情報
131 辞書管理情報
132 業務管理情報
133 変動領域管理情報
134 検定ルール管理情報
135 位置履歴管理情報
153 入力装置
154 出力装置
500 テンプレート

Claims (10)

  1. 複数のオブジェクトを含む文書データを処理する計算機であって、
    前記計算機は、
    演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    文書データから取得するオブジェクトの種別及び当該オブジェクトを取得するための認識処理の対象領域である認識領域を定義したテンプレートを管理するためのテンプレート管理情報と、同一種類の文書データに含まれるオブジェクトであって、前記文書データ毎に位置が変動するオブジェクトである変動オブジェクトを取得するための認識処理の対象領域である変動領域を管理するための変動領域管理情報と、前記変動オブジェクトの位置に基づいて当該変動オブジェクトの妥当性を判定するための検定ルールを管理するための検定ルール管理情報と、を保持し、
    前記テンプレートに基づいて、前記文書データの認識領域に対して第一認識処理を実行し、
    前記第一認識処理によって認識されたオブジェクトに基づいて、前記文書データから取得された前記オブジェクトの妥当性を検定し、
    前記オブジェクトの妥当性がないと判定された場合、前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであるか否かを判定し、
    前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであると判定された場合、前記変動領域に対して第二認識処理を実行し、
    前記第二認識処理によって認識された変動オブジェクト及び当該変動オブジェクトの位置に対応する前記検定ルールに基づいて、前記変動オブジェクトの妥当性を検定し、
    前記検定の結果に基づいて、前記文書データを処理することを特徴とする計算機。
  2. 請求項1に記載の計算機であって、
    前記変動領域は、複数の判定範囲を含み、
    前記検定ルール管理情報は、前記複数の判定範囲の定義情報及び前記複数の判定範囲の各々に設定される前記検定ルールを対応づけて格納し、
    前記変動領域管理情報は、前記変動領域の位置を示す情報を含み、
    前記計算機は、
    前記変動領域管理情報に基づいて、前記変動領域に対する認識処理を実行することによって第一オブジェクトを取得し、
    前記第一オブジェクトを包含する矩形領域の重心が含まれる判定範囲を特定し、
    前記検定ルール管理情報を参照して、前記特定された判定範囲に設定される検定ルールを取得し、
    前記特定された判定範囲に対して設定される検定ルールに基づいて、前記第一オブジェクトの妥当性を検定することを特徴とする計算機。
  3. 請求項2に記載の計算機であって、
    前記変動領域から取得されたオブジェクトを包含する矩形領域の重心の座標を管理する位置履歴管理情報を保持し、
    前記位置履歴管理情報に基づいて、前記変動領域を設定し、
    前記矩形領域の重心の各々にスコアを設定し、
    前記スコア毎の前記矩形領域の重心の分布に基づいて、前記判定範囲の定義情報を設定し、
    前記判定範囲に対して前記検定ルールを設定し、
    前記検定ルール管理情報に、前記判定範囲の定義情報及び前記検定ルールを対応づけて登録することを特徴とする計算機。
  4. 請求項3に記載の計算機であって、
    前記第一オブジェクトを包含する矩形領域の重心及び前記位置履歴管理情報に基づいて、新たな変動領域を設定し、前記新たな変動領域を前記変動領域管理情報に登録し、
    前記新たな変動領域の新たな判定範囲を設定し、
    前記新たな判定範囲に対して新たな検定ルールを設定することを特徴とする計算機。
  5. 請求項2に記載の計算機であって、
    前記判定範囲の定義情報は、標高モデルデータとして管理されることを特徴とする計算機。
  6. 複数のオブジェクトを含む文書データを処理する計算機の文書データの処理方法であって、
    前記計算機は、
    演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続されるインタフェースを有し、
    文書データから取得するオブジェクトの種別及び当該オブジェクトを取得するための認識処理の対象領域である認識領域を定義したテンプレートを管理するためのテンプレート管理情報と、同一種類の文書データに含まれるオブジェクトであって、前記文書データ毎に位置が変動するオブジェクトである変動オブジェクトを取得するための認識処理の対象領域である変動領域を管理するための変動領域管理情報と、前記変動オブジェクトの位置に基づいて当該変動オブジェクトの妥当性を判定するための検定ルールを管理するための検定ルール管理情報と、を保持し、
    前記文書データの処理方法は、
    前記演算装置が、前記テンプレートに基づいて、前記文書データの認識領域に対して第一認識処理を実行する第1のステップと、
    前記演算装置が、前記第一認識処理によって認識されたオブジェクトに基づいて、前記文書データから取得された前記オブジェクトの妥当性を検定する第2のステップと、
    前記オブジェクトの妥当性がないと判定された場合、前記演算装置が、前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであるか否かを判定する第3のステップと、
    前記妥当性がないと判定されたオブジェクトが前記変動オブジェクトであると判定された場合、前記演算装置が、前記変動領域に対して第二認識処理を実行する第4のステップと、
    前記演算装置が、前記第二認識処理によって認識された変動オブジェクト及び当該変動オブジェクトの位置に対応する前記検定ルールに基づいて、前記変動オブジェクトの妥当性を検定する第5のステップと、
    前記演算装置が、前記検定の結果に基づいて、前記文書データを処理する第6のステップと、を含むことを特徴とする文書データの処理方法。
  7. 請求項6に記載の文書データの処理方法であって、
    前記変動領域は、複数の判定範囲を含み、
    前記検定ルール管理情報は、前記複数の判定範囲の定義情報及び前記複数の判定範囲の各々に設定される前記検定ルールを対応づけて格納し、
    前記変動領域管理情報は、前記変動領域の位置を示す情報を含み、
    前記第5のステップは、
    前記演算装置が、前記変動領域管理情報に基づいて、前記変動領域に対する認識処理を実行することによって第一オブジェクトを取得するステップと、
    前記演算装置が、前記第一オブジェクトを包含する矩形領域の重心が含まれる判定範囲を特定するステップと、
    前記演算装置が、前記検定ルール管理情報を参照して、前記特定された判定範囲に設定される検定ルールを取得するステップと、
    前記演算装置が、前記特定された判定範囲に対して設定される検定ルールに基づいて、前記第一オブジェクトの妥当性を検定するステップと、を含むことを特徴とする文書データの処理方法。
  8. 請求項7に記載の文書データの処理方法であって、
    前記計算機は、前記変動領域から取得されたオブジェクトを包含する矩形領域の重心の座標を管理する位置履歴管理情報を保持し、
    前記文書データの処理方法は、
    前記演算装置が、前記位置履歴管理情報に基づいて、前記変動領域を設定する第7のステップと、
    前記演算装置が、前記矩形領域の重心の各々にスコアを設定する第8のステップと、
    前記演算装置が、前記スコア毎の前記矩形領域の重心の分布に基づいて、前記判定範囲の定義情報を設定する第9のステップと、
    前記演算装置が、前記判定範囲に対して前記検定ルールを設定する第10のステップと、
    前記演算装置が、前記検定ルール管理情報に、前記判定範囲の定義情報及び前記検定ルールを対応づけて登録する第11のステップと、を含むことを特徴とする文書データの処理方法。
  9. 請求項8に記載の文書データの処理方法であって、
    前記第7のステップは、前記演算装置が、前記第一オブジェクトを包含する矩形領域の重心及び前記位置履歴管理情報に基づいて、新たな変動領域を設定し、前記新たな変動領域を前記変動領域管理情報に登録するステップを含み、
    前記第9のステップは、前記演算装置が、前記新たな変動領域の新たな判定範囲を設定するステップを含み、
    前記第10のステップは、前記演算装置が、前記新たな判定範囲に対して新たな検定ルールを設定するステップを含むことを特徴とする文書データの処理方法。
  10. 請求項7に記載の文書データの処理方法であって、
    前記判定範囲の定義情報は、標高モデルデータとして管理されることを特徴とする文書データの処理方法。
JP2018023162A 2018-02-13 2018-02-13 計算機及び文書データの処理方法 Active JP7015706B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018023162A JP7015706B2 (ja) 2018-02-13 2018-02-13 計算機及び文書データの処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018023162A JP7015706B2 (ja) 2018-02-13 2018-02-13 計算機及び文書データの処理方法

Publications (2)

Publication Number Publication Date
JP2019139564A JP2019139564A (ja) 2019-08-22
JP7015706B2 true JP7015706B2 (ja) 2022-02-03

Family

ID=67694334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023162A Active JP7015706B2 (ja) 2018-02-13 2018-02-13 計算機及び文書データの処理方法

Country Status (1)

Country Link
JP (1) JP7015706B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5500480B2 (ja) * 2010-06-24 2014-05-21 株式会社日立情報通信エンジニアリング 帳票認識装置及び帳票認識方法

Also Published As

Publication number Publication date
JP2019139564A (ja) 2019-08-22

Similar Documents

Publication Publication Date Title
JP4998220B2 (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
US20090226090A1 (en) Information processing system, information processing apparatus, information processing method, and storage medium
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US20210012138A1 (en) Image processing device, image processing method, and storage medium storing program
KR102694644B1 (ko) 텍스트 라인 추출
AU2022271364A1 (en) Facilitating identification of fillable regions in a form
JP6146209B2 (ja) 情報処理装置、文字認識方法、及びプログラム
JP2007272473A (ja) 文字認識装置、方法およびプログラム
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
EP2138959A1 (en) Word recognizing method and word recognizing program
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
JP7015706B2 (ja) 計算機及び文書データの処理方法
JP6931168B2 (ja) 情報処理装置、制御方法、プログラム
JP2020087112A (ja) 帳票処理装置および帳票処理方法
JP6550163B1 (ja) 文字認識装置、文字認識方法およびプログラム
JP2017111500A (ja) 文字認識装置及びプログラム
JP2017187931A (ja) 表データ変換方法、プログラム、画像読取装置
JP6641456B2 (ja) 計算機システム及びデータの分類方法
US11972208B2 (en) Information processing device and information processing method
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP3792759B2 (ja) 文字認識方法とその装置
WO2016170690A1 (ja) 入力制御プログラム、入力制御装置、入力制御方法、文字修正プログラム、文字修正装置、及び文字修正方法
JP2021152696A (ja) 情報処理装置及びプログラム
JP2019204363A (ja) 帳票処理装置及び帳票処理方法
JPWO2020044537A1 (ja) 画像照合装置、画像照合方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124