JP2024032608A

JP2024032608A - 文書管理システム、文書管理方法及び文書管理プログラム

Info

Publication number: JP2024032608A
Application number: JP2022136339A
Authority: JP
Inventors: 学長谷川; Manabu Hasegawa; 修一田中; Shuichi Tanaka; 忠義小坂; Tadayoshi Kosaka; 直樹古家; Naoki Furuya; 亮太鴨志田; Ryota Kamoshita; 康史下河邉; Yasushi Shimokawabe
Original assignee: Logisteed Ltd
Current assignee: Logisteed Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-12

Abstract

【課題】未知の文書のフォーマット情報の登録を支援する。【解決手段】文書管理システムであって、項目名に関する辞書情報と、項目値の候補となるテキストの複数の抽出条件を定義する定義情報と、項目名を第１の種類又は第２の種類に分類する項目名種類情報と、を保持し、辞書情報に基づいて、入力された文書から項目名を抽出し、複数の抽出条件に基づいて、項目値の候補のテキストを抽出し、項目名種類情報に基づいて、抽出された項目名が第２の種類の項目名である場合に、第１の種類の項目名の場合とは異なる判定方法によって、複数の抽出条件のいずれを採用するかを判定し、項目名の位置を示す情報と、採用された抽出条件に基づく項目値の候補のテキストの位置を示す情報とを含む文書フォーマット情報を生成する。【選択図】図８

Description

本発明は、帳票等の文書を管理する技術に関する。

文書から所望の項目の情報を抽出する技術として、例えば特開２０１９－９６２４８（特許文献１）に開示された技術がある。特許文献１には、「文書処理装置は、記憶装置に記憶されている属性情報付与プログラムを制御部としてのＣＰＵにおいて実行することにより、文書情報登録部、判定情報登録部、受付部、検索部及び表示制御部等として機能する。表示制御部は、文書データにおいて、検索部により検索された文字列を他の文字列と区別して表示するよう制御する。」及び「判定情報には、属性情報の種類に対応した書式情報であるフォーマット登録情報と、属性情報の種類に対応した文字列が含まれる。例えば、属性情報の種類である属性名「日付」に対して「○○年○月○日」、「○○／○／○」等の書式情報が判定情報として登録される。また、属性名「取引先名称」に対して「○○株式会社」、「○○Ｃｏ，Ｌｔｄ」、「○○（株）」、「（株）○○」等の書式情報が判定情報として登録される。また、属性名「金額」に対して「××円」、「￥××」、「××＄」等の書式情報が判定情報として登録される。また、属性名「文書種類」に対して「領収書」、「請求書」等の文字列が判定情報として登録される。つまり、判定情報として、属性情報の種類に対して、使用頻度の高い書式情報又は文字列を登録することができる。」と記載されている。

特開２０１９－９６２４８号公報

物流分野においては、物品の発注者とその物品の発送者のほか、その物品を輸送する事業者、貿易の場合には輸出入を行う事業者など、多くの関係者が物品の流通に関与することとなる。一般にはそれらの関係者間で物品の流通のためにやり取りされる文書のデータが標準化されていない。すなわち、それぞれの関係者は一般的な文書作成ソフトウェア等を使用して文書を作成するが、一般にはそれらの文書のフォーマットは統一されていない。

多様なフォーマットの文書から予め定められたデータ項目名（すなわちＫｅｙ）に対応する項目値（すなわちＶａｌｕｅ）を正しく抽出するため、各Ｋｅｙに対応付けるＶａｌｕｅの文書内の位置（例えば行、列等）の情報を含むフォーマットを登録しておく必要がある。しかし、多くの関係者が作成する文書には多様なフォーマットがあるため、そのフォーマットの登録を人手で行う場合には工数が多くなる。

上記の引用文献１には、例えば日付、会社名など、文書に含まれる文字列の書式を登録しておき、それに基づいて文書中の文字列の項目名（引用文献１では「属性名」）に対応する項目値を判定することが記載されている。しかし、一般に物流分野で使用される文書中には、例えば物品の個数を示すために数字のみを羅列した箇所など、文字列の書式に基づく判定が困難な場合がある。引用文献１には、このような場合の判定については記載されていない。

上記の課題の少なくとも一つを解決するため、本発明は、文書管理システムであって、
プロセッサと、記憶装置と、を有し、前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第１の種類及び第２の種類のいずれかに分類する項目名種類情報と、を保持し、前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、前記プロセッサは、前記辞書情報に基づいて、入力された文書から項目名を抽出し、前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出し、前記項目名種類情報に基づいて、前記抽出された項目名が前記第２の種類の項目名である場合に、前記抽出された項目名が前記第１の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定し、前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成することを特徴とする。

本発明の一態様によれば、多様なフォーマットの文書から情報を抽出するためのフォーマット情報の登録の工数を削減することができる。

前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。

本発明の実施例に係る文書管理システムの構成の一例を示すブロック図である。本発明の実施例に係る文書管理システムを実現するための計算機システムのハードウェア構成の一例を示すブロック図である。本発明の実施例に係る文書管理システムの構成の第１の例を示す機能ブロック図である。本発明の実施例に係る文書管理システムの構成の第２の例を示す機能ブロック図である。本発明の実施例に係る文書管理システムが、新規のフォーマットの文書を変換する処理の流れを示す説明図である。本発明の実施例に係る文書管理システムが、登録済みのフォーマットの文書を変換する処理の流れを示す説明図である。本発明の実施例に係る文書管理システムが実行する処理の全体を示すフローチャートである。本発明の実施例に係る文書管理システムがＫｅｙを抽出するために実行する処理を示すフローチャートである。本発明の実施例に係る文書管理システムがＶａｌｕｅを抽出するために実行する処理を示すフローチャートである。本発明の実施例に係る文書管理システムが最適結果を選択するために実行する処理を示すフローチャートである。本発明の実施例に係る文書管理システムが抽出したｔｓｖファイルを示す説明図である。本発明の実施例に係る文書管理システムの名寄せ辞書記憶部に保持される名寄せ辞書の説明図である。本発明の実施例に係る文書管理システムの定義ファイル記憶部に保持される定義ファイルの説明図である。本発明の実施例に係る文書管理システムのＫｅｙ種類記憶部に保持されるＫｅｙ種類情報の説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第１の具体例を示す説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第１の具体例を示す説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第１の具体例を示す説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第２の具体例を示す説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第２の具体例を示す説明図である。本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第２の具体例を示す説明図である。本発明の実施例に係る文書管理システムによって抽出されるＪＳＯＮファイルの説明図である。本発明の実施例に係る文書管理システムによって抽出されるフォーマットファイルの説明図である。本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。

以下、図面を参照しながら本発明の実施例について説明する。

図１は、本発明の実施例に係る文書管理システムの構成の一例を示すブロック図である。

文書管理システム１００は、例えば注文書又は請求書といった帳票の文書から所望の項目名及びそれに対応する項目値を抽出するなどの文書変換の機能を有するシステムである。

例えば、クライアント１１０は、自身が保持する文書１１２の変換要求を、Ｗｅｂブラウザ１１１のＧＵＩ（Graphical User Interface）を介して文書管理システム１００に送信する。ここで、クライアント１１０は、物品の流通の関係者のいずれか（例えば物品の発送元の事業者、輸送事業者等）である。文書１１２は、物品の流通に関する情報を含むものである。本実施例では主に文書１１２が発注書類（Purchase Order、ＰＯ）である例を説明するが、文書１１２がそれ以外のものであってもよい。文書１１２は、例えば、一般的な文書作成ソフトウェア又は表計算ソフトウェア等によって作成されたファイルである。

文書管理システム１００のＷｅｂサーバ１０１は、コンバータ１０２を含み、変換要求の対象の文書１１２を、そこから抽出された項目名（Ｋｅｙ）と項目値（Ｖａｌｕｅ）との組を含むファイルに変換して、その結果をクライアント１１０に応答する。本実施例では文書１１２がＪＳＯＮ（JavaScript Object Notation）形式のファイルに変換される例を示すが、それ以外の形式のファイルに変換されてもよい。

クライアント１１０は、文書管理システム１００によって変換されたファイルを確認して、誤り等があれば修正要求を送信する。文書管理システム１００は、修正要求に従ってファイルを修正してデータベース１０３に保管する。

図２は、本発明の実施例に係る文書管理システム１００を実現するための計算機システムのハードウェア構成の一例を示すブロック図である。

文書管理システム１００は、例えば計算機システム２００によって構成される。計算機システム２００は、プロセッサ２０１、メモリ（主記憶装置）２０２、補助記憶装置２０３、出力装置２０４、入力装置２０５、及び通信インタフェース（Ｉ／Ｆ）２０６を含む。上記構成要素は、バスによって互いに接続されている。メモリ２０２及び補助記憶装置２０３は記憶装置であり、プロセッサ２０１が使用するプログラム及びデータを格納している。

メモリ２０２は、例えば半導体メモリによって構成され、主に実行中のプログラム及びデータを保持するために利用される。プロセッサ２０１は、メモリ２０２に格納されているプログラムに従って、様々な処理を実行する。プロセッサ２０１がプログラムに従って動作することで、様々な機能部（図３Ａ、図３Ｂ等参照）が実現される。

補助記憶装置２０３は、例えばハードディスクドライブ又はソリッドステートドライブなどの大容量の記憶装置によって構成され、プログラム及びデータを長期間保持するために利用される。補助記憶装置２０３に保持されるデータの例は後述する。

プロセッサ２０１は、単一の処理ユニット又は複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。プロセッサ２０１は、１又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び／又は制御指示に基づき信号を操作する任意の装置として実装することができる。

補助記憶装置２０３に格納されたプログラム及びデータが起動時又は必要時にメモリ２０２にロードされ、プログラムをプロセッサ２０１が実行することによって、文書管理システム１００を構成する計算機システム２００の各種処理が実行される。したがって、以下の説明において文書管理システム１００によって実行される処理は、プロセッサ２０１がプログラムに従って実行する処理である。

入力装置２０５は、ユーザが文書管理システム１００に指示及び情報などを入力するためのハードウェアデバイスである。出力装置２０４は、入出力用の各種画像を提示するハードウェアデバイスであり、例えば、表示デバイス又は印刷デバイスである。通信Ｉ／Ｆ２０６は、ネットワークとの接続のためのインタフェースである。

なお、計算機システム２００は２以上のプロセッサ２０１を含んでもよい。また、文書管理システム１００の機能は、複数の計算機システム２００に実装することができる。その場合、複数の計算機システム２００はネットワークを介して通信する。例えば、文書管理システム１００の複数の機能の一部が一つの計算機システム２００に実装され、他の一部が他の計算機システムに実装されてもよい。

図３Ａは、本発明の実施例に係る文書管理システム１００の構成の第１の例を示す機能ブロック図である。

図３Ａの例では、文書管理システム１００の機能がサーバ装置３００によって、クライアント１１０の機能がクライアント装置３２０によって、それぞれ実現される。サーバ装置３００とクライアント装置３２０とはネットワーク３３０を介して通信する。

図３Ａに示す文書管理システム１００は、ネットワーク３３０を介して通信するサーバ装置３００及びクライアント装置３２０によって構成される。サーバ装置３００は、制御部３０１、通信部３０２、行／列／テキスト情報抽出部３０３、Ｋｅｙ抽出部３０４、Ｖａｌｕｅ抽出部３０５、フォーマット登録部３０６、判定部３０７、名寄せ辞書記憶部３０８、定義ファイル記憶部３０９、Ｋｅｙ種類記憶部３１０及びフォーマット記憶部３１１を有する。

制御部３０１は、通信部３０２～判定部３０７を制御する機能及びそれらの各部による名寄せ辞書記憶部３０８～フォーマット記憶部３１１へのアクセス等を制御する機能を有する。制御部３０１は、サーバ装置３００を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行することによって実現される。

通信部３０２は、ネットワーク３３０を介したクライアント装置３２０との通信の機能を有する。通信部３０２は、サーバ装置３００を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行し、通信Ｉ／Ｆ２０６を制御することによって実現される。

行／列／テキスト情報抽出部３０３～判定部３０７は、サーバ装置３００が文書管理システム１００としての機能を実現するための処理を実行する。これらの機能の詳細については後述する。行／列／テキスト情報抽出部３０３～判定部３０７は、サーバ装置３００を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行することによって実現される。すなわち、以下の説明において上記の各部が実行する処理は、実際にはプロセッサ２０１によって実行される。

名寄せ辞書記憶部３０８～フォーマット記憶部３１１は、図１のデータベース１０３に含まれ、補助記憶装置２０３の記憶領域によって実現される。これらの記憶部は、文書管理システム１００の機能を実現するために必要な情報を記憶する。これらの記憶部に記憶される情報については後述する。

クライアント装置３２０は、制御部３２１、通信部３２２、表示部３２３及び入力部３２４を有する。

制御部３２１は、通信部３２２～入力部３２４を制御する機能を有する。制御部３２１は、クライアント装置３２０を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行することによって実現される。

通信部３２２は、ネットワーク３３０を介したサーバ装置３００との通信の機能を有する。表示部３２３は、クライアント１１０のユーザに対して情報を表示する機能を有する。入力部３２４は、クライアント１１０のユーザからの情報の入力を受け付ける機能を有する。通信部３２２～入力部３２４は、クライアント装置３２０を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行し、それぞれ通信Ｉ／Ｆ２０６、出力装置２０４及び入力装置２０５を制御することによって実現される。

図３Ｂは、本発明の実施例に係る文書管理システム１００の構成の第２の例を示す機能ブロック図である。

図３Ｂの例は、行／列／テキスト情報抽出部３０３～判定部３０７がサーバ装置３００ではなくクライアント装置３２０に含まれる点を除いて、図３Ａの例と同様である。すなわち、図３Ｂの例では、文書管理システム１００の機能は、クライアント装置３２０の行／列／テキスト情報抽出部３０３～判定部３０７が必要に応じてサーバ装置３００内の情報を参照して処理を実行することによって実現される。行／列／テキスト情報抽出部３０３～判定部３０７は、クライアント装置３２０を実現する計算機システム２００において、プロセッサ２０１がメモリ２０２に格納されたプログラムを実行することによって実現される。

図４Ａは、本発明の実施例に係る文書管理システム１００が、新規の（すなわち未知の）フォーマットの文書を変換する処理の流れを示す説明図である。

図４Ａの例において、文書管理システム１００には、変換要求された文書４０１と、その文書の種類を示す文書種類４０２とが入力される。文書４０１は、例えば、一般的な文書作成ソフトウェア又は表計算ソフトウェア等によって作成されたファイルであり、図１の文書１１２に相当する。

文書管理システム１００の行／列／テキスト情報抽出部３０３は、文書４０１に含まれるテキストを、そのテキストが記載された当該文書中の行及び列と対応付けた情報を作成する。例えば、行／列／テキスト情報抽出部３０３は、文書４０１をｘｍｌ（Extensible Markup Language）形式のファイル４０３に変換し、さらにｔｓｖ（Tab-Separated Values）形式のファイル４０３に変換してもよい。なお、ここで抽出の対象となるテキストは、文書中に記載された文字列であり、記号等を含んでもよい。

次に、文書管理システム１００のＫｅｙ抽出部３０４及びＶａｌｕｅ抽出部３０５は、ｔｓｖファイル４０４から、Ｋｅｙとそれに対応するＶａｌｕｅとを抽出して、それらを対応付けるＪＳＯＮファイル４０５を生成する。また、フォーマット登録部３０６は、文書のフォーマットとして、文書４０１から各Ｋｅｙ及びそれぞれに対応するＶａｌｕｅを抽出する位置等を示すフォーマットファイル４０６を生成してフォーマット記憶部３１１に登録する。これらの処理の詳細は後述する。

なお、ｘｍｌ形式のファイル及びｔｓｖ形式のファイルへの変換は一例であり、文書４０１に含まれるテキストと、そのテキストが記載された当該文書中の行及び列とを対応付けた情報が得られれば、上記以外の形式のファイルに変換されてもよい。また、ＪＳＯＮファイルへの変換も一例であり、項目名（Ｋｅｙ）と項目値（Ｖａｌｕｅ）とを対応付ける情報が得られれば、上記以外の形式のファイルに変換されてもよい。

図４Ｂは、本発明の実施例に係る文書管理システム１００が、登録済みの（すなわち既知の）フォーマットの文書を変換する処理の流れを示す説明図である。

図４Ｂの例において、文書管理システム１００には、変換要求された文書４０１と、その文書４０１に対応するフォーマットファイル４０６が入力される。例えば、文書４０１がクライアント１１０から入力され、フォーマットファイル４０６はフォーマット記憶部３１１から読み出されてもよい。図４Ａの例と同様に、文書４０１は、ｘｍｌ形式のファイル４０３及びｔｓｖ形式のファイル４０４に変換される。文書管理システム１００は、フォーマットファイル４０６を参照して、ｔｓｖ形式のファイル４０４から、Ｋｅｙとそれに対応するＶａｌｕｅとを抽出して、それらを対応付けるＪＳＯＮファイル４０５を生成する。

次に、図４Ａに示したｔｓｖファイル４０４からＪＳＯＮファイル４０５及びフォーマットファイル４０６を生成する処理の詳細について、図５～図８等を参照して説明する。

図５は、本発明の実施例に係る文書管理システム１００が実行する処理の全体を示すフローチャートである。

最初に、Ｋｅｙ抽出部３０４が名寄せ辞書を参照してｔｓｖファイル４０４からＫｅｙを抽出する（ステップ５０１）。この処理の詳細は図６等を参照して後述する。次に、Ｖａｌｕｅ抽出部３０５が定義ファイルを参照してステップ５０１で抽出された各Ｋｅｙに対応するＶａｌｕｅを抽出する（ステップ５０２）。この処理の詳細は図７等を参照して後述する。ステップ５０１で抽出された全てのＫｅｙの各々について、ステップ５０２が実行される。

最後に、フォーマット登録部３０６が抽出された文書のフォーマットをフォーマット記憶部３１１に登録して（ステップ５０３）、処理が終了する。

図６は、本発明の実施例に係る文書管理システム１００がＫｅｙを抽出するために実行する処理を示すフローチャートである。

この処理は、図５のステップ５０１において実行される。最初に、Ｋｅｙ抽出部３０４は、ｔｓｖファイル４０４と名寄せ辞書記憶部３０８に記憶された名寄せ辞書とを参照して、ｔｓｖファイル４０４に含まれるテキストと名寄せ辞書に登録された単語とが一致するかを判定し（ステップ６０１）、一致する場合には当該テキストをＫｅｙとして特定し、当該テキストに対応する行番号及び列番号を当該Ｋｅｙの行番号及び列番号として決定する（ステップ６０２）。

Ｋｅｙ抽出部３０４は、ｔｓｖファイル４０４に含まれる全てのテキスト及び名寄せ辞書に登録された全ての単語を対象としてステップＳ６０１を実行し、一致する場合にはステップＳ６０２を実行する。

図７は、本発明の実施例に係る文書管理システム１００がＶａｌｕｅを抽出するために実行する処理を示すフローチャートである。

この処理は、図５のステップＳ５０２において実行される。最初に、Ｖａｌｕｅ抽出部３０５は、ｔｓｖファイル４０４と定義ファイル記憶部３０９に記憶された定義ファイルと抽出されたＫｅｙとを参照して、定義ファイルに記載されたＫｅｙとＶａｌｕｅとの間の差分行数及び差分列数に基づいて、ｔｓｖファイル４０４から、Ｋｅｙに対応するＶａｌｕｅを抽出する（ステップ７０１）。Ｖａｌｕｅ抽出部３０５は、定義ファイルに記載された全ての差分行、差分列パターンについて、ステップ７０１を実行する。定義ファイル及び差分行、差分列パターンの詳細については後述する。

次に、Ｖａｌｕｅ抽出部３０５は、最適結果選択を実行する（ステップ７０２）。この処理の詳細については図８等を参照して後述する。

図８は、本発明の実施例に係る文書管理システム１００が最適結果を選択するために実行する処理を示すフローチャートである。

この処理は、図７のステップＳ７０２において実行される。最初に、Ｖａｌｕｅ抽出部３０５は、抽出されたＫｅｙと、Ｋｅｙ種類記憶部３１０に記憶されたＫｅｙ種類情報と、を参照して、抽出されたＫｅｙの種類を判定する（ステップ８０１）。抽出されたＫｅｙが第１の種類のＫｅｙであると判定された場合、Ｖａｌｕｅ抽出部３０５は、第１の種類のＫｅｙに対応する定義ファイルを参照して、定義された差分行及び差分列に基づいてＶａｌｕｅの候補を抽出し、抽出したＶａｌｕｅの候補がフォーマット記憶部３１１に含まれるテキストの書式と一致するかを判定する（ステップ８０２）。

ここで、Ｖａｌｕｅ抽出部３０５は、定義ファイルによって定義された当該Ｋｅｙに対応する全ての差分行、差分列パターンについてＶａｌｕｅの候補を抽出して、抽出した各候補について、フォーマット記憶部３１１に含まれる当該Ｋｅｙに対応する全てのテキストの書式の各々との一致を判定する。

その後、Ｖａｌｕｅ抽出部３０５は、フォーマット記憶部３１１に登録されたテキストの書式に一致するＶａｌｕｅを含む差分行、差分列パターンを採用する（ステップ８０３）。

一方、ステップ８０１において、抽出されたＫｅｙが第２の種類のＫｅｙであると判定された場合、Ｖａｌｕｅ抽出部３０５は、第２の種類のＫｅｙに対応する定義ファイルを参照して、定義された差分行及び差分列に基づいてＶａｌｕｅの候補を抽出し、抽出したＶａｌｕｅの候補の数をカウントする（ステップ８０４）。ここで、Ｖａｌｕｅ抽出部３０５は、定義ファイルによって定義された当該Ｋｅｙに対応する全ての差分行、差分列パターンについてＶａｌｕｅの候補を抽出して、差分行、差分列パターンごとに、抽出したＶａｌｕｅの候補の数をカウントする。

その後、Ｖａｌｕｅ抽出部３０５は、抽出したＶａｌｕｅの候補の数が多い（例えば最多の）差分行、差分列パターンを採用する（ステップ８０５）。

図９は、本発明の実施例に係る文書管理システム１００が抽出したｔｓｖファイル４０４を示す説明図である。

図９には、文書４０１が注文書である場合に抽出されるｔｓｖファイル４０４の一例を示す。ｔｓｖファイル４０４には、文書４０１から抽出されたテキストと、そのテキストを含む行の位置を示す行番号と、そのテキストを含む列の位置を示す列番号と、を対応付ける情報が含まれる。図９の例は、文書４０１の第４行の第５列に、「ＰＵＲＣＨＡＳＥＯＲＤＥＲ」というテキストが記載されていることを示す。同様に、各行及び各列から抽出されたテキストが行番号及び列番号とともにｔｓｖファイル４０４に登録される。

図１０は、本発明の実施例に係る文書管理システム１００の名寄せ辞書記憶部３０８に保持される名寄せ辞書の説明図である。

図１０に示す名寄せ辞書１０００は、複数の行を含み、各行は同じ意味で使われる複数のテキストをカンマで区切って羅列したものである。例えば、図１０の例では、第１行に「ｄａｔｅ」、「ＤＡＴＥ」、「Ｄａｔｅ」、「Ｄａｔｅ：」及び「ＤＡＴＥ：」の５つのテキストが含まれる。これらは、いずれも、文書中に日付を示す情報が含まれる場合に、日付そのものを示す項目値（Ｖａｌｕｅ）に対応して、その項目値が日付を示す値であることを明示するための項目名（Ｋｅｙ）として文書中に記載されることがあるテキストである。この例において、行の先頭のテキスト（第１行の例では、第１列の「ｄａｔｅ」）は、後述する定義ファイル等で標準データ項目として使用されるテキストである。

同様に、名寄せ辞書１０００には、注文書番号を示す「ｐｏｎｕｍｂｅｒ」、「ＰＯ＃」及び「Ｐ．Ｏ．ＮＵＭＢＥＲ」といったテキスト、販売者を示す「ｖｅｎｄｏｒ」、「ＶＥＮＤＯＲ」及び「ＢＩＬＬＴＯ」といったテキスト、発送先を示す「ｓｈｉｐｔｏ」、「ＳＨＩＰＴＯ」及び「ＤｅｌｉｖｅｒＴｏ」といったテキスト等、文書中にＫｅｙとして記載されることがあるテキストが、意味ごとにまとめて登録される。

ここで、文書管理システム１００が図１０に示すような名寄せ辞書１０００を保持し、図９に示すようなｔｓｖファイル４０４を抽出した場合に図６のステップ６０１で実行される処理の例を説明する。Ｋｅｙ抽出部３０４は、ｔｓｖファイル４０４に含まれる第４行第５列のテキスト「ＰＵＲＣＨＡＳＥＯＲＤＥＲ」が名寄せ辞書１０００の第２行に登録されていることから、「ＰＵＲＣＨＡＳＥＯＲＤＥＲ」をＫｅｙの一つとして抽出する。同様に、第６行第７列の「ＤＡＴＥ」、第７行第７列の「ＰＯ＃」、第２５行第４列の「ＩＴＥＭ＃」、第２５行第５列の「Ｄｅｓｃｒｉｐｔｉｏｎ」、第２５行第７列の「Ｑｕａｎｔｉｔｙ」、第２５行第８列の「ＵｎｉｔＰｒｉｃｅ」及び第２５行第９列の「Ａｍｏｕｎｔ」等がＫｅｙとして抽出される。

図１１は、本発明の実施例に係る文書管理システム１００の定義ファイル記憶部３０９に保持される定義ファイルの説明図である。

図１１に示す定義ファイル１１００は、文書中のＫｅｙが記載された位置とそれに対応するＶａｌｕｅが記載された位置との関係を示す情報を含む。図１１の例では、Ｋｅｙの位置とＶａｌｕｅの位置との関係が、それぞれの行番号と列番号の差分によって表現される。

図１１には、文書中に「ヘッダ（ｈｅａｄｅｒ）」及び「ベンダー（ｖｅｎｄｏｒ）」といった項目があり、「ヘッダ（ｈｅａｄｅｒ）」の下にはさらにそれを詳細化した「日付（ｄａｔｅ）」及び「注文書番号（ｐｏｎｕｍｂｅｒ）」といった項目がある場合の定義ファイル１１００の例を示す。ここでは便宜上、前者の項目を大項目、後者の詳細化した項目を小項目と記載する。この例では、定義ファイル１１００の第１行は、大項目のＫｅｙである「ｈｅａｄｅｒ」を示し、第２行は、小項目のＫｅｙである「ｄａｔｅ」を示す。第３行の「ｄｉｃｔｉｏｎａｒｙ：１」は、当該Ｋｅｙ「ｄａｔｅ」が名寄せ辞書１０００の１行目に記載されていることを示す。第４行の「ｍｕｌｔｉｌｉｎｅ：ｆａｌｓｅ」は、当該Ｋｅｙに対応するＶａｌｕｅが一つのみあるという定義を示す。第５行の「ｓｈｉｆｔ＿ｒｏｗ：０」は、Ｋｅｙである「ｄａｔｅ」に対応するＶａｌｕｅが当該Ｋｅｙと同じ行に記載されているという定義を示す。第６行の「ｓｈｉｆｔ＿ｃｏｌ：１」は、Ｋｅｙである「ｄａｔｅ」に対応するＶａｌｕｅが当該Ｋｅｙの一つ右隣りの列に記載されているという定義を示す。

なお、上記の例は差分行及び差分列のパターンの一つ（例えば差分行、差分列パターン１）であり、定義ファイル１１００は他のパターンを含んでもよい。例えば、定義ファイル１１００は、Ｋｅｙである「ｄａｔｅ」に対応するＶａｌｕｅが当該Ｋｅｙと同じ列の一つ下の行に記載されているという定義を含む差分行、差分列パターン２、及び、Ｋｅｙである「ｄａｔｅ」に対応するＶａｌｕｅが当該Ｋｅｙの一つ下の行の一つ右隣りの列に記載されているという差分行、差分列パターン３を含んでもよい。前者は「ｓｈｉｆｔ＿ｒｏｗ：１」及び「ｓｈｉｆｔ＿ｃｏｌ：０」によって定義され、後者は「ｓｈｉｆｔ＿ｒｏｗ：１」及び「ｓｈｉｆｔ＿ｃｏｌ：１」によって定義される。

他のＫｅｙについても同様に１以上の差分行、差分列パターンが定義される。ここで、例えば商品等の数量を示す「Ｑｕａｎｔｉｔｙ」（標準データ項目は「ｑｔｙ」）のように、一つのＫｅｙに対応して複数のＶａｌｕｅが文書中に記載される場合があるものについては、「ｍｕｌｔｉｌｉｎｅ：ｔｒｕｅ」と定義される。

図１２は、本発明の実施例に係る文書管理システム１００のＫｅｙ種類記憶部３１０に保持されるＫｅｙ種類情報の説明図である。

図１２に示すＫｅｙ種類情報１２００は、Ｋｅｙ１２０１及びＫｅｙ種類１２０２を含む。Ｋｅｙ１２０１は、文書から抽出されるＫｅｙのテキスト（又はそれに対応する標準データ項目）である。Ｋｅｙ種類１２０２は、各Ｋｅｙの種類を示す。本実施例では、Ｋｅｙの種類として、第１の種類及び第２の種類が定義される。

第１の種類のＫｅｙは、Ｋｅｙに対応するＶａｌｕｅのテキストが何らかの書式を有するものである。例えば、日付を示すＫｅｙである「Ｄａｔｅ」に対応するＶａｌｕｅは、一般に、ｙｙｙｙ／ｍｍ／ｄｄ、又は、Ｍｏｎｔｈｄｄ，ｙｙｙｙといった書式のテキストで記載される。このため、Ｖａｌｕｅの候補として抽出されたテキストが予め登録されたテキストの書式と整合するか否かによって、そのテキストがＫｅｙに対応するＶａｌｕｅであるかを判定することができる。

一方、第２の種類のＫｅｙは、例えば単なる数字など、それに対応するＶａｌｕｅが特定の書式を持たないものである。例えば、注文書に記載された商品の数量、単価等がこれに該当する。例えば数量として数字のみが記載されていれば、それが数量を示すＫｅｙである「Ｑｕａｎｔｉｔｙ」に対応するＶａｌｕｅであるのか、単価を示すＫｅｙである「ＵｎｉｔＰｒｉｃｅ」に対応するＶａｌｕｅであるのか、その数字のみに基づいて判定することは困難である。また、一般には、このような種類のＫｅｙにおいては、対応するＶａｌｕｅが複数記載されている場合がある。例えば、一つの注文書で複数の商品が発注される場合には、Ｋｅｙ「Ｑｕａｎｔｉｔｙ」に対応するＶａｌｕｅとして、各々が各商品の発注数量を示す複数の数字が、例えば複数行又は複数列にわたって記載される。

ここで、図８の処理の具体例を説明する。

図１３Ａ～図１３Ｃは、本発明の実施例に係る文書管理システム１００が実行する最適結果選択処理の第１の具体例を示す説明図である。

これは、図８のステップ８０１において、抽出されたＫｅｙが第１の種類のＫｅｙであると判定された場合の処理の具体例である。この例では、図１３Ａに示すように、文書４０１が注文書（ＰｕｒｃｈａｓｅＯｒｄｅｒ）であり、文書４０１中のある行のある列にテキスト「ＤＡＴＥ」が、その行の一つ右の列にテキスト「２０２２／２／４」が記載されている。また、テキスト「ＤＡＴＥ」が記載された行の一つ下の行の、テキスト「ＤＡＴＥ」と同じ列に、テキスト「ＰＯ＃」が記載され、その行の一つ右の列にテキスト「１１００００」が記載されている。この文書４０１において、本来は、Ｋｅｙ「ＤＡＴＥ」に対応するＶａｌｕｅが「２０２２／２／４」であり、Ｋｅｙ「ＰＯ＃」に対応するＶａｌｕｅが「１１００００」であるが、図８の処理が実行される時点では当該文書４０１のフォーマットが未知であるため、上記の対応関係は未知である。

図１３Ｂに示す定義ファイル１３１０には、Ｋｅｙ「ＤＡＴＥ」に関する三つの差分行、差分列パターンが含まれる。これは、図１１に示した定義ファイル１１００の一部であってもよい。差分行、差分列パターン１は、Ｋｅｙと同一の行の、Ｋｅｙの一つ右の列にＶａｌｕｅが記載されていることを定義する。この定義に従って図１３Ａの文書４０１から抽出されるＶａｌｕｅ候補は「２０２２／２／４」である。差分行、差分列パターン２は、Ｋｅｙの一つ下の行の、Ｋｅｙと同一の列にＶａｌｕｅが記載されていることを定義する。この定義に従って図１３Ａの文書４０１から抽出されるＶａｌｕｅ候補は「ＰＯ＃」である。差分行、差分列パターン３は、Ｋｅｙの一つ下の行の、Ｋｅｙの一つ右の列にＶａｌｕｅが記載されていることを定義する。この定義に従って図１３Ａの文書４０１から抽出されるＶａｌｕｅ候補は「１１００００」である。

図８のステップ８０２において、Ｖａｌｕｅ抽出部３０５は、抽出された各Ｖａｌｕｅ候補と予め登録されたテキストの書式との一致を判定する。例えば、Ｋｅｙ「ＤＡＴＥ」に対応するＶａｌｕｅのテキストの書式として、「Ｍｏｎｔｈｄｄ，ｙｙｙｙ」、「ｙｙｙｙ／ｍｍ／ｄｄ」及び「ｍｍ／ｄｄ／ｙｙ」といった書式が登録されている場合、Ｖａｌｕｅ抽出部３０５は、各差分行、差分列パターンに基づいて抽出されたＶａｌｕｅ候補がそれぞれの書式と一致するかを判定する。

その結果、図１３Ｃに示すように、差分行、差分列パターン１に基づいて抽出されたＶａｌｕｅ候補「２０２２／２／４」がテキストの書式「ｙｙｙｙ／ｍｍ／ｄｄ」と一致する。このため、ステップ８０３において、Ｖａｌｕｅ抽出部３０５は、当該文書４０１のＫｅｙ「ＤＡＴＥ」に関する差分行、差分列パターンとして、差分行、差分列パターン１を採用する。

図１４Ａ～図１４Ｃは、本発明の実施例に係る文書管理システム１００が実行する最適結果選択処理の第２の具体例を示す説明図である。

これは、図８のステップ８０１において、抽出されたＫｅｙが第２の種類のＫｅｙであると判定された場合の処理の具体例である。この例では、図１４Ａに示すように、文書４０１中のある行にテキスト「Ｄｅｓｃｒｉｐｔｉｏｎ」、「Ｑｕａｎｔｉｔｙ」、「Ｕｎｉｔｐｒｉｃｅ」及び「Ａｍｏｕｎｔ」が記載されている。「Ｄｅｓｃｒｉｐｔｉｏｎ」と同じ列の下の行には、「ＰｒｏｄｕｃｔＡ」、「ＰｒｏｄｕｃｔＢ」及び「ＰｒｏｄｕｃｔＣ」が記載されている。「Ｑｕａｎｔｉｔｙ」と同じ列の下の行には、「（ＳＥＴＳ．）」、「１００」、「５０」及び「５００」が記載されている。「Ｕｎｉｔｐｒｉｃｅ」と同じ列の下の行には、「（ＵＳＤ）」、「１００」、「／ＳＥＴ」、「１５０」、「／ＳＥＴ」、「１０」及び「／ＳＥＴ」が記載されている。「Ａｍｏｕｎｔ」と同じ列の下の行には、「（ＵＳＤ）」、「１００００」、「７５００」及び「５０００」が記載されている。この文書４０１において、本来は、Ｋｅｙ「Ｑｕａｎｔｉｔｙ」に対応するＶａｌｕｅは「１００」、「５０」及び「５００」であるが、図８の処理が実行される時点では当該文書４０１のフォーマットが未知であるため、上記の対応関係も未知である。

図１４Ｂに示す定義ファイル１４１０には、Ｋｅｙ「Ｑｕａｎｔｉｔｙ」に関する二つの差分行、差分列パターンが含まれる。これは、図１１に示した定義ファイル１１００の一部であってもよい。差分行、差分列パターン１は、Ｋｅｙに対応する１個目のＶａｌｕｅが、Ｋｅｙと同一の列の、Ｋｅｙの一つ下の行から抽出され、２個目以降のＶａｌｕｅが同一の列のさらに下の行から順次抽出され、空白の行が見つかるか、罫線をまたいだときに抽出が終了することを定義する。この定義に従って図１４Ａの文書４０１から抽出されるＶａｌｕｅ候補は「（ＳＥＴＳ．）」である。

差分行、差分列パターン２は、Ｋｅｙに対応する１個目のＶａｌｕｅが、Ｋｅｙと同一の列の、Ｋｅｙの一つ下の行から数字のみ抽出され、２個目以降のＶａｌｕｅが同一の列のさらに下の行から順次数字のみ抽出され、文書４０１の下端に達したときに抽出が終了することを定義する。この定義に従って図１４Ａの文書４０１から抽出されるＶａｌｕｅ候補は「１００」、「５０」及び「５００」である。

図８のステップ８０４において、Ｖａｌｕｅ抽出部３０５は、各差分行、差分列パターンに基づいて抽出されたＶａｌｕｅ候補の数をカウントする。上記の例では、図１４Ｃに示すように、差分行、差分列パターン１及び差分行、差分列パターン２に基づいて抽出されたＶａｌｕｅ候補の数は、それぞれ、１及び３となる。このため、ステップ８０５において、Ｖａｌｕｅ抽出部３０５は、当該文書４０１のＫｅｙ「Ｑｕａｎｔｉｔｙ」に関する差分行、差分列パターンとして、差分行、差分列パターン２を採用する。

図１５は、本発明の実施例に係る文書管理システム１００によって抽出されるＪＳＯＮファイルの説明図である。

図１５には、具体例として、文書４０１から図９に示したｔｓｖファイル４０４が抽出された場合における、ｔｓｖファイル４０４から抽出されたＫｅｙ及びＶａｌｕｅを含むＪＳＯＮファイル４０５を示す。例えば、ＪＳＯＮファイル４０５は、Ｋｅｙ「ｄａｔｅ」に対応するＶａｌｕｅとして「２０２０／２／４」が抽出されたこと、及び、Ｋｅｙ「ｑｔｙ」に対応する複数のＶａｌｕｅとして「１００」、「５０」及び「５００」が抽出されたこと、等を示す情報を含む。ここで、「ｄａｔｅ」及び「ｑｔｙ」は、それぞれ、文書４０１に記載された「Ｑｕａｎｔｉｔｙ」及び「ＤＡＴＥ」に対応する標準データ項目である。

図１６は、本発明の実施例に係る文書管理システム１００によって抽出されるフォーマットファイルの説明図である。

図１６には、具体例として、図１５に示した例に対応するフォーマットファイル４０６を示す。例えば、フォーマットファイル４０６は、Ｋｅｙ「ｄａｔｅ」に対応するＶａｌｕｅが文書４０１の第６行第８列から抽出されたこと、及び、Ｋｅｙ「ｑｔｙ」に対応するＶａｌｕｅが第２７行第７列、第２９行第７列及び第３１行第７列から抽出されたこと、等を示す情報を含む。すなわち、以後、文書４０１と同じフォーマットの文書を読み込む場合には、このフォーマットファイル４０６を使用して、各Ｋｅｙに対応するＶａｌｕｅのテキストを読み込むことができる。

図１７Ａ～図１７Ｅは、本発明の実施例に係る文書管理システム１００によって提供されるユーザインターフェースの説明図である。

具体的には、図１７Ａ～図１７Ｅは、例えばクライアント装置３２０の表示部３２３によって表示される。

図１７Ａには、ホーム画面１７００の例を示す。ホーム画面１７００は、メニュー表示部１７０１及びファイル一覧表示部１７０５を含む。

メニュー表示部１７０１は、ホームボタン１７０２、フォーマット登録ボタン１７０３及びフォーマット選択・変換ボタン１７０４が表示される。ホームボタン１７０２は、ホーム画面１７００を表示するために使用される。フォーマット登録ボタン１７０３は、新規の（すなわちフォーマットが未知の）文書のフォーマットの登録を行うときに使用される。フォーマット選択・変換ボタンは、登録済みのフォーマットの文書が入力されたときに適合するフォーマットを選択して文書の変換を行うときに使用される。後述する図１７Ｂ～図１７Ｅのメニュー表示部１７０１も同様である。

ファイル一覧表示部１７０５には、文書管理システム１００が返還した文書のファイルの一覧が表示される。例えば、各文書を識別する文書番号、文書の種類（例えば注文書など）を識別する文書種別、変換元のファイルの形式及び変換後のファイルの形式等が表示されてもよい。また、図１７Ａでは省略されているが、変換が行われた日時、変換が終了したかどうかのステータス等がさらに表示されてもよい。

図１７Ｂには、フォーマット登録時の変換要求画面１７１０の例を示す。変換要求画面１７１０は、図１７Ａのホーム画面においてフォーマット登録ボタン１７０３が操作されたときに表示される画面であり、メニュー表示部１７０１及び登録要求部１７１１を含む。

登録要求部１７１１は、例えば、文書種別入力部１７１２、フォーマット名入力部１７１３、ファイル名入力部１７１４及び変換ボタン１７１５を含む。ユーザは、これからＪＳＯＮファイルに変換しようとする文書４０１のフォーマットが未知である場合に、その文書４０１の種別を文書種別入力部１７１２に入力し、そこから抽出されたフォーマットを登録するときのフォーマット名をフォーマット名入力部１７１３に入力し、その文書４０１を識別するファイル名をファイル名入力部１７１４に入力して変換ボタン１７１５を操作する。これによって、当該文書４０１を対象として、図４Ａに示した処理の実行が開始され、Ｋｅｙ及びＶａｌｕｅの抽出とそれに基づくフォーマット登録のために図５～図８に示した処理が実行される。

図１７Ｃには、フォーマット登録時の修正判定・要求画面１７２０の例を示す。修正判定・要求画面１７２０は、図１７Ｂに示した変換要求画面１７１０に必要な情報が入力され、文書の変換が実行されたときに、変換の結果を修正するために表示される画面であり、メニュー表示部１７０１及びフォーマット修正部１７２１を含む。

フォーマット修正部１７２１には、変換処理の結果として得られた各Ｋｅｙに対応するＶａｌｕｅが表示される。変換によって全てのＫｅｙについて正しいＶａｌｕｅが抽出されるとは限らないため、ユーザは、修正が必要と判断した場合には、フォーマット修正部１７２１に正しいＶａｌｕｅを入力するなど、修正の指示を入力することができる。入力された修正の指示は、変換されたＪＳＯＮファイル４０５及びフォーマットファイル４０６に反映される。

図１７Ｄには、フォーマットを選択して変換するときの変換要求画面１７３０の例を示す。変換要求画面１７３０は、図１７Ａのホーム画面においてフォーマット選択・変換ボタン１７０４が操作されたときに表示される画面であり、メニュー表示部１７０１及び変換要求部１７３１を含む。

変換要求部１７３１は、例えば、フォーマット名入力部１７３２、ファイル名入力部１７３３及び変換ボタン１７３４を含む。ユーザは、これからＪＳＯＮファイルに変換しようとする文書４０１のフォーマットが既知である場合に、その文書４０１のフォーマットを識別するフォーマット名をフォーマット名入力部１７３２に入力し、その文書４０１を識別するファイル名をファイル名入力部１７３３に入力して変換ボタン１７３４を操作する。これによって、当該文書４０１を対象として、図４Ｂに示した処理の実行が開始される。なお、変換要求部１７３１には、入力された文書４０１のイメージ１７３５が表示されてもよい。

図１７Ｅには、フォーマットを選択して変換したときの修正判定・要求画面１７４０の例を示す。修正判定・要求画面１７４０は、図１７Ｄに示した変換要求画面１７３０に必要な情報が入力され、文書の変換が実行されたときに、変換の結果を修正するために表示される画面であり、メニュー表示部１７０１及びフォーマット修正部１７４１を含む。

フォーマット修正部１７４１には、変換処理の結果として得られた各Ｋｅｙに対応するＶａｌｕｅが表示される。変換によって全てのＫｅｙについて正しいＶａｌｕｅが抽出されるとは限らないため、ユーザは、修正が必要と判断した場合には、フォーマット修正部１７２１に正しいＶａｌｕｅを入力するなど、修正の指示を入力することができる。入力された修正の指示は、変換されたＪＳＯＮファイル４０５に反映される。

また、本発明の実施形態のシステムは次のように構成されてもよい。

（１）文書管理システム（例えば文書管理システム１００）であって、プロセッサ（例えばプロセッサ２０１）と、記憶装置（例えばメモリ２０２及び補助記憶装置２０３の少なくともいずれか）と、を有し、記憶装置は、文書中に記載された項目名（例えばＫｅｙ）に関する辞書情報（例えば名寄せ辞書記憶部３０８に格納された名寄せ辞書１０００）と、文書中の項目名に対応する項目値（例えばＶａｌｕｅ）の候補となるテキストの抽出条件を定義する定義情報（例えば定義ファイル記憶部３０９に格納された定義ファイル１１００）と、項目名を第１の種類及び第２の種類のいずれかに分類する項目名種類情報（例えばＫｅｙ種類記憶部３１０に格納されたＫｅｙ種類情報１２００）と、を保持し、定義情報は、項目名ごとに、複数の抽出条件（例えば複数の差分行、差分列パターン）を定義する情報を含み、プロセッサは、辞書情報に基づいて、入力された文書から項目名を抽出し（例えばステップ５０１）、定義情報に含まれる複数の抽出条件の各々に基づいて、項目値の候補のテキストを抽出し（例えばステップ７０１）、項目名種類情報に基づいて、抽出された項目名が第２の種類の項目名である場合に、抽出された項目名が第１の種類の項目名である場合とは異なる判定方法を抽出された項目値の候補に適用することによって、複数の抽出条件のいずれを採用するかを判定し（例えばステップ８０４～８０５）、項目名が文書から抽出された位置を示す情報と、採用された抽出条件に基づいて項目値の候補のテキストが文書から抽出された位置を示す情報とを含む文書フォーマット情報（例えばフォーマットファイル４０６）を生成する（例えばステップ５０３）。

これによって、多様なフォーマットの文書から情報を抽出するためのフォーマット情報の登録の工数を削減することができる

（２）上記（１）において、プロセッサは、抽出条件ごとに、１以上の項目値の候補のテキストを抽出し（例えばステップ７０１）、抽出された項目名が第２の種類の項目名である場合に、複数の抽出条件のうち、抽出された項目値の候補のテキストの数が最も多い抽出条件を採用すると判定する（例えばステップ８０５）。

これによって、例えば抽出された項目値の候補が単なる数字列である場合など、項目値の候補のテキストの書式に基づく判定が困難な場合であっても、適切なフォーマットの抽出が可能になる。

（３）上記（２）において、定義情報に含まれる複数の抽出条件の少なくとも一つは、項目値の候補となるテキストを抽出する処理の終了条件を含み（例えば図１４Ｂに示した定義ファイル１４１０）、プロセッサは、終了条件が満たされるまで、１以上の項目値の候補のテキストを抽出する。

これによって、項目名に対応する項目値が複数ある場合にも、それらの項目値を適切に抽出することができる。

（４）上記（２）において、抽出条件は、項目名が文書から抽出された位置と、項目名に対応する項目値の候補となるテキストを文書から抽出する位置との関係によって定義される。

これによって、文書のフォーマットを適切に表現することができる。

（５）上記（４）において、項目名及び項目値の候補となるテキストの位置は、文書中の行番号及び列番号によって定義され、第２の種類の項目名は、文書中の複数の行又は複数の列から抽出される複数の項目値に対応する項目名である。

これによって、抽出された項目値の候補の数に基づいて、文書のフォーマットを適切に抽出することができる。

（６）上記（２）において、第２の種類の項目名は、各々が数値を示す１以上の項目値に対応する項目名である。

これによって、項目値のテキストの書式に基づく判定が困難な場合であっても、文書のフォーマットを適切に抽出することができる。

（７）上記（２）において、プロセッサは、項目名種類情報に基づいて、抽出された項目名が第１の種類の項目名である場合に、複数の抽出条件のうち、項目値の候補として抽出されたテキストが、抽出された項目名に対応する所定のテキストの書式に整合する抽出条件を採用すると判定する。

これによって、抽出した項目値のテキストの書式に基づいて、文書のフォーマットを適切に抽出することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１００文書管理システム
１１０クライアント
２００計算機システム
２０１プロセッサ
２０２メモリ
２０３補助記憶装置
２０４出力装置
２０５入力装置
２０６通信インタフェース（Ｉ／Ｆ）
３００サーバ装置
３０１、３２１制御部
３０２、３２２通信部
３０３行／列／テキスト情報抽出部
３０４Ｋｅｙ抽出部
３０５Ｖａｌｕｅ抽出部
３０６フォーマット登録部
３０７判定部
３０８名寄せ辞書記憶部
３０９定義ファイル記憶部
３１０Ｋｅｙ種類記憶部
３１１フォーマット記憶部
３２０クライアント装置
３２３表示部
３２４入力部

Claims

文書管理システムであって、
プロセッサと、記憶装置と、を有し、
前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第１の種類及び第２の種類のいずれかに分類する項目名種類情報と、を保持し、
前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
前記プロセッサは、
前記辞書情報に基づいて、入力された文書から項目名を抽出し、
前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出し、
前記項目名種類情報に基づいて、前記抽出された項目名が前記第２の種類の項目名である場合に、前記抽出された項目名が前記第１の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定し、
前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成することを特徴とする文書管理システム。
請求項１に記載の文書管理システムであって、
前記プロセッサは、
前記抽出条件ごとに、１以上の前記項目値の候補のテキストを抽出し、
前記抽出された項目名が前記第２の種類の項目名である場合に、前記複数の抽出条件のうち、前記抽出された項目値の候補のテキストの数が最も多い前記抽出条件を採用すると判定することを特徴とする文書管理システム。
請求項２に記載の文書管理システムであって、
前記定義情報に含まれる前記複数の抽出条件の少なくとも一つは、前記項目値の候補となるテキストを抽出する処理の終了条件を含み、
前記プロセッサは、前記終了条件が満たされるまで、１以上の前記項目値の候補のテキストを抽出することを特徴とする文書管理システム。
請求項２に記載の文書管理システムであって、
前記抽出条件は、前記項目名が前記文書から抽出された位置と、前記項目名に対応する項目値の候補となるテキストを前記文書から抽出する位置との関係によって定義されることを特徴とする文書管理システム。
請求項４に記載の文書管理システムであって、
前記項目名及び前記項目値の候補となるテキストの位置は、前記文書中の行番号及び列番号によって定義され、
前記第２の種類の項目名は、前記文書中の複数の行又は複数の列から抽出される複数の項目値に対応する項目名であることを特徴とする文書管理システム。
請求項２に記載の文書管理システムであって、
前記第２の種類の項目名は、各々が数値を示す１以上の項目値に対応する項目名であることを特徴とする文書管理システム。
請求項２に記載の文書管理システムであって、
前記プロセッサは、前記項目名種類情報に基づいて、前記抽出された項目名が前記第１の種類の項目名である場合に、前記複数の抽出条件のうち、前記項目値の候補として抽出されたテキストが、前記抽出された項目名に対応する所定のテキストの書式に整合する前記抽出条件を採用すると判定することを特徴とする文書管理システム。
文書管理システムが実行する文書管理方法であって、
前記文書管理システムは、プロセッサと、記憶装置と、を有し、
前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第１の種類及び第２の種類のいずれかに分類する項目名種類情報と、を保持し、
前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
前記文書管理方法は、
前記プロセッサが、前記辞書情報に基づいて、入力された文書から項目名を抽出する第１手順と、
前記プロセッサが、前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出する第２手順と、
前記プロセッサが、前記項目名種類情報に基づいて、前記抽出された項目名が前記第２の種類の項目名である場合に、前記抽出された項目名が前記第１の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定する第３手順と、
前記プロセッサが、前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成する第４手順と、を含むことを特徴とする文書管理方法。
文書管理システムを制御するための文書管理プログラムであって、
前記文書管理システムは、プロセッサと、記憶装置と、を有し、
前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第１の種類及び第２の種類のいずれかに分類する項目名種類情報と、を保持し、
前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
前記文書管理プログラムは、
前記辞書情報に基づいて、入力された文書から項目名を抽出する第１手順と、
前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出する第２手順と、
前記項目名種類情報に基づいて、前記抽出された項目名が前記第２の種類の項目名である場合に、前記抽出された項目名が前記第１の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定する第３手順と、
前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成する第４手順と、を前記プロセッサに実行させることを特徴とする文書管理プログラム。