JP2024032608A - 文書管理システム、文書管理方法及び文書管理プログラム - Google Patents

文書管理システム、文書管理方法及び文書管理プログラム Download PDF

Info

Publication number
JP2024032608A
JP2024032608A JP2022136339A JP2022136339A JP2024032608A JP 2024032608 A JP2024032608 A JP 2024032608A JP 2022136339 A JP2022136339 A JP 2022136339A JP 2022136339 A JP2022136339 A JP 2022136339A JP 2024032608 A JP2024032608 A JP 2024032608A
Authority
JP
Japan
Prior art keywords
document
item
item name
extracted
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022136339A
Other languages
English (en)
Inventor
学 長谷川
Manabu Hasegawa
修一 田中
Shuichi Tanaka
忠義 小坂
Tadayoshi Kosaka
直樹 古家
Naoki Furuya
亮太 鴨志田
Ryota Kamoshita
康史 下河邉
Yasushi Shimokawabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Logisteed Ltd
Original Assignee
Logisteed Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Logisteed Ltd filed Critical Logisteed Ltd
Priority to JP2022136339A priority Critical patent/JP2024032608A/ja
Publication of JP2024032608A publication Critical patent/JP2024032608A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】未知の文書のフォーマット情報の登録を支援する。【解決手段】文書管理システムであって、項目名に関する辞書情報と、項目値の候補となるテキストの複数の抽出条件を定義する定義情報と、項目名を第1の種類又は第2の種類に分類する項目名種類情報と、を保持し、辞書情報に基づいて、入力された文書から項目名を抽出し、複数の抽出条件に基づいて、項目値の候補のテキストを抽出し、項目名種類情報に基づいて、抽出された項目名が第2の種類の項目名である場合に、第1の種類の項目名の場合とは異なる判定方法によって、複数の抽出条件のいずれを採用するかを判定し、項目名の位置を示す情報と、採用された抽出条件に基づく項目値の候補のテキストの位置を示す情報とを含む文書フォーマット情報を生成する。【選択図】図8

Description

本発明は、帳票等の文書を管理する技術に関する。
文書から所望の項目の情報を抽出する技術として、例えば特開2019-96248(特許文献1)に開示された技術がある。特許文献1には、「文書処理装置は、記憶装置に記憶されている属性情報付与プログラムを制御部としてのCPUにおいて実行することにより、文書情報登録部、判定情報登録部、受付部、検索部及び表示制御部等として機能する。表示制御部は、文書データにおいて、検索部により検索された文字列を他の文字列と区別して表示するよう制御する。」及び「判定情報には、属性情報の種類に対応した書式情報であるフォーマット登録情報と、属性情報の種類に対応した文字列が含まれる。例えば、属性情報の種類である属性名「日付」に対して「○○年○月○日」、「○○/○/○」等の書式情報が判定情報として登録される。また、属性名「取引先名称」に対して「○○株式会社」、「○○Co,Ltd」、「○○(株)」、「(株)○○」等の書式情報が判定情報として登録される。また、属性名「金額」に対して「××円」、「¥××」、「××$」等の書式情報が判定情報として登録される。また、属性名「文書種類」に対して「領収書」、「請求書」等の文字列が判定情報として登録される。つまり、判定情報として、属性情報の種類に対して、使用頻度の高い書式情報又は文字列を登録することができる。」と記載されている。
特開2019-96248号公報
物流分野においては、物品の発注者とその物品の発送者のほか、その物品を輸送する事業者、貿易の場合には輸出入を行う事業者など、多くの関係者が物品の流通に関与することとなる。一般にはそれらの関係者間で物品の流通のためにやり取りされる文書のデータが標準化されていない。すなわち、それぞれの関係者は一般的な文書作成ソフトウェア等を使用して文書を作成するが、一般にはそれらの文書のフォーマットは統一されていない。
多様なフォーマットの文書から予め定められたデータ項目名(すなわちKey)に対応する項目値(すなわちValue)を正しく抽出するため、各Keyに対応付けるValueの文書内の位置(例えば行、列等)の情報を含むフォーマットを登録しておく必要がある。しかし、多くの関係者が作成する文書には多様なフォーマットがあるため、そのフォーマットの登録を人手で行う場合には工数が多くなる。
上記の引用文献1には、例えば日付、会社名など、文書に含まれる文字列の書式を登録しておき、それに基づいて文書中の文字列の項目名(引用文献1では「属性名」)に対応する項目値を判定することが記載されている。しかし、一般に物流分野で使用される文書中には、例えば物品の個数を示すために数字のみを羅列した箇所など、文字列の書式に基づく判定が困難な場合がある。引用文献1には、このような場合の判定については記載されていない。
上記の課題の少なくとも一つを解決するため、本発明は、文書管理システムであって、
プロセッサと、記憶装置と、を有し、前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第1の種類及び第2の種類のいずれかに分類する項目名種類情報と、を保持し、前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、前記プロセッサは、前記辞書情報に基づいて、入力された文書から項目名を抽出し、前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出し、前記項目名種類情報に基づいて、前記抽出された項目名が前記第2の種類の項目名である場合に、前記抽出された項目名が前記第1の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定し、前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成することを特徴とする。
本発明の一態様によれば、多様なフォーマットの文書から情報を抽出するためのフォーマット情報の登録の工数を削減することができる。
前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
本発明の実施例に係る文書管理システムの構成の一例を示すブロック図である。 本発明の実施例に係る文書管理システムを実現するための計算機システムのハードウェア構成の一例を示すブロック図である。 本発明の実施例に係る文書管理システムの構成の第1の例を示す機能ブロック図である。 本発明の実施例に係る文書管理システムの構成の第2の例を示す機能ブロック図である。 本発明の実施例に係る文書管理システムが、新規のフォーマットの文書を変換する処理の流れを示す説明図である。 本発明の実施例に係る文書管理システムが、登録済みのフォーマットの文書を変換する処理の流れを示す説明図である。 本発明の実施例に係る文書管理システムが実行する処理の全体を示すフローチャートである。 本発明の実施例に係る文書管理システムがKeyを抽出するために実行する処理を示すフローチャートである。 本発明の実施例に係る文書管理システムがValueを抽出するために実行する処理を示すフローチャートである。 本発明の実施例に係る文書管理システムが最適結果を選択するために実行する処理を示すフローチャートである。 本発明の実施例に係る文書管理システムが抽出したtsvファイルを示す説明図である。 本発明の実施例に係る文書管理システムの名寄せ辞書記憶部に保持される名寄せ辞書の説明図である。 本発明の実施例に係る文書管理システムの定義ファイル記憶部に保持される定義ファイルの説明図である。 本発明の実施例に係る文書管理システムのKey種類記憶部に保持されるKey種類情報の説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第1の具体例を示す説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第1の具体例を示す説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第1の具体例を示す説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第2の具体例を示す説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第2の具体例を示す説明図である。 本発明の実施例に係る文書管理システムが実行する最適結果選択処理の第2の具体例を示す説明図である。 本発明の実施例に係る文書管理システムによって抽出されるJSONファイルの説明図である。 本発明の実施例に係る文書管理システムによって抽出されるフォーマットファイルの説明図である。 本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。 本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。 本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。 本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。 本発明の実施例に係る文書管理システムによって提供されるユーザインターフェースの説明図である。
以下、図面を参照しながら本発明の実施例について説明する。
図1は、本発明の実施例に係る文書管理システムの構成の一例を示すブロック図である。
文書管理システム100は、例えば注文書又は請求書といった帳票の文書から所望の項目名及びそれに対応する項目値を抽出するなどの文書変換の機能を有するシステムである。
例えば、クライアント110は、自身が保持する文書112の変換要求を、Webブラウザ111のGUI(Graphical User Interface)を介して文書管理システム100に送信する。ここで、クライアント110は、物品の流通の関係者のいずれか(例えば物品の発送元の事業者、輸送事業者等)である。文書112は、物品の流通に関する情報を含むものである。本実施例では主に文書112が発注書類(Purchase Order、PO)である例を説明するが、文書112がそれ以外のものであってもよい。文書112は、例えば、一般的な文書作成ソフトウェア又は表計算ソフトウェア等によって作成されたファイルである。
文書管理システム100のWebサーバ101は、コンバータ102を含み、変換要求の対象の文書112を、そこから抽出された項目名(Key)と項目値(Value)との組を含むファイルに変換して、その結果をクライアント110に応答する。本実施例では文書112がJSON(JavaScript Object Notation)形式のファイルに変換される例を示すが、それ以外の形式のファイルに変換されてもよい。
クライアント110は、文書管理システム100によって変換されたファイルを確認して、誤り等があれば修正要求を送信する。文書管理システム100は、修正要求に従ってファイルを修正してデータベース103に保管する。
図2は、本発明の実施例に係る文書管理システム100を実現するための計算機システムのハードウェア構成の一例を示すブロック図である。
文書管理システム100は、例えば計算機システム200によって構成される。計算機システム200は、プロセッサ201、メモリ(主記憶装置)202、補助記憶装置203、出力装置204、入力装置205、及び通信インタフェース(I/F)206を含む。上記構成要素は、バスによって互いに接続されている。メモリ202及び補助記憶装置203は記憶装置であり、プロセッサ201が使用するプログラム及びデータを格納している。
メモリ202は、例えば半導体メモリによって構成され、主に実行中のプログラム及びデータを保持するために利用される。プロセッサ201は、メモリ202に格納されているプログラムに従って、様々な処理を実行する。プロセッサ201がプログラムに従って動作することで、様々な機能部(図3A、図3B等参照)が実現される。
補助記憶装置203は、例えばハードディスクドライブ又はソリッドステートドライブなどの大容量の記憶装置によって構成され、プログラム及びデータを長期間保持するために利用される。補助記憶装置203に保持されるデータの例は後述する。
プロセッサ201は、単一の処理ユニット又は複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。プロセッサ201は、1又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び/又は制御指示に基づき信号を操作する任意の装置として実装することができる。
補助記憶装置203に格納されたプログラム及びデータが起動時又は必要時にメモリ202にロードされ、プログラムをプロセッサ201が実行することによって、文書管理システム100を構成する計算機システム200の各種処理が実行される。したがって、以下の説明において文書管理システム100によって実行される処理は、プロセッサ201がプログラムに従って実行する処理である。
入力装置205は、ユーザが文書管理システム100に指示及び情報などを入力するためのハードウェアデバイスである。出力装置204は、入出力用の各種画像を提示するハードウェアデバイスであり、例えば、表示デバイス又は印刷デバイスである。通信I/F206は、ネットワークとの接続のためのインタフェースである。
なお、計算機システム200は2以上のプロセッサ201を含んでもよい。また、文書管理システム100の機能は、複数の計算機システム200に実装することができる。その場合、複数の計算機システム200はネットワークを介して通信する。例えば、文書管理システム100の複数の機能の一部が一つの計算機システム200に実装され、他の一部が他の計算機システムに実装されてもよい。
図3Aは、本発明の実施例に係る文書管理システム100の構成の第1の例を示す機能ブロック図である。
図3Aの例では、文書管理システム100の機能がサーバ装置300によって、クライアント110の機能がクライアント装置320によって、それぞれ実現される。サーバ装置300とクライアント装置320とはネットワーク330を介して通信する。
図3Aに示す文書管理システム100は、ネットワーク330を介して通信するサーバ装置300及びクライアント装置320によって構成される。サーバ装置300は、制御部301、通信部302、行/列/テキスト情報抽出部303、Key抽出部304、Value抽出部305、フォーマット登録部306、判定部307、名寄せ辞書記憶部308、定義ファイル記憶部309、Key種類記憶部310及びフォーマット記憶部311を有する。
制御部301は、通信部302~判定部307を制御する機能及びそれらの各部による名寄せ辞書記憶部308~フォーマット記憶部311へのアクセス等を制御する機能を有する。制御部301は、サーバ装置300を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行することによって実現される。
通信部302は、ネットワーク330を介したクライアント装置320との通信の機能を有する。通信部302は、サーバ装置300を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行し、通信I/F206を制御することによって実現される。
行/列/テキスト情報抽出部303~判定部307は、サーバ装置300が文書管理システム100としての機能を実現するための処理を実行する。これらの機能の詳細については後述する。行/列/テキスト情報抽出部303~判定部307は、サーバ装置300を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行することによって実現される。すなわち、以下の説明において上記の各部が実行する処理は、実際にはプロセッサ201によって実行される。
名寄せ辞書記憶部308~フォーマット記憶部311は、図1のデータベース103に含まれ、補助記憶装置203の記憶領域によって実現される。これらの記憶部は、文書管理システム100の機能を実現するために必要な情報を記憶する。これらの記憶部に記憶される情報については後述する。
クライアント装置320は、制御部321、通信部322、表示部323及び入力部324を有する。
制御部321は、通信部322~入力部324を制御する機能を有する。制御部321は、クライアント装置320を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行することによって実現される。
通信部322は、ネットワーク330を介したサーバ装置300との通信の機能を有する。表示部323は、クライアント110のユーザに対して情報を表示する機能を有する。入力部324は、クライアント110のユーザからの情報の入力を受け付ける機能を有する。通信部322~入力部324は、クライアント装置320を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行し、それぞれ通信I/F206、出力装置204及び入力装置205を制御することによって実現される。
図3Bは、本発明の実施例に係る文書管理システム100の構成の第2の例を示す機能ブロック図である。
図3Bの例は、行/列/テキスト情報抽出部303~判定部307がサーバ装置300ではなくクライアント装置320に含まれる点を除いて、図3Aの例と同様である。すなわち、図3Bの例では、文書管理システム100の機能は、クライアント装置320の行/列/テキスト情報抽出部303~判定部307が必要に応じてサーバ装置300内の情報を参照して処理を実行することによって実現される。行/列/テキスト情報抽出部303~判定部307は、クライアント装置320を実現する計算機システム200において、プロセッサ201がメモリ202に格納されたプログラムを実行することによって実現される。
図4Aは、本発明の実施例に係る文書管理システム100が、新規の(すなわち未知の)フォーマットの文書を変換する処理の流れを示す説明図である。
図4Aの例において、文書管理システム100には、変換要求された文書401と、その文書の種類を示す文書種類402とが入力される。文書401は、例えば、一般的な文書作成ソフトウェア又は表計算ソフトウェア等によって作成されたファイルであり、図1の文書112に相当する。
文書管理システム100の行/列/テキスト情報抽出部303は、文書401に含まれるテキストを、そのテキストが記載された当該文書中の行及び列と対応付けた情報を作成する。例えば、行/列/テキスト情報抽出部303は、文書401をxml(Extensible Markup Language)形式のファイル403に変換し、さらにtsv(Tab-Separated Values)形式のファイル403に変換してもよい。なお、ここで抽出の対象となるテキストは、文書中に記載された文字列であり、記号等を含んでもよい。
次に、文書管理システム100のKey抽出部304及びValue抽出部305は、tsvファイル404から、Keyとそれに対応するValueとを抽出して、それらを対応付けるJSONファイル405を生成する。また、フォーマット登録部306は、文書のフォーマットとして、文書401から各Key及びそれぞれに対応するValueを抽出する位置等を示すフォーマットファイル406を生成してフォーマット記憶部311に登録する。これらの処理の詳細は後述する。
なお、xml形式のファイル及びtsv形式のファイルへの変換は一例であり、文書401に含まれるテキストと、そのテキストが記載された当該文書中の行及び列とを対応付けた情報が得られれば、上記以外の形式のファイルに変換されてもよい。また、JSONファイルへの変換も一例であり、項目名(Key)と項目値(Value)とを対応付ける情報が得られれば、上記以外の形式のファイルに変換されてもよい。
図4Bは、本発明の実施例に係る文書管理システム100が、登録済みの(すなわち既知の)フォーマットの文書を変換する処理の流れを示す説明図である。
図4Bの例において、文書管理システム100には、変換要求された文書401と、その文書401に対応するフォーマットファイル406が入力される。例えば、文書401がクライアント110から入力され、フォーマットファイル406はフォーマット記憶部311から読み出されてもよい。図4Aの例と同様に、文書401は、xml形式のファイル403及びtsv形式のファイル404に変換される。文書管理システム100は、フォーマットファイル406を参照して、tsv形式のファイル404から、Keyとそれに対応するValueとを抽出して、それらを対応付けるJSONファイル405を生成する。
次に、図4Aに示したtsvファイル404からJSONファイル405及びフォーマットファイル406を生成する処理の詳細について、図5~図8等を参照して説明する。
図5は、本発明の実施例に係る文書管理システム100が実行する処理の全体を示すフローチャートである。
最初に、Key抽出部304が名寄せ辞書を参照してtsvファイル404からKeyを抽出する(ステップ501)。この処理の詳細は図6等を参照して後述する。次に、Value抽出部305が定義ファイルを参照してステップ501で抽出された各Keyに対応するValueを抽出する(ステップ502)。この処理の詳細は図7等を参照して後述する。ステップ501で抽出された全てのKeyの各々について、ステップ502が実行される。
最後に、フォーマット登録部306が抽出された文書のフォーマットをフォーマット記憶部311に登録して(ステップ503)、処理が終了する。
図6は、本発明の実施例に係る文書管理システム100がKeyを抽出するために実行する処理を示すフローチャートである。
この処理は、図5のステップ501において実行される。最初に、Key抽出部304は、tsvファイル404と名寄せ辞書記憶部308に記憶された名寄せ辞書とを参照して、tsvファイル404に含まれるテキストと名寄せ辞書に登録された単語とが一致するかを判定し(ステップ601)、一致する場合には当該テキストをKeyとして特定し、当該テキストに対応する行番号及び列番号を当該Keyの行番号及び列番号として決定する(ステップ602)。
Key抽出部304は、tsvファイル404に含まれる全てのテキスト及び名寄せ辞書に登録された全ての単語を対象としてステップS601を実行し、一致する場合にはステップS602を実行する。
図7は、本発明の実施例に係る文書管理システム100がValueを抽出するために実行する処理を示すフローチャートである。
この処理は、図5のステップS502において実行される。最初に、Value抽出部305は、tsvファイル404と定義ファイル記憶部309に記憶された定義ファイルと抽出されたKeyとを参照して、定義ファイルに記載されたKeyとValueとの間の差分行数及び差分列数に基づいて、tsvファイル404から、Keyに対応するValueを抽出する(ステップ701)。Value抽出部305は、定義ファイルに記載された全ての差分行、差分列パターンについて、ステップ701を実行する。定義ファイル及び差分行、差分列パターンの詳細については後述する。
次に、Value抽出部305は、最適結果選択を実行する(ステップ702)。この処理の詳細については図8等を参照して後述する。
図8は、本発明の実施例に係る文書管理システム100が最適結果を選択するために実行する処理を示すフローチャートである。
この処理は、図7のステップS702において実行される。最初に、Value抽出部305は、抽出されたKeyと、Key種類記憶部310に記憶されたKey種類情報と、を参照して、抽出されたKeyの種類を判定する(ステップ801)。抽出されたKeyが第1の種類のKeyであると判定された場合、Value抽出部305は、第1の種類のKeyに対応する定義ファイルを参照して、定義された差分行及び差分列に基づいてValueの候補を抽出し、抽出したValueの候補がフォーマット記憶部311に含まれるテキストの書式と一致するかを判定する(ステップ802)。
ここで、Value抽出部305は、定義ファイルによって定義された当該Keyに対応する全ての差分行、差分列パターンについてValueの候補を抽出して、抽出した各候補について、フォーマット記憶部311に含まれる当該Keyに対応する全てのテキストの書式の各々との一致を判定する。
その後、Value抽出部305は、フォーマット記憶部311に登録されたテキストの書式に一致するValueを含む差分行、差分列パターンを採用する(ステップ803)。
一方、ステップ801において、抽出されたKeyが第2の種類のKeyであると判定された場合、Value抽出部305は、第2の種類のKeyに対応する定義ファイルを参照して、定義された差分行及び差分列に基づいてValueの候補を抽出し、抽出したValueの候補の数をカウントする(ステップ804)。ここで、Value抽出部305は、定義ファイルによって定義された当該Keyに対応する全ての差分行、差分列パターンについてValueの候補を抽出して、差分行、差分列パターンごとに、抽出したValueの候補の数をカウントする。
その後、Value抽出部305は、抽出したValueの候補の数が多い(例えば最多の)差分行、差分列パターンを採用する(ステップ805)。
図9は、本発明の実施例に係る文書管理システム100が抽出したtsvファイル404を示す説明図である。
図9には、文書401が注文書である場合に抽出されるtsvファイル404の一例を示す。tsvファイル404には、文書401から抽出されたテキストと、そのテキストを含む行の位置を示す行番号と、そのテキストを含む列の位置を示す列番号と、を対応付ける情報が含まれる。図9の例は、文書401の第4行の第5列に、「PURCHASE ORDER」というテキストが記載されていることを示す。同様に、各行及び各列から抽出されたテキストが行番号及び列番号とともにtsvファイル404に登録される。
図10は、本発明の実施例に係る文書管理システム100の名寄せ辞書記憶部308に保持される名寄せ辞書の説明図である。
図10に示す名寄せ辞書1000は、複数の行を含み、各行は同じ意味で使われる複数のテキストをカンマで区切って羅列したものである。例えば、図10の例では、第1行に「date」、「DATE」、「Date」、「Date:」及び「DATE:」の5つのテキストが含まれる。これらは、いずれも、文書中に日付を示す情報が含まれる場合に、日付そのものを示す項目値(Value)に対応して、その項目値が日付を示す値であることを明示するための項目名(Key)として文書中に記載されることがあるテキストである。この例において、行の先頭のテキスト(第1行の例では、第1列の「date」)は、後述する定義ファイル等で標準データ項目として使用されるテキストである。
同様に、名寄せ辞書1000には、注文書番号を示す「ponumber」、「PO #」及び「P.O. NUMBER」といったテキスト、販売者を示す「vendor」、「VENDOR」及び「BILL TO」といったテキスト、発送先を示す「shipto」、「SHIP TO」及び「Deliver To」といったテキスト等、文書中にKeyとして記載されることがあるテキストが、意味ごとにまとめて登録される。
ここで、文書管理システム100が図10に示すような名寄せ辞書1000を保持し、図9に示すようなtsvファイル404を抽出した場合に図6のステップ601で実行される処理の例を説明する。Key抽出部304は、tsvファイル404に含まれる第4行第5列のテキスト「PURCHASE ORDER」が名寄せ辞書1000の第2行に登録されていることから、「PURCHASE ORDER」をKeyの一つとして抽出する。同様に、第6行第7列の「DATE」、第7行第7列の「PO #」、第25行第4列の「ITEM #」、第25行第5列の「Description」、第25行第7列の「Quantity」、第25行第8列の「Unit Price」及び第25行第9列の「Amount」等がKeyとして抽出される。
図11は、本発明の実施例に係る文書管理システム100の定義ファイル記憶部309に保持される定義ファイルの説明図である。
図11に示す定義ファイル1100は、文書中のKeyが記載された位置とそれに対応するValueが記載された位置との関係を示す情報を含む。図11の例では、Keyの位置とValueの位置との関係が、それぞれの行番号と列番号の差分によって表現される。
図11には、文書中に「ヘッダ(header)」及び「ベンダー(vendor)」といった項目があり、「ヘッダ(header)」の下にはさらにそれを詳細化した「日付(date)」及び「注文書番号(ponumber)」といった項目がある場合の定義ファイル1100の例を示す。ここでは便宜上、前者の項目を大項目、後者の詳細化した項目を小項目と記載する。この例では、定義ファイル1100の第1行は、大項目のKeyである「header」を示し、第2行は、小項目のKeyである「date」を示す。第3行の「dictionary:1」は、当該Key「date」が名寄せ辞書1000の1行目に記載されていることを示す。第4行の「multiline:false」は、当該Keyに対応するValueが一つのみあるという定義を示す。第5行の「shift_row:0」は、Keyである「date」に対応するValueが当該Keyと同じ行に記載されているという定義を示す。第6行の「shift_col:1」は、Keyである「date」に対応するValueが当該Keyの一つ右隣りの列に記載されているという定義を示す。
なお、上記の例は差分行及び差分列のパターンの一つ(例えば差分行、差分列パターン1)であり、定義ファイル1100は他のパターンを含んでもよい。例えば、定義ファイル1100は、Keyである「date」に対応するValueが当該Keyと同じ列の一つ下の行に記載されているという定義を含む差分行、差分列パターン2、及び、Keyである「date」に対応するValueが当該Keyの一つ下の行の一つ右隣りの列に記載されているという差分行、差分列パターン3を含んでもよい。前者は「shift_row:1」及び「shift_col:0」によって定義され、後者は「shift_row:1」及び「shift_col:1」によって定義される。
他のKeyについても同様に1以上の差分行、差分列パターンが定義される。ここで、例えば商品等の数量を示す「Quantity」(標準データ項目は「qty」)のように、一つのKeyに対応して複数のValueが文書中に記載される場合があるものについては、「multiline:true」と定義される。
図12は、本発明の実施例に係る文書管理システム100のKey種類記憶部310に保持されるKey種類情報の説明図である。
図12に示すKey種類情報1200は、Key1201及びKey種類1202を含む。Key1201は、文書から抽出されるKeyのテキスト(又はそれに対応する標準データ項目)である。Key種類1202は、各Keyの種類を示す。本実施例では、Keyの種類として、第1の種類及び第2の種類が定義される。
第1の種類のKeyは、Keyに対応するValueのテキストが何らかの書式を有するものである。例えば、日付を示すKeyである「Date」に対応するValueは、一般に、yyyy/mm/dd、又は、Month dd,yyyyといった書式のテキストで記載される。このため、Valueの候補として抽出されたテキストが予め登録されたテキストの書式と整合するか否かによって、そのテキストがKeyに対応するValueであるかを判定することができる。
一方、第2の種類のKeyは、例えば単なる数字など、それに対応するValueが特定の書式を持たないものである。例えば、注文書に記載された商品の数量、単価等がこれに該当する。例えば数量として数字のみが記載されていれば、それが数量を示すKeyである「Quantity」に対応するValueであるのか、単価を示すKeyである「Unit Price」に対応するValueであるのか、その数字のみに基づいて判定することは困難である。また、一般には、このような種類のKeyにおいては、対応するValueが複数記載されている場合がある。例えば、一つの注文書で複数の商品が発注される場合には、Key「Quantity」に対応するValueとして、各々が各商品の発注数量を示す複数の数字が、例えば複数行又は複数列にわたって記載される。
ここで、図8の処理の具体例を説明する。
図13A~図13Cは、本発明の実施例に係る文書管理システム100が実行する最適結果選択処理の第1の具体例を示す説明図である。
これは、図8のステップ801において、抽出されたKeyが第1の種類のKeyであると判定された場合の処理の具体例である。この例では、図13Aに示すように、文書401が注文書(Purchase Order)であり、文書401中のある行のある列にテキスト「DATE」が、その行の一つ右の列にテキスト「2022/2/4」が記載されている。また、テキスト「DATE」が記載された行の一つ下の行の、テキスト「DATE」と同じ列に、テキスト「PO #」が記載され、その行の一つ右の列にテキスト「110000」が記載されている。この文書401において、本来は、Key「DATE」に対応するValueが「2022/2/4」であり、Key「PO #」に対応するValueが「110000」であるが、図8の処理が実行される時点では当該文書401のフォーマットが未知であるため、上記の対応関係は未知である。
図13Bに示す定義ファイル1310には、Key「DATE」に関する三つの差分行、差分列パターンが含まれる。これは、図11に示した定義ファイル1100の一部であってもよい。差分行、差分列パターン1は、Keyと同一の行の、Keyの一つ右の列にValueが記載されていることを定義する。この定義に従って図13Aの文書401から抽出されるValue候補は「2022/2/4」である。差分行、差分列パターン2は、Keyの一つ下の行の、Keyと同一の列にValueが記載されていることを定義する。この定義に従って図13Aの文書401から抽出されるValue候補は「PO #」である。差分行、差分列パターン3は、Keyの一つ下の行の、Keyの一つ右の列にValueが記載されていることを定義する。この定義に従って図13Aの文書401から抽出されるValue候補は「110000」である。
図8のステップ802において、Value抽出部305は、抽出された各Value候補と予め登録されたテキストの書式との一致を判定する。例えば、Key「DATE」に対応するValueのテキストの書式として、「Month dd,yyyy」、「yyyy/mm/dd」及び「mm/dd/yy」といった書式が登録されている場合、Value抽出部305は、各差分行、差分列パターンに基づいて抽出されたValue候補がそれぞれの書式と一致するかを判定する。
その結果、図13Cに示すように、差分行、差分列パターン1に基づいて抽出されたValue候補「2022/2/4」がテキストの書式「yyyy/mm/dd」と一致する。このため、ステップ803において、Value抽出部305は、当該文書401のKey「DATE」に関する差分行、差分列パターンとして、差分行、差分列パターン1を採用する。
図14A~図14Cは、本発明の実施例に係る文書管理システム100が実行する最適結果選択処理の第2の具体例を示す説明図である。
これは、図8のステップ801において、抽出されたKeyが第2の種類のKeyであると判定された場合の処理の具体例である。この例では、図14Aに示すように、文書401中のある行にテキスト「Description」、「Quantity」、「Unit price」及び「Amount」が記載されている。「Description」と同じ列の下の行には、「Product A」、「Product B」及び「Product C」が記載されている。「Quantity」と同じ列の下の行には、「(SETS.)」、「100」、「50」及び「500」が記載されている。「Unit price」と同じ列の下の行には、「(USD)」、「100」、「/SET」、「150」、「/SET」、「10」及び「/SET」が記載されている。「Amount」と同じ列の下の行には、「(USD)」、「10000」、「7500」及び「5000」が記載されている。この文書401において、本来は、Key「Quantity」に対応するValueは「100」、「50」及び「500」であるが、図8の処理が実行される時点では当該文書401のフォーマットが未知であるため、上記の対応関係も未知である。
図14Bに示す定義ファイル1410には、Key「Quantity」に関する二つの差分行、差分列パターンが含まれる。これは、図11に示した定義ファイル1100の一部であってもよい。差分行、差分列パターン1は、Keyに対応する1個目のValueが、Keyと同一の列の、Keyの一つ下の行から抽出され、2個目以降のValueが同一の列のさらに下の行から順次抽出され、空白の行が見つかるか、罫線をまたいだときに抽出が終了することを定義する。この定義に従って図14Aの文書401から抽出されるValue候補は「(SETS.)」である。
差分行、差分列パターン2は、Keyに対応する1個目のValueが、Keyと同一の列の、Keyの一つ下の行から数字のみ抽出され、2個目以降のValueが同一の列のさらに下の行から順次数字のみ抽出され、文書401の下端に達したときに抽出が終了することを定義する。この定義に従って図14Aの文書401から抽出されるValue候補は「100」、「50」及び「500」である。
図8のステップ804において、Value抽出部305は、各差分行、差分列パターンに基づいて抽出されたValue候補の数をカウントする。上記の例では、図14Cに示すように、差分行、差分列パターン1及び差分行、差分列パターン2に基づいて抽出されたValue候補の数は、それぞれ、1及び3となる。このため、ステップ805において、Value抽出部305は、当該文書401のKey「Quantity」に関する差分行、差分列パターンとして、差分行、差分列パターン2を採用する。
図15は、本発明の実施例に係る文書管理システム100によって抽出されるJSONファイルの説明図である。
図15には、具体例として、文書401から図9に示したtsvファイル404が抽出された場合における、tsvファイル404から抽出されたKey及びValueを含むJSONファイル405を示す。例えば、JSONファイル405は、Key「date」に対応するValueとして「2020/2/4」が抽出されたこと、及び、Key「qty」に対応する複数のValueとして「100」、「50」及び「500」が抽出されたこと、等を示す情報を含む。ここで、「date」及び「qty」は、それぞれ、文書401に記載された「Quantity」及び「DATE」に対応する標準データ項目である。
図16は、本発明の実施例に係る文書管理システム100によって抽出されるフォーマットファイルの説明図である。
図16には、具体例として、図15に示した例に対応するフォーマットファイル406を示す。例えば、フォーマットファイル406は、Key「date」に対応するValueが文書401の第6行第8列から抽出されたこと、及び、Key「qty」に対応するValueが第27行第7列、第29行第7列及び第31行第7列から抽出されたこと、等を示す情報を含む。すなわち、以後、文書401と同じフォーマットの文書を読み込む場合には、このフォーマットファイル406を使用して、各Keyに対応するValueのテキストを読み込むことができる。
図17A~図17Eは、本発明の実施例に係る文書管理システム100によって提供されるユーザインターフェースの説明図である。
具体的には、図17A~図17Eは、例えばクライアント装置320の表示部323によって表示される。
図17Aには、ホーム画面1700の例を示す。ホーム画面1700は、メニュー表示部1701及びファイル一覧表示部1705を含む。
メニュー表示部1701は、ホームボタン1702、フォーマット登録ボタン1703及びフォーマット選択・変換ボタン1704が表示される。ホームボタン1702は、ホーム画面1700を表示するために使用される。フォーマット登録ボタン1703は、新規の(すなわちフォーマットが未知の)文書のフォーマットの登録を行うときに使用される。フォーマット選択・変換ボタンは、登録済みのフォーマットの文書が入力されたときに適合するフォーマットを選択して文書の変換を行うときに使用される。後述する図17B~図17Eのメニュー表示部1701も同様である。
ファイル一覧表示部1705には、文書管理システム100が返還した文書のファイルの一覧が表示される。例えば、各文書を識別する文書番号、文書の種類(例えば注文書など)を識別する文書種別、変換元のファイルの形式及び変換後のファイルの形式等が表示されてもよい。また、図17Aでは省略されているが、変換が行われた日時、変換が終了したかどうかのステータス等がさらに表示されてもよい。
図17Bには、フォーマット登録時の変換要求画面1710の例を示す。変換要求画面1710は、図17Aのホーム画面においてフォーマット登録ボタン1703が操作されたときに表示される画面であり、メニュー表示部1701及び登録要求部1711を含む。
登録要求部1711は、例えば、文書種別入力部1712、フォーマット名入力部1713、ファイル名入力部1714及び変換ボタン1715を含む。ユーザは、これからJSONファイルに変換しようとする文書401のフォーマットが未知である場合に、その文書401の種別を文書種別入力部1712に入力し、そこから抽出されたフォーマットを登録するときのフォーマット名をフォーマット名入力部1713に入力し、その文書401を識別するファイル名をファイル名入力部1714に入力して変換ボタン1715を操作する。これによって、当該文書401を対象として、図4Aに示した処理の実行が開始され、Key及びValueの抽出とそれに基づくフォーマット登録のために図5~図8に示した処理が実行される。
図17Cには、フォーマット登録時の修正判定・要求画面1720の例を示す。修正判定・要求画面1720は、図17Bに示した変換要求画面1710に必要な情報が入力され、文書の変換が実行されたときに、変換の結果を修正するために表示される画面であり、メニュー表示部1701及びフォーマット修正部1721を含む。
フォーマット修正部1721には、変換処理の結果として得られた各Keyに対応するValueが表示される。変換によって全てのKeyについて正しいValueが抽出されるとは限らないため、ユーザは、修正が必要と判断した場合には、フォーマット修正部1721に正しいValueを入力するなど、修正の指示を入力することができる。入力された修正の指示は、変換されたJSONファイル405及びフォーマットファイル406に反映される。
図17Dには、フォーマットを選択して変換するときの変換要求画面1730の例を示す。変換要求画面1730は、図17Aのホーム画面においてフォーマット選択・変換ボタン1704が操作されたときに表示される画面であり、メニュー表示部1701及び変換要求部1731を含む。
変換要求部1731は、例えば、フォーマット名入力部1732、ファイル名入力部1733及び変換ボタン1734を含む。ユーザは、これからJSONファイルに変換しようとする文書401のフォーマットが既知である場合に、その文書401のフォーマットを識別するフォーマット名をフォーマット名入力部1732に入力し、その文書401を識別するファイル名をファイル名入力部1733に入力して変換ボタン1734を操作する。これによって、当該文書401を対象として、図4Bに示した処理の実行が開始される。なお、変換要求部1731には、入力された文書401のイメージ1735が表示されてもよい。
図17Eには、フォーマットを選択して変換したときの修正判定・要求画面1740の例を示す。修正判定・要求画面1740は、図17Dに示した変換要求画面1730に必要な情報が入力され、文書の変換が実行されたときに、変換の結果を修正するために表示される画面であり、メニュー表示部1701及びフォーマット修正部1741を含む。
フォーマット修正部1741には、変換処理の結果として得られた各Keyに対応するValueが表示される。変換によって全てのKeyについて正しいValueが抽出されるとは限らないため、ユーザは、修正が必要と判断した場合には、フォーマット修正部1721に正しいValueを入力するなど、修正の指示を入力することができる。入力された修正の指示は、変換されたJSONファイル405に反映される。
また、本発明の実施形態のシステムは次のように構成されてもよい。
(1)文書管理システム(例えば文書管理システム100)であって、プロセッサ(例えばプロセッサ201)と、記憶装置(例えばメモリ202及び補助記憶装置203の少なくともいずれか)と、を有し、記憶装置は、文書中に記載された項目名(例えばKey)に関する辞書情報(例えば名寄せ辞書記憶部308に格納された名寄せ辞書1000)と、文書中の項目名に対応する項目値(例えばValue)の候補となるテキストの抽出条件を定義する定義情報(例えば定義ファイル記憶部309に格納された定義ファイル1100)と、項目名を第1の種類及び第2の種類のいずれかに分類する項目名種類情報(例えばKey種類記憶部310に格納されたKey種類情報1200)と、を保持し、定義情報は、項目名ごとに、複数の抽出条件(例えば複数の差分行、差分列パターン)を定義する情報を含み、プロセッサは、辞書情報に基づいて、入力された文書から項目名を抽出し(例えばステップ501)、定義情報に含まれる複数の抽出条件の各々に基づいて、項目値の候補のテキストを抽出し(例えばステップ701)、項目名種類情報に基づいて、抽出された項目名が第2の種類の項目名である場合に、抽出された項目名が第1の種類の項目名である場合とは異なる判定方法を抽出された項目値の候補に適用することによって、複数の抽出条件のいずれを採用するかを判定し(例えばステップ804~805)、項目名が文書から抽出された位置を示す情報と、採用された抽出条件に基づいて項目値の候補のテキストが文書から抽出された位置を示す情報とを含む文書フォーマット情報(例えばフォーマットファイル406)を生成する(例えばステップ503)。
これによって、多様なフォーマットの文書から情報を抽出するためのフォーマット情報の登録の工数を削減することができる
(2)上記(1)において、プロセッサは、抽出条件ごとに、1以上の項目値の候補のテキストを抽出し(例えばステップ701)、抽出された項目名が第2の種類の項目名である場合に、複数の抽出条件のうち、抽出された項目値の候補のテキストの数が最も多い抽出条件を採用すると判定する(例えばステップ805)。
これによって、例えば抽出された項目値の候補が単なる数字列である場合など、項目値の候補のテキストの書式に基づく判定が困難な場合であっても、適切なフォーマットの抽出が可能になる。
(3)上記(2)において、定義情報に含まれる複数の抽出条件の少なくとも一つは、項目値の候補となるテキストを抽出する処理の終了条件を含み(例えば図14Bに示した定義ファイル1410)、プロセッサは、終了条件が満たされるまで、1以上の項目値の候補のテキストを抽出する。
これによって、項目名に対応する項目値が複数ある場合にも、それらの項目値を適切に抽出することができる。
(4)上記(2)において、抽出条件は、項目名が文書から抽出された位置と、項目名に対応する項目値の候補となるテキストを文書から抽出する位置との関係によって定義される。
これによって、文書のフォーマットを適切に表現することができる。
(5)上記(4)において、項目名及び項目値の候補となるテキストの位置は、文書中の行番号及び列番号によって定義され、第2の種類の項目名は、文書中の複数の行又は複数の列から抽出される複数の項目値に対応する項目名である。
これによって、抽出された項目値の候補の数に基づいて、文書のフォーマットを適切に抽出することができる。
(6)上記(2)において、第2の種類の項目名は、各々が数値を示す1以上の項目値に対応する項目名である。
これによって、項目値のテキストの書式に基づく判定が困難な場合であっても、文書のフォーマットを適切に抽出することができる。
(7)上記(2)において、プロセッサは、項目名種類情報に基づいて、抽出された項目名が第1の種類の項目名である場合に、複数の抽出条件のうち、項目値の候補として抽出されたテキストが、抽出された項目名に対応する所定のテキストの書式に整合する抽出条件を採用すると判定する。
これによって、抽出した項目値のテキストの書式に基づいて、文書のフォーマットを適切に抽出することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100 文書管理システム
110 クライアント
200 計算機システム
201 プロセッサ
202 メモリ
203 補助記憶装置
204 出力装置
205 入力装置
206 通信インタフェース(I/F)
300 サーバ装置
301、321 制御部
302、322 通信部
303 行/列/テキスト情報抽出部
304 Key抽出部
305 Value抽出部
306 フォーマット登録部
307 判定部
308 名寄せ辞書記憶部
309 定義ファイル記憶部
310 Key種類記憶部
311 フォーマット記憶部
320 クライアント装置
323 表示部
324 入力部

Claims (9)

  1. 文書管理システムであって、
    プロセッサと、記憶装置と、を有し、
    前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第1の種類及び第2の種類のいずれかに分類する項目名種類情報と、を保持し、
    前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
    前記プロセッサは、
    前記辞書情報に基づいて、入力された文書から項目名を抽出し、
    前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出し、
    前記項目名種類情報に基づいて、前記抽出された項目名が前記第2の種類の項目名である場合に、前記抽出された項目名が前記第1の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定し、
    前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成することを特徴とする文書管理システム。
  2. 請求項1に記載の文書管理システムであって、
    前記プロセッサは、
    前記抽出条件ごとに、1以上の前記項目値の候補のテキストを抽出し、
    前記抽出された項目名が前記第2の種類の項目名である場合に、前記複数の抽出条件のうち、前記抽出された項目値の候補のテキストの数が最も多い前記抽出条件を採用すると判定することを特徴とする文書管理システム。
  3. 請求項2に記載の文書管理システムであって、
    前記定義情報に含まれる前記複数の抽出条件の少なくとも一つは、前記項目値の候補となるテキストを抽出する処理の終了条件を含み、
    前記プロセッサは、前記終了条件が満たされるまで、1以上の前記項目値の候補のテキストを抽出することを特徴とする文書管理システム。
  4. 請求項2に記載の文書管理システムであって、
    前記抽出条件は、前記項目名が前記文書から抽出された位置と、前記項目名に対応する項目値の候補となるテキストを前記文書から抽出する位置との関係によって定義されることを特徴とする文書管理システム。
  5. 請求項4に記載の文書管理システムであって、
    前記項目名及び前記項目値の候補となるテキストの位置は、前記文書中の行番号及び列番号によって定義され、
    前記第2の種類の項目名は、前記文書中の複数の行又は複数の列から抽出される複数の項目値に対応する項目名であることを特徴とする文書管理システム。
  6. 請求項2に記載の文書管理システムであって、
    前記第2の種類の項目名は、各々が数値を示す1以上の項目値に対応する項目名であることを特徴とする文書管理システム。
  7. 請求項2に記載の文書管理システムであって、
    前記プロセッサは、前記項目名種類情報に基づいて、前記抽出された項目名が前記第1の種類の項目名である場合に、前記複数の抽出条件のうち、前記項目値の候補として抽出されたテキストが、前記抽出された項目名に対応する所定のテキストの書式に整合する前記抽出条件を採用すると判定することを特徴とする文書管理システム。
  8. 文書管理システムが実行する文書管理方法であって、
    前記文書管理システムは、プロセッサと、記憶装置と、を有し、
    前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第1の種類及び第2の種類のいずれかに分類する項目名種類情報と、を保持し、
    前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
    前記文書管理方法は、
    前記プロセッサが、前記辞書情報に基づいて、入力された文書から項目名を抽出する第1手順と、
    前記プロセッサが、前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出する第2手順と、
    前記プロセッサが、前記項目名種類情報に基づいて、前記抽出された項目名が前記第2の種類の項目名である場合に、前記抽出された項目名が前記第1の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定する第3手順と、
    前記プロセッサが、前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成する第4手順と、を含むことを特徴とする文書管理方法。
  9. 文書管理システムを制御するための文書管理プログラムであって、
    前記文書管理システムは、プロセッサと、記憶装置と、を有し、
    前記記憶装置は、文書中に記載された項目名に関する辞書情報と、文書中の前記項目名に対応する項目値の候補となるテキストの抽出条件を定義する定義情報と、前記項目名を第1の種類及び第2の種類のいずれかに分類する項目名種類情報と、を保持し、
    前記定義情報は、前記項目名ごとに、複数の前記抽出条件を定義する情報を含み、
    前記文書管理プログラムは、
    前記辞書情報に基づいて、入力された文書から項目名を抽出する第1手順と、
    前記定義情報に含まれる前記複数の抽出条件の各々に基づいて、前記項目値の候補のテキストを抽出する第2手順と、
    前記項目名種類情報に基づいて、前記抽出された項目名が前記第2の種類の項目名である場合に、前記抽出された項目名が前記第1の種類の項目名である場合とは異なる判定方法を前記抽出された項目値の候補に適用することによって、前記複数の抽出条件のいずれを採用するかを判定する第3手順と、
    前記項目名が前記文書から抽出された位置を示す情報と、採用された前記抽出条件に基づいて前記項目値の候補のテキストが前記文書から抽出された位置を示す情報とを含む文書フォーマット情報を生成する第4手順と、を前記プロセッサに実行させることを特徴とする文書管理プログラム。
JP2022136339A 2022-08-29 2022-08-29 文書管理システム、文書管理方法及び文書管理プログラム Pending JP2024032608A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022136339A JP2024032608A (ja) 2022-08-29 2022-08-29 文書管理システム、文書管理方法及び文書管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022136339A JP2024032608A (ja) 2022-08-29 2022-08-29 文書管理システム、文書管理方法及び文書管理プログラム

Publications (1)

Publication Number Publication Date
JP2024032608A true JP2024032608A (ja) 2024-03-12

Family

ID=90193240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022136339A Pending JP2024032608A (ja) 2022-08-29 2022-08-29 文書管理システム、文書管理方法及び文書管理プログラム

Country Status (1)

Country Link
JP (1) JP2024032608A (ja)

Similar Documents

Publication Publication Date Title
US9697193B2 (en) Associating captured image data with a spreadsheet
US9213893B2 (en) Extracting data from semi-structured electronic documents
US10366123B1 (en) Template-free extraction of data from documents
US8140468B2 (en) Systems and methods to extract data automatically from a composite electronic document
US7783637B2 (en) Label system-translation of text and multi-language support at runtime and design
US20060156216A1 (en) Web page rendering based on object matching
US20060074987A1 (en) Term database extension for label system
WO2006075667A1 (ja) 情報処理装置ならびにファイルデータマージ方法およびファイル名称付与方法およびファイルデータ出力方法
JP2000285128A (ja) 業務分析システム
JP5016996B2 (ja) 財務書類作成システムおよび財務書類作成方法
US10241899B2 (en) Test input information search device and method
JP6670051B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112560418A (zh) 从自由形式的表格式数据创建行项目信息
JP2024032608A (ja) 文書管理システム、文書管理方法及び文書管理プログラム
EP3401799A1 (en) Data storage method and apparatus
CN115880703A (zh) 表单数据处理方法、装置、电子设备和存储介质
US11514060B2 (en) Support system, storage medium, and method for presenting relationships of items
JP5447082B2 (ja) 会計支援装置、会計支援プログラムおよび会計支援方法
WO2024090463A1 (ja) ソフトウェア構成管理データ構造、ソフトウェア構成管理データ作成支援装置、ソフトウェア構成管理データ作成支援方法
US20230325418A1 (en) System and Method for Joining Datasets
JP4957621B2 (ja) 取引データ登録プログラム、取引データ監視プログラム、取引データ登録装置、取引データ監視装置および取引データ追跡システム
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method
Kleine Tableau Prep Cookbook: Use Tableau Prep to clean, combine, and transform your data for analysis
JP2007148913A (ja) データ作成支援システム、データ作成支援装置およびデータ作成支援プログラム
JP2020004461A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20240412