JP2012063822A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2012063822A
JP2012063822A JP2010205281A JP2010205281A JP2012063822A JP 2012063822 A JP2012063822 A JP 2012063822A JP 2010205281 A JP2010205281 A JP 2010205281A JP 2010205281 A JP2010205281 A JP 2010205281A JP 2012063822 A JP2012063822 A JP 2012063822A
Authority
JP
Japan
Prior art keywords
document
template
comparison
folder
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010205281A
Other languages
English (en)
Other versions
JP5510221B2 (ja
Inventor
Yutaka Komatsu
裕 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2010205281A priority Critical patent/JP5510221B2/ja
Publication of JP2012063822A publication Critical patent/JP2012063822A/ja
Application granted granted Critical
Publication of JP5510221B2 publication Critical patent/JP5510221B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力するようにした情報処理装置を提供する。
【解決手段】情報処理装置の受付手段は、第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付け、文書抽出手段は、文書記憶手段から、第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出し、雛形文書生成手段は、複数の第2の文書を解析して、雛形となる文書である雛形文書を生成し、比較文書生成手段は、雛形文書に基づいて、第1の文書と比較するための文書である比較文書を生成し、差異抽出手段は、比較文書と第1の文書を比較して差異を抽出し、出力手段は、差異を出力する。
【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、誤った内容の要素の作成、必須要素の記入漏れを防止する装置、及び誤記や誤りを含んだ情報があった場合に内容を自動生成する装置を提供することを目的とし、この文書管理装置は、文書タイプ定義手段、文書構文検査手段、要素属性定義手段、要素内容生成手段、文書登録手段及び文書記憶手段とからなり、文書タイプ定義手段では、文書のタイプとして、内部要素とその間の関係を定義し、その文書が文書タイプに適合しているかどうかを文書構文検査手段で検査し、適合しているものを文書登録手段で登録し、このとき、書き込み不可要素がある場合、又は必須要素が設定されていない場合に登録を拒否しユーザーに書き直しを命じ、また、登録時に要素内容生成手段により自動的に内容を設定して情報の漏れや誤記を防止することが開示されている。
特許文献2には、作業対象のドキュメントに関して過去に作業したドキュメントとの相違部分を読み取ることを支援する読取支援装置を提供することを課題とし、参照ドキュメント記憶手段が参照ドキュメントの候補を記憶し、取得手段が作業対象のドキュメントを取得し、参照ドキュメント選択手段が当該作業対象のドキュメントに基づいて参照ドキュメントの候補の中から比較対象とする参照ドキュメントを選択し、比較手段が当該参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出し、出力手段が当該相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力し、また、参照ドキュメント記憶手段が参照ドキュメントの候補と関連付けてその作業に関する情報を記憶し、出力手段が当該情報を出力することが開示されている。
特許文献3には、新規文書の文書タイプ別の登録を自動的に行うことによりユーザー側の面倒な作業を不要とすることを課題とし、所定の複数の振り分け項目に基づいて定義された複数の文書タイプが文書タイプ別に分類して登録された文書タイプ格納手段と、新規文書から全文テキストデータを抽出するテキスト抽出手段と、全文テキストデータと文書タイプとを比較し、全文テキストデータに相応した文書タイプがあるか否かを判断する判断手段と、判断手段が全文テキストデータに相応した文書タイプがあると判断したとき、新規文書をその文書タイプ別に登録し、全文テキストデータに相応した文書タイプがないと判断したとき、新規文書を新たな文書タイプとして登録する登録手段とを有することが開示されている。
特開平06−103268号公報 特開2001−297080号公報 特開2006−259997号公報
本発明は、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、前記差異抽出手段によって抽出された差異を出力する出力手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分、複数の前記第2の文書間で同じ部分、複数の前記第2の文書間で異なる部分、のいずれか1つ以上を抽出し、該抽出した部分に基づいて、雛形文書を生成することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分については、該属性を用いた規則を生成し、該規則を前記雛形文書に組み込むことを特徴とする請求項2に記載の情報処理装置である。
請求項4の発明は、前記雛形文書生成手段は、複数の前記第2の文書間で同じ部分については、前記雛形文書内に該部分を用いることを特徴とする請求項2又は3に記載の情報処理装置である。
請求項5の発明は、前記雛形文書生成手段は、複数の前記第2の文書間で異なる部分については、前記雛形文書内では比較対象とはしない部分とすることを特徴とする請求項2から4のいずれか一項に記載の情報処理装置である。
請求項6の発明は、コンピュータを、第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、前記差異抽出手段によって抽出された差異を出力する出力手段として機能させることを特徴とする情報処理プログラムである。
請求項1の情報処理装置によれば、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力することができる。
請求項2の情報処理装置によれば、本構成を有していない場合に比較して、文書間で同じ部分、異なる部分のいずれか1つ以上を抽出でき、抽出した結果に基づいて、比較文書を生成するための雛形文書を生成することができる。
請求項3の情報処理装置によれば、規則を雛形文書内に組み込むことができる。
請求項4の情報処理装置によれば、第2の文書間で同じ部分を雛形文書内に用いることができる。
請求項5の情報処理装置によれば、第2の文書間で異なる部分については、雛形文書内では比較対象とはしない部分とすることができる。
請求項6の情報処理プログラムによれば、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 文書記憶モジュール内のフォルダ構造を示す説明図である。 文書、文書属性、フォルダ属性の例を示す説明図である。 文書、文書属性、フォルダ属性の例を示す説明図である。 文書、文書属性、フォルダ属性の例を示す説明図である。 比較結果・テンプレート文書の例を示す説明図である。 テンプレートテーブルのデータ構造例を示す説明図である。 比較文書の例を示す説明図である。 差異表示文書の例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置は、図1の例に示すように、受付モジュール110、類似文書抽出モジュール120、文書記憶モジュール130、文書比較モジュール140、テンプレート文書生成モジュール150、比較文書生成モジュール160、差異検出モジュール170、出力モジュール180を有している。
なお、文書とは、テキストデータ、場合によっては画像、動画、音声等の電子データ、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成ソフトウェアによって生成された電子文書、画像データ、電子メール等が該当する。
文書の格納先又は文書の格納先を示す格納先情報をフォルダともいう。なお、OS(Operating System)によっては、フォルダはディレクトリーともいわれる。
受付モジュール110は、類似文書抽出モジュール120、差異検出モジュール170と接続されている。受付モジュール110は、文書102とその文書102の格納先フォルダ104を受け付ける。文書102は、格納先フォルダ104へ格納しようとしている場合、又は格納先フォルダ104へ既に格納した場合のいずれであってもよい。例えば、マウス、キーボード、タッチパネル等に対する操作者の操作に基づいて、文書102が選択され、格納先フォルダ104へ移動又は複写された場合が該当する。
文書記憶モジュール130は、類似文書抽出モジュール120と接続されている。文書記憶モジュール130は、文書とフォルダを階層構造として記憶する。ここでの階層構造について説明する。文書の集合(0個以上の文書)をフォルダに格納する。文書、フォルダのいずれか又は文書とフォルダの集合をフォルダに格納する。このようにして、文書、フォルダを構成要素とする階層構造を構成する。いわゆるファイルシステムである。なお、フォルダには名前をつけることができる。文書記憶モジュール130に記憶されている内容(文書、フォルダ、フォルダ構造)に対して、類似文書抽出モジュール120からアクセスされる。
類似文書抽出モジュール120は、受付モジュール110、文書記憶モジュール130、文書比較モジュール140と接続されている。類似文書抽出モジュール120は、文書記憶モジュール130から、受付モジュール110によって受け付けられた格納先フォルダ104を含む構造に類似する構造のフォルダを特定し、受付モジュール110によって受け付けられた文書102に類似する文書を、その特定したフォルダに格納されている文書から抽出する。
2段階で、類似する文書を特定する。
まずは、格納先フォルダ104を含む構造に類似するフォルダを特定する。格納先フォルダ104を含む構造とは、格納先フォルダ104と格納先フォルダ104に関連するフォルダ間の関係をいう。格納先フォルダ104に関連するフォルダとは、例えば、格納先フォルダ104に対して、親(上位)のフォルダ、さらにその親のフォルダ、子(下位)のフォルダ、さらにその子のフォルダ、兄弟のフォルダ(同じ親フォルダを有している他のフォルダ)等をいう。類似するフォルダとは、格納先フォルダ104に関連するフォルダ間の関係と同じ又は類似する関係を有しているフォルダをいう。例えば、格納先フォルダ104と同じ名前のフォルダ、格納先フォルダ104の親フォルダと同じ名前の親フォルダを有しているフォルダ、格納先フォルダ104の子フォルダと同じ名前の子フォルダを有しているフォルダ、格納先フォルダ104と予め定められた数の文字数だけ異なる名前のフォルダ、格納先フォルダ104の親フォルダと予め定められた数の文字数だけ異なる名前の親フォルダを有しているフォルダ、格納先フォルダ104の子フォルダと予め定められた数の文字数だけ異なる名前の子フォルダを有しているフォルダ等がある。類似するか否かの比較は、パス名の比較によって行うようにしてもよい。予め定められた数としては、例えば、1文字、2文字等がある。また、パス名内の予め定められた数のフォルダの名前だけが異なる場合に類似と判断してもよい。
次に、文書102に類似する文書を、前述の類似しているフォルダに格納されている文書から抽出する。例えば、文書102と同じ名前の文書、文書102と予め定められた数の文字数だけ異なる名前の文書、文書102の内容と同じ内容の文書、文書102の内容と予め定められた数の文字数だけ異なる内容の文書、文書102の属性と同じ属性の文書、文書102の属性と予め定められた数の文字数だけ異なる属性を有している文書等がある。予め定められた数としては、例えば、文書の内容の場合は文書の容量に応じて決定してもよい。
文書比較モジュール140、テンプレート文書生成モジュール150は、類似文書抽出モジュール120によって抽出された複数の類似文書を解析して、雛形(以下、テンプレートともいう)となる文書であるテンプレート文書を生成する。ここでの解析とは、文書の属性と対応する部分、複数の文書間で同じ部分、異なる部分を抽出することである。
文書比較モジュール140は、類似文書抽出モジュール120、テンプレート文書生成モジュール150と接続されている。文書比較モジュール140は、類似文書抽出モジュール120によって抽出された類似文書に対して、(1)類似文書内でその類似文書に関する属性と対応する部分、(2)複数の類似文書間で同じ部分、(3)複数の類似文書間で異なる部分、のいずれか1つ以上を抽出する。
以下、これらの部分について説明する。
(1)類似文書内でその類似文書に関する属性と対応する部分について
類似文書に関する属性とは、その類似文書の属性、その類似文書が格納されているフォルダの属性、そのフォルダと関連するフォルダの属性がある。例えば、類似文書内に担当者名の記載がある場合であって、その類似文書の属性としての「格納者」と同じであれば、この(1)に該当する。また、類似文書内に宛先名称の記載がある場合であって、その類似文書が格納されているフォルダの2つ上のフォルダ名と同じであれば、この(1)に該当する。
(2)複数の類似文書間で同じ部分について
類似文書抽出モジュール120によって抽出された複数の類似文書間を比較する。内容を比較して、同じ部分を抽出する。例えば、類似文書内のタイトルの記載が同じ場合は、この(2)に該当する。なお、(1)の抽出を先に行う。複数の類似文書間で同じ部分であるが(1)にも該当する部分である場合は、(1)に該当する部分として抽出することになる。
(3)複数の類似文書間で異なる部分について
類似文書抽出モジュール120によって抽出された複数の類似文書間を比較する。内容を比較して、異なる部分を抽出する。類似する文書ではあるが、その文書固有の記載がある。これらの記載部分が(3)に該当する。
テンプレート文書生成モジュール150は、文書比較モジュール140、比較文書生成モジュール160と接続されている。テンプレート文書生成モジュール150は、文書比較モジュール140によって抽出された部分を用いて、テンプレート文書を生成する。
テンプレート文書生成モジュール150は、類似文書内でその類似文書に関する属性と対応する部分については、その属性を用いた規則を生成し、その規則をテンプレート文書に組み込むようにしてもよい。属性を用いた規則とは、前述の例では、属性としての「格納者」が記載されている領域であることを示す規則である。また、属性としての「文書が格納されているフォルダの2つ上のフォルダ名」が記載されている領域であることを示す規則である。規則の適用については、比較文書生成モジュール160の説明で述べる。また、規則をテンプレート文書に組み込むとは、テンプレート文書から比較文書を生成する場合に、その規則を適用できるようにしたものである。規則自体をテンプレート文書内に記憶させてもよいし、テンプレート文書から比較文書を生成する場合に、アクセスできるようになっていれば、どこに記憶されていてもよい。
テンプレート文書生成モジュール150は、複数の類似文書間で同じ部分については、テンプレート文書内にその部分を用いるようにしてもよい。つまり、複数の類似文書間で同じ部分は、テンプレート文書でもそのまま用いられる。
テンプレート文書生成モジュール150は、複数の類似文書間で異なる部分については、テンプレート文書内では比較対象とはしない部分とするようにしてもよい。つまり、複数の類似文書間で異なる部分は、その文書固有のことが記載される領域であるので、比較文書においては、対象の文書と比較しても、比較対象とはしない部分とするものである。後述する自由記載欄が該当する。
比較文書生成モジュール160は、テンプレート文書生成モジュール150、差異検出モジュール170と接続されている。比較文書生成モジュール160は、テンプレート文書生成モジュール150によって生成されたテンプレート文書に基づいて、受付モジュール110によって受け付けられた文書102と比較するための文書である比較文書を生成する。つまり、文書102は、格納先フォルダ104に格納される文書としてふさわしい文書であるか否かを判断するため、テンプレート文書から文書102と比較するための文書(比較文書)を生成する。
具体的には、テンプレート文書内の規則を適用して、比較文書を生成する。規則を適用する場合に、文書102に関する属性を用いる。この規則を適用するとは、前述の例で、属性としての「格納者」が記載されている領域であることを示す規則の場合、文書102の属性である「格納者」の文字列をその領域内に記載することである。なお、文書102に関する属性として、格納先フォルダ104の属性、格納先フォルダ104に関連するフォルダの属性も含む。この場合の規則を適用するとは、前述の例で、属性としての「文書が格納されているフォルダの2つ上のフォルダ名」が記載されている領域であることを示す規則の場合、格納先フォルダ104の2つ上のフォルダ名をその領域内に記載することである。
差異検出モジュール170は、受付モジュール110、比較文書生成モジュール160、出力モジュール180と接続されている。差異検出モジュール170は、比較文書生成モジュール160によって生成された比較文書と受付モジュール110によって受け付けられた文書102を比較して差異を抽出する。つまり、比較文書は、格納先フォルダ104に格納される文書としてふさわしい文書(既に作成された文書等である格納先フォルダ104に類似しているフォルダ内にある類似文書等から生成された文書)であるので、これと文書102を比較して差異を抽出することによって、その差異部分を文書102の誤りの可能性がある部分として抽出する。
出力モジュール180は、差異検出モジュール170と接続されている。出力モジュール180は、差異検出モジュール170によって抽出された差異を、文書102の誤りの可能性がある部分として出力する。ここで差異を出力するとは、文書102内の差異がある部分を他の部分とは異なる形態(色、形状、模様、出力方法、又はこれらの組み合わせ)で出力するようにしてもよい。例えば、文書102を表示する場合に、その部分を赤くして表示する、矩形で囲って表示する、背景に模様を付して表示する、点滅表示する等が該当する。また、出力には、出力対象を画像とする場合、例えば、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ差異の情報を含む文書画像を書き込むこと等がある。また、出力対象を差異の情報を含む文書(例えば、差異の情報が追記された文書であってもよいし、差異の情報と文書へのリンクによって構成されている情報であってもよい)とする場合、ハードディスク装置、メモリーカード等の記憶媒体に記憶すること、文書データベース等の文書記憶装置へ差異の情報を含む文書を書き込むこと、他の情報処理装置(例えば、差異部分を通知する通知用プログラム等であってもよい)へ送信すること等がある。
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、受付モジュール110が、文書A1と格納先のフォルダBを受け付ける。
例えば、文書記憶モジュール130は、図3に例示するフォルダ構造の文書群を記憶している。これは、見積業務用に作成されたものであり、宛先の会社毎にファイルが分類されており、見積番号毎に見積、承認、発注、納品等の業務毎のフォルダが構成されている。そして、業務毎のフォルダ内にその業務で使用する又は使用された文書が格納されている。具体的には、見積業務フォルダ300には、A社フォルダ302、B社フォルダ348、C社フォルダ358、D社フォルダ360がある。A社フォルダ302には、見積0001フォルダ304、見積0003フォルダ338がある。見積0001フォルダ304には、見積フォルダ306、承認フォルダ312、発注フォルダ318、納品フォルダ322がある。見積フォルダ306には、見積書308、見積回答書310がある。承認フォルダ312には、承認依頼書314、承認書316がある。発注フォルダ318には、発注書320がある。納品フォルダ322には、納品書324がある。見積0002フォルダ326には、見積フォルダ328、承認フォルダ334、発注フォルダ336がある。見積フォルダ328には、見積書330、見積回答書332がある。見積0003フォルダ338には、見積フォルダ340、承認フォルダ342、発注フォルダ344、納品フォルダ346がある。B社フォルダ348には、見積0101フォルダ350、見積0102フォルダ352、見積0103フォルダ354、見積0104フォルダ356がある。
このようなフォルダ構造に対して、操作者の操作に応じて、文書A1として文書400を、格納先のフォルダBとして見積フォルダ340に格納しようとしている場合(又は格納した場合)に、文書400と見積フォルダ340を受け付ける。図4は、文書400、文書400の文書属性410、文書400のフォルダ属性420(格納先フォルダの属性の一例)の例を示す説明図である。フォルダ属性420は、文書400を見積フォルダ340に格納した場合のパス名である。
ステップS204では、類似文書抽出モジュール120が文書記憶モジュール130から、格納先のフォルダB1と関連するフォルダによって構成されるフォルダ構造と類似するフォルダ構造を有するフォルダB2を抽出する。
前述の例で示すと、見積フォルダ340に類似するフォルダ構造を有するフォルダBとして、見積フォルダ306、見積フォルダ328を抽出する。パス名内の1つのフォルダ名だけが異なる場合(パス名内の見積0003フォルダ338に対して見積0001フォルダ304、見積0002フォルダ326の部分が異なるだけ)に該当し、類似するフォルダとして抽出する。例えば、パス名が類似しているか否かを判断のために、類似している場合を正規表現等を用いて予め定めておいてもよい。
ステップS206では、類似文書抽出モジュール120が文書記憶モジュール130から、抽出したフォルダB2内から文書A1と類似する文書A2を抽出する。
前述の例で示すと、見積フォルダ306、見積フォルダ328内の文書から、文書400と類似する文書A2として、見積書308、見積書330を抽出する。見積書308の内容は文書500である。見積書330の内容は文書600である。図5は、文書500、文書500の文書属性510、文書500のフォルダ属性520(格納先フォルダの属性の一例)の例を示す説明図である。図6は、文書600、文書600の文書属性610、文書600のフォルダ属性620(格納先フォルダの属性の一例)の例を示す説明図である。文書400の文書名、内容等と、文書500、文書600の文書名、内容等を比較して、異なる部分が予め定められた割合よりも少ない場合に該当するので、類似していると判断している。
ステップS208では、文書比較モジュール140が、抽出した複数の文書A2に対して、(1)文書A2に関する属性と対応する部分(なお、複数の文書A2で同様の対応があることを条件としてもよい)、(2)複数の文書A2間で同じ部分、(3)複数の文書A2間で異なる部分を抽出する。
前述の例を用いると、文書500と文書600を比較した結果の例を比較結果・テンプレート文書700に示す。図7は、比較結果・テンプレート文書700の例を示す説明図である。比較結果・テンプレート文書700は、領域710から領域730を有している。これらの領域は、句読点、改行コード、記号(例えば、「:」等)、フィールド、構造化文書の場合はタグ等、又は構文解析の結果で分割した結果である。この領域毎にステップS208の処理を行う。
「(1)文書A2に関する属性と対応する部分」として、領域712、領域722、領域728、領域730を抽出する。なお、領域712は、格納フォルダ(見積フォルダ306、見積フォルダ328)の2つ上のフォルダ名(A社フォルダ302)に対応する。領域722は、格納フォルダ(見積フォルダ306、見積フォルダ328)の1つ上のフォルダ名(見積0001フォルダ304、見積0002フォルダ326)に対応する。領域728は、属性「格納者」に対応する。領域730は、属性「格納日」に対応する。
「(2)複数の文書A2間で同じ部分」として、領域710、領域714、領域716、領域720、領域724、領域726を抽出する。
「(3)複数の文書A2間で異なる部分」として、領域718を抽出する。
なお、(1)、(2)、(3)の部分の抽出の対象として、文書内のテキストに限られず、画像の場合はその画像に対する文字認識結果、文字サイズ、文字色などを含めてもよい。例えば、(2)、(3)の部分を抽出するために複数の文書間で比較する場合に、テキストのみならず、文字サイズ、文字色などを含めた比較をして同じ部分、異なる部分を抽出するようにしてもよい。
ステップS210では、テンプレート文書生成モジュール150が、ステップS208で抽出した部分に対して、以下の処理を行い、テンプレート文書を生成する。(A)(1)の部分については、属性を用いたルールを生成する、(B)(2)の部分については、その部分をそのまま利用する、(C)(3)の部分については、自由記述部分とする。
生成したテンプレート文書の例として、比較結果・テンプレート文書700を示す。図7は、比較結果・テンプレート文書700の例を示す説明図である。比較結果・テンプレート文書700は、領域710から領域730を有している。各領域のステップS210の処理結果として、テンプレートテーブル800を生成する。そして、比較結果・テンプレート文書700にテンプレートテーブル800を組み込む。図8は、テンプレートテーブル800のデータ構造例を示す説明図である。テンプレートテーブル800は、ID欄810、領域欄820、ルール欄830を有している。ID欄810は、本実施の形態において領域を一意に識別する符号を記憶する。領域欄820は、その領域の位置を記憶する。領域欄820は、X欄822、Y欄824、W欄826、H欄828を有している。X欄822は、その領域の左上座標のX座標を記憶する。Y欄824は、その領域の左上座標のY座標を記憶する。W欄826は、その領域の幅を記憶する。H欄828は、その領域の高さを記憶する。ルール欄830は、その領域に適用されるルールを記憶する。なお、領域欄820として、文書内の座標によって位置を特定したが、文書内の位置を特定し得るものであれば、フィールド、構造化文書の場合であればタグ等であってもよい。
ステップS212では、比較文書生成モジュール160が、テンプレート文書に対して、文書A1に関する属性を適用して、比較文書を生成する。
前述の例を用いると、文書400に対して比較結果・テンプレート文書700に組み込まれているテンプレートテーブル800を適用した結果の例が、比較文書900である。図9は、比較文書900の例を示す説明図である。比較文書900は、領域912、領域918、領域922、領域928、領域930を有している。領域912は、格納フォルダ(見積フォルダ340)の2つ上のフォルダ名(A社フォルダ302)を使用したものである。領域918は、自由記載欄としたものである。領域922は、格納フォルダ(見積フォルダ340)の1つ上のフォルダ名(見積0003フォルダ338)を使用したものである。領域928は、文書400の文書属性410内の「格納者」を使用したものである。領域930は、文書400の文書属性410内の「格納日」を使用したものである。
ステップS214では、差異検出モジュール170が、文書A1と比較文書を比較して、差異部分を検出する。
前述の例を用いると、文書400と比較文書900を比較する。差異部分は、比較文書900で表すと領域922であり、文書400の該当部分は「見積0005」となっているが、比較文書900では「見積0003」となっている。なお、領域918は、文書400との比較対象とはしていない。
ステップS216では、出力モジュール180が、差異部分を誤りの可能性がある部分として出力する。
前述の例を用いると、文書400と比較文書900の差異部分を差異表示文書1000の例のように出力する。図10は、差異表示文書1000の例を示す説明図である。差異表示文書1000は、領域1022を有している。領域1022が差異部分であり、誤りの可能性があること(見積0003フォルダ338に格納しようとしている又は格納したにもかかわらず、依頼番号が見積0005となっていること)を指摘している。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図11に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1101を用い、記憶装置としてRAM1102、ROM1103、HD1104を用いている。HD1104として、例えばハードディスクを用いてもよい。受付モジュール110、類似文書抽出モジュール120、文書比較モジュール140、テンプレート文書生成モジュール150、比較文書生成モジュール160、差異検出モジュール170、出力モジュール180等のプログラムを実行するCPU1101と、そのプログラムやデータを記憶するRAM1102と、本コンピュータを起動するためのプログラム等が格納されているROM1103と、補助記憶装置であるHD1104と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1106と、CRT、液晶ディスプレイ等の出力装置1105と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1107、そして、それらをつないでデータのやりとりをするためのバス1108により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図11に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態では、類似文書として2つの文書を抽出し、テンプレート文書を生成していたが、3つ以上の類似文書を抽出するようにしてもよい。文書比較モジュール140は、確率を用いて、「(1)類似文書内でその類似文書に関する属性と対応する部分」、「(2)複数の類似文書間で同じ部分」、「(3)複数の類似文書間で異なる部分」を抽出してもよい。例えば、文書の1行目は、5つの文書のうち4つの文書は同じであるが、1つが異なる場合は、80%の確率(同じである割合)で4つの文書の1行目を採用したことを抽出結果内に含めるようにしてもよい。そして、テンプレート文書生成モジュール150はその確率を規則(テンプレートテーブル800のルール欄830)内に含め、比較文書生成モジュール160は領域内にその確率を含め、差異検出モジュール170は比較結果にその確率を含めるようにしてもよい。そして、出力モジュール180は、その確率で誤っている可能性があることを指摘するように出力してもよい。前述の例では、対象文書の1行目が比較文書と異なっている場合は、80%の確率で対象文書の1行目は誤っていること、正しいのは比較文書の1行目(4つの文書の1行目)である可能性が80%であることを指摘して出力するようにしてもよい。同様に、4つ以上の類似文書の場合に50%の確率で属性「格納日」と一致している部分が間違っている場合は、「類似文書の50%は、第X行目に格納日と同じ日時が記載されています。内容を確認してください。」等のメッセージを出力するようにしてもよい。なお、類似文書が2つの場合、確率50%であることは異なっていることであるので、同じ部分ではなく、差異部分として抽出する。確率を用いるのは3つ以上の類似文書を抽出した場合としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
102…文書
104…格納先フォルダ
110…受付モジュール
120…類似文書抽出モジュール
130…文書記憶モジュール
140…文書比較モジュール
150…テンプレート文書生成モジュール
160…比較文書生成モジュール
170…差異検出モジュール
180…出力モジュール

Claims (6)

  1. 第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、
    文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、
    前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、
    前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、
    前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、
    前記差異抽出手段によって抽出された差異を出力する出力手段
    を具備することを特徴とする情報処理装置。
  2. 前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分、複数の前記第2の文書間で同じ部分、複数の前記第2の文書間で異なる部分、のいずれか1つ以上を抽出し、該抽出した部分に基づいて、雛形文書を生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分については、該属性を用いた規則を生成し、該規則を前記雛形文書に組み込む
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記雛形文書生成手段は、複数の前記第2の文書間で同じ部分については、前記雛形文書内に該部分を用いる
    ことを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記雛形文書生成手段は、複数の前記第2の文書間で異なる部分については、前記雛形文書内では比較対象とはしない部分とする
    ことを特徴とする請求項2から4のいずれか一項に記載の情報処理装置。
  6. コンピュータを、
    第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、
    文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、
    前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、
    前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、
    前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、
    前記差異抽出手段によって抽出された差異を出力する出力手段
    として機能させることを特徴とする情報処理プログラム。
JP2010205281A 2010-09-14 2010-09-14 情報処理装置及び情報処理プログラム Expired - Fee Related JP5510221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010205281A JP5510221B2 (ja) 2010-09-14 2010-09-14 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010205281A JP5510221B2 (ja) 2010-09-14 2010-09-14 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2012063822A true JP2012063822A (ja) 2012-03-29
JP5510221B2 JP5510221B2 (ja) 2014-06-04

Family

ID=46059508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010205281A Expired - Fee Related JP5510221B2 (ja) 2010-09-14 2010-09-14 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5510221B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108982A (ja) * 2013-12-05 2015-06-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN109241500A (zh) * 2018-08-14 2019-01-18 中国平安人寿保险股份有限公司 文件批量比对方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2001297080A (ja) * 2000-04-14 2001-10-26 Fuji Xerox Co Ltd 読取支援装置
JP2002288675A (ja) * 2001-03-28 2002-10-04 Nec Corp 帳票識別方法、帳票識別プログラム、および帳票識別方式
JP2005209071A (ja) * 2004-01-26 2005-08-04 Seiko Epson Corp テンプレート生成装置
JP2010092227A (ja) * 2008-10-07 2010-04-22 Ntt Data Corp 文書作成支援装置、文書作成支援方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243423A (ja) * 2000-02-28 2001-09-07 Toshiba Corp 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP2001297080A (ja) * 2000-04-14 2001-10-26 Fuji Xerox Co Ltd 読取支援装置
JP2002288675A (ja) * 2001-03-28 2002-10-04 Nec Corp 帳票識別方法、帳票識別プログラム、および帳票識別方式
JP2005209071A (ja) * 2004-01-26 2005-08-04 Seiko Epson Corp テンプレート生成装置
JP2010092227A (ja) * 2008-10-07 2010-04-22 Ntt Data Corp 文書作成支援装置、文書作成支援方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108982A (ja) * 2013-12-05 2015-06-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN109241500A (zh) * 2018-08-14 2019-01-18 中国平安人寿保险股份有限公司 文件批量比对方法、装置、计算机设备和存储介质
CN109241500B (zh) * 2018-08-14 2023-02-03 中国平安人寿保险股份有限公司 文件批量比对方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP5510221B2 (ja) 2014-06-04

Similar Documents

Publication Publication Date Title
JP7201299B2 (ja) コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
JP4682284B2 (ja) 文書差分検出装置
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US20200097451A1 (en) System and method of recognizing data in a table area from unstructured data
JP2009224958A (ja) 業務手順推定システム及びプログラム
US11670067B2 (en) Information processing apparatus and non-transitory computer readable medium
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5510221B2 (ja) 情報処理装置及び情報処理プログラム
JP6596848B2 (ja) アクセス権推定装置及びアクセス権推定プログラム
JP5481965B2 (ja) 情報処理装置及び情報処理プログラム
JP2008052439A (ja) 画像処理システムおよび画像処理プログラム
JP2019057137A (ja) 情報処理装置及び情報処理プログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP5391887B2 (ja) 情報処理装置及び情報処理プログラム
JP7027696B2 (ja) 情報処理装置及び情報処理プログラム
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
JP6201779B2 (ja) 情報処理装置及び情報処理プログラム
US20110302384A1 (en) Computer readable medium storing information processing program, information processing apparatus, and information processing method
US20210191991A1 (en) Information processing apparatus and non-transitory computer readable medium
US11410441B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
JP7404943B2 (ja) 情報処理装置及び情報処理プログラム
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP6554804B2 (ja) 情報処理装置及び情報処理プログラム
JP6476988B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140310

R150 Certificate of patent or registration of utility model

Ref document number: 5510221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees