JP5510221B2 - Information processing apparatus and information processing program - Google Patents
Information processing apparatus and information processing program Download PDFInfo
- Publication number
- JP5510221B2 JP5510221B2 JP2010205281A JP2010205281A JP5510221B2 JP 5510221 B2 JP5510221 B2 JP 5510221B2 JP 2010205281 A JP2010205281 A JP 2010205281A JP 2010205281 A JP2010205281 A JP 2010205281A JP 5510221 B2 JP5510221 B2 JP 5510221B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- folder
- template
- comparison
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 27
- 238000000605 extraction Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus and an information processing program.
特許文献1には、誤った内容の要素の作成、必須要素の記入漏れを防止する装置、及び誤記や誤りを含んだ情報があった場合に内容を自動生成する装置を提供することを目的とし、この文書管理装置は、文書タイプ定義手段、文書構文検査手段、要素属性定義手段、要素内容生成手段、文書登録手段及び文書記憶手段とからなり、文書タイプ定義手段では、文書のタイプとして、内部要素とその間の関係を定義し、その文書が文書タイプに適合しているかどうかを文書構文検査手段で検査し、適合しているものを文書登録手段で登録し、このとき、書き込み不可要素がある場合、又は必須要素が設定されていない場合に登録を拒否しユーザーに書き直しを命じ、また、登録時に要素内容生成手段により自動的に内容を設定して情報の漏れや誤記を防止することが開示されている。 Patent Document 1 aims to provide a device that prevents the creation of elements with incorrect contents, omissions in the entry of essential elements, and a device that automatically generates contents when there is information that includes errors or errors. The document management apparatus includes a document type defining unit, a document syntax checking unit, an element attribute defining unit, an element content generating unit, a document registering unit, and a document storing unit. Define the elements and the relationship between them, check whether the document conforms to the document type with the document syntax checking means, and register the matching with the document registration means. At this time, there are non-writable elements If the required element is not set, the registration is rejected and the user is asked to rewrite the information. It discloses that to prevent.
特許文献2には、作業対象のドキュメントに関して過去に作業したドキュメントとの相違部分を読み取ることを支援する読取支援装置を提供することを課題とし、参照ドキュメント記憶手段が参照ドキュメントの候補を記憶し、取得手段が作業対象のドキュメントを取得し、参照ドキュメント選択手段が当該作業対象のドキュメントに基づいて参照ドキュメントの候補の中から比較対象とする参照ドキュメントを選択し、比較手段が当該参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出し、出力手段が当該相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力し、また、参照ドキュメント記憶手段が参照ドキュメントの候補と関連付けてその作業に関する情報を記憶し、出力手段が当該情報を出力することが開示されている。 In Patent Document 2, it is an object to provide a reading support device that supports reading a difference portion of a work target document from a document that has been worked in the past, and a reference document storage unit stores reference document candidates. The acquisition means acquires the work target document, the reference document selection means selects a reference document to be compared from candidate reference documents based on the work target document, and the comparison means selects the reference document and the work target. And the output means outputs the document to be worked on by changing the output mode of the different parts and other parts, and the reference document storage means is a candidate for the reference document. Information related to the work is stored and the output means stores the information. It is disclosed that force.
特許文献3には、新規文書の文書タイプ別の登録を自動的に行うことによりユーザー側の面倒な作業を不要とすることを課題とし、所定の複数の振り分け項目に基づいて定義された複数の文書タイプが文書タイプ別に分類して登録された文書タイプ格納手段と、新規文書から全文テキストデータを抽出するテキスト抽出手段と、全文テキストデータと文書タイプとを比較し、全文テキストデータに相応した文書タイプがあるか否かを判断する判断手段と、判断手段が全文テキストデータに相応した文書タイプがあると判断したとき、新規文書をその文書タイプ別に登録し、全文テキストデータに相応した文書タイプがないと判断したとき、新規文書を新たな文書タイプとして登録する登録手段とを有することが開示されている。 In Patent Document 3, it is an object to eliminate the troublesome work on the user side by automatically registering a new document for each document type, and a plurality of items defined based on a plurality of predetermined distribution items. Document type storage means that is registered with document types classified by document type, text extraction means that extracts full text data from a new document, full text data and document type are compared, and the document corresponding to the full text data When the judging means for judging whether or not there is a type and when the judging means judges that there is a document type corresponding to the full text data, a new document is registered for each document type, and the document type corresponding to the full text data is determined. It is disclosed that a registration unit that registers a new document as a new document type when it is determined that there is no such document is disclosed.
本発明は、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。 An object of the present invention is to provide an information processing apparatus and an information processing program that output a difference between a storage target document and a comparison document without creating a comparison document in advance.
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、前記差異抽出手段によって抽出された差異を出力する出力手段を具備することを特徴とする情報処理装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
The invention of claim 1 includes: a receiving unit that receives a first document and first storage location information indicating a storage location of the first document; and a document storage unit that stores the document and the storage location information as a hierarchical structure. The second storage destination information having a structure similar to the structure including the first storage destination information received by the reception unit is specified, and a second document similar to the first document received by the reception unit is specified. A document extracting unit that extracts from the document stored in the storage location indicated by the specified second storage location information, and a plurality of second documents extracted by the document extracting unit are analyzed to form a template. A template document generating unit that generates a template document that is a document, and a comparison document that is a document for comparison with the first document received by the receiving unit based on the template document generated by the template document generating unit A comparison document generation unit to generate, a difference extraction unit that extracts a difference by comparing the comparison document generated by the comparison document generation unit and the first document received by the reception unit, and is extracted by the difference extraction unit An information processing apparatus comprising output means for outputting the difference.
請求項2の発明は、前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分、複数の前記第2の文書間で同じ部分、複数の前記第2の文書間で異なる部分、のいずれか1つ以上を抽出し、該抽出した部分に基づいて、雛形文書を生成することを特徴とする請求項1に記載の情報処理装置である。 According to a second aspect of the present invention, the template document generating means includes a portion corresponding to an attribute relating to the second document in the second document, a same portion among the plurality of second documents, and a plurality of the second documents. 2. The information processing apparatus according to claim 1, wherein any one or more of different portions between the documents are extracted, and a template document is generated based on the extracted portions.
請求項3の発明は、前記雛形文書生成手段は、前記第2の文書内で該第2の文書に関する属性と対応する部分については、該属性を用いた規則を生成し、該規則を前記雛形文書に組み込むことを特徴とする請求項2に記載の情報処理装置である。 In the invention of claim 3, the template document generating means generates a rule using the attribute for the portion corresponding to the attribute relating to the second document in the second document, and the rule is generated as the template. The information processing apparatus according to claim 2, wherein the information processing apparatus is incorporated in a document.
請求項4の発明は、前記雛形文書生成手段は、複数の前記第2の文書間で同じ部分については、前記雛形文書内に該部分を用いることを特徴とする請求項2又は3に記載の情報処理装置である。 The invention according to claim 4 is characterized in that the template document generating means uses the part in the template document for the same part among the plurality of second documents. Information processing apparatus.
請求項5の発明は、前記雛形文書生成手段は、複数の前記第2の文書間で異なる部分については、前記雛形文書内では比較対象とはしない部分とすることを特徴とする請求項2から4のいずれか一項に記載の情報処理装置である。 The invention of claim 5 is characterized in that the template document generating means sets a portion that is different between a plurality of the second documents as a portion not to be compared in the template document. 5. The information processing apparatus according to any one of 4 above.
請求項6の発明は、コンピュータを、第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、前記差異抽出手段によって抽出された差異を出力する出力手段として機能させることを特徴とする情報処理プログラムである。 According to a sixth aspect of the present invention, the computer stores a first document and first storage location information indicating the storage location of the first document, and a document storage for storing the document and the storage location information as a hierarchical structure. A second storage destination information having a structure similar to the structure including the first storage destination information received by the receiving means, and a second similar to the first document received by the receiving means. A document extracting means for extracting the document from the document stored in the storage location indicated by the specified second storage location information, and analyzing the plurality of second documents extracted by the document extracting means, A template document generating unit that generates a template document that is a template document, and a sentence for comparison with the first document received by the receiving unit based on the template document generated by the template document generating unit A comparison document generation unit that generates a comparison document, a difference extraction unit that extracts a difference by comparing the comparison document generated by the comparison document generation unit and the first document received by the reception unit; An information processing program that functions as an output unit that outputs a difference extracted by a difference extraction unit.
請求項1の情報処理装置によれば、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力することができる。 According to the information processing apparatus of the first aspect, the difference between the document to be stored and the comparison document can be output without creating the comparison document in advance.
請求項2の情報処理装置によれば、本構成を有していない場合に比較して、文書間で同じ部分、異なる部分のいずれか1つ以上を抽出でき、抽出した結果に基づいて、比較文書を生成するための雛形文書を生成することができる。 According to the information processing apparatus of claim 2, one or more of the same part and different parts can be extracted between documents as compared with the case where the present configuration is not provided, and the comparison is performed based on the extracted result. A template document for generating a document can be generated.
請求項3の情報処理装置によれば、規則を雛形文書内に組み込むことができる。 According to the information processing apparatus of the third aspect, the rules can be incorporated into the template document.
請求項4の情報処理装置によれば、第2の文書間で同じ部分を雛形文書内に用いることができる。 According to the information processing apparatus of the fourth aspect, the same part can be used in the template document between the second documents.
請求項5の情報処理装置によれば、第2の文書間で異なる部分については、雛形文書内では比較対象とはしない部分とすることができる。 According to the information processing apparatus of claim 5, a portion that differs between the second documents can be a portion that is not a comparison target in the template document.
請求項6の情報処理プログラムによれば、予め比較文書を作成することなく、格納対象の文書と比較文書との差異を出力することができる。 According to the information processing program of the sixth aspect, it is possible to output the difference between the document to be stored and the comparison document without creating the comparison document in advance.
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
Hereinafter, an example of a preferred embodiment for realizing the present invention will be described with reference to the drawings.
FIG. 1 shows a conceptual module configuration diagram of a configuration example of the present embodiment.
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment is a computer program for causing these modules to function (a program for causing a computer to execute each procedure, a program for causing a computer to function as each means, and a function for each computer. This also serves as an explanation of the program and system and method for realizing the above. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. It is the control to be stored in the device. Modules may correspond to functions one-to-one, but in mounting, one module may be configured by one program, or a plurality of modules may be configured by one program, and conversely, one module May be composed of a plurality of programs. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.). “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. In addition, if it is before the target processing, it is used in accordance with the situation / state at that time or with the intention to be decided according to the situation / state up to that point.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.
In addition, when performing a plurality of processes in each module or in each module, the target information is read from the storage device for each process, and the processing result is written to the storage device after performing the processing. is there. Therefore, description of reading from the storage device before processing and writing to the storage device after processing may be omitted. Here, the storage device may include a hard disk, a RAM (Random Access Memory), an external storage medium, a storage device via a communication line, a register in a CPU (Central Processing Unit), and the like.
本実施の形態である情報処理装置は、図1の例に示すように、受付モジュール110、類似文書抽出モジュール120、文書記憶モジュール130、文書比較モジュール140、テンプレート文書生成モジュール150、比較文書生成モジュール160、差異検出モジュール170、出力モジュール180を有している。
なお、文書とは、テキストデータ、場合によっては画像、動画、音声等の電子データ、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。具体的には、文書作成ソフトウェアによって生成された電子文書、画像データ、電子メール等が該当する。
文書の格納先又は文書の格納先を示す格納先情報をフォルダともいう。なお、OS(Operating System)によっては、フォルダはディレクトリーともいわれる。
As shown in the example of FIG. 1, the information processing apparatus according to the present embodiment includes a
Documents are text data, and in some cases, electronic data such as images, videos, and audio, or a combination of these, and are subject to storage, editing, search, etc., and are exchanged as individual units between systems or users. What you can do, including things similar to these. Specifically, an electronic document, image data, electronic mail, and the like generated by the document creation software are applicable.
Storage destination information indicating a document storage destination or a document storage destination is also referred to as a folder. Note that the folder is also referred to as a directory depending on the OS (Operating System).
受付モジュール110は、類似文書抽出モジュール120、差異検出モジュール170と接続されている。受付モジュール110は、文書102とその文書102の格納先フォルダ104を受け付ける。文書102は、格納先フォルダ104へ格納しようとしている場合、又は格納先フォルダ104へ既に格納した場合のいずれであってもよい。例えば、マウス、キーボード、タッチパネル等に対する操作者の操作に基づいて、文書102が選択され、格納先フォルダ104へ移動又は複写された場合が該当する。
The
文書記憶モジュール130は、類似文書抽出モジュール120と接続されている。文書記憶モジュール130は、文書とフォルダを階層構造として記憶する。ここでの階層構造について説明する。文書の集合(0個以上の文書)をフォルダに格納する。文書、フォルダのいずれか又は文書とフォルダの集合をフォルダに格納する。このようにして、文書、フォルダを構成要素とする階層構造を構成する。いわゆるファイルシステムである。なお、フォルダには名前をつけることができる。文書記憶モジュール130に記憶されている内容(文書、フォルダ、フォルダ構造)に対して、類似文書抽出モジュール120からアクセスされる。
The
類似文書抽出モジュール120は、受付モジュール110、文書記憶モジュール130、文書比較モジュール140と接続されている。類似文書抽出モジュール120は、文書記憶モジュール130から、受付モジュール110によって受け付けられた格納先フォルダ104を含む構造に類似する構造のフォルダを特定し、受付モジュール110によって受け付けられた文書102に類似する文書を、その特定したフォルダに格納されている文書から抽出する。
2段階で、類似する文書を特定する。
まずは、格納先フォルダ104を含む構造に類似するフォルダを特定する。格納先フォルダ104を含む構造とは、格納先フォルダ104と格納先フォルダ104に関連するフォルダ間の関係をいう。格納先フォルダ104に関連するフォルダとは、例えば、格納先フォルダ104に対して、親(上位)のフォルダ、さらにその親のフォルダ、子(下位)のフォルダ、さらにその子のフォルダ、兄弟のフォルダ(同じ親フォルダを有している他のフォルダ)等をいう。類似するフォルダとは、格納先フォルダ104に関連するフォルダ間の関係と同じ又は類似する関係を有しているフォルダをいう。例えば、格納先フォルダ104と同じ名前のフォルダ、格納先フォルダ104の親フォルダと同じ名前の親フォルダを有しているフォルダ、格納先フォルダ104の子フォルダと同じ名前の子フォルダを有しているフォルダ、格納先フォルダ104と予め定められた数の文字数だけ異なる名前のフォルダ、格納先フォルダ104の親フォルダと予め定められた数の文字数だけ異なる名前の親フォルダを有しているフォルダ、格納先フォルダ104の子フォルダと予め定められた数の文字数だけ異なる名前の子フォルダを有しているフォルダ等がある。類似するか否かの比較は、パス名の比較によって行うようにしてもよい。予め定められた数としては、例えば、1文字、2文字等がある。また、パス名内の予め定められた数のフォルダの名前だけが異なる場合に類似と判断してもよい。
The similar
Identify similar documents in two steps.
First, a folder similar to the structure including the
次に、文書102に類似する文書を、前述の類似しているフォルダに格納されている文書から抽出する。例えば、文書102と同じ名前の文書、文書102と予め定められた数の文字数だけ異なる名前の文書、文書102の内容と同じ内容の文書、文書102の内容と予め定められた数の文字数だけ異なる内容の文書、文書102の属性と同じ属性の文書、文書102の属性と予め定められた数の文字数だけ異なる属性を有している文書等がある。予め定められた数としては、例えば、文書の内容の場合は文書の容量に応じて決定してもよい。
Next, a document similar to the
文書比較モジュール140、テンプレート文書生成モジュール150は、類似文書抽出モジュール120によって抽出された複数の類似文書を解析して、雛形(以下、テンプレートともいう)となる文書であるテンプレート文書を生成する。ここでの解析とは、文書の属性と対応する部分、複数の文書間で同じ部分、異なる部分を抽出することである。
文書比較モジュール140は、類似文書抽出モジュール120、テンプレート文書生成モジュール150と接続されている。文書比較モジュール140は、類似文書抽出モジュール120によって抽出された類似文書に対して、(1)類似文書内でその類似文書に関する属性と対応する部分、(2)複数の類似文書間で同じ部分、(3)複数の類似文書間で異なる部分、のいずれか1つ以上を抽出する。
The
The
以下、これらの部分について説明する。
(1)類似文書内でその類似文書に関する属性と対応する部分について
類似文書に関する属性とは、その類似文書の属性、その類似文書が格納されているフォルダの属性、そのフォルダと関連するフォルダの属性がある。例えば、類似文書内に担当者名の記載がある場合であって、その類似文書の属性としての「格納者」と同じであれば、この(1)に該当する。また、類似文書内に宛先名称の記載がある場合であって、その類似文書が格納されているフォルダの2つ上のフォルダ名と同じであれば、この(1)に該当する。
(2)複数の類似文書間で同じ部分について
類似文書抽出モジュール120によって抽出された複数の類似文書間を比較する。内容を比較して、同じ部分を抽出する。例えば、類似文書内のタイトルの記載が同じ場合は、この(2)に該当する。なお、(1)の抽出を先に行う。複数の類似文書間で同じ部分であるが(1)にも該当する部分である場合は、(1)に該当する部分として抽出することになる。
(3)複数の類似文書間で異なる部分について
類似文書抽出モジュール120によって抽出された複数の類似文書間を比較する。内容を比較して、異なる部分を抽出する。類似する文書ではあるが、その文書固有の記載がある。これらの記載部分が(3)に該当する。
Hereinafter, these parts will be described.
(1) About a portion corresponding to an attribute related to the similar document in the similar document The attributes related to the similar document are the attribute of the similar document, the attribute of the folder storing the similar document, and the attribute of the folder related to the folder. There is. For example, if the person-in-charge name is described in a similar document and is the same as “store” as the attribute of the similar document, this corresponds to (1). Further, if the destination name is described in the similar document and the folder name is the same as the folder two above the folder storing the similar document, this corresponds to (1).
(2) Compare a plurality of similar documents extracted by the similar
(3) Differences between a plurality of similar documents A plurality of similar documents extracted by the similar
テンプレート文書生成モジュール150は、文書比較モジュール140、比較文書生成モジュール160と接続されている。テンプレート文書生成モジュール150は、文書比較モジュール140によって抽出された部分を用いて、テンプレート文書を生成する。
テンプレート文書生成モジュール150は、類似文書内でその類似文書に関する属性と対応する部分については、その属性を用いた規則を生成し、その規則をテンプレート文書に組み込むようにしてもよい。属性を用いた規則とは、前述の例では、属性としての「格納者」が記載されている領域であることを示す規則である。また、属性としての「文書が格納されているフォルダの2つ上のフォルダ名」が記載されている領域であることを示す規則である。規則の適用については、比較文書生成モジュール160の説明で述べる。また、規則をテンプレート文書に組み込むとは、テンプレート文書から比較文書を生成する場合に、その規則を適用できるようにしたものである。規則自体をテンプレート文書内に記憶させてもよいし、テンプレート文書から比較文書を生成する場合に、アクセスできるようになっていれば、どこに記憶されていてもよい。
テンプレート文書生成モジュール150は、複数の類似文書間で同じ部分については、テンプレート文書内にその部分を用いるようにしてもよい。つまり、複数の類似文書間で同じ部分は、テンプレート文書でもそのまま用いられる。
テンプレート文書生成モジュール150は、複数の類似文書間で異なる部分については、テンプレート文書内では比較対象とはしない部分とするようにしてもよい。つまり、複数の類似文書間で異なる部分は、その文書固有のことが記載される領域であるので、比較文書においては、対象の文書と比較しても、比較対象とはしない部分とするものである。後述する自由記載欄が該当する。
The template
The template
The template
The template
比較文書生成モジュール160は、テンプレート文書生成モジュール150、差異検出モジュール170と接続されている。比較文書生成モジュール160は、テンプレート文書生成モジュール150によって生成されたテンプレート文書に基づいて、受付モジュール110によって受け付けられた文書102と比較するための文書である比較文書を生成する。つまり、文書102は、格納先フォルダ104に格納される文書としてふさわしい文書であるか否かを判断するため、テンプレート文書から文書102と比較するための文書(比較文書)を生成する。
具体的には、テンプレート文書内の規則を適用して、比較文書を生成する。規則を適用する場合に、文書102に関する属性を用いる。この規則を適用するとは、前述の例で、属性としての「格納者」が記載されている領域であることを示す規則の場合、文書102の属性である「格納者」の文字列をその領域内に記載することである。なお、文書102に関する属性として、格納先フォルダ104の属性、格納先フォルダ104に関連するフォルダの属性も含む。この場合の規則を適用するとは、前述の例で、属性としての「文書が格納されているフォルダの2つ上のフォルダ名」が記載されている領域であることを示す規則の場合、格納先フォルダ104の2つ上のフォルダ名をその領域内に記載することである。
The comparison
Specifically, the comparison document is generated by applying the rules in the template document. When the rule is applied, an attribute related to the
差異検出モジュール170は、受付モジュール110、比較文書生成モジュール160、出力モジュール180と接続されている。差異検出モジュール170は、比較文書生成モジュール160によって生成された比較文書と受付モジュール110によって受け付けられた文書102を比較して差異を抽出する。つまり、比較文書は、格納先フォルダ104に格納される文書としてふさわしい文書(既に作成された文書等である格納先フォルダ104に類似しているフォルダ内にある類似文書等から生成された文書)であるので、これと文書102を比較して差異を抽出することによって、その差異部分を文書102の誤りの可能性がある部分として抽出する。
The
出力モジュール180は、差異検出モジュール170と接続されている。出力モジュール180は、差異検出モジュール170によって抽出された差異を、文書102の誤りの可能性がある部分として出力する。ここで差異を出力するとは、文書102内の差異がある部分を他の部分とは異なる形態(色、形状、模様、出力方法、又はこれらの組み合わせ)で出力するようにしてもよい。例えば、文書102を表示する場合に、その部分を赤くして表示する、矩形で囲って表示する、背景に模様を付して表示する、点滅表示する等が該当する。また、出力には、出力対象を画像とする場合、例えば、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で画像を送信すること、画像データベース等の画像記憶装置へ差異の情報を含む文書画像を書き込むこと等がある。また、出力対象を差異の情報を含む文書(例えば、差異の情報が追記された文書であってもよいし、差異の情報と文書へのリンクによって構成されている情報であってもよい)とする場合、ハードディスク装置、メモリーカード等の記憶媒体に記憶すること、文書データベース等の文書記憶装置へ差異の情報を含む文書を書き込むこと、他の情報処理装置(例えば、差異部分を通知する通知用プログラム等であってもよい)へ送信すること等がある。
The
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、受付モジュール110が、文書A1と格納先のフォルダBを受け付ける。
例えば、文書記憶モジュール130は、図3に例示するフォルダ構造の文書群を記憶している。これは、見積業務用に作成されたものであり、宛先の会社毎にファイルが分類されており、見積番号毎に見積、承認、発注、納品等の業務毎のフォルダが構成されている。そして、業務毎のフォルダ内にその業務で使用する又は使用された文書が格納されている。具体的には、見積業務フォルダ300には、A社フォルダ302、B社フォルダ348、C社フォルダ358、D社フォルダ360がある。A社フォルダ302には、見積0001フォルダ304、見積0003フォルダ338がある。見積0001フォルダ304には、見積フォルダ306、承認フォルダ312、発注フォルダ318、納品フォルダ322がある。見積フォルダ306には、見積書308、見積回答書310がある。承認フォルダ312には、承認依頼書314、承認書316がある。発注フォルダ318には、発注書320がある。納品フォルダ322には、納品書324がある。見積0002フォルダ326には、見積フォルダ328、承認フォルダ334、発注フォルダ336がある。見積フォルダ328には、見積書330、見積回答書332がある。見積0003フォルダ338には、見積フォルダ340、承認フォルダ342、発注フォルダ344、納品フォルダ346がある。B社フォルダ348には、見積0101フォルダ350、見積0102フォルダ352、見積0103フォルダ354、見積0104フォルダ356がある。
このようなフォルダ構造に対して、操作者の操作に応じて、文書A1として文書400を、格納先のフォルダBとして見積フォルダ340に格納しようとしている場合(又は格納した場合)に、文書400と見積フォルダ340を受け付ける。図4は、文書400、文書400の文書属性410、文書400のフォルダ属性420(格納先フォルダの属性の一例)の例を示す説明図である。フォルダ属性420は、文書400を見積フォルダ340に格納した場合のパス名である。
FIG. 2 is a flowchart showing an example of processing according to this embodiment.
In step S202, the
For example, the
In such a folder structure, when the
ステップS204では、類似文書抽出モジュール120が文書記憶モジュール130から、格納先のフォルダB1と関連するフォルダによって構成されるフォルダ構造と類似するフォルダ構造を有するフォルダB2を抽出する。
前述の例で示すと、見積フォルダ340に類似するフォルダ構造を有するフォルダBとして、見積フォルダ306、見積フォルダ328を抽出する。パス名内の1つのフォルダ名だけが異なる場合(パス名内の見積0003フォルダ338に対して見積0001フォルダ304、見積0002フォルダ326の部分が異なるだけ)に該当し、類似するフォルダとして抽出する。例えば、パス名が類似しているか否かを判断のために、類似している場合を正規表現等を用いて予め定めておいてもよい。
In step S <b> 204, the similar
In the above example, the estimated
ステップS206では、類似文書抽出モジュール120が文書記憶モジュール130から、抽出したフォルダB2内から文書A1と類似する文書A2を抽出する。
前述の例で示すと、見積フォルダ306、見積フォルダ328内の文書から、文書400と類似する文書A2として、見積書308、見積書330を抽出する。見積書308の内容は文書500である。見積書330の内容は文書600である。図5は、文書500、文書500の文書属性510、文書500のフォルダ属性520(格納先フォルダの属性の一例)の例を示す説明図である。図6は、文書600、文書600の文書属性610、文書600のフォルダ属性620(格納先フォルダの属性の一例)の例を示す説明図である。文書400の文書名、内容等と、文書500、文書600の文書名、内容等を比較して、異なる部分が予め定められた割合よりも少ない場合に該当するので、類似していると判断している。
In step S206, the similar
In the above example, the
ステップS208では、文書比較モジュール140が、抽出した複数の文書A2に対して、(1)文書A2に関する属性と対応する部分(なお、複数の文書A2で同様の対応があることを条件としてもよい)、(2)複数の文書A2間で同じ部分、(3)複数の文書A2間で異なる部分を抽出する。
前述の例を用いると、文書500と文書600を比較した結果の例を比較結果・テンプレート文書700に示す。図7は、比較結果・テンプレート文書700の例を示す説明図である。比較結果・テンプレート文書700は、領域710から領域730を有している。これらの領域は、句読点、改行コード、記号(例えば、「:」等)、フィールド、構造化文書の場合はタグ等、又は構文解析の結果で分割した結果である。この領域毎にステップS208の処理を行う。
「(1)文書A2に関する属性と対応する部分」として、領域712、領域722、領域728、領域730を抽出する。なお、領域712は、格納フォルダ(見積フォルダ306、見積フォルダ328)の2つ上のフォルダ名(A社フォルダ302)に対応する。領域722は、格納フォルダ(見積フォルダ306、見積フォルダ328)の1つ上のフォルダ名(見積0001フォルダ304、見積0002フォルダ326)に対応する。領域728は、属性「格納者」に対応する。領域730は、属性「格納日」に対応する。
「(2)複数の文書A2間で同じ部分」として、領域710、領域714、領域716、領域720、領域724、領域726を抽出する。
「(3)複数の文書A2間で異なる部分」として、領域718を抽出する。
なお、(1)、(2)、(3)の部分の抽出の対象として、文書内のテキストに限られず、画像の場合はその画像に対する文字認識結果、文字サイズ、文字色などを含めてもよい。例えば、(2)、(3)の部分を抽出するために複数の文書間で比較する場合に、テキストのみならず、文字サイズ、文字色などを含めた比較をして同じ部分、異なる部分を抽出するようにしてもよい。
In step S208, the
Using the above example, the comparison result /
As “(1) portion corresponding to the attribute related to the document A 2”, an
As “(2) the same part among a plurality of documents A2,” an
The
Note that the extraction target of the parts (1), (2), and (3) is not limited to the text in the document. In the case of an image, the character recognition result, the character size, the character color, and the like for the image may be included. Good. For example, when comparing (2) and (3) between a plurality of documents in order to extract the same part, the comparison including not only the text but also the character size, character color, etc. You may make it extract.
ステップS210では、テンプレート文書生成モジュール150が、ステップS208で抽出した部分に対して、以下の処理を行い、テンプレート文書を生成する。(A)(1)の部分については、属性を用いたルールを生成する、(B)(2)の部分については、その部分をそのまま利用する、(C)(3)の部分については、自由記述部分とする。
生成したテンプレート文書の例として、比較結果・テンプレート文書700を示す。図7は、比較結果・テンプレート文書700の例を示す説明図である。比較結果・テンプレート文書700は、領域710から領域730を有している。各領域のステップS210の処理結果として、テンプレートテーブル800を生成する。そして、比較結果・テンプレート文書700にテンプレートテーブル800を組み込む。図8は、テンプレートテーブル800のデータ構造例を示す説明図である。テンプレートテーブル800は、ID欄810、領域欄820、ルール欄830を有している。ID欄810は、本実施の形態において領域を一意に識別する符号を記憶する。領域欄820は、その領域の位置を記憶する。領域欄820は、X欄822、Y欄824、W欄826、H欄828を有している。X欄822は、その領域の左上座標のX座標を記憶する。Y欄824は、その領域の左上座標のY座標を記憶する。W欄826は、その領域の幅を記憶する。H欄828は、その領域の高さを記憶する。ルール欄830は、その領域に適用されるルールを記憶する。なお、領域欄820として、文書内の座標によって位置を特定したが、文書内の位置を特定し得るものであれば、フィールド、構造化文書の場合であればタグ等であってもよい。
In step S210, the template
As an example of the generated template document, a comparison result /
ステップS212では、比較文書生成モジュール160が、テンプレート文書に対して、文書A1に関する属性を適用して、比較文書を生成する。
前述の例を用いると、文書400に対して比較結果・テンプレート文書700に組み込まれているテンプレートテーブル800を適用した結果の例が、比較文書900である。図9は、比較文書900の例を示す説明図である。比較文書900は、領域912、領域918、領域922、領域928、領域930を有している。領域912は、格納フォルダ(見積フォルダ340)の2つ上のフォルダ名(A社フォルダ302)を使用したものである。領域918は、自由記載欄としたものである。領域922は、格納フォルダ(見積フォルダ340)の1つ上のフォルダ名(見積0003フォルダ338)を使用したものである。領域928は、文書400の文書属性410内の「格納者」を使用したものである。領域930は、文書400の文書属性410内の「格納日」を使用したものである。
In step S212, the comparison
Using the above example, the
ステップS214では、差異検出モジュール170が、文書A1と比較文書を比較して、差異部分を検出する。
前述の例を用いると、文書400と比較文書900を比較する。差異部分は、比較文書900で表すと領域922であり、文書400の該当部分は「見積0005」となっているが、比較文書900では「見積0003」となっている。なお、領域918は、文書400との比較対象とはしていない。
ステップS216では、出力モジュール180が、差異部分を誤りの可能性がある部分として出力する。
前述の例を用いると、文書400と比較文書900の差異部分を差異表示文書1000の例のように出力する。図10は、差異表示文書1000の例を示す説明図である。差異表示文書1000は、領域1022を有している。領域1022が差異部分であり、誤りの可能性があること(見積0003フォルダ338に格納しようとしている又は格納したにもかかわらず、依頼番号が見積0005となっていること)を指摘している。
In step S214, the
Using the above example, the
In step S216, the
Using the above example, the difference portion between the
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図11に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1101を用い、記憶装置としてRAM1102、ROM1103、HD1104を用いている。HD1104として、例えばハードディスクを用いてもよい。受付モジュール110、類似文書抽出モジュール120、文書比較モジュール140、テンプレート文書生成モジュール150、比較文書生成モジュール160、差異検出モジュール170、出力モジュール180等のプログラムを実行するCPU1101と、そのプログラムやデータを記憶するRAM1102と、本コンピュータを起動するためのプログラム等が格納されているROM1103と、補助記憶装置であるHD1104と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1106と、CRT、液晶ディスプレイ等の出力装置1105と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1107、そして、それらをつないでデータのやりとりをするためのバス1108により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
Note that the hardware configuration of the computer on which the program according to the present embodiment is executed is a general computer as illustrated in FIG. 11, specifically a personal computer, a computer that can be a server, or the like. That is, as a specific example, the
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図11に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
Among the above-described embodiments, the computer program is a computer program that reads the computer program, which is software, in the hardware configuration system, and the software and hardware resources cooperate with each other. Is realized.
Note that the hardware configuration illustrated in FIG. 11 illustrates one configuration example, and the present embodiment is not limited to the configuration illustrated in FIG. 11, and is a configuration capable of executing the modules described in the present embodiment. I just need it. For example, some modules may be configured by dedicated hardware (for example, ASIC), and some modules may be in an external system and connected via a communication line. A plurality of systems shown in FIG. 5 may be connected to each other via communication lines so as to cooperate with each other. In particular, in addition to personal computers, information appliances, copiers, fax machines, scanners, printers, and multifunction machines (image processing apparatuses having two or more functions of scanners, printers, copiers, fax machines, etc.) Etc. may be incorporated.
前述の実施の形態では、類似文書として2つの文書を抽出し、テンプレート文書を生成していたが、3つ以上の類似文書を抽出するようにしてもよい。文書比較モジュール140は、確率を用いて、「(1)類似文書内でその類似文書に関する属性と対応する部分」、「(2)複数の類似文書間で同じ部分」、「(3)複数の類似文書間で異なる部分」を抽出してもよい。例えば、文書の1行目は、5つの文書のうち4つの文書は同じであるが、1つが異なる場合は、80%の確率(同じである割合)で4つの文書の1行目を採用したことを抽出結果内に含めるようにしてもよい。そして、テンプレート文書生成モジュール150はその確率を規則(テンプレートテーブル800のルール欄830)内に含め、比較文書生成モジュール160は領域内にその確率を含め、差異検出モジュール170は比較結果にその確率を含めるようにしてもよい。そして、出力モジュール180は、その確率で誤っている可能性があることを指摘するように出力してもよい。前述の例では、対象文書の1行目が比較文書と異なっている場合は、80%の確率で対象文書の1行目は誤っていること、正しいのは比較文書の1行目(4つの文書の1行目)である可能性が80%であることを指摘して出力するようにしてもよい。同様に、4つ以上の類似文書の場合に50%の確率で属性「格納日」と一致している部分が間違っている場合は、「類似文書の50%は、第X行目に格納日と同じ日時が記載されています。内容を確認してください。」等のメッセージを出力するようにしてもよい。なお、類似文書が2つの場合、確率50%であることは異なっていることであるので、同じ部分ではなく、差異部分として抽出する。確率を用いるのは3つ以上の類似文書を抽出した場合としてもよい。
In the above embodiment, two documents are extracted as similar documents and a template document is generated. However, three or more similar documents may be extracted. The
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray Disc (registered trademark), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM (registered trademark)) )), Flash memory, Random access memory (RAM) Etc. are included.
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, etc., or wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.
102…文書
104…格納先フォルダ
110…受付モジュール
120…類似文書抽出モジュール
130…文書記憶モジュール
140…文書比較モジュール
150…テンプレート文書生成モジュール
160…比較文書生成モジュール
170…差異検出モジュール
180…出力モジュール
DESCRIPTION OF
Claims (6)
文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、
前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、
前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、
前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、
前記差異抽出手段によって抽出された差異を出力する出力手段
を具備することを特徴とする情報処理装置。 Receiving means for receiving first storage location information indicating a storage location of the first document and the first document;
A second storage destination information having a structure similar to the structure including the first storage destination information received by the receiving means from a document storage means for storing the document and the storage destination information as a hierarchical structure; A document extracting means for extracting a second document similar to the first document received by the second storage destination from the document stored in the storage location indicated by the specified second storage location information;
Analyzing a plurality of second documents extracted by the document extracting means, and generating a template document that is a template document;
Comparison document generation means for generating a comparison document that is a document for comparison with the first document received by the reception means based on the template document generated by the template document generation means;
A difference extracting unit that extracts a difference by comparing the comparison document generated by the comparison document generating unit with the first document received by the receiving unit;
An information processing apparatus comprising output means for outputting a difference extracted by the difference extraction means.
ことを特徴とする請求項1に記載の情報処理装置。 The template document generation means includes a portion corresponding to an attribute relating to the second document in the second document, a portion that is the same among the plurality of second documents, a portion that is different between the plurality of second documents, The information processing apparatus according to claim 1, wherein one or more of the information is extracted and a template document is generated based on the extracted part.
ことを特徴とする請求項2に記載の情報処理装置。 The template document generation means generates a rule using the attribute for a portion corresponding to the attribute relating to the second document in the second document, and incorporates the rule into the template document. The information processing apparatus according to claim 2.
ことを特徴とする請求項2又は3に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the template document generation unit uses the same part in the template document for the same part among the plurality of second documents.
ことを特徴とする請求項2から4のいずれか一項に記載の情報処理装置。 5. The template document generation means, wherein a portion that is different between a plurality of the second documents is a portion that is not a comparison target in the template document. The information processing apparatus described.
第1の文書と該第1の文書の格納先を示す第1の格納先情報を受け付ける受付手段と、
文書と格納先情報を階層構造として記憶する文書記憶手段から、前記受付手段によって受け付けられた第1の格納先情報を含む構造に類似する構造の第2の格納先情報を特定し、前記受付手段によって受け付けられた第1の文書に類似する第2の文書を、該特定した第2の格納先情報が示す格納先に格納されている文書から抽出する文書抽出手段と、
前記文書抽出手段によって抽出された複数の第2の文書を解析して、雛形となる文書である雛形文書を生成する雛形文書生成手段と、
前記雛形文書生成手段によって生成された雛形文書に基づいて、前記受付手段によって受け付けられた第1の文書と比較するための文書である比較文書を生成する比較文書生成手段と、
前記比較文書生成手段によって生成された比較文書と前記受付手段によって受け付けられた第1の文書を比較して差異を抽出する差異抽出手段と、
前記差異抽出手段によって抽出された差異を出力する出力手段
として機能させることを特徴とする情報処理プログラム。 Computer
Receiving means for receiving first storage location information indicating a storage location of the first document and the first document;
A second storage destination information having a structure similar to the structure including the first storage destination information received by the receiving means from a document storage means for storing the document and the storage destination information as a hierarchical structure; A document extracting means for extracting a second document similar to the first document received by the second storage destination from the document stored in the storage location indicated by the specified second storage location information;
Analyzing a plurality of second documents extracted by the document extracting means, and generating a template document that is a template document;
Comparison document generation means for generating a comparison document that is a document for comparison with the first document received by the reception means based on the template document generated by the template document generation means;
A difference extracting unit that extracts a difference by comparing the comparison document generated by the comparison document generating unit with the first document received by the receiving unit;
An information processing program that functions as an output unit that outputs a difference extracted by the difference extraction unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010205281A JP5510221B2 (en) | 2010-09-14 | 2010-09-14 | Information processing apparatus and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010205281A JP5510221B2 (en) | 2010-09-14 | 2010-09-14 | Information processing apparatus and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063822A JP2012063822A (en) | 2012-03-29 |
JP5510221B2 true JP5510221B2 (en) | 2014-06-04 |
Family
ID=46059508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010205281A Expired - Fee Related JP5510221B2 (en) | 2010-09-14 | 2010-09-14 | Information processing apparatus and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5510221B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6217362B2 (en) * | 2013-12-05 | 2017-10-25 | 富士ゼロックス株式会社 | Information processing apparatus and program |
CN109241500B (en) * | 2018-08-14 | 2023-02-03 | 中国平安人寿保险股份有限公司 | File batch comparison method and device, computer equipment and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4078009B2 (en) * | 2000-02-28 | 2008-04-23 | 東芝ソリューション株式会社 | CHARACTERISTIC RECORDING AREA DETECTION DEVICE FOR FORM, CHARACTER RECORDING AREA DETECTION METHOD FOR FORM, STORAGE MEDIUM, AND FORM FORMAT CREATION DEVICE |
JP3879810B2 (en) * | 2000-04-14 | 2007-02-14 | 富士ゼロックス株式会社 | Reading support device |
JP2002288675A (en) * | 2001-03-28 | 2002-10-04 | Nec Corp | Method, program, and system for document identification |
JP2005209071A (en) * | 2004-01-26 | 2005-08-04 | Seiko Epson Corp | Template generation device |
JP5184290B2 (en) * | 2008-10-07 | 2013-04-17 | 株式会社エヌ・ティ・ティ・データ | Document creation support apparatus, document creation support method, and program |
-
2010
- 2010-09-14 JP JP2010205281A patent/JP5510221B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012063822A (en) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7201299B2 (en) | Method, computer program and system for cognitive document image digitization | |
JP4682284B2 (en) | Document difference detection device | |
JP5663866B2 (en) | Information processing apparatus and information processing program | |
US20200097451A1 (en) | System and method of recognizing data in a table area from unstructured data | |
JP2009224958A (en) | Job procedure extrapolating system and program | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5510221B2 (en) | Information processing apparatus and information processing program | |
JP6596848B2 (en) | Access right estimation apparatus and access right estimation program | |
JP2008052439A (en) | Image processing system and image processing program | |
JP2019057137A (en) | Information processing apparatus and information processing program | |
JP2011008584A (en) | Apparatus and program for processing information | |
JP6682827B2 (en) | Information processing apparatus and information processing program | |
JP5391887B2 (en) | Information processing apparatus and information processing program | |
JP7027696B2 (en) | Information processing equipment and information processing programs | |
JP2014044555A (en) | Image processing apparatus, image processing system, and program | |
US9661179B2 (en) | Image processing device, information processing method, and non-transitory computer-readable medium | |
JP6201779B2 (en) | Information processing apparatus and information processing program | |
JP2009223391A (en) | Image processor and image processing program | |
US20210191991A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US11410441B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5928714B2 (en) | Information processing apparatus and information processing program | |
JP6554804B2 (en) | Information processing apparatus and information processing program | |
US20130031114A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP6476988B2 (en) | Information processing apparatus and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5510221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |