JP2012068844A - Document comparison processor and document comparison processing program - Google Patents
Document comparison processor and document comparison processing program Download PDFInfo
- Publication number
- JP2012068844A JP2012068844A JP2010212470A JP2010212470A JP2012068844A JP 2012068844 A JP2012068844 A JP 2012068844A JP 2010212470 A JP2010212470 A JP 2010212470A JP 2010212470 A JP2010212470 A JP 2010212470A JP 2012068844 A JP2012068844 A JP 2012068844A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- template
- character string
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書比較処理装置及び文書比較処理プログラムに関する。 The present invention relates to a document comparison processing apparatus and a document comparison processing program.
文書情報の内容の整合性の良否を判別する技術が提案されている。 Techniques have been proposed for determining whether or not the consistency of the contents of document information is good.
これに関連する技術として、特許文献1には、入力される文書情報中の記述情報と、文書情報中に出現する複数種類の項目名、出現位置及び表現パターンの情報とを関連付けた文書構造テーブルとを照合して文書情報中の各種項目名の記述情報を判別し、判別した各種項目名の記述情報と、項目名及びルールの情報を関連付けた分析ルールテーブルとを照合して各種項目名の記述情報がルールに合致しているか否かを判別して、記述情報がルールに合致していない場合にその旨のメッセージを表示部に表示する文書データ処理装置が開示されている。
As a technology related to this,
本発明の目的は、文書情報の内容の整合性を複数の文書情報の比較結果から検出する文書比較処理装置及び文書比較処理プログラムを提供することにある。 An object of the present invention is to provide a document comparison processing apparatus and a document comparison processing program for detecting consistency of contents of document information from a comparison result of a plurality of document information.
[1]コンピュータを、
内容が関連する複数の文書情報を有する案件が複数ある場合に、当該複数の案件に含まれる複数の文書情報を文書形式毎に分類する形式分類手段と、
前記形式分類手段が分類した文書形式の複数の文書情報間で位置及び内容が共通する文字列を第1のテンプレートとして抽出する第1のテンプレート抽出手段と、
同一案件に含まれる複数の文書情報間で内容が共通する文字列を当該文字列が記載された位置とともに抽出し、当該抽出された共通の文字列から前記第1のテンプレートの文字列のうち位置が同一の文字列を除去して共通値情報として抽出する共通値情報抽出手段と、
前記案件に含まれるそれぞれの文書情報から前記共通値情報に含まれる文字列を除いて入力欄とした第2のテンプレートとして抽出する第2のテンプレート抽出手段と、
対象となる前記案件の文書情報において、前記第2のテンプレートの前記入力欄に対応する文字列を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する検出手段として機能させるための文書比較処理プログラム。
[1]
A format classification means for classifying a plurality of document information included in the plurality of items for each document format when there are a plurality of items having a plurality of document information related to the contents;
First template extraction means for extracting, as a first template, a character string having a common position and content among a plurality of document information in the document format classified by the format classification means;
A character string having a common content among a plurality of pieces of document information included in the same item is extracted together with a position where the character string is described, and a position of the character string of the first template is extracted from the extracted common character string. Common value information extracting means for removing the same character string and extracting it as common value information;
A second template extracting means for extracting a second template as an input field by removing a character string included in the common value information from each document information included in the case;
Document for functioning as detection means for detecting character strings having different contents by applying a character string corresponding to the input field of the second template to the common value information in the document information of the subject matter Comparison processing program.
[2]コンピュータを、
複数の案件の前記第2のテンプレートを同一形式に分類し、第2のテンプレートの入力欄のうち当該入力欄の位置が同一形式の複数の第2のテンプレート間で予め定めた割合で共通する入力欄を抽出し、当該抽出された入力欄からなる第3のテンプレートを抽出する第3のテンプレート抽出手段としてさらに機能させ、
前記検出手段は、当該第3のテンプレートの入力欄に入力される内容を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する前記[1]に記載の文書比較処理プログラム。
[2]
The second template of a plurality of items is classified into the same format, and the input column position of the second template is common to a plurality of second templates of the same format at a predetermined ratio. And further function as a third template extracting means for extracting a third template including the extracted input field,
The document comparison processing program according to [1], wherein the detection unit applies a content input in an input field of the third template to the common value information to detect a character string having different content.
[3]内容が関連する複数の文書情報を有する案件が複数ある場合に、当該複数の案件に含まれる複数の文書情報を文書形式毎に分類する形式分類手段と、
前記形式分類手段が分類した文書形式の複数の文書情報間で位置及び内容が共通する文字列を第1のテンプレートとして抽出する第1のテンプレート抽出手段と、
同一案件に含まれる複数の文書情報間で内容が共通する文字列を当該文字列が記載された位置とともに抽出し、当該抽出された共通の文字列から前記第1のテンプレートの文字列のうち位置が同一の文字列を除去して共通値情報として抽出する共通値情報抽出手段と、
前記案件に含まれるそれぞれの文書情報から前記共通値情報に含まれる文字列を除いて入力欄とした第2のテンプレートとして抽出する第2のテンプレート抽出手段と、
対象となる前記案件の文書情報において、前記第2のテンプレートの前記入力欄に対応する文字列を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する検出手段とを有する文書比較処理装置。
[3] A format classification means for classifying a plurality of document information included in the plurality of items for each document format when there are a plurality of items having a plurality of document information related to the contents;
First template extraction means for extracting, as a first template, a character string having a common position and content among a plurality of document information in the document format classified by the format classification means;
A character string having a common content among a plurality of pieces of document information included in the same item is extracted together with a position where the character string is described, and a position of the character string of the first template is extracted from the extracted common character string. Common value information extracting means for removing the same character string and extracting it as common value information;
A second template extracting means for extracting a second template as an input field by removing a character string included in the common value information from each document information included in the case;
Document comparison processing comprising: detecting means for detecting a character string having different contents by applying a character string corresponding to the input field of the second template to the common value information in the document information of the subject matter apparatus.
請求項1又は3に係る発明によれば、文書情報の内容の整合性を複数の文書情報の比較結果から検出することができる。 According to the first or third aspect of the invention, the consistency of the contents of the document information can be detected from the comparison result of the plurality of document information.
請求項2に係る発明によれば、複数案件にわたって共通にすべき文書情報の内容を複数の文書情報の比較結果から検出することができる。 According to the second aspect of the present invention, it is possible to detect the content of document information that should be shared across a plurality of cases from the comparison result of the plurality of document information.
(文書比較処理システムの構成)
図1は、文書比較処理システムの構成例を示す概略図である。
(Configuration of document comparison processing system)
FIG. 1 is a schematic diagram illustrating a configuration example of a document comparison processing system.
この文書比較処理システム4は、文書比較処理装置1と、文書データベース(DB)2とをネットワーク3によって互いに通信可能に接続することで構成される。
The document comparison processing system 4 is configured by connecting a document
文書比較処理装置1は、情報を処理するための機能を備えたCPU(Central Processing Unit)や記憶部等の電子部品を備え、文書DB2に格納された複数の文書情報200の内容を分析して、誤っている蓋然性が高い文書情報中に記載された文字列を検出する情報処理装置である。
The document
また、文書比較処理装置1は、画像を表示する液晶ディスプレイ等の表示部12と、操作に応じた操作信号を発するキーボード、マウス、タッチパッド等の操作部13とを備える。なお、文書比較処理装置1は、例えば、パーソナルコンピュータであり、その他にPDA(Personal Digital Assistant)、携帯電話機等を用いることもできる。
Further, the document
文書DB2は、テキストや画像等の情報から構成される文書情報200等を格納する。文書情報200は、本実施の形態において、一例として、業務進行の際に必要な見積依頼書、見積回答書、納品依頼書、納品回答書等の書類である。
The document DB 2 stores
ネットワーク3は、LAN(Local Area Network)、インターネット等の通信網であり、有線、無線は問わない。
The
(文書比較処理装置の構成)
図2は、文書比較処理装置1の構成例を示すブロック図である。
(Configuration of document comparison processing device)
FIG. 2 is a block diagram illustrating a configuration example of the document
文書比較処理装置1は、CPU等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記憶媒体であって情報を記憶する記憶部11と、上述した画像を表示する液晶ディスプレイ等の表示部12と、操作に応じた操作信号を発するキーボード、マウス、タッチパッド等の操作部13と、ネットワーク3を介して外部と通信する通信部14とを備える。
The document
制御部10は、後述する文書比較処理プログラム110を実行することで、文書形式分類手段100、文書案件分類手段101、形式テンプレート抽出手段102、案件共通値抽出手段103、形式共通値除去手段104、案件テンプレート抽出手段105、誤り検出手段106及び共通値範囲抽出手段107等として機能する。
The
文書形式分類手段100は、文書DB2の文書情報200を、文書情報200のファイル名や格納場所により、その文書形式、例えば、見積依頼書、見積回答書、納品依頼書、納品回答書等に分類する。なお、文書情報200にタグ付けする等して分類してもよい。
The document
文書案件分類手段101は、文書情報200のファイル名や格納場所(格納パス)により、文書DB2の文書情報200のうちある相手に対する又はその相手から受け付ける一連の文書情報、例えば、見積依頼書、見積回答書、納品依頼書、納品回答書…等を、その相手に対する案件として分類する。
The document
形式テンプレート抽出手段102は、異なる案件間の共通の形式を有する文書情報において共通する文字列を形式テンプレート情報111として抽出する。
The format
案件共通値抽出手段103は、同一案件間のそれぞれ形式の異なる文書情報において共通する文字列を共通値情報112として抽出する。
The case common
形式共通値除去手段104は、案件共通値抽出手段103が抽出した共通値情報112から形式テンプレート抽出手段102が抽出した形式テンプレート情報111と一致する文字列を除去する。
The format common
案件テンプレート抽出手段105は、同一案件の書類情報から形式共通値除去手段104が除去した共通値情報112以外の文字列を案件テンプレート情報113として抽出する。
The case
誤り検出手段106は、文書情報と案件テンプレート情報113とを比較して、案件テンプレート情報113の共通値に入力される文字列が互いに異なる場合に、当該互いに異なる文字列を文書情報の内容の誤りとして検出する。
The
共通値範囲抽出手段107は、案件テンプレート情報113の共通値を異なる案件の間で比較し、さらに共通する共通値情報を抽出する。
The common value
記憶部11は、制御部10を上述した各手段100〜106として動作させる文書比較処理プログラム110、形式テンプレート抽出手段102が抽出して出力する形式テンプレート情報111、案件共通値抽出手段103及び形式共通値除去手段104が出力する共通値情報112、及び案件テンプレート抽出手段105が出力する案件テンプレート情報113等を記憶する。
The
図3は、文書情報200の格納場所である格納パス構造の一例を示す概略図である。
FIG. 3 is a schematic diagram illustrating an example of a storage path structure that is a storage location of the
格納パス構造20は、文書情報200a、200b…、201a、201b…の格納パスの構造を示し、例えば、「見積業務」フォルダには案件名を示す「見積0001」、「見積0002」…のフォルダが含まれ、「見積0001」及び「見積0002」のフォルダにはそれぞれ「見積」、「承認」、「納品」及び「発注」等のフォルダが含まれる。
The
「見積0001」の「見積」フォルダには、「見積依頼」の文書情報200aと、「見積回答」の文書情報200bとが格納される。ここで、「見積依頼」フォルダに含まれる文書情報200aを形式Aといい、「見積回答」に含まれる文書情報200bを形式Bという。
In the “estimation” folder of “estimation 0001”,
また、「見積0002」の「見積」には、「見積依頼」の文書情報201a(形式A)と、「見積回答」の文書情報201b(形式B)とが格納される。
Also, in the “estimation” of “estimation 0002”,
(文書比較処理装置の動作)
以下に、文書比較処理装置1の動作例を図1〜図15を参照しつつ、(1)基本動作、(2)形式テンプレート抽出動作、(3)案件テンプレート抽出動作、(4)誤り検出動作に分けて説明する。
(Operation of document comparison processing device)
Hereinafter, with reference to FIGS. 1 to 15, an example of the operation of the document
(1)基本動作
まず、利用者は、図示しない端末装置等を操作し、図3に示す文書情報200a、200b…、201a、201b…を作成する。作成された文書情報200a、200b…、201a、201b…は、利用者の要求により端末装置によって文書DB2に格納される。文書情報200a、200b…、201a、201b…の作成は複数の利用者によって行われてもよい。
(1) Basic operation First, a user operates a terminal device (not shown) and creates
次に、管理者は、複数の利用者の文書情報200a、200b…、201a、201b…の作成状況を管理するため、文書比較処理装置1を操作する。具体的な管理内容として、管理者は、文書比較処理装置1を用いて作成された文書情報200a、200b…、201a、201b…に入力ミス等による記載の誤りがないかどうかを監視する。
Next, the administrator operates the document
まず、管理者は、監視する対象とする文書情報を文書DB2から選択するために、文書比較処理装置1の操作部13を操作する。文書比較処理装置1は、操作部13から出力される操作信号に応じて、文書DB2から、例えば、文書情報200a、200b…、201a、201b…を読み出す。
First, the administrator operates the
(2)形式テンプレート抽出動作
次に、文書形式分類手段100は、読み出した文書情報200a、200b…、201a、201b…を形式毎に分類する。
(2) Format Template Extraction Operation Next, the document
図4(a)及び(b)は、それぞれ形式毎に分類された文書情報の一例を示す概略図である。 4A and 4B are schematic diagrams illustrating examples of document information classified for each format.
文書形式分類手段100は、文書情報200a、200b…、201a、201b…を図4(a)に示す「見積依頼書」を示す形式A及び図4(b)に示す「見積回答書」を示す形式Bに分類する。形式Aは、文書情報200a及び201aを有し、形式Bは、文書情報200b及び201bを有する。
The document format classification means 100 indicates the
次に、形式テンプレート抽出手段102は、文書形式分類手段100が分類した各形式に含まれる文書情報から、共通の記載位置に共通する内容が入力された文字列を抽出して形式テンプレート情報111を出力する。
Next, the format
図5(a)及び(b)は、それぞれ形式毎に抽出された形式テンプレート情報の一例を示す概略図である。図5(a)及び(b)により示した形式テンプレート情報は、網掛け部分以外の文字列の内容と位置情報を含むものである。 FIGS. 5A and 5B are schematic diagrams illustrating examples of format template information extracted for each format. The format template information shown in FIGS. 5A and 5B includes the contents of character strings other than the shaded portion and position information.
形式テンプレート抽出手段102は、図4(a)に示す文書情報200a及び201aの共通でない文字列102aを削除して、共通の文字列を抽出し、図5(a)に示す形式テンプレート情報111aを出力する。
The format
また、形式テンプレート抽出手段102は、図4(b)に示す文書情報200b及び201bの共通でない文字列102bを削除して、共通の文字列を抽出し、図5(b)に示す形式テンプレート情報111bを出力する。
Further, the format
(3)案件テンプレート抽出動作
次に、文書案件分類手段101は、文書DB2から読み出した文書情報200a、200b…、201a、201b…を案件毎に分類する。
(3) Case Template Extraction Operation Next, the document
図6は、文書情報200の格納パス構造の一例を示す概略図である。
FIG. 6 is a schematic diagram illustrating an example of a storage path structure of the
格納パス構造20において案件を示す「見積0001」に含まれる文書情報200a、200b…及び「見積0002」に含まれる文書情報201a、201b…をそれぞれ「案件01」及び「案件02」として分類する。
In the
図7(a)及び(b)は、それぞれ案件毎に分類された文書情報の一例を示す概略図である。 FIGS. 7A and 7B are schematic diagrams illustrating examples of document information classified for each case.
文書案件分類手段101は、文書情報200a、200b…、201a、201b…を図7(a)に示す「見積0001」を示す案件01及び図7(b)に示す「見積0002」を示す案件02に分類する。案件01は、文書情報200a及び200bを有し、案件02は、文書情報201a及び201bを有する。
The document
次に、案件共通値抽出手段103は、同一案件に属する文書情報のそれぞれにおいて内容が共通する文字列を共通値として抽出する。なお、共通値は、入力された内容が共通すればよく、記載位置は異なっていてもよい。
Next, the case common
以下、案件共通値抽出手段103は、案件01及び02に対し同様に動作するため、代表して案件01の内容について説明する。
Hereinafter, since the case common
図8は、案件01に含まれる文書情報において抽出された共通値の一例を示す概略図である。 FIG. 8 is a schematic diagram illustrating an example of the common value extracted in the document information included in the case 01.
案件共通値抽出手段103は、文書情報200a、200b…から内容が共通する文字列を共通値112a〜112gとして抽出する。なお、本実施の形態においては完全に一致する文字列を共通値としているが、完全一致でなくとも文字列のうち予め定めた文字数が一致している場合や、正式な記載と略称での記載にて一致している場合等に共通値として抽出してもよい。
The case common
図9は、案件01の文書情報から抽出された共通値から構成される共通値情報の内容の一例を示す概略図である。 FIG. 9 is a schematic diagram illustrating an example of the content of common value information including common values extracted from the document information of the case 01.
案件共通値抽出手段103は、図8において抽出した共通値から共通値情報112として共通値112a、112b、112c、112d…に該当する共通値範囲112A、112B、112C、112D…を出力する。
The case common
共通値範囲112A、112B、112C、112D…は、それぞれ共通値が抽出された文書の形式を示す文書形式欄と、共通値が抽出された文書上の記載位置の範囲を示す範囲欄と、抽出された記載内容を示す値欄とを有する。なお、範囲欄は、文書情報200aの共通値112aの記載範囲をA1、共通値112bの記載範囲をB1、共通値112cの記載範囲をC1、共通値112dの記載範囲をD1とし、文書情報200bの共通値112aの記載範囲をA2、共通値112bの記載範囲をB2、共通値112cの記載範囲をC2、共通値112dの記載範囲をD2として記載されている。
The common value ranges 112A, 112B, 112C, 112D,... Are a document format column that indicates the format of the document from which the common value is extracted, a range column that indicates the range of the description position on the document from which the common value is extracted, And a value column indicating the described contents. The range field, a stated range of
次に、形式共通値除去手段104は、共通値情報112から形式テンプレート情報111の文字列と一致する文字列を除去する。
Next, the format common
図10は、形式テンプレート情報111の文字列と一致する文字列が除去された共通値情報112の内容の一例を示す概略図である。
FIG. 10 is a schematic diagram illustrating an example of the content of the
形式共通値除去手段104は、図8に示す書類情報200a及び200bの共通値112a〜112gから形式テンプレート情報111の文字列と一致する文字列、つまり112c、112e、112f、112g、112hに該当する文字列104a及び104bをそれぞれ除去する。
The format common
図11は、形式テンプレート情報111の文字列と一致する文字列が除去された共通値情報の内容の一例を示す概略図である。 FIG. 11 is a schematic diagram illustrating an example of the content of the common value information from which the character string that matches the character string of the format template information 111 is removed.
形式共通値除去手段104は、共通値112c、112e、112f、112g、112hを除去することで共通値情報112として共通値範囲112A、112B及び112Dを出力する。
The format common
次に、案件テンプレート抽出手段105は、文書情報200a及び200bから図11に示す共通値情報112の内容を削除して以下に説明する案件01の案件テンプレート情報1131a及び1131bを抽出する。
Next, the case
図12は、案件テンプレート情報の内容の一例を示す概略図である。 FIG. 12 is a schematic diagram illustrating an example of the contents of the item template information.
案件テンプレート情報1131a及び1131bは、案件01である文書情報200a及び200bから共通値情報112の内容に該当する文字列1051a及び1051bを削除して得られるテンプレートである。
The
なお、案件02に関しても同様に案件テンプレート情報1132a及び1132bを抽出する。
For the case 02, the
次に、共通値範囲抽出手段107は、共通値情報112の内容に該当する文字列の共通値範囲を抽出する。
Next, the common value
図13(a)は、複数案件における共通値情報112の内容に該当する文字列の一例を示す概略図であり、図13(b)は、複数案件における共通値情報112の内容に該当する文字列の共通値の一例を示す概略図である。
FIG. 13A is a schematic diagram illustrating an example of a character string corresponding to the content of the
共通値範囲抽出手段107は、図13(a)に示すように、複数案件の削除した文字列1051a及び1051b、1052a及び1052b…を形式毎に分類して各形式において記載範囲が共通する文字列を文字列105a及び105bとして抽出し、図13(b)に示すように、共通案件の共通値テンプレート情報113a及び113bとして抽出する。なお、複数案件における共通する記載範囲の抽出は、すべての案件において完全一致するものであってもよいし、予め定めた割合で一致するものであってもよい。
As shown in FIG. 13A, the common value
(4)誤り検出動作
次に、誤り検出手段106は、共通値範囲抽出手段107が抽出した共通値テンプレート情報113a及び113bに基づいて、文書情報の誤り検出を行う。
(4) Error Detection Operation Next, the
図14(a)〜(d)は、誤り検出手段106の動作例を説明するための概略図であり、図14(a)は文書情報の格納パス構造、図14(b)は文書情報の内容、図14(c)は共通値テンプレート、図14(d)は共通値情報の内容を示す。
14A to 14D are schematic diagrams for explaining an example of the operation of the
まず、誤り検出手段106は、誤り検出の対象として、図14(a)に示すように、例えば、案件03を選択し、案件03に含まれる文書情報202a及び202bを文書DB2から取得する。
First, as shown in FIG. 14A, the
次に、誤り検出手段106は、図14(b)に示す取得した文書情報202a及び202bの内容と、図14(c)に示す共通値テンプレート情報113aの文字列105a及び共通値テンプレート情報113bの文字列105bとを、共通の形式間で比較し、文書情報202a及び202bの文字列のうち文字列105a及び105bの範囲に該当する値を抽出して、図14(d)に示す共通値情報112A、112B、112Dを生成する。
Next, the error detection means 106 includes the contents of the acquired
次に、誤り検出手段106は、共通値情報112A、112B、112Dのうち値欄が互いに一致しない不整合箇所1120B及び1120Dを検出するとともに、当該不整合箇所1120B及び1120Dに該当する記載範囲に誤りがあると判断する。
Next, the error detection means 106 detects inconsistent portions 1120B and 1120D in which the value columns do not match each other in the
誤り検出手段106は、検出した誤りの箇所を文書情報とともに表示部12に表示し、利用者に提示する。
The error detection means 106 displays the detected error location on the
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の要旨を逸脱しない範囲で種々な変形が可能である。
[Other embodiments]
The present invention is not limited to the above embodiment, and various modifications can be made without departing from the gist of the present invention.
また、上記文書比較処理プログラム110をCD−ROM等の記憶媒体に格納して提供することも可能であり、インターネット等のネットワークに接続されているサーバ装置等から装置内の記憶部にダウンロードしてもよい。また、文書形式分類手段100、文書案件分類手段101、形式テンプレート抽出手段102、案件共通値抽出手段103、形式共通値除去手段104、誤り検出手段106及び共通値範囲抽出手段107の一部又は全部をASIC等のハードウェアによって実現してもよい。なお、上記実施の形態の動作説明で示した各ステップは、順序の変更、ステップの省略、追加が可能である。
It is also possible to provide the document
1…文書比較処理装置、2…文書データベース(DB)、3…ネットワーク、4…文書比較処理システム、10…制御部、11…記憶部、12…表示部、13…操作部、14…通信部、20…格納パス構造、100…文書形式分類手段、101…文書案件分類手段、102…形式テンプレート抽出手段、103…案件共通値抽出手段、104…形式共通値除去手段、105…案件テンプレート抽出手段、106…誤り検出手段、107…共通値範囲抽出手段、110…検出プログラム、111…形式テンプレート情報、112…共通値情報、113…案件テンプレート情報、200…文書情報
DESCRIPTION OF
Claims (3)
内容が関連する複数の文書情報を有する案件が複数ある場合に、当該複数の案件に含まれる複数の文書情報を文書形式毎に分類する形式分類手段と、
前記形式分類手段が分類した文書形式の複数の文書情報間で位置及び内容が共通する文字列を第1のテンプレートとして抽出する第1のテンプレート抽出手段と、
同一案件に含まれる複数の文書情報間で内容が共通する文字列を当該文字列が記載された位置とともに抽出し、当該抽出された共通の文字列から前記第1のテンプレートの文字列のうち位置が同一の文字列を除去して共通値情報として抽出する共通値情報抽出手段と、
前記案件に含まれるそれぞれの文書情報から前記共通値情報に含まれる文字列を除いて入力欄とした第2のテンプレートとして抽出する第2のテンプレート抽出手段と、
対象となる前記案件の文書情報において、前記第2のテンプレートの前記入力欄に対応する文字列を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する検出手段として機能させるための文書比較処理プログラム。 Computer
A format classification means for classifying a plurality of document information included in the plurality of items for each document format when there are a plurality of items having a plurality of document information related to the contents;
First template extraction means for extracting, as a first template, a character string having a common position and content among a plurality of document information in the document format classified by the format classification means;
A character string having a common content among a plurality of pieces of document information included in the same item is extracted together with a position where the character string is described, and a position of the character string of the first template is extracted from the extracted common character string. Common value information extracting means for removing the same character string and extracting it as common value information;
A second template extracting means for extracting a second template as an input field by removing a character string included in the common value information from each document information included in the case;
Document for functioning as detection means for detecting character strings having different contents by applying a character string corresponding to the input field of the second template to the common value information in the document information of the subject matter Comparison processing program.
複数の案件の前記第2のテンプレートを同一形式に分類し、第2のテンプレートの入力欄のうち当該入力欄の位置が同一形式の複数の第2のテンプレート間で予め定めた割合で共通する入力欄を抽出し、当該抽出された入力欄からなる第3のテンプレートを抽出する第3のテンプレート抽出手段としてさらに機能させ、
前記検出手段は、当該第3のテンプレートの入力欄に入力される内容を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する請求項1に記載の文書比較処理プログラム。 Computer
The second template of a plurality of items is classified into the same format, and the input column position of the second template is common to a plurality of second templates of the same format at a predetermined ratio. And further function as a third template extracting means for extracting a third template including the extracted input field,
The document comparison processing program according to claim 1, wherein the detection unit applies a content input in an input field of the third template to the common value information to detect a character string having different content.
前記形式分類手段が分類した文書形式の複数の文書情報間で位置及び内容が共通する文字列を第1のテンプレートとして抽出する第1のテンプレート抽出手段と、
同一案件に含まれる複数の文書情報間で内容が共通する文字列を当該文字列が記載された位置とともに抽出し、当該抽出された共通の文字列から前記第1のテンプレートの文字列のうち位置が同一の文字列を除去して共通値情報として抽出する共通値情報抽出手段と、
前記案件に含まれるそれぞれの文書情報から前記共通値情報に含まれる文字列を除いて入力欄とした第2のテンプレートとして抽出する第2のテンプレート抽出手段と、
対象となる前記案件の文書情報において、前記第2のテンプレートの前記入力欄に対応する文字列を前記共通値情報に当てはめて互いに異なる内容となる文字列を検出する検出手段とを有する文書比較処理装置。
A format classification means for classifying a plurality of document information included in the plurality of items for each document format when there are a plurality of items having a plurality of document information related to the contents;
First template extraction means for extracting, as a first template, a character string having a common position and content among a plurality of document information in the document format classified by the format classification means;
A character string having a common content among a plurality of pieces of document information included in the same item is extracted together with a position where the character string is described, and a position of the character string of the first template is extracted from the extracted common character string. Common value information extracting means for removing the same character string and extracting it as common value information;
A second template extracting means for extracting a second template as an input field by removing a character string included in the common value information from each document information included in the case;
Document comparison processing comprising: detecting means for detecting a character string having different contents by applying a character string corresponding to the input field of the second template to the common value information in the document information of the subject matter apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010212470A JP2012068844A (en) | 2010-09-22 | 2010-09-22 | Document comparison processor and document comparison processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010212470A JP2012068844A (en) | 2010-09-22 | 2010-09-22 | Document comparison processor and document comparison processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012068844A true JP2012068844A (en) | 2012-04-05 |
Family
ID=46166068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010212470A Pending JP2012068844A (en) | 2010-09-22 | 2010-09-22 | Document comparison processor and document comparison processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012068844A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241274A (en) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | Criminal law document processing method and device, storage medium and electronic device |
-
2010
- 2010-09-22 JP JP2010212470A patent/JP2012068844A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241274A (en) * | 2019-12-31 | 2020-06-05 | 航天信息股份有限公司 | Criminal law document processing method and device, storage medium and electronic device |
CN111241274B (en) * | 2019-12-31 | 2023-11-28 | 航天信息股份有限公司 | Criminal legal document processing method and device, storage medium and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697193B2 (en) | Associating captured image data with a spreadsheet | |
CN109479061B (en) | Compliance violation detection | |
JP6122448B2 (en) | Extension activation for related documents | |
US20110276925A1 (en) | Presentation of Information Describing User Activities with Regard to Resources | |
US20160342449A1 (en) | Data exchange across multiple computing devices through a proactive intelligent clipboard | |
JP2018116496A (en) | Difference detection device and program | |
WO2017142792A1 (en) | Malware identification using qualitative data | |
EP2612236A1 (en) | Method of gathering data of an event-like nature from electronic forms | |
US20190340247A1 (en) | Digital Content Translation Techniques and Systems | |
US9965679B2 (en) | Capturing specific information based on field information associated with a document class | |
JP5676522B2 (en) | Character string conversion method and program | |
JP6262708B2 (en) | Document detection method for detecting original electronic files from hard copy and objectification with deep searchability | |
JP2006197356A (en) | Information providing method and device, information providing program, and storage medium stored with information providing program | |
EP3341917A1 (en) | Smart flip operation for grouped objects | |
JP6596848B2 (en) | Access right estimation apparatus and access right estimation program | |
JP2012068844A (en) | Document comparison processor and document comparison processing program | |
JP2018506783A (en) | Generating element identifiers | |
US8788537B2 (en) | Computer readable medium storing information processing program, information processing apparatus, and information processing method | |
US20180124260A1 (en) | Providing content and attachment printing for communication | |
JP2017162138A (en) | Information processing device and information processing program | |
JP5510221B2 (en) | Information processing apparatus and information processing program | |
JP6855720B2 (en) | Information processing equipment and information processing programs | |
US20160140088A1 (en) | Detecting document type of document | |
CN113196276A (en) | Dynamically generated content understanding system | |
WO2023037455A1 (en) | Screen data processing device, method, and program |