JP5577546B2 - Computer system - Google Patents
Computer system Download PDFInfo
- Publication number
- JP5577546B2 JP5577546B2 JP2010110912A JP2010110912A JP5577546B2 JP 5577546 B2 JP5577546 B2 JP 5577546B2 JP 2010110912 A JP2010110912 A JP 2010110912A JP 2010110912 A JP2010110912 A JP 2010110912A JP 5577546 B2 JP5577546 B2 JP 5577546B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- determination
- elements
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、計算機システムに関し、特に、文書から情報を抽出する計算機システムに関する。 The present invention relates to a computer system, and more particularly to a computer system that extracts information from a document.
文書中の内容が重要であるか否かを判定し、重要箇所を抽出する技術は、あらかじめ設定された判定ルールに従って文書の内容を判定する技術の一つであり、従来から提案されている(例えば、特許文献1及び特許文献2参照)。
A technique for determining whether content in a document is important and extracting an important part is one of techniques for determining the contents of a document in accordance with a preset determination rule, and has been conventionally proposed ( For example, see
特許文献1は、利用者によって入力された提示条件と照合条件とを、有向グラフによって表現される知識ルールに変換し、この知識ルールを判定ルールとして利用する。判定の条件である照合条件は、トピックスに該当する単語とエレメントに該当する単語との関係によって記述される。また、判定する対象である文書と知識ルールとの照合において、特許文献1の装置は、該当する単語の出現位置が、有向グラフの向き及び階層構造とマッチしており、かつリンクの長さがより短い単語の組み合わせを対象の文書中から求める。
また、特許文献2は、あらかじめ重要文(正例)または非重要文(負例)のラベルがついた訓練データから特徴ベクトルを抽出し、統計的な方法であるサポートベクターマシンを用いた分類器によって、特徴ベクトルを正例と負例とに分類する分離平面を生成する。特許文献2の技術において、分離平面は判定ルールに相当する。新たな文書についても特徴ベクトルを抽出し、上記生成された分離平面と比較することによって、重要文か非重要文かを判定する。訓練データ及び新たな文書から抽出する特徴量、すなわち特徴ベクトルの各要素としては、文の長さ、文の出現位置、又は、文に出現するキーワードの有無などが用いられる。
Further,
特許文献1及び特許文献2に挙げられたような文書の内容を判定する技術は、判定するための基準を作成する際に、基になる訓練データ、又は、提示条件及び照合条件が、あらかじめ十分準備できれば、精度のよい重要文抽出が可能である。しかし特許文献1において、提示条件及び照合条件は、人手による入力が前提である。
In the technology for determining the content of a document as listed in
また特許文献2において、訓練データの作成方法は特に開示されていないが、通常、訓練データの作成は人手による作成が前提とされている場合が多い。このため、特許文献2においても、訓練データは、同様に人手による作成が前提であると言える。
In
特許文献1で開示される技術のように、利用者があらかじめ判定基準を明示的にシステムに登録する方法は、少数の判定ルールによって対応可能な場合には、精度良く判定できることが期待できる。しかし、判定対象となる文書の規模が大きくなり、多数かつ複雑な判定基準が必要な場合、提示条件及び照合条件を人手によって入力することは困難である。さらにこのように多数かつ複雑な判定基準が必要な場合、矛盾の無い、一貫性のある判定ルールを作成し、さらに維持することも困難になるという問題が生じる。
A method in which a user explicitly registers a determination criterion in advance in the system as in the technique disclosed in
一方、特許文献2に開示される技術は、重要文であるか非重要文であるかのラベル付けが行われた訓練データを統計的に処理することによって、判定ルールに該当する分離平面を求める。これによって、特許文献1と比較して、一貫性のある判定ルールを容易に構築できることが期待される。
On the other hand, the technique disclosed in
しかし、統計的な方法によって精度の高い判定ルールを構築するためには、大量のデータを集めると共に、集めたデータに重要文であるか非重要文であるかを示すラベルを付与する必要がある。小規模なデータであれば、人手によって容易にラベルを付与することができるが、データが大量になると人手による作業では時間を要するため、その利用自体が困難になるという問題が生じる。 However, in order to build a highly accurate judgment rule by a statistical method, it is necessary to collect a large amount of data and attach a label indicating whether the collected data is an important sentence or a non-important sentence. . If the data is small, labels can be easily assigned manually. However, if the data is large, it takes time for manual work, and thus the use of the data becomes difficult.
また、特許文献1に示すシステムは、判定対象の文書と判定ルールとを照合する際、判定対象の文書中の単語と判定ルール中の単語とが一致するか否かに基づいて照合する。さらに、特許文献1に示すシステムは、同義語辞書を用いるため、照合の対象となる単語の表記のゆれにも対応できる。
Further, when collating the determination target document and the determination rule, the system disclosed in
一方、特許文献2においては、判定対象となる文書中の単語について、その単語の有無に関する情報を特徴ベクトルの要素として使用する。しかし、通常、文書中には数値に関する記述も多数含まれており、数値に関しては、その数値の一致又は不一致ではなく、「〜以上」、「〜以下」又は「〜から〜まで」といった、数値の大きさ、又は数値の範囲に基づく照合が必要であり、それらに対応した数値用の判定ルールを構築する必要がある。
On the other hand, in
特許文献2の技術は、単語の表記すなわち単語を示す文字列の一致又は不一致に基づく判定ルールの構築に対応しているが、数値の大きさ又は数値の範囲を考慮した判定ルールの構築には対応していない。このため、数値の大きさ又は数値の範囲を考慮する必要がある場合、判定精度が低下するという問題がある。
The technique of
判定ルールを数値に対応させること、及び、その数値に対応した判定ルールを人手によって構築することは技術的に容易であるが、大規模な文書を対象とする場合、前述の通り、一貫性のある精度の高い判定ルールを効率的に構築することが困難になる。 It is technically easy to make a judgment rule correspond to a numerical value and to manually construct a judgment rule corresponding to the numerical value. It becomes difficult to efficiently construct a certain highly accurate determination rule.
本発明の目的は、文書中から重要と判断される箇所を抽出するシステムにおいて使用される判定ルールを、大量の文書から効率的に生成するとともに、数値の大きさ及び数値の範囲を考慮した判定精度の高い判定ルールを、容易に生成するシステムの提供である。 It is an object of the present invention to efficiently generate a determination rule used in a system for extracting a portion determined to be important from a document from a large number of documents, and to consider a numerical value and a numerical range. The provision of a system for easily generating a highly accurate determination rule.
本発明の代表的な一例を示せば以下の通りである。すなわち、演算処理をするプロセッサと、前記プロセッサに接続される記憶装置とを備え、前記プロセッサが文書を解析する計算機システムであって、前記文書は、各々が複数の単語を含み、文章を構成する複数の要素を含み、前記複数の要素は、文又は段落を含み、前記プロセッサは、複数の第1の前記文書と、前記第1の文書への参照を含む参照文書と、重要箇所の判定を行う対象となる第2の前記文書とを入力され、前記各第1の文書から前記要素を抽出するとともに、前記参照文書中から前記第1の文書への参照箇所を参照情報として抽出し、前記各第1の文書から抽出された要素と前記参照情報とによって算出される類似度に基づいて、前記各第1の文書から抽出された要素と前記参照情報との間で類似する要素を重要箇所であるとして第1の前記要素に、前記各第1の文書から抽出された要素と前記参照情報との間で類似しない箇所を非重要箇所として第2の前記要素に、前記各第1の文書から抽出された要素を分割し、前記分割された第1の要素及び第2の要素に含まれる前記複数の単語に基づいて、前記各文書の第1の特徴量を取得し、前記取得された第1の特徴量に基づいて、前記重要箇所を含むか否かを判定するための判定ルールを生成し、前記第2の文書から前記要素を抽出し、前記第2の文書から抽出した要素に含まれる前記複数の単語に基づいて、第2の特徴量を取得し、前記生成された判定ルールと、前記取得された第2の特徴量とを比較することによって、前記第2の文書から抽出した要素を、重要箇所と非重要箇所に分類する。 A typical example of the present invention is as follows. That is, a computer system that includes a processor that performs arithmetic processing and a storage device that is connected to the processor, and in which the processor analyzes a document, the document includes a plurality of words, and forms a sentence. A plurality of elements, the plurality of elements including a sentence or a paragraph; and the processor determines a plurality of first documents, a reference document including a reference to the first document, and an important part determination. The second document to be performed is input, and the elements are extracted from each first document, and a reference location to the first document is extracted from the reference document as reference information, Based on the similarity calculated from the elements extracted from each first document and the reference information, the similar elements between the elements extracted from each first document and the reference information are determined as important points. Is Then, a portion that is not similar to the first extracted element from the first document and the reference information is regarded as a non-important portion from the first document to the second element. The extracted element is divided, the first feature amount of each document is acquired based on the plurality of words included in the divided first element and second element, and the acquired first A determination rule for determining whether or not the important part is included is generated based on the feature amount of 1, and the element is extracted from the second document and included in the element extracted from the second document A second feature amount is obtained based on the plurality of words extracted, and extracted from the second document by comparing the generated determination rule with the obtained second feature amount Classify elements into important and non-critical parts.
本発明の一実施形態によると、文書中から重要と判断される箇所を抽出するための判定ルールを、効率的に生成する。 According to an embodiment of the present invention, a determination rule for extracting a portion determined to be important from a document is efficiently generated.
(第1の実施形態)
本発明の第1の実施形態を図1から図8を用いて説明する。
(First embodiment)
A first embodiment of the present invention will be described with reference to FIGS.
図1は、本発明の第1の実施形態による重要箇所判定システムの構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of an important point determination system according to the first embodiment of the present invention.
本発明の重要箇所判定システムは、事例文書101、参照情報記載文書102、文書分類部103、教師データ生成部104、判定ルール生成部105、判定ルール106、判定対象文書107、文書分割部108、文書分類ルール109、判定データ生成部110、及び、判定処理部111を備える。事例文書101、参照情報記載文書102、判定ルール106、判定対象文書107、及び、文書分類ルール109は、データの集合である。また、文書分類部103、教師データ生成部104、判定ルール生成部105、文書分割部108、判定データ生成部110、及び、判定処理部111は、プログラムである。
The important point determination system of the present invention includes a
事例文書101は、重要な箇所を判定する対象となる文書(判定対象文書107)に類似した文書、判定対象文書107と同じ分野の文書、及び、判定対象文書107に関連する内容を含む文書など、過去の文書を事例として保持する。例えば、判定対象文書107に類似した文書のうち、過去に蓄積された文書が事例文書101に蓄積される。
The
参照情報記載文書102は、事例文書101中の特定の箇所を参照するための記述が含まれる文書を保持する。例えば、事例文書101の中の特定の属性が重要であることを、ユーザによって指示された文書などが、参照情報記載文書102に蓄積される。
The reference
参照情報記載文書102の事例文書101を参照するための記述には、該当する事例文書101の文書名、章番号、見出し、ページ数、段落番号、カラム番号、行番号、及び、該当箇所の文章の全体又は一部などを適宜組み合わせた情報が含まれる。
The description for referring to the
文書分類部103では、重要な箇所を判定する単位(事例文書要素)に事例文書101を分割する。また、分割された事例文書要素を、参照情報記載文書102から参照される箇所であり、重要な箇所である重要要素、又は、それ以外の非重要要素に分類する。
The
教師データ生成部104は、文書分類部103によって分類された重要要素及び非重要要素を教師データに変換する。教師データは、判定ルール106を生成するために用いられる。
The teacher
判定ルール生成部105は、教師データ生成部104によって生成された教師データに基づいて、一般的に利用される機械学習の技術を用いることによって、判定ルール106を生成する。
The determination
判定対象文書107は、判定ルール106を用いて重要な箇所を判定する対象となる文書を保持する。文書分割部108は、文書分割ルール109を用いて、判定する単位(判定文書要素)に判定対象文書107を分割する。文書分割ルール109には、章若しくは段落、又は、表の形式など、文章の構造に関する情報が保持される。
The
判定データ生成部110は、判定処理部111によって利用できるデータ形式に、各判定文書要素を変換することによって、判定データを生成する。一般的に、判定ルール106を生成するために用いられる機械学習の技術と、判定処理において用いられる技術とは対になっているため、判定データ生成部110において出力されるデータ形式は、教師データ生成部104において生成されるデータ形式と同じである。
The determination
判定処理部111は、判定データに判定ルール106を適用し、各判定データが重要要素であるか非重要要素であるかを判定し、その結果を判定結果112として出力する。
The
図2は、本発明の第1の実施形態の文書分類部103の詳細な構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a detailed configuration of the
文書分類部103は、文書分割部201、参照情報抽出部203、マッチング部205、分類処理部206、文書分類ルール202及び参照情報抽出ルール204を備える。文書分割部201、参照情報抽出部203、マッチング部205及び分類処理部206は、プログラムであり、文書分類ルール202及び参照情報抽出ルール204は、データベースなどの記憶領域である。
The
図2に示す文書分割部201は、文書分割ルール202を用いて、判定処理を行う単位(事例文書要素)に事例文書を分割する。この文書分割部201は図1に示す文書分割部108と同じでもよく、文書分割ルール202は図1に示す文書分割ルール109と同じでもよい。文書分割ルール202には、章の見出し若しくは段落、又は、表の形式などの文章の構造に関する情報が保持される。
The
ここで、文書分割ルール202の例を以下に示す。
Here, an example of the
図3は、本発明の第1の実施形態の文書分割ルール202の例を示す説明図である。
FIG. 3 is an explanatory diagram illustrating an example of the
図3に示す文書分割ルール202は、章の見出し又は表のタイトルを含むパターンによって、文章の構造に関する情報を示す。文書分割ルール202は、パターン301、階層レベル302、及び、内容303を含む。また、図3に示す文書分割ルール202は、各行にエントリー304〜エントリー307を含む。
The
パターン301は、文書中に記述される、章の見出し又は表のタイトルのパターンを示す。階層レベル302は、パターン301に示される記述が、章の見出しのように、第1章、第2節、などといった階層構造である場合、階層構造の深さを示す。階層レベル302は、数値が大きい程、階層が深いことを示す。
A
内容303は、パターン301に示される項目の内容を示す。内容303は、パターン301の管理を容易にするための情報であり、文書分割部201による処理において特に利用されるものではない。
A content 303 indicates the content of an item shown in the
また、図3に示すパターン301の欄において、「N」には任意の数字が記述されることを、「A」には任意のアルファベット等の文字が記述されることを、さらに「*」は任意の文字列が記述されることを、それぞれ示す。文書分類部103は、パターン301と各事例文書101の内容とを比較することによって、パターン301にマッチする箇所を抽出する。
In the column of the
例えば文書分類部103は、エントリー304のパターン301によって、事例文書101から、「第1章 総論」、「第2章 構成」などの文字列を抽出し、エントリー305のパターン301によって、「1.1 概要」、「2.1 仕様」などの文字列を抽出する。また、エントリー306のパターン301によって「(a) メモリ容量は5MB」、「(b) ハードディスクは1TB」などの文字列を抽出し、エントリー307のパターン301によって「・ メモリスロットは2つ」などの文字列を抽出する。
For example, the
事例文書101中で文書分割ルール202にマッチする箇所を抽出した後、抽出された箇所の直後に本文が存在する場合、文書分割部201は、抽出された箇所及び直後の本文を一つのまとまった事例文書要素として、事例文書101を分割する。また、抽出された箇所の次に本文が存在しない場合、文書分割部201は、抽出された箇所を事例文書要素として、事例文書101を分割する。
After extracting the part that matches the
抽出された箇所及び直後の本文を、一つのまとまった事例文書要素として、事例文書101を分割する際、分割された事例文書要素が、章の見出しなどによって示される階層構造のうち下位の階層を含む場合、文書分割部201は、階層レベル302が格納されるパターン301にマッチした上位の階層の章の見出しなどを文脈情報として取得し、また、下位の階層の章の見出しなどを事例文書要素として取得する。そして、取得された事例文書要素に取得された文脈情報を付加する。
When the
例えば、事例文書101が、以下のような階層構造を含む場合を示す。
For example, a case where the
「第2章 構成
…
2.2 仕様
(a)メモリ容量は5MB
(b)ハードディスクは1TB
… 」 ・・・事例文書101
前述の事例文書101の例に、図3に示す文書分割ルール202を適用した場合、全ての行の項目が、パターン301に該当すると判定され、また、全ての行の項目に、判定された箇所の直後に本文が存在しないと判定されるため、以下の二つの事例文書要素が生成される。
“
2.2 Specifications (a) Memory capacity is 5MB
(B) Hard disk is 1TB
... "...
When the
「第2章 構成 ・・・文脈情報
2.2 仕様 ・・・文脈情報
(a)メモリ容量は5MB 」 ・・・事例文書要素
「第2章 構成 ・・・文脈情報
2.2 仕様 ・・・文脈情報
(b)ハードディスクは1TB 」 ・・・事例文書要素
前述の二つの文書が、事例文書要素として抽出される。ここで、「第2章 構成」及び「2.2 仕様」は、該当するパターン301の階層レベル302に値が格納されているため、文脈情報として付加された項目である。文脈情報には、章の見出しなどのほか、文書名、ページ数、段落番号、又は、行番号などを含めてもよい。
"
また、抽出された事例文書要素の直後の本文が複数の段落に分割される場合、段落毎に、文脈情報、直前に抽出された箇所、及び、段落を組として事例文書要素が生成されてもよい。さらに、本文中の各文を単位として事例文書要素が生成されてもよい。 In addition, when the text immediately after the extracted case document element is divided into a plurality of paragraphs, even if the case document element is generated for each paragraph, the context information, the location extracted immediately before, and the paragraph are combined. Good. Furthermore, a case document element may be generated with each sentence in the text as a unit.
また、文書分割ルール202のパターン301は、文字列のほか、使用されるフォントの種類、文字の大きさ、下線の有無、又は、字下げの有無など、事例文書101に記述される形式に関するルールであれば、どのようなルールでも格納されてよい。
In addition to the character string, the
図2に示す参照情報抽出部203は、参照情報抽出ルール204の内容に基づいて、参照情報記載文書102から、事例文書101中の特定箇所を参照するための記述を抽出する。参照情報抽出ルール204には、文書分割ルール202と同様に、参照箇所の記述にあてはまる固有のパターンが図3に示すパターン301と同様に格納される。
The reference
参照情報抽出部203は、それらのパターンがマッチする箇所を参照情報記載文書102から検索することによって、参照情報記載文書102から参照情報を抽出する。すなわち、参照情報抽出部203によって抽出される参照情報は、参照情報記載文書102に保持されていた文書を、文書分割部201によって生成された事例文書要素と比較可能な形式に変更した情報である。
The reference
参照情報抽出部203によって抽出される参照情報は、該当する事例文書101の文書名、章番号、章の見出し、ページ数、段落番号、カラム番号、行番号、若しくは、該当箇所の文章の全体又は一部などの組み合わせを含む。参照情報にいずれの項目が含まれるかは、参照情報記載文書102の内容に依存する。
The reference information extracted by the reference
マッチング部205は、文書分割部201によって抽出された各事例文書要素と、参照情報抽出部203によって抽出された各参照情報とをマッチングする。マッチング部205は、該当する項目が存在するか否か、及び、該当する項目の内容が一致するか否かに基づいてマッチングする。
The
なお、該当箇所の文章の一部のみが参照情報に含まれる場合、マッチング部205は、動的計画法による符号のマッチング技術(例えば、特開2002−221984号公報参照)を用いることによって、参照情報中の内容と事例文書要素中の該当する文章とを柔軟にマッチングすることができる。
In addition, when only a part of the sentence of the corresponding part is included in the reference information, the
次に、マッチング部205は、マッチングの結果に基づいて、参照情報と事例文書要素との一致度を算出する。一致度は、マッチングした参照情報と事例文書要素とのうち、一致した数によって算出される。
Next, the
また、動的計画法による技術を用いた場合、マッチング部205は、参照情報と事例文書要素との距離を算出できる。このため、算出された距離の逆数を求めることによって、距離が小さいほど大きい値が得られる関数を求め、この関数によって算出された値を一致度としてもよい。
Further, when a technique based on dynamic programming is used, the
分類処理部206は、マッチングの結果、各参照情報に対して最も一致度が高い事例文書要素を重要箇所である事例文書要素(重要要素)として分類し、どの参照情報にも対応せず、一致度が低い事例文書要素を、重要箇所ではない事例文書要素(非重要要素)として分類する。そして、分類された重要要素及び非重要要素(分類結果)を、教師データ生成部104に送る。
As a result of matching, the
図4は、本発明の第1の実施形態の教師データ生成部104の詳細な構成を示すブロック図である。
FIG. 4 is a block diagram illustrating a detailed configuration of the teacher
教師データ生成部104は、単語分割部401、属性情報抽出部402、属性抽出ルール403、単語集計部404、単語リスト405及びデータ変換部406を備える。単語分割部401、属性情報抽出部402、単語集計部404及びデータ変換部406は、プログラムである。属性抽出ルール403及び単語リスト405は、データベースなどの記憶領域である。
The teacher
なお、本実施形態において、判定ルール生成部105における処理及び判定処理には、サポートベクターマシン(例えば、特開2003−36262号参照)を用いるが、数値データを教師データとして利用する機械学習技術であれば、特に制限無く、いずれの機械学習技術でも用いてよい。
In the present embodiment, a support vector machine (see, for example, Japanese Patent Application Laid-Open No. 2003-36262) is used for processing and determination processing in the determination
図4における単語分割部401は、文書分類部103から入力される重要要素及び非重要要素に含まれる文章を、単語に分割する。文章を単語に分割する技術には、自然言語処理又は機械翻訳の分野において一般的に用いられる形態素解析技術(例えば、「岩波講座ソフトウェア科学(15)自然言語処理」、岩波書店、1996年)を用いてもよい。
A
また、対象文書が英語などの言語によって記述され、あらかじめ付された空白によって対象文書の中の単語を区切ることができる場合、単語分割部401は、文章中から空白を抽出することによって、文章を単語に分割してもよい。
In addition, when the target document is described in a language such as English, and words in the target document can be separated by a blank added in advance, the
単語に分割された重要要素及び非重要要素中を含む文書は、単語集計部404に送られると共に、属性情報抽出部402に送られる。属性情報抽出部402は、属性抽出ルール403に格納されるルールに基づいて、属性名及び属性値を含む属性情報を、重要要素及び非重要要素から抽出する。
A document including important elements and non-important elements divided into words is sent to the
属性抽出ルール403の内容を図5A及び図5Bを用いて説明する。図5A及び図5Bは、属性抽出ルール403に含まれるルールを示す。
The contents of the
図5Aは、本発明の第1の実施形態の属性抽出ルール403に含まれる属性名501及び単位502の例を示す説明図である。
FIG. 5A is an explanatory diagram illustrating an example of
属性抽出ルール403は、重要要素及び非重要要素から属性情報を抽出するために、属性情報抽出部402によって用いられるルールである。属性抽出ルール403は、属性名501、単位502及びパターン504を含む。属性名501は、各文書における属性名の表記を示し、単位502は、属性値と共に記述される属性値の単位の表記を示す。
The
なお、属性抽出ルール403は、事例文書101等に含まれる属性名、単位及びパターンに基づいて、あらかじめ生成されている。
Note that the
図5Aにおいて、属性名501の欄には、重要要素又は非重要要素(以下、文書と記載)に含まれると想定される属性名の表記が格納され、単位502には各属性名501に対応する属性値と共に記述される単位の表記が格納される。エントリー503−1は、属性名501が「メモリサイズ」であり、単位502が「Gバイト」又は「GB」などである表記が、文書に記述されることを示す。エントリー503−2及びエントリー503−3も同様に、どのような表記が文書に記述されるかを示す。
In FIG. 5A, the
図5Bは、本発明の第1の実施形態の属性抽出ルール403に含まれるパターン504の例を示す説明図である。図5Bに示すパターン504は、文書中において属性情報が表記されるパターンを示す。
FIG. 5B is an explanatory diagram illustrating an example of the
図5Bに示すパターン504によれば、<属性名>に図5Aに示す属性名501が記述され、<単位>に図5Aに示す単位502が記述されるパターンを、文書が含んだ場合、属性情報抽出部402は、そのパターンを含んだ文書が属性抽出ルール403と一致すると判定する。また、図5Bに示す「N」は、任意の数値が記述されるパターンを示す。
According to the
例えば、文書中に「メモリサイズ は 1 GB」という記述がある場合、その記述は属性抽出ルール403のパターン504−1と一致するため、属性情報抽出部402は、文書中から「メモリサイズ は 1 GB」を属性情報として抽出する。
For example, if there is a description “memory size is 1 GB” in the document, the description matches the pattern 504-1 of the
また例えば、文書中に「動作電圧 100 V の」という記述がある場合、その記述は属性抽出ルール403のパターン504−2と一致するため、属性情報抽出部402は、文書中から「動作電圧 100 V の」を属性情報として抽出する。
Also, for example, if there is a description “operating voltage 100 V” in the document, the description matches the pattern 504-2 of the
なお、図5Bに示す属性抽出ルール403において、「N」などの符号によって示された数値の範囲を示すルールを追加してもよい。また属性情報抽出部402は、属性名501と単位502が示す属性値とのみでなく、属性名501が示す属性を有する事物名(品物名)も合わせて属性情報として抽出してもよい。
In the
属性名501が示す属性を有する事物名も合わせて抽出する場合、図5Bにおける属性抽出ルール403に、「<事物名> の <属性名> は N<単位>」を追加し、<事物名>の箇所に該当する単語を検索することによって、容易に事物名を抽出し、抽出された事物名を属性情報に含めてもよい。
When the thing name having the attribute indicated by the
さらに、属性抽出ルール403は、図5Aに示す属性名501及び単位502のように、あらかじめ想定される事物名の一覧を含んでもよい。また、前述のような属性抽出ルール403に合致する任意の単語又はフレーズ(連続した単語の集合)を重要要素又は非重要要素から、事物名として抽出してもよい。
Furthermore, the
図4に示す単語集計部404は、単語分割部401から送られた重要要素及び非重要要素に含まれる全ての単語と、属性情報抽出部402によって抽出された全ての属性名501とを集計し、重複する単語及び属性名501をマージする。そして、マージされた単語及び属性名501を単語リスト405に格納する。
The
さらにデータ変換部406は、重要要素及び非重要要素の内容、属性情報抽出部402によって抽出された属性情報、及び、単語リスト405の内容に基づいて、判定ルール106を生成するために必要となる教師データを生成する。本実施形態では、判定ルール生成の処理及び判定処理に、サポートベクターマシンを使用するため、データ変換部406は、重要要素及び非重要要素の内容を多次元ベクトルに変換する。教師データは、多次元ベクトルによって表現される。
Further, the
具体的には、まずデータ変換部406は、単語リスト405中の各単語及び属性名501を多次元ベクトルの各要素に割り当てる。またデータ変換部406は、属性情報中に事物名が含まれる場合、事物名と属性名501との組に、対応する多次元ベクトルの一つの要素を割り当てる。
Specifically, first, the
次に、データ変換部406は、各重要要素及び非重要要素に含まれる単語に対応する要素に「1」を、それ以外の要素には「0」を格納する。ただし、該当する単語が属性情報として抽出されている場合、単語に対応する要素には「0」を割り当てると共に、数字文字列で表記されている属性値を数値データに変換し、属性名501に対応する要素の値として格納する。
Next, the
以下に、各重要要素及び非重要要素を、多次元ベクトルに変換する例を示す。 An example of converting each important element and non-important element into a multidimensional vector is shown below.
単語リスト405に、以下の単語及び属性名501が格納されているものとする。
It is assumed that the following words and attribute
単語:PC、CPU、メモリ、メモリサイズ、動作電圧
属性名501:メモリサイズ、動作電圧
単語リスト405に、上記の単語及び属性名501が格納されている場合、求める多次元ベクトルは以下の7次元のベクトルである。
Word: PC, CPU, memory, memory size, operating voltage Attribute name 501: Memory size, operating voltage When the above word and
多次元ベクトル:(<PC>、<CPU>、<メモリ>、<メモリサイズ>、<動作電圧>、[メモリサイズ]、[動作電圧])
Xに該当する単語が存在する場合、<X>は「1」を示し、Xに該当する単語が存在しない場合、<X>は「0」を示す。また、Yに該当する属性名501に対応する属性値が設定される場合、[Y]は「1」を示し、Yに該当する属性名501に対応する属性値が設定されていない場合、[Y]は「0」を示す。
Multi-dimensional vector: (<PC>, <CPU>, <memory>, <memory size>, <operating voltage>, [memory size], [operating voltage])
When a word corresponding to X exists, <X> indicates “1”, and when a word corresponding to X does not exist, <X> indicates “0”. When an attribute value corresponding to the
ここで、単語分割部401から単語集計部404を経由して送られた重要要素又は非重要要素に、以下の文字列が含まれるものとする。
Here, it is assumed that the following character strings are included in the important elements or the unimportant elements sent from the
「PC は CPU 及び メモリ を 有する 」
重要要素又は非重要要素に上記のような文字列が含まれる場合、求める多次元ベクトルは、該当する単語に対応する要素に「1」をセットすることによって、以下のように示される。
"PC has CPU and memory"
When the above-described character string is included in the important element or the non-important element, the obtained multidimensional vector is shown as follows by setting “1” to the element corresponding to the corresponding word.
多次元ベクトル:(1、1、1、0、0、0、0)
すなわち、多次元ベクトルは、対象となる重要要素又は非重要要素に、「PC」、「CPU」及び「メモリ」の単語が存在し、「メモリサイズ」及び「動作電圧」の単語が存在しないことを示す。
Multidimensional vector: (1, 1, 1, 0, 0, 0, 0)
That is, in the multidimensional vector, the words “PC”, “CPU” and “memory” exist in the target important or non-important elements, and the words “memory size” and “operating voltage” do not exist. Indicates.
また、単語分割部401から単語集計部404を経由して送られた重要要素又は非重要要素に、以下の文字列が含まれるものとする。
Further, it is assumed that the following character strings are included in the important elements or the unimportant elements sent from the
「PC の 動作電圧 は 100 V」
重要要素又は非重要要素が上記のような文字列であった場合、図5A及び図5Bに示す属性抽出ルール403を適用することによって、以下の文字列が抽出される。
“PC operating voltage is 100 V”
When the important element or the unimportant element is a character string as described above, the following character string is extracted by applying the
属性名:動作電圧
属性値:100V
このため、得られる多次元ベクトルは、以下のとおりである。
Attribute name: Operating voltage Attribute value: 100V
For this reason, the obtained multidimensional vector is as follows.
(1、0、0、0、0、0、100)
すなわち、対象となる重要要素又は非重要要素には、「PC」の単語が存在し、他の単語は存在しないことを示す。また、対象となる重要要素又は非重要要素には、動作電圧が「100(V)」である記述が存在することを示す。「動作電圧」という単語は、属性情報として抽出されるため、その有無を示す要素(左から5番目の要素)には0が格納され、属性値に関する要素(一番右の要素)のみに値が格納される。
(1, 0, 0, 0, 0, 0, 100)
That is, it is shown that the word “PC” exists in the target important element or non-important element, and no other word exists. Further, it is indicated that there is a description in which the operating voltage is “100 (V)” in the target important element or non-important element. Since the word “operating voltage” is extracted as attribute information, 0 is stored in the element indicating the presence or absence (the fifth element from the left), and only the element related to the attribute value (the rightmost element) has a value. Is stored.
なお、「動作電圧」という単語が重要要素又は非重要要素に単独で記述されている場合、ベクトルの左から5番目の要素に1が格納され、属性値に関する要素には0が格納される。また、前述の例において、単語リスト405中に含まれない単語を、データ変換部406はすべて無視する。
When the word “operating voltage” is described alone as an important element or an unimportant element, 1 is stored in the fifth element from the left of the vector, and 0 is stored in an element related to the attribute value. In the above example, the
さらに、データ変換部406は、前述の例において、属性値を示す数値データをそのまま対応する多次元ベクトルの要素に格納したが、属性名毎にあらかじめ定められた数値を乗じることによって大きさを変更した値を多次元ベクトルの要素に格納してもよい。また、属性値を示す数値データを0〜1の間に正規化し、得られた値を、多次元ベクトルの要素に格納してもよい。
Further, in the above example, the
さらに前述の例において、全ての単語一つ一つにベクトルの要素に割り当てられていたが、データ変換部406は、類似する意味を示す単語は一つのベクトルの要素に割り当ててもよい。
Furthermore, in the above-described example, all the words are assigned to vector elements, but the
図6は、本発明の第1の実施形態の教師データ生成部104の別の例を示すブロック図である。
FIG. 6 is a block diagram illustrating another example of the teacher
データ変換部406によって類似する意味を示す単語が一つのベクトルの要素に割り当てられる場合、データ変換部406は、類似した単語の一覧を格納した同義語辞書407に接続される。そして、同義語辞書407の内容を検索することによって、単語リスト405の中で同義語と判断される単語を、多次元ベクトルにおける同一のベクトルの要素に割り当てる。
When words having similar meanings are assigned to one vector element by the
例えば、前述の例において、「メモリ」と「メモリサイズ」とが類似である場合、同義語辞書407には「メモリ」と「メモリサイズ」との組が保持される。そして、データ変換部406は、同義語辞書407に保持される組を参照し、「メモリ」と「メモリサイズ」との属性名502を、一つのベクトルの要素に割り当てる。
For example, in the above example, when “memory” and “memory size” are similar, the
以上のように生成された多次元ベクトルは、教師データを示す。データ変換部406は、生成された教師データを、判定ルール生成部105に送る。
The multidimensional vector generated as described above indicates teacher data. The
判定ルール生成部105は、送られた教師データを用いて、判定ルール106を生成する。前述したように、本実施形態における判定ルール生成部105は、サポートベクターマシンを使用することを想定しており、重要要素及び非重要要素ごとに分類された多次元ベクトルにサポートベクターマシンを適用し、判定ルール106を生成する。
The determination
サポートベクターマシンによって、判定ルール生成部105は、多次元ベクトルにおける分離面を生成する。これによって、判定ルール106は、重要要素及び非重要要素に含まれる属性名501と、その属性名501に対応する属性値とがとりうる値の範囲(または分布)を示す情報を保持する。
With the support vector machine, the determination
判定処理部111は、判定ルール106によって、重要な属性名501とその属性名501に対応する属性値がとりうる値とを取得することができる。
The
一方、図1に示す判定対象文書107の内容に、重要要素であるか否かを判定する処理を以下に示す。判定対象文書107は、前述のとおり、重要要素を抽出される対象の文書である。
On the other hand, processing for determining whether or not the content of the
まず、文書分割部108は、判定する単位である判定文書要素に判定対象文書107を分割する。文書分割部108によって行われる処理は、文書分類部103における文書分割部201と同じであり、また、その際使用される文書分割ルール109も、文書分割部201において用いられた文書分割ルール202と同じものを使用することができる。
First, the
すなわち判定対象文書107は、文書分割部108によって、章ごと、又は、段落ごとなどに分割され、判定データ生成部110に送られる。
That is, the
次に、判定データ生成部110は、文書分割部108によって分割された各判定文書要素を、判定処理部111において利用できるデータ形式に変換する。判定処理部111に判定ルール生成部105と同様にサポートベクターマシンを使用する場合、教師データと判定データの形式とは同一であるため、判定データ生成部110の処理は、教師データ生成部104と同じ処理である。
Next, the determination
すなわち判定データ生成部110は、文書分割部108によって送られた各判定文書要素を、単語に分割し、さらに多次元ベクトルに変換する。これによって、判定処理部111は、判定ルール106と、判定文書要素から変換された多次元ベクトルとを比較することができる。
That is, the determination
図7は、本発明の第1の実施形態の判定データ生成部110の詳細を示すブロック図である。
FIG. 7 is a block diagram illustrating details of the determination
判定データ生成部110は、単語分割部701、属性情報抽出部702、属性抽出ルール703、単語リスト704、及び、データ変換部705を備える。単語分割部701、属性情報抽出部702、及び、データ変換部705は、プログラムである。属性抽出ルール703、及び、単語リスト704は、データベースなどの記憶領域である。
The determination
単語分割部701、属性情報抽出部702、属性抽出ルール703及びデータ変換部705は、教師データ生成部104における単語分割部401、属性情報抽出部402、属性抽出ルール403及びデータ変換部406とそれぞれ同じである。
The
教師データ生成部104と判定データ生成部110との違いは、教師データ生成部104における単語集計部404が判定データ生成部110にはなく、データ変換部705において使用される単語リスト704は、教師データ生成部104において単語集計部404によって作成された単語リストを利用することである。これによって判定文書要素は、事例文書中に含まれる単語及び属性名501に基づいて、多次元ベクトルに変換される。
The difference between the teacher
なお、教師データ生成部104が同義語辞書407を備える場合、判定データ生成部110も同義語辞書407を備える。そしてデータ変換部705は、同義語辞書407に接続され、属性名501のうち類似する属性名501を、多次元ベクトルにおける同一のベクトルの要素に割り当てる。
When the teacher
判定データ生成部110は、変換された多次元ベクトル(判定データ)を、判定処理部111に送る。
The determination
判定処理部111は、判定データ生成部110から送られた判定データに、サポートベクターマシンを使用して判定ルール106と比較することによって、各判定データが重要要素であるか非重要要素であるかを判定し、結果を判定結果112として出力する。
The
具体的には判定処理部111は、判定データに含まれる多次元ベクトルによって、判定ルール106を検索し、判定データに含まれる属性名501に対応する属性が、重要要素であるか、非重要要素であるかを取得する。
Specifically, the
さらに判定処理部111は、判定データの多次元ベクトルが示す属性名501と属性値とを、判定ルール106において検索することによって、判定データに含まれる属性値と、判定ルール106に含まれる属性値との距離が離れていることを取得することができる。すなわち判定処理部111は、判定データを判定ルール106において検索することによって、事例文書101に含まれる属性値が、判定対象文書107に含まれる属性値と、どの程度離れているかを取得することができる。
Further, the
図8は、本発明の第1の実施形態の重要箇所判定システムを、計算機100に実装した場合の構成図を示す。
FIG. 8 is a configuration diagram when the important point determination system according to the first embodiment of this invention is mounted on the
計算機100は、情報処理装置801、入力装置802、表示装置803、記憶装置804、事例文書814、参照情報記載文書815、判定対象文書816、文書分割ルール817、参照情報抽出ルール818、属性抽出ルール819、単語リスト820、及び、判定ルール821を備える。
The
情報処理装置801は、重要箇所判定処理に必要な各種のプログラムを実行するためのCPUなどの演算装置である。入力装置802は、システム利用者がシステムを操作するための装置であり、一般的に用いられるキーボード又はマウスなどの装置である。表示装置803は、判定結果112を出力するための装置であり、一般的に用いられるモニタ又はスピーカなどの装置である。
The
記憶装置804には、重要箇所判定処理に必要な各種のプログラムや処理の途中経過に関する情報が格納される。記憶装置804には、文書分割プログラム805、参照情報抽出プログラム806、マッチングプログラム807、分類処理プログラム808、単語分割プログラム809、属性情報抽出プログラム810、単語集計プログラム811、データ交換プログラム812、及び、判定処理プログラム813が格納される。
The
文書分割プログラム805は、文書分類部103に含まれる文書分割部201及び文書分割部108に対応する処理を行う。参照情報抽出806は、文書分類部103に含まれる参照情報抽出部203に対応する処理を行う。マッチングプログラム807は、文書分類部103に含まれるマッチング部205に対応する処理を行う。
The
分類処理プログラム808は、文書分類部103に含まれる分類処理部206に対応する処理を行う。単語分割プログラム809は、教師データ生成部104に含まれる単語分割部401及び判定データ生成部110に含まれる単語分割部701に対応する処理を行う。
The
属性情報抽出プログラム810は、教師データ生成部104に含まれる属性抽出部402及び判定データ生成部110に含まれる属性抽出部702に対応する処理を行う。単語集計プログラム811は、教師データ生成部に含まれる単語集計部404に対応する処理を行う。
The attribute
データ交換プログラム812は、教師データ生成部に含まれるデータ変換部406及び判定データ生成部110に含まれるデータ変換部705に対応する処理を行う。判定処理プログラム813は、判定処理部111に対応する処理を行う。
The
また事例文書814には、図1に示す事例文書101が格納され、参照情報記載文書815には、図1に示す参照情報記載文書102が格納される。判定対象文書816には、図1に示す判定対象文書107が格納され、文書分割ルール817には、図2に示す文書分割ルール202及び図1に示す文書分割ルール109が格納される。
The
参照情報抽出ルール818には、図2に示す参照情報抽出ルール204が格納され、属性抽出ルール819には、図4に示す属性抽出ルール403及び図7に示す属性抽出ルール703が格納される。単語リスト820には、図4に示す単語リスト405及び図7に示す単語リスト704が格納され、判定ルール821には、図1に示す判定ルール106が格納される。
The reference information extraction rule 818 stores the reference
本発明の第1の実施形態によれば、事例文書101と参照情報記載文書102との対応関係を求めることによって、文書中の重要要素を判定するための判定ルール106を生成するために必要となる教師データを効率的に構築することができるようになると共に、事例文書101から属性情報を抽出し、数値データに変換した属性値を教師データに埋め込むことによって、「〜以上」又は「〜から〜まで」のような数値の大きさや範囲に基づく判定ルールを容易に構築し、精度の良い重要箇所判定システムを構成することが可能となる。
According to the first embodiment of the present invention, it is necessary to generate a
例えば、計算機システムを設計する際に提示される膨大な要求仕様書の中から、特に重要なシステムの情報(CPU性能、又は、メモリサイズ等)を抽出したい時、第1の実施形態によれば、過去に蓄積された設計書などの事例文書と、ユーザからの要望などが記述された参照情報とに基づいて、判定ルール106を生成する。これによって、要求仕様書から効率的にシステムの情報を抽出することができる。また、判定ルール106に含まれる属性値によって、要求仕様書に示された数値が、過去の設計書に示された数値から離れている場合も、抽出することができる。
For example, when it is desired to extract particularly important system information (CPU performance, memory size, etc.) from an enormous requirement specification presented when designing a computer system, according to the first embodiment. The
(第2の実施形態)
本発明の第2の実施形態を図9から図13を用いて説明する。
(Second Embodiment)
A second embodiment of the present invention will be described with reference to FIGS.
第1の実施形態では、事例文書から抽出した属性情報から得られた数値データを、教師データ中に埋め込むことによって、一種類の判定ルール106を生成し、さらに生成された一種類の判定ルール106によって、精度のよい重要箇所判定を行うことができる。一方、第2の実施形態では、属性情報を除いた事例文書要素を判定するルールと、属性情報に関する判定を行うルールとを分離することに特徴を有する。
In the first embodiment, the numerical data obtained from the attribute information extracted from the case document is embedded in the teacher data, thereby generating one type of
図9は、本発明の第2の実施形態の重要箇所判定システムの構成を示すブロック図である。 FIG. 9 is a block diagram showing the configuration of the important point determination system according to the second embodiment of the present invention.
図1に示す構成と図9に示す構成との違いは、図1では一種類であった判定ルール106が、図9において、属性情報を含まない事例文書要素を判定するための文書要素判定ルール903と、属性情報に関する判定のみを行う属性値判定ルール904の二種類になっている点である。
The difference between the configuration shown in FIG. 1 and the configuration shown in FIG. 9 is that the
また、教師データ生成部901、判定ルール生成部902、判定データ生成部905及び判定処理部906の構成及び機能は、図1に示す教師データ生成部104、判定ルール生成部105、判定データ生成部110、及び、判定処理部111と同様であるが、その処理の詳細は異なる。
The configuration and function of the teacher
また、第1の実施形態の事例文書101、参照情報記載文書102、文書分類部103、判定対象文書107、文書分割部201、及び、文書分割ルール202を、第2の実施形態の重要箇所判定システムも備える。
In addition, the
図10は、本発明の第2の実施形態の教師データ生成部901の詳細な構成を示すブロック図である。
FIG. 10 is a block diagram illustrating a detailed configuration of the teacher
図10に示す教師データ生成部901と図4に示す教師データ生成部104とは、データ変換部における処理及び出力される教師データに違いがある。第2の実施形態において、データ変換部1001が出力する教師データは、文書要素教師データ1002及び属性値教師データ1003である。
The teacher
文書要素教師データ1002は、第1の実施形態における教師データから属性情報を含まない事例文書要素に、判定ルールを生成するための教師データである。属性値教師データ1003は、属性情報を含む事例文書要素に、判定ルールを生成するための教師データである。
The document
第1の実施形態と同様に、第2の実施形態においても、事例文書要素からの判定ルール生成及び判定対象文書要素の判定にサポートベクターマシンを利用する。第2の実施形態のデータ変換部1001は、単語リスト1004中の各単語に多次元ベクトルの要素を割り当て、各事例文書要素に、事例文書要素中の単語に対応する多次元ベクトルの要素に1を、それ以外に0を設定することによって、教師データを生成する。
Similar to the first embodiment, in the second embodiment, a support vector machine is used to generate a determination rule from a case document element and to determine a determination target document element. The
この際、データ変換部1001は、あらかじめ、属性情報抽出部1005において属性情報として抽出された箇所に該当する事例文書要素中の単語を除いておく。または、属性名の単語を除くと共に属性値に該当する単語を、単語の内容に依存せず、かつ、他の意味を持つ単語として現れることが無い特定の文字列に置き換える。例えば、属性値に該当する単語を、「NNN」などに置き換えるようにしてもよい。
At this time, the
このようにして生成された多次元ベクトルを、データ変換部1001は、文書要素教師データ1002として出力する。文書要素教師データ1002から文書要素判定ルール903を生成するための技術には、サポートベクターマシン以外にも、一般的に用いられている機械学習の技術を用いることができるため、文書要素教師データ1002には、使用する機械学習に適した形式を用いて、文書要素判定ルール903を生成すればよい。
The
また、属性情報抽出部1005は、属性名502と数値データに変換された属性値とを抽出することによって取得された属性情報の一覧を、属性値教師データ1003として出力する。属性情報抽出部1005は、第1の実施形態と同じく、該当する属性を有する事物名も属性情報と合わせて抽出し、属性値教師データ1003に含めて出力してもよい。
Further, the attribute
なお、文書要素教師データ1002及び属性値教師データ1003における各教師データには、重要要素から生成された教師データであるか、非重要要素から生成された教師データであるかに関する識別子が、各々付加される。
Note that each teacher data in the document
図11は、本発明の第2の実施形態の判定ルール生成部902の詳細を示すブロック図である。
FIG. 11 is a block diagram illustrating details of the determination
第1の実施形態の判定ルール生成部105は、一種類の機械学習によって判定ルール106を生成することを前提としたが、第2の実施形態の判定ルール生成部902は、文書要素判定ルール903及び属性値判定ルール904の二種類の判定ルールを生成するため、それぞれに文書要素判定ルール生成部1101及び属性値判定ルール生成部1102を備える。
The determination
判定ルール生成部902は、教師データの形式に合わせた、それぞれに適した技術を用いて判定ルールを生成してよい。例えば、文書要素判定ルール903を生成する方法には、前述のように教師データが多次元ベクトルによって与えられる場合、サポートベクターマシンを用いることが可能である。これによって、第1の実施形態と同じく、判定ルールを容易に生成することができる。
The determination
一方、属性値判定ルール904の場合、教師データは属性名と数値データとに変換された属性値の組であることから、判定ルール生成部902は、例えば、属性名毎に重要要素の属性値の平均と分散とを求め、それによって決定される範囲に属性値が存在しているか否かによって判定するルールを生成する。また、非重要要素の平均と分散とを加えることによって、重要要素である確率を算出する判定ルールを生成する。当然ながら、属性情報に関する判定ルールの生成においても、一般的に使用される機械学習の技術を使用してもよい。
On the other hand, in the case of the attribute
図12は、本発明の第2の実施形態の判定データ生成部905の詳細を示すブロック図である。
FIG. 12 is a block diagram illustrating details of the determination
図7に示す判定データ生成部104と図12に示す判定データ生成部905との違いは、データ変換部1201における処理と、出力する判定データとである。図12に示す判定データ生成部905は、属性情報を除いた文書要素判定データ1202及び属性情報に関する属性値判定データ1203の二種類を出力する。
The difference between the determination
第2の実施形態における単語分割部701、属性抽出ルール703、及び、単語リスト704は、第1の実施形態と同じである。
The
判定ルール生成部902及び判定処理部906にサポートベクターマシンを用いる場合、データ変換部1201は、前述した文書要素教師データと同じく、属性情報に該当する箇所を除いた判定文書要素の内容に基づいた多次元ベクトルを、文書要素判定データ1202として生成する。又は、属性名の単語を除くと共に属性値に該当する単語を、その内容に依存せず、且つ、単語として現れることが無い特定の文字列に置き換えてもよい。例えば、「NNN」などに置き換えてもよい。
When a support vector machine is used for the determination
データ変換部1201によって生成される文書要素判定データの形式には、文書要素判定ルール生成及び後述の文書要素判定処理部1301において使用される技術に適した形式を選択すればよい。さらに、判定データ生成部905は、教師データ生成部901と同様の処理をする。すなわち、属性情報抽出部1204は、属性名及び数値データに変換された属性情報を、属性値から抽出し、抽出された属性情報を属性値判定データ1203として出力する。抽出された属性情報は、該当する属性を有する事物名も合わせて付加され、属性値教師データ1203として出力されてもよい。
As a format of the document element determination data generated by the
図13は、本発明の第2の実施形態の判定処理部906の詳細を示すブロック図である。
FIG. 13 is a block diagram illustrating details of the
判定処理部906は、文書要素判定処理部1301と、属性値判定処理部1302とを備える。文書要素判定処理部1301は、文書要素判定ルール903及び文書要素判定データ1202に基づく判定処理を行う。属性値判定処理部1302は、属性値判定ルール904及び属性値判定データ1203に基づく判定処理を行う。それぞれの判定処理に用いる技術は、判定ルールを生成するために用いた技術に、適した方法を選択することができる。
The
例えば、文書要素判定ルール903が、前述の例のようにサポートベクターマシンを使用して生成される場合、同様にサポートベクターマシンを文書要素判定処理部1301に使用すればよい。また、属性値判定ルール904が、例えば、事例文書から得られた属性値の平均値と分散値とによって与えられるような場合、広く知られた正規分布の計算式を用いて確率的に判定する方法などを使用すればよい。
For example, when the document
結果統合部1303では、文書要素判定処理部1301における判定結果と属性値判定処理部1302における判定結果を統合し、最終的な判定結果を出力する。統合の方法は、例えば、判定対象となっている判定文書要素から属性情報が抽出されている場合は、属性値判定処理部1302の結果のみを使用して判定結果とする方法でもよい。
The
また結果統合部1303は、例えば、文書要素判定処理部1301からの判定結果及び属性値判定処理部1302からの判定結果が、重要要素である確率値など、重要要素又は非重要要素として判定される程度を示す連続値によって出力される場合、両者の判定結果の加重平均又は相加平均など、両者の値から一つの連続値を算出する関数を用いることによって、両者の結果を統合してもよい。
In addition, the
文書要素判定処理部1301及び属性値判定処理部1302それぞれからの結果が、重要要素であるか非重要要素であるかという判定のみが行われた結果である場合、結果統合部1303は、重要要素の場合を1、非重要要素の場合を0と定義することによって、加重平均又は相加平均などの関数を用いて両者の結果を統合してもよい。
When the result from each of the document element
結果統合部1303によって出力される判定結果は、前述の方法によって求めた値を出力するほか、それらの値とあらかじめ定めた閾値とに基づいて、重要要素であるか非重要要素であるかを判定した結果を出力するようにしてもよい。
The determination result output by the
以上のように、本発明の第2の実施形態によれば、事例文書と参照情報記載文書の対応関係を求めることによって、文書中の重要要素を判定するための判定ルールを生成するために必要となる教師データを効率的に構築することができるようになると共に、文書中で文字列が重要となる箇所と属性値のような数値が重要となる箇所を分離し、それぞれに適した判定ルール生成技術及び判定処理技術を適用した柔軟で精度の高い重要箇所判定システムを構成することが可能となる。 As described above, according to the second embodiment of the present invention, it is necessary to generate a determination rule for determining an important element in a document by obtaining a correspondence relationship between a case document and a reference information description document. It is possible to efficiently construct the teacher data to be used, and to separate the part where the character string is important in the document from the part where the numerical value such as the attribute value is important, and the decision rule suitable for each. It is possible to configure a flexible and highly accurate important point determination system to which the generation technique and the determination processing technique are applied.
(第3の実施形態)
本発明の第3の実施形態を図14から図16を用いて説明する。
(Third embodiment)
A third embodiment of the present invention will be described with reference to FIGS.
図14は、本発明の第3の実施形態の重要箇所判定システムの構成を示すブロック図である。 FIG. 14 is a block diagram showing a configuration of an important point determination system according to the third embodiment of the present invention.
図14における構成要素において、判定結果訂正部1401及び分類済事例文書1402は、第1の実施形態の重要箇所判定システムと異なる。他の構成要素は、第1の実施形態の構成要素と同じである。
In the components in FIG. 14, the determination
第3の実施形態では、文書分類部103からの出力を、分類済事例文書1402に格納する。教師データ生成部104は、分類済事例文書1402の内容を参照し、教師データを生成する。また、第3の実施形態では、判定対象文書に判定結果の一覧をシステム利用者に提示し、システム利用者が判定結果を確認すると共に、誤った判定結果を訂正する手段を提供することが特徴である。さらに、システム利用者が訂正を行った後、判定対象文書と判定結果とを新たな事例として、判定ルールの生成に利用する手段を設けたことが特徴である。
In the third embodiment, the output from the
図14に示す判定結果訂正部1401は、判定処理部111から受信した判定結果の一覧をシステム利用者に提示すると共に、システム利用者が判定結果を訂正する手段をシステム利用者に提供する。具体的には、判定する単位に判定対象文章を分割した結果である判定文書要素とそれに対する判定結果を対にしてモニタ画面上に表示し、キーボード又はマウスを操作することによって、画面上で、判定結果を訂正できるようにする。
The determination
図15は、本発明の第3の実施形態の判定結果の表示例を示す説明図である。 FIG. 15 is an explanatory diagram illustrating a display example of the determination result according to the third embodiment of this invention.
図15に示す判定結果一覧には、判定対象文書1501、判定結果1502、訂正ボタン1503、「事例に追加」ボタン1506、及び、終了ボタン1507が含まれる。
The determination result list illustrated in FIG. 15 includes a
判定対象文書1501には、各判定文書要素の内容が表示される。判定対処文書1501には、該当する判定文書要素の内容のみを表示してもよいし、文脈情報と合わせて表示してもよい。また、表示される内容を切り替えるための操作手段としてボタンなどが画面上に配置され、このボタンへの操作によって、表示される内容が切り替えられてもよい。
The
判定結果1502には、各判定対象文書1501が示す判定文書要素に対する判定結果が表示される。図15の判定結果1502にフラグを示す値が格納されている場合、該当する行は重要要素に判定されたことを示し、空白は、非重要要素に判定されたことを示す。すなわち、図15に示す表示例は、行1504及び行1505の判定対象文書1501に記述された判定文書要素のみが重要要素であると、判定されたことを示す。
In the
判定文書要素が重要要素と判定されたか、非重要要素と判定されたかを表示する方法には、両者を区別する方法であれば、いずれの方法でもよい。例えば、異なる色によって表示してもよく、または、異なる文字によって表示してもよい。 As a method for displaying whether the determination document element is determined to be an important element or a non-important element, any method may be used as long as the two are distinguished from each other. For example, you may display by a different color or you may display by a different character.
訂正ボタン1503のうち、「訂正」と記述されている箇所は、各判定対象文書1501の判定文書要素の判定結果を訂正するためのボタンである。システム利用者がこのボタンをキーボード又はマウスなどによって操作すると、操作する毎に、判定結果に表示される内容が、重要要素の表示と非重要要素の表示が切り替わって表示される。
In the
例えば、行1504の判定結果1502には、重要要素であるとの判定結果が表示されている。この状態において、システム利用者が訂正ボタン1503を一回操作すると、判定結果1502が非重要要素の表示に切り替わり、行1504における判定結果1502の欄は空白となる。再度、システム利用者が訂正ボタン1503を操作すると、行1504における判定結果1502は、再び重要要素の表示に切り替わり、フラグを示す値が表示される。
For example, the
訂正ボタン1503には、判定結果1502を訂正するために、前述のようなボタンによる方法の他、システム利用者が判定結果の欄に重要要素か非重要要素かを示す内容を直接入力する表示方法を用いてもよい。図14に示す判定結果訂正部1401は、前述のように、システムによる判定結果1502をシステム利用者が訂正した判定対象文書1501の箇所を全て記録する。
In the
システム利用者が、「事例に追加」ボタン1506をキーボード又はマウスによって操作すると、判定結果訂正部1401は、判定結果を、重要要素又は/及び非重要要素に訂正された判定対象要素を分類済事例文書1402に追加する。判定結果訂正部1401から送られる内容は、文書分類部103から送られる内容(重要要素に分類された事例文書要素及び非重要要素に分類された事例文書要素)と同じである。このため、分類済事例文書1402に単純に追加されることによって、判定結果訂正部1401から送られた事例文書要素は、教師データ生成部104において利用することができる。
When the system user operates the “add to case”
また、判定処理部111から、判定ルール生成部105において処理が可能な形式の内容を取得することも可能であり、その場合、教師データ生成部104から出力される内容を格納する記憶領域を設け、その記憶領域に判定結果訂正部1401から出力される内容を追加してもよい。なお、この場合は教師データ生成部104における単語リストの生成処理が省略されるため、判定対象文書内に含まれる単語は全て、事例文書中に含まれていることが望ましい。
It is also possible to acquire content in a format that can be processed by the determination
さらに、判定結果訂正部1401から分類済事例文書1402等に送られる判定対象要素は、全ての判定対象要素と判定結果の組に関する情報でもよく、システム利用者が訂正を行った判定対象要素に関する情報のみを送ってもよい。または、システムが重要要素と判定した判定対象要素とシステム利用者が訂正を行った判定対象要素のみ、といった組み合わせを、分類済事例文書1402に送ってもよい。さらには、それらをシステム利用者が選択することができるようにしてもよい。
Further, the determination target element sent from the determination
図15に示す「終了」ボタン1507をシステム利用者が操作すると、判定対象要素を分類済事例文書1402に追加することなく、判定結果の表示を終了する。さらに終了する際、別途、判定結果及びシステム利用者が行った訂正に関する情報を格納するようにしてもよい。
When the system user operates the “end”
さらに、判定結果を表示する方法には、図15に示すように、判定対象となる単位である判定文書要素毎に表示する方法の他、判定対象文書の内容をそのまま表示し、重要要素と判定された箇所を判定対象文書の上で識別可能な形で表示する、という方法を採ってもよい。この場合の表示方法の一例を図16に示す。 Furthermore, as a method of displaying the determination result, as shown in FIG. 15, in addition to the method of displaying for each determination document element that is a unit to be determined, the content of the determination target document is displayed as it is and it is determined as an important element. A method may be employed in which the determined location is displayed in a form that can be identified on the determination target document. An example of the display method in this case is shown in FIG.
図16は、本発明の第3の実施形態の判定結果の別の表示例を示す説明図である。 FIG. 16 is an explanatory diagram illustrating another display example of the determination result according to the third embodiment of this invention.
図16に示す判定結果は、結果表示画面1601、「事例に追加」ボタン1602、及び、「終了」ボタン1603を含む。
The determination results shown in FIG. 16 include a
結果表示画面1601は、判定対象文書の内容を表示する。文書分割部108における処理結果を利用することによって、各判定文書要素に対応する判定文書上の文脈情報を取得できるため、各判定文書要素に対する判定結果を判定文書の文脈情報の中に反映する。そして、図16に示す結果表示画面1601は、重要要素と判定された判定文書要素に対応する行1602及び行1603の箇所を、他と背景色を変えて表示する。
The
図16における重要要素の表示方法は、背景色を変える方法の他、非重要要素との違いが容易に識別できる方法であれば、どのような方法でもよい。例えば、文字の色を変える、下線を引く、枠をつけるなどによって表示してもよい。 The important element display method in FIG. 16 may be any method other than the method of changing the background color as long as the difference from the non-important elements can be easily identified. For example, it may be displayed by changing the color of the character, underlining or adding a frame.
さらに、図16に示す表示方法において判定結果を訂正する方法には、訂正する判定文書要素に対応する行において、マウスのダブルクリックを行う毎に、該当箇所が重要要素であるか非重要要素であるかを示す表示が切り替わるようにする、という方法を使用することができる。または、図15に示す訂正ボタン1503のような手段を用意し、訂正を行う箇所をキーボード又はマウスによって選択した後、ボタンを操作することによって訂正してもよい。また図16に示す「事例に追加」ボタン1604及び「終了」ボタン1605は、図15に示す「事例に追加」ボタン1506及び「終了」ボタン1507と、それぞれ同じ機能を持つ。
Further, in the method of correcting the determination result in the display method shown in FIG. 16, each time the mouse is double-clicked on the line corresponding to the determination document element to be corrected, the corresponding part is an important element or an unimportant element. It is possible to use a method of switching the display indicating whether or not there is. Alternatively, a means such as a
以上のように、本発明の第3の実施形態によれば、システムによる判定結果をシステム利用者が確認すると共に、判定結果を容易に訂正できる手段を提供し、その結果を新たな事例文書として追加することによって、システムを利用する中で判定精度の高い判定ルールを構築していくことが可能となる。 As described above, according to the third embodiment of the present invention, the system user confirms the determination result by the system and provides means for easily correcting the determination result, and the result is used as a new case document. By adding, it becomes possible to construct a determination rule with high determination accuracy while using the system.
101 事例文書
102 参照情報記載文書
103 文書分類部
104 教師データ生成部
105 判定ルール生成部
106 判定ルール
107 判定対象文書
108 文書分割部
109 文書分割ルール
110 判定データ生成部
111 判定処理部
112 判定結果
203 参照情報抽出部
205 マッチング部
206 分類処理部
401 単語分割部
402 属性情報抽出部
404 単語集計部
406 データ変換部
1401 判定結果訂正部
101
Claims (8)
前記文書は、各々が複数の単語を含み、文章を構成する複数の要素を含み、
前記複数の要素は、文又は段落を含み、
前記プロセッサは、
複数の第1の前記文書と、前記第1の文書への参照を含む参照文書と、重要箇所の判定を行う対象となる第2の前記文書とを入力され、
前記各第1の文書から前記要素を抽出するとともに、前記参照文書中から前記第1の文書への参照箇所を参照情報として抽出し、
前記各第1の文書から抽出された要素と前記参照情報とによって算出される類似度に基づいて、前記各第1の文書から抽出された要素と前記参照情報との間で類似する要素を重要箇所であるとして第1の前記要素に、前記各第1の文書から抽出された要素と前記参照情報との間で類似しない箇所を非重要箇所として第2の前記要素に、前記各第1の文書から抽出された要素を分割し、
前記分割された第1の要素及び第2の要素に含まれる前記複数の単語に基づいて、前記各文書の第1の特徴量を取得し、
前記取得された第1の特徴量に基づいて、前記重要箇所を含むか否かを判定するための判定ルールを生成し、
前記第2の文書から前記要素を抽出し、
前記第2の文書から抽出した要素に含まれる前記複数の単語に基づいて、第2の特徴量を取得し、
前記生成された判定ルールと、前記取得された第2の特徴量とを比較することによって、前記第2の文書から抽出した要素を、重要箇所と非重要箇所に分類することを特徴とする計算機システム。 A computer system comprising a processor for performing arithmetic processing and a storage device connected to the processor, wherein the processor analyzes a document,
The document includes a plurality of elements each including a plurality of words and constituting a sentence ,
The plurality of elements includes a sentence or a paragraph,
The processor is
A plurality of first documents, a reference document including a reference to the first document, and a second document to be determined as an important part are input;
Extracting the element from each of the first documents, extracting a reference location to the first document from the reference document as reference information;
Based on the similarity calculated by the elements extracted from the first documents and the reference information, the elements similar between the elements extracted from the first documents and the reference information are important. A location that is not similar between the element extracted from each first document and the reference information is regarded as a non-important location in the second element, and the first element is assumed to be a location. Split the elements extracted from the document,
Acquiring a first feature amount of each document based on the plurality of words included in the divided first element and second element;
Based on the acquired first feature value, a determination rule for determining whether or not the important part is included is generated,
Extracting the element from the second document;
Obtaining a second feature amount based on the plurality of words included in the element extracted from the second document ;
A computer that classifies elements extracted from the second document into important and non-important parts by comparing the generated determination rule and the acquired second feature amount. system.
前記計算機システムは、前記属性名と前記属性値とを抽出するための抽出情報を保持し、
前記プロセッサは、
前記抽出情報に一致する箇所を抽出することによって、前記第1の要素及び前記第2の要素から、前記属性名及び属性値を示す全ての単語を各々抽出し、
前記抽出された属性名を示す全ての単語が、前記第1の要素及び前記第2の要素の各々に含まれるか否かを示す情報と、前記抽出された属性値を示す全ての単語に対応し、前記第1の要素及び前記第2の要素の各々に含まれる前記属性値から算出される値と、を含む前記第1の特徴量を取得し、
前記抽出された属性名を示す全ての単語が、前記第2の文書に含まれるか否かを示す情報と、前記抽出された属性値を示す全ての単語に対応し、前記第2の文書に含まれる前記属性値から算出される値と、を含む前記第2の特徴量を取得することを特徴とする請求項1に記載の計算機システム。 Wherein the plurality of words comprises the attribute name representing an attribute of the object indicated by the words contained in the document, the attribute value is a value of the attribute corresponding to the attribute name, as a word,
The computer system holds extraction information for extracting the attribute name and the attribute value,
The processor is
Extracting all the words indicating the attribute name and attribute value from the first element and the second element , respectively, by extracting locations that match the extraction information ,
Corresponds to information indicating whether or not all words indicating the extracted attribute name are included in each of the first element and the second element, and all words indicating the extracted attribute value And obtaining the first feature amount including a value calculated from the attribute value included in each of the first element and the second element,
Corresponding to information indicating whether or not all the words indicating the extracted attribute name are included in the second document and all words indicating the extracted attribute value, The computer system according to claim 1, wherein the second feature amount including a value calculated from the included attribute value is acquired.
前記計算機システムは、前記属性名、前記属性値及び前記物品名を抽出するための抽出情報を保持し、
前記プロセッサは、
前記抽出情報に一致する箇所を抽出することによって、前記第1の要素及び前記第2の要素から、前記属性名、前記属性値、及び物品名を示す全ての単語を抽出し、
前記抽出された属性名及び物品名を示す全ての単語が、前記第1の要素又は前記第2の要素の各々に含まれるか否かを示す情報と、前記抽出された属性値を示す全ての単語に対応し、前記第1の要素及び前記第2の要素の各々に含まれる前記属性値から算出される値と、を含む前記第1の特徴量を取得し、
前記抽出された属性名及び物品名を示す全ての単語が、前記第2の文書に含まれるか否かを示す情報と、前記抽出された属性値を示す全ての単語に対応し、前記第2の文書に含まれる前記属性値から算出される値と、を含む前記第2の特徴量を取得することを特徴とする請求項1に記載の計算機システム。 The plurality of words include an attribute name representing an attribute of a target indicated by a word included in the document, an attribute value that is an attribute value corresponding to the attribute name, and an article name having an attribute corresponding to the attribute name; As a word ,
The computer system holds extraction information for extracting the attribute name, the attribute value, and the article name,
The processor is
Extracting all the words indicating the attribute name, the attribute value, and the article name from the first element and the second element by extracting a portion that matches the extraction information ,
Information indicating whether or not all the words indicating the extracted attribute name and article name are included in each of the first element or the second element, and all indicating the extracted attribute value A first feature amount corresponding to a word and including a value calculated from the attribute value included in each of the first element and the second element;
Corresponding to information indicating whether or not all words indicating the extracted attribute name and article name are included in the second document, and all words indicating the extracted attribute value, the second The computer system according to claim 1, wherein the second feature amount including a value calculated from the attribute value included in the document is acquired.
前記第1の特徴量及び前記第2の特徴量を、ベクトル形式によって表現される教師データとして取得し、
前記第1の特徴量から、サポートベクターマシンを用いて前記判定ルールを生成することを特徴とする請求項2に記載の計算機システム。 The processor is
Obtaining the first feature quantity and the second feature quantity as teacher data expressed in a vector format;
3. The computer system according to claim 2, wherein the determination rule is generated from the first feature amount using a support vector machine.
前記複数の単語と意味が類似する前記単語を取得し、
前記属性名は、類似する前記単語を含むことを特徴とする請求項2に記載の計算機システム。 The processor is
Obtaining the words whose meaning is similar to the plurality of words,
The computer system according to claim 2, wherein the attribute name includes the similar word.
前記プロセッサは、前記他の複数の要素を示す情報に基づいて前記他の複数の要素が含まれる箇所を前記文書において特定し、
前記特定された箇所から、前記他の複数の要素、又は、前記他の複数の要素及び当該他の複数の要素と意味が関連する前記複数の要素を抽出することによって、前記文書を前記意味が関連する複数の要素のまとまりに分割し、
前記第1の要素は、前記重要箇所を含む前記複数の要素のまとまりを含み、
前記第2の要素は、前記重要箇所を含まない前記複数の要素のまとまりを含むことを特徴とする請求項1に記載の計算機システム。 The computer system holds information indicating a plurality of other elements whose meanings are related to the plurality of elements ,
The processor identifies a location in the document where the plurality of other elements are included based on information indicating the plurality of other elements;
The meaning of the document is extracted by extracting the plurality of other elements, or the plurality of other elements and the plurality of elements having meanings related to the other plurality of elements, from the specified portion. Split into multiple related elements,
The first element includes a group of the plurality of elements including the important part ,
The computer system according to claim 1, wherein the second element includes a group of the plurality of elements not including the important part .
前記計算機システムは、前記属性名と前記属性値とを抽出するための抽出情報を保持し、
前記プロセッサは、
前記抽出情報に一致する箇所を抽出することによって、前記各第1の要素を、前記属性名及び属性値を含まない第3の前記要素と、前記属性名及び属性値を含む第4の前記要素とに分割し、
前記抽出情報に一致する箇所を抽出することによって、前記各第2の要素を、前記属性名及び属性値を含まない第5の前記要素と、前記属性名及び属性値を含む第6の前記要素とに分割し、
前記第3の要素及び前記第5の要素に基づいて、前記第3の要素の特徴量及び前記第5の要素の特徴量を含む第3の特徴量を取得し、
前記取得された第3の特徴量に基づいて、前記属性名及び属性値を含まない文書が、前記重要箇所を含むか否かを判定するための第1の前記判定ルールを生成し、
前記第4の要素及び前記第6の要素に基づいて、前記第4の要素の特徴量及び前記第6の要素の特徴量を含む第4の特徴量を取得し、
前記取得された第4の特徴量に基づいて、前記属性名及び属性値を含む文書が、前記重要箇所を含むか否かを判定するための第2の前記判定ルールを生成し、
前記第2の文書から前記要素を抽出し、
前記第2の文章から抽出した要素を、前記属性名及び属性値を含まない複数の第7の前記要素と、前記属性名及び属性値を含む複数の第8の前記要素とに分割し、
前記第7の要素に基づいて、前記第5の特徴量を取得し、
前記第8の要素に基づいて、前記第6の特徴量を取得し、
前記生成された第1の判定ルールと、前記取得された第5の特徴量とを比較し、
前記生成された第2の判定ルールと、前記取得された第6の特徴量とを比較し、
前記第1の判定ルール及び前記第5の特徴量の比較結果と、前記第2の判定ルール及び前記第6の特徴量の比較結果との双方を用いることによって、前記第2の文書から抽出した要素を、前記重要箇所と非重要箇所に分類することを特徴とする請求項1に記載の計算機システム。 Wherein the plurality of words comprises the attribute name representing an attribute of the object indicated by the words contained in the document, the attribute value is a value of the attribute corresponding to the attribute name, as a word,
The computer system holds extraction information for extracting the attribute name and the attribute value,
The processor is
By extracting a portion that matches the extraction information, the first element is divided into the third element that does not include the attribute name and attribute value, and the fourth element that includes the attribute name and attribute value. Divided into
By extracting a portion that matches the extraction information, the second element is divided into the fifth element that does not include the attribute name and attribute value, and the sixth element that includes the attribute name and attribute value. Divided into
Based on the third element and the fifth element, a third feature quantity including the feature quantity of the third element and the feature quantity of the fifth element is acquired,
Generating a first determination rule for determining whether or not a document that does not include the attribute name and attribute value includes the important part based on the acquired third feature amount;
Based on the fourth element and the sixth element, a fourth feature quantity including the feature quantity of the fourth element and the feature quantity of the sixth element is acquired,
Generating a second determination rule for determining whether or not a document including the attribute name and attribute value includes the important part based on the acquired fourth feature amount;
Extracting the element from the second document;
Dividing the element extracted from the second sentence into a plurality of seventh elements not including the attribute name and attribute value and a plurality of eighth elements including the attribute name and attribute value;
Acquiring the fifth feature amount based on the seventh element;
Obtaining the sixth feature amount based on the eighth element;
Comparing the generated first determination rule with the acquired fifth feature amount;
Comparing the generated second determination rule with the acquired sixth feature amount;
A comparison result of the first determination rule and the fifth feature amount, by Rukoto using both the comparison result of the second determination rule and the feature of the sixth, extracted from the second document The computer system according to claim 1 , wherein the elements are classified into the important part and the non-important part .
出力装置と接続され、
前記第2の文書から抽出された要素を重要箇所と非重要箇所に分類した結果を、前記出力装置に出力し、
前記第2の文書から抽出された分類結果の修正を取得し、
前記第2の文書を分類した結果と前記修正に従って、前記第2の文書から抽出した要素を前記第1の要素あるいは前記第2の要素に追加し、前記判定ルールを生成することを特徴とする請求項1に記載の計算機システム。 The processor is
Connected with the output device,
Outputting the result of classifying elements extracted from the second document into important and non-important parts to the output device;
Obtaining a correction of the classification result extracted from the second document;
According to a result of classification of the second document and the correction, an element extracted from the second document is added to the first element or the second element, and the determination rule is generated. The computer system according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010110912A JP5577546B2 (en) | 2010-05-13 | 2010-05-13 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010110912A JP5577546B2 (en) | 2010-05-13 | 2010-05-13 | Computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011238159A JP2011238159A (en) | 2011-11-24 |
JP5577546B2 true JP5577546B2 (en) | 2014-08-27 |
Family
ID=45326044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010110912A Expired - Fee Related JP5577546B2 (en) | 2010-05-13 | 2010-05-13 | Computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5577546B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6809119B2 (en) * | 2016-10-13 | 2021-01-06 | 富士通株式会社 | Document comparison program, document comparison method, and document comparison device |
JP6622172B2 (en) * | 2016-11-17 | 2019-12-18 | 株式会社東芝 | Information extraction support device, information extraction support method, and program |
JP6847812B2 (en) | 2017-10-25 | 2021-03-24 | 株式会社東芝 | Document comprehension support device, document comprehension support method, and program |
KR102078627B1 (en) * | 2017-11-14 | 2020-02-19 | 네이버 주식회사 | Method and system for providing real-time feedback information associated with user-input contents |
JP2021174251A (en) * | 2020-04-24 | 2021-11-01 | 株式会社日立製作所 | Computer system and summary generation method of document |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003036262A (en) * | 2001-07-23 | 2003-02-07 | Nippon Telegr & Teleph Corp <Ntt> | Important sentence extraction method, device, program, and recording medium recorded with the program |
JP2010026923A (en) * | 2008-07-23 | 2010-02-04 | Omron Corp | Method, device and program for document classification, and computer-readable recording medium |
-
2010
- 2010-05-13 JP JP2010110912A patent/JP5577546B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011238159A (en) | 2011-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5963328B2 (en) | Generating device, generating method, and program | |
JP3918531B2 (en) | Similar document search method and system | |
CN109145260B (en) | Automatic text information extraction method | |
CN111373392B (en) | Document sorting device | |
US20070294614A1 (en) | Visualizing document annotations in the context of the source document | |
CN103678684A (en) | Chinese word segmentation method based on navigation information retrieval | |
JP2005352888A (en) | Notation fluctuation-responding dictionary creation system | |
JP5577546B2 (en) | Computer system | |
JP7281905B2 (en) | Document evaluation device, document evaluation method and program | |
JP2019032704A (en) | Table data structuring system and table data structuring method | |
CN107357765A (en) | Word document flaking method and device | |
JP3765801B2 (en) | Parallel translation expression extraction apparatus, parallel translation extraction method, and parallel translation extraction program | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
JP2006309347A (en) | Method, system, and program for extracting keyword from object document | |
JP2013016036A (en) | Document component generation method and computer system | |
JP5112027B2 (en) | Document group presentation device and document group presentation program | |
JP4783563B2 (en) | Index generation program, search program, index generation method, search method, index generation device, and search device | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
JP5184987B2 (en) | Index information creating apparatus, index information creating method and program | |
ch Balabantaray et al. | Case study of named entity recognition in Odia using CRF++ tool | |
JP4307287B2 (en) | Metadata extraction device | |
JP2003330959A (en) | Catalog retrieval system | |
JPWO2018100700A1 (en) | Data conversion apparatus and data conversion method | |
JP2006040058A (en) | Document classification device | |
JP6934621B2 (en) | Methods, equipment, and programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120316 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5577546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |