JP6181890B2 - Literature analysis apparatus, literature analysis method and program - Google Patents
Literature analysis apparatus, literature analysis method and program Download PDFInfo
- Publication number
- JP6181890B2 JP6181890B2 JP2017040713A JP2017040713A JP6181890B2 JP 6181890 B2 JP6181890 B2 JP 6181890B2 JP 2017040713 A JP2017040713 A JP 2017040713A JP 2017040713 A JP2017040713 A JP 2017040713A JP 6181890 B2 JP6181890 B2 JP 6181890B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- basic element
- term
- estimation
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 82
- 238000013173 literature analysis Methods 0.000 title claims description 11
- 230000014509 gene expression Effects 0.000 claims description 151
- 238000000605 extraction Methods 0.000 claims description 91
- 238000003860 storage Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 239000002131 composite material Substances 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000010606 normalization Methods 0.000 description 14
- 238000005259 measurement Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 241000894007 species Species 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、文献解析装置、文献解析方法およびプログラムに関する。 The present invention relates to a document analysis device, a document analysis method, and a program.
例えば、特許文献に対し技術分類を表す分類コードを付与したり、特許文献と記載技術の内容が類似する他の文献をサーチする処理は、一般にその多くが人手により行われている。このため、担当者の主観や経験により、付与の精度やサーチの精度に差が生じることが避けられない。 For example, a process for assigning a classification code indicating a technical classification to a patent document or searching for another document having similar contents to the patent document is generally performed manually. For this reason, it is inevitable that a difference occurs in the accuracy of the grant and the accuracy of the search depending on the subjectivity and experience of the person in charge.
そこで、分類コードの付与や類似文献のサーチをコンピュータにより自動的に行えるようにする手法の研究が進められている。この手法は、例えば、付与条件またはサーチ条件を用語を基本とした論理和と論理積による1つのブール代数式、または複数の用語からなる1つの近傍式を用いて記述した推定用辞書を予め作成し、分類付与またはサーチの対象となる文献に記載された文字列と上記推定用辞書とを対比することで両者の類似度合いを求め、求められた類似度合いに応じて分類付与の可否または類似文献か否かを判定する手法が検討されている(例えば、特許文献1または特許文献2を参照)。 Therefore, research is being conducted on techniques for automatically assigning classification codes and searching for similar documents using a computer. In this method, for example, an estimation dictionary described in advance using one Boolean expression based on a logical sum and logical product based on terms as the assignment condition or search condition, or one neighborhood expression consisting of a plurality of terms is created. By comparing the character string described in the document to be classified or searched and the above dictionary for estimation, the degree of similarity between the two is obtained, and whether or not the classification can be given according to the obtained similarity or whether the document is a similar document. A method of determining whether or not is being studied (see, for example, Patent Document 1 or Patent Document 2).
この発明は上記事情に着目してなされたもので、その目的とするところは、推定用辞書に記述する付与条件またはサーチ条件を簡素かつ正確に定義できるようにし、これにより少ない処理時間で精度の高い分類付与または文献サーチを可能にした文献解析装置、文献解析方法およびプログラムを提供しようとするものである。 The present invention has been made paying attention to the above circumstances, and its object is to make it possible to simply and accurately define the grant conditions or search conditions described in the estimation dictionary, thereby reducing the accuracy with less processing time. An object of the present invention is to provide a document analysis apparatus, a document analysis method, and a program that enable high classification and document search.
上記目的を達成するためにこの発明の第1の態様は、文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データを記憶する推定用辞書記憶部と、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして記憶する文献用語記憶部と、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算するスコア計算手段と、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する判定手段とを具備するようにしたものである。 In order to achieve the above object, according to a first aspect of the present invention, there is provided a document meaning in which a document analysis apparatus includes a basic element in each range obtained by dividing a search condition by a predetermined range in which a document is separated as a semantic expression. An estimation dictionary storage unit that stores estimation dictionary data described by an expression, and a predetermined term that breaks down document data related to a document to be searched into word units and generates a term as a semantic expression. A document term storage unit for storing each term divided as a unit as a document term data, a sentence meaning included in the estimation dictionary data stored in the estimation dictionary storage unit, and a document term storage unit A score calculation that compares terms contained in stored document terminology data for each range divided by a predetermined range that is separated as a semantic expression, and calculates a score that represents the degree of similarity And stage, on the basis of the calculated score, in which the search target documents is to be provided with a determining means for determining whether or not the search condition is satisfied literature.
この発明の第2の態様は、前記推定用辞書データ、前記文献用語データおよび前記スコア計算手段のそれぞれにおいて定義される、意味表現として区切りがつく所定の範囲は、句、文章および段落のいずれかの範囲としたものである。 According to a second aspect of the present invention, the predetermined range defined as a semantic expression defined in each of the estimation dictionary data, the document term data, and the score calculation means is any one of a phrase, a sentence, and a paragraph. This is the range.
この発明の第3の態様は、前記推定用辞書データが、前記句、文章および段落のそれぞれで定義された基本要素を階層的に組み合わせた複合化基本要素を文意式に含み、前記複合化基本要素は、文章の基本要素に対しては用語と1つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と1つあるいは複数個の文章の基本要素あるいは句の基本要素を含み、前記スコア計算手段が、前記辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記検索対象の文献の句、文章および段落ごとに、その範囲に含まれる用語群と、前記複合化基本要素を含む文意式とを比較し、その一致頻度に基づき前記スコアを計算するようにしたものである。 According to a third aspect of the present invention, the estimation dictionary data includes a compound basic element obtained by hierarchically combining basic elements defined in each of the phrase, sentence, and paragraph in a sentence expression. The basic elements include a term and one or more phrase basic elements for a sentence basic element, and a term and one or more sentence basic elements or phrase elements for a paragraph basic element. Including a basic element, and the score calculation means compares a sentence meaning included in the dictionary data for estimation stored in the dictionary storage unit with a term included in the document term data stored in the document term storage unit For each phrase, sentence, and paragraph of the document to be searched, the term group included in the range is compared with the sentence meaning including the complex basic element, and the score is calculated based on the matching frequency. What to calculate A.
この発明の第4の態様は、前記推定用辞書データが、同義な意味を持つ複数の用語に対する総称である統制語を定義し、当該統制語を用いて前記文意式を記述し、前記スコア計算手段が、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記統制語により同義語として定義された複数の用語と文献用語データとを比較し、この際に同義語として定義された用語のいずれか1つが文献用語データ中に含まれていれば比較一致の条件に該当すると判定するようにしたものである。 According to a fourth aspect of the present invention, the estimation dictionary data defines a controlled word that is a generic term for a plurality of terms having the same meaning, describes the grammatical expression using the controlled word, and the score When the calculation means compares the meaning expression included in the estimation dictionary data stored in the estimation dictionary storage unit and the term included in the document term data stored in the document term storage unit, the calculation means Compare multiple terms defined as synonyms with controlled terms and literature term data, and if any one of the terms defined as synonyms is included in the literature term data, the condition for comparison match It is determined that it falls under.
この発明の第5の態様は、前記スコア計算手段が、前記検索対象の文献の検索対象範囲を意味表現としてまとまりを持つ第1の範囲を単位として複数の範囲に分割し、これら分割された各範囲のそれぞれについて、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第1のスコアを計算する第1の計算手段と、前記検索対象の文献の検索対象範囲のうち、前記第1の範囲より広い第2の範囲について、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第2のスコアを計算する第2の計算手段と、前記計算された第1のスコアと前記計算された第2のスコアとをもとに、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する第3の計算手段とを備えるようにしたものである。 According to a fifth aspect of the present invention, the score calculation means divides the search target range of the search target document into a plurality of ranges in units of the first range having a group as a semantic expression, For each of the ranges, a first calculation means for calculating a first score based on a matching frequency between the term group included in the range and the literary expression, and among the search target ranges of the search target documents, For a second range wider than the first range, a second calculating means for calculating a second score based on the coincidence frequency between the term group included in the range and the sentence meaning; and the calculated first And a third calculation means for calculating a score representing a similarity between the estimation dictionary data and the document to be searched based on the score of the second and the calculated second score It is.
この発明の第6の態様は、前記第3の計算手段が、前記計算された第1のスコアのうちの最大値と、前記第2のスコアとを、予め設定した係数で重み付け加算することにより、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算するようにしたものである。 According to a sixth aspect of the present invention, the third calculation means weights and adds the maximum value of the calculated first scores and the second score with a preset coefficient. The score representing the similarity between the estimation dictionary data and the document to be searched is calculated.
この発明の第7の態様は、前記推定用辞書データが、分類コードの付与条件を、共起関係を示す複数の用語の組を基本要素として含む文意式により記述したものからなる場合に、前記判定手段が、前記検索対象の文献が前記分類コードの付与条件を満たす文献であると判定されたとき、当該分類コードを前記検索対象の文献に対し付与するようにしたものである。 In a seventh aspect of the present invention, when the dictionary data for estimation is composed of a classification code assignment condition described by a sentence expression including a plurality of sets of terms indicating a co-occurrence relationship as basic elements, When the determination unit determines that the document to be searched is a document satisfying the condition for assigning the classification code, the classification code is assigned to the document to be searched.
この発明の第8の態様は、前記推定用辞書データが、類似文献のサーチ条件を、文意式により記述したものからなり、前記判定手段は、前記検索対象の文献が前記類似文献のサーチ条件を満たす文献であると判定された場合に、前記検索対象の文献を類似文献として選択するようにしたものである。 According to an eighth aspect of the present invention, the estimation dictionary data is a description of search conditions for similar documents described in terms of a grammatical expression, and the determination means includes a search condition for the search target documents for the similar documents. When it is determined that the document satisfies the above, the search target document is selected as a similar document.
この発明の第9の態様は、前記文献解析プログラムは、前記文献解析装置が備える各手段としてコンピュータを機能させるようにしたものである。 According to a ninth aspect of the present invention, the literature analysis program causes a computer to function as each means included in the literature analysis apparatus.
この発明の第10の態様は、文献解析方法が、コンピュータおよびメモリを備える文献解析装置が行う文献解析方法であって、前記文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして前記メモリに記憶させる過程と、前記文献解析装置が、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして前記メモリに記憶させる過程と、前記文献解析装置が、前記メモリに記憶された推定用辞書データに含まれる文意式と、前記メモリに記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算する過程と、前記文献解析装置が、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する過程とを有するようにしたものである。 According to a tenth aspect of the present invention, the document analysis method is a document analysis method performed by a document analysis device including a computer and a memory, and the document analysis device is configured to delimit a search condition with a document as a semantic expression. A process of storing in the memory as estimation dictionary data described by a lexical expression including a basic element in each range divided as a unit of the document, and the document analysis device decomposes the document data related to the document to be searched into word units And storing the terminology data in the memory as the terminology data for each range divided as a unit of a predetermined range that is delimited as a semantic expression. The semantic expressions included in the estimated dictionary data and the terms included in the literature term data stored in the memory are separated as semantic expressions. A process of comparing each range divided by a predetermined range as a unit and calculating a score indicating the degree of similarity, and the document analysis device, based on the calculated score, the search target document is the search And determining whether or not the document satisfies the condition.
この発明の第11の態様は、前記推定用辞書作成装置に、推定用辞書データの自動作成機能を具備する。そして、前記推定用辞書作成装置が、前記推定用辞書データの自動作成機能により、前記推定用辞書データの作成対象となるテーマと当該テーマの特徴を表す種用語の入力を受け付ける手段と、文献データベースから、前記種用語を含みかつ前記テーマに対応する正例教師文献群と、前記種用語を含みかつ前記テーマに対応しない負例教師文献群とをそれぞれ抽出する教師文献抽出手段と、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも1つ含む語句の組み合わせを前記基本要素の候補として抽出する基本要素候補抽出手段と、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する基本要素選択手段と、前記基本要素選択手段により選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、前記推定用辞書記憶部に記憶させる推定用辞書データ作成手段とを備えるようにしたものである。 In an eleventh aspect of the present invention, the estimation dictionary creating apparatus has a function for automatically creating estimation dictionary data. The estimation dictionary creating device receives a theme to be used to create the estimation dictionary data and a seed term representing characteristics of the theme by the automatic creation function of the estimation dictionary data, and a literature database A teacher document extracting means for extracting a positive example teacher document group that includes the seed term and corresponds to the theme, and a negative example teacher document group that includes the seed term and does not correspond to the theme, and the extracted The seed term and its co-occurrence word for each range obtained by dividing each of the documents included in each of the positive example and the negative example teacher documents as a unit of a predetermined range that is delimited as a semantic expression. A basic element candidate extraction means for extracting a combination of words including at least one combination as a candidate for the basic element, and extracted by the basic element candidate extraction means A basic element selection means for selecting a basic element candidate that has a probability that is included in the positive example teacher document group and is not included in the negative example teacher document group from a plurality of basic element candidates; An estimation dictionary data creating unit that creates a sentence expression representing the estimation dictionary data based on the basic element candidates selected by the basic element selection unit and stores the estimation dictionary data in the estimation dictionary storage unit; It is a thing.
この発明の第12の態様は、前記基本要素候補抽出手段が、前記文献の意味表現として区切りがつく所定の範囲として少なくとも文章および段落を定義し、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、前記文章ごとにおよび段落ごとに、前記種用語とその共起語との組み合わせを少なくとも1つ含む用語の組み合わせを前記基本要素の候補として抽出する第1の候補抽出手段と、前記文章から抽出された基本要素と共起関係を有する共起語を、当該文章を含まない他の段落から抽出し、前記文章から抽出された基本要素の候補と前記他の段落から抽出された共起語との積形式の組み合わせを前記基本要素の候補に加える第2の候補抽出手段とを有するようにしたものである。 According to a twelfth aspect of the present invention, the basic element candidate extraction means defines at least sentences and paragraphs as a predetermined range that is delimited as a semantic expression of the document, and each of the extracted positive examples and negative examples is extracted. First, a combination of terms including at least one combination of the seed term and its co-occurrence word is extracted as a candidate for the basic element from each document included in the document group for each sentence and each paragraph. Candidate extraction means, a co-occurrence word having a co-occurrence relationship with a basic element extracted from the sentence is extracted from another paragraph not including the sentence, and the basic element candidate extracted from the sentence and the other And a second candidate extracting means for adding a combination of product forms with the co-occurrence words extracted from the above paragraph to the basic element candidates.
この発明の第13の態様は、前記基本要素候補抽出手段が、抽出制限手段をさらに有する。この抽出制限手段は、前記基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す第1の精度および前記全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す第1の再現率の各々について予め設定された閾値を保持している。そして、抽出制限手段は、前記第1および第2の候補抽出手段が抽出する前記基本要素の候補を、前記精度の閾値および前記再現率の閾値を超える基本要素の候補に制限するようにしたものである。 In a thirteenth aspect of the present invention, the basic element candidate extraction unit further includes an extraction restriction unit. The extraction limiting means includes a first accuracy representing the ratio of the number of positive example teacher documents including basic elements to the sum of the number of positive example teacher documents including the basic elements and the number of negative example teacher documents, and the all positive example teacher documents. A threshold value set in advance is held for each of the first recall ratios representing the ratio of the number of positive example teacher documents including basic elements to the number. The extraction restriction means restricts the basic element candidates extracted by the first and second candidate extraction means to basic element candidates that exceed the accuracy threshold and the recall threshold. It is.
この発明の第14の態様は、前記基本要素選択手段が、前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数と負例教師文献数との合計に対する前記基本要素の候補を含む正例教師文献数の割合を表す第2の精度と、前記教師文献抽出手段により抽出された全正例教師文献数に対する前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数の割合を示す第2の再現率とに基づいて、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から推定用の基本要素を選択するようにしたものである。 In a fourteenth aspect of the present invention, the basic element selection unit is configured to calculate the basic element with respect to the sum of the number of positive example teacher documents and the number of negative example teacher documents including the basic element candidates extracted by the basic element candidate extraction unit. The basic element candidates extracted by the basic element candidate extraction unit for the second accuracy representing the ratio of the number of positive example teacher documents including the candidates and the total number of positive example teacher documents extracted by the teacher document extraction unit. A basic element for estimation is selected from a plurality of basic element candidates extracted by the basic element candidate extraction means based on the second recall ratio indicating the ratio of the number of positive example teacher documents including Is.
この発明の第15の態様は、前記基本要素選択手段が、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記第2の精度および第2の再現率が最も高い基本要素の候補を推定用の基本要素として選択する第1の手段と、前記推定用の基本要素の選択後に、前記文献抽出手段により抽出された前記正例教師文献群および負例教師文献群から前記推定用の基本要素を含む文献を除外し、残存する正例教師文献群および負例教師文献群を対象として、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた各基本要素の候補について前記第2の精度および第2の再現率を再計算する第2の手段と、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた全基本要素の候補の中から、前記再計算後の第2の精度および第2の再現率が最も高い基本要素の候補を推定用の基本要素として追加選択する第3の手段と、前記第2の手段および前記第3の手段の処理を、前記残存する正例教師文献が所定数以下になるか、または前記選択された推定用の基本要素を除いた各基本要素の候補が所定数以下になるまで、繰り返し実行させる第4の手段とを有するようにしたものである。 Fifteenth aspect of the invention, the basic element selection means, from among the candidates of a plurality of basic elements extracted by the primitive candidate extracting means, the second precision and the second recall highest First means for selecting basic element candidates as basic elements for estimation, and after the selection of the basic elements for estimation, from the positive example teacher document group and the negative example teacher document group extracted by the document extraction unit The selection including a plurality of basic element candidates extracted by the basic element candidate extraction unit is performed for the remaining positive example teacher document group and negative example teacher document group, excluding documents including the estimation basic element. second means recalculating the second precision and the second recall for candidates of each basic element except the basic elements for estimation is, a plurality of base extracted by the primitive candidate extracting means Elements of the From candidates of all basic elements except the basic element for estimating said selected one of the complement, for estimating a candidate of the second precision and the second highest recall the basic element after the recalculation The third means for additionally selecting as a basic element, and the processing of the second means and the third means, the remaining positive example teacher literature is less than a predetermined number, or the selected for estimation And a fourth means that is repeatedly executed until the number of basic element candidates excluding the basic elements is equal to or less than a predetermined number.
この発明の第16の態様は、推定用辞書作成プログラムが、前記文献解析装置の推定用辞書作成装置が備える各手段としてコンピュータを機能させるようにしたものである。 According to a sixteenth aspect of the present invention, an estimation dictionary creation program causes a computer to function as each means provided in the estimation dictionary creation device of the document analysis apparatus.
この発明の第1の態様によれば、推定用辞書データは、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述したものからなり、当該推定用辞書データと文献用語データとの類似度がスコアで表されるので、検索できたかできなかったかという判定に止まらず、検索条件の満たし具合の程度を認識することが可能となる。 According to the first aspect of the present invention, the estimation dictionary data describes the search condition by a grammatical expression including a basic element in each range that is divided in units of a predetermined range that is divided as a semantic expression. Since the similarity between the dictionary data for estimation and the document term data is expressed as a score, it is possible to recognize the degree of satisfaction of the search condition, not just the determination of whether or not the search was successful. It becomes.
この発明の第2の態様によれば、意味表現として区切りがつく所定の範囲は、句、文章、段落のいずれかの範囲とされる。このため、推定用辞書データと文献用語データとの比較が、句、文章および段落のそれぞれの範囲内で行われ、これにより句、文章および段落を跨がって用語の組が検索されることはなくなり、精度の高い類似度判定が可能となる。 According to the second aspect of the present invention, the predetermined range delimited as the semantic expression is any one of a phrase, a sentence, and a paragraph. Therefore, the estimation dictionary data and the literature term data are compared within the respective ranges of the phrase, sentence, and paragraph, thereby searching for a set of terms across the phrase, sentence, and paragraph. The similarity determination with high accuracy is possible.
この発明の第3の態様によれば、推定用辞書データが、句、文章および段落のそれぞれの範囲内で定義された基本要素を階層的に組み合わせた複合化基本要素を文意式に含み、前記複合化基本要素は、文章の基本要素に対しては用語と1つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と1つあるいは複数個の文章の基本要素あるいは句の基本要素を含むようになっている。このため、広義の用語間の共起関係を簡単に定義することができ、また用語相互間の関係で厳密な文意を表現することが可能となる。さらに、用語間の距離を意識することなく文書の意味を単位として共起関係を捉えることができ、使い勝手がよく文意に即した記述が可能となる。 According to the third aspect of the present invention, the presumed dictionary data includes, in the grammatical expression, a composite basic element obtained by hierarchically combining basic elements defined within the respective ranges of phrases, sentences, and paragraphs, The compound basic element includes a term and one or more phrase basic elements for a sentence basic element, and a term and one or more sentence basic elements for a paragraph basic element. Or it contains the basic elements of the phrase. For this reason, it is possible to easily define a co-occurrence relationship between terms in a broad sense, and it is possible to express strict sentence meaning by the relationship between terms. Furthermore, the co-occurrence relationship can be grasped with the meaning of the document as a unit without being aware of the distance between the terms, and the description is easy to use and conforms to the meaning of the sentence.
この発明の第4の態様によれば、同義な意味を持つ複数の用語に対する総称である統制語を用いて文意式が記述される。このため、同義な意味を持つ複数の用語を統制語により簡素に定義することができ、文意式作成の手間の軽減と文意式の見た目の簡素化を達成できる。 According to the fourth aspect of the present invention, the grammatical expression is described using controlled words that are generic terms for a plurality of terms having the same meaning. For this reason, a plurality of terms having the same meaning can be simply defined by controlled words, and it is possible to achieve a reduction in time and effort of creating a grammatical expression and simplification of the appearance of the literary expression.
この発明の第5の態様によれば、検索対象の文献の検索対象範囲が意味表現としてまとまりを持つ第1の範囲を単位として複数の範囲に分割され、これら分割された範囲のそれぞれについて当該範囲に含まれる用語群と文意式との一致頻度に基づき第1のスコアが計算され、さらに上記第1の範囲より広い第2の範囲について当該第2の範囲に含まれる用語群と文意式との一致頻度に基づき第2のスコアが計算され、上記計算された第1のスコアと第2のスコアとをもとに、推定用辞書データと検索対象の文献との類似度を表すスコアが計算される。このため、例えば検索対象の文献の全体(第2の範囲)と局所範囲(第1の範囲)との両方のスコアに着目して類似度の判定が行われるので、精度の高い類似度判定を行うことができる。 According to the fifth aspect of the present invention, the search target range of the document to be searched is divided into a plurality of ranges in units of the first range having a unit as a semantic expression, and the range is determined for each of the divided ranges. The first score is calculated based on the coincidence frequency between the term group and the word meaning included in the term group, and the term group and the word meaning expression included in the second range for the second range wider than the first range. A second score is calculated based on the frequency of coincidence with the score, and based on the calculated first score and second score, a score representing the similarity between the estimation dictionary data and the document to be searched is obtained. Calculated. For this reason, for example, similarity determination is performed by paying attention to both scores of the entire search target document (second range) and local range (first range). It can be carried out.
この発明の第6の態様によれば、上記計算された第1のスコアのうちの最大スコアと第2のスコアとが所定の比率で重み付け加算される。このため、類似度に対する文献全体の影響度と文献の局所範囲の影響度の比率を最適に設定することができる。 According to the sixth aspect of the present invention, the maximum score and the second score among the calculated first scores are weighted and added at a predetermined ratio. For this reason, it is possible to optimally set the ratio of the influence of the entire document to the similarity and the influence of the local range of the document.
この発明の第7の態様によれば、検索対象の文献が検索条件を満たすと判定されると、当該検索対象文献に対し分類コードが付与される。従って、文献に対する分類コードの自動付与が可能となる。 According to the seventh aspect of the present invention, when it is determined that the search target document satisfies the search condition, a classification code is assigned to the search target document. Accordingly, it is possible to automatically assign a classification code to a document.
この発明の第8の態様によれば、検索対象の文献が検索条件を満たすと判定されると、当該検索対象文献が類似文献として選択される。すなわち、類似文献の自動サーチが可能となる。 According to the eighth aspect of the present invention, when it is determined that the search target document satisfies the search condition, the search target document is selected as a similar document. That is, it is possible to automatically search for similar documents.
この発明の第9の態様によれば、文献解析プログラムにより、文献解析装置が備える各手段としてコンピュータを機能させることができる。 According to the ninth aspect of the present invention, the computer can function as each means provided in the document analysis apparatus by the document analysis program.
この発明の第10の態様によれば、推定用辞書データは、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述したものからなり、当該推定用辞書データと文献用語データとの類似度がスコアで表されるので、検索できたかできなかったかという判定に止まらず、検索条件の満たし具合の程度を認識することが可能となる。 According to the tenth aspect of the present invention, the estimation dictionary data describes the search condition by a grammatical expression including a basic element in each range divided by a predetermined range that is delimited by a document as a semantic expression. Since the similarity between the dictionary data for estimation and the document term data is expressed as a score, it is possible to recognize the degree of satisfaction of the search condition, not just the determination of whether or not the search was successful. It becomes.
この発明の第11の態様によれば、先ず文献データベースから、種用語を含みかつテーマに対応する正例教師文献群と、上記種用語を含みかつ上記テーマに対応しない負例教師文献群が抽出され、これらの文献群から種用語とその共起語との組み合わせを少なくとも1つ含む語句の組み合わせが基本要素の候補として抽出される。そして、上記抽出された複数の基本要素の候補の中から、正例教師文献群に含まれかつ負例教師文献群に含まれない確率が閾以上となる基本要素の候補が選択され、この選択された基本要素を含む文意式が推定用辞書データとして作成される。従って、推定用辞書データを自動作成することができるようになり、これにより人が手作業で推定用辞書を作成する必要がなくなって、人の作業負荷を大幅に軽減し、かつ文献解析装置の早期の運用開始を実現することができる。 According to the eleventh aspect of the present invention, first, a positive example teacher document group including seed terms and corresponding to a theme and a negative example teacher document group including the seed terms and not corresponding to the theme are extracted from a document database. Then, a combination of phrases including at least one combination of a seed term and its co-occurrence word is extracted as a basic element candidate from these document groups. Then, from among the plurality of extracted basic element candidates, a basic element candidate whose probability of being included in the positive example teacher document group and not included in the negative example teacher document group is not less than a threshold is selected. A sentence expression including the basic element is created as estimation dictionary data. Therefore, it becomes possible to automatically create estimation dictionary data, which eliminates the need for a person to manually create an estimation dictionary, greatly reduces human workload, An early start of operation can be realized.
この発明の第12の態様によれば、基本要素の候補を抽出する際に、正例および負例の各教師文献群から、少なくとも文章ごとにおよび段落ごとに基本要素の候補が抽出される。また、上記文章から抽出された基本要素と共起関係を有する共起語が、当該文章を含まない他の段落から抽出され、この抽出された基本要素の候補と共起語との積形式の組み合わせが上記基本要素の候補に加えられる。このため、文献ごとに、少なくともその文章および段落ごとに、さらには段落間を跨がって、それぞれ基本要素の候補が抽出される。従って、基本要素の候補を漏れなく抽出することができる。 According to the twelfth aspect of the present invention, when extracting basic element candidates, basic element candidates are extracted at least for each sentence and for each paragraph from each of the positive and negative teacher document groups. In addition, a co-occurrence word having a co-occurrence relationship with the basic element extracted from the above sentence is extracted from another paragraph not including the sentence, and the product form of the extracted basic element candidate and the co-occurrence word is used. Combinations are added to the basic element candidates. For this reason, candidates for basic elements are extracted for each document, at least for each sentence and paragraph, and even across paragraphs. Therefore, basic element candidates can be extracted without omission.
この発明の第13の態様によれば、抽出される基本要素の候補が、予め設定された第1の精度の閾値および第2の再現率の閾値を超えるものに制限される。このため、基本要素の候補の抽出数を効果的に制限することができ、これにより推定用辞書データの数を抑制することができる。また、推定用辞書データの作成に要する装置の処理負荷を減らし、処理時間を短縮することができる。 According to the thirteenth aspect of the present invention, the basic element candidates to be extracted are limited to those exceeding a preset first accuracy threshold and second recall ratio threshold. For this reason, the number of basic element candidates extracted can be effectively limited, and thereby the number of estimation dictionary data can be suppressed. Further, it is possible to reduce the processing load on the apparatus required for creating the estimation dictionary data, and to shorten the processing time.
この発明の第14の態様によれば、基本要素の候補の第2の精度と第2の再現率の両方を考慮して推定用の基本要素が選択される。このため、必要十分な基本要素を推定用の基本要素として抽出することが可能となる。 According to the fourteenth aspect of the present invention, the basic element for estimation is selected in consideration of both the second accuracy of the basic element candidate and the second recall. For this reason, it is possible to extract necessary and sufficient basic elements as basic elements for estimation.
この発明の第15の態様によれば、上記第2の精度および第2の再現率をもとに上記推定用の基本要素を選択する際に、基本要素を1つ選択するごとに第2の精度および第2の再現率が再計算され、この再計算された第2の精度および第2の再現率をもとに推定用の基本要素が選択される。このため、推定用辞書データを作成する上で必要な基本要素を、重複や不足を生じることなく効果的に選択することが可能となる。 According to the fifteenth aspect of the present invention, when selecting the basic element for estimation based on the second accuracy and the second recall, the second element is selected every time one basic element is selected . The accuracy and the second recall are recalculated, and a basic element for estimation is selected based on the recalculated second accuracy and the second recall. For this reason, it becomes possible to effectively select the basic elements necessary for creating the estimation dictionary data without causing duplication or deficiency.
この発明の第16の態様によれば、文献解析プログラムにより、文献解析装置が備える各手段としてコンピュータを機能させることができる。 According to the sixteenth aspect of the present invention, the computer can function as each means provided in the document analysis apparatus by the document analysis program.
すなわちこの発明の各態様によれば、辞書に記述する付与条件またはサーチ条件を簡素かつ正確に定義することができ、これにより少ない処理時間で精度の高い分類付与または文献サーチを可能にした文献解析装置、文献解析方法およびプログラムを提供することができる。 In other words, according to each aspect of the present invention, it is possible to simply and accurately define the grant conditions or search conditions described in the dictionary, thereby enabling high-accuracy classification and literature search in a short processing time. An apparatus, a literature analysis method, and a program can be provided.
以下、図面を参照してこの発明に係わる実施例を説明する。
[実施例1]
図1は、この発明は特許文献に分類コードを付与する場合に使用する実施例1に係る文献解析システムの概略構成図である。
実施例1に係る文献解析システムは、推定用辞書作成装置1と、文献用語表生成装置2と、推定装置3とを備えている。これらの装置1、2および3は独立するコンピュータによりそれぞれ構成されるが、1台のコンピュータに上記各装置1、2および3の処理機能を持たせた構成としてもよい。
Embodiments according to the present invention will be described below with reference to the drawings.
[Example 1]
FIG. 1 is a schematic configuration diagram of a document analysis system according to a first embodiment used when the present invention assigns a classification code to a patent document.
The document analysis system according to the first embodiment includes an estimation dictionary creation device 1, a document term table generation device 2, and an estimation device 3. These devices 1, 2 and 3 are respectively constituted by independent computers, but it is also possible to adopt a configuration in which the processing functions of the devices 1, 2 and 3 are given to one computer.
推定用辞書作成装置1は、推定用辞書エディタ1Aを有している。推定用辞書エディタ1Aは、メモリに記憶されている推定用辞書作成用テンプレート40を表示部に表示し、推定用辞書作成者が手操作で入力したパラメータや文意式をもとに推定用辞書データPを作成し、作成された推定用辞書データPを再びメモリに記憶させる機能を有している。 The estimation dictionary creating apparatus 1 has an estimation dictionary editor 1A. The estimation dictionary editor 1A displays the estimation dictionary creation template 40 stored in the memory on the display unit, and the estimation dictionary based on the parameters and sentence expressions manually input by the estimation dictionary creator. It has a function of creating data P and storing the created estimation dictionary data P in the memory again.
なお、推定用辞書作成装置1には、推定用辞書作成用として用意されたサンプル文献の文書データを複数件分読み込み、機械学習等を用いて推定用辞書データを自動作成する機能を備えるようにしてもよい。 The estimation dictionary creating apparatus 1 has a function of reading a plurality of document data of sample documents prepared for creating an estimation dictionary and automatically creating estimation dictionary data using machine learning or the like. May be.
文献用語表生成装置2は、外部の文献データ記憶装置から分類コード付与対象となる文献データQ1,Q2,Q3,…を読み込み、文意フィルタ部2Aにより上記文献データQ1,Q2,Q3,…からそれぞれ文献用語表データR1,R2,R3,…を生成してメモリに記憶する機能を有する。文意フィルタ部2Aは、例えば文献データQ1,Q2,Q3,…を形態素解析により単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより文献用語表データR1,R2,R3,…を生成する。 The document terminology table generation device 2 reads the document data Q1, Q2, Q3,... To which the classification code is to be applied from an external document data storage device, and from the document data Q1, Q2, Q3,. Each has a function of generating document term table data R1, R2, R3,. The sentence meaning filter unit 2A divides the document data Q1, Q2, Q3,... Into word units by morphological analysis, and extracts and synthesizes necessary words and phrases from the divided words to thereby generate document term table data. R1, R2, R3,... Are generated.
推定装置3は、推定エンジン3Aと、差異抽出ツール3Bとを備えている。 The estimation device 3 includes an estimation engine 3A and a difference extraction tool 3B.
推定エンジン3Aは、上記推定用辞書作成装置1および文献用語表生成装置2からそれぞれ推定用辞書データPおよび文献用語表データR1,R2,R3,…を取り込み記憶する。この状態で、推定用辞書データPの文意式と文献用語表データR1,R2,R3,…中の用語とをそれぞれ比較してその一致度を表すスコアを計算する。そして、このスコアの計算結果に基づいて分類コードの付与の可否を判定し、可であれば分類コードを付与する機能を有している。 The estimation engine 3A fetches and stores the estimation dictionary data P and the literature term table data R1, R2, R3,... From the estimation dictionary creation device 1 and the literature term table generation device 2, respectively. In this state, the syntactic expression of the dictionary data for estimation P is compared with the terms in the literature term table data R1, R2, R3,. Based on the score calculation result, it is determined whether or not a classification code can be given. If yes, a classification code is given.
差異抽出ツール3Bは、上記推定用辞書データPの精度を高めるために使用するもので、推定エンジン3Aが文献群に付与した分類コードを収集し、付与された分類コードとそれらの文献(サンプル文献)に正解例として人が予め付与している分類コードとを比較し、両者に付与コードの差異があればそれを検出し差異結果を表示する。これにより、サンプル文献群に対する推定付与コードの付与漏れや不必要な付与を俯瞰でき、推定用辞書の問題点を全体的に把握できる。 The difference extraction tool 3B is used to increase the accuracy of the estimation dictionary data P. The difference extraction tool 3B collects the classification codes assigned to the literature group by the estimation engine 3A, and the assigned classification codes and those documents (sample literature) ) Is compared with a classification code given in advance by a person as a correct answer example, and if there is a difference in the assigned code between them, it is detected and the difference result is displayed. As a result, it is possible to overlook the application omission and unnecessary application of the estimation addition code to the sample document group, and it is possible to grasp the problems of the estimation dictionary as a whole.
(動作)
次に、システムによる分類付与動作を説明する。
ここでは、特許文献に対し分類コードを付与する場合を例にとって説明する。
(Operation)
Next, the classification giving operation by the system will be described.
Here, a case where a classification code is assigned to a patent document will be described as an example.
(1)推定用辞書の作成
推定用辞書作成装置1では、推定用辞書エディタ1Aの制御の下、推定用辞書データPを作成する。推定用辞書データはコード付与定義表と、コード付与結果を使用して付加的に更なるコード付与を指示したりコード付与の取り消しを指示するメタルールとからなる。また、コード付与定義表では、文意式の作成や記述を簡潔かつ簡便に行うのを支援するために統制語および文意式の定義機能を提供している。
(1) Creation of Estimation Dictionary The estimation dictionary creation device 1 creates estimation dictionary data P under the control of the estimation dictionary editor 1A. The estimation dictionary data includes a code assignment definition table and a meta-rule that additionally instructs further code assignment using the code assignment result or instructs cancellation of code assignment. In addition, the code assignment definition table provides a function for defining controlled words and literary expressions in order to support the simple and simple creation and description of literary expressions.
推定用辞書エディタ1Aは、先ず推定用辞書作成用メモリに事前に記憶されている推定用辞書作成用テンプレート40を読み出して表示する。図2は推定用辞書作成用テンプレート40の表示例を示すもので、当該テンプレートに文意式などを記入したものがコード付与定義表である。 The estimation dictionary editor 1A first reads and displays the estimation dictionary creation template 40 stored in advance in the estimation dictionary creation memory. FIG. 2 shows a display example of the estimation dictionary creation template 40. A code assignment definition table is a template in which a sentence expression is entered.
推定用辞書作成用テンプレート40は、例えば複数のパラメータと複数の文意式の入力セルを設けたものである。なお、図2では説明の便宜上パラメータおよび文意式が既に入力された状態を示しているが、初期状態では未入力である。このテンプレートを使用して所要のコードに対してコード付与条件を定義することができる。 The estimation dictionary creation template 40 is provided with, for example, a plurality of parameters and a plurality of sentence input cells. Note that FIG. 2 shows a state in which parameters and a semantic expression have already been input for convenience of explanation, but no input is made in the initial state. This template can be used to define code assignment conditions for the required code.
(1−1)パラメータ
パラメータは、「テーマ」、「コード」、「グループ」、「付与基準値」、「重み」、「段落種別番号」からなり、それぞれが表の列に1つずつ割り当てられている。また、「文意式」は「用語の基本スコア」、「基本要素の基本スコア」および「文意式の基本スコア」も表の列に1つずつ割り当てられている。なお、複数の文意式も表の列に1つずつ割り当てられている。
(1-1) Parameters Parameters consist of “theme”, “code”, “group”, “grant reference value”, “weight”, and “paragraph type number”, and each is assigned to one column in the table. ing. In addition, “literary meaning”, “basic score of term”, “basic score of basic element”, and “basic score of literary expression” are also assigned to the table columns one by one. A plurality of sentence expressions are also assigned to the columns of the table one by one.
「テーマ」は、分類対象としている技術分野に付与した分野名、「コード」は付与対象とするコード名であり、例えば日本の特許庁が定義しているFタームやFIコードがこれに該当する。コードは複数の行で記載することができるが、特にパラメータが異なる際は行を変え、「グループ」のセルには各行にコード内での番号を記載する。「付与基準値」は、コード付与の可否を判定する閾値を指定する。「重み」は、対応する前記グループに記述される文意式のマッチングスコアを算出するときの評価値倍率を指定する。「段落種別番号」は、特許文献の検索対象範囲を項目単位で指定するもので、1:「発明の名称」、2:「要約」、3:「請求項」、4:「技術分野」、5:「背景技術/従来技術」、6:「課題」、7:「解決手段」、8:「効果/作用」、9:「図の説明」、10:「実施例」、11:「符号の説明」のように定義されている。 “Theme” is the name of the field assigned to the technical field to be classified, and “Code” is the name of the code to be assigned, for example, F term and FI code defined by the Japanese Patent Office . The code can be described in a plurality of lines, but the line is changed particularly when the parameters are different, and the number in the code is described in each line in the “group” cell. “Granting reference value” specifies a threshold value for determining whether or not a code can be given. “Weight” designates the evaluation value magnification when calculating the matching score of the meaning expression described in the corresponding group. The “paragraph type number” is used to specify a search target range of patent documents in units of items: 1: “name of invention”, 2: “summary”, 3: “claim”, 4: “technical field”, 5: “Background / Prior art”, 6: “Problem”, 7: “Solution means”, 8: “Effect / action”, 9: “Explanation of the figure”, 10: “Example”, 11: “Reference sign” Is defined as follows.
(1−2)文意式
文意式は、分類の付与条件を、単独の用語又は共起関係を示す複数の用語の組を基本要素(以後単に「基本要素」という)とし、少なくとも1つの基本要素、または単独の用語と基本要素との組み合わせをブール代数式で記述したものである。
(1-2) Written Expression The Written Expression uses a single term or a plurality of terms indicating a co-occurrence relationship as a basic element (hereinafter simply referred to as “basic element”) as a condition for assigning a classification. A basic element or a combination of a single term and a basic element is described by a Boolean expression.
基本要素には、同じ句内に存在する複数の用語を組にして指定する「句基本要素」と、同じ文章内に存在する複数の用語を組にして指定する「文章基本要素」と、同じ段落内に存在する用語の組を指定する「段落基本要素」の3種類がある。これらの要素はそれぞれ< >、{ }、[ ]を用いて記述される。ここで、句とは句点(「、」)あるは読点(「。」)のいずれかで区切られた範囲にある文字群であり、文章は読点(「。」)で区切られた範囲内にある文字群であり、段落は明示あるいは暗示(行の冒頭文字の字下げ等)された段落区切りで区切られた範囲内にある文字群である。文献には1個以上の段落が含まれ、段落は1個以上の文章を含み、文章は1個以上の句を含み(文章中に句点がない場合は文章と句は同じになる)、句は1個以上の用語を含む。さらに、これらは文献を最上位にして文献−段落−文章−句−用語の階層構造を形成する。 The basic element is the same as the phrase basic element that specifies multiple terms that exist in the same phrase as a set, and the sentence basic element that specifies multiple terms that exist in the same sentence as a pair There are three types of “paragraph basic elements” that specify a set of terms that exist within a paragraph. These elements are described using <>, {}, and [], respectively. Here, a phrase is a group of characters in a range delimited by either a punctuation mark (“,”) or a punctuation mark (“.”), And a sentence is within the range delimited by a punctuation mark (“.”). A group of characters, and a paragraph is a group of characters within a range delimited by an explicit or implied paragraph delimiter (such as indentation at the beginning of a line). A document contains one or more paragraphs, a paragraph contains one or more sentences, a sentence contains one or more phrases (if there are no punctuation in the sentence, the sentences and phrases are the same), and the phrase Includes one or more terms. Furthermore, these form a hierarchical structure of documents-paragraphs-sentences-phrases-terms with the documents at the top.
基本要素の例を以下に示す。すなわち、用語である「位置」、「GPS」、「測定」の共起関係を指定する場合、「句基本要素」、「文章基本要素」、「段落基本要素」はそれぞれ
<位置,GPS,測定>
{位置,GPS,測定}
[位置,GPS,測定]
と記述する。
Examples of basic elements are shown below. That is, when specifying the co-occurrence relationships of the terms “position”, “GPS”, and “measurement”, the “phrase basic element”, “text basic element”, and “paragraph basic element” are <position, GPS, and measurement, respectively. >
{Location, GPS, Measurement}
[Position, GPS, Measurement]
Is described.
「句基本要素」、「文章基本要素」および「段落基本要素」という3種類の基本要素を定義したことで、それぞれ句、文章および段落の各範囲内に限り基本要素の中で指定されている用語の組が出現しているかどうかを検索することができる。これにより、句、文章および段落の境界を跨がって用語の組が検索(ヒット)されることがなくなり、精度の高い文意の指定が可能となる。 By defining three basic elements, "phrase basic element", "sentence basic element" and "paragraph basic element", they are specified in the basic element only within each range of phrase, sentence and paragraph It can be searched whether a set of terms appears. Thereby, a set of terms is not searched (hit) across the boundaries of phrases, sentences, and paragraphs, and it is possible to specify sentence meaning with high accuracy.
また基本要素には、語順を指定したり、否定形を指定する記号を含めることが可能である。語順を指定する場合には、例えば
<位置,GPS,測定>c
のように基本要素の末尾に「c」を付加する。この場合、「位置」と「GPS」と「測定」の各用語がこの並び順で検索範囲に出現すべきであることを指定する。
The basic element can include a word order or a symbol designating a negative form. To specify the word order, for example, <position, GPS, measurement> c
In this way, “c” is added to the end of the basic element. In this case, it is specified that the terms “position”, “GPS”, and “measurement” should appear in the search range in this arrangement order.
否定形を指定する場合は、例えば
{位置,GPS,測定,#カメラ}
のように否定対象の用語の頭に「#」を付加する。否定形は、句、文章または段落の各範囲内に否定形に指定された用語が存在しないことをヒットの条件とする。この例では、範囲内に「位置」と「GPS」と「測定」が存在すると共に、「カメラ」が存在してはいけないことを指定する。「#」は基本要素内の任意個の用語に付加してよい。
To specify a negative form, for example, {position, GPS, measurement, #camera}
Add “#” to the beginning of the term to be negated. In the negative form, a hit condition is that a term designated as a negative form does not exist in each range of a phrase, sentence, or paragraph. In this example, “position”, “GPS”, and “measurement” exist within the range, and “camera” must not exist. "#" May be added to any number of terms in the basic element.
さらに、文意式を記述する場合には各用語についてその類義語を漏れなく指定する必要があり、そのために図3に示すように統制語b1〜bmを定義できるようにしている。統制語b1〜bmは複数の類義語c1〜cmを代表するものである。統制語b1〜bmごとにその統制語に所属する複数の類義語c1〜cmを定義して記憶する統制語辞書を提供しており、この辞書で統制語を管理する。統制語は文意式においてその頭に「;」を付加することで表記される。 Furthermore, when writing a grammatical expression, it is necessary to specify synonyms for each term without omission, and for this purpose, the controlled words b1 to bm can be defined as shown in FIG. The controlled words b1 to bm represent a plurality of synonyms c1 to cm. A controlled word dictionary that defines and stores a plurality of synonyms c1 to cm belonging to the controlled word for each controlled word b1 to bm is provided, and the controlled word is managed by this dictionary. Controlled words are expressed by adding “;” to the beginning of the sentence meaning.
一例として、“パソコン”はこれ以外にも“計算機”、“コンピュータ”、“PC”などの用語が使われたりする。そこで“;パソコン”という統制語を定義し、その中にこれらの類義の意味を持つ用語群を指定しておけば、文意式では統制語“;パソコン”を記述しておくことにより、あとは装置側で統制語をその中に定義されている類義語群の論理和の形式に展開する。文意式の作成の手間の軽減と見た目の簡素化を実現できる。統制語は、その中に含める類義語群と対応付けて、図示していない統制語辞書に登録する。統制語辞書に登録した統制語は文意式において用語の代替物として記述できる。 As an example, the term “computer” may use other terms such as “computer”, “computer”, and “PC”. So, if you define a controlled word “; PC” and specify a group of terms that have these similar meanings in it, by writing the controlled word “; PC” in the narrative, After that, the control side expands the controlled word into the form of the logical sum of the synonym groups defined therein. It is possible to reduce the time and effort of creating a sentence expression and simplify the appearance. The controlled word is registered in a controlled word dictionary (not shown) in association with a synonym group included in the controlled word. Controlled words registered in the controlled word dictionary can be described as an alternative to terms in the sentence meaning.
また、基本要素内に基本要素を含む多層構造(階層構造)の複合化基本要素を記述することも可能である。複合化基本要素では、例えば文章基本要素の中に句基本要素を記述したり、段落基本要素の中に文章基本要素を記述し、さらに文章基本要素内に句基本要素を記述することが可能となる。 It is also possible to describe a composite basic element having a multilayer structure (hierarchical structure) including the basic element in the basic element. In the compound basic element, for example, it is possible to describe a phrase basic element in a sentence basic element, describe a sentence basic element in a paragraph basic element, and further describe a phrase basic element in a sentence basic element Become.
以下に統制語の例示を兼ねた複合化基本要素の記述例を示す。
{<停止,時>c,;補正}
[;ナビ端,{;歩行者,<位置,;計測>c}]
ここで、複合化基本要素「{<停止,時>c,;補正}」と、文意式「<停止,時>c*{停止、時、;補正}」との差異を説明する。
A description example of a composite basic element that also serves as an example of a controlled word is shown below.
{<Stop, hour>c,; correction}
[; Navi end, {; Pedestrian, <Position,;Measurement> c}]
Here, the difference between the composite basic element “{<stop, time>c,; correction}” and the literal expression “<stop, time> c * {stop, time,; correction}” will be described.
前者の複合化基本要素では、全体が文章基本要素を示す{ }の記号で括られていることから、<停止,時>cと{停止,時,;補正}が文章に出現しないといけないことを指示する。すなわち、「停止」、「時」、「;補正」が同じ文章に存在し、さらにその文章に含まれるいずれかの句において「停止」と「時」が含まれている場合にのみ、この複合化基本要素はヒットしたと判定される。 In the former compound basic element, the whole is surrounded by {} symbols indicating the basic element of the sentence, so <stop, hour> c and {stop, hour, correction} must appear in the sentence. Instruct. That is, only when “stop”, “time”, and “; correction” exist in the same sentence and “stop” and “time” are included in any phrase included in the sentence, The basic element is determined to have been hit.
これに対し後者は、<停止,時>cと{停止,時,;補正}は異なる文章で出現していてもよい。各々が文献中のどこかにあればよいことを意味する。 On the other hand, in the latter case, <stop, time> c and {stop, time, correction} may appear in different sentences. It means that each should be somewhere in the literature.
同様に、[;ナビ端,{;歩行者,<位置,;計測>c}]では、全体が段落基本要素を示す記号[ ]で括られ、その中に文章基本要素を示す記号{ }、および句基本要素を示す記号< >がそれぞれ含まれることから、同一段落の中で、さらにはその中の同一文章において、さらにはその文章内の同一句において、指定された基本要素成立条件を満たすべきであることを指示している。 Similarly, in [; Navi end, {; Pedestrian, <Position,; Measurement> c}], the whole is enclosed with a symbol [] indicating a paragraph basic element, and a symbol {} indicating a sentence basic element therein. And the symbol <> indicating a phrase basic element are included, so that the specified basic element satisfaction condition is satisfied in the same paragraph, in the same sentence, and in the same phrase in the sentence. Instructed that it should.
文意式は、1つの用語あるいは1つの基本要素を項として、これら項を1個ないし複数個基本要素組み合わせたブール代数式の形式で記述したもので、複数の項がある場合は論理和「+」演算子あるいは論理積「*」で結合する。さらに、演算子が複数個ある場合は演算優先指定の丸括弧演算子「( )」を使用して演算子の適用順序を指定できる。なお、基本要素の中の用語の代わりとして又は単独の用語の代わりに統制語を指定してもよい。 A sentence expression is a Boolean algebraic expression in which one term or one basic element is used as a term, and one or more of these terms are combined. If there are multiple terms, the logical sum "+ ”Operator or logical product“ * ”. Furthermore, when there are a plurality of operators, the application order of the operators can be specified using the parenthesis operator “()” of the operation priority specification. A controlled word may be specified instead of a term in the basic element or instead of a single term.
また、特許分類の「Fターム」では、テーマによって例えば「“AA03”を付与した場合は“AA04”は付与せず、また“AA10”と“AA15”を付与した場合は“BB03”も付与する」といった付与規則が定められている。この規則に対応するため、メタルールと呼ぶFターム相互間の付与条件を記述した上位の式を定義してもよい。 In addition, in the “F term” of the patent classification, for example, “AA04” is not given when “AA03” is given, and “BB03” is given when “AA10” and “AA15” are given. Is given. In order to deal with this rule, a high-order expression describing a grant condition between F terms called a meta rule may be defined.
メタルールは、条件式とアクション式とにより構成される。条件式はFタームを組み合わせた文意式で表される。条件式が成立するとアクション式が実行され、アクション式ではコードの付与や削除、メッセージの表示、ユーザの介入要請等を指定する。 Meta rules are composed of conditional expressions and action expressions. The conditional expression is expressed by a sentence expression combining F terms. When the conditional expression is satisfied, the action expression is executed. In the action expression, code addition / deletion, message display, user intervention request, etc. are designated.
メタルールは、「FIコード」に対しても適用可能である。例えば、
「“AA10”および“AA12”と、“BB03”および“BB04”のいずれかが付与されている場合には、G06Fxxx@Aを付与せよ」
というメタルールを記述する。このようにすればFIコードに対しても同様の効果を得ることができる。
The meta-rule can be applied to the “FI code”. For example,
“If either“ AA10 ”and“ AA12 ”and“ BB03 ”and“ BB04 ”are assigned, give G06Fxxx @ A.”
Write a meta-rule. In this way, the same effect can be obtained for the FI code.
以下にメタルールをFタームの付与に適用した場合と、FIコードの付与に適用した場合の一例を示す。
・Fターム付与への適用例
条件式;(AA03+AA04+#AA05)*AA08=1ならば、
アクション式;AA10=1
以上の条件式は、AA03,AA04のいずれかが付与されるか、又はAA05が付与されておらず、かつAA08が付与されている場合にAA10を付与する、という条件を表している。
An example of the case where the meta rule is applied to the provision of the F term and the case of application to the provision of the FI code are shown below.
-Application example for F-term assignment Conditional expression; (AA03 + AA04 + # AA05) * AA08 = 1,
Action formula; AA10 = 1
The above conditional expression represents a condition that AA10 is given when either AA03 or AA04 is given or AA05 is not given and AA08 is given.
・FIコード付与への適用例
条件式が(AA03+AA04)*{BB01〜BB15>=2}ならば、
アクション式はG01C21/00@p=1とする。
以上の条件式は、AA03又はAA04のいずれかが付与されると共に、BB01〜BB15までのコード(BB01,BB02,BB03,・・・,BB15)のいずれかに2つ以上付与されるならば、G01C21/00@pを付与するという条件を表している。
-Application example to FI code assignment If the conditional expression is (AA03 + AA04) * {BB01 to BB15> = 2},
The action formula is G01C21 / 00 @ p = 1.
In the above conditional expression, if either AA03 or AA04 is given and two or more codes are given to any of the codes from BB01 to BB15 (BB01, BB02, BB03,..., BB15), It represents the condition of giving G01C21 / 00 @ p.
(1−3)推定用辞書作成の手順と処理内容
推定用辞書作成者は、上記推定用辞書作成用テンプレート40が表示された状態で、先ず作成対象のテーマ名およびコードを入力し、さらに行ごとにグループ番号、付与基準値、重み、注釈および段落種別番号を入力する。次に、コードの付与条件に対応する文意式を、文意式入力セルに一つずつ記述する。同じ行の複数のセルに記述した文意式は論理和で結合して処理される。従って、これら複数の文意式を一つの文意式にまとめて1つのセルに記述しても、その効果は同じである。しかし、複数の文意式に分割してセルに記述しておけば、セル単位で文意式を修正できる。
(1-3) Estimating Dictionary Creation Procedure and Processing Contents The estimation dictionary creator first inputs the theme name and code to be created in the state where the estimation dictionary creation template 40 is displayed. Enter the group number, assignment reference value, weight, annotation, and paragraph type number for each. Next, the textual expressions corresponding to the code assignment conditions are described one by one in the textual expression input cell. The word expressions described in a plurality of cells in the same row are combined and processed by logical sum. Therefore, even if these plural sentence expressions are combined into one sentence expression and described in one cell, the effect is the same. However, if it is divided into a plurality of sentence expressions and described in cells, the sentence expressions can be corrected in cell units.
文意式は、上記(1−2)で説明したように、句、文章および段落の各々について、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、この基本要素の組み合わせを演算子で結合することにより作成される。その際、語順指定や否定形の指定、統制語の使用、複合化基本要素の記述も可能である。 As described in (1-2) above, the sentence meaning is based on a single element or a combination of multiple terms indicating a co-occurrence relationship for each phrase, sentence, and paragraph, and a combination of these basic elements. It is created by connecting with the operator. At that time, it is also possible to specify word order, negative form, use of controlled words, and description of complex basic elements.
推定用辞書データの精度を高めるために、本実施例では以下のような推定用辞書作成手順を実行する。すなわち、先ず推定用辞書作成者がテーマに対応する10件程度のサンプル文献を厳選し、これらの文献に対し推定用辞書作成者が自身の見識で絶対に正しいと考える分類コードを付与して、これを絶対基準とする。 In order to improve the accuracy of the estimation dictionary data, in this embodiment, the following estimation dictionary creation procedure is executed. That is, first, the estimation dictionary creator carefully selects about 10 sample documents corresponding to the theme, and the classification dictionary that the estimation dictionary creator thinks is absolutely correct with his insight to these documents, This is the absolute reference.
まず、先に述べたようにパラメータおよび文意式の入力を行って推定用辞書の初版を作成し、続いて、推定装置3に当該推定用辞書の初版を用いて上記サンプル文献に実際に分類コードを付与させる。そして、この推定装置3により付与された分類コードと上記絶対基準の分類コードとを比較して一致するか否かを判定し、一致しない場合には不足する文意式の追加あるいは文意式の変更を推定用辞書データに行い、両分類コードが一致するまで推定用辞書修正作業を繰り返す。両者が一致した所で、これを推定用辞書の第2版とする。 First, as described above, the first version of the estimation dictionary is created by inputting the parameters and the meaning expression, and then the estimation device 3 is actually classified into the sample document using the first version of the estimation dictionary. Give a code. Then, the classification code given by the estimation device 3 is compared with the absolute reference classification code to determine whether or not they match. The estimation dictionary data is changed, and the estimation dictionary correction operation is repeated until both classification codes match. When both match, this is the second version of the estimation dictionary.
次に、新たに10件程度のサンプル文献を選んで絶対基準コードを付与した後、これらのサンプル文献に対し上記推定用辞書の第2版をもとに推定装置3により分類コードを付与させる。そして、付与された分類コードと上記絶対基準の分類コードとの差異に基づいて、文意式をさらに追加または修正し、推定用辞書の第3版を作成する。 Next, after about 10 new sample documents are selected and absolute reference codes are given, classification codes are given to these sample documents by the estimation device 3 based on the second version of the estimation dictionary. Then, based on the difference between the assigned classification code and the absolute reference classification code, a sentence expression is further added or corrected to create a third version of the estimation dictionary.
以後同様に、推定用辞書の修正作業を繰り返し、推定用辞書をもとに推定装置3が付与した分類コードと絶対基準の分類コードとの差異が、一定の範囲内に収束した時点で推定用辞書の作成を終了する。なお、特許文献に記載される技術内容の進歩や変化により推定用辞書の精度は低下することが予想される。このため、推定用辞書は上記した手法により定期的にメンテナンスすることが望ましい。 Thereafter, similarly, the estimation dictionary correction process is repeated, and when the difference between the classification code given by the estimation device 3 based on the estimation dictionary and the absolute reference classification code converges within a certain range, the estimation dictionary is used. Finish creating the dictionary. Note that the accuracy of the estimation dictionary is expected to decrease due to the advancement or change in the technical contents described in the patent literature. For this reason, it is desirable that the estimation dictionary is regularly maintained by the above-described method.
(2)付与対象となる文献の文献用語表データの生成
文献へのコード付与には、文献毎に文献用語表を作成する必要がある。分類付与者は、文献用語表生成装置2において、分類の付与対象となる1個ないし複数個の特許文献の番号を指定する。そうすると文献用語表生成装置2は、先ず上記指定された特許文献の文献データQ1,Q2,Q3,…を図示しない文献データ記憶装置から読み込む。続いて文意フィルタ部2Aにより、上記読み込んだ文献データQ1,Q2,Q3,…を文献単位でそれぞれ形態素解析を用いて単語単位に分割し、この分割された単語の中から必要となる語句を抽出し合成することにより、文献用語表データR1,R2,R3,…を生成する。
(2) Generation of document terminology table data of documents to be assigned For the purpose of assigning codes to documents, it is necessary to create a document terminology table for each document. The classification granter designates the number of one or more patent documents to be classified in the literature term table generation device 2. Then, the document term table generation device 2 first reads the document data Q1, Q2, Q3,... Of the designated patent document from a document data storage device (not shown). Subsequently, the sentence filter unit 2A divides the read document data Q1, Q2, Q3,... Into each document by word unit using morphological analysis, and a necessary phrase from the divided words is obtained. By extracting and synthesizing, literature term table data R1, R2, R3,... Are generated.
文献用語表データの生成について補足する。形態素解析で出力した単語が名詞の場合は複合名詞を生成する。例えば「情報処理辞典」といった用語が文献データに含まれている場合、形態素解析では「情報」、「処理」、「辞典」の3つの単語に分割される。これら分割された単語を合成して「情報処理」、「情報処理辞典」といった用語に復元して文献用語表データに出力する。「H2SO4」といった化学式も形態素解析で英字と数字に分割して出力されるので、元の化学式に復元する処理を行う。動詞や形容詞は語尾が変化するので、文献データ中の変化形の単語と共に、その終止形も出力する。例えば、「走ら」や「走れ」対して「走る」も生成する。 It supplements about the production | generation of literature glossary table data. If the word output by the morphological analysis is a noun, a compound noun is generated. For example, when a term such as “information processing dictionary” is included in the document data, it is divided into three words “information”, “processing”, and “dictionary” in the morphological analysis. These divided words are synthesized and restored to terms such as “information processing” and “information processing dictionary” and output to the literature term table data. Since a chemical formula such as “H 2 SO 4 ” is also divided and output into English letters and numbers in the morphological analysis, a process for restoring the original chemical formula is performed. Since verbs and adjectives change their endings, the final form is also output along with the changed word in the document data. For example, “run” is also generated for “run” and “run”.
さらに、文献用語表に出力された全ての用語に対して、文献の先頭からの通番となる用語番号、句番号、文章番号、段落番号も付与して出力している。これら通番を利用して、推定用辞書の句基本要素、文章基本要素、段落基本要素等と文献用語表とを比較する際に、基本要素中の各用語が同一の句/文章/段落に出現しているかどうかを高速に判定している。このような情報を含んだ文献用語表データR1,R2,R3,…は、文献用語表生成装置2内のメモリに保存される。 Furthermore, a term number, a phrase number, a sentence number, and a paragraph number, which are serial numbers from the beginning of the document, are also assigned to all the terms output in the document term table. Using these serial numbers, each term in the basic element appears in the same phrase / sentence / paragraph when comparing the phrase basic element, sentence basic element, paragraph basic element, etc. of the dictionary for estimation with the literature term table Judgment is made at high speed. Literature term table data R1, R2, R3,... Including such information is stored in a memory in the literature term table generation device 2.
(3)分類コードの推定
(3−1)推定用辞書データおよび文献用語表の取得
分類担当者は、推定装置3に対し端末4から分類付与対象のテーマを指定し、分類開始コマンドを入力する。そうすると、推定装置3は以後以下のように分類コードの推定処理を開始する。図4はその処理手順と処理内容を示すフローチャートである。
(3) Estimation of classification code (3-1) Acquisition of dictionary data for estimation and literature term table The classification person in charge specifies a theme to be classified from the terminal 4 to the estimation device 3 and inputs a classification start command. . Then, the estimation device 3 starts the classification code estimation process as follows. FIG. 4 is a flowchart showing the processing procedure and processing contents.
ここでは、複数の文献に対して、1文献ずつ、推定用辞書に定義されている複数の分類コードを順次付与する場合を例にとって説明する。なお、メタルールの適用は、1文献への全分類コードの付与が終了した時点で、その文献に対するコード付与結果の見直しのために行う。 Here, a case where a plurality of classification codes defined in the estimation dictionary are sequentially assigned to a plurality of documents one by one will be described as an example. Note that the application of the meta-rule is performed for reviewing the code assignment result for the document when the assignment of all classification codes to the document is completed.
上記分類開始コマンドが入力されたことをステップS11により検出すると、先ずステップS12において推定用辞書作成装置1から上記指定されたテーマに対応する推定用辞書データPを読み込む。推定用辞書データPには、コード付与定義表およびメタルール辞書が含まれる。 When it is detected in step S11 that the classification start command has been input, first, in step S12, estimation dictionary data P corresponding to the specified theme is read from the estimation dictionary creation device 1. The estimation dictionary data P includes a code assignment definition table and a meta rule dictionary.
またそれと共に推定装置3は、ステップS12において上記文献用語表生成装置2から文献用語表データR1,R2,R3,…を読み込む。文献への分類コード付与は文献単位で行う。推定用辞書データPで複数のコードが定義されている場合は、1つの文献に対して以下に述べる処理によりコード付与を繰り返し行う。複数文献にコード付与を行う場合は、この処理を文献の数だけ繰り返す。以下では1つの文献に1つのコードを付与する場合を説明する。 At the same time, the estimation device 3 reads the document term table data R1, R2, R3,... From the document term table generation device 2 in step S12. A classification code is assigned to a document in units of documents. When a plurality of codes are defined in the estimation dictionary data P, code assignment is repeatedly performed for one document by the process described below. When assigning codes to a plurality of documents, this process is repeated for the number of documents. Hereinafter, a case where one code is assigned to one document will be described.
(3−2)マッチングとスコアの計算
推定装置3は、ステップS12において、付与する文献の文献用語表データRnを読み込んで、ステップS13で付与環境を設定する。推定用辞書データには分類コードは複数定義されているものとし、ステップS14で次に付与する分類コードを設定する。次に推定装置3は、ステップS15により、当該文献用語表データRnに記載された用語と、推定用辞書データに記述され文意式とを比較し、その一致度に応じてスコアを計算する。
(3-2) Matching and Score Calculation The estimation device 3 reads the document terminology table data Rn of the document to be assigned in step S12, and sets the grant environment in step S13. It is assumed that a plurality of classification codes are defined in the estimation dictionary data, and a classification code to be assigned next is set in step S14. Next, in step S15, the estimation device 3 compares the term described in the document terminology table data Rn with the grammatical expression described in the estimation dictionary data, and calculates a score according to the degree of coincidence.
(3−3)スコアの詳細な計算例
スコアの計算は以下のように行われる。
すなわち、先ず推定用辞書データの行(分類コードのグループ)ごとに、その文意式と文献用語表データに記載された用語との一致頻度の値を下記の式により求め、全ての段落の値の総和が文献のスコアとなる。
(3-3) Detailed Calculation Example of Score The score is calculated as follows.
That is, first, for each line (classification code group) of the dictionary data for estimation, the value of the coincidence frequency between the word meaning expression and the term described in the document terminology table data is obtained by the following formula, and the values of all the paragraphs are obtained. Is the score of the literature.
Wi*{log10(N1*f1+N2*f2+N3*f3)
Wi;重み係数
N1;用語の基本スコア(定数)
N2;基本要素の基本スコア(定数)
N3;文意式の基本スコア(定数)
f1;用語の集合に着目したときの同一グループ内の正規化されたヒット数
f2;基本要素の集合に着目したときの同一グループ内の正規化されたヒット数
f3;文意式の集合に着目したときの同一グループ内の正規化されたヒット数
なお、上記N1、N2、N3の各スコアは、それぞれ用語、基本要素、文意式の複雑度合に応じて決める定数であり、複雑度合が高ければ定数としてのスコアを高くするようにしている。
Wi * {log 10 (N1 * f1 + N2 * f2 + N3 * f3)
Wi; weight coefficient N1; basic score of term (constant)
N2: Basic score of basic element (constant)
N3: Basic score of literal meaning (constant)
f1; normalized number of hits in the same group when focusing on a set of terms f2; normalized number of hits in the same group when focusing on a set of basic elements f3; focusing on a set of literal expressions Normalized number of hits in the same group When the scores of N1, N2, and N3 are constants determined according to the complexity of terms, basic elements, and literary expressions, respectively, the complexity is high. The score as a constant is increased.
また、上記正規化は、「分類テーマに含まれる全文献の各段落に含まれる文字数の平均」をA、「現在付与対象としている文献の段落に含まれる文字数」をBとするとき、B/Aを正規化係数としてこれを文献の文字数に掛け算することにより算出される。 In addition, the normalization is defined as B / when “the average number of characters included in each paragraph of all documents included in the classification theme” is A and “the number of characters included in the paragraph of the document to be currently assigned” is B. This is calculated by multiplying the number of characters in the literature by using A as a normalization coefficient.
すなわち、探し出す記述内容は、用語の集合+基本要素の集合+文意式の集合として表される。続いて、同一の分類コードのすべてのグループのスコアの合計を、段落ごとにそれぞれ算出し、その合計として文献全体のスコアを算出する。 That is, the description content to be searched for is expressed as a set of terms + a set of basic elements + a set of sentence expressions. Subsequently, the sum of the scores of all the groups with the same classification code is calculated for each paragraph, and the score of the entire document is calculated as the sum.
以上のスコア計算方法をさらに具体的に説明する。
いま、付与条件を文意式により記述した2次元の表(図2に例示)が、次のように定義されていると仮定する。
The above score calculation method will be described more specifically.
Now, it is assumed that a two-dimensional table (illustrated in FIG. 2) in which the grant conditions are described by a lexical expression is defined as follows.
・Fターム「DD19」(テーマコード「2F129」)の推定用辞書データ
グループ1;
文意式1 「;ナビゲーション装置」
基準値 「0.6」
重み 「1」
段落種別番号 「1、2、3、4、6、7、8、9」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「1」・・・用語のみで構成された文意式であり、N2は事実上意味をなさないため1以上であればどのような数字でもよい。
文意式の基本スコアN3 「1」・・・用語のみで構成された文意式であり、N3は事実上意味をなさないため1以上であればどのような数字でもよい。
Dictionary data group for estimation of F-term “DD19” (theme code “2F129”) Group 1;
Interpretation 1 “; Navigation device”
Standard value “0.6”
Weight “1”
Paragraph type number “1, 2, 3, 4, 6, 7, 8, 9”
Term basic score N1 "1"
Basic score N2 “1” of the basic element is a grammatical expression composed only of terms, and N2 is virtually meaningless, so any number may be used as long as it is 1 or more.
Basic score N3 “1” of the word meaning expression is a word meaning expression composed only of terms, and N3 is practically meaningless and may be any number as long as it is 1 or more.
グループ2;
文意式1 「{<;経路,;周辺,;施設>c,{;施設,;探索}c}」
基準値 「0.6」
重み 「2」
段落種別番号 「1、2、3、4、6、7、8」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「2」
文意式の基本スコア 「2」
文意式2 「{<;経路,;周辺,地点>c,{地点,;探索}c}」
基準値 「0.6」
重み 「2」
段落種別番号 「1、2、3、4、6、7、8」
用語の基本スコアN1 「1」
基本要素の基本スコアN2 「2」
文意式の基本スコア 「2」。
Group 2;
Grammatical expression 1 “{<;route,;neighborhood;facility> c, {; facility,; search} c}”
Standard value “0.6”
Weight “2”
Paragraph type number “1, 2, 3, 4, 6, 7, 8”
Term basic score N1 "1"
Basic score of basic element N2 “2”
Basic score of literary expression "2"
Grammatical expression 2 “{<;route,; periphery, point> c, {point,; search} c}”
Standard value “0.6”
Weight “2”
Paragraph type number “1, 2, 3, 4, 6, 7, 8”
Term basic score N1 "1"
Basic score of basic element N2 “2”
The basic score of literary expression is “2”.
また、f1〜f3については、それぞれ以下のようになったとする。
グループ1 文意式1
グループ1における文意式1の用語の集合に着目したときの同一グループ内のヒット数h1は「30」、正規化係数は「0.8」とすると、f1は「24」。
グループ1における文意式1の基本要素の集合に着目したときの同一グループ内のヒット数h2は「0(ゼロ)」、正規化係数は「0.8」とすると、f2は「0(ゼロ)」。
グループ1における文意式1は、用語のみで構成された文意式であるから、基本要素の集合は存在しないため、ヒット数は「0(ゼロ)」となる。
同様に、グループ1における文意式1の文意式の集合に着目したときの同一グループ内のヒット数h3は「0(ゼロ)」、正規化係数は「0.8」とすると、f3は「0(ゼロ)」。グループ1における文意式1は、用語のみで構成された文意式であるから、文意式の集合は存在しないため、ヒット数は「0(ゼロ)」となる。
Further, assume that f1 to f3 are as follows.
Group 1
When attention is paid to a set of terms of the grammatical expression 1 in group 1, if the hit number h1 in the same group is “30” and the normalization coefficient is “0.8”, f1 is “24”.
When the number of hits h2 in the same group is “0 (zero)” and the normalization coefficient is “0.8” when focusing on the set of basic elements of the semantic expression 1 in group 1, f2 is “0 (zero). ) "
Since the semantic expression 1 in the group 1 is a conceptual expression composed only of terms, there is no set of basic elements, so the number of hits is “0 (zero)”.
Similarly, when focusing on the set of semantic expressions of semantic expression 1 in group 1, if the number of hits h3 in the same group is “0 (zero)” and the normalization coefficient is “0.8”, f3 is “0”. Since the meaning 1 in the group 1 is a meaning made up of only terms, there is no set of meanings, so the number of hits is “0 (zero)”.
グループ2 文意式1
グループ2における文意式1の用語の集合に着目したときの同一グループ内のヒット数h1は「5」、正規化係数は「0.9」とすると、f1は「4.5」。
グループ2における文意式1の基本要素の集合に着目したときの同一グループ内のヒット数h2は「3」、正規化係数は「0.9」とすると、f2は「2.7」。
同様に、グループ2における文意式1の文意式の集合に着目したときの同一グループ内のヒット数h3は「2」、正規化係数は「0.9」とすると、f3は「1.8」。
Group 2
When attention is paid to a set of terms of the grammatical expression 1 in group 2, if the number of hits h1 in the same group is “5” and the normalization coefficient is “0.9”, f1 is “4.5”.
When focusing on the set of basic elements of the semantic expression 1 in group 2, if the number of hits h2 in the same group is “3” and the normalization coefficient is “0.9”, f2 is “2.7”.
Similarly, when focusing on the set of semantic expressions of semantic expression 1 in group 2, if the number of hits h3 in the same group is “2” and the normalization coefficient is “0.9”, f3 is “1. 8 ".
グループ2 文意式2
グループ2における文意式2の用語の集合に着目したときの同一グループ内のヒット数h1は「4」、正規化係数は「0.9」とすると、f1は「3.6」。
グループ2における文意式2の基本要素の集合に着目したときの同一グループ内のヒット数h2は「3」、正規化係数は「0.9」とすると、f2は「2.7」。
同様に、グループ2における文意式2の文意式の集合に着目したときの同一グループ内のヒット数h3は「2」、正規化係数は「0.9」とすると、f3は「1.8」。
Group 2
When attention is paid to a set of terms in the meaning expression 2 in the group 2, the number of hits h1 in the same group is “4”, and the normalization coefficient is “0.9”, and f1 is “3.6”.
When focusing on the set of basic elements of the semantic expression 2 in group 2, if the number of hits h2 in the same group is “3” and the normalization coefficient is “0.9”, f2 is “2.7”.
Similarly, if the number of hits h3 in the same group when focusing on the set of semantic expressions of semantic expression 2 in group 2 is “2” and the normalization coefficient is “0.9”, f3 is “1. 8 ".
よって、各スコアは、以下のようになる。
グループ1の文意式1のスコア:
1(重み)×{log10(1(N1)×24(f1)+1(N2)×0(f2)+1(N3)×0(f3))}=1.38
グループ2の文意式1のスコア:
2(重み)×{log10(1(N1)×4.5(f1)+2(N2)×2.7(f2)+2(N3)×1.8(f3))}=2.26
グループ2の文意式2のスコア:
2(重み)×{log10(1(N1)×3.6(f1)+2(N2)×2.7(f2)+2(N3)×1.8(f3))}=2.20。
Therefore, each score is as follows.
Score of ideographic formula 1 of group 1:
1 (weight) × {log 10 (1 (N1) × 24 (f1) +1 (N2) × 0 (f2) +1 (N3) × 0 (f3))} = 1.38
Score of grammatical expression 1 of group 2:
2 (weight) × {log 10 (1 (N1) × 4.5 (f1) +2 (N2) × 2.7 (f2) +2 (N3) × 1.8 (f3))} = 2.26
Score of grammatical formula 2 of group 2:
2 (weight) × {log 10 (1 (N1) × 3.6 (f1) +2 (N2) × 2.7 (f2) +2 (N3) × 1.8 (f3))} = 2.20.
これらの各スコアと基準値「0.6」とを比較し、基準値以上のものを抽出する。
なお、「対象文献全体のベーススコアTt=文意式ごとの得点の総和」である。
Each of these scores and the reference value “0.6” are compared, and those above the reference value are extracted.
Note that “the base score Tt of the entire target document = the sum of the scores for each sentence expression”.
よって、
1.38(グループ1の文意式1のスコア)
+ 2.26(グループ2の文意式1のスコア)
+ 2.20(グループ2の文意式2のスコア)
= 5.85(Tt) ・・・
これが対象文献のスコアとなる。
Therefore,
1.38 (score of group 1 sentence 1)
+ 2.26 (score for grammatical expression 1 of group 2)
+ 2.20 (score for group 2 sentence 2)
= 5.85 (Tt) ...
This is the score of the target document.
そして、対象文献(対象テキスト)のスコアT=αTt+βmaxTd(i)を計算する。ここで、
α、β;重みの係数
Tt;対象文献全体のベーススコア
maxTd(i);対象段落種別のスコアのうち最大のもの
例えばα=1、β=4のように設定し、maxTd(i)が段落種別10で最大「10」であるとすると、
対象文献(対象テキスト)のスコアTは、
1(α)×5.85(Tt)+4(β)×10(maxTd(10))=45.85となる。
Then, the score T = αTt + βmaxTd (i) of the target document (target text) is calculated. here,
α, β; coefficient of weight Tt: base score of the entire target document
maxTd (i); the maximum score of the target paragraph type, for example, α = 1, β = 4, and assuming that maxTd (i) is the maximum of “10” in the paragraph type 10,
The score T of the target document (target text) is
1 (α) × 5.85 (Tt) +4 (β) × 10 (maxTd (10)) = 45.85
したがって、この場合、対象文献(対象テキスト)のスコアTは「45.85」となる。以上のように算出されたスコアTを保存する。 Therefore, in this case, the score T of the target document (target text) is “45.85”. The score T calculated as described above is stored.
(3−4)マッチングスコア(評価値)の判定
推定装置3は、スコア計算が終了すると、ステップS16によりスコアTを読み込み、このスコアTを予め設定された閾値と比較する。そしてステップS17において、スコアTが閾値以上となったか否かを判定する。すなわち、現在処理している文献に対して、分類コードごとに当該分類コードを付与すべきか否かを判定する。
(3-4) Determination of Matching Score (Evaluation Value) When the score calculation is completed, the estimation device 3 reads the score T in step S16 and compares the score T with a preset threshold value. In step S17, it is determined whether or not the score T is equal to or greater than a threshold value. That is, it is determined whether or not the classification code should be assigned for each classification code with respect to the currently processed document.
(3−5)分類コードの付与
推定装置3は、付与すべき分類コードが見つかると、ステップS18により、処理対象の特許文献に対し上記分類コードを付与する。具体的には、付与対象の特許文献の番号に対し、FタームまたはFIコードを関連付ける。1つの分類コードの付与を終了すると、ステップ19で、全ての分類コードの付与処理を終了したかどうか判定し、終了でなければ次の分類コードへの処理を行うためにステップ14に戻る。
(3-5) Assignment of Classification Code When the estimation apparatus 3 finds a classification code to be assigned, it assigns the classification code to the patent document to be processed in step S18. Specifically, the F term or FI code is associated with the number of the patent document to be granted. When the assignment of one classification code is completed, it is determined in step 19 whether or not all the classification code assignment processes have been completed. If not, the process returns to step 14 in order to perform the process for the next classification code.
当該文献への全ての分類コードの付与を終了すると、ステップS20により、メタルール辞書を読み出し、それまでの文献へのコード付与結果と当該メタルールとに従い、付与終了した文献に対して、付与されていなかったコードを新たに付与したり、付与されていたコードを取り消したりする処理を行う。 When the assignment of all the classification codes to the document is completed, the metarule dictionary is read out in step S20, and the assignment is not given to the finished document according to the code assignment result and the metarule to the document so far. New code is assigned or the assigned code is canceled.
ステップS21により、上記付与対象の特許文献の番号と付与された分類コードを端末4へ出力し表示させる。 In step S21, the number of the patent document to be granted and the assigned classification code are output to the terminal 4 and displayed.
1つの文献への推定用辞書データで定義されている全ての分類コードへの付与処理を終了すると、ステップS22において全ての文献への付与を終えたかどうか判定し、未付与の文献があればステップS12から文献へのコード付与操作を繰り返す。全ての文献への付与処理が終了した時点で処理を終了する。
なお、付与が終了した後、第2文献群の文献用語表のデータを付与根拠データとして出力することも可能である。
When the process of assigning all the classification codes defined in the dictionary data for estimation to one document is finished, it is determined in step S22 whether or not the assignment to all the documents is finished. The code assigning operation from S12 to the document is repeated. The process ends when the granting process for all documents is completed.
Note that it is also possible to output the document term table data of the second document group as the grant basis data after the grant is completed.
(効果)
以上詳述したように実施例1では、推定用辞書データPに、句、文章および段落ごとに、共起関係を示す複数の用語の組である基本要素を少なくとも1つ用いて分類コードの付与条件を記述した文意式を記憶させる。そして、付与対象の文献から生成した文献用語表データR1,R2,R3,…を、上記推定用辞書データPに分類コードごとに記述された文意式と基本要素を基本単位として比較して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記付与対象の文献に対し上記分類コードを付与するようにしている。
(effect)
As described above in detail, in the first embodiment, the estimation dictionary data P is assigned a classification code using at least one basic element that is a set of a plurality of terms indicating a co-occurrence relationship for each phrase, sentence, and paragraph. The sentence meaning describing the condition is stored. Then, the document terminology table data R1, R2, R3,... Generated from the document to be given is compared with the grammatical expressions described for each classification code in the estimation dictionary data P and basic elements as basic units, The degree of coincidence is calculated as a score, and when the total value of the scores is equal to or greater than a threshold, the classification code is assigned to the document to be given.
従って、実施例1によれば、文意式は、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて記述したものとなっているため、付与条件の満たし具合を正確にスコアに反映させることが可能となる。また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。 Therefore, according to the first embodiment, the literal expression is described by using one term or a plurality of terms indicating a co-occurrence relationship as a basic element and using at least one of them as a basic element. It becomes possible to accurately reflect the satisfaction of the condition in the score. In addition, since the word meaning is defined for each phrase, sentence, and paragraph, when searching for the corresponding term from the literature term table data R1, R2, R3,. Done within range. For this reason, a set of terms is not searched across phrases, sentences, and paragraphs, and sentence meaning can be estimated with high accuracy.
また実施例1では、推定用辞書データPを作成する際に、付与条件を単純な複数の条件グループに分解してこれらの条件グループをそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに1つずつ記述するようにしている。このため、複雑な付与条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。 In the first embodiment, when the dictionary data P for estimation is created, the condition is divided into simple condition groups, and these condition groups are expressed as independent sentence meanings. One table is written in each cell of the table creation application. For this reason, complicated provision conditions can be simplified and expressed, thereby making it possible to easily create, change, and add conditional expressions.
さらに実施例1では、スコアを計算する際に、文献用語表データR1,R2,R3,…の全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の重み付けをして加算して求めるようにしている。 Furthermore, in Example 1, when the score is calculated, the score maxTd (i) of the paragraph having the highest score among all the paragraphs of the literature term table data R1, R2, R3,. Tt is obtained by adding weights of 1: 4.
一般に、文献全体の記載内容だけをスコアに反映する手法では文献全体の技術用語を大雑把に探すことは可能であるが、漠然とした類似度しか判定できない。一方、最大スコアの段落のみにより類似度を判定する場合には、木を見て森を見ない判定結果になり易い。しかしながら、実施例1によれば付与対象の文献の全段落と最大スコアの段落の両方のスコアに着目し、しかも両方のスコアをその重要度に応じて重み付け加算して類似度の判定を行っているので、精度の高い類似度判定を行うことができる。 In general, a technique that reflects only the description content of the entire document in the score can roughly search for technical terms of the entire document, but can only determine a vague similarity. On the other hand, when the similarity is determined based only on the paragraph with the highest score, it is likely to be a determination result in which the forest is not seen by looking at the tree. However, according to the first embodiment, paying attention to the scores of all the paragraphs of the document to be granted and the paragraph with the highest score, the both scores are weighted and added according to their importance to determine the similarity. Therefore, the similarity determination with high accuracy can be performed.
さらに、付与根拠も表示することができ、付与の妥当性について人が判断することが容易に行える。 Furthermore, the basis of grant can also be displayed, and a person can easily determine the validity of the grant.
[実施例2]
実施例1では、特許文献に分類コードを付与する場合を例にとって説明した。これに対し本発明の実施例2は、特定の第1文献と技術の内容が類似する第2文献をサーチ対象となる文献集合(「第2文献群」という)からサーチする場合に、この発明に係る文献解析システムを使用するようにしたものである。
[Example 2]
In the first embodiment, the case where a classification code is assigned to a patent document has been described as an example. On the other hand, the second embodiment of the present invention relates to a case where a second document having a similar technical content to a specific first document is searched from a document set to be searched (referred to as “second document group”). The literature analysis system according to the above is used.
なお、実施例2に係る文献解析システムは、基本的な構成が実施例1で述べた構成と同一であるため、ここでは図1を用いて説明を行う。 The basic structure of the document analysis system according to the second embodiment is the same as that described in the first embodiment, and will be described with reference to FIG.
図5は、この発明の実施例2に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。 FIG. 5 is a flowchart showing the procedure and processing contents of a document search process performed by the document analysis system according to Embodiment 2 of the present invention.
サーチ担当者は、推定用辞書作成装置1の推定用辞書エディタ1Aを用いて、サーチ元となる第1文献の所定の項目、例えば技術分野、背景技術/従来技術、実施例、請求の範囲が記載された各段落について、サーチ条件を文意式により記述した推定用辞書データを作成する。文意式は、実施例1と同様に、句、文章および段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて文意式で記述したものである。また、文意式において、語順や否定形を指定したりすることもできる。なお、第1文献に分類コードが付与されている場合は、その分類コードに対応する文意式群をそのまま、あるいは加工してサーチ条件の文意式を作成してもよい。 The person in charge of the search uses the estimation dictionary editor 1A of the estimation dictionary creation apparatus 1 to specify predetermined items of the first document as a search source, for example, technical field, background art / prior art, examples, and claims. For each paragraph described, estimation dictionary data in which the search condition is described by a lexical expression is created. Similar to the first embodiment, the sentence meaning is based on one phrase or a plurality of terms showing a co-occurrence relationship for each phrase, sentence, and paragraph, and at least one of them is used as a sentence meaning expression. It is described. Also, word order and negative form can be specified in the sentence expression. If a classification code is assigned to the first document, a sentence meaning expression corresponding to the classification code may be created as it is or by processing the sentence meaning expression group.
上記のように作成された推定用辞書データPは、推定用辞書作成装置1においてメモリに記憶される。なお、推定用辞書作成装置1に、サーチ元となる特許文献の文書データを読み込み、機械学習等を用いてサーチ用の推定用辞書データを自動作成する機能を備えるようにしてもよい。推定装置3は、上記推定用辞書作成装置1のメモリに記憶された第1文献の推定用辞書データを、ステップS31で読込む。 The estimation dictionary data P created as described above is stored in the memory in the estimation dictionary creation device 1. The estimation dictionary creation device 1 may be provided with a function of reading document data of a patent document as a search source and automatically creating the estimation dictionary data for search using machine learning or the like. The estimation device 3 reads the dictionary data for estimation of the first document stored in the memory of the dictionary creation device for estimation 1 in step S31.
次に、ステップ33で、推定装置3は、文献用語表生成装置2により作成された、第2文献群(サーチ対象となる文献集合)の各文献における文献用語表データを生成する。この文献用語表データは実施例1で使用したものと同じものであり、生成方法も同じである。さらに、概念サーチを行えるようにそれ用の新たな情報を文献用語表データに加えることを行ってもよい。 Next, in step 33, the estimation device 3 generates document term table data in each document of the second document group (document set to be searched) created by the document term table generation device 2. This literature term table data is the same as that used in the first embodiment, and the generation method is also the same. Further, new information for the purpose may be added to the literature term table data so that the concept search can be performed.
推定装置3は、次にステップS33において、第2文献群の文献用語表データR1,R2,R3,…を読み込む。そしてステップS34により、推定用辞書データPの各グループに記述された文意式とそれぞれ比較する。この比較の結果、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。 Next, in step S33, the estimating apparatus 3 reads the document term table data R1, R2, R3,. Then, in step S34, it is compared with the sentence meaning described in each group of the estimation dictionary data P. As a result of this comparison, when a set of terms that match the basic elements described in the grammatical expression is found from the literature term table data, a score is calculated for each row according to the number of matches.
このスコアの計算方法は、実施例1と同様に、先ず、「用語の集合+基本要素の集合+文意式の集合」として計算し、すべての行のスコアの合計を文献全体および段落ごとにそれぞれ算出する。そして、全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の比率で重み付け加算する方法が用いられる。上記第2文献ごとに算出されたスコアは、当該第2文献の番号と関連付けられて保存される。 As in the first embodiment, this score calculation method is first calculated as “a set of terms + a set of basic elements + a set of semantic expressions”, and the total score of all lines is calculated for each document and each paragraph. Calculate each. Then, a method of weighting and adding the score maxTd (i) of the paragraph having the highest score among all the paragraphs and the total value Tt of the scores of all the paragraphs at a ratio of 1: 4 is used. The score calculated for each second document is stored in association with the number of the second document.
そして、保存されたスコアを読み込み、このスコアを予め設定された第1の閾値と比較する。そしてステップS36により、スコアの合計値が第1の閾値以上となったか否かを判定する。すなわち、上記第2文献と第1文献との間の技術内容の類似度が閾値以上が否かを判定する。この判定の結果、類似度を表すスコアが第1の閾値以上の第2文献が見つかった場合には、ステップS37において、上記第2文献を類似文献として端末へ出力する。 Then, the stored score is read, and this score is compared with a preset first threshold value. In step S36, it is determined whether or not the total score value is equal to or greater than the first threshold value. That is, it is determined whether the technical content similarity between the second document and the first document is greater than or equal to a threshold value. As a result of this determination, if a second document having a score representing the similarity equal to or higher than the first threshold is found, the second document is output to the terminal as a similar document in step S37.
これに対し、類似度を表すスコアが第1の閾値以上となる第2文献が見つからなかった場合には、サーチ結果出力部が、ステップS38において類似度を表すスコアが第1の閾値未満であるが第2の閾値以上の第2文献を参考文献として選択する。そして、当該参考文献として選択された第2文献の番号を端末へ出力する。 On the other hand, when the second document whose score representing the similarity is equal to or greater than the first threshold is not found, the search result output unit has a score representing the similarity in step S38 that is less than the first threshold. Is selected as a reference document. Then, the number of the second document selected as the reference document is output to the terminal.
以上詳述したように実施例2では、第1文献と類似する第2文献をサーチする際に、第1文献の内容に基づいて1つの用語又は共起関係を示す複数の用語の組である基本要素を用いてサーチ条件を記述した文意式を作成して、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の複数の第2文献からそれぞれ生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第2文献を類似文献として選択するようにしている。 As described above in detail, in the second embodiment, when searching for a second document similar to the first document, a single term or a set of terms indicating a co-occurrence relationship based on the contents of the first document is used. A sentence expression describing a search condition is created using basic elements, and this is stored in an estimation dictionary. Then, the word meaning stored in the estimation dictionary is compared with the document term table data respectively generated from the plurality of second documents to be searched for in terms of terms, and the degree of matching is calculated as a score. When the total score is equal to or greater than the threshold, the second document is selected as a similar document.
従って、実施例2によれば、文意式は、句、文章及び段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素として、これを少なくとも1つ用いて記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。 Therefore, according to the second embodiment, the sentence expression is described by using at least one of a plurality of terms indicating one term or a co-occurrence relationship as a basic element for each phrase, sentence, and paragraph. Thus, the degree of matching of terms between documents can be accurately reflected in the score. In addition, since the similarity between the estimation dictionary data and the document term table data is represented by a score, it is possible to determine the degree of similarity without being limited to determining whether the document is a similar document.
また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。 In addition, since the word meaning is defined for each phrase, sentence, and paragraph, when searching for the corresponding term from the literature term table data R1, R2, R3,. Done within range. For this reason, a set of terms is not searched across phrases, sentences, and paragraphs, and sentence meaning can be estimated with high accuracy.
また実施例2では、推定用辞書を作成する際に、サーチ条件を単純な複数の条件に分解してこれらの条件をそれぞれ独立する文意式として表し、これらの文意式を表作成用アプリケーションのセルに1つずつ記述するようにしている。このため、複雑なサーチ条件を単純化して表すことができ、これにより条件式の作成、変更、追加を簡単に行うことができる。 In the second embodiment, when the estimation dictionary is created, the search condition is decomposed into a plurality of simple conditions, and these conditions are expressed as independent sentence meanings. One cell is described in each cell. For this reason, complicated search conditions can be expressed in a simplified manner, thereby making it possible to easily create, change, and add conditional expressions.
さらに実施例2では、第1文献と第2文献との類似度を判定する際に、第2文献の全段落の中からスコアが最も高い段落を選択し、この選択した段落のスコアと第2文献の全段落のスコアの合計値とを1:4の比率で重み付け加算して求め、この求めたスコアをもとに類似度を判定するようにしている。このため、文献全体と要旨が記載された段落の両方をバランスよく考慮して、精度の高い類似度判定を行うことができる。 Furthermore, in Example 2, when determining the similarity between the first document and the second document, the paragraph having the highest score is selected from all the paragraphs of the second document, and the score of the selected paragraph and the second score are selected. The total score of all paragraphs in the document is obtained by weighted addition at a ratio of 1: 4, and the similarity is determined based on the obtained score. For this reason, it is possible to perform the similarity determination with high accuracy in consideration of both the whole document and the paragraph in which the abstract is described in a well-balanced manner.
[実施例3]
前記実施例2では、第1文献の内容に近い文献を第2文献群からサーチする例であるが、第1文献を想定せず、単にある内容を記載した文献を第2文献群からサーチして取出したい場合もある。この場合は、探したい内容を1個ないし複数個の文意式を用いて表現し、これを定義表として作成して推定用辞書とする。
[Example 3]
The second embodiment is an example in which a document that is close to the content of the first document is searched from the second document group, but the first document is not assumed, and a document that simply describes a certain content is searched from the second document group. You may want to take it out. In this case, the content to be searched for is expressed using one or a plurality of grammatical expressions, and this is created as a definition table to be used as an estimation dictionary.
図6は、この発明の実施例3に係る文献解析システムによる文献サーチ処理の手順と処理内容を示すフローチャートである。
サーチ担当者は、推定用辞書作成装置1の推定用辞書エディタ1Aを用いて、探したい内容を文意式により表現した推定用辞書データを作成する。文意式は、実施例1と同様に、句、文章および段落ごとに、1つの用語又は共起関係を示す複数の用語の組を基本要素とし、これを少なくとも1つ用いて記述したものである。また、文意式において、語順や否定形を指定したり、統制語や文意マクロを使用することもできる。
FIG. 6 is a flowchart showing the procedure and processing contents of a document search process performed by the document analysis system according to Embodiment 3 of the present invention.
The person in charge of the search uses the estimation dictionary editor 1A of the estimation dictionary creation device 1 to create estimation dictionary data that expresses the content to be searched for by means of grammatical expressions. Similar to the first embodiment, the sentence expression is described by using at least one of a single term or a plurality of terms indicating a co-occurrence relationship for each phrase, sentence, and paragraph as a basic element. is there. In addition, word order and negation can be specified in the sentence meaning, and controlled words and sentence meaning macros can be used.
上記のように作成された推定用辞書データPは、推定用辞書作成装置1においてメモリに記憶される。なお、ステップS40で、サーチ対象とする文献2群の文献用語表データの生成は実施例1あるいは実施例2と同様の方法で作成する。 The estimation dictionary data P created as described above is stored in the memory in the estimation dictionary creation device 1. In step S40, the document term table data of the document 2 group to be searched is generated by the same method as in the first or second embodiment.
次にステップS41において、推定装置3は推定用辞書データ3Aと文献用語表データR1,R2,R3,…を読み込む。そしてステップS42により、推定用辞書データPの各グループに記述された文意式と各文献用語表データをそれぞれ比較する。この比較処理において、文意式に記述された基本要素と一致する用語の組が文献用語表データから見つかった場合には、その一致数に応じて行ごとにスコアを計算する。 Next, in step S41, the estimation apparatus 3 reads the estimation dictionary data 3A and the literature term table data R1, R2, R3,. In step S42, the grammatical expressions described in each group of the estimation dictionary data P are compared with each document term table data. In this comparison process, when a set of terms that match the basic elements described in the grammatical expression is found from the literature term table data, a score is calculated for each row according to the number of matches.
このスコアの計算方法は、実施例1と同様に、先ず、「用語の集合+基本要素の集合+文意式の集合」として計算し、すべての行のスコアの合計を文献全体および段落ごとにそれぞれ算出する。そして、全段落の中のスコアが最も高い段落のスコアmaxTd(i)と、全段落のスコアの合計値Ttとを、1:4の比率で重み付け加算する方法が用いられる。上記第2文献ごとに算出されたスコアは、当該第2文献の番号と関連付けられて、保存される。 As in the first embodiment, this score calculation method is first calculated as “a set of terms + a set of basic elements + a set of semantic expressions”, and the total score of all lines is calculated for each document and each paragraph. Calculate each. Then, a method of weighting and adding the score maxTd (i) of the paragraph having the highest score among all the paragraphs and the total value Tt of the scores of all the paragraphs at a ratio of 1: 4 is used. The score calculated for each second document is associated with the number of the second document and stored.
そして、保存されたスコアを読み込み、このスコアを予め設定された第1の閾値と比較する。そしてステップS44により、スコアの合計値が第1の閾値以上となったか否かを判定する。すなわち、上記第2文献とサーチ条件との間の技術内容の類似度が閾値以上が否かを判定する。 Then, the stored score is read, and this score is compared with a preset first threshold value. In step S44, it is determined whether or not the total score value is equal to or greater than the first threshold value. That is, it is determined whether the technical content similarity between the second document and the search condition is equal to or greater than a threshold value.
上記判定の結果、類似度を表すスコアが第1の閾値以上の第2文献が見つかった場合には、ステップS45において、上記第2文献を類似文献として端末4へ出力する。 As a result of the determination, if a second document having a score representing similarity equal to or greater than the first threshold is found, the second document is output to the terminal 4 as a similar document in step S45.
これに対し、類似度を表すスコアが閾値以上となる第2文献が見つからなかった場合には、その旨を表示してサーチを終了する。 On the other hand, if the second document whose score representing the similarity is equal to or greater than the threshold is not found, the fact is displayed and the search is terminated.
以上詳述したように実施例3では、意図する内容に一致あるいは近い文献を類似する第2文献群からサーチする際に、サーチ条件を記述した文意式で記述し、これを推定用辞書に記憶する。そして、この推定用辞書に記憶された文意式を、サーチ対象の第2文献から生成した文献用語表データと用語単位で対比して、その一致の度合いをスコアとして計算し、当該スコアの合計値が閾値以上となった場合に、上記第2文献を類似文献として選択するようにしている。 As described in detail above, in the third embodiment, when searching for a document that matches or is close to the intended content from the second group of similar documents, it is described by a grammatical expression describing the search condition, and this is stored in the estimation dictionary. Remember. Then, the semantic expression stored in the estimation dictionary is compared with the document terminology table data generated from the second document to be searched in terms of terms, and the degree of coincidence is calculated as a score. When the value is equal to or greater than the threshold value, the second document is selected as a similar document.
従って、実施例3によれば、文意式は共起関係を示す複数の用語の組である基本要素を基本要素として記述したものとなっているため、文献間の用語の一致の度合いを正確にスコアに反映させることが可能となる。また、推定用辞書データと文献用語表データとの類似度がスコアで表されるので、類似文書か否かの判定に止まらず、類似の程度を判定することが可能となる。 Therefore, according to the third embodiment, the grammatical expression describes a basic element that is a set of a plurality of terms indicating a co-occurrence relationship as a basic element. Can be reflected in the score. In addition, since the similarity between the estimation dictionary data and the document term table data is represented by a score, it is possible to determine the degree of similarity without being limited to determining whether the document is a similar document.
また、文意式は句、文章および段落ごとに定義されるため、マッチング処理により文献用語表データR1,R2,R3,…から該当する用語を検索する際に、句、文章および段落のそれぞれの範囲内で行われる。このため、句、文章および段落を跨がって用語の組が検索されることがなくなり、精度の高い文意推定が可能となる。 In addition, since the word meaning is defined for each phrase, sentence, and paragraph, when searching for the corresponding term from the literature term table data R1, R2, R3,. Done within range. For this reason, a set of terms is not searched across phrases, sentences, and paragraphs, and sentence meaning can be estimated with high accuracy.
「実施例4」
この発明の実施例4は、推定用辞書作成装置に、推定用辞書データの自動作成機能を設けたものである。図7は、この発明の実施例4に係る文献解析装置において使用される推定用辞書作成装置の機能構成を示すブロック図である。
Example 4
In the fourth embodiment of the present invention, an estimation dictionary creating apparatus is provided with an automatic creation function for estimating dictionary data. FIG. 7 is a block diagram showing a functional configuration of an estimation dictionary creating apparatus used in the document analysis apparatus according to Embodiment 4 of the present invention.
推定用辞書作成装置100は、サーバコンピュータまたはパーソナルコンピュータからなり、制御ユニット110と、記憶ユニット120と、入出力インタフェースユニット130とを備えている。 The estimation dictionary creating apparatus 100 is composed of a server computer or a personal computer, and includes a control unit 110, a storage unit 120, and an input / output interface unit 130.
入出力インタフェースユニット130には、コンソール端末200、文献データベース300および推定装置3が、例えばUSB(Universal Serial Bus)ケーブル、LAN(Local Area Network)等の構内ネットワークまたは公衆ネットワークを介して接続される。コンソール端末200は、オペレータが推定用辞書作成装置100に対しパラメータを入力するために使用される。なお、このコンソール端末200は、推定装置3により得られた文書解析結果を表示するために使用することも可能である。文献データベース300は、例えば特許文献の文書データを記憶するデータベースからなる。 The input / output interface unit 130 is connected to the console terminal 200, the document database 300, and the estimation device 3 via a local network such as a USB (Universal Serial Bus) cable, a LAN (Local Area Network), or a public network. The console terminal 200 is used by an operator to input parameters to the estimation dictionary creation device 100. The console terminal 200 can also be used to display the document analysis result obtained by the estimation device 3. The document database 300 includes a database that stores document data of patent documents, for example.
記憶ユニット120は、例えばHDD(Hard Disc Drive)やSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発性メモリや、RAM(Random Access Memory)等の随時書き込みおよび読み出しが可能な揮発性メモリを使用したもので、実施例4を実施する上で必要な記憶領域として、教師文献記憶部121と、基本要素候補記憶部122と、基本要素記憶部123とを備えている。 The storage unit 120 is a non-volatile memory that can be written and read at any time, such as HDD (Hard Disc Drive) and SSD (Solid State Drive), and a volatile that can be written and read at any time, such as RAM (Random Access Memory). A memory is used, and a teacher document storage unit 121, a basic element candidate storage unit 122, and a basic element storage unit 123 are provided as storage areas necessary for carrying out the fourth embodiment.
教師文献記憶部121は、推定用辞書データを作成する際の元になる教師文献の文書データを記憶するために使用される。基本要素候補記憶部122は、推定用辞書データを作成する過程で生成される基本要素の候補群を保存するために使用される。基本要素記憶部123は、推定用辞書データを作成する過程で生成される基本要素群を保存するために使用される。 The teacher document storage unit 121 is used to store the document data of the teacher document that is the basis for creating the estimation dictionary data. The basic element candidate storage unit 122 is used for storing a candidate group of basic elements generated in the process of creating the estimation dictionary data. The basic element storage unit 123 is used to store basic element groups generated in the process of creating estimation dictionary data.
制御ユニット110は、プロセッサおよび作業用メモリを有し、実施例4を実施する上で必要な制御機能として、パラメータ取得制御部111と、教師文献抽出部112と、基本要素候補抽出部113と、有効基本要素選択部114と、推定用辞書データ作成部115とを備えている。これらの制御機能は、いずれも図示しないプログラムメモリに格納されたプログラムを上記プロセッサに実行させることにより実現される。 The control unit 110 includes a processor and a working memory. As control functions necessary for carrying out the fourth embodiment, a parameter acquisition control unit 111, a teacher document extraction unit 112, a basic element candidate extraction unit 113, An effective basic element selection unit 114 and an estimation dictionary data creation unit 115 are provided. These control functions are realized by causing the processor to execute a program stored in a program memory (not shown).
パラメータ取得制御部111は、コンソール端末200においてオペレータが入力したパラメータを、入出力インタフェースユニット130を介して取り込む処理を行う。パラメータとしては、例えば、推定用辞書の作成対象となる技術分野を表すFタームと、上記技術分野の特徴を表す用語である種用語と、推定用辞書データの作成過程で使用する各種閾値が含まれる。 The parameter acquisition control unit 111 performs processing for taking in parameters input by the operator at the console terminal 200 via the input / output interface unit 130. The parameters include, for example, an F-term that represents a technical field for which an estimation dictionary is to be created, a seed term that represents a characteristic of the technical field, and various threshold values that are used in the process of creating the estimation dictionary data. It is.
教師文献抽出部112は、上記パラメータとして入力されたFタームおよび種用語をキーとして文献データベース300から該当する教師文献を抽出し、この抽出した教師文献を正例教師文献集合と負例教師文献集合とに分けて教師文献記憶部121に記憶させる処理を行う。正例教師文献は、上記種用語を含みかつ上記Fタームが付与される文献である。一方負例教師文献は、上記種用語を含みかつ上記Fタームが付与される文献である。 The teacher document extraction unit 112 extracts a corresponding teacher document from the document database 300 using the F-term and seed term input as the parameters as a key, and the extracted teacher document is set as a positive example teacher document set and a negative example teacher document set. And processing to be stored in the teacher document storage unit 121 separately. The positive example teacher document is a document that includes the above-mentioned terminology and is given the F term. On the other hand, the negative example teacher document is a document that includes the above-mentioned terminology and is given the F term.
基本要素候補抽出部113は、上記教師文献記憶部121に記憶された正例および負例の各教師文献群から、句、文章、段落および文献の各々の範囲ごとに基本要素の候補を抽出し、抽出した基本要素の候補を基本要素候補記憶部122に記憶させる処理を行う。基本要素とは、単独の種用語と、当該種用語と共起関係を示す用語との組のことである。基本要素候補の抽出処理の詳細は後述する。 The basic element candidate extraction unit 113 extracts basic element candidates for each range of phrases, sentences, paragraphs, and documents from the positive and negative teacher document groups stored in the teacher document storage unit 121. The basic element candidate storage unit 122 stores the extracted basic element candidates. The basic element is a set of a single seed term and a term indicating a co-occurrence relationship with the seed term. Details of the basic element candidate extraction process will be described later.
有効基本要素選択部114は、上記基本要素候補記憶部122に記憶された基本要素候補群から、可能な限り多くの正例教師文献に含まれ、かつ可能な限り負例教師文献には含まれない基本要素の候補を選択し、選択した基本要素の候補を推定用辞書作成用の基本要素として基本要素記憶部123に記憶させる処理を行う。この推定用辞書作成用の基本要素の選択処理の詳細についても後述する。 The effective basic element selection unit 114 is included in as many positive example teacher documents as possible from the basic element candidate group stored in the basic element candidate storage unit 122, and is included in negative example teacher documents as much as possible. A basic element candidate that does not exist is selected, and the selected basic element candidate is stored in the basic element storage unit 123 as a basic element for creating an estimation dictionary. Details of the selection process of the basic element for creating the estimation dictionary will be described later.
推定用辞書データ作成部115は、上記基本要素記憶部123から推定用辞書作成用の基本要素群を読み出し、この基本要素群の組み合わせを文意式(ブール代数式)で記述して推定用辞書データを作成する。そして、この推定用辞書データを推定装置3へ出力する処理を行う。 The estimation dictionary data creation unit 115 reads the basic element group for creating the estimation dictionary from the basic element storage unit 123, describes the combination of the basic element groups as a grammatical expression (Boolean algebra), and estimates the dictionary data. Create And the process which outputs this dictionary data for estimation to the estimation apparatus 3 is performed.
(動作)
次に、以上のように構成された推定用辞書作成装置100による推定用辞書の自動作成処理動作を説明する。図8は、その全体の処理手順と処理内容を示すフローチャートである。
(Operation)
Next, an automatic creation processing operation of the estimation dictionary by the estimation dictionary creation device 100 configured as described above will be described. FIG. 8 is a flowchart showing the overall processing procedure and processing contents.
(1)パラメータの取得
推定用辞書作成装置100は、パラメータ取得制御部111の制御の下、ステップS100においてパラメータの入力操作を待機している。この状態で、オペレータがコンソール端末200においてパラメータを入力すると、パラメータ取得制御部111がステップS110により上記パラメータを入出力インタフェースユニット130を介して取り込み、取り込んだパラメータを教師文献抽出部112に通知する。
(1) Parameter Acquisition The estimation dictionary creating apparatus 100 waits for a parameter input operation in step S100 under the control of the parameter acquisition control unit 111. In this state, when an operator inputs a parameter on the console terminal 200, the parameter acquisition control unit 111 captures the parameter via the input / output interface unit 130 in step S110, and notifies the teacher document extraction unit 112 of the captured parameter.
パラメータは、対象Fタームと、種用語群と、各種閾値とから構成される。図12はその一例を示すものである。対象Fタームは、図12(a)に示すように、推定用辞書の作成対象となる技術のFターム名であり、例えば日本の特許庁が定義しているFタームやFIコードがこれに該当する。 The parameter is composed of a target F term, a seed term group, and various threshold values. FIG. 12 shows an example. As shown in FIG. 12A, the target F term is the name of the F term of the technology for which the dictionary for estimation is created. For example, the F term and FI code defined by the Japanese Patent Office correspond to this. To do.
種用語は、上記推定用辞書の作成対象となる技術として特徴的な単一の単語、またはそれらの組み合わせである用語により表される。例えば、Fターム「BB19」においては、図12(b)に示すように「歩数計」、「距離計」、{歩行,センサ}、…等が種用語として入力される。 The seed term is represented by a term that is a single word or a combination thereof that is characteristic as a technique for which the estimation dictionary is created. For example, in the F term “BB19”, as shown in FIG. 12B, “pedometer”, “distance meter”, {walk, sensor},.
閾値としては、図12(c)に示すように、基本要素を抽出する際の範囲である「句」、「文章」、「段落」および「文献」の各々について、共起用語閾値としてのIDFおよび文献数と、共起用語を専門語のみとするか否かを指定する情報と、精度の閾値と、精度の刻み値と、再現率の閾値と、文献数の閾値と、生成項数の上限値と、処理時間および基本要素生成数の上限値が指定される。なお、図12(c)では「句」に対応する各閾値の表示を省略した場合を例示している。 As the threshold value, as shown in FIG. 12C, IDF as a co-occurrence term threshold value for each of “phrase”, “sentence”, “paragraph”, and “document”, which are ranges when extracting basic elements. And the number of documents, information specifying whether or not to use co-occurrence terms only as technical terms, accuracy thresholds, accuracy ticks, recall thresholds, document thresholds, and number of generated terms The upper limit value, the upper limit value of the processing time and the number of basic elements generated are specified. FIG. 12C illustrates a case where the display of each threshold corresponding to “phrase” is omitted.
また、ここで云うIDFとは、Inverse Document Frequencyの略で、ある共起用語がヒットする文献数の逆数である。これは、殆どの文献で出現するような共起用語の影響を小さくするために重みづけの係数として利用するものである。例えば、段落の基本要素のIDFが1.2の場合、共起用語が母集団の文献群のうち約83%以下の文献にだけヒットするというものである。母集団が1000文献あるとすると、833件以下の文献に当該段落の基本要素がヒットするというものである。 The IDF here is an abbreviation for Inverse Document Frequency, which is the reciprocal of the number of documents hit by a co-occurrence term. This is used as a weighting coefficient in order to reduce the influence of co-occurrence terms that appear in most documents. For example, when the IDF of the basic element of the paragraph is 1.2, the co-occurrence term hits only about 83% or less of documents in the literature group of the population. Assuming that there are 1000 documents in the population, the basic element of the paragraph hits 833 documents or less.
このうち精度は、基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す。再現率は、抽出された全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す。精度の閾値は、許容できる精度の最低値に設定される。また再現率の閾値は、許容できる再現率の最低値に設定される。 The accuracy represents the ratio of the number of positive example teacher documents including basic elements to the total number of positive example teacher documents including basic elements and the number of negative example teacher documents. The recall rate represents the ratio of the number of positive example teacher documents including basic elements to the total number of extracted positive example teacher documents. The accuracy threshold is set to the lowest acceptable accuracy. Also, the recall threshold is set to the lowest acceptable recall rate.
なお、上記正例教師文献数と負例教師文献数との割合は、Fタームごとに異なるので、正例教師文献数および負例教師文献数は下式により正規化する。
正規化文献数=実文献数*正規化係数
但し、
正例教師文献の正規化係数
=100/当該Fターム用の学習に用いた正例教師文献数
負例教師文献の正規化係数
=100/当該Fターム用の学習に用いた負例教師文献数
である。
Since the ratio between the number of positive example teacher documents and the number of negative example teacher documents differs for each F-term, the number of positive example teacher documents and the number of negative example teacher documents are normalized by the following equations.
Number of normalized documents = number of actual documents * normalization coefficient
Normalization coefficient of positive example teacher document = 100 / number of positive example teacher documents used for learning for the F term Negative item normalization coefficient = 100 / number of negative example teacher documents used for learning for the F term It is.
(2)教師文献の抽出
上記パラメータの指定が終了すると、推定用辞書作成装置100は教師文献抽出部112の制御の下で、教師文献の抽出処理を以下のように実行する。
すなわち、先ずステップS120において、上記パラメータとして指定された種用語をキーとして文献データベース200を検索し、当該種用語を含む文献をすべて抽出する。
(2) Extraction of Teacher Literature When the above parameter specification is completed, the estimation dictionary creating apparatus 100 executes the teacher literature extraction process as follows under the control of the teacher literature extraction unit 112.
That is, first, in step S120, the document database 200 is searched using the seed terms designated as the parameters as a key, and all documents including the seed terms are extracted.
続いてステップS130において、上記抽出された種用語を含む文献を、上記パラメータとして指定されたFタームをもとに、Fタームに対応する文献集合と対応しない文献集合とに分割する。そして、上記Fタームに対応する文献集合を正例教師文献集合とし、またFタームに対応しない文献集合を負例教師文献集合として教師文献記憶部121にそれぞれ記憶させる。 In step S130, the document including the extracted seed term is divided into a document set corresponding to the F term and a document set not corresponding to the F term specified as the parameter. Then, the document set corresponding to the F term is set as a positive example teacher document set, and the document set not corresponding to the F term is stored in the teacher document storage unit 121 as a negative example teacher document set.
また、このとき教師文献抽出部112は、Fタームごとの種用語、正例および負例の各教師文献の一覧データを作成し、これも教師文献記憶部121に記憶させる。図13に上記正例教師文献集合および負例教師文献集合の一覧データの一例を示す。 At this time, the teacher document extraction unit 112 creates seed data for each F term, and lists data of each of the positive and negative example teacher documents, and also stores them in the teacher document storage unit 121. FIG. 13 shows an example of the list data of the positive example teacher document set and the negative example teacher document set.
上記一覧データをコンソール端末200へ出力して表示させることで、オペレータは教師文献の抽出結果を種用語と関連付けて確認することができる。 By outputting the list data to the console terminal 200 and displaying it, the operator can check the extraction result of the teacher document in association with the seed term.
(3)基本要素候補の抽出
推定用辞書作成装置100は、次に基本要素候補抽出部113の制御の下、ステップS140において、上記正例および負例の各教師文献集合から基本要素の候補を抽出する処理を以下のように実行する。図9はその処理手順と処理内容を示すフローチャートである。
(3) Extraction of Basic Element Candidates The estimation dictionary creating apparatus 100 then selects basic element candidates from each of the positive example and negative example teacher document sets in step S140 under the control of the basic element candidate extraction unit 113. The extraction process is executed as follows. FIG. 9 is a flowchart showing the processing procedure and processing contents.
(3−1)句に着目した基本要素候補の抽出
基本要素候補抽出部113は、先ずステップS141において、基本要素候補の抽出を行う範囲として「句」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「句」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
(3-1) Extraction of Basic Element Candidate Focusing on Phrase First, in step S141, the basic element candidate extraction unit 113 sets “phrase” as a range for extracting a basic element candidate. Then, every time one document included in each teacher document set of positive examples and negative examples is read from the teacher document storage unit 121, a basic element candidate is extracted for each “phrase” and the extracted basics The element candidates are stored in the basic element candidate storage unit 122.
例えば、先ず種用語とその共起語との組み合わせからなる基本要素候補(以後2項の基本要素候補と称する)を抽出する。以下のその一例を示す。
・2項の基本要素候補;
<種用語,共起語11>、<種用語,共起語12>、…、<種用語,共起語1N>
次に、上記2項の基本要素候補と共起語との組み合わせからなる基本要素候補(以後3項の基本要素候補と称する)を抽出する。以下にその一例を示す。
・3項の基本要素候補;
<<種用語,共起語11>,共起語21>、<<種用語,共起語12>,共起語22>、…、<<種用語,共起語1N>,共起語2N>
以下同様に、「句」ごとに、種用語を起点として4項、5項、…の各基本要素の候補を抽出する処理を繰り返す。
For example, first, basic element candidates (hereinafter referred to as two basic element candidates) consisting of combinations of seed terms and co-occurrence words are extracted. The following is an example.
-Basic element candidates in Section 2;
<Seed term, co-occurrence word 11>, <seed term, co-occurrence word 12>, ..., <seed term, co-occurrence word 1N>
Next, basic element candidates (hereinafter referred to as basic element candidates in 3 terms) composed of combinations of basic element candidates in 2 terms and co-occurrence words are extracted. An example is shown below.
・ Basic element candidates in Section 3;
<<< species term, co-occurrence word 11>, co-occurrence word 21>, <<< species term, co-occurrence word 12>, co-occurrence word 22>, ..., <<< species term, co-occurrence word 1N>, co-occurrence word 2N>
Similarly, for each “phrase”, the process of extracting the candidates for the basic elements of the fourth, fifth,.
また、上記「句」ごとの基本要素候補の抽出処理中に、基本要素候補抽出部113はステップS142において抽出条件を満たしたか否かを監視する。抽出条件としては、例えば、
(1) 抽出した基本要素候補の精度および再現率が、パラメータとして事前に設定された精度および再現率の最低値以下
(2) 抽出した基本要素候補にさらに共起語を追加しても、つまりさらに項数を増やしても、当該基本要素候補の精度が一定値以上向上しない
が定義される。なお、精度および再現率は、先に述べたように正規化した正例および負例文献数をもとに計算される。
そして、上記各条件のいずれか一方を満たすと、基本要素候補抽出部113はその時点で「句」ごとの基本要素候補の抽出処理を終了する。
Further, during the basic element candidate extraction process for each “phrase”, the basic element candidate extraction unit 113 monitors whether or not the extraction condition is satisfied in step S142. As an extraction condition, for example,
(1) The accuracy and recall of the extracted basic element candidates are less than the minimum precision and recall that were set in advance as parameters
(2) It is defined that even if a co-occurrence word is further added to the extracted basic element candidates, that is, even if the number of terms is further increased, the accuracy of the basic element candidates does not improve beyond a certain value. Note that the accuracy and recall are calculated based on the numbers of positive and negative example documents normalized as described above.
When either one of the above conditions is satisfied, the basic element candidate extraction unit 113 ends the basic element candidate extraction process for each “phrase” at that time.
(3−2)文章に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS143において、基本要素候補の抽出を行う範囲として、上記句を含む「文章」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「文章」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
(3-2) Extraction of Basic Element Candidate Focusing on Sentence In step S143, the basic element candidate extracting unit 113 next sets “sentence” including the above phrase as a range for extracting the basic element candidate. Each time a document included in each of the positive and negative teacher document sets is read from the teacher document storage unit 121, basic element candidates are extracted for each “sentence” and the extracted basics The element candidates are stored in the basic element candidate storage unit 122.
この文章ごとの基本要素候補の抽出処理も、「句」の場合と同様に2項、3項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を1つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・2項の基本要素候補;
{種用語,共起語11}、{種用語,共起語12}、…、{種用語,共起語1N}
・3項の基本要素候補;
{種用語,<種用語,共起語11>,共起語21}、{種用語,<種用語,共起語12>,共起語22}、…、{種用語,<種用語,共起語1N>,共起語2N}。
In the extraction process of basic element candidates for each sentence, the number of combination terms of basic elements or basic elements and co-occurrence words is increased by one as in the case of “phrase”, such as two terms, three terms,. Execute repeatedly. The following is an example.
-Basic element candidates in Section 2;
{Seed term, co-occurrence word 11}, {Seed term, co-occurrence word 12}, ..., {Seed term, co-occurrence word 1N}
・ Basic element candidates in Section 3;
{Seed term, <seed term, co-occurrence word 11>, co-occurrence word 21}, {seed term, <seed term, co-occurrence word 12>, co-occurrence word 22}, ..., {seed term, <seed term, Co-occurrence word 1N>, co-occurrence word 2N}.
また、この「文章」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部113はステップS144において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「文章」ごとの基本要素候補の抽出処理を終了する。 Even during the extraction process of basic element candidates for each “sentence”, the basic element candidate extraction unit 113 monitors whether or not the extraction condition is satisfied in step S144. The extraction conditions shown in (1) and (2) above are used. If the extraction condition is satisfied, the basic element candidate extraction unit 113 ends the extraction process of the basic element candidate for each “text” at that time.
(3−3)段落に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS145において、基本要素候補の抽出を行う範囲として、上記句および文章を含む「段落」を設定する。そして、上記教師文献記憶部121から正例および負例の各教師文献集合に含まれる文献を1件読み出すごとに、上記「段落」ごとに基本要素の候補の抽出処理を行い、抽出された基本要素候補を基本要素候補記憶部122に記憶させる。
(3-3) Extraction of Basic Element Candidate Focusing on Paragraph In step S145, the basic element candidate extraction unit 113 sets a “paragraph” including the above phrase and sentence as a range for extracting the basic element candidate. . Then, every time one document included in each teacher document set of positive examples and negative examples is read from the teacher document storage unit 121, a basic element candidate is extracted for each “paragraph” and extracted basic The element candidates are stored in the basic element candidate storage unit 122.
この文章ごとの基本要素候補の抽出処理も、上記「句」や「文章」の場合と同様に2項、3項、…というように基本要素同士または基本要素と共起語との組み合わせ項数を1つずつ増やしながら繰り返し実行する。以下のその一例を示す。
・2項の基本要素候補;
[{種用語,共起語11},共起語d11]、[{種用語,共起語12},共起語d12]、…、[{種用語,共起語1N,共起語d1N]}
・3項の基本要素候補;
[{種用語,共起語11},<種用語,共起語11>,共起語d21]、[{種用語,共起語12},<種用語,共起語12>,共起語d22]、…、[{種用語,共起語1N},<種用語,共起語1N>,共起語d2N]。
The basic element candidate extraction process for each sentence is the same as in the case of “phrase” and “sentence” above, the number of combined terms of basic elements and basic elements and co-occurrence words such as two terms, three terms,. Repeatedly incrementing by one. The following is an example.
-Basic element candidates in Section 2;
[{Seed term, co-occurrence word 11}, co-occurrence word d11], [{seed term, co-occurrence word 12}, co-occurrence word d12], ..., {{seed term, co-occurrence word 1N, co-occurrence word d1N ]}
・ Basic element candidates in Section 3;
[{Species term, co-occurrence word 11}, <seed term, co-occurrence word 11>, co-occurrence word d21], [{seed term, co-occurrence word 12}, <seed term, co-occurrence word 12>, co-occurrence Word d22], ..., [{species term, co-occurrence word 1N}, <seed term, co-occurrence word 1N>, co-occurrence word d2N].
また、この「段落」ごとの基本要素候補の抽出処理中においても、基本要素候補抽出部113はステップS146において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「段落」ごとの基本要素候補の抽出処理を終了する。 Even during the extraction process of basic element candidates for each “paragraph”, the basic element candidate extraction unit 113 monitors whether or not the extraction condition is satisfied in step S146. The extraction conditions shown in (1) and (2) above are used. If the extraction condition is satisfied, the basic element candidate extraction unit 113 ends the extraction process of the basic element candidate for each “paragraph” at that time.
(3−4)文献全体に着目した基本要素候補の抽出
基本要素候補抽出部113は、次にステップS147において、種用語あるいは上記「文章」ごとに抽出された基本要素候補を起点として、異なる段落から共起語を抽出する。そして、上記種用語あるいは「文章」ごとに抽出された基本要素候補と、上記異なる段落から抽出した共起語とを、積形式で組み合わせた基本要素候補を作成する。以下にその一例を示す。
種用語*共起語N1
{種用語,共起語11}*共起語N1。
(3-4) Extraction of Basic Element Candidate Focusing on Entire Document The basic element candidate extracting unit 113 next starts with a basic element candidate extracted for each kind term or each “sentence” in step S147 as a different paragraph. Extract co-occurrence words from Then, a basic element candidate is created by combining the basic element candidate extracted for each seed term or “sentence” and the co-occurrence word extracted from the different paragraphs in a product format. An example is shown below.
Species * Co-occurrence word N1
{Seed term, co-occurrence word 11} * Co-occurrence word N1.
そして、この「積形式」の基本要素候補の作成処理中においても、基本要素候補抽出部113はステップS148において抽出条件を満たしたか否かを監視する。抽出条件は、先に(1) および(2) に示したものが用いられる。そして、上記抽出条件を満たすと、基本要素候補抽出部113はその時点で「積形式」の基本要素候補の作成処理を終了する。 Even during the process of creating the “product format” basic element candidate, the basic element candidate extraction unit 113 monitors whether or not the extraction condition is satisfied in step S148. The extraction conditions shown in (1) and (2) above are used. If the extraction condition is satisfied, the basic element candidate extraction unit 113 ends the process of creating the “product format” basic element candidate at that time.
図15は、以上述べた抽出処理により作成された基本要素候補の一例を示すものである。同図に示すように、抽出された各基本要素候補は、基本要素ID、基本要素種別および項数と関連付けられた状態で、基本要素候補記憶部122に格納される。また、各基本要素候補には、精度、再現率、F値、出現する正例および負例の各教師文献数が関連付けられて記憶される。F値は、精度と再現率との完全一致の度合い(調和平均)を示す値であり、(2×精度×再現率)/(精度+再現率)なる式で計算される。なお、図15では理解を助けるため、精度および再現率の高い順にソートした状態を示している。 FIG. 15 shows an example of basic element candidates created by the extraction process described above. As shown in the figure, each extracted basic element candidate is stored in the basic element candidate storage unit 122 in a state associated with the basic element ID, the basic element type, and the number of terms. Also, each basic element candidate is stored in association with accuracy, recall, F value, and the number of positive and negative teacher documents that appear. The F value is a value indicating the degree of perfect match between the accuracy and the recall (harmonic average), and is calculated by the formula of (2 × accuracy × reproducibility) / (accuracy + reproducibility). Note that FIG. 15 shows a state of sorting in descending order of accuracy and recall to aid understanding.
(4)推定用辞書を作成する上で有効な基本要素の選択
上記基本要素候補抽出部113により抽出された基本要素候補群は、種用語を手がかりに、精度および再現率がいずれも閾値(許容可能な最低値)を超える基本要素を、教師文献から網羅的に抽出したものである。このため、抽出した基本要素候補群には、推定用辞書データを作成する上で有効な基本要素候補が必ず含まれている。また、このとき教師文献集合には、上記抽出した基本要素候補以外の基本要素候補は残っていないといえる。
(4) Selection of effective basic elements for creating an estimation dictionary The basic element candidate group extracted by the basic element candidate extraction unit 113 is a threshold (allowable) for both accuracy and recall based on seed terms. Basic elements exceeding the lowest possible value are comprehensively extracted from the teacher literature. For this reason, the extracted basic element candidate group always includes basic element candidates that are effective in creating the dictionary data for estimation. At this time, it can be said that there are no basic element candidates other than the extracted basic element candidates remaining in the teacher document set.
しかしながら、上記抽出した基本要素候補群の中には、同一の教師文献に出現する複数の基本要素候補が重複して含まれている。推定用辞書データを作成する場合、正例教師文献集合に含まれるできる限り多くの文献(理想的には全文献)に出現し、かつ負例教師文献集合に含まれる文献にはできる限り出現しない(理想的にはゼロ)、最小個数の基本要素候補を選択する必要がある。 However, the extracted basic element candidate group includes a plurality of basic element candidates appearing in the same teacher document. When creating the estimation dictionary data, it appears in as many documents as possible (ideally all documents) included in the positive example teacher document set, and does not appear as much as possible in documents included in the negative example teacher document set. It is necessary to select the minimum number of basic element candidates (ideally zero).
そこで、推定用辞書作成装置100は、次にステップS150において、有効基本要素選択部114の制御の下、上記基本要素候補抽出部113により抽出された基本要素候補群から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。図10はその処理手順と処理内容を示すフローチャートである。 Therefore, the estimation dictionary creating device 100 creates estimation dictionary data from the basic element candidate group extracted by the basic element candidate extraction unit 113 under the control of the effective basic element selection unit 114 in step S150. The process of selecting a valid basic element is performed as follows. FIG. 10 is a flowchart showing the processing procedure and processing contents.
すなわち、有効基本要素選択部114は、先ずステップS151において、上記基本要素候補抽出部113により抽出された基本要素候補群に含まれる各基本要素候補について精度を計算し、計算した精度が高い順に、上記各基本要素候補をソートする。 That is, first, in step S151, the effective basic element selection unit 114 calculates the accuracy for each basic element candidate included in the basic element candidate group extracted by the basic element candidate extraction unit 113. Sort each basic element candidate above.
有効基本要素選択部114は、次にステップS152により、上記ソートされた基本要素候補群から精度および再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第1の基本要素として基本要素記憶部123に格納する。 Next, in step S152, the effective basic element selection unit 114 selects one basic element candidate having the highest accuracy and recall from the sorted basic element candidate group, and selects the selected basic element candidate as an estimation dictionary. Is stored in the basic element storage unit 123 as the first basic element that is most effective in creating the.
有効基本要素選択部114は、次にステップS153により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について精度を計算し直す。そして、この計算し直した精度が高い順に、上記残りの基本要素候補をソートし直す。 Next, in step S153, the valid basic element selection unit 114 excludes each of the positive example and negative example teacher documents in which the selected basic element appears, and selects the selected basic element for the remaining teacher document set. The accuracy is recalculated for each remaining basic element candidate excluded. Then, the remaining basic element candidates are sorted again in descending order of the recalculated accuracy.
有効基本要素選択部114は、ステップS154において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。 In step S154, the valid basic element selection unit 114 determines whether a preset selection end condition is satisfied. For example, the end of selection is determined based on whether or not all the target positive example documents remain. Note that the selection end may be determined based on whether or not the basic element candidates remain.
上記ステップS154の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部114はステップS152に戻る。そして、上記ソートし直された基本要素候補群の中から精度が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を推定用辞書を作成する上で2番目に有効性の高い基本要素として基本要素記憶部123に格納する。 If it is determined in step S154 that there is still a target positive example document and an unselected basic element remains, the effective basic element selection unit 114 returns to step S152. Then, one of the basic element candidates with the highest accuracy is selected from the re-sorted basic element candidate group, and this selected basic element candidate is the second most effective in creating an estimation dictionary. The basic element is stored in the basic element storage unit 123.
以後同様に、有効基本要素選択部114は上記ステップS152〜S154による処理を繰り返し実行し、これによりその都度計算し直された精度の高い順に基本要素を選択し、この順次選択された基本要素を有効性が3番目、4番目、…に高い基本要素として基本要素記憶部123に格納する。 Thereafter, in the same manner, the effective basic element selection unit 114 repeatedly executes the processes in steps S152 to S154, thereby selecting the basic elements in the order of accuracy calculated again each time, and selecting the sequentially selected basic elements. The basic element is stored in the basic element storage unit 123 as the basic element having the third, fourth,.
そして、ステップS154において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部114は推定用辞書データの作成に用いる基本要素の選択処理を終了する。 In step S154, when it is determined that all of the target positive example documents remain, or that the basic element candidates remain, the effective basic element selection unit 114 uses the basic data used to create the estimation dictionary data. The element selection process ends.
次に、推定用辞書作成装置100は、精度が高いものとして選択された基本要素の集合から、推定用辞書データを作成する上で有効な基本要素を選択する処理を、以下のように実行する。図11はその処理手順と処理内容を示すフローチャートである。 Next, the estimation dictionary creating apparatus 100 executes a process of selecting a basic element effective in creating the estimation dictionary data from the set of basic elements selected as having high accuracy as follows. . FIG. 11 is a flowchart showing the processing procedure and processing contents.
有効基本要素選択部114は、先ずステップS155において、精度が高いものとして選択された基本要素の集合を、再現率が高い順に、上記各基本要素候補をソートする。図15はこのソート後の基本要素候補の一例を示す。 First, in step S155, the valid basic element selection unit 114 sorts the basic element candidates in the descending order of the recall rate from the set of basic elements selected as having high accuracy. FIG. 15 shows an example of basic element candidates after sorting.
有効基本要素選択部114は、次にステップS156により、上記ソートされた基本要素候補群から再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を、推定用辞書を作成する上で最も有効性の高い第1の基本要素として基本要素記憶部123に格納する。 Next, in step S156, the valid basic element selection unit 114 selects one basic element candidate with the highest recall from the sorted basic element candidate group, and creates an estimation dictionary for the selected basic element candidate. In the basic element storage unit 123, the first basic element having the highest effectiveness is stored.
有効基本要素選択部114は、次にステップS157により、上記選択した基本要素が出現する正例および負例の各教師文献を除外し、残った教師文献集合を対象に、上記選択した基本要素を除いた残りの各基本要素候補について再現率を計算し直す。そして、この計算し直した再現率が高い順に、上記残りの基本要素候補をソートし直す。 Next, in step S157, the valid basic element selection unit 114 excludes each of the positive example and negative example teacher documents in which the selected basic element appears, and selects the selected basic element for the remaining teacher document set. Recalculate the recall for each remaining basic element candidate. Then, the remaining basic element candidates are re-sorted in descending order of the re-calculated recall rate.
有効基本要素選択部114は、ステップS158において、予め設定された選択終了の条件を満たしたか否かを判定する。例えば、対象となるすべての正例文献の残りがなくなったか否かにより選択終了を判定する。なお、基本要素候補の残りがなくなったか否かにより選択終了を判定しても良い。 In step S158, the valid basic element selection unit 114 determines whether a preset selection end condition is satisfied. For example, the end of selection is determined based on whether or not all the target positive example documents remain. Note that the selection end may be determined based on whether or not the basic element candidates remain.
上記ステップS158の判定において、まだ対象となる正例文献が残っており、かつ未選択の基本要素が残っていれば、有効基本要素選択部114はステップS156に戻る。そして、上記ソートし直された基本要素候補群の中から再現率が最も高い基本要素候補を1つ選択し、この選択した基本要素候補を推定用辞書を作成する上で2番目に有効性の高い基本要素として基本要素記憶部123に格納する。 If it is determined in step S158 that there is still a target positive example document and an unselected basic element remains, the effective basic element selection unit 114 returns to step S156. Then, one basic element candidate with the highest recall is selected from the re-sorted basic element candidate group, and the selected basic element candidate is the second most effective in creating the estimation dictionary. The basic element is stored in the basic element storage unit 123 as a high basic element.
以後同様に、有効基本要素選択部114は上記ステップS156〜S158による処理を繰り返し実行し、これによりその都度計算し直された再現率の高い順に基本要素を選択し、この順次選択された基本要素を有効性が3番目、4番目、…に高い基本要素として基本要素記憶部123に格納する。 Thereafter, in the same manner, the effective basic element selection unit 114 repeatedly executes the processes in steps S156 to S158, thereby selecting the basic elements in the descending order of reproducibility calculated each time, and sequentially selecting the basic elements. Are stored in the basic element storage unit 123 as basic elements having the third, fourth,.
そして、ステップS158において、対象となるすべての正例文献の残りがなくなるか、または基本要素候補の残りがなくなったと判定されると、有効基本要素選択部114は推定用辞書データの作成に用いる基本要素の選択処理を終了する。 In step S158, when it is determined that there is no remaining target document or no remaining basic element candidates, the effective basic element selection unit 114 uses the basic data used to create the estimation dictionary data. The element selection process ends.
図16は、図15に示した基本要素候補群の中から、上記基本要素選択処理により選択された基本要素の一例を示すものである。同図において、「精度」、「再現率」、「F値」、「正例文献数」、「負例文献数」は、選択処理を開始する前、つまりステップS151によりソートされた直後の基本要素候補群の値を示す。これに対し、「再計算精度」、「再計算再現率」、「再計算F値」、「再計算正例文献数」、「再計算負例文献数」は、再計算後の値を示す。 FIG. 16 shows an example of the basic element selected by the basic element selection process from the basic element candidate group shown in FIG. In the figure, “accuracy”, “reproducibility”, “F value”, “number of positive example documents”, and “number of negative example documents” are the basics before starting the selection process, that is, immediately after sorting in step S151. Indicates the value of the element candidate group. On the other hand, “recalculation accuracy”, “recalculation recall”, “recalculation F value”, “number of recalculated positive example documents”, and “number of recalculated negative example documents” indicate values after recalculation. .
上記した基本要素の選択処理では、上記「再計算精度」を第1優先順位、「再計算再現率」を第2優先順位、再計算前の「精度」を第3優先順位として、基本要素候補の選択を行う。なお、精度の閾値として設定される精度の最低値は「0.950」、基本要素の選択数の最大値は「200」に設定する。 In the basic element selection process described above, basic element candidates are set with the “recalculation accuracy” as the first priority, the “recalculation recall” as the second priority, and the “accuracy” before the recalculation as the third priority. Make a selection. The minimum accuracy value set as the accuracy threshold is set to “0.950”, and the maximum number of basic element selections is set to “200”.
図14は、以上述べた有効な基本要素選択処理の概要を示すものである。同図において、50は正例文献集合を示す。同図では、1回目に選択された第1の基本要素により多数の正例文献が検索され、その後精度および再現率が再計算されるごとに選択された第2の基本要素、第3の基本要素、第4の基本要素により、正例文献集合のうち残った文献が順次検索される様子を示している。このように選択処理を実行することで、複数の基本要素が同一の正例文献に対し重複することを少なくすることができ、これにより必要十分な数の基本要素のみを選択することが可能となる。 FIG. 14 shows an outline of the effective basic element selection process described above. In the figure, 50 indicates a positive document set. In the figure, the second basic element and the third basic element selected each time a large number of positive example documents are searched using the first basic element selected for the first time and then the accuracy and recall are recalculated. The remaining documents in the positive example document set are sequentially searched by the element and the fourth basic element. By executing the selection process in this way, it is possible to reduce the duplication of a plurality of basic elements for the same positive example document, and it is possible to select only a necessary and sufficient number of basic elements. Become.
(5)推定用辞書データの作成
推定用辞書作成装置100は、次にステップS160において、推定用辞書データ作成部115の制御の下、上記基本要素記憶部123に記憶された基本要素をもとに、ブール代数により表される文意式を作成する。そして、この作成した文意式を推定用辞書データとして、ステップS170により入出力インタフェースユニット130から推定装置3へ転送する。なお、文意式の構成については、実施例1で説明したものと同一なので、ここでの説明は省略する。
(5) Creation of Estimation Dictionary Data Next, in step S160, the estimation dictionary creation apparatus 100 is based on the basic elements stored in the basic element storage unit 123 under the control of the estimation dictionary data creation unit 115. Next, create a lexical expression represented by a Boolean algebra. Then, the created sentence meaning is transferred as estimation dictionary data from the input / output interface unit 130 to the estimation device 3 in step S170. In addition, since the configuration of the textual expression is the same as that described in the first embodiment, the description thereof is omitted here.
(効果)
以上詳述したように実施例4では、推定用辞書作成装置100において、辞書の作成対象となる分野を表すコードと上記分野の特徴を表す種用語に基づいて文献データベース300から正例教師文献集合と負例教師文献集合を抽出し、この正例および負例の各教師文献集合から上記種用語とその共起語を含む用語の組み合わせからなる基本要素候補群を抽出し、抽出された基本要素候補群の中から、精度と再現率をもとに、正例教師文献集合に含まれるできる限り多くの文献に出現しかつ負例教師文献集合に含まれる文献にはできる限り出現しない最小個数の基本要素候補を選択し、選択された基本要素候補をもとに文意式を作成してこれを推定用辞書データとするようにしている。
(effect)
As described in detail above, in the fourth embodiment, in the estimation dictionary creation apparatus 100, based on a code representing a field for which a dictionary is to be created and a seed term representing a feature of the field, a set of positive teacher document sets from the document database 300 And a negative example teacher document set, a basic element candidate group consisting of a combination of the above-mentioned terminology and a term including its co-occurrence word is extracted from each of the positive example and negative example teacher document sets, and the extracted basic element From the candidate group, based on accuracy and recall, the smallest number that appears in as many documents as possible in the positive example teacher document set and does not appear in the negative example teacher document set as much as possible. A basic element candidate is selected, a grammatical expression is created based on the selected basic element candidate, and this is used as dictionary data for estimation.
従って、推定用辞書データを自動的に作成することができるようになり、これにより人が手作業で推定用辞書を作成する必要がなくなって、人の作業負荷を大幅に軽減し、かつ文献解析装置の早期の運用開始を実現することができる。 Therefore, it is possible to automatically create estimation dictionary data, which eliminates the need for a person to manually create an estimation dictionary, greatly reduces human workload, and analyzes documents. Early operation start of the device can be realized.
また、教師文献の句、文章、段落および文献全体からそれぞれ基本要素候補を抽出するようにしているので、基本要素候補を漏れなく抽出することが可能となる。またその際に、基本要素候補の抽出を精度および再現率の各閾値を超えるものに限るようにしているので、基本要素候補の数を効果的に制限することができ、これにより推定用辞書データの作成に要する装置の処理負荷を軽減しかつ処理時間を短縮することが可能となる。 In addition, since the basic element candidates are extracted from the phrases, sentences, paragraphs, and the entire document of the teacher document, it is possible to extract the basic element candidates without omission. At that time, since the extraction of basic element candidates is limited to those that exceed the threshold values of accuracy and recall, the number of basic element candidates can be effectively limited. It is possible to reduce the processing load on the apparatus required to create the image and to shorten the processing time.
さらに、上記基本要素候補の中から有効な基本要素を選択する際に、基本要素を1つ選択するごとに精度および再現率が再計算され、この再計算された精度および再現率をもとに次の基本要素が選択される。このため、推定用辞書データを作成する上で必要な基本要素を、重複や不足を生じることなく効果的に選択することが可能となる。 In addition, when selecting an effective basic element from the basic element candidates, the accuracy and recall are recalculated each time one basic element is selected. Based on the recalculated accuracy and recall, The next basic element is selected. For this reason, it becomes possible to effectively select the basic elements necessary for creating the estimation dictionary data without causing duplication or deficiency.
[その他の実施例]
実施例4では、基本要素候補の抽出を、「句」、「文章」、「段落」、「文献」ごとに行ったが、このうち「句」は省略しても良い。「句」を省略することで、基本要素候補を選択する処理に要する装置の処理負荷および処理時間を大幅に軽減および短縮することができる。また、抽出される基本要素候補の数を減らすことで、有効な基本要素の選択処理の負荷および処理時間も減らすことができる。
[Other Examples]
In the fourth embodiment, basic element candidates are extracted for each “phrase”, “sentence”, “paragraph”, and “document”, but “phrase” may be omitted. By omitting the “phrase”, it is possible to greatly reduce and shorten the processing load and processing time of the apparatus required for the process of selecting basic element candidates. Also, by reducing the number of extracted basic element candidates, it is possible to reduce the load and processing time for selecting effective basic elements.
この発明は、上記各実施例に限定されるものではなく、例えば、推定用辞書作成装置、文献用語表生成装置および推定装置の機能構成と、その処理手順および処理内容についても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。 The present invention is not limited to the above-described embodiments. For example, the functional configuration of the estimation dictionary creation device, the literature term table generation device, and the estimation device, the processing procedure, and the processing content of the invention are also summarized. Various modifications can be made without departing from the scope of the present invention.
また、上記各実施例に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例に亘る構成要素を適宜組み合せてもよい。 Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, the constituent elements in different embodiments may be appropriately combined.
1,100…推定用辞書作成装置、1A…推定用辞書エディタ、2…文献用語表生成装置、3…推定装置、2A…文意フィルタ部、3A…推定エンジン、3B…差異抽出ツール、110…制御ユニット、120…記憶ユニット、130…入出力インタフェースユニット、111…パラメータ取得制御部、112…教師文献抽出部、113…基本要素候補抽出部、114…有効基本要素選択部、115…推定用辞書データ作成部、121…教師文献記憶部、122…基本要素候補記憶部、123…基本要素記憶部、200…コンソール端末、300…文献データベース。 DESCRIPTION OF SYMBOLS 1,100 ... Estimation dictionary creation apparatus, 1A ... Estimation dictionary editor, 2 ... Literature term table generation apparatus, 3 ... Estimation apparatus, 2A ... Meaning filter part, 3A ... Estimation engine, 3B ... Difference extraction tool, 110 ... Control unit, 120 ... storage unit, 130 ... input / output interface unit, 111 ... parameter acquisition control unit, 112 ... teacher document extraction unit, 113 ... basic element candidate extraction unit, 114 ... effective basic element selection unit, 115 ... estimation dictionary Data creation part 121 ... Teacher document storage part 122 ... Basic element candidate storage part 123 ... Basic element storage part 200 ... Console terminal 300 ... Document database
Claims (17)
検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして記憶する文献用語記憶部と、
前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算するスコア計算手段と、
前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する判定手段と
を具備する文献解析装置。 An estimation dictionary storage unit that stores search conditions as estimation dictionary data described by a lexical expression including basic elements in each range divided as a unit of a predetermined range that is delimited as a semantic expression;
Document terms that are stored as document term data for each range obtained by decomposing the document data related to the document to be searched into word units and generating a term based on the term as a unit of a predetermined range that is delimited as a semantic expression A storage unit;
A predetermined range in which a sentence expression included in the estimation dictionary data stored in the estimation dictionary storage unit and a term included in the document term data stored in the document term storage unit are separated as semantic expressions A score calculation means for comparing each of the ranges separated by the unit and calculating a score representing the similarity,
A document analysis apparatus comprising: a determination unit that determines whether or not the document to be searched is a document that satisfies the search condition based on the calculated score.
前記複合化基本要素は、文章の基本要素に対しては用語と1つあるいは複数個の句の基本要素を含み、段落の基本要素に対しては用語と1つあるいは複数個の文章の基本要素あるいは句の基本要素を含み、
前記スコア計算手段は、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式と、前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記検索対象の文献の句、文章および段落ごとに、その範囲に含まれる用語群と、前記複合化基本要素を含む文意式とを比較し、その一致頻度に基づき前記スコアを計算する請求項2に記載の文献解析装置。 The estimation dictionary data includes, in a sentence expression, a composite basic element obtained by hierarchically combining basic elements defined in each of the phrase, sentence, and paragraph,
The compound basic element includes a term and one or more phrase basic elements for a sentence basic element, and a term and one or more sentence basic elements for a paragraph basic element. Or contains the basic elements of the phrase,
The score calculation means is for comparing a sentence meaning included in the estimation dictionary data stored in the estimation dictionary storage unit and a term included in the document term data stored in the document term storage unit. And for each phrase, sentence, and paragraph of the document to be searched, a term group included in the range is compared with a sentence expression including the composite basic element, and the score is calculated based on the matching frequency. Item 3. The document analysis apparatus according to Item 2.
前記スコア計算手段は、前記推定用辞書記憶部に記憶された推定用辞書データに含まれる文意式、と前記文献用語記憶部に記憶された文献用語データに含まれる用語とを比較する際に、前記統制語により同義語として定義された複数の用語と文献用語データとを比較し、この際に同義語として定義された用語のいずれか1つが文献用語データ中に含まれていれば比較一致の条件に該当すると判定する、請求項1乃至3のいずれかに記載の文献解析装置。 The estimation dictionary data defines a controlled word that is a generic term for a plurality of terms having the same meaning, and describes the grammatical expression using the controlled word,
The score calculation means is for comparing a sentence meaning included in the estimation dictionary data stored in the estimation dictionary storage unit and a term included in the document term data stored in the document term storage unit. , Comparing a plurality of terms defined as synonyms by the controlled word with the literature term data, and if any one of the terms defined as synonyms is included in the literature term data The document analysis apparatus according to claim 1, wherein the document analysis apparatus determines that the condition is satisfied.
前記検索対象の文献の検索対象範囲を意味表現としてまとまりを持つ第1の範囲を単位として複数の範囲に分割し、これら分割された各範囲のそれぞれについて、当該範囲に含まれる用語群と前記文意式との一致頻度に基づき第1のスコアを計算する第1の計算手段と、
前記検索対象の文献の検索対象範囲のうち、前記第1の範囲より広い第2の範囲について、当該第2の範囲に含まれる用語群と前記文意式との一致頻度に基づき第2のスコアを計算する第2の計算手段と、
前記計算された第1のスコアと前記計算された第2のスコアとをもとに、前記推定用辞書データと前記検索対象の文献との類似度を表すスコアを計算する第3の計算手段と
を備える請求項1乃至4のいずれかに記載の文献解析装置。 The score calculation means includes
The search target range of the search target document is divided into a plurality of ranges in units of a first range having a group as a semantic expression, and each of the divided ranges includes the term group and the sentence included in the range. First calculating means for calculating a first score based on the coincidence frequency with the intention;
A second score based on the matching frequency between a term group included in the second range and the grammatical formula for a second range wider than the first range in the search target range of the search target document. A second calculating means for calculating
Third calculating means for calculating a score representing a degree of similarity between the estimation dictionary data and the document to be searched based on the calculated first score and the calculated second score; The document analysis device according to claim 1, comprising:
前記判定手段は、前記検索対象の文献が前記分類コードの付与条件を満たす文献であると判定された場合に、当該分類コードを前記検索対象の文献に対し付与するものである請求項1乃至6のいずれかに記載の文献解析装置。 The estimation dictionary data consists of a classification code assignment condition described by a sentence expression,
7. The determination unit, when it is determined that the document to be searched is a document satisfying the condition for assigning the classification code, the classification code is assigned to the document to be searched. The literature analysis apparatus in any one of.
前記判定手段は、前記検索対象の文献が前記類似文献のサーチ条件を満たす文献であると判定された場合に、前記検索対象の文献を類似文献として選択するものである請求項1乃至6のいずれかに記載の文献解析装置。 The estimation dictionary data consists of a description of search conditions for similar documents in terms of grammatical expressions,
7. The determination unit according to claim 1, wherein the determination unit selects the search target document as a similar document when it is determined that the search target document is a document that satisfies the search condition of the similar document. Document analysis apparatus according to the above.
前記文献解析装置が、検索条件を、文献を意味表現として区切りがつく所定の単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データとして前記メモリに記憶させる過程と、
前記文献解析装置が、検索対象の文献に係る文書データを単語単位に分解してそれを基に生成した用語を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに文献用語データとして前記メモリに記憶させる過程と、
前記文献解析装置が、前記メモリに記憶された推定用辞書データに含まれる文意式と、前記メモリに記憶された文献用語データに含まれる用語とを、意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに比較し、その類似度を表すスコアを計算する過程と、
前記文献解析装置が、前記計算されたスコアに基づいて、前記検索対象の文献が前記検索条件を満たす文献か否かを判定する過程と
を具備する文献解析方法。 A literature analysis method performed by a literature analysis apparatus including a computer and a memory,
Storing the search condition in the memory as estimation dictionary data described by a lexical expression including a basic element in each range divided as a predetermined unit that is delimited as a semantic expression, the document analysis device;
The document terminology data for each range obtained by dividing the document data related to the document to be searched into word units by dividing the document data generated based on the document data into semantic units as a semantic range. And storing in the memory as
The document analysis device has a predetermined range in which a sentence meaning included in the dictionary data for estimation stored in the memory and a term included in the document term data stored in the memory are separated as semantic expressions. Comparing each range divided as a unit, calculating the score that represents the similarity,
A document analysis method comprising: a step of determining whether or not the document to be searched is a document satisfying the search condition based on the calculated score.
前記推定用辞書作成装置は、
前記推定用辞書データの作成対象となる分野ごとに定義されたコードと、前記分野の特徴を表す種用語の入力を受け付ける手段と、
文献データベースから、前記種用語を含みかつ前記コードに対応する文献群と、前記種用語を含みかつ前記コードに対応しない文献群とを、それぞれ正例教師文献群および負例教師文献群として抽出する教師文献抽出手段と、
前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも1つ含む語句の組み合わせを前記基本要素の候補として抽出する基本要素候補抽出手段と、
前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する基本要素選択手段と、
前記基本要素選択手段により選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、前記推定用辞書記憶部に記憶させる推定用辞書データ作成手段と
を備える請求項1記載の文献解析装置。 Further comprising an estimation dictionary creation device for creating the estimation dictionary data;
The estimation dictionary creation device includes:
A code defined for each field for which the estimation dictionary data is to be created, and means for receiving input of seed terms representing characteristics of the field;
A document group including the seed term and corresponding to the code and a document group including the seed term and not corresponding to the code are extracted from the document database as a positive example teacher document group and a negative example teacher document group, respectively. A teacher document extraction means;
From each of the documents included in each of the extracted positive example and negative example teacher document groups, for each range divided in units of a predetermined range where the document is delimited as a semantic expression, the seed term and its Basic element candidate extraction means for extracting a combination of words including at least one combination with a co-occurrence word as a candidate for the basic element;
Out of a plurality of basic element candidates extracted by the basic element candidate extracting means, basic element candidates that are included in the positive example teacher document group and that are not included in the negative example teacher document group have a threshold value or more. A basic element selection means to select;
An estimation dictionary data creation unit that creates a semantic expression representing the estimation dictionary data based on the basic element candidates selected by the basic element selection unit, and stores the estimation dictionary data in the estimation dictionary storage unit; Item 2. The document analysis apparatus according to item 1.
前記文献の意味表現として区切りがつく所定の範囲として少なくとも文章および段落を定義し、前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、前記文章ごとにおよび段落ごとに、前記種用語とその共起語との組み合わせを少なくとも1つ含む用語の組み合わせを前記基本要素の候補として抽出する第1の候補抽出手段と、
前記文章から抽出された基本要素と共起関係を有する共起語を、当該文章を含まない他の段落から抽出し、前記文章から抽出された基本要素の候補と前記他の段落から抽出された共起語との積形式の組み合わせを前記基本要素の候補に加える第2の候補抽出手段と
を有する請求項11記載の文献解析装置。 The basic element candidate extraction means includes:
Define at least sentences and paragraphs as a predetermined range that is delimited as a semantic expression of the documents, and for each sentence and paragraph from each of the documents included in each of the extracted positive and negative teacher document groups And a first candidate extracting means for extracting a combination of terms including at least one combination of the seed term and its co-occurrence word as a candidate for the basic element;
A co-occurrence word having a co-occurrence relationship with a basic element extracted from the sentence is extracted from another paragraph not including the sentence, and extracted from the basic element candidate and the other paragraph extracted from the sentence. The document analysis apparatus according to claim 11, further comprising: second candidate extraction means for adding a combination of product forms with co-occurrence words to the basic element candidates.
前記基本要素を含む正例教師文献数と負例教師文献数との合計に対する基本要素を含む正例教師文献数の割合を表す第1の精度および前記全正例教師文献数に対する基本要素を含む正例教師文献数の割合を表す第1の再現率の各々について予め設定された閾値を保持し、前記第1および第2の候補抽出手段が抽出する前記基本要素の候補を、前記第1の精度の閾値および前記第1の再現率の閾値を超える基本要素の候補に制限する抽出制限手段を、
さらに有する請求項12記載の文献解析装置。 The basic element candidate extraction means includes:
1st precision showing the ratio of the number of positive example teacher documents including the basic element to the sum of the number of positive example teacher documents including the basic element and the number of negative example teacher documents, and the basic element for the total number of positive example teacher documents A threshold set in advance for each of the first recall ratios representing the ratio of the number of positive example teacher documents is held, and the basic element candidates extracted by the first and second candidate extraction means are defined as the first candidate. Extraction limiting means for limiting to basic element candidates exceeding the accuracy threshold and the first recall threshold;
The document analysis apparatus according to claim 12, further comprising:
前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数と負例教師文献数との合計に対する前記基本要素の候補を含む正例教師文献数の割合を表す第2の精度と、前記教師文献抽出手段により抽出された全正例教師文献数に対する前記基本要素候補抽出手段により抽出された基本要素の候補を含む正例教師文献数の割合を示す第2の再現率とに基づいて、前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から推定用の基本要素を選択する請求項11に記載の文献解析装置。 The basic element selection means includes
A second ratio representing the ratio of the number of positive example teacher documents including the basic element candidates to the total number of positive example teacher documents including the basic element candidates extracted by the basic element candidate extraction unit ; A second reproduction ratio indicating accuracy and a ratio of the number of positive example teacher documents including the basic element candidates extracted by the basic element candidate extraction unit to the total number of positive example teacher documents extracted by the teacher document extraction unit; The document analysis apparatus according to claim 11, wherein a basic element for estimation is selected from a plurality of basic element candidates extracted by the basic element candidate extraction unit based on the basic element candidate extraction unit.
前記基本要素候補抽出手段により抽出された複数の基本要素の候補の中から、前記第2の精度および第2の再現率が最も高い基本要素の候補を推定用の基本要素として選択する第1の手段と、
前記推定用の基本要素の選択後に、前記教師文献抽出手段により抽出された前記正例教師文献群および負例教師文献群から前記推定用の基本要素を含む文献を除外し、残存する正例教師文献群および負例教師文献群を対象として、前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた各基本要素の候補について前記第2の精度および第2の再現率を再計算する第2の手段と、
前記基本要素候補抽出手段により抽出された複数の基本要素の候補のうち前記選択された推定用の基本要素を除いた全基本要素の候補の中から、前記再計算後の第2の精度および第2の再現率が最も高い基本要素の候補を推定用の基本要素として追加選択する第3の手段と、
前記第2の手段および前記第3の手段の処理を、前記残存する正例教師文献が所定数以下になるか、または前記選択された推定用の基本要素を除いた各基本要素の候補が所定数以下になるまで、繰り返し実行させる第4の手段と
を有する請求項14に記載の文献解析装置。 The basic element selection means includes
From among the candidates of a plurality of basic elements extracted by the primitive candidate extraction means, first selecting a candidate of the second precision and the second recall the highest basic elements as the basic element for estimation Means,
After the selection of the basic element for estimation, the positive example teacher remaining by excluding the reference including the basic element for estimation from the positive example teacher document group and the negative example teacher document group extracted by the teacher document extraction unit. as target document group and negative cases teacher document group, wherein for each candidate base element except the basic element for estimating said selected among the candidate of the basic elements candidate plurality of basic elements extracted by the extraction means the A second means for recalculating the accuracy of 2 and the second recall;
Among the plurality of basic element candidates extracted by the basic element candidate extracting means, out of all the basic element candidates excluding the selected basic element for estimation, the second accuracy after the recalculation and the second A third means for additionally selecting a basic element candidate having the highest recall rate of 2 as a basic element for estimation;
The processing of the second means and the third means is carried out in such a way that the number of remaining positive example teacher documents becomes a predetermined number or less, or candidates for each basic element excluding the selected basic element for estimation are predetermined. The document analysis apparatus according to claim 14 , further comprising: a fourth unit that is repeatedly executed until the number reaches a number or less.
前記推定用辞書データを作成する過程は、
前記推定用辞書データの作成対象となる分野ごとに定義されたコードと、前記分野の特徴を表す種用語の入力を受け付ける過程と、
文献データベースから、前記種用語を含みかつ前記コードに対応する文献群と、前記種用語を含みかつ前記コードに対応しない文献群とを、それぞれ正例教師文献群および負例教師文献群として抽出する過程と、
前記抽出された正例および負例の各教師文献群に含まれる各文献の各々から、当該文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲ごとに、前記種用語とその共起語との組み合わせを少なくとも1つ含む語句の組み合わせを前記基本要素の候補として抽出する過程と、
前記抽出された複数の基本要素の候補の中から、前記正例教師文献群に含まれかつ前記負例教師文献群に含まれない確率が閾値以上の基本要素の候補を選択する過程と、
前記選択された基本要素の候補をもとに前記推定用辞書データを表す文意式を作成し、メモリに記憶させる過程と
を備える請求項10に記載の文献解析方法。 The literature analysis device further comprises a step of creating the estimation dictionary data,
The process of creating the estimation dictionary data includes:
A code defined for each field for which the estimation dictionary data is to be created, and a process of accepting input of a seed term representing the characteristics of the field;
A document group including the seed term and corresponding to the code and a document group including the seed term and not corresponding to the code are extracted from the document database as a positive example teacher document group and a negative example teacher document group, respectively. Process,
From each of the documents included in each of the extracted positive example and negative example teacher document groups, for each range divided in units of a predetermined range where the document is delimited as a semantic expression, the seed term and its Extracting a combination of words including at least one combination with a co-occurrence word as a candidate for the basic element;
Selecting a candidate for a basic element that has a probability of being included in the positive example teacher document group and not included in the negative example teacher document group from a plurality of extracted basic element candidates;
The document analysis method according to claim 10, further comprising: creating a sentence expression representing the estimation dictionary data based on the selected basic element candidates and storing the sentence meaning expression in a memory.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016255405 | 2016-12-28 | ||
JP2016255405 | 2016-12-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017102976A JP2017102976A (en) | 2017-06-08 |
JP6181890B2 true JP6181890B2 (en) | 2017-08-16 |
Family
ID=59015522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017040713A Active JP6181890B2 (en) | 2016-12-28 | 2017-03-03 | Literature analysis apparatus, literature analysis method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6181890B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727428B (en) * | 2019-12-19 | 2020-05-15 | 杭州健戎潜渊科技有限公司 | Method and device for converting service logic layer codes and electronic equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143897A (en) * | 1997-11-10 | 1999-05-28 | Seiko Epson Corp | Method and device for information retrieval and storage medium for storing information retrieval processing program |
JP4389102B2 (en) * | 2002-10-08 | 2009-12-24 | 宍戸 広信 | Technical literature search system |
JP5156456B2 (en) * | 2008-03-31 | 2013-03-06 | 株式会社日立製作所 | Document evaluation support method and system |
JP5146108B2 (en) * | 2008-05-27 | 2013-02-20 | 日本電気株式会社 | Document importance calculation system, document importance calculation method, and program |
-
2017
- 2017-03-03 JP JP2017040713A patent/JP6181890B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017102976A (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222167B2 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
CN111444320B (en) | Text retrieval method and device, computer equipment and storage medium | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
JP6053131B2 (en) | Information processing apparatus, information processing method, and program | |
JP6260294B2 (en) | Information search device, information search method, and information search program | |
JP2011118872A (en) | Method and device for determining category of unregistered word | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
JP2007018389A (en) | Data retrieval apparatus, data retrieving method, data retrieval program, and computer readable recording medium | |
JP2006215717A (en) | System, method, and program for information retrieval | |
CN114141384A (en) | Method, apparatus and medium for retrieving medical data | |
JP2016110256A (en) | Information processing device and information processing program | |
JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program | |
KR102400689B1 (en) | Semantic relation learning device, semantic relation learning method, and semantic relation learning program | |
JPH11110409A (en) | Method for classifying information and device therefor | |
WO2020157887A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
WO2010103916A1 (en) | Device for presentation of characteristic words in document and program giving priority of characteristic words | |
CN113449063B (en) | Method and device for constructing document structure information retrieval library | |
JP2003263441A (en) | Keyword determination database preparing method, keyword determining method, device, program and recording medium | |
JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program | |
JP2005010848A (en) | Information retrieval device, information retrieval method, information retrieval program and recording medium | |
KR20210146832A (en) | Apparatus and method for extracting of topic keyword | |
CN113326348A (en) | Blog quality evaluation method and tool | |
JP4985096B2 (en) | Document analysis system, document analysis method, and computer program | |
JP4592556B2 (en) | Document search apparatus, document search method, and document search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170303 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20170328 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6181890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |