JP2007323454A - Document classification device and program - Google Patents

Document classification device and program Download PDF

Info

Publication number
JP2007323454A
JP2007323454A JP2006154126A JP2006154126A JP2007323454A JP 2007323454 A JP2007323454 A JP 2007323454A JP 2006154126 A JP2006154126 A JP 2006154126A JP 2006154126 A JP2006154126 A JP 2006154126A JP 2007323454 A JP2007323454 A JP 2007323454A
Authority
JP
Japan
Prior art keywords
document
classification
input
documents
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006154126A
Other languages
Japanese (ja)
Other versions
JP4931111B2 (en
Inventor
Maki Murata
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006154126A priority Critical patent/JP4931111B2/en
Publication of JP2007323454A publication Critical patent/JP2007323454A/en
Application granted granted Critical
Publication of JP4931111B2 publication Critical patent/JP4931111B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically apply classification to input documents. <P>SOLUTION: This document classification device comprises an input means 1 for inputting a document to be classified, a document similarity calculation means 3 for calculating the similarity of the input document with a document aggregate to which classification is previously applied by extracting a keyword, a document extraction means 2 for extracting a specified number of documents most similar to the input document from the document aggregate to which classification is previously applied, a score calculation means 4 for calculating the score of the classification of the extracted specified number of documents with the same classification number added with the similarity, and a classification aggregate extraction means 5 for extracting the classification where the calculated score is larger than the specified value. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その収集した文書群で出現頻度の大きい分類にその文書を分類する文書分類装置及びプログラムに関する発明である。本発明は特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを自動で決定する枠組みとなっている。   The present invention collects a document similar to a document to be classified by a BM25 or SMART method that is known with high accuracy in a search, and classifies the document into a category having a high appearance frequency in the collected document group, and It is an invention related to a program. In particular, the present invention deals with a multi-class classification problem in which multiple classifications are assigned to a single document, and automatically determines which classification among the classifications with a high appearance frequency is the classification of the document. It has become a framework.

従来、サポートベクトルマシン法や最大エントロピー法などの機械学習法を利用した、Multi-class の分類問題に関する研究(非特許文献1参照)では、効果的な方法があった。しかし、類似文書を収集し、それら文書を利用して、Multi-class の分類問題を扱う方法では、効果的な方法がなかった。特に特許分類では、文書数が多くサポートベクトルマシン法や最大エントロピー法などの機械学習法は利用しにくい問題もあった。
平博順、春野雅彦、Support Vector Machineによるテキスト分類における属性選択、情報処理学会論文誌、Vol.41, No.4, 2000, p.1113-1123 。
Conventionally, there has been an effective method in research on a multi-class classification problem using machine learning methods such as the support vector machine method and the maximum entropy method (see Non-Patent Document 1). However, there was no effective method for collecting similar documents and using them to handle the multi-class classification problem. In particular, patent classification has a problem that it is difficult to use machine learning methods such as support vector machine method and maximum entropy method because of the large number of documents.
Jun Hirahiro, Masahiko Haruno, Attribute Selection in Text Classification by Support Vector Machine, Journal of Information Processing Society, Vol.41, No.4, 2000, p.1113-1123.

上記従来の機械学習法を利用して分類する方法では、文書数が多く、しかも、一つの文書に複数の分類が付与されるものは、正確に分類を付与できるものではなかった。   In the conventional classification method using the machine learning method, a document having a large number of documents and a plurality of classifications assigned to one document cannot be accurately classified.

本発明は上記問題点の解決を図り、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを自動で決定することを目的とする。   The present invention solves the above-mentioned problems, handles a multi-class classification problem in which a plurality of classifications are given to a single document, and classifies the classification of the document as to which classification has a high appearance frequency. The purpose is to automatically decide what to do.

図1は本発明の文書分類装置の説明図である。図1中、1は入力部(入力手段)、2は文書抽出部(文書抽出手段)、3は文書類似度算出部(文書類似度算出手段)、4はスコア算出部(スコア算出手段)、5は分類集合抽出部(分類集合抽出手段)、6は出力部(出力手段)である。   FIG. 1 is an explanatory diagram of a document classification apparatus according to the present invention. In FIG. 1, 1 is an input unit (input unit), 2 is a document extraction unit (document extraction unit), 3 is a document similarity calculation unit (document similarity calculation unit), 4 is a score calculation unit (score calculation unit), Reference numeral 5 denotes a classification set extraction unit (classification set extraction unit), and reference numeral 6 denotes an output unit (output unit).

本発明は、前記従来の課題を解決するため次のような手段を有する。   The present invention has the following means in order to solve the conventional problems.

(1):分類する文書を入力する入力手段1と、前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段3と、前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段2と、前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出するスコア算出手段4と、前記算出したスコアが指定値より大きい分類を抽出する分類集合抽出手段5とを備える。このため、入力した文書に、自動で分類を付与することができる。   (1): an input unit 1 for inputting a document to be classified, a document similarity calculation unit 3 for extracting and calculating a similarity between the input document and a document set to which classification is given in advance, Document extraction means 2 for extracting a specified number of documents most similar to the input document from a document set to which classification is given in advance, and the specified number of documents extracted according to the number of the same classification in consideration of the similarity. Score calculating means 4 for calculating a score for classification, and classification set extracting means 5 for extracting a classification for which the calculated score is greater than a specified value. For this reason, classification can be automatically given to the input document.

(2):分類する文書を入力する入力手段1と、前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段3と、前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段2と、前記抽出した指定数の文書の分類が何個の文書に現れたかにより、前記分類のスコアを算出するスコア算出手段4と、前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付けられた平均の分類数分抽出する分類集合抽出手段5とを備える。このため、予め分類の付与された文書集合から抽出する文書の指定数を設定するだけで、入力した文書に、自動で分類を付与することができる。   (2): an input unit 1 for inputting a document to be classified, a document similarity calculation unit 3 for extracting and calculating a similarity between the input document and a document set to which classification is given in advance, Document extracting means 2 for extracting a specified number of documents most similar to the input document from a set of previously assigned documents, and how many documents the classification of the specified number of extracted documents appears in, Score calculating means 4 for calculating the score of the classification, and classification set extracting means 5 for extracting the average number of classifications attached to the extracted specified number of documents in the order of classification in which the calculated score is large. For this reason, it is possible to automatically assign a classification to an input document simply by setting a designated number of documents to be extracted from a document set to which a classification is assigned in advance.

(3):前記(1)又は(2)の文書分類装置において、前記抽出した複数の文書の分類の技術的観点を二次元の表にし、該表に分類された技術がどこにあるかの印を設ける。このため、分類の付与されていない技術的観点(開発されていない技術)が何であるかを容易に見つけることができる。   (3): In the document classification apparatus according to (1) or (2), the technical viewpoint of the classification of the plurality of extracted documents is converted into a two-dimensional table, and a mark indicating where the technology classified in the table is located. Is provided. For this reason, it is possible to easily find out what is a technical point of view to which no classification is given (technology that has not been developed).

(4):前記(3)の文書分類装置において、前記技術的観点を並べ替え、前記印が付いていない箇所を集め直す。このため、分類のない穴をより容易に見つけることができる。   (4): In the document classification device of (3), the technical viewpoints are rearranged, and the portions not marked are collected again. For this reason, holes without classification can be found more easily.

(5):前記(1)〜(4)の文書分類装置において、前記文書は、特許文書とする。このため、特許文書にFターム等の分類を自動で付与することができる。   (5): In the document classification apparatus according to (1) to (4), the document is a patent document. For this reason, a classification such as F-term can be automatically assigned to a patent document.

(6):分類する文書を入力する入力手段1と、前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段3と、前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段2と、前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出するスコア算出手段4と、前記算出したスコアが指定値より大きい分類を抽出する分類集合抽出手段5として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、入力した文書に、自動で分類を付与することができる文書分類装置を容易に提供することができる。   (6): an input unit 1 for inputting a document to be classified, a document similarity calculation unit 3 for calculating a similarity between the input document and a pre-classified document set by extracting a keyword, Document extraction means 2 for extracting a specified number of documents most similar to the input document from a document set to which classification is given in advance, and the specified number of documents extracted according to the number of the same classification in consideration of the similarity. The score calculation means 4 for calculating the classification score and the classification set extraction means 5 for extracting the classification for which the calculated score is greater than the specified value are programs for causing the computer to function. Therefore, by installing this program in a computer, it is possible to easily provide a document classification device that can automatically classify an input document.

(7):分類する文書を入力する入力手段1と、前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段3と、前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段2と、前記抽出した指定数の文書の分類が何個の文書に現れたかにより、前記分類のスコアを算出するスコア算出手段4と、前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付けられた平均の分類数分抽出する分類集合抽出手段5として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、予め分類の付与された文書集合から抽出する文書の指定数を設定するだけで、入力した文書に、自動で分類を付与することができる文書分類装置を容易に提供することができる。   (7): An input unit 1 for inputting a document to be classified, a document similarity calculation unit 3 for calculating a similarity between the input document and a pre-classified document set by extracting a keyword, Document extracting means 2 for extracting a specified number of documents most similar to the input document from a set of previously assigned documents, and how many documents the classification of the specified number of extracted documents appears in, The computer functions as score calculation means 4 for calculating the score of the classification and classification set extraction means 5 for extracting the average number of classifications attached to the specified number of extracted documents in the order of classification in which the calculated score is large. Program. For this reason, by installing this program on a computer, it is possible to automatically assign a classification to an input document simply by setting a designated number of documents to be extracted from a document set to which classification has been assigned in advance. The device can be provided easily.

本発明によれば次のような効果がある。   The present invention has the following effects.

(1):文書類似度算出手段で入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出し、文書抽出手段で前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出し、スコア算出手段で前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出し、分類集合抽出手段で前記算出したスコアが指定値より大きい分類を抽出するため、入力した文書に、自動で分類を付与することができる。   (1): The similarity between the document input by the document similarity calculation unit and the document set to which the classification is given is calculated by extracting a keyword, and the document extraction unit calculates the similarity from the document set to which the classification is given in advance. Extract a specified number of documents most similar to the input document, calculate a classification score of the extracted specified number of documents according to the number of the same classification taking the similarity into account, and extract a classification set Since the category with the calculated score larger than the specified value is extracted by the means, the category can be automatically given to the input document.

(2):文書類似度算出手段で入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出し、文書抽出手段で予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出し、スコア算出手段で抽出した指定数の文書の分類が何個の文書に現れたかにより、前記分類のスコアを算出し、分類集合抽出手段で算出したスコアが大きい分類順に前記抽出した指定数の文書に付けられた平均の分類数分抽出するため、予め分類の付与された文書集合から抽出する文書の指定数を設定するだけで、入力した文書に、自動で分類を付与することができる。   (2): The similarity between the document input by the document similarity calculation unit and the document set to which the classification is given is extracted and calculated, and the document extraction unit calculates the similarity from the document set to which the classification is given in advance. A specified number of documents that are most similar to the input document are extracted, and the classification score is calculated according to the number of documents in which the specified number of document classifications extracted by the score calculating means appear, and a classification set extracting means In order to extract the average number of classifications attached to the specified number of documents extracted in the order of classification in descending order of the score calculated in step 1, simply specify the number of documents to be extracted from the document set to which classification has been assigned. Classification can be automatically given to the selected document.

(3):抽出した複数の文書の分類の技術的観点を二次元の表にし、該表に分類された技術がどこにあるかの印を設けるため、分類の付与されていない技術的観点(開発されていない技術)が何であるかを容易に見つけることができる。   (3): A technical point of view (development with no classification) is made because the technical point of view of the classification of the extracted documents is made into a two-dimensional table and a mark indicating where the technology classified in the table is located. You can easily find out what the technology is).

(4):技術的観点を並べ替え、印が付いていない箇所を集め直すため、分類のない穴をより容易に見つけることができる。   (4): Since the technical viewpoints are rearranged and the portions not marked are collected again, holes without classification can be found more easily.

(5):文書は、特許文書とするため、特許文書にFターム等の分類を自動で付与することができる。   (5): Since the document is a patent document, a classification such as F-term can be automatically given to the patent document.

本発明は、分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その文書群で出現頻度の大きい分類にその文書を分類する。特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを自動で決定する枠組みとなっている。   In the present invention, documents similar to the document to be classified are collected by the BM25 or SMART method known with high accuracy in the search, and the documents are classified into categories having a high appearance frequency in the document group. In particular, a multi-class classification problem in which multiple classifications are assigned to a single document is handled, and among the classifications with a high frequency of occurrence, up to which classification is used as the classification of the document It has become.

(1):文書分類装置の説明
図1は文書分類装置の説明図である。図1において、文書分類装置には、入力部(入力手段)1、文書抽出部(文書抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア算出部(スコア算出手段)4、分類集合抽出部(分類集合抽出手段)5、出力部(出力手段)6が設けてある。
(1): Description of Document Classification Device FIG. 1 is an explanatory diagram of a document classification device. 1, the document classification apparatus includes an input unit (input unit) 1, a document extraction unit (document extraction unit) 2, a document similarity calculation unit (document similarity calculation unit) 3, and a score calculation unit (score calculation unit). 4. A classification set extraction unit (classification set extraction unit) 5 and an output unit (output unit) 6 are provided.

入力部1は、特許文書等の文書を入力する入力手段である。文書抽出部2は、分類したい文書と類似した文書(k個)を抽出する文書抽出手段である。文書類似度算出部3は、文書間の類似度を算出する文書類似度算出手段である。スコア算出部4は、分類のスコアを算出するスコア算出手段である。分類集合抽出部5は、分類のスコアにより、分類したい文書の分類集合(スコアが指定値以上のもの)を抽出する分類集合抽出手段である。出力部6は、分類したい文書の分類を出力する出力手段である。   The input unit 1 is input means for inputting a document such as a patent document. The document extracting unit 2 is a document extracting unit that extracts a document (k pieces) similar to a document to be classified. The document similarity calculation unit 3 is a document similarity calculation unit that calculates the similarity between documents. The score calculation unit 4 is score calculation means for calculating a classification score. The classification set extraction unit 5 is a classification set extraction unit that extracts a classification set of documents to be classified (with a score equal to or higher than a specified value) based on the classification score. The output unit 6 is output means for outputting the classification of the document to be classified.

(2):特許の文書分類装置の説明
特許文書(特許文献)は、IPC、FI、Fターム(F-term)等で分類されている。特に、F-termは、一定の技術範囲(テーマ)を種々の技術的観点から多観点で区別したものであり、例えば、目的、用途、構造、材料、製法、処理操作方法、制御手段など多数の技術的観点から技術を区別したタームリストに基づいている。このため、一つの特許文書には、通常、複数のF-term(特許分類)が付与されている。以下、文書として特許文書を用いる場合の説明をする。
(2): Description of Patent Document Classification Device Patent documents (patent documents) are classified by IPC, FI, F-term, and the like. In particular, the F-term distinguishes a certain technical scope (theme) from various technical viewpoints from many viewpoints. For example, there are many purposes, applications, structures, materials, manufacturing methods, processing methods, control means, etc. It is based on a term list that distinguishes technologies from the technical point of view. For this reason, a plurality of F-terms (patent classifications) are usually assigned to one patent document. Hereinafter, a description will be given of a case where a patent document is used as a document.

図2は特許文書分類装置の説明図である。図2において、特許文書分類装置には、入力部(入力手段)1、KDOC抽出部(KDOC抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア(Score M1(x) )算出部(スコア算出手段)4、F-term xの集合抽出部(F-term xの集合抽出手段)5、出力部(出力手段)6が設けてある。 FIG. 2 is an explanatory diagram of the patent document classification apparatus. In FIG. 2, the patent document classification apparatus includes an input unit (input unit) 1, a KDOC extraction unit (KDOC extraction unit) 2, a document similarity calculation unit (document similarity calculation unit) 3, and a score (Score M1 (x) ) A calculation unit (score calculation unit) 4, an F-term x set extraction unit (F-term x set extraction unit) 5, and an output unit (output unit) 6 are provided.

入力部1は、特許文書を入力する入力手段である。KDOC抽出部2は、分類したい特許文書と類似した特許文書(k個)を抽出するKDOC抽出手段である。なお、ここでKDOCは、抽出したk個の特許文書である。文書類似度算出部3は、特許文書間の類似度を算出する文書類似度算出手段である。スコア(Score M1(x) )算出部4は、特許分類のスコア(Score M1(x) )を算出するスコア算出手段である。F-term x の集合抽出部5は、特許分類のスコアにより、分類したい特許文書のF-term xの集合を抽出する分類集合抽出手段である。出力部6は、分類したい特許文書のF-term xの集合を出力する出力手段である。 The input unit 1 is input means for inputting a patent document. The KDOC extraction unit 2 is a KDOC extraction unit that extracts patent documents (k) similar to the patent documents to be classified. Here, KDOC is k extracted patent documents. The document similarity calculation unit 3 is a document similarity calculation unit that calculates the similarity between patent documents. The score (Score M1 (x)) calculating unit 4 is score calculating means for calculating a patent classification score (Score M1 (x)). The F-term x set extraction unit 5 is classification set extraction means for extracting a set of F-term x of patent documents to be classified based on patent classification scores. The output unit 6 is an output means for outputting a set of F-term x of patent documents to be classified.

(3):特許文書の分類処理の説明
図3は特許文書の分類処理フローチャートである。以下、図3の処理S1〜S5に従って説明する。
(3): Explanation of Patent Document Classification Processing FIG. 3 is a flowchart of patent document classification processing. Hereinafter, description will be given according to the processing S1 to S5 of FIG.

S1:入力部1に、分類したい特許文書を入力する。   S1: A patent document to be classified is input to the input unit 1.

S2:KDOC抽出部2は、入力した分類したい特許文書と類似したk個の特許文書(KDOC)を抽出する。ここで、文書類似度算出部3で、入力した分類したい特許文書と学習データとして与えられた特許文書集合(データベース等の格納手段内の)との類似度を求める。学習データとして与えられた特許文書集合は、正しいF-termの分類の付与された文書集合である。k個の特許文書の取り出しには、ruby-ir toolkit を利用した。kは実験で定める値である。   S2: The KDOC extraction unit 2 extracts k patent documents (KDOC) similar to the inputted patent document to be classified. Here, the document similarity calculation unit 3 obtains the similarity between the inputted patent document to be classified and the patent document set (in a storage means such as a database) given as learning data. The patent document set given as learning data is a document set to which a correct F-term classification is assigned. The ruby-ir toolkit was used to extract k patent documents. k is a value determined by experiments.

S3:スコア(Score M1(x) )算出部4は、特許分類のスコア(Score M1(x) )を算出する。 S3: The score (Score M1 (x)) calculating unit 4 calculates a patent classification score (Score M1 (x)).

S4:F-term x の集合抽出部5は、特許分類のスコアにより、分類したい特許文書のF-term x の集合(スコアが指定値以上のもの)を抽出する。   S4: The F-term x set extraction unit 5 extracts a set of F-term x (scores greater than or equal to a specified value) of patent documents to be classified based on patent classification scores.

S5:出力部6は、分類したい特許文書のF-term x の集合を出力する。   S5: The output unit 6 outputs a set of F-term x of patent documents to be classified.

図4は入力特許文書と選択された特許文書の間の類似度を求める処理フローチャートである。以下、図4の処理S11〜S12に従って説明する。   FIG. 4 is a process flowchart for obtaining the similarity between the input patent document and the selected patent document. Hereinafter, a description will be given according to the processes S11 to S12 of FIG.

S11:文書類似度算出部3は、入力の特許文書からキーワードを抽出する。このキーワードとしては、形態素解析技術を利用して、名詞を取り出した。   S11: The document similarity calculation unit 3 extracts keywords from the input patent document. As this keyword, nouns were extracted using morphological analysis technology.

S12:文書類似度算出部3は、次に学習データにある与えられた入力のテーマ(テーマは特に与えなくてもよい)を持つすべての特許文書から、上記キーワードを少なくとも一つ含む特許文書を取り出し、該取り出した特許文書の SimSMART を算出する。この SimSMART を学習データにあるそれぞれの特許文書との間の類似度として用いる。 S12: The document similarity calculation unit 3 next selects a patent document including at least one of the above keywords from all the patent documents having a given input theme (theme may not be given) in the learning data. Take out and calculate the Sim SMART of the taken out patent document. This Sim SMART is used as the similarity between each patent document in the learning data.

(4):F-term x の集合の取り出しの説明
F-term x の集合の取り出しには、以下のように四つの方法がある。
(4): Explanation of F-term x set extraction There are four methods for extracting the F-term x set as follows.

a)方法1の説明
特許分類装置(KDOC抽出部2)は、まず、入力と最も類似したk個の特許文書を、学習データとして与えられた特許文書集合(正しいF-termの分類の付与された文書集合) から取り出す。このk個の特許文書をKDOCと呼ぶことにする。文書の取り出しには、ruby-ir toolkit を利用した。kは、実験で定める値である。
a) Description of Method 1 First, the patent classification device (KDOC extraction unit 2) first sets k patent documents most similar to the input as a set of patent documents (correct F-term classification assigned as learning data). From the document set). These k patent documents will be referred to as KDOC. The ruby-ir toolkit was used to retrieve the documents. k is a value determined by experiments.

(ruby-ir toolkit の参考文献)
ruby-ir-eng,"Masao Utiyama", "Information Retrieval Module for Ruby", 2005,
("www2.nict.go.jp/jt/a132/members/mutiyama/software" )
特許分類装置(スコア算出部4)は、次に、KDOCを以下の式(1)にしたがってソートすることで、F-term xのスコア(Score M1(x) )を計算する。
(Reference for ruby-ir toolkit)
ruby-ir-eng, "Masao Utiyama", "Information Retrieval Module for Ruby", 2005,
("Www2.nict.go.jp/jt/a132/members/mutiyama/software")
Next, the patent classification device (score calculation unit 4) calculates the score (Score M1 (x)) of F-term x by sorting KDOCs according to the following equation (1).

Figure 2007323454
Figure 2007323454

ここで、
role(x,i) = 1 (もしi 番目の文書が F-term x の分類を持つ場合)
= 0(その他の場合)
ただし、score doc (i) は、入力文書と選択された文書の間の類似度がi 番目に大きいとされた文書の類似度の値であり、 kr は実験により定められる定数である。なお、score doc (i) を、次のように簡単にすることもできる。
here,
role (x, i) = 1 (if i-th document has F-term x classification)
= 0 (otherwise)
Here, score doc (i) is the value of the similarity of the document in which the similarity between the input document and the selected document is the i-th largest, and k r is a constant determined by experiment. You can also simplify score doc (i) as follows:

score doc (i) = 1001 - i
特許分類装置(分類集合抽出部5)は、最終的に、以下の式(2)を満足するF-term xの集合を取り出す。
score doc (i) = 1001-i
The patent classification device (classification set extraction unit 5) finally extracts a set of F-term x that satisfies the following expression (2).

{ x|Score M1(x) ≧ kp × maxy Score M1(y) }・・・・(2)
ただし、 kp は、実験により定められる定数である。この取り出されたF-term xの集合が求める分類である。
{X | Score M1 (x) ≧ k p × max y Score M1 (y)} (2)
However, k p is a constant determined by experiment. This is the classification required by the set of F-term x extracted.

方法1の利用例の説明
(下のF-term1 、F-term2 などは、各文書にふられているF-termである)
文書A 入力文書との類似度 100 F-term1
文書B 入力文書との類似度 90 F-term1 F-term2
文書C 入力文書との類似度 80 F-term1
文書D 入力文書との類似度 70 F-term3
だったとし、kr = 0.99 とすると,
F-term1 のスコアは、 100+90*0.99+80*0.99^2=267.5
F-term2 のスコアは、 90*0.99=89.1
F-term3 のスコアは、 70*0.99^3=67.9
となる。
Explanation of usage example of Method 1 (F-term1, F-term2, etc. below are F-terms used in each document)
Document A Similarity with input document 100 F-term1
Document B Similarity with input document 90 F-term1 F-term2
Document C Similarity with input document 80 F-term1
Document D Similarity with input document 70 F-term3
And kr = 0.99,
The score of F-term1 is 100 + 90 * 0.99 + 80 * 0.99 ^ 2 = 267.5
F-term2 score is 90 * 0.99 = 89.1
F-term3 score is 70 * 0.99 ^ 3 = 67.9
It becomes.

kp = 0.9とすると、トップのスコアの 267.5の 0.9倍の 240.8以上のスコアの分類を取り出す。この場合、F-term1 だけがそれを満足するので、F-term1 だけが答えとして取り出されることになる。   If kp = 0.9, the classification of scores with a score of 240.8 or higher, which is 0.9 times the top score of 267.5, is extracted. In this case, only F-term1 satisfies it, so only F-term1 is taken out as an answer.

b)方法2の説明
文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、F-term xが KDOC において、何個の文書に現れたかを数える。この数を FKDOC(x) で記すと、文書分類装置は、最終的に以下の式(3)を満足するF-term xの集合を取り出すことになる。
b) Description of Method 2 First, the document classification device extracts KDOC as in Method 1. The document classifier then counts how many documents F-term x appears in KDOC. When this number is written as F KDOC (x), the document classification device finally takes out a set of F-term x satisfying the following expression (3).

{ x| FKDOC(x) ≧ ku ×k },
ただし、 ku は、実験により定められる定数である。ただし、 ku =0.5 のとき、この方法は、オリジナルのk近傍法と同一になる。
{X | F KDOC (x) ≧ k u × k},
However, k u is a constant determined by experiment. However, when k u = 0.5, this method is identical to the original k-neighbor method.

c)方法3の説明
文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、 FKDOC(x) を計算する。文書分類装置は、最終的に、 FKDOC(x) の値の大きい順に kf 個の F-term を取り出し、これを求める分類とする。ここで、 kf は、実験により定める定数である。
c) Description of Method 3 First, the document classification device extracts KDOC as in Method 1. The document classifier then calculates F KDOC (x). The document classification device finally takes out k f F-terms in descending order of the value of F KDOC (x), and determines them as the classification to be obtained. Here, k f is a constant determined by experiment.

d)方法4の説明
文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、 FKDOC(x) を計算する。文書分類装置は、最終的に、 FKDOC(x) の値の大きい順に ka 個の F-term を取り出し、これを求める分類とする。ただし、 ka は、 KDOC にあるそれぞれの文書にふられた F-term の分類の個数の平均である。
d) Description of Method 4 First, the document classification device extracts KDOC as in Method 1. The document classifier then calculates F KDOC (x). Document classification apparatus, finally, removed k a number of F-term in the order of decreasing F KDOC (x), and classified to obtain this. However, k a is the average of the number of F-term categories used for each document in KDOC.

上記それぞれの方法の有効性を確認するために、以下のベースラインとなる方法を実験で利用した。   In order to confirm the effectiveness of each of the above methods, the following baseline method was used in the experiment.

(1) ベースライン1
文書分類装置は、まず、学習データにある、与えられたテーマ分類を持つすべての特許文書から全てのF-term分類を取り出す。
(1) Baseline 1
The document classification device first extracts all F-term classifications from all patent documents having a given theme classification in the learning data.

文書分類装置は、ランダムに kb 個のF-termを取り出し、これを求める分類とする。
ただし、 kb は、与えられたテーマ分類を持つ特許文書にふられたF-term分類の個数の平均である。
The document classification device takes k b F-terms at random and sets them as the classifications to be obtained.
Where k b is the average of the number of F-term classifications applied to patent documents with a given theme classification.

(2) ベースライン2
文書分類装置は、まず、学習データにある、与えられたテーマ分類を持つすべての特許文書から全てのF-term分類を取り出し、それをその分類が出現した文書数の大きい順に並べかえる。文書分類装置は、分類が出現した文書数の大きい順に kb 個のF-termを取り出しそれを求める分類とする。ただし、 kb は、与えられたテーマ分類を持つ特許文書にふられたF-term分類の個数の平均である。
(2) Baseline 2
First, the document classification device extracts all F-term classifications from all patent documents having a given theme classification in the learning data, and arranges them in descending order of the number of documents in which the classification appears. Document classification apparatus, in descending order of the number of documents classified appeared removed k b number of F-term and classified for obtaining it. Where k b is the average of the number of F-term classifications applied to patent documents with a given theme classification.

(3) オリジナルのk近傍法
(引用文献)
Fukunaga,1972;Okamoto and Yugami,1997;Yang and Liu,1999;Duda et al.,2001;Guo et al.,2004
オリジナルのk近傍法をそれぞれのF-term分類に用いる方法である。文書分類装置は、まず、方法1と同様に KDOC を取り出す。それぞれの F-term 分類ごとに文書分類装置は、KDOCの中でその分類を持った記事数( NUM+ )と、その分類を持たない記事数( NUM- )を求める。文書分類装置は、 NUM+ の値が NUM- 以上のF-term分類を取り出し、これを求める分類とする。この方法は、次の説明とも等価である。
(3) Original k-nearest neighbor method (cited reference)
Fukunaga, 1972; Okamoto and Yugami, 1997; Yang and Liu, 1999; Duda et al., 2001; Guo et al., 2004
The original k-nearest neighbor method is used for each F-term classification. First, the document classification device retrieves KDOC as in Method 1. Document classification apparatus for each F-term classification, the number of articles having the classification in KDOC and (NUM +), number of articles with no classification - Request (NUM). The document classification device takes out an F-term classification in which the value of NUM + is NUM - or more, and uses it as a classification to obtain. This method is equivalent to the following explanation.

文書分類装置は、まず、方法1と同様に KDOC を取り出す。文書分類装置は、次に、 FKDOC(x) を計算する。文書分類装置は、最終的に、以下の式を満足するF-term xの集合を取り出す。
{ x| FKDOC(x) ≧0.5 ×k }
First, the document classification device retrieves KDOC as in Method 1. The document classifier then calculates F KDOC (x). The document classification device finally takes out a set of F-term x that satisfies the following expression.
{X | F KDOC (x) ≧ 0.5 × k}

(5):文書間の類似度の計算の説明
学習データにおけるそれぞれの特許文書と、入力の特許文書の間の類似を計算するために以下の四つの方法を利用できる。
(5): Description of Calculation of Similarity Between Documents The following four methods can be used to calculate the similarity between each patent document in the learning data and the input patent document.

a)SMART の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマを持つすべての特許文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimSMART を算出するために以下の式(3)を使う。 SimSMART を入力文書と学習データにあるそれぞれの特許文書との間の類似度として用いる。
a) Description of SMART First, the document classification device extracts a keyword from an input patent document. As keywords, nouns were extracted using morphological analysis technology. Next, a document including at least one keyword is extracted from all patent documents having a given input theme in the learning data. The document classification device (document similarity calculation unit 3) uses the following equation (3) to calculate Sim SMART of each extracted document. Sim SMART is used as the similarity between the input document and each patent document in the learning data.

Figure 2007323454
Figure 2007323454

この式において、T は入力の特許文書と取り出された特許文書の両方に現れたキーワードの集合を意味し、tfはキーワードt が取り出された文書において出現した回数を意味し、avtfは取り出された文書において取り出されたキーワードそれぞれの出現の平均を意味し、qtf は入力の文書におけるキーワードt の出現した回数を意味し、utf は取り出された文書におけるキーワードの異なりの数を意味し、pivot は学習データの全文書における文書ごとのキーワードの異なりの数の平均を意味し、N は学習データにおける与えられた入力のテーマ分類をもつ特許文書の総数を意味し、n はキーワードt が現れた文書の数を意味する。   In this expression, T means the set of keywords that appear in both the input patent document and the retrieved patent document, tf means the number of times the keyword t appears in the retrieved document, and avtf is extracted Qtf means the number of occurrences of keyword t in the input document, utf means the number of different keywords in the extracted document, and pivot means learning Means the average of the number of different keywords per document in all documents in the data, N means the total number of patent documents with a given input theme classification in the training data, and n is the number of documents in which the keyword t appears Means number.

SMART は、情報検索のキーワードの重み付け法のひとつである(引用文献;Singhal et al.,1996;Singhal,1997)。   SMART is one of the keyword weighting methods for information retrieval (cited reference; Singhal et al., 1996; Singhal, 1997).

b)BM25の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての特許文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimBM25を算出するために以下の式(6)を使う。 SimBM25を入力文書と学習データにあるそれぞれの特許文書との間の類似度として用いる。
b) Description of BM25 The document classification device first extracts keywords from the input patent document. As keywords, nouns were extracted using morphological analysis technology. Next, a document including at least one of the keywords is extracted from all patent documents having a given input theme classification in the learning data. The document classification device (document similarity calculation unit 3) uses the following equation (6) to calculate Sim BM25 of each extracted document. Sim BM25 is used as the similarity between the input document and each patent document in the learning data.

Figure 2007323454
Figure 2007323454

この式に置いてT 、tf、qtf 、N 、n は、SMART のものと同じである。dlは取り出した記事の長さであり、avdlは全文書での記事の長さの平均であり、k1、k3それとb は実験で定める定数である。 ruby-ir toolkitのデフォルト値として、k1=1 、 k3 =1000、 b=1 の値を利用した。BM25のオリジナルの式のlog { (N-n+0.5)/(n + 0.5)}の代りにlog(N/n)を利用した。これは、オリジナルの式だとマイナスのスコアを出力するためである。実験において修正した式の方が高い精度を出すことを確認した。 T, tf, qtf, N, n are the same as those in SMART. dl is the length of the retrieved article, avdl is the average of the length of the article in all documents, k 1 , k 3 and b are constants determined by experiments. As default values of ruby-ir toolkit, values of k 1 = 1, k 3 = 1000, b = 1 were used. Instead of log {(N-n + 0.5) / (n + 0.5)} in the original formula of BM25, log (N / n) was used. This is because the original formula outputs a negative score. It was confirmed that the formula corrected in the experiment gave higher accuracy.

BM25は、情報検索のキーワードの重み付け手法の一つである(引用文献;Robertson et al.,1994 ).   BM25 is one of the keyword weighting methods for information retrieval (cited reference; Robertson et al., 1994).

c)Tfidf の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimTfidf を算出するために以下の式(9)を使う。 SimTfidf を入力文書と学習データにあるそれぞれの文書との間の類似度として用いる。
c) Description of Tfidf First, the document classification device extracts keywords from the input patent document. As keywords, nouns were extracted using morphological analysis technology. Next, a document including at least one of the keywords is extracted from all documents having a given input theme classification in the learning data. The document classification device (document similarity calculation unit 3) uses the following equation (9) to calculate Sim Tfidf of each extracted document. Sim Tfidf is used as the similarity between the input document and each document in the training data.

Figure 2007323454
この式で、T 、tf、N 、 nは、 SMARTのものと同一である。
Figure 2007323454
In this equation, T 1, tf, N and n are the same as those of SMART.

d)Overlap の説明
文書分類装置は、まず、入力の特許文書からキーワードを取り出す。キーワードとしては、形態素解析技術を利用して、名詞を取り出した。次に、学習データにある与えられた入力のテーマ分類を持つすべての文書から、上記キーワードを少なくとも一つ含む文書を取り出す。文書分類装置(文書類似度算出部3)は、それぞれの取り出した文書の SimOverlap を算出するために以下の式(10)を使う。 SimOverlap を入力文書と学習データにあるそれぞれの文書との間の類似度として用いる。
d) Description of Overlap First, the document classification device extracts keywords from the input patent document. As keywords, nouns were extracted using morphological analysis technology. Next, a document including at least one of the keywords is extracted from all documents having a given input theme classification in the learning data. The document classification device (document similarity calculation unit 3) uses the following equation (10) to calculate the Sim Overlap of each extracted document. Sim Overlap is used as the similarity between the input document and each document in the training data.

Figure 2007323454
この式で、T は、 SMARTのものと同一である。
Figure 2007323454
In this equation, T is the same as that of SMART.

(6):実験結果の説明
図5は実験結果の説明図である。図5において、キーワードは、特許文書の要約の部分と請求項の部分から取り出した。Dry run のデータは、各手法のパラメータを決めるのに利用した。Formal runのデータでの実験結果が、手法の性能を示している。図5の表で最も性能の高い方法に* を付与し、--は 0.01 の有意差を持って *の方法より劣っていることを意味する。この有意差検定には、両側検定のt検定を利用している。実験結果から SMARTと方法1を利用する方法が最もよいことがわかる。
(6): Explanation of Experimental Results FIG. 5 is an explanatory diagram of experimental results. In FIG. 5, keywords are extracted from the summary part and the claim part of the patent document. Dry run data was used to determine the parameters for each method. Experimental results with Formal run data show the performance of the method. In the table of FIG. 5, * is given to the method with the highest performance, and-means that it is inferior to the method of * with a significant difference of 0.01. This significant difference test utilizes a two-sided t-test. The experimental results show that the method using SMART and Method 1 is the best.

(7):文書分類コンテストの説明
図6はNTCIR-5 Patent Workshop でのFormal runの説明図である。図6において、NTCIR-5 Patent Workshop は、文書分類のコンテストであり、我々のチームも含めて、3チームが参加した。我々のシステム(文書分類装置)は他のチームと圧倒的な精度差があり、システムの優秀性がうかがえる。我々のシステム1は、BM25と方法1を用いる方法で細かい実装は上述の手法の比較実験のときとは異なっている。
(7): Description of Document Classification Contest FIG. 6 is an explanatory diagram of formal run at NTCIR-5 Patent Workshop. In Fig. 6, NTCIR-5 Patent Workshop is a document classification contest. Three teams, including our team, participated. Our system (document classification device) has an overwhelming accuracy difference from other teams, indicating the superiority of the system. Our system 1 is a method using BM25 and method 1, and the detailed implementation is different from the comparative experiment of the above method.

なお、上記のコンテストは、特許文書のテーマ分類が与えられたときに、入力の日本語特許文書のF-termの分類を求めるもので、評価には、F-measure を使っている。F-measure は、再現率(recall)の逆数と適合率(precision) の逆数の平均の逆数である。再現率は、正解の分類のうち、正解の出力の割合であり、適合率は、すべての出力のうち、正解の出力の割合である。式で表現すると以下のようになる。   In the above contest, when the theme classification of a patent document is given, the F-term classification of the input Japanese patent document is requested, and F-measure is used for evaluation. F-measure is the reciprocal of the average of the reciprocal of recall and the reciprocal of precision. The recall ratio is the ratio of correct outputs among correct answers, and the relevance ratio is the ratio of correct outputs among all outputs. Expressed as an expression:

Figure 2007323454
Figure 2007323454

(8):新しい特許の可能性の発見の説明
このように、本発明は、文書分類に関する発明である。分類したい文書と類似した文書を、検索において高精度で知られるBM25やSMART の方式で収集し、その文書群で出現頻度の大きい分類にその文書を分類する。特に、一つの文書に複数の分類が付与される、Multi-class の分類問題を扱い、出現頻度の大きい分類のうち、どの分類までを、その文書の分類とするかを自動で決定する枠組みとなっている。
(8): Explanation of Discovery of New Patent Possibility As described above, the present invention is an invention related to document classification. Documents similar to the document to be classified are collected by the BM25 and SMART methods that are known with high accuracy in the search, and the documents are classified into categories having a high appearance frequency in the document group. In particular, a multi-class classification problem in which multiple classifications are assigned to a single document is handled, and among the classifications with a high frequency of occurrence, up to which classification is used as the classification of the document It has become.

特許文書には、複数の特許を分類するためのコードがふられている。そのコードは一般には人手で付与されているが、本発明を利用すれば、ある程度自動でもコードを付与することができるようになり、人手の作業を軽減する効果がある。また、特許データを自動分類できると、以下の効果もある。特許文書には、Fタームという種々の観点から特許を分類するための分類コードがあり、これを使うと、各特許がどの問題を、どういう方法で扱っているかがわかる。各特許ごとにこれらの情報を整理し、図7の表のデータを(自動で)作成すれば、どの問題を、どの方法で扱った特許はあって、どの問題を、どの方法で扱った特許はないかがわかる。   The patent document has a code for classifying a plurality of patents. The code is generally given manually, but if the present invention is used, the code can be given even to some extent automatically, and there is an effect of reducing the manual work. Further, if patent data can be automatically classified, the following effects can be obtained. A patent document has a classification code for classifying patents from various viewpoints called F-terms. By using these codes, it is possible to know which problem is handled by each patent and in what way. If this information is organized for each patent and the data in the table of Fig. 7 is created (automatically), there are patents that deal with which method and which method, and patents that deal with which method and which method. You can see if there is.

図7は新しい特許の可能性の発見の説明図である。例えば、図7の新しい特許の可能性の発見の表で、左から右にある技術的観点である方法1〜方法10、上から下に他の技術的観点である問題1〜問題7が設けてある。丸はFタームが付けられたものを示している。例えば、左上の丸は特許1のFターム(方法1、問題1)が付けられたものである。   FIG. 7 is an explanatory diagram of the discovery of the possibility of a new patent. For example, in the table of discovery of the possibility of a new patent in FIG. It is. Circles indicate those with an F-term. For example, the circle at the upper left is the one with the F-term (Method 1, Problem 1) of Patent 1.

楕円で示したところは、特許がなく、問題3〜6を、方法3〜5で扱った新しい特許を考えることができ、新しい特許を発見することができる可能性がある。本発明は、そのような特許の可能性を発見することを支援するシステムにおいても利用できる。なお、図7では、Fタームが付けられたものを単に丸で示したが、頻度情報を付加することもできる。例えば、同じFタームが付けられた特許の数の大小により、丸、二重丸、三重丸のように異なる表示をすることもできる。   Where an ellipse is shown, there is no patent, and it is possible to consider a new patent that deals with problems 3 to 6 in methods 3 to 5, and may find a new patent. The present invention can also be used in systems that assist in discovering such patent possibilities. In FIG. 7, those with an F term are simply indicated by circles, but frequency information may be added. For example, different displays such as a circle, a double circle, and a triple circle can be made depending on the number of patents with the same F term.

(技術的観点の並べ替えの説明)
図7の表を出したあと、さらに、問題1、2、3・・・方法1、2、3・・・を並べ替えて、空白の箇所集め直すということが考えられる。
(Explanation of rearrangement of technical points of view)
After issuing the table of FIG. 7, it is possible to rearrange the problems 1, 2, 3,... 1, 2, 3,.

・方法A
問題のベクトルの次元を、方法の個数とし、方法のベクトルの次元を、問題の個数とし、それぞれのベクトルの要素には、その問題の方法またはその方法の問題にあたる特許があれば「1」なければ「0」として作成し、そのベクトルの近さに基づいて各問題のベクトル、各方法のベクトルを並べる。
・ Method A
The dimension of the problem vector is the number of methods, the dimension of the method vector is the number of problems, and each vector element must be “1” if there is a method in question or a patent for the problem of the method. For example, each problem vector and each method vector are arranged based on the proximity of the vectors.

近い問題同士はなるべく隣同士に、遠い問題同士はなるべく離れた場所に、近い方法同士はなるべく隣同士に、遠い方法同士はなるべく離れた場所になるように、それぞれ並べ替える。   The close problems are arranged as close as possible to each other, the distant problems are arranged as far as possible, the close methods are arranged as close as possible, and the distant methods are arranged as far as possible from each other.

・方法B
方法Aをより詳細にした方法であり、まず、最も近い問題同士をくっつける。そのくっつけたリストの端の問題のいずれかと最も近い問題をくっつける。さらに、そのくっつけたリストの端の問題のいずれかと最も近い問題をくっつける。
・ Method B
Method A is a more detailed method. First, the closest problems are brought together. Attach the problem closest to one of the problems at the end of the attached list. In addition, attach the problem closest to one of the problems at the end of the attached list.

これを繰り返す。そのリストのならびの順に並べ替える。方法も同様にリストを作成し並べ替える。   Repeat this. Sort the list in order. In the same way, the list is created and rearranged.

・方法C
双対尺度法を利用するものである。
・ Method C
It uses dual scaling.

(文献)
上田太一郎、刈田正雄、本田和恵",実践ワークショップExcel 徹底活用多変量解析"," 秀和システム", 2003,
双対尺度法では、固有値計算により、問題と方法の両方を一つの二次元の図に似たもの同士を配置する能力がある。双対尺度法への入力は、問題と方法の二次元の表であり、それぞれの問題1、2、3・・・と方法1、2、3・・・が交わる欄にはその問題をその方法で扱う特許があれば「1」なければ「0」を記入する。そのような表を入力すれば双対尺度法では、固有値計算により、問題と方法の両方を一つの二次元の図に似たもの同士を配置できる。
(Reference)
Taichiro Ueda, Masao Karita, Kazue Honda ", Practical Workshop Excel Extensive Multivariate Analysis", "Hidekazu System", 2003,
Dual scaling has the ability to place both problems and methods similar to one two-dimensional figure by eigenvalue computation. The input to the dual scaling method is a two-dimensional table of problems and methods, where each problem 1, 2, 3,... And method 1, 2, 3,. If there is a patent handled in, enter “0” if it is not “1”. If such a table is input, dual scaling can arrange both problems and methods similar to one two-dimensional figure by eigenvalue calculation.

この二次元の図は、第1固有値に基づく軸と第2固有値に基づく軸の二つを利用するが、ここで第1固有値に基づく軸のみを利用する。問題1、2、3・・・と方法1、2、3・・・、それぞれで、第1固有値に基づく軸でのそれぞれの値を利用して、もとの問題と方法の表において、問題1、2、3・・・と方法1、2、3・・・、それぞれをその値の順に並べ替える。そうすると、表の対角線付近に「1」をより多く持つように並べ替えることができる。   This two-dimensional diagram uses two axes, an axis based on the first eigenvalue and an axis based on the second eigenvalue, but here only uses an axis based on the first eigenvalue. In the table of the original problem and method, using each value on the axis based on the first eigenvalue in each of the problems 1, 2, 3,. .., And methods 1, 2, 3,... Are rearranged in the order of their values. Then, it can be rearranged so as to have more “1” s near the diagonal of the table.

上記方法A、B、Cの説明では、ベクトルでの要素の値、双対尺度法への入力の表の各要素の値を、その問題をその方法で扱う特許があれば「1」なければ「0」としていたが、逆にその問題をその方法で扱う特許があれば「0」なければ「1」としてもよい。   In the description of the methods A, B, and C, the value of an element in a vector and the value of each element in a table of inputs to a dual scaling method are “1” unless there is a patent that deals with the problem in that method. On the contrary, if there is a patent dealing with the problem by that method, it may be “1” if it is not “0”.

例えば方法Cで、その問題をその方法で扱う特許があれば「0」なければ「1」として表を並べ替えれば、図8のようになる。   For example, in the method C, if there is a patent that deals with the problem by the method, if the table is rearranged as “1” if it is not “0”, the result is as shown in FIG.

図8は技術的観点の並べ替えの説明図である。図8において、表の対角線付近には空欄(先行特許がないことを示している。)が集中していることがわかる。新たな特許の可能性を探すために、大きな先行特許がないところを探すのにこの方法は役に立つ。ここでは、上記方法A、B、Cを示したが、他の方法で並べ替える方法でもよい。例えば,ランダムに並べ替える表を複数作り、そして空欄が連続して出現し表において大きな長方形を形成し、その長方形の大きさで判断して複数作った表のうち、その長方形の大きさが最も大きいものがよいとして、それに並べ替えるという方法を利用してもよい。   FIG. 8 is an explanatory diagram of rearrangement from the technical viewpoint. In FIG. 8, it can be seen that blank spaces (indicating that there is no prior patent) are concentrated near the diagonal line of the table. This method is useful for searching for new patent possibilities where there is no large prior patent. Here, the above methods A, B, and C are shown, but a method of rearranging by another method may be used. For example, create multiple tables to be rearranged at random, and blanks appear continuously to form a large rectangle in the table, and among the tables created by judging the size of the rectangle, the size of the rectangle is the most. A method of rearranging it may be used, assuming that a larger one is better.

なお、実際に本発明の手法を利用することで、2005年度に国立情報学研究所において開催された評価型ワークショップNTCIR5特許文書分類タスクのFターム分類のサブタスクにおいて参加3団体のうち、最もよい精度を出すことができた。   In fact, by using the method of the present invention, it is the best of the three participating organizations in the F-term classification subtask of the evaluation type workshop NTCIR5 patent document classification task held at the National Institute of Informatics in 2005. The accuracy was achieved.

(9):プログラムインストールの説明
入力部(入力手段)1、文書抽出部(文書抽出手段)2、KDOC抽出部(KDOC抽出手段)2、文書類似度算出部(文書類似度算出手段)3、スコア算出部(スコア算出手段)4、スコア(Score M1(x) )算出部4、分類集合抽出部(分類集合抽出手段)5、F-term xの集合抽出部(F-term xの集合抽出手段)5、出力部(出力手段)6等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
(9): Explanation of program installation Input unit (input unit) 1, document extraction unit (document extraction unit) 2, KDOC extraction unit (KDOC extraction unit) 2, document similarity calculation unit (document similarity calculation unit) 3, Score calculation unit (score calculation means) 4, score (Score M1 (x)) calculation unit 4, classification set extraction unit (classification set extraction means) 5, F-term x set extraction unit (F-term x set extraction) The means 5, the output unit (output unit) 6, and the like can be configured by programs, and are executed by the main control unit (CPU) and stored in the main memory. This program is processed by a general computer (information processing apparatus). This computer is composed of hardware such as an input device as input means such as a main control unit, main memory, file device, display device, and keyboard.

このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。   The program of the present invention is installed on this computer. In this installation, these programs are stored in a portable recording (storage) medium such as a floppy disk or a magneto-optical disk, and a drive device for accessing the recording medium provided in the computer is used. Alternatively, it is installed in a file device provided in the computer via a network such as a LAN. Then, the program steps necessary for processing are read from the file device into the main memory and executed by the main control unit.

本発明の文書分類装置の説明図である。It is explanatory drawing of the document classification device of this invention. 本発明の特許文書分類装置の説明図である。It is explanatory drawing of the patent document classification | category apparatus of this invention. 本発明の特許文書の分類処理フローチャートである。It is a classification process flowchart of the patent document of this invention. 本発明の入力特許文書と選択された特許文書の間の類似度を求める処理フローチャートである。It is a processing flowchart which calculates | requires the similarity between the input patent document of this invention, and the selected patent document. 本発明の実験結果の説明図である。It is explanatory drawing of the experimental result of this invention. 本発明のNTCIR-5 Patent Workshop でのFormal runの説明図である。It is explanatory drawing of Formal run in NTCIR-5 Patent Workshop of this invention. 本発明の新しい特許の可能性の発見の説明図である。It is an explanatory diagram of the discovery of the possibility of a new patent of the present invention. 本発明の技術的観点の並べ替えの説明図である。It is explanatory drawing of the rearrangement of the technical viewpoint of this invention.

符号の説明Explanation of symbols

1 入力部(入力手段)
2 文書抽出部(文書抽出手段)
3 文書類似度算出部(文書類似度算出手段)
4 スコア算出部(スコア算出手段)
5 分類集合抽出部(分類集合抽出手段)
6 出力部(出力手段)
1 Input section (input means)
2 Document extraction unit (document extraction means)
3 Document similarity calculation unit (document similarity calculation means)
4 score calculation part (score calculation means)
5 Classification set extraction unit (classification set extraction means)
6 Output section (output means)

Claims (7)

分類する文書を入力する入力手段と、
前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段と、
前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出するスコア算出手段と、
前記算出したスコアが指定値より大きい分類を抽出する分類集合抽出手段とを備えることを特徴とした文書分類装置。
An input means for inputting a document to be classified;
A document similarity calculation means for extracting a keyword and calculating a similarity between the input document and a document set to which classification is given in advance;
A document extracting means for extracting a specified number of documents most similar to the input document from the pre-classified document set;
Score calculating means for calculating a score of the classification of the specified number of extracted documents according to the number of the same classification in consideration of the similarity;
A document classification apparatus comprising: a classification set extraction unit that extracts a classification in which the calculated score is greater than a specified value.
分類する文書を入力する入力手段と、
前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書の分類が何個の文書に現れたかにより、前記分類のスコアを算出するスコア算出手段と、
前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付けられた平均の分類数分抽出する分類集合抽出手段とを備えることを特徴とした文書分類装置。
An input means for inputting a document to be classified;
A document similarity calculation means for extracting a keyword and calculating a similarity between the input document and a document set to which classification is given in advance;
A document extracting means for extracting a specified number of documents most similar to the input document from the pre-classified document set;
Score calculating means for calculating a score of the classification according to how many classifications of the extracted designated number of documents appear;
A document classification apparatus comprising: a classification set extraction unit configured to extract an average number of classifications attached to the specified number of extracted documents in order of classification in which the calculated score is large.
前記抽出した複数の文書の分類の技術的観点を二次元の表にし、該表に分類された技術がどこにあるかの印を設けることを特徴とした請求項1又は2記載の文書分類装置。   3. The document classification apparatus according to claim 1, wherein a technical point of view of classification of the plurality of extracted documents is a two-dimensional table, and a mark indicating where the technology classified in the table is located is provided. 前記技術的観点を並べ替え、前記印が付いていない箇所を集め直すこと特徴とした請求項3記載の文書分類装置。   4. The document classification apparatus according to claim 3, wherein the technical points of view are rearranged, and the portions not marked are collected again. 前記文書は、特許文書であることを特徴とした請求項1〜4のいずれかに記載の文書分類装置。   The document classification apparatus according to claim 1, wherein the document is a patent document. 分類する文書を入力する入力手段と、
前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段と、
前記類似度を加味した同じ分類の数により前記抽出した指定数の文書の分類のスコアを算出するスコア算出手段と、
前記算出したスコアが指定値より大きい分類を抽出する分類集合抽出手段として
コンピュータを機能させるためのプログラム。
An input means for inputting a document to be classified;
A document similarity calculation means for extracting a keyword and calculating a similarity between the input document and a document set to which classification is given in advance;
A document extracting means for extracting a specified number of documents most similar to the input document from the pre-classified document set;
Score calculating means for calculating a score of the classification of the specified number of extracted documents according to the number of the same classification in consideration of the similarity;
A program for causing a computer to function as classification set extraction means for extracting a classification in which the calculated score is greater than a specified value.
分類する文書を入力する入力手段と、
前記入力された文書と予め分類の付与された文書集合との類似度をキーワードを抽出して算出する文書類似度算出手段と、
前記予め分類の付与された文書集合から前記入力された文書と最も類似する指定数の文書を抽出する文書抽出手段と、
前記抽出した指定数の文書の分類が何個の文書に現れたかにより、前記分類のスコアを算出するスコア算出手段と、
前記算出したスコアが大きい分類順に前記抽出した指定数の文書に付けられた平均の分類数分抽出する分類集合抽出手段として
コンピュータを機能させるためのプログラム。
An input means for inputting a document to be classified;
A document similarity calculation means for extracting a keyword and calculating a similarity between the input document and a document set to which classification is given in advance;
A document extracting means for extracting a specified number of documents most similar to the input document from the pre-classified document set;
Score calculating means for calculating a score of the classification according to how many classifications of the extracted designated number of documents appear;
A program for causing a computer to function as a classification set extraction unit that extracts an average number of classifications attached to the specified number of extracted documents in order of classification in which the calculated score is large.
JP2006154126A 2006-06-02 2006-06-02 Document classification apparatus and program Expired - Fee Related JP4931111B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006154126A JP4931111B2 (en) 2006-06-02 2006-06-02 Document classification apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006154126A JP4931111B2 (en) 2006-06-02 2006-06-02 Document classification apparatus and program

Publications (2)

Publication Number Publication Date
JP2007323454A true JP2007323454A (en) 2007-12-13
JP4931111B2 JP4931111B2 (en) 2012-05-16

Family

ID=38856194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006154126A Expired - Fee Related JP4931111B2 (en) 2006-06-02 2006-06-02 Document classification apparatus and program

Country Status (1)

Country Link
JP (1) JP4931111B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217528A (en) * 2008-03-11 2009-09-24 Hitachi Ltd Document classification method, system, and computer program
JP2011191834A (en) * 2010-03-12 2011-09-29 Hitachi Ltd Method, device and program for classifying document
JP2011233163A (en) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp Sentence associating system and sentence associating program
JP2011233164A (en) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp Sentence associating system and sentence associating program
KR101776578B1 (en) 2016-02-03 2017-09-11 한국원자력 통제기술원 Nuclear energy classification inforamtion based electronic document classification system and its method
JP2018113002A (en) * 2017-01-15 2018-07-19 cotobox株式会社 Trademark information processing device and method and program
JP2018169753A (en) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 Document sorting apparatus, document sorting method and document sorting program
WO2022107229A1 (en) * 2020-11-17 2022-05-27 日本電信電話株式会社 Data processing device, data processing method, and data processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070989A (en) * 2003-08-22 2005-03-17 Fuji Xerox Co Ltd Document retrieval system
JP2006099478A (en) * 2004-09-29 2006-04-13 Toshiba Corp Document classification device and document classification method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070989A (en) * 2003-08-22 2005-03-17 Fuji Xerox Co Ltd Document retrieval system
JP2006099478A (en) * 2004-09-29 2006-04-13 Toshiba Corp Document classification device and document classification method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217528A (en) * 2008-03-11 2009-09-24 Hitachi Ltd Document classification method, system, and computer program
JP4604097B2 (en) * 2008-03-11 2010-12-22 株式会社日立製作所 Document classification assigning method, system or computer program
JP2011191834A (en) * 2010-03-12 2011-09-29 Hitachi Ltd Method, device and program for classifying document
JP2011233163A (en) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp Sentence associating system and sentence associating program
JP2011233164A (en) * 2011-07-21 2011-11-17 Mitsubishi Electric Corp Sentence associating system and sentence associating program
KR101776578B1 (en) 2016-02-03 2017-09-11 한국원자력 통제기술원 Nuclear energy classification inforamtion based electronic document classification system and its method
JP2018113002A (en) * 2017-01-15 2018-07-19 cotobox株式会社 Trademark information processing device and method and program
JP2018169753A (en) * 2017-03-29 2018-11-01 トヨタテクニカルディベロップメント株式会社 Document sorting apparatus, document sorting method and document sorting program
WO2022107229A1 (en) * 2020-11-17 2022-05-27 日本電信電話株式会社 Data processing device, data processing method, and data processing program

Also Published As

Publication number Publication date
JP4931111B2 (en) 2012-05-16

Similar Documents

Publication Publication Date Title
Janani et al. Text document clustering using spectral clustering algorithm with particle swarm optimization
Singh et al. Rank fusion and semantic genetic notion based automatic query expansion model
US8666994B2 (en) Document analysis and association system and method
JP4931111B2 (en) Document classification apparatus and program
Yang et al. Venue recommendation: Submitting your paper with style
Trappey et al. An R&D knowledge management method for patent document summarization
Wu et al. Learning Bilinear Model for Matching Queries and Documents.
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
JP4857448B2 (en) Information retrieval apparatus and program using multiple meanings
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
Singhal et al. Data extract: Mining context from the web for dataset extraction
Lee et al. Reducing noises for recall-oriented patent retrieval
JP2013168177A (en) Information provision program, information provision apparatus, and provision method of retrieval service
Deshmukh et al. A literature survey on latent semantic indexing
Jiang et al. ECNU at SemEval-2016 task 5: extracting effective features from relevant fragments in sentence for aspect-based sentiment analysis in reviews
Zamani et al. Stochastic retrieval-conditioned reranking
JP5315726B2 (en) Information providing method, information providing apparatus, and information providing program
Jun A technology forecasting method using text mining and visual apriori algorithm
CN113705217B (en) Literature recommendation method and device for knowledge learning in electric power field
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Arif et al. Document clustering–a feasible demonstration with k-means algorithm
Yi et al. Improving multi-faceted book search by incorporating sparse latent semantic analysis of click-through logs
Eickhoff et al. " Robust statistical methods in web retrieval" by Carsten Eickhoff and Arjen P. de Vries, with Martin Vesely as coordinator
US11636167B2 (en) Determining similarity between documents
Goel et al. Parallel weighted semantic fusion for cross-media retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees