JP2018169753A - Document sorting apparatus, document sorting method and document sorting program - Google Patents
Document sorting apparatus, document sorting method and document sorting program Download PDFInfo
- Publication number
- JP2018169753A JP2018169753A JP2017065917A JP2017065917A JP2018169753A JP 2018169753 A JP2018169753 A JP 2018169753A JP 2017065917 A JP2017065917 A JP 2017065917A JP 2017065917 A JP2017065917 A JP 2017065917A JP 2018169753 A JP2018169753 A JP 2018169753A
- Authority
- JP
- Japan
- Prior art keywords
- document
- document data
- feature information
- user
- information indicating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 119
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 239000000284 extract Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 19
- 238000012369 In process control Methods 0.000 description 110
- 210000004544 dc2 Anatomy 0.000 description 110
- 238000004190 ion pair chromatography Methods 0.000 description 110
- 230000008569 process Effects 0.000 description 104
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000012216 screening Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 210000000707 wrist Anatomy 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書を分類する文書分類装置、文書分類方法及び文書分類プログラムに関する。 The present invention relates to a document classification apparatus, a document classification method, and a document classification program for classifying documents.
近年、技術者達は、最新の技術動向を追うために、毎年自身の目的に沿った各種の特許文献を読むことがある。その特許文献を読むにあたり技術者は、検索式により絞り込みを行うものの、その結果得られる文献数は膨大なものになることがままあり、全ての文献に目を通すことは現実的ではない。そのため、膨大な量の文献の中から読むべき文献とそうでない文献のふるい分け、即ち、スクリーニングをユーザが行うことがある。 In recent years, engineers often read various patent documents according to their own purposes every year in order to keep up with the latest technological trends. In reading the patent document, the engineer narrows down the search formula, but the number of documents obtained as a result remains enormous, and it is not realistic to read all the documents. Therefore, the user may perform screening, that is, screening, of documents that should be read from a huge amount of documents, and documents that should not be read.
そこで、そのようなスクリーニングを補助する手法として、様々な技術がある。例えば、特許分類による検索の検索結果として得られる文献集合に、更に検索したい内容を表した種文書を追加し、文書内容の類似度に基づくクラスタリングを行って、クラスタ表示された特許文献を順次スクリーニングする技術が開示されている(例えば、特許文献1参照)。なお、類似度の算出には、文献に対して形態素解析を行って用語に分解し、各用語同士の類似度を算出することでクラスタリングを行う。 There are various techniques for assisting such screening. For example, a seed document representing the content to be searched is added to the document set obtained as a search result of the search by patent classification, and clustering based on the similarity of the document content is performed, and the patent documents displayed in a cluster are sequentially screened. The technique to do is disclosed (for example, refer patent document 1). For calculating the similarity, clustering is performed by performing morphological analysis on the document, decomposing it into terms, and calculating the similarity between the terms.
また、文献検索後のスクリーニングを効率よく行うために、文献単位で、各文献を示す内容を自動めくりする方法が開示されている(例えば、特許文献2参照)。 Moreover, in order to perform screening after literature search efficiently, a method of automatically turning the content indicating each document in document units is disclosed (for example, see Patent Document 2).
さらには、分類する文書と、予め分類の付与された文書集合との類似度を文書内のキーワードに基づいて算出し、入力された文書と最も類似する指定数の文書を抽出し、類似度を加味した分類の数に基づいて抽出した指定数の文書の分類のスコアを算出し、算出したスコアが指定値より大きい分類を抽出して、分類対象の文書に付与することで自動的に分類を行う技術もある(例えば、特許文献3参照)。 Further, the degree of similarity between the document to be classified and the document set to which the classification is assigned is calculated based on the keyword in the document, and a specified number of documents most similar to the input document are extracted, and the degree of similarity is calculated. Calculate the classification score of the specified number of documents extracted based on the number of classifications taken into account, extract the classification whose calculated score is greater than the specified value, and assign it to the target document for classification automatically There is also a technique to perform (see, for example, Patent Document 3).
ところで、上記特許文献2の場合、文献単位で自動めくりを行ってはくれるものの、ユーザが読むべき文献数が減るわけではなく、人がスクリーニングを行うこと自体は変わらないため、その人物の処理負荷が大きいという問題がある。
By the way, in the case of the above-mentioned
また、上記特許文献1や特許文献3の場合、各文献に対して形態素解析を行った上で抽出された用語各々について類似度を算出するという手法をとっているため、形態素解析や膨大な数の用語の類似度の算出といった膨大な処理負荷がプロセッサにかかるという問題がある。
In the case of
そこで、本発明は上記問題に鑑みて成されたものであり、上記特許文献1〜3よりも人やプロセッサの処理負荷が少ない文書分類装置、文書分類方法及び文書分類プログラムを提供することを目的とする。
Accordingly, the present invention has been made in view of the above problems, and an object thereof is to provide a document classification device, a document classification method, and a document classification program that require less processing load on humans and processors than in
上記課題を解決するために、本発明の一態様に係る文書分類装置は、検索式に応じて検索された複数の文書データを示す第一文書情報と、文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶部と、検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得部と、第二特徴情報と第一特徴情報との一致度に基づいて、複数の文書データから所定数の文書データを抽出する抽出部と、抽出部が抽出した所定数の文書データ各々に対応付けられた該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断する判断部と、判断部の判断結果を出力する出力部とを備える。 In order to solve the above problems, a document classification device according to an aspect of the present invention includes first document information indicating a plurality of document data searched according to a search formula, and the document data assigned to the document data. A storage unit that stores first feature information indicating one or more technical features and corresponding information indicating whether or not the document data is a document desired by the user, and a new one according to the search formula The second feature information and the first feature information coincide with each other, an acquisition unit for acquiring second document information indicating other document data to which the second feature information indicating one or more technical features is added. Based on the degree, the extraction unit that extracts a predetermined number of document data from the plurality of document data, and other document data based on the corresponding information associated with each of the predetermined number of document data extracted by the extraction unit, Whether the document is desired by the user Comprising a determining section for determining, and an output unit for outputting a determination result of the determination unit.
また、本発明の一態様に係る文書分類方法は、検索式に応じて検索された複数の文書データを示す第一文書情報と、文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶ステップと、検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得ステップと、第二特徴情報と第一特徴情報との一致度に基づいて、複数の文書データから所定数の文書データを抽出する抽出ステップと、抽出ステップにおいて抽出した所定数の文書データ各々に対応付けられた該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断する判断ステップと、判断ステップにおける判断結果を出力する出力ステップとを含む。 Further, the document classification method according to one aspect of the present invention includes one or more technical information of first document information indicating a plurality of document data searched according to a search formula and the document data attached to the document data. A storage step for storing first feature information indicating a feature and corresponding information indicating whether or not the document data is a document desired for the user, and a new search according to the search formula. Based on the acquisition step of acquiring second document information indicating other document data to which the second feature information indicating the above technical features is given, and the degree of coincidence between the second feature information and the first feature information, An extraction step for extracting a predetermined number of document data from the document data, and other document data based on the corresponding information associated with each of the predetermined number of document data extracted in the extraction step. Comprising a determining step of determining whether, and an output step of outputting the result of determination at decision step.
また、本発明の一態様に係る文書分類プログラムは、コンピュータに、検索式に応じて検索された複数の文書データを示す第一文書情報と、文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶機能と、検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得機能と、第二特徴情報と第一特徴情報との一致度に基づいて、複数の文書データから所定数の文書データを抽出する抽出機能と、抽出機能が抽出した所定数の文書データ各々に対応付けられた該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断する判断機能と、判断機能の判断結果を出力する出力機能とを実現させる。 Further, the document classification program according to one aspect of the present invention provides a computer with one or more of first document information indicating a plurality of document data searched according to a search expression and the document data attached to the document data. Is stored in association with the first feature information indicating the technical features of the document and the corresponding information indicating whether or not the document data is a document desired by the user, and is newly searched according to the search formula. Based on an acquisition function for acquiring second document information indicating other document data to which second feature information indicating one or more technical features is given, and a degree of coincidence between the second feature information and the first feature information Based on the extraction function for extracting a predetermined number of document data from a plurality of document data and the corresponding information associated with each of the predetermined number of document data extracted by the extraction function, other document data is desired by the user. Literature A determining function of determining whether, to achieve an output function of outputting a determination result of the determination function.
また、上記文書分類装置において、抽出部は、複数の文書データから、第二特徴情報と第一特徴情報との一致度の高いものから所定数を抽出し、判断部は、抽出部が抽出した文献に対応付けられている該当情報が、ユーザにとって所望の文献であることを示すものが閾値よりも多い場合に、他の文書データはユーザにとって所望の文献であると判断し、ユーザにとって所望の文献でないことを示すものが閾値よりも多い場合に、他の文書データはユーザにとって所望の文献ではないと判断することとしてもよい。 In the document classification device, the extraction unit extracts a predetermined number from a plurality of pieces of document data having a high degree of coincidence between the second feature information and the first feature information, and the determination unit is extracted by the extraction unit. If the corresponding information associated with the document is more than the threshold value indicating that the document is the document desired for the user, it is determined that the other document data is the document desired for the user, If there are more items indicating that the document is not a document than the threshold value, it may be determined that the other document data is not a document desired by the user.
また、上記文書分類装置において、判断部は、抽出部が抽出した文献に対応付けられている該当情報に対して、一致度に応じた重み付けを行い、重み付けを行った後の該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断することとしてもよい。 In the document classification apparatus, the determination unit weights the corresponding information associated with the document extracted by the extraction unit according to the degree of coincidence, and based on the corresponding information after the weighting is performed. Further, it may be determined whether the other document data is a document desired for the user.
また、上記文書分類装置において、判断部は、第一特徴情報が対応付けられている文書データであって該当情報がユーザが所望していない文献であることを示す文書データの、当該第一特徴情報が対応付けられている文書データ全体に対する割合を示す非該当率が、第一閾値を超える第一特徴情報と一致する第二特徴情報を有する他の文書データをユーザが所望していない文献であると判断することとしてもよい。 Further, in the document classification device, the determination unit is the document data associated with the first feature information, and the first feature of the document data indicating that the corresponding information is a document not desired by the user. Non-correspondence ratio indicating the ratio to the entire document data with which the information is associated is a document that the user does not desire other document data having the second feature information that matches the first feature information that exceeds the first threshold. It may be determined that there is.
また、上記文書分類装置において、判断部は、第一特徴情報が対応付けられている文書データであって該当情報がユーザが所望している文献であることを示す文書データの、当該第一特徴情報が対応付けられている文書データ全体に対する割合を示す該当率が、第二閾値を超える第一特徴情報と一致する第二特徴情報を有する他の文書データをユーザが所望している文献であると判断することとしてもよい。 Further, in the document classification device, the determination unit is document data associated with the first feature information, and the first feature of the document data indicating that the corresponding information is a document desired by the user. This is a document in which the user desires other document data having second feature information that matches the first feature information whose ratio indicating the ratio to the entire document data with which the information is associated exceeds the second threshold. It is good also as judging.
また、上記文書分類装置において、第一閾値は、第二閾値よりも大きいこととしてもよい。 In the document classification apparatus, the first threshold value may be larger than the second threshold value.
また、上記文書分類装置において、判断部は、検索式に、特徴情報が用いられている場合には、当該特徴情報を除く第一特徴情報と、第二特徴情報とに基づいて、判断を行うこととしてもよい。 In the document classification device, when the feature information is used in the search formula, the determination unit makes a determination based on the first feature information excluding the feature information and the second feature information. It is good as well.
本発明の一態様に係る文書分類装置は、新たに検索された他の文書データが、ユーザにとって所望の文献であるか否かを、予め同じ検索式で検索された文献に対して付与された技術的情報を示す特徴情報の一致度と、その文献がユーザにとって所望の文献であるか否かを示す該当情報に基づいて判断することができる。したがって、文書分類装置は、ユーザが読まなくてもよい文献のふるい分けを行うことができるので、ユーザが読むべき文献数を低減できる。よって、ユーザの処理負荷を軽減することができる。また、文書分類装置は、文献内を精査することなく、文献のふるい分けを行うことができるので、文書分類装置に対してかかる処理負荷を軽減することができる。 In the document classification device according to an aspect of the present invention, whether or not the newly searched other document data is a document desired by the user is given to a document previously searched by the same search formula. Determination can be made based on the degree of coincidence of feature information indicating technical information and corresponding information indicating whether the document is a document desired by the user. Therefore, since the document classification device can perform screening of documents that the user does not need to read, the number of documents that the user should read can be reduced. Therefore, the processing load on the user can be reduced. In addition, since the document classification apparatus can perform screening of documents without examining the documents, the processing load on the document classification apparatus can be reduced.
以下、本発明の一実施態様に係る文書分類装置について、図面を参照しながら詳細に説明する。 Hereinafter, a document classification apparatus according to an embodiment of the present invention will be described in detail with reference to the drawings.
<実施の形態>
<構成>
図1は、文書分類装置の構成例を示すブロック図である。図1に示すように、記憶部130と、取得部110と、抽出部121と、判断部122と、出力部140とを備える。
<Embodiment>
<Configuration>
FIG. 1 is a block diagram illustrating a configuration example of a document classification apparatus. As illustrated in FIG. 1, a
記憶部130は、検索式に応じて検索された複数の文書データを示す第一文書情報と、文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶している。記憶部130は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、フラッシュメモリなどにより実現できるが、これに限定されるものではない。ここで第一文書情報は、第一文書情報の文書そのものを示すデータであってもよいし、第一文書情報を示す識別情報であってもよい。ここで、第一特徴情報は、文書データ各々の技術的特徴を示すものであって、例えば、IPC、CPC、ECLA、ICO、USC、FI、Fタームなどが挙げられるが、これらに限定されるものではない。また、該当情報とは、検索を行ったユーザが検索により得られた文献を目視することによって検索の結果得られた文献各々がユーザにとって所望の文献であるか否かを示す情報であればよく、例えば、「該当する」、「ノイズ」であるといった情報や、「どちらでもない」、「不明である」というような内容を示すような情報であってもよい。なお、該当情報は、文書分類装置が付与するものであってもよい。各第一文書情報には、上述の通り、技術的特徴を示す第一特徴情報として、少なくとも1つの技術的特徴が対応付けられる。
The
取得部110は、検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する。取得部121は、例えば、有線又は無線による通信により第二文書情報を取得することとしてもよいし、あるいは、記憶部130に予め記憶されていた他の文書データを取得するものであってもよいし、文書分類装置に他の文書データを記憶した他の記憶媒体が接続されて当該他の記憶媒体から他の文書データを取得することとしてもよい。他の記憶媒体とは、例えば、フラッシュメモリなどの可搬型の記憶媒体である。また、第二文書情報は、第二文書情報の文書その物を示すデータであってもよいし、第二文書情報を示す識別情報であってもよい。また、第二特徴情報は、他の文書データの技術的特徴を示すものであって、例えば、IPC、CPC、ECLA、ICO、USC、FI、Fタームなどが挙げられるが、これらに限定されるものではない。ここで、取得部110が取得する他の文書データは、1つでも複数でもどちらでもよい。
The obtaining
抽出部121は、第二特徴情報と第一特徴情報との一致度に基づいて、複数の文書データから所定数の文書データを抽出する。抽出部121は、例えば、記憶部130に記憶されている抽出プログラムを実行するプロセッサにより実現することができる。例えば、抽出部121は、複数の文書データの中から第二特徴情報と第一特徴情報との一致度が高い文書データを抽出することとしてもよいし、一致度が一定以上の文書データを抽出することとしてもよい。
The
判断部122は、抽出部121が抽出した所定数の文書データ各々に対応付けられた該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断する。判断部122は、例えば、記憶部130に記憶されている判断プログラムを実行するプロセッサにより実現することができる。例えば、判断部122は、抽出部121が抽出した文書データに対応付けられた該当情報が該当を示すものが多い場合に、他の文書データも、ユーザが所望する文献に該当すると判断することができる。なお、「ユーザにとって所望の文献であるか」という条件は、「所定の観点に合致する文献であるか」といった条件や「所定の条件に合致する文献であるか」というような条件であってもよい。
The
出力部140は、判断部122の判断結果を出力する。出力部140は、判断部122による判断結果を外部に出力できればよく、例えば、文書分類装置100が出力装置としてのモニターやスピーカを備えて、それらのモニターに画像情報として判断結果を出力する、あるいは、音声情報として判断結果を出力することとしてもよい。また、出力部140は、例えば、文書分類装置100に外部の装置が接続されて、無線又は有線により、外部の装置に判断結果を示す情報を送信することにより出力することとしてもよい。
The
以下、文書分類装置100について更に詳細に説明する。
Hereinafter, the
図2は、文書分類装置100の詳細な構成例を示すブロック図である。図2に示すように、文書分類装置100は、取得部110と、制御部120と、記憶部130と、出力部140とから構成される。文書分類装置100は、新たな文書データが入力された場合に、当該新たな文書データが、ユーザの所望する文献に該当するノイズであるか否かを判定する機能を有するコンピュータシステムである。
FIG. 2 is a block diagram illustrating a detailed configuration example of the
取得部110は、文書分類装置100が分類する新たな他の文書データとしての特許文献を示す情報を取得する機能を有する。当該特許文献を示す情報は、特許文献を示す情報であればよく、特許文献を示す識別情報あるいは文書そのものであってもよい。当該特許文献を示す情報には、当該特許文献の技術的情報を示す第二特徴情報としての特許分類を示す情報が付与されている。取得部110は、一例として、外部の装置(図示せず)から、未分類の他の文書データを取得する通信インターフェースである。
The
制御部120は、記憶部130に記憶されている各種プログラムを実行することで、文書分類装置100の各部を制御する機能を有するプロセッサである。制御部120は、抽出部121と、判断部122としての機能を有する。制御部120は、検索式に応じて検索された文献として、ユーザにとって所望の文献であるか否かを判定するために、各文献に付与されているIPCが「ノイズ」となるか「該当」するかを判断するためのIPC該当情報を事前情報として生成する機能を有する。また、制御部120は、抽出部121や判断部122の機能により、新たに検索式により検索されたノイズか該当かの分類が付与されていない特許文献が、ユーザの所望する文献であるか否かを判断する機能も有する。
The
抽出部121は、過去の分類済みの文献リストである過去文献リストの中から、新たな文献がノイズであるか否かを判定するために用いる文献を抽出する。抽出部121は、新たな文献とのIPCの一致度が高い順にソートされた過去文献リストの上位から所定数の文献を抽出する。
The
判断部122は、抽出部121が抽出した文献に付与されている該当情報としての分類(「ノイズ」か「該当」するか)に基づいて、新たな文献がユーザにとって所望の文献であるか否か、即ち、「ノイズ」であるか「該当」するかを判断する。判断部122は、抽出部121が抽出した文献のうち、過半数を占める分類を、新たな文献の分類とする。
The
制御部120による新たな文献が、ユーザの所望する文献であるか否かを判断する際の処理やIPC該当情報を生成する際の処理の詳細については、後述する。
Details of the process for determining whether the new document by the
記憶部130は、文書分類装置100が動作する上で必要とする各種のデータやプログラムを記憶する機能を有する記録媒体である。記憶部130は、例えば、HDD、SSD、フラッシュメモリ等により実現されるが、これらに限定されるものではない。記憶部130は、例えば、各IPCがノイズなのか該当するのかの事前情報を制御部120が生成するためのプログラムや、新たな文献が入力されたときに当該新たな文献がノイズなのか該当するのかを制御部120が判断するためのプログラムを記憶している。また、記憶部130は、過去の特許文献のリストであって、各文献がユーザの所望の文献に該当するか否かを示す該当情報が対応付けられた過去文献リスト300と、取得部110が取得するものであって、新たな文献のリストである新文献リスト350と、制御部120が生成した事前情報であるIPC該当情報500を記憶している。また、新たな文献がノイズか該当するかを判定する際に生成する一致度表400も記憶する。
The
出力部140は、制御部120の新たな文献についての判断結果に関する情報を外部の装置に対して出力する機能を有する通信インターフェースである。ここでは、例えば、図3(a)に示すような態様(少なくとも新たな文献の公報番号と分類とが対応付けられた態様)で、分類が付与された新文献リストを出力することとする。
The
以上が、文書分別装置100の構成の説明である。
The above is the description of the configuration of the
<データ>
ここから、文書分類装置100において用いられる各種データについて説明する。
<Data>
From here, various data used in the
図3(a)は、記憶部130に記憶されている分類済みの文書データに関する過去文献リスト300の構成例を示すデータ概念図である。過去文献リスト300は、過去に所定の検索式で検索された文献に関する情報であって、各文献がユーザにとって所望の文献であるかいなかを示す情報を含む。図3(a)に示すように、過去文献リスト300は、検索式に応じて検索された複数の文書データを示す第文書情報としての公報番号301と、対応する文書データである特許文献が検索の結果としてユーザが所望する内容が記載された文献であるか否かを示す該当情報に相当する情報である分類302と、当該文書データ各々に付与された1以上の技術的特徴を示す第一特徴情報に相当するIPC分類303とが対応付けられた情報である。
FIG. 3A is a data conceptual diagram illustrating a configuration example of the
公報番号301は、検索式に応じて検索された文書データであって、分類済みの文書データである特許文献を一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
The
分類302は、対応する特許文献が、ユーザにとって所望の文献であるか否かを示す該当情報と呼ぶべき情報であり、ここでは、対応する特許文献がユーザにとって所望の文献である場合には、「該当」で示し、所望の文献でない場合には、「ノイズ」の2値で示している。
The
IPC分類303は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類303は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
The
図3(b)は、文書分類装置100の取得部110が取得する新たな文書データの一例を示す新文献リスト350の構成例を示すデータ概念図である。新文献リスト350に記載される各特許文献が分類の対象となる新たな文書データの一覧である。新文献リスト350は、検索により新たに検索される他の文書データを示す情報に相当する公報番号351と、1つ以上の技術的特徴を示す第二特徴情報に相当するIPC分類352とが対応付けられた情報である。
FIG. 3B is a data conceptual diagram showing a configuration example of a
公報番号351は、文書データを一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
The
IPC分類352は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類352は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
The
図4は、新文献リスト300に含まれる一文献と、過去文献リスト350に含まれる各文献との技術分類の一致度を対応付けて、その一致度の高いものから降順に並べ替えた状態の一致度表400の構成例を示すデータ概念図である。一致度表400は、文書分類装置100が新たな文書データが、「ノイズ」か「該当」かを判断する過程で生成する情報である。
FIG. 4 shows a state in which one document included in the
公報番号401は、分類済みの文書データである特許文献を一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
The
分類402は、対応する特許文献が、ユーザにとって所望の文献であるか否かを示す該当情報と呼ぶべき情報であり、ここでは、対応する特許文献がユーザにとって所望の文献である場合には、「該当」で示し、所望の文献でない場合には、「ノイズ」の2値で示している。
The
IPC分類403は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類403は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
The
一致度404は、新文献リスト350に含まれる一つの新文献について、当該新文献に付与されているIPC分類352と、過去文献リスト300に含まれる各文献に対応付けられているIPC分類303との一致度を示す情報である。
The degree of
一致度表400は、新文献リスト350に含まれる各文献毎に生成される。そして、各文献について各々がユーザの所望する文献かそうでないかを、対応する一致度表400を用いて、判断部122が判断する。
The degree of coincidence table 400 is generated for each document included in the
図5は、IPC分類ごとに、ノイズとなるか、該当になるかの確率を示すIPC該当情報500の構成例を示すデータ概念図である。図5に示すようにIPC該当情報500は、IPC分類501と、公報件数502と、ノイズ件数503と、ノイズ率504と、ノイズ判定505と、とが対応付けられた情報である。
FIG. 5 is a data conceptual diagram showing a configuration example of
IPC分類501は、特許文献の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。IPC分類501は、過去文献リスト300に含まれる過去文献に付与されているIPCを抽出したものである。
The
公報件数502は、過去文献リスト300において、対応するIPC分類501が付与されている文献の総数を示す情報である。
The number of
ノイズ件数503は、対応するIPC分類501が付与されている過去文献のうち、ユーザが「ノイズ」であると判断した文献の総数を示す情報である。
The number of
ノイズ率504は、対応するIPC分類501が文書データに付与されている場合に、ユーザにとって所望の文献ではない確率を示唆する情報であって、対応するノイズ件数503を、対応する公報件数502で除した値を示している。
The
ノイズ判定505は、対応するIPC分類501が付与されている場合にノイズとなるか該当するかを判定するための値である。文書分類装置100は、ノイズ判定が「100」となっていれば「ノイズ」、即ちユーザにとって所望でない文書であると判定することができる。また、文書分類装置100は、ノイズ判定が「0」となっていれば「該当」、即ちユーザにとって所望の文書であると判定することができる。本実施の形態においては、ノイズ率504が95以上であるIPC分類はノイズ判定505を100とし、ノイズ率504が10以下であるIPC分類はノイズ判定505を0としている。なお、ここで95や10の閾値は、文書分類装置100が定めた値であり、適宜その設定を変更できることとしてもよい。当該設定を変更する場合には、文書分類装置100に接続された入力装置等を用いて変更することができる。
The
IPC該当情報500は、特定のIPC分類について、高確率でノイズあるいは該当となり得る文書を、文書分類装置100が特定するのに用いることができる。即ち、例えば、文書分類装置100は、ノイズ判定が100となっているIPC分類が付与されている文書は、ユーザにとって所望でない文献として特定することができる。逆に、ノイズ判定が0となっているIPC分類が付与されている文書は、ユーザにとって所望の文献であると特定することもできる。なお、図5に示す各値は一例である。
The
<動作>
ここから、文書分類装置100による歪み量の算出に係る動作を説明する。図6から図7にかけて示すフローチャートは、文書分類装置100が新たな文書の分類を行う前の事前準備のための処理を示すフローチャートである。当該処理は、文書分類装置100の制御部120が実行する処理である。本処理は、図5に示す該当確率情報500を生成するための処理である。以下、詳細に説明する。
<Operation>
From here, the operation | movement which concerns on calculation of the distortion amount by the
(ステップS601)
ステップS601において、文書分類装置100の制御部120は、処理に用いる変数iを、1に設定する。当該変数iは、過去文献リスト300に含まれる各文献について、処理対象の文献を定めるための変数である。変数iを1に設定した後に、ステップS602の処理に移行する。
(Step S601)
In step S601, the
(ステップS602)
ステップS602において、制御部120は、過去文献リスト300に含まれる全ての文献について、処理を行ったか否かを判定する。当該判定は、変数iの数が、過去文献リスト300の総数に一致するか否かによって判定できる。当該判定において、全ての文献について処理を行っていない場合には(NO)、ステップS603の処理に移行し、全ての文献について処理を終了している場合には(YES)、ステップS609の処理に移行する。
(Step S602)
In step S602, the
(ステップS603)
ステップS603において、制御部120は、過去文献リスト300のi行目の公報の分類が「ノイズ」であるか否かを、過去文献リスト300の対応する分類302を参照して判定する。i行目の公報の分類が「ノイズ」である場合には(YES)、ステップS604の処理に移行し、「ノイズ」でない、即ち、「該当」となっている場合には(NO)、ステップS605の処理に移行する。
(Step S603)
In step S <b> 603, the
(ステップS604)
ステップS604において、制御部120は、カウント設定値Cを1に設定して、ステップS606の処理に移行する。
(Step S604)
In step S604, the
(ステップS605)
ステップS605において、制御部120は、カウント設定値Cを0に設定して、ステップS607に移行する。
(Step S605)
In step S605, the
(ステップS606)
ステップS606において、過去文献リスト300のi番目の文献に対応するIPC分類303に示される各IPCのノイズカウントに、ステップS604又はステップS605において算出されたカウント設定値Cを足す。ここでノイズカウントは、各IPCがそれぞれノイズであるか否かを判断するための指標となる値である。その後に、ステップS607に移行する。
(Step S606)
In step S606, the count setting value C calculated in step S604 or step S605 is added to the noise count of each IPC indicated in the
(ステップS607)
ステップS607において、制御部120は、過去文献リスト300のi番目の文献に対応するIPC分類に示される各IPC各々についての総数を示す総カウント値に1を足す。その後に、ステップS608に移行する。
(Step S607)
In step S <b> 607, the
(ステップS608)
ステップS608において、制御部120は、変数iに1を足した値を次のiの値として、ステップS602の処理に戻る。
(Step S608)
In step S608, the
(ステップS609)
ステップS609において、制御部120は、閾値Tを、過去文献リスト300に記載されている文献の総数である総文献数の2.5%に設定して、ステップS610の処理に移行する。なお、ここで、閾値Tは、各IPCごとに設定される。
(Step S609)
In step S609, the
(ステップS610)
ステップS610において、制御部120は、ステップS609において算出した閾値Tが50を超えるか否かを判定する。閾値Tが50を超えている場合には(YES)、ステップS611の処理に移行し、超えていない場合には(NO)、閾値をそのままの値にして、図7のステップS701の処理に移行する。
(Step S610)
In step S610, the
(ステップS611)
ステップS611において、制御部120は、閾値Tを50に設定しなおして、図7のステップS701の処理に移行する。
(Step S611)
In step S611, the
(ステップS701)
図7に示すステップS701において、制御部120は、変数jを1に設定し、ステップS702の処理に移行する。変数jは、各IPCについての処理対象となるIPCを特定するための変数である。
(Step S701)
In step S701 illustrated in FIG. 7, the
(ステップS702)
ステップS702において、制御部120は、変数jが処理対象のIPCの総数に1を足した数と同じであるか否かを判定する。変数jが処理対象のIPCの総数に1を足した数と同数である場合には(YES)、処理を終了し、同数でない場合には(ステップS703)の処理に移行する。
(Step S702)
In step S702, the
(ステップS703)
ステップS703において、制御部120は、各IPCについて、総件数が閾値T未満であるか否かを判定する。総件数が閾値T未満である場合には(YES)、ステップS709に移行し、閾値T未満でない場合には(NO)、ステップS704の処理に移行する。
(Step S703)
In step S703, the
(ステップS704)
ステップS704において、制御部120は、各IPCのノイズ率を、各IPCのノイズカウント値を、当該IPCの総カウント値で除した値として算出する。ノイズカウント値は、図6のステップS602からS608の処理を繰り返すことで、ステップS606の処理により算出される値である。また、IPCの総カウント値は、ステップS602からS608の処理を繰り返すことで、ステップS607の処理により算出される値である。ノイズ率を算出した後には、ステップS705の処理に移行する。
(Step S704)
In step S704, the
(ステップS705)
ステップS705において、制御部120は、各IPCについて各々のノイズ率が10%未満であるか否かを判定する。10%未満である場合には(YES)、ステップS706に移行し、10%未満でない場合、即ち、10%以上である場合には(NO)、ステップS708の処理に移行する。
(Step S705)
In step S705, the
(ステップS706)
ステップS706において、制御部120は、IPCノイズ率が10%未満であったIPCのノイズ判定を0%に設定する。その後に、ステップS709の処理に移行する。
(Step S706)
In step S706, the
(ステップS707)
ステップS707において、制御部120は、IPCノイズ率が10%未満ではなかったIPC各々について、ノイズ率が95%以上であるか否かを判定する。ノイズ率が95%以上であった場合には(YES)、ステップS709に移行し、ノイズ率が95%以上でなかった場合には(NO)、ノイズ率は、ステップS704で算出した値として、ステップS709の処理に移行する。
(Step S707)
In step S707, the
(ステップS708)
ステップS708において、制御部120は、IPCノイズ率が95%以上であったIPCのノイズ判定を100%に設定する。その後にステップS709の処理に移行する。
(Step S708)
In step S708, the
(ステップS709)
ステップS709において、制御部120は、jに1加算した値を新たなjとし、ステップS702の処理に戻る。
(Step S709)
In step S709, the
以上の処理を実行することにより、制御部120は、各IPCに対してノイズ率が算出され、図5に示すIPC該当情報500を生成し、記憶部130に記憶する。
By executing the above processing, the
次に、実際に新たな文書データ(公報)を入力された場合に、その公報が「ノイズ」であるか、「該当する」かを文書分類装置100が判断する際の動作について説明する。図8〜図10にかけて示すフローチャートが当該処理に該当する。本処理は、取得部110が新たな文献の集合である新文献リスト350を入手した後に、抽出部121及び判断部122が実行する処理となる。以下、詳細に説明する。
Next, an operation when the
(ステップS801)
ステップS801において、判断部122は、未判別の文献を区別するための変数lを1に設定する。その後に、ステップS802の処理に移行する。
(Step S801)
In step S801, the
(ステップS802)
ステップS802において、判断部122は、未判別の文献が残っているか否かを判定する。当該判定は、新文献リスト350に含まれる文献数と、変数lが一致するか否かによって行う。未判別の文献が残っている場合には(YES)、ステップS803の処理に移行し、残っていない場合には(NO)、処理を終了する。
(Step S802)
In step S802, the
(ステップS803)
ステップS803において、判断部122は、l番目の公報のIPCを抽出する。ここでは、新文献リスト350のIPC分類352から抽出する。抽出したIPCは個別に管理する。IPCを抽出した後に、ステップS804の処理に移行する。
(Step S803)
In step S803, the
(ステップS804)
ステップS804において、判断部122は、処理を行っていないIPCを識別するために用いる変数mを1に設定する。ここで変数mの最大値は、ステップS803において抽出したIPCの合計数に相当する。その後に、ステップS805の処理に移行する。
(Step S804)
In step S804, the
(ステップS805)
ステップS805において、判断部122は、最後のIPCについての判定であるか、即ち、mがmの総数に1を足した数になっているか否かを判定する。mがIPCの総数に1を足した数になっている場合には(YES)、ステップS806に移行し、なっていない場合には(NO)、ステップS812の処理に移行する。
(Step S805)
In step S805, the
(ステップS806)
ステップS806において、判断部122は、検索式IPCとの一致IPC数カウントがmになっているか否かを判定する。なっている場合には(YES)、ステップS807に移行し、なっていない場合には(NO)、図9のステップS901の処理に移行する。
(Step S806)
In step S806, the
(ステップS807)
ステップS807において、判断部122は、対象のIPCのノイズ判定を0%とし、ステップS811の処理に移行する。
(Step S807)
In step S807, the
(ステップS808)
ステップS808において、判断部122は、ノイズ判定が0であるか否かを判定する。ノイズ判定が0である場合には(YES)、ステップS809の処理に移行し、0ではない場合には(NO)、ステップS810の処理に移行する。なお。ここでは、ノイズ判定が0であるか否かに基づいて判定しているが、これは、ノイズ判定が100であるか否かに基づいて判定してもよく、ノイズ判定が100である場合にステップS810の処理に移行し、100でない場合にステップS809の処理に移行することになる。
(Step S808)
In step S808, the
(ステップS809)
ステップS809において、判断部122は、Pl、即ち、l番目の文献が「該当」、即ち、ユーザが所望する文献であると判断し、l番目の文献に対応付けて記憶する。その後に、ステップS811の処理に移行する。
(Step S809)
In step S809, the
(ステップS810)
ステップS810において、判断部122は、Pl、即ち、l番目の文献が「ノイズ」、即ち、ユーザが所望する文献ではないと判断し、l番目の文献に対応付けて記憶する。その後に、ステップS811の処理に移行する。
(Step S810)
In step S810, the
(ステップS811)
ステップS811において、判断部122は、変数lに1加算した値を新たな変数lとし、ステップS802の処理に戻る。
(Step S811)
In step S811, the
(ステップS812)
ステップS812において、判断部122は、処理対象のIPCのノイズ率が、IPC該当情報500において0%若しくは100%に設定されているか否かを判定する。ノイズ率が0%若しくは100%に設定されている場合には(YES)、ステップS813に移行し、設定されていない場合には(NO)、ステップS814の処理に移行する。
(Step S812)
In step S812, the
(ステップS813)
ステップS813において、判断部122は、新たな文献のノイズ判定を対象IPCのノイズ判定値(即ち、0%若しくは100%のいずれか)に設定して、ステップS808の処理に移行する。当該処理は、新たな文献が、IPC該当情報500において、ノイズ100%となるIPC分類または該当100%となるIPC分類を有する場合に、IPC該当情報500で示される分類をそのまま新たな文献に適用するものである。
(Step S813)
In step S813, the
(ステップS814)
ステップS814において、判断部122は、処理対象のIPCが検索式として使用したIPCと一致するか否かを判定する。一致する場合には(YES)、ステップS815に移行し、一致しない場合には(NO)、ステップS816の処理に移行する。
(Step S814)
In step S814, the
(ステップS815)
ステップS815において、判断部122は、検索式IPCと一致するIPC数カウントを1加算する。その後に、ステップS816の処理に移行する。
(Step S815)
In step S815, the
(ステップS816)
ステップS816において、判断部122は、変数mに1加算した値を新たなmとし、ステップS805の処理に戻る。
(Step S816)
In step S816, the
(ステップS901)
ステップS901において、判断部122は、変数kを1に設定する。変数kは、処理対象となる過去文献リスト300中の過去文献を識別するための用いる変数である。変数kを1に設定した後に、ステップS902の処理に移行する。
(Step S901)
In step S901, the
(ステップS902)
ステップS902において、判断部122は、処理対象の文献が、過去文献リスト300の過去文献リストの総数になっているか否かを、変数kが過去文献リスト300に含まれる過去文献の総数に1足した値に一致するか否かによって判定する。処理対象の文献が、過去文献リスト300に含まれる過去文献の最後の文献になっている場合には(YES)、図10のステップS1001に移行し、なっていない場合には(NO)、ステップS903の処理に移行する。
(Step S902)
In step S <b> 902, the
(ステップS903)
ステップS903において、判断部122は、過去文献リスト300のk番目の公報のIPCを抽出する。即ち、過去文献リスト300のk行目のIPC分類303から、各IPCを抽出する。その後に、ステップS904の処理に移行する。
(Step S903)
In step S903, the
(ステップS904)
ステップS904において、新文献リスト350のh番目の公報の各IPC(h)を、新文献リスト350のIPC分類352から抽出する。その後に、ステップS905の処理に移行する。
(Step S904)
In step S904, each IPC (h) of the h-th publication in the
(ステップS905)
ステップS905において、判断部122は、変数nを1に設定する。変数nは、処理対象の新文献に付与されているIPCのうちの処理対象となっているIPCを区別するための変数である。変数nを1に設定した後に、ステップS906の処理に移行する。
(Step S905)
In step S905, the
(ステップS906)
ステップS906において、判断部122は、nがラストになっているか、即ち、新文献に付与されている全てのIPCについて処理を行ったか否かを判定する。行っている場合には(YES)、ステップS906に移行し、行っていない場合には(NO)、ステップS907の処理に移行する。
(Step S906)
In step S906, the
(ステップS907)
ステップS907において、判断部122は、IPC(h)nが、検索式のIPCと一致するか否かを判定する。一致する場合には(YES)、ステップS908に移行し、一致しない場合には(NO)、ステップS909の処理に移行する。
(Step S907)
In step S907, the
(ステップS908)
ステップS908において、判断部122は、対象IPCカウントを1減算し、ステップS911の処理に移行する。
(Step S908)
In step S908, the
(ステップS909)
ステップS909において、判断部122は、IPC(h)nがIPC(k)に一致するか否かを判定する。即ち、新文献リスト350のh番目の新文献に付与されているIPCのうち、n番目のIPCが、過去文献リスト300のk番目の過去文献に付与されているIPCのいずれかと一致するか否かを判定する。一致する場合には、ステップS910に移行し(YES)、一致しない場合には(NO)、ステップS911の処理に移行する。
(Step S909)
In step S909, the
(ステップS910)
ステップS910において、判断部122は、IPC一致数カウントを1加算し、その後に、ステップS911の処理に移行する。
(Step S910)
In step S910, the
(ステップS911)
ステップS911において、判断部122は、kに1加算した値を新たなkとし、ステップS902の処理に戻る。
(Step S911)
In step S911, the
(ステップS912)
ステップS912において、判断部122は、新文献リスト350のh番目の新文献のIPCと、過去文献リスト300のk番目の過去文献に付与されているIPCとの一致率を、それまでにカウントしたIPC一致率カウントを、対象IPCカウント数で除することで、算出する。その後に、ステップS913の処理に移行する。
(Step S912)
In step S912, the
(ステップS913)
ステップS913において、判断部122は、変数kに1加算した値を新たなkとし、ステップS902の処理に戻る。
(Step S913)
In step S913, the
(ステップS1001)
ステップS1001において、判断部122は、新文献リスト300の新文献に付与されているIPCと、過去文献リスト350の過去文献各々に付与されているIPCとの各文献毎の一致率を降順で並べ替える。その後に、ステップS1002の処理に移行する。
(Step S1001)
In step S <b> 1001, the
(ステップS1002)
ステップS1002において、抽出部121は、変数qを1に設定する。変数qは、IPCの一致度の高いものから、過去文献を抽出するため個数を特定するための変数である。変数qを1に設定した後に、ステップS1003の処理に移行する。
(Step S1002)
In step S1002, the
(ステップS1003)
ステップS1003において、抽出部121は、qが8になっているか否かを判定する。qが8になっている場合には(YES)、ステップS1004に移行し、なっていない場合には(NO)、ステップS1009の処理に移行する。
(Step S1003)
In step S1003, the
(ステップS1004)
ステップS1004において、判断部122は、対象の新たに検索された特許文献が、ユーザにとって所望の文献であるか否かを判断するための指標tを、ノイズカウントを比較公報数カウントで除することで算出する。ノイズカウントは、ステップS1011において算出される数であって、特許分類の一致度の高かった文献の上位から所定数抽出した過去文献の中で、ノイズである文献の個数を示す。比較公報数カウントは、ステップS1012においてカウントされる数であって、qの最大数に一致する。即ち、比較公報数カウントは、抽出する公報数のことを意味する。tを算出すると、ステップS1005の処理に移行する。
(Step S1004)
In step S <b> 1004, the
(ステップS1005)
ステップS1005において、判断部122は、ステップS1004で算出したtが所定の閾値αを超えるか否かを判定する。tが閾値αを超えている場合には(YES)、ステップS1006に移行し、超えていない場合には(NO)、ステップS1007の処理に移行する。
(Step S1005)
In step S1005, the
(ステップS1006)
ステップS1006において、判断部122は、対応する新たな公報が、ユーザの所望の文献に該当することを示す情報を付与する(該当すると分類する)。その後に、ステップS1008の処理に移行する。
(Step S1006)
In step S1006, the
(ステップS1007)
ステップS1007において、判断部122は、対応する新たな公報が、ユーザの所望の文献ではないものとして、ノイズであることを示す情報を付与する(ノイズであると分類する)。その後に、ステップS1008の処理に移行する。
(Step S1007)
In step S <b> 1007, the
(ステップS1008)
ステップS1008において、判断部122は、変数lに1加算した値を新たなlとし、図8のステップS802の処理に移行する。
(Step S1008)
In step S1008, the
(ステップS1009)
ステップS1009において、判断部122は、処理対象の文献数が、過去文献リスト300の総数に1足した値に達したか否かを判定する。当該判定は、過去文献リスト300に、q個の文献が含まれていない場合のための処置である。処理対象の文献の数が過去文献リスト300の総数に1足した値に達していた場合には(YES)、ステップS1004に移行し、達していなかった場合には(NO)、ステップS1010の処理に移行する。
(Step S1009)
In step S <b> 1009, the
(ステップS1010)
ステップS1010において、判断部122は、過去文献リストのq番目の公報の分類302が「ノイズ」であるか否かを判定する。ノイズであると判定した場合には(YES)、ステップS1011に移行し、ノイズでないと判定した場合には(NO)、ステップS1012の処理に移行する。
(Step S1010)
In step S1010, the
(ステップS1011)
ステップS1011において、判断部122は、ノイズカウントを1加算し、ステップS1012の処理に移行する。
(Step S1011)
In step S1011, the
(ステップS1012)
ステップS1012において、判断部122は、比較公報数カウントを1加算し、ステップS1013の処理に移行する。
(Step S1012)
In step S1012, the
(ステップS1013)
ステップS1013において、判断部122は、変数qに1加算した値を新たなqとし、ステップS1003の処理に移行する。
(Step S1013)
In step S1013, the
図8から図10に示す処理を実行することにより、新文献リスト350に含まれる新たな文献全てについて、文書分類装置100は、新たな文献各々が、ノイズであるか否かを判定することができる。
By executing the processing shown in FIGS. 8 to 10, the
以上が、文書分類装置100の動作の説明である。
The operation of the
<まとめ>
上記実施の形態に係る文書分類装置は、特許公報に元々付与されている特許分類に基づいて、予め検索式により得られた文献が所望のものであるか否かを、「ノイズ」、「該当」という分類情報を付与しておく。そして、新たな特許公報が入力されたときに、その新たな特許公報に付与されている特許分類と、分類済みの特許公報の特許分類との一致度に基づいて、文献を所定数抽出する。そして、抽出された文献に付与されている分類が「ノイズ」と「該当」とのいずれが多いかによって、新たな特許公報が「ノイズ」であるか「該当」するのかを、特許公報の内容を精査しなくとも分類することができる。そして、ユーザは、ユーザが設定した検索式に応じて検索された文献であっても、ノイズと判定された文献については、その内容を確認する必要がなくなるので、文献のスクリーニングに要する時間を短縮することができる。また、文書分類装置としては、公報内を精査する必要がない(形態素解析を行ったり、形態素解析により抽出された膨大な個数のワードの一致率などを見たりする必要がない)ので、特許文献1〜3に示す分類装置よりもプロセッサの処理負荷を少なくすることができる。
<Summary>
The document classification device according to the above embodiment determines whether or not a document obtained by a search formula in advance is a desired one based on the patent classification originally given to the patent gazette. "Is given. When a new patent publication is input, a predetermined number of documents are extracted based on the degree of coincidence between the patent classification assigned to the new patent publication and the patent classification of the classified patent publication. The contents of the patent gazette indicate whether the new patent gazette is “noise” or “corresponding” depending on whether the classification given to the extracted document is “Noise” or “Applicable”. Can be classified without scrutiny. And even if the document is searched according to the search formula set by the user, it is not necessary to check the content of the document determined to be noise, so the time required for document screening is reduced. can do. In addition, as a document classification device, it is not necessary to scrutinize the inside of the official gazette (it is not necessary to perform morphological analysis or see the matching rate of a huge number of words extracted by morphological analysis). The processing load of the processor can be reduced as compared with the classification devices shown in 1 to 3.
<補足>
上記実施の形態に係る文書分類装置は、上記実施の形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
<Supplement>
It goes without saying that the document classification device according to the above embodiment is not limited to the above embodiment, and may be realized by other methods. Hereinafter, various modifications will be described.
(1)上記実施の形態においては特に説明していないが、抽出部121が抽出する文献数qは、奇数であることが望ましい。奇数に設定することで、必ず、「ノイズ」か「該当」を特定できるためである。その変数qは、所謂k近傍法を用いて、算出するとよい。
(1) Although not specifically described in the above embodiment, the number of documents q extracted by the
なお、qを偶数に設定した場合に、「ノイズ」と「該当」との数が一致するような場合も考えられる。そのため、文書分類装置は、以下のような手法を用いて文書を分類することとしてもよい。即ち、「ノイズ」の文献の基本値を「−1」、「該当」の基本値を「+1」とする。そして、その基本値に対して一致度を重み値として乗じた値を当該文献のノイズか該当かの分類値とする。そして、判断部122は、抽出部121が抽出した文献の分類値を合算し、その値が正であれば、「該当」と分類し、負であれば、「ノイズ」と分類することとしてもよい。当該手法の場合、「ノイズ」か「該当」かの判断処理に係る処理負荷は上述の実施形態に示した処理による処理負荷よりも大きくなるものの、より正確に「ノイズ」か「該当」かの判断を行うことができる。即ち、文書分類装置100は、重み付けによる補正を行った上で、分類を行うこととしてもよい。なお、ここでは、一致度そのものを重み値としているが、これはその限りではなく、任意の値を重み値としてもよい。
When q is set to an even number, the number of “noise” and “corresponding” may be the same. Therefore, the document classification device may classify the document using the following method. That is, the basic value of the “noise” document is “−1”, and the basic value of “applicable” is “+1”. Then, a value obtained by multiplying the basic value by the matching degree as a weight value is set as a classification value indicating whether the reference is noise or appropriate. And the
(2)上記実施の形態においては、ノイズか該当かの判定において過半数を占める方の分類を新たな文献の分類としているが、これはその限りではない。例えば、抽出部121が抽出するq個の文献のうち、所定数以上の文献の分類が「ノイズ」であれば、新たな文献も「ノイズ」であると判断する構成としてもよい。例えば、抽出した文献数を10個とし、そのうちの8個以上の分類が「ノイズ」であれば、新たな文献の分類を「ノイズ」とするように構成してもよい。
(2) In the above-described embodiment, the classification of the majority occupying the determination of whether it is noise or not is the classification of a new document, but this is not limited thereto. For example, if the classification of a predetermined number or more of the q documents extracted by the
(3)上記実施の形態においては、各技術的特徴である特許分類がノイズであるか該当であるかを判定するにおいて、ノイズ率が10%未満である分類をノイズ判定0%とし、IPCノイズ率が95%以上である分類をノイズ判定100%とすることとした。ここで、10%の閾値は、対応する分類が付与されている場合に、文献がユーザの所望する文献に該当するか否かを判定するための第2閾値であると言える。つまり、ステップS705における判定は、該当している率が90%以上であるかの判定であるともいえる。また、ステップS707における判定に用いた第1閾値についても同様のことが言える。
(3) In the above embodiment, in determining whether the patent classification, which is a technical feature, is noise or appropriate, the classification with a noise rate of less than 10% is set as
つまり、文書分類装置100は、文献に付与されている特許分類が該当か否かを示す該当率が第1閾値である90%以上であるか否かに基づいて判定し、非該当率が第2閾値である95%以上であるか否かにに基づいて判定していることが理解できる。ここで、第1閾値と第2閾値との間に差を設けることによって、分類を、ノイズか該当かのいずれかに必ず分類できるようにすることができる。また、その分類がノイズであることを判定することを優先するのか、該当であることを判定することを優先するのかに応じて、第1閾値と第2閾値とを変動させることとしてもよい。そのために、文書分類装置100は、第1閾値、第2閾値を設定するための設定部を備えることとしてもよい。当該設定部に対する入力は、文書分類装置100が学習によって適切な値に設定することとしてもよいし、文書分類装置100のユーザが設定することとしてもよい。なお、これらの判定に用いた閾値のパーセンテージは、上記実施の形態に示した数値に限るものではなく、適宜その設定値を、文書分類装置100のオペレータが変更することができる。
That is, the
(4)上記実施の形態において、IPCノイズ率が100%の分類が付与されている文献を、ノイズと分類し、IPCノイズ率が0%の分類が付与されている文献を、該当に分類することとしている。しかしながら、場合によっては、ノイズ率が100%の分類と、ノイズ率が0%の分類が付与されている文献が存在する可能性がある。そのような場合には、予めユーザが定めた所定の基準にしたがって、文書分類装置100は、その文献を「ノイズ」であると判定してもよいし、「該当」であると判定してもよい。例えば、「ノイズ」を優先する設定とした場合には、「ノイズ」であると判定し、「該当」を優先する設定とした場合には、「該当」であると判定することとしてよい。
(4) In the above embodiment, a document to which a classification with an IPC noise rate of 100% is assigned is classified as noise, and a document to which a classification with an IPC noise rate of 0% is assigned is classified as applicable. I am going to do that. However, in some cases, there may be a document to which a classification with a noise rate of 100% and a classification with a noise rate of 0% are given. In such a case, the
(5)上記実施の形態においては、文書分類装置が新たな文書データを分類する手法として、文書分類装置100を構成する各機能部として機能するプロセッサが文書分類プログラム等を実行することにより、新たな文書データを分類することとしているが、これは装置に集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって実現してもよい。また、これらの回路は、1または複数の集積回路により実現されてよく、上記実施の形態に示した複数の機能部の機能を1つの集積回路により実現されることとしてもよい。LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSIなどと呼称されることもある。すなわち、図11に示すように、文書分類装置100を構成する各機能部は、物理的な回路により実現されてもよい。図11に示すように、文書分類装置100は、記憶回路130aと、取得回路110aと、抽出回路121aと、判断回路122aと、出力回路140a、とを備え、各回路は、上述の同名の機能部と同様の機能を有する。
(5) In the above embodiment, as a method for classifying new document data by the document classification apparatus, a processor functioning as each functional unit constituting the
また、上記文書分類プログラムは、プロセッサが読み取り可能な記録媒体に記録されていてよく、記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記文書分類プログラムは、当該文書分類プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記プロセッサに供給されてもよい。本発明は、上記文書分類プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 The document classification program may be recorded on a processor-readable recording medium, and the recording medium may be a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic A circuit or the like can be used. The document classification program may be supplied to the processor via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the document classification program. The present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the document classification program is embodied by electronic transmission.
なお、上記文書分類プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。 The document classification program can be implemented using, for example, a script language such as ActionScript or JavaScript (registered trademark), an object-oriented programming language such as Objective-C or Java (registered trademark), or a markup language such as HTML5. .
(6)上記実施の形態及び各補足に示した構成は、適宜組み合わせることとしてもよい。 (6) The configurations described in the above embodiments and supplements may be combined as appropriate.
100 文書分類装置
110 取得部
121 抽出部
122 判断部
140 出力部
100
Claims (9)
前記検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得部と、
前記第二特徴情報と前記第一特徴情報との一致度に基づいて、前記複数の文書データから所定数の文書データを抽出する抽出部と、
前記抽出部が抽出した前記所定数の文書データ各々に対応付けられた前記該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する判断部と、
前記判断部の判断結果を出力する出力部とを備える文書分類装置。 First document information indicating a plurality of document data searched according to a search formula, first feature information indicating one or more technical features of the document data assigned to the document data, and the document data A storage unit that stores corresponding information indicating whether or not the document is desired for the user;
An acquisition unit that acquires second document information indicating other document data that is newly searched according to the search formula and is given second feature information indicating one or more technical features;
An extraction unit that extracts a predetermined number of document data from the plurality of document data based on the degree of coincidence between the second feature information and the first feature information;
A determination unit that determines whether the other document data is a document desired by the user based on the corresponding information associated with each of the predetermined number of document data extracted by the extraction unit;
A document classification apparatus comprising: an output unit that outputs a determination result of the determination unit.
前記判断部は、前記抽出部が抽出した文献に対応付けられている該当情報が、ユーザにとって所望の文献であることを示すものが閾値より多い場合に、前記他の文書データはユーザにとって所望の文献であると判断し、ユーザにとって所望の文献でないことを示すものが閾値よりも多い場合に、前記他の文書データはユーザにとって所望の文献ではないと判断する
ことを特徴とする請求項1に記載の文書分類装置。 The extraction unit extracts a predetermined number from the plurality of document data from a high degree of coincidence between the second feature information and the first feature information,
The determination unit determines that the other document data is desired by the user when the corresponding information associated with the document extracted by the extraction unit is more than a threshold value indicating that the document is desired by the user. The document according to claim 1, wherein the document is determined to be a document, and if the number of documents indicating that the document is not desired for the user is greater than a threshold value, the other document data is determined not to be a document desired for the user Document document classification device.
ことを特徴とする請求項1又は2に記載の文書分類装置。 The determination unit weights the corresponding information associated with the document extracted by the extraction unit according to the degree of matching, and based on the corresponding information after the weighting, the other document The document classification apparatus according to claim 1, wherein data is determined as to whether or not the document is a document desired for the user.
ことを特徴とする請求項1〜3のいずれか1項に記載の文書分類装置。 The determination unit associates the first feature information of the document data that is associated with the first feature information and indicates that the corresponding information is a document that the user does not desire. The non-applicable rate indicating the ratio to the entire document data is determined as a document that the user does not desire other document data having the second feature information that matches the first feature information exceeding the first threshold. The document classification device according to claim 1, wherein
ことを特徴とする請求項4に記載の文書分類装置。 The determination unit associates the first feature information of document data that is associated with the first feature information and indicates that the corresponding information is a document desired by the user. The corresponding rate indicating the ratio with respect to the entire document data is determined as a document that the user desires other document data having the second feature information that matches the first feature information exceeding the second threshold. The document classification device according to claim 4, wherein the document classification device is characterized in that:
ことを特徴とする請求項5に記載の文書分類装置。 The document classification apparatus according to claim 5, wherein the first threshold is larger than the second threshold.
ことを特徴とする請求項1〜6のいずれか1項に記載の文書分類装置。 In the case where feature information is used in the search formula, the determination unit performs the determination based on the first feature information excluding the feature information and the second feature information. The document classification device according to any one of claims 1 to 6.
前記検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得ステップと、
前記第二特徴情報と前記第一特徴情報との一致度に基づいて、前記複数の文書データから所定数の文書データを抽出する抽出ステップと、
前記抽出ステップにおいて抽出した前記所定数の文書データ各々に対応付けられた前記該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する判断ステップと、
前記判断ステップにおける判断結果を出力する出力ステップとを含む文書分類方法。 First document information indicating a plurality of document data searched according to a search formula, first feature information indicating one or more technical features of the document data assigned to the document data, and the document data A storage step for storing the corresponding information indicating whether or not the document is desired for the user;
An acquisition step of acquiring second document information indicating other document data newly searched according to the search formula and provided with second feature information indicating one or more technical features;
An extraction step of extracting a predetermined number of document data from the plurality of document data based on the degree of coincidence between the second feature information and the first feature information;
A determination step of determining whether the other document data is a document desired for the user based on the corresponding information associated with each of the predetermined number of document data extracted in the extraction step;
A document classification method including an output step of outputting a determination result in the determination step.
検索式に応じて検索された複数の文書データを示す第一文書情報と、前記文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶機能と、
前記検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得機能と、
前記第二特徴情報と前記第一特徴情報との一致度に基づいて、前記複数の文書データから所定数の文書データを抽出する抽出機能と、
前記抽出機能が抽出した前記所定数の文書データ各々に対応付けられた前記該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する判断機能と、
前記判断機能の判断結果を出力する出力機能とを実現させる文書分類プログラム。 On the computer,
First document information indicating a plurality of document data searched according to a search formula, first feature information indicating one or more technical features of the document data assigned to the document data, and the document data A storage function for associating and storing corresponding information indicating whether or not the document is desired for the user;
An acquisition function for acquiring second document information indicating other document data that is newly searched according to the search formula and is given second feature information indicating one or more technical features;
An extraction function for extracting a predetermined number of document data from the plurality of document data based on the degree of coincidence between the second feature information and the first feature information;
A determination function for determining whether the other document data is a document desired by the user based on the corresponding information associated with each of the predetermined number of document data extracted by the extraction function;
A document classification program for realizing an output function for outputting a determination result of the determination function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065917A JP6735247B2 (en) | 2017-03-29 | 2017-03-29 | Document classification device, document classification method, and document classification program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065917A JP6735247B2 (en) | 2017-03-29 | 2017-03-29 | Document classification device, document classification method, and document classification program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018169753A true JP2018169753A (en) | 2018-11-01 |
JP6735247B2 JP6735247B2 (en) | 2020-08-05 |
Family
ID=64020325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017065917A Expired - Fee Related JP6735247B2 (en) | 2017-03-29 | 2017-03-29 | Document classification device, document classification method, and document classification program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6735247B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092825A (en) * | 2003-09-19 | 2005-04-07 | Ricoh Co Ltd | Document filtering device, document filtering method, and document filtering program |
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
JP2010020530A (en) * | 2008-07-10 | 2010-01-28 | Asahi Kasei Corp | Document classification providing device, document classification providing method and program |
JP2010146222A (en) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
-
2017
- 2017-03-29 JP JP2017065917A patent/JP6735247B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092825A (en) * | 2003-09-19 | 2005-04-07 | Ricoh Co Ltd | Document filtering device, document filtering method, and document filtering program |
JP2007323454A (en) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | Document classification device and program |
JP2010020530A (en) * | 2008-07-10 | 2010-01-28 | Asahi Kasei Corp | Document classification providing device, document classification providing method and program |
JP2010146222A (en) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | Document classification apparatus, document classification method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6735247B2 (en) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7110240B2 (en) | neural network classification | |
CN111444967B (en) | Training method, generating method, device, equipment and medium for generating countermeasure network | |
US20180039887A1 (en) | Systems, methods, and computer program products for extending, augmenting and enhancing searching and sorting capabilities by learning and adding concepts on the fly | |
CN106202177A (en) | A kind of file classification method and device | |
EP4202799A1 (en) | Machine learning data generation program, machine learning data generation method, machine learning data generation device, classification data generation program, classification data generation method, and classification data generation device | |
CN109948680B (en) | Classification method and system for medical record data | |
JP6642878B1 (en) | Computer, configuration method, and program | |
US11182605B2 (en) | Search device, search method, search program, and recording medium | |
EP3627402A1 (en) | Learning program, learning method, and learning apparatus | |
US20180053072A1 (en) | Verification device, verification method, and verification program | |
CN112131322A (en) | Time series classification method and device | |
JP7332024B2 (en) | Recognition device, learning device, method thereof, and program | |
JP2010061176A (en) | Text mining device, text mining method, and text mining program | |
Piri et al. | Imbalanced cardiotocography data classification using re-sampling techniques | |
CN107908649B (en) | Text classification control method | |
Osmanović et al. | Ovary cancer detection using decision tree classifiers based on historical data of ovary cancer patients | |
US20210330241A1 (en) | A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test | |
JP6735247B2 (en) | Document classification device, document classification method, and document classification program | |
Kaya | Automated gender‐Parkinson's disease detection at the same time via a hybrid deep model using human voice | |
JP6983729B2 (en) | Extractor, evaluation device, extraction method and extraction program | |
US20240320507A1 (en) | Device, method, and system for weighted knowledge transfer | |
KR102465050B1 (en) | Method and apparatus for classifying content type | |
Kumar et al. | Music tagging and similarity analysis for recommendation system | |
US20230281275A1 (en) | Identification method and information processing device | |
WO2022208709A1 (en) | Information processing device, classification method, and classification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6735247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |