JP2012003550A - Document retrieval method and program - Google Patents

Document retrieval method and program Download PDF

Info

Publication number
JP2012003550A
JP2012003550A JP2010138632A JP2010138632A JP2012003550A JP 2012003550 A JP2012003550 A JP 2012003550A JP 2010138632 A JP2010138632 A JP 2010138632A JP 2010138632 A JP2010138632 A JP 2010138632A JP 2012003550 A JP2012003550 A JP 2012003550A
Authority
JP
Japan
Prior art keywords
category
phrase
feature
document
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010138632A
Other languages
Japanese (ja)
Inventor
Takahisa Ono
貴久 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Electric Power Company Holdings Inc
Original Assignee
Tokyo Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Electric Power Co Inc filed Critical Tokyo Electric Power Co Inc
Priority to JP2010138632A priority Critical patent/JP2012003550A/en
Publication of JP2012003550A publication Critical patent/JP2012003550A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To construct a retrieval formula which is appropriate for retrieving a document matched with a purpose of retrieval even when there exists any peculiar negative example.SOLUTION: This document retrieval method includes: acquiring categories into which positive examples are classified in a document database classified into a plurality of hierarchized categories (step S2); acquiring feature words/phrases included in the positive examples classified into the categories, that is, feature words/phrases not included in negative examples classified into categories as category feature words/phrases for every acquired category (step S4); constructing a sub-retrieval formula based on the categories and the acquired category feature words/phrases for every acquired category (step S5); acquiring the feature words/phrases included in the positive examples (step S3); and constructing a main retrieval formula based on the sum set of the acquired feature words/phrases and the constructed sub-retrieval formula (step S6).

Description

本発明は、検索目的と一致する文書を検索する文書検索方法およびプログラムに関する。特に、複数の階層化されたカテゴリに分類される文書データベースを対象とする文書検索方法およびプログラムに関する。   The present invention relates to a document search method and program for searching for a document that matches a search purpose. In particular, the present invention relates to a document search method and program for a document database classified into a plurality of hierarchical categories.

従来より、例えば特許文献調査のように、検索目的と一致する文書を、複数の階層化されたカテゴリに分類される文書データベースの中から検索する場合がある。この場合には、例えば、検索式を構築し、この検索式を用いて検索を行う。   Conventionally, there is a case in which a document that matches a search purpose is searched from a document database classified into a plurality of hierarchized categories as in a patent document search, for example. In this case, for example, a search formula is constructed and a search is performed using this search formula.

検索式の構築には、検索目的と一致する文書(以下、「正例」とする)を抽出する条件であって、検索目的と一致しない文書(以下、「負例」とする)を除外する条件を求める、論理的概念学習が有効であると考えられる。論理的概念学習には、演繹的学習手法と、帰納的学習手法と、がある。演繹的学習手法としては、説明に基づく学習(EBL:Explanation Based Learning)があり、帰納的学習手法としては、類似性に基づく学習(SBL:Similarity Based Learning)がある(例えば、非特許文献1参照)。   The construction of a search expression is a condition for extracting documents that match the search objective (hereinafter referred to as “positive examples”), and excludes documents that do not match the search objective (hereinafter referred to as “negative examples”). It is considered that logical concept learning that seeks conditions is effective. Logical concept learning includes deductive learning techniques and inductive learning techniques. As a deductive learning method, there is learning based on explanation (EBL), and as an inductive learning method, there is learning based on similarity (SBL: Similarity Based Learning) (for example, see Non-Patent Document 1). ).

複数の階層化されたカテゴリは、概念構造を木構造として細分化していくことができるものであり、EBLにおける領域知識とみなすことができる。このため、EBLによれば、領域知識に基づいて、正例を適切に分類する条件を求め、カテゴリによる検索式を構築することができる。   The plurality of hierarchized categories can subdivide the conceptual structure into a tree structure and can be regarded as domain knowledge in EBL. For this reason, according to EBL, it is possible to obtain a condition for appropriately classifying positive examples based on domain knowledge, and to construct a search expression based on categories.

一方、SBLによれば、検索目的に対して適切な語句、すなわち有意な語句が、あらかじめ選定されている状態において、正例を包含し、負例を除外する語句の組合せを求め、語句による検索式を構築することができる。   On the other hand, according to SBL, in a state where words / phrases appropriate for a search purpose, that is, significant words / phrases are selected in advance, a combination of words / phrases including positive examples and excluding negative examples is obtained, and searching by words / phrases is performed. An expression can be constructed.

長尾真著“岩波講座ソフトウエア14;知識と推論”、岩波書店Nagao Makoto "Iwanami Course Software 14; Knowledge and Reasoning", Iwanami Shoten

ところが、EBLでは、特異な負例が存在すると、負例を除外できるカテゴリを領域知識内の細分化では求めることができず、カテゴリによる検索式を適切に構築できない場合があるという課題があった。   However, in EBL, if there is a specific negative example, there is a problem that a category in which the negative example can be excluded cannot be obtained by subdivision within the domain knowledge, and a search expression based on the category may not be appropriately constructed. .

一方、SBLでは、どの程度の有意性を有する語句をあらかじめ選定すればよいかについて、設定するのが困難であり、語句による検索式を適切に構築できない場合があるという課題があった。   On the other hand, in SBL, it is difficult to set in advance how much significance a phrase should be selected, and there is a problem that a search expression based on the phrase may not be appropriately constructed.

本発明者は、上述の課題を解決すべく鋭意検討を行った。その結果、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する語句の組合せを求めることで、適切な検索式を構築できることを見出し、本発明を完成させるに至った。   The present inventor has intensively studied to solve the above-described problems. As a result, in a document database classified into a plurality of hierarchical categories, a category in which positive examples are classified is obtained, and a combination of words and phrases that excludes negative examples from documents belonging to the obtained categories is obtained. The inventors have found that an appropriate search expression can be constructed, and have completed the present invention.

(1) 本発明は、複数の階層化されたカテゴリ(例えば、図6の特許分類階層に相当)に分類される文書データベース(例えば、後述の特許データベースに相当)の中から検索目的と一致する文書を検索する文書検索方法であって、前記文書データベースに含まれる複数の文書のうち正例(例えば、図7の特許文献1、2、4〜6、9〜19に相当)が分類されるカテゴリを取得する第1のステップ(例えば、図2のステップS2に相当)と、前記正例に含まれる特徴語句(例えば、式(4)の照明器具、環境制御、電動ブラインド、低コスト、日射状態取得部、連動制御に相当)を取得する第2のステップ(例えば、図2のステップS3に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句(例えば、式(1)の照明設備、空気調和器、照明器具に相当)として取得する第3のステップ(例えば、図2のステップS4に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式(例えば、式(1)〜(3)相当)を構築する第4のステップ(例えば、図2のS5に相当)と、前記第2のステップで取得された特徴語句の和集合(例えば、式(4)に相当)と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップ(例えば、図2のステップS6に相当)と、を備えることを特徴とする文書検索方法を提案している。   (1) The present invention matches a search purpose from a document database (e.g., corresponding to a patent database described later) classified into a plurality of hierarchical categories (e.g., equivalent to a patent classification hierarchy in FIG. 6). A document search method for searching for documents, in which positive examples (e.g., corresponding to Patent Documents 1, 2, 4 to 6, and 9 to 19 in FIG. 7) are classified among a plurality of documents included in the document database. A first step of acquiring a category (for example, corresponding to step S2 in FIG. 2) and a feature word / phrase included in the positive example (for example, lighting fixture of formula (4), environmental control, electric blind, low cost, solar radiation) A second step (equivalent to step S3 in FIG. 2) for acquiring a state acquisition unit (equivalent to interlocking control) and a positive example classified into the category for each category acquired in the first step Included in Among the plurality of documents, feature words / phrases not included in the negative examples classified into the category are classified into category feature words / phrases (for example, lighting equipment, air conditioner, and lighting equipment of formula (1)). For each category acquired in the third step (e.g., corresponding to step S4 in FIG. 2) and the category acquired in the third step. Acquired in the fourth step (for example, corresponding to S5 in FIG. 2) and the second step for constructing a sub-search expression (for example, corresponding to the expressions (1) to (3)) based on the feature words and phrases A fifth step (for example, FIG. 2) for constructing the search formula based on the union of the feature words (for example, corresponding to the formula (4)) and the sub-search formula constructed in the fourth step. Equivalent to step S6) It proposes a document retrieval method with features.

この発明によれば、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを取得する。そして、取得したカテゴリ毎に、カテゴリに分類される正例に含まれる特徴語句であって、カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。また、取得したカテゴリ毎に、カテゴリと、取得したカテゴリ特徴語句と、に基づいて副検索式を構築する。さらに、正例に含まれる特徴語句を取得する。そして、取得した特徴語句の和集合と、構築した副検索式と、に基づいて本検索式を構築する。このため、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する特徴語句を求めることができる。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。   According to the present invention, in the document database classified into a plurality of hierarchized categories, the category into which the positive example is classified is acquired. Then, for each acquired category, a feature word / phrase included in the positive example classified into the category and not included in the negative example classified into the category is acquired as a category feature word / phrase. For each acquired category, a sub-search expression is constructed based on the category and the acquired category feature phrase. Further, feature words / phrases included in the positive examples are acquired. Then, the search formula is constructed based on the acquired union of feature words and the constructed sub search formula. For this reason, in a document database classified into a plurality of hierarchized categories, a category in which positive examples are classified can be obtained, and a feature word or phrase that excludes negative examples can be obtained from documents belonging to the obtained categories. . Therefore, even if there are unique negative examples, this search expression that can select significant feature words and exclude negative examples can be constructed, and an appropriate search expression to search for documents that match the search purpose Can be built.

(2) 本発明は、(1)の文書検索方法について、前記第1のステップでは、前記正例が分類されるカテゴリを取得した後に、当該カテゴリの中から前記正例に属する全ての文書を包括する最小数のカテゴリを抽出し、前記第2のステップでは、前記正例に含まれる特徴語句を取得した後に、当該特徴語句の中から前記正例に属する全ての文書を包括する最小数の特徴語句を抽出し、前記第3のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリに分類される正例に属する全ての文書について前記カテゴリ特徴語句を取得した後に、当該カテゴリ特徴語句の中から前記正例に属する全ての文書を包括する最小数のカテゴリ特徴語句を抽出し、前記第4のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリと、前記第3のステップで抽出された最小数のカテゴリ特徴語句と、に基づいて副検索式を構築し、前記第5のステップでは、前記第2のステップで抽出された最小数の特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築することを特徴とする文書検索方法を提案している。   (2) In the document search method according to (1), in the first step, after obtaining a category in which the positive example is classified, all documents belonging to the positive example are selected from the category. The minimum number of categories to be included is extracted, and in the second step, after obtaining the feature words included in the positive example, the minimum number of all the documents belonging to the positive example are included from the feature words. Feature words / phrases are extracted, and in the third step, the category feature words / phrases are obtained for all documents belonging to positive examples classified into the category for each of the minimum number of categories extracted in the first step. Later, a minimum number of category feature phrases that include all documents belonging to the positive example are extracted from the category feature phrases, and in the fourth step, the most extracted category feature phrases are extracted in the first step. For each number of categories, a sub-search expression is constructed based on the category and the minimum number of category feature phrases extracted in the third step. In the fifth step, in the second step A document search method is proposed in which the search expression is constructed based on the union of the extracted minimum number of feature words and the sub-search expression constructed in the fourth step.

この発明によれば、正例に属する全ての文書を包括する最小数のカテゴリと、正例に属する全ての文書を包括する最小数の特徴語句と、正例に属する全ての文書を包括する最小数のカテゴリ特徴語句と、を抽出する。そして、抽出した最小数のカテゴリと、抽出した最小数の特徴語句と、抽出した最小数のカテゴリ特徴語句と、を用いて本検索式を構築する。このため、本検索式を構成する特徴語句の和集合および副検索式において、同一のカテゴリや、同一の特徴語句や、同一のカテゴリ特徴語句が含まれてしまうのを防止できる。したがって、本検索式の構成を簡略化することができ、検索目的と一致する文書を検索するための検索式を、より適切に構築することができる。   According to the present invention, the minimum number of categories including all documents belonging to the positive examples, the minimum number of feature words / phrases including all documents belonging to the positive examples, and the minimum number including all documents belonging to the positive examples. A number of category feature phrases are extracted. Then, the search formula is constructed using the extracted minimum number of categories, the extracted minimum number of feature words and the extracted minimum number of category feature words. For this reason, it is possible to prevent the same category, the same feature word, and the same category feature word from being included in the union and sub-search expression of the feature words constituting the search expression. Therefore, the structure of this search formula can be simplified, and a search formula for searching for a document that matches the search purpose can be constructed more appropriately.

(3) 本発明は、(2)の文書検索方法について、前記第1のステップは、前記正例が分類されるカテゴリを取得し、当該カテゴリをカテゴリ候補として設定する第1の設定ステップ(例えば、図3のステップS21に相当)と、前記カテゴリ候補の要素として当該カテゴリ候補に属する正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ候補を降順に並べ替える第1の整列ステップと(例えば、図3のステップS22、S23に相当)、最上位のカテゴリ候補を採用し、当該最上位のカテゴリ候補に属する正例の文書を他のカテゴリ候補の要素から削除するとともに、要素の無くなったカテゴリ候補を前記第1の設定ステップにおいて設定されたカテゴリ候補の中から除外する第1の採用ステップ(例えば、図3のステップS24〜S26に相当)と、前記他のカテゴリ候補の数が0になるまで、前記第1の整列ステップおよび前記第1の採用ステップを繰り返し、前記第1の採用ステップで採用されたカテゴリ候補を、前記最小数のカテゴリとして抽出する第1の抽出ステップ(例えば、図3のステップS27、S28に相当)と、を備え、前記第2のステップは、前記正例に含まれる特徴語句を取得し、当該特徴語句を特徴語句候補として設定する第2の設定ステップ(例えば、図4のステップS31に相当)と、前記特徴語句候補の要素として当該特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記特徴語句候補を降順に並べ替える第2の整列ステップ(例えば、図4のステップS32、S33に相当)と、最上位の特徴語句候補を採用し、当該最上位の特徴語句候補を含む正例の文書を他の特徴語句候補の要素から削除するとともに、要素の無くなった特徴語句候補を前記第2の設定ステップにおいて設定された特徴語句候補の中から除外する第2の採用ステップ(例えば、図4のステップS34〜S36に相当)と、前記他の特徴語句候補の数が0になるまで、前記第2の整列ステップおよび前記第2の採用ステップを繰り返し、前記第2の採用ステップで採用された特徴語句候補を、前記最小数の特徴語句として抽出する第2の抽出ステップ(例えば、図4のステップS37、S38に相当)と、を備え、前記第3のステップは、前記第1のステップで抽出された最小数のカテゴリ毎に、前記カテゴリ特徴語句を取得し、当該カテゴリ特徴語句をカテゴリ特徴語句候補として設定する第3の設定ステップ(例えば、図5のステップS41に相当)と、前記カテゴリ特徴語句候補の要素として当該カテゴリ特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ特徴語句を降順に並べ替える第3の整列ステップ(例えば、図5のステップS42、S43に相当)と、最上位のカテゴリ特徴語句候補を採用し、当該最上位のカテゴリ特徴語句候補を含む正例の文書を他のカテゴリ特徴語句候補の要素から削除するとともに、要素の無くなったカテゴリ特徴語句候補を前記第3の設定ステップにおいて設定されたカテゴリ特徴語句候補の中から除外する第3の採用ステップ(例えば、図5のステップS44〜S46に相当)と、前記他のカテゴリ特徴語句候補の数が0になるまで、前記第3の整列ステップおよび前記第3の採用ステップを繰り返し、前記第3の採用ステップで採用されたカテゴリ特徴語句候補を、前記最小数のカテゴリ特徴語句として抽出する第3の抽出ステップ(例えば、図5のステップS47、S48に相当)と、を備えることを特徴とする文書検索方法を提案している。   (3) In the document search method according to (2), the first step is a first setting step (for example, obtaining a category in which the positive example is classified and setting the category as a category candidate (for example, , Corresponding to step S21 in FIG. 3), and register the positive example documents belonging to the category candidate as elements of the category candidate, and arrange the category candidates in descending order based on the number of registered positive example documents. The first sorting step to be replaced (e.g., corresponding to steps S22 and S23 in FIG. 3), the highest category candidate is adopted, and a positive example document belonging to the highest category candidate is extracted from other category candidate elements. A first adopting step (for example) of deleting a category candidate having no elements from the category candidates set in the first setting step 3), and the first alignment step and the first adoption step are repeated until the number of other category candidates becomes 0, and the first adoption step A first extraction step (for example, corresponding to steps S27 and S28 in FIG. 3) that extracts the adopted category candidates as the minimum number of categories, and the second step is included in the positive example A second setting step (for example, corresponding to step S31 in FIG. 4), and a positive example including the feature word candidate as an element of the feature word candidate A second alignment step (for example, steps S32 and S in FIG. 4), in which the feature word candidates are rearranged in descending order based on the number of registered positive examples. 33) and the top-level feature phrase candidate are adopted, the original document including the top-level feature phrase candidate is deleted from the other feature phrase candidate elements, and the feature phrase candidates with no elements are deleted. A second adoption step (for example, corresponding to steps S34 to S36 in FIG. 4) that is excluded from the feature word candidates set in the second setting step, and the number of other feature word candidates is zero. Until the second alignment step and the second adoption step are repeated until the feature phrase candidates adopted in the second adoption step are extracted as the minimum number of feature phrases (for example, Corresponding to steps S37 and S38 in FIG. 4), and the third step acquires the category feature phrase for each of the minimum number of categories extracted in the first step. A third setting step (for example, corresponding to step S41 in FIG. 5) for setting a category feature word / phrase as a category feature word / phrase candidate and registering a positive example document including the category feature word / phrase candidate as an element of the category feature word / phrase candidate And a third alignment step (for example, corresponding to steps S42 and S43 in FIG. 5) for rearranging the category feature words in descending order based on the number of registered positive examples. The candidate is adopted, and the positive example document including the highest category feature phrase candidate is deleted from the elements of the other category feature phrase candidates, and the category feature phrase candidate having no elements is set in the third setting step. The third adoption step (for example, steps S44 to S46 in FIG. ), And repeating the third alignment step and the third adoption step until the number of other category feature phrase candidates becomes zero, and the category feature phrase candidates adopted in the third adoption step are The document search method is characterized by comprising a third extraction step (for example, corresponding to steps S47 and S48 in FIG. 5) that extracts as the minimum number of category feature words.

この発明によれば、カテゴリ、特徴語句、およびカテゴリ特徴語句のそれぞれの候補について、それぞれに対応する正例の文書を登録するとともに、それぞれに対応する正例の文書数に基づいて降順に並べ替える。そして、最上位の候補を採用し、最上位の候補に対応する正例の文書を他の候補の要素から削除するとともに、要素の無くなった候補を上述の並べ替えた候補の中から除外する。そして、上述の並べ替えと、上述の削除および除外と、を他の候補の数が0(ゼロ)になるまで繰り返す。このため、正例に属する全ての文書を包括する最小数のカテゴリと、正例に属する全ての文書を包括する最小数の特徴語句と、正例に属する全ての文書を包括する最小数のカテゴリ特徴語句と、を抽出することができる。   According to the present invention, for each category, feature phrase, and category feature phrase candidate, corresponding positive example documents are registered and sorted in descending order based on the number of corresponding positive example documents. . Then, the highest candidate is adopted, and the positive example document corresponding to the highest candidate is deleted from the other candidate elements, and the candidate having no elements is excluded from the rearranged candidates. Then, the above-described rearrangement and the above-described deletion and exclusion are repeated until the number of other candidates becomes 0 (zero). For this reason, the minimum number of categories encompassing all documents belonging to the positive example, the minimum number of feature words including all documents belonging to the positive example, and the minimum number of categories including all documents belonging to the positive example Feature phrases can be extracted.

(4) 本発明は、(1)〜(3)のいずれかの文書検索方法について、前記本検索式に基づいて前記文書データベースの中から検索された文書のうち、前記本検索式を構築する際に用いた文書を除くものを、前記本検索式との適合度合いに基づいて降順に並べ替える第6のステップ(例えば、図12のステップS102に相当)を備えることを特徴とする文書検索方法を提案している。   (4) In the document search method according to any one of (1) to (3), the present invention constructs the main search formula among documents searched from the document database based on the main search formula. A document search method comprising: a sixth step (for example, corresponding to step S102 in FIG. 12) that rearranges documents excluding documents used at the time of sorting in descending order based on the degree of conformity with the search formula. Has proposed.

この発明によれば、本検索式に基づいて文書データベースの中から検索された文書のうち、本検索式を構築する際に用いた文書を除くものを、本検索式との適合度合いに基づいて降順に並べ替える。このため、検索目的に一致するか否かの確認が行われていない文書について、本検索式との適合度合いの高いものから順に確認することができ、検索目的に一致する文書の検索を効率的に行うことができる。   According to the present invention, out of the documents searched from the document database based on the search formula, those excluding the document used when constructing the search formula are determined based on the degree of conformity with the search formula. Sort in descending order. For this reason, documents that have not been confirmed whether or not they match the search purpose can be checked in descending order of suitability with this search formula, and the search for documents that match the search purpose can be performed efficiently. Can be done.

(5) 本発明は、(1)〜(4)のいずれかの文書検索方法について、前記カテゴリ特徴語句は、前記第2のステップで取得された特徴語句には含まれないことを特徴とする文書検索方法を提案している。   (5) In the document search method according to any one of (1) to (4), the present invention is characterized in that the category feature word / phrase is not included in the feature word / phrase acquired in the second step. A document retrieval method is proposed.

この発明によれば、正例に含まれる特徴語句と、カテゴリ特徴語句とは、異なる語句となる。このため、特徴語句の和集合に含まれる特徴語句と、副検索式に含まれるカテゴリ特徴語句と、が同一の語句を含んで構成されてしまうのを防止できる。したがって、特徴語句の和集合と、副検索式とで、同一の検索条件が設定されてしまうのを防止でき、検索目的と一致する文書を検索するための検索式を、より適切に構築することができる。   According to the present invention, the feature phrase included in the positive example and the category feature phrase are different words. For this reason, it is possible to prevent the feature word / phrase included in the union of feature words / phrases and the category feature word / phrase included in the sub-search expression from including the same word / phrase. Therefore, it is possible to prevent the same search condition from being set by the union of feature words and the sub search expression, and to construct a search expression for searching for a document that matches the search purpose more appropriately. Can do.

(6) 本発明は、(1)〜(5)のいずれかの文書検索方法について、前記第3のステップでは、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例であって前記第2のステップで取得された特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得することを特徴とする文書検索方法を提案している。   (6) In the document search method according to any one of (1) to (5), in the third step, each category acquired in the first step is classified into the category. A feature word / phrase included in an example, which is a negative example classified into the category among the plurality of documents and not included in the negative example including the feature word / phrase acquired in the second step. The document search method is characterized by being acquired as a category feature word.

この発明によれば、正例が分類されるカテゴリ毎に取得されるカテゴリ特徴語句は、カテゴリに分類される正例に含まれる特徴語句であって、このカテゴリに分類される負例であって正例に含まれる特徴語句を含む負例には含まれない特徴語句となる。したがって、本検索式を構築するために用いるカテゴリ特徴語句を、より効率的に取得することができる。   According to the present invention, the category feature phrase acquired for each category into which the positive example is classified is a feature phrase included in the positive example classified into the category, and is a negative example classified into this category. The feature words / phrases are not included in the negative example including the feature words / phrases included in the positive example. Therefore, it is possible to more efficiently acquire category feature words used to construct this search expression.

(7) 本発明は、(1)〜(6)のいずれかの文書検索方法について、前記文書は、特許文献であり、前記カテゴリは、FI、IPC、ECLA、USC、またはテーマコードのいずれかであることを特徴とする文書検索方法を提案している。   (7) In the document search method according to any one of (1) to (6), the document is a patent document, and the category is any one of FI, IPC, ECLA, USC, or a theme code. We propose a document retrieval method characterized by

この発明によれば、文書が特許文献である場合に、本検索式を構築するために用いるカテゴリとして、FI、IPC、ECLA、USC、およびテーマコードを用いることができる。   According to the present invention, when a document is a patent document, FI, IPC, ECLA, USC, and a theme code can be used as a category used to construct this search expression.

(8) 本発明は、(1)〜(7)のいずれかの文書検索方法について、前記文書は、日本の特許文献であり、前記特徴語句の代わりにFタームを用いることを特徴とする文書検索方法を提案している。   (8) The present invention relates to the document search method according to any one of (1) to (7), wherein the document is a Japanese patent document, and an F-term is used instead of the feature word / phrase A search method is proposed.

この発明によれば、文書が日本の特許文献である場合に、特徴語句の代わりにFタームを用いることができる。   According to this invention, when a document is a Japanese patent document, F terms can be used instead of feature words.

(9) 本発明は、複数の階層化されたカテゴリ(例えば、図6の特許分類階層に相当)に分類される文書データベース(例えば、後述の特許データベースに相当)の中から検索目的と一致する文書を検索する文書検索方法をコンピュータに実行させるためのプログラムであって、前記文書データベースに含まれる複数の文書のうち正例(例えば、図7の特許文献1、2、4〜6、9〜19に相当)が分類されるカテゴリを取得する第1のステップ(例えば、図2のステップS2に相当)と、前記正例に含まれる特徴語句(例えば、式(4)の照明器具、環境制御、電動ブラインド、低コスト、日射状態取得部、連動制御に相当)を取得する第2のステップ(例えば、図2のステップS3に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句(例えば、式(1)の照明設備、空気調和器、照明器具に相当)として取得する第3のステップ(例えば、図2のステップS4に相当)と、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式(例えば、式(1)〜(3)相当)を構築する第4のステップ(例えば、図2のS5に相当)と、前記第2のステップで取得された特徴語句の和集合(例えば、式(4)に相当)と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップ(例えば、図2のステップS6に相当)と、をコンピュータに実行させるためのプログラムを提案している。   (9) The present invention matches the search purpose from a document database (e.g., corresponding to a patent database described later) classified into a plurality of hierarchized categories (e.g., equivalent to the patent classification hierarchy of FIG. 6) A program for causing a computer to execute a document search method for searching for a document, and a positive example (for example, Patent Documents 1, 2, 4 to 6, 9 to 9 in FIG. 7) of a plurality of documents included in the document database The first step (for example, corresponding to step S2 in FIG. 2) for obtaining a category into which the category is classified, and the feature word / phrase (for example, the lighting fixture of the formula (4), environment control) A second step (e.g., corresponding to step S3 in FIG. 2) for acquiring an electric blind, a low cost, a solar radiation state acquisition unit, and interlocking control), and a category acquired in the first step. For each feature word / phrase included in the positive example classified into the category and not included in the negative example classified into the category among the plurality of documents, a category feature word / phrase (for example, an expression) For each category acquired in the first step (equivalent to step S4 in FIG. 2) and the third step acquired as (1) lighting equipment, air conditioner, and lighting fixture) A fourth step (for example, S5 in FIG. 2) for constructing a sub-search expression (for example, equivalent to the expressions (1) to (3)) based on the category and the category feature phrase acquired in the third step. ), The union of the feature words acquired in the second step (e.g., equivalent to the equation (4)), and the sub-search expression constructed in the fourth step A fifth step in constructing an expression (eg, figure 2) (corresponding to step S6 in FIG. 2).

この発明によれば、プログラムをコンピュータに実行させることで、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを取得する。そして、取得したカテゴリ毎に、カテゴリに分類される正例に含まれる特徴語句であって、カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。また、取得したカテゴリ毎に、カテゴリと、取得したカテゴリ特徴語句と、に基づいて副検索式を構築する。さらに、正例に含まれる特徴語句を取得する。そして、取得した特徴語句の和集合と、構築した副検索式と、に基づいて本検索式を構築する。このため、複数の階層化されたカテゴリに分類される文書データベースにおいて、正例が分類されるカテゴリを求め、求めた各カテゴリに属する文書の中から負例を除外する特徴語句を求めることができる。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。   According to the present invention, by causing a computer to execute a program, a category into which positive examples are classified is acquired in a document database classified into a plurality of hierarchical categories. Then, for each acquired category, a feature word / phrase included in the positive example classified into the category and not included in the negative example classified into the category is acquired as a category feature word / phrase. For each acquired category, a sub-search expression is constructed based on the category and the acquired category feature phrase. Further, feature words / phrases included in the positive examples are acquired. Then, the search formula is constructed based on the acquired union of feature words and the constructed sub search formula. For this reason, in a document database classified into a plurality of hierarchized categories, a category in which positive examples are classified can be obtained, and a feature word or phrase that excludes negative examples can be obtained from documents belonging to the obtained categories. . Therefore, even if there are unique negative examples, this search expression that can select significant feature words and exclude negative examples can be constructed, and an appropriate search expression to search for documents that match the search purpose Can be built.

本発明によれば、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する文書を検索するために適切な検索式を構築することができる。   According to the present invention, even when a specific negative example exists, it is possible to construct this search expression that can select a significant feature word and exclude a negative example, and to search for a document that matches the search purpose. Appropriate search expressions can be constructed.

本発明の一実施形態に係る文書検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the document search apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る文書検索処理のフローチャートである。It is a flowchart of the document search process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る特許分類抽出処理のフローチャートである。It is a flowchart of the patent classification extraction process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る特徴語句抽出処理のフローチャートである。It is a flowchart of the characteristic phrase extraction process which concerns on one Embodiment of this invention. 本発明の一実施形態に係るカテゴリ特徴語句抽出処理のフローチャートである。It is a flowchart of the category characteristic word phrase extraction process which concerns on one Embodiment of this invention. 特許分類の階層構造を示す図である。It is a figure which shows the hierarchical structure of a patent classification. 特許分類抽出処理により最小数の特許分類を抽出する場合の具体例を説明するための図である。It is a figure for demonstrating the specific example in the case of extracting the minimum number of patent classifications by a patent classification extraction process. SBLにより「ブラインド」の概念獲得を行う場合を説明するための図である。It is a figure for demonstrating the case where the concept acquisition of "blind" is performed by SBL. 本検索式構築事例を説明するための図である。It is a figure for demonstrating this search expression construction example. 本検索式構築事例を説明するための図である。It is a figure for demonstrating this search expression construction example. 本検索式構築事例を説明するための図である。It is a figure for demonstrating this search expression construction example. 本発明の一実施形態に係る動的スクリーニング手法のフローチャートである。3 is a flowchart of a dynamic screening method according to an embodiment of the present invention.

以下、本発明の実施形態について図面を用いて、詳細に説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the following embodiments can be appropriately replaced with existing constituent elements, and various variations including combinations with other existing constituent elements are possible. Accordingly, the description of the following embodiments does not limit the contents of the invention described in the claims.

<文書検索装置1の構成>
図1は、本発明の一実施形態に係る文書検索装置1の構成を示すブロック図である。
<Configuration of Document Retrieval Device 1>
FIG. 1 is a block diagram showing a configuration of a document search apparatus 1 according to an embodiment of the present invention.

文書検索装置1は、公開特許公報や特許公報などの特許文献を検索する装置であり、制御部11、通信部12、記憶部13、および入出力インタフェース(入出力I/F)14を備える。   The document search device 1 is a device for searching for patent documents such as published patent gazettes and patent gazettes, and includes a control unit 11, a communication unit 12, a storage unit 13, and an input / output interface (input / output I / F) 14.

制御部11、通信部12、記憶部13、および入出力I/F14は、バス15を介して互いに接続される。入出力I/F14には、入力装置16および出力装置17が接続される。   The control unit 11, the communication unit 12, the storage unit 13, and the input / output I / F 14 are connected to each other via the bus 15. An input device 16 and an output device 17 are connected to the input / output I / F 14.

制御部11は、CPU(Central Processing Unit)およびRAM(Random Access Memory)で構成され、記憶部13に記憶されているプログラムに従って動作する。   The control unit 11 includes a CPU (Central Processing Unit) and a RAM (Random Access Memory), and operates according to a program stored in the storage unit 13.

記憶部13は、ハードディスク、半導体メモリなどで構成され、制御部11で実行される特許文献検索プログラムと、特許文献のデータが蓄積された特許データベースと、が記憶されている。特許文献検索プログラムとは、特許データベースの中から検索目的と一致する特許文献を検索するためのプログラムであり、制御部11で実行されると、図2を用いて後述する文書検索処理が行われることとなる。   The storage unit 13 includes a hard disk, a semiconductor memory, and the like, and stores a patent document search program executed by the control unit 11 and a patent database in which patent document data is accumulated. The patent document search program is a program for searching for a patent document matching the search purpose from the patent database. When executed by the control unit 11, a document search process, which will be described later with reference to FIG. 2, is performed. It will be.

通信部12は、ネットワークインタフェースカード(NIC)で構成され、ネットワークを介して受信される情報を制御部11に送信したり、制御部11から入力される命令に従って、ネットワークを介して外部に情報を送信したりする。   The communication unit 12 is configured by a network interface card (NIC), and transmits information received via the network to the control unit 11 or sends information to the outside via the network according to a command input from the control unit 11. Or send.

入力装置16は、キーボードやマウスで構成され、ユーザからの入力を受け付ける。   The input device 16 includes a keyboard and a mouse, and receives input from the user.

出力装置17は、ディスプレイやプリンタで構成され、制御部11で行われた処理に応じた情報を出力する。   The output device 17 is configured by a display or a printer, and outputs information corresponding to the processing performed by the control unit 11.

<文書検索処理>
図2は、上述の文書検索処理のフローチャートである。特許文献検索プログラムを実行するための入力をユーザから入力装置16または通信部12を介して外部から受け付けると、文書検索処理が開始され、特許データベースの中から検索目的と一致する特許文献を検索するため本検索式が、構築される。
<Document search processing>
FIG. 2 is a flowchart of the document search process described above. When an input for executing a patent document search program is received from the user from the outside via the input device 16 or the communication unit 12, a document search process is started and a patent document matching the search purpose is searched from the patent database. Therefore, this retrieval formula is constructed.

具体的には、まず、ステップS1において、制御部11は、正例および負例を記憶部13から読み込む。正例とは、特許データベースに含まれる複数の特許文献のうち、検索目的と一致する特許文献のことであり、負例とは、特許データベースに含まれる特許文献のうち、検索目的と一致しない特許文献のことである。これら正例および負例は、予備検索において、特許データベースに含まれる複数の特許文献の中から、あらかじめ選定される。   Specifically, first, in step S <b> 1, the control unit 11 reads a positive example and a negative example from the storage unit 13. A positive example is a patent document that matches the search purpose among a plurality of patent documents included in the patent database, and a negative example is a patent that does not match the search purpose among the patent documents included in the patent database. It is the literature. These positive examples and negative examples are selected in advance from a plurality of patent documents included in the patent database in the preliminary search.

予備検索とは、本検索式を用いて本検索を行うために、あらかじめ行われるものである。この予備検索では、特許データベースに含まれる複数の特許文献の中からいくつかを抽出し、抽出した特許文献のそれぞれについて、検索目的と一致するか否かをユーザが記載内容に基づいて確認する。これによれば、ステップS1において用いられる正例および負例が選定されることとなる。   The preliminary search is performed in advance in order to perform the main search using the main search formula. In this preliminary search, some of the plurality of patent documents included in the patent database are extracted, and the user confirms whether or not each of the extracted patent documents matches the search purpose based on the description. According to this, the positive example and the negative example used in step S1 will be selected.

次に、ステップS2において、制御部11は、図3を用いて後述する特許分類抽出処理を行う。この特許分類抽出処理では、正例が分類される特許分類を取得し、取得した特許分類の中から、正例に属する全ての特許文献を包括する最小数の特許分類を抽出する。   Next, in step S2, the control unit 11 performs a patent classification extraction process which will be described later with reference to FIG. In this patent classification extraction process, a patent classification in which a positive example is classified is acquired, and a minimum number of patent classifications including all patent documents belonging to the positive example are extracted from the acquired patent classification.

次に、ステップS3において、制御部11は、図4を用いて後述する特徴語句抽出処理を行う。この特徴語句抽出処理では、正例に含まれる特徴語句を取得し、取得した特徴語句の中から正例に属する全ての特許文献を包括する最小数の特徴語句を抽出する。ここで、特徴語句とは、特許文献に含まれる語句のうち、この特許文献の内容を特徴付ける語句のことである。   Next, in step S <b> 3, the control unit 11 performs a feature phrase extraction process to be described later with reference to FIG. 4. In this feature word / phrase extraction process, feature words / phrases included in the positive example are acquired, and a minimum number of characteristic words / phrases that include all patent documents belonging to the positive example are extracted from the acquired characteristic words / phrases. Here, the characteristic phrase is a phrase that characterizes the content of the patent document among the words included in the patent document.

次に、ステップS4において、制御部11は、図5を用いて後述するカテゴリ特徴語句抽出処理を行う。このカテゴリ特徴語句抽出処理では、ステップS2において抽出した最小数の特許分類毎に、カテゴリ特徴語句を取得し、取得したカテゴリ特徴語句の中から正例に属する全ての特許文献を包括する最小数のカテゴリ特徴語句を抽出する。ここで、カテゴリ特徴語句とは、ステップS2において取得した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句のことである。   Next, in step S4, the control unit 11 performs a category feature phrase extraction process to be described later with reference to FIG. In this category feature phrase extraction process, a category feature phrase is acquired for each of the minimum number of patent classifications extracted in step S2, and the minimum number of all patent documents belonging to positive examples from the acquired category feature phrases is included. Extract category feature words. Here, the category feature word / phrase is a feature word / phrase included in a positive example classified into the patent classification for each minimum number of patent classifications acquired in step S2, and is a negative example classified into the patent classification. Is a feature word not included.

なお、カテゴリ特徴語句は、ステップS2において取得した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句であるとともに、ステップS3において取得した特徴語句には含まれない特徴語句としてもよい。この場合、カテゴリ特徴語句抽出処理では、さらに、抽出された最小数のカテゴリ特徴語句の中からステップS3において取得した特徴語句を除いて、最小数のカテゴリ特徴語句を抽出する。   The category feature word / phrase is a feature word / phrase included in the positive example classified in the patent classification for each minimum number of patent classifications acquired in step S2, and is included in the negative example classified in the patent classification. It may be a feature phrase that is not included in the feature phrase that is not included in the feature phrase acquired in step S3. In this case, in the category feature phrase extraction process, the minimum number of category feature phrases is extracted by excluding the feature phrase acquired in step S3 from the extracted minimum number of category feature phrases.

また、カテゴリ特徴語句抽出処理では、ステップS2において抽出した最小数の特許分類毎に、その特許分類に分類される正例の特許文献に含まれる特徴語句であって、その特許分類に分類される負例であってステップS3において取得した特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得し、取得したカテゴリ特徴語句の中から正例に属する全ての特許文献を包括する最小数のカテゴリ特徴語句を抽出してもよい。   Further, in the category feature phrase extraction process, each of the minimum number of patent classifications extracted in step S2 is a feature phrase included in the positive patent document classified in the patent classification, and is classified into the patent classification. A feature word / phrase that is a negative example and is not included in the negative example including the feature word / phrase acquired in step S3 is acquired as a category feature word / phrase, and all patent documents belonging to the positive example are included from the acquired category feature word / phrase. The minimum number of category feature words to be extracted may be extracted.

次に、ステップS5において、制御部11は、ステップS2において抽出した最小数の特許分類毎に、特許分類と、ステップS4において抽出した最小数のカテゴリ特徴語句と、に基づいて副検索式(後述の式(1)〜(3)参照)を構築する。   Next, in step S5, the control unit 11 determines a sub-search formula (described later) based on the patent classification and the minimum number of category feature words extracted in step S4 for each minimum number of patent classifications extracted in step S2. (See formulas (1) to (3)).

次に、ステップS6において、制御部11は、ステップS3において抽出した最小数の特徴語句の和集合(後述の式(4)参照)を求め、求めた最小数の特徴語句の和集合と、ステップS5において構築した副検索式と、に基づいて本検索式(後述の式(5)参照)を構築する。   Next, in step S6, the control unit 11 obtains the union of the minimum number of feature words and phrases extracted in step S3 (see formula (4) described later), the union of the obtained minimum number of feature words and phrases, Based on the sub-search formula constructed in S5, the main search formula (see formula (5) described later) is constructed.

<特許分類抽出処理>
図3は、上述の特許分類抽出処理のフローチャートである。
<Patent classification extraction process>
FIG. 3 is a flowchart of the above-described patent classification extraction process.

まず、ステップS21において、制御部11は、EBLにより、正例が分類される特許分類を取得し、取得した特許分類を特許分類候補として設定する。特許分類は、各特許文献に付与されている。この特許分類としては、例えばIPCやFIがあるが、本実施形態では、特許分類としてFIを用いるものとする。FIは、図6に示すように、複数の階層化されたカテゴリで構成され、概念構造を木構造として細分化していくことができるので、EBLにおける領域知識とみなすことができる。このため、適切な操作性規範を設定し、少数の正例を投入することで、目標概念となるFIを獲得することができる。   First, in step S <b> 21, the control unit 11 acquires a patent classification in which a positive example is classified by EBL, and sets the acquired patent classification as a patent classification candidate. Patent classification is assigned to each patent document. Examples of this patent classification include IPC and FI. In the present embodiment, FI is used as the patent classification. As shown in FIG. 6, the FI is composed of a plurality of hierarchized categories, and the conceptual structure can be subdivided into a tree structure, so that it can be regarded as domain knowledge in EBL. For this reason, by setting an appropriate operability standard and inputting a small number of positive examples, it is possible to acquire an FI that is a target concept.

例えば、適切な操作性規範として、サブグループの第1階層までの細分化打ち切りと設定し、少数の正例として、ブラインドについて開示している特開平07−119372号公報を投入した場合には、目標概念となるFIとして、図6のE06B/24を獲得することができる。ここで、E06B/24とは、「光、とくに日光に対して保護することができるスクリーンまたはその他の構造;プライバシーまたは体裁のための同様のスクリーン」のことを示す。   For example, as an appropriate operability standard, subdivision to the first hierarchy of the subgroup is set, and as a small number of positive examples, Japanese Patent Laid-Open No. 07-119372 that discloses blinds is input, E06B / 24 in FIG. 6 can be acquired as the FI that is the target concept. Here, E06B / 24 refers to “a screen or other structure that can be protected against light, in particular sunlight; a similar screen for privacy or appearance”.

次に、ステップS22において、制御部11は、ステップS21において設定した特許分類候補毎に、特許分類候補の要素として、その特許分類候補に属する正例の特許文献を登録する。これによれば、ステップS21において設定した特許分類候補毎に、特許分類候補と、その特許分類候補に属する正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。   Next, in step S22, the control unit 11 registers, for each patent classification candidate set in step S21, a positive example patent document belonging to the patent classification candidate as an element of the patent classification candidate. According to this, for each patent classification candidate set in step S21, a patent classification candidate and a positive patent document belonging to the patent classification candidate are linked and stored in the RAM of the control unit 11. It becomes.

次に、ステップS23において、制御部11は、ステップS22において登録した正例の特許文献の数に基づいて、特許分類候補を降順に並べ替える。これによれば、正例の特許文献が最も多く属する特許分類候補が、最上位の特許分類候補となる。   Next, in step S23, the control unit 11 sorts the patent classification candidates in descending order based on the number of positive patent documents registered in step S22. According to this, the patent classification candidate to which the patent document of the positive example belongs most often becomes the highest patent classification candidate.

次に、ステップS24において、制御部11は、ステップS23において並べ替えた特許分類候補のうち、最上位の特許分類候補を採用する。これによれば、最上位の特許分類候補が、制御部11のRAMに記憶されることとなる。   Next, in step S24, the control unit 11 employs the highest patent classification candidate among the patent classification candidates rearranged in step S23. According to this, the highest patent classification candidate is stored in the RAM of the control unit 11.

次に、ステップS25において、制御部11は、ステップS24において採用した最上位の特許分類候補に属する正例の特許文献を、他の特許分類候補から削除する。これによれば、最上位の特許分類候補に属する正例の特許文献については、他の特許分類候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。   Next, in step S25, the control unit 11 deletes the patent document of the positive example belonging to the highest patent classification candidate adopted in step S24 from the other patent classification candidates. According to this, for the positive patent document belonging to the highest patent classification candidate, the relationship linked to the other patent classification candidates is deleted from the RAM of the control unit 11.

次に、ステップS26において、制御部11は、属する正例の特許文献が無くなった特許分類候補を、特許分類候補の中から除外する。これによれば、正例の特許文献の紐付けられていない特許分類候補は、特許分類候補ではなくなる。   Next, in step S <b> 26, the control unit 11 excludes, from the patent classification candidates, patent classification candidates for which there is no positive example patent document to which they belong. According to this, the patent classification candidate that is not associated with the patent document of the positive example is not a patent classification candidate.

次に、ステップS27において、制御部11は、他の特許分類候補の数がゼロであるか否か、言い換えると、残っている特許分類候補の数が「1」であるか否かを判別する。そして、他の特許分類候補の数がゼロの場合には、ステップS28に処理を移し、他の特許分類候補の数がゼロではない場合には、ステップS23に処理を戻す。   Next, in step S27, the control unit 11 determines whether or not the number of other patent classification candidates is zero, in other words, whether or not the number of remaining patent classification candidates is “1”. . If the number of other patent classification candidates is zero, the process proceeds to step S28. If the number of other patent classification candidates is not zero, the process returns to step S23.

次に、ステップS28において、制御部11は、ステップS24において採用した全ての特許分類候補を、最小数の特許分類として抽出する。   Next, in step S28, the control unit 11 extracts all the patent classification candidates employed in step S24 as the minimum number of patent classifications.

図7を用いて、特許分類抽出処理により最小数の特許分類を抽出する場合の具体例について、説明する。図7では、ステップS21において設定された特許分類候補を、特許分類候補A、B、C、D、Eと表すものとする。また、ステップS1において読み込まれた正例の特許文献を、特許文献1、2、4、5、6、9、10、11、12、13、14、15、16、17、18、19と表し、ステップS1において読み込まれた負例の特許文献を、特許文献3、7、8、20と表すものとする。   A specific example of extracting the minimum number of patent classifications by patent classification extraction processing will be described with reference to FIG. In FIG. 7, the patent classification candidates set in step S21 are represented as patent classification candidates A, B, C, D, and E. In addition, the positive patent documents read in step S1 are represented as patent documents 1, 2, 4, 5, 6, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19. The negative patent documents read in step S1 are represented as patent documents 3, 7, 8, and 20.

図7の(a)は、ステップS22の処理が行われた段階を示している。この段階では、特許分類候補Aの要素として、正例の特許文献1、2、6、11、12、16、17が登録され、特許分類候補Bの要素として、正例の特許文献1、2、6が登録され、特許分類候補Cの要素として、正例の特許文献12、13、14、17、18、19が登録され、特許分類候補Dの要素として、正例の特許文献4、5、9、10、14、15が登録され、特許分類候補Eの要素として、正例の特許文献5、10、15が登録されている。   FIG. 7A shows a stage where the process of step S22 is performed. At this stage, the patent documents 1, 2, 6, 11, 12, 16, 17 of the positive examples are registered as the elements of the patent classification candidate A, and the patent documents 1, 2 of the positive examples are registered as the elements of the patent classification candidate B. , 6 are registered, positive patent documents 12, 13, 14, 17, 18, 19 are registered as elements of patent classification candidate C, and positive patent documents 4, 5 are registered as elements of patent classification candidate D. , 9, 10, 14, and 15 are registered, and as patent classification candidate E elements, positive patent documents 5, 10, and 15 are registered.

図7の(b)は、図7の(a)の段階から、ステップS23〜S26の各処理が行われた段階を示している。具体的には、まず、ステップS23において、特許分類候補A〜Eが並び替えられ、その結果、特許分類候補A、C、D、B、Eの順に並ぶこととなる。次に、ステップS24において、特許分類候補Aが、最上位の特許分類候補として採用されることとなる。   FIG. 7B shows a stage where the processes of steps S23 to S26 are performed from the stage of FIG. Specifically, first, in step S23, the patent classification candidates A to E are rearranged, and as a result, the patent classification candidates A, C, D, B, and E are arranged in this order. Next, in step S24, the patent classification candidate A is adopted as the highest patent classification candidate.

次に、ステップS25において、特許分類候補Aに属する正例の特許文献1、2、6が特許分類候補Bから削除されるとともに、特許分類候補Aに属する正例の特許文献12、17が特許分類候補Cから削除されることとなる。これによれば、特許分類候補Bに属する正例の特許文献が無くなる。   Next, in step S25, the positive patent documents 1, 2, 6 belonging to the patent classification candidate A are deleted from the patent classification candidate B, and the positive patent documents 12, 17 belonging to the patent classification candidate A are patented. It will be deleted from the classification candidate C. According to this, there is no positive example patent document belonging to the patent classification candidate B.

次に、ステップS26において、特許分類候補Bが、特許分類候補A〜Eの中から除外されることとなる。これによれば、ステップS27において説明した他の特許分類候補として、特許分類候補C〜Eが存在することとなるので、再度、ステップS23〜S26の各処理が行われることとなる。   Next, in step S26, the patent classification candidate B is excluded from the patent classification candidates A to E. According to this, since the patent classification candidates C to E exist as other patent classification candidates described in step S27, the processes of steps S23 to S26 are performed again.

図7の(c)は、図7の(b)の段階から、ステップS23〜S26の各処理が行われた段階を示している。具体的には、まず、ステップS23において、特許分類候補C〜Eが並び替えられ、その結果、特許分類候補D、C、Eの順に並ぶこととなる。次に、ステップS24において、特許分類候補Dが、最上位の特許分類候補として採用されることとなる。   (C) of FIG. 7 shows a stage where the processes of steps S23 to S26 are performed from the stage of (b) of FIG. Specifically, first, in step S23, the patent classification candidates C to E are rearranged, and as a result, the patent classification candidates D, C, and E are arranged in this order. Next, in step S24, the patent classification candidate D is adopted as the highest patent classification candidate.

次に、ステップS25において、特許分類候補Dに属する正例の特許文献14が特許分類候補Cから削除されるとともに、特許分類候補Dに属する正例の特許文献5、10、15が特許分類候補Eから削除されることとなる。これによれば、特許分類候補Eに属する正例の特許文献が無くなる。   Next, in step S25, the positive patent document 14 belonging to the patent classification candidate D is deleted from the patent classification candidate C, and the positive patent documents 5, 10, and 15 belonging to the patent classification candidate D are patent classification candidates. E will be deleted from E. According to this, there is no positive example patent document belonging to the patent classification candidate E.

次に、ステップS26において、特許分類候補Eが、特許分類候補C〜Eの中から除外されることとなる。これによれば、ステップS27において説明した他の特許分類候補の数がゼロ、言い換えると、残っている特許分類候補が特許分類候補Cだけとなるので、ステップS28の処理が行われることとなる。   Next, in step S26, the patent classification candidate E is excluded from the patent classification candidates C to E. According to this, since the number of other patent classification candidates described in step S27 is zero, in other words, the remaining patent classification candidate is only the patent classification candidate C, so the process of step S28 is performed.

次に、ステップS28において、最小数の特許分類として、特許分類候補A、C、Dが抽出されることとなる。すなわち、特許分類候補A、C、Dは、特許文献1〜20のうち正例の特許文献の全てを包括するということである。   Next, in step S28, patent category candidates A, C, and D are extracted as the minimum number of patent categories. That is, the patent classification candidates A, C, and D include all of the positive patent documents among the patent documents 1 to 20.

<特徴語句抽出処理>
図4は、上述の特徴語句抽出処理のフローチャートである。
<Feature word extraction processing>
FIG. 4 is a flowchart of the feature phrase extraction process described above.

まず、ステップS31において、制御部11は、既存の自然言語処理やテキストマイニングにより、正例の特許文献に含まれる発明の名称、要約、および請求項を解析し、特許文献の内容を特徴付ける特徴語句を取得する。そして、ステップS21と同様に、取得した特徴語句を特徴語句候補として設定する。   First, in step S31, the control unit 11 analyzes the name, abstract, and claim of the invention included in the patent document of the positive example by existing natural language processing or text mining, and characterizes the characteristic phrase of the patent document. To get. Then, similarly to step S21, the acquired feature word / phrase is set as a feature word / phrase candidate.

次に、ステップS32において、ステップS22と同様に、制御部11は、ステップS31において設定した特徴語句候補毎に、特徴語句候補の要素として、その特徴語句候補を含む正例の特許文献を登録する。これによれば、ステップS31において設定した特徴語句候補毎に、特徴語句候補と、その特徴語句候補を含む正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。   Next, in step S32, as in step S22, the control unit 11 registers, for each feature word candidate set in step S31, a positive example patent document including the feature word candidate as an element of the feature word candidate. . According to this, for each feature word candidate set in step S31, the feature word candidate and the positive patent document including the feature word candidate are linked and stored in the RAM of the control unit 11. It becomes.

次に、ステップS33において、ステップS23と同様に、制御部11は、ステップS32において登録した正例の特許文献の数に基づいて、特徴語句候補を降順に並べ替える。これによれば、ステップS31において設定した特徴語句候補の全ての中で、最も多くの特許文献に含まれている特徴語句候補が、最上位の特徴語句候補となる。   Next, in step S33, similarly to step S23, the control unit 11 rearranges the feature word candidates in descending order based on the number of positive patent documents registered in step S32. According to this, among all the feature word candidates set in step S31, the feature word candidate included in the largest number of patent documents is the highest-order feature word candidate.

次に、ステップS34において、ステップS24と同様に、制御部11は、ステップS33において並べ替えた特徴語句候補のうち、最上位の特徴語句候補を採用する。これによれば、最上位の特徴語句候補が、制御部11のRAMに記憶されることとなる。   Next, in step S34, as in step S24, the control unit 11 employs the highest-level feature word candidate among the feature word candidates rearranged in step S33. According to this, the highest-level feature word candidate is stored in the RAM of the control unit 11.

次に、ステップS35において、ステップS25と同様に、制御部11は、ステップS34において採用した最上位の特徴語句候補を含む正例の特許文献を、他の特徴語句候補から削除する。これによれば、最上位の特徴語句候補を含む正例の特許文献については、他の特徴語句候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。   Next, in step S35, similarly to step S25, the control unit 11 deletes the positive patent document including the highest-level feature word candidate adopted in step S34 from other feature word candidates. According to this, for the positive example patent document including the highest-level feature phrase candidate, the relationship associated with the other feature phrase candidates is deleted from the RAM of the control unit 11.

次に、ステップS36において、ステップS26と同様に、制御部11は、含まれる正例の特許文献が無くなった特徴語句候補を、特徴語句候補の中から除外する。これによれば、正例の特許文献の紐付けられていない特徴語句候補は、特徴語句候補ではなくなる。   Next, in step S 36, as in step S 26, the control unit 11 excludes the feature word / phrase candidate from which the included patent document of the example is missing from the feature word / phrase candidate. According to this, the feature word / phrase candidate not associated with the patent document of the positive example is not the feature word / phrase candidate.

次に、ステップS37において、ステップS27と同様に、制御部11は、他の特徴語句候補の数がゼロであるか否か、言い換えると、残っている特徴語句候補の数が「1」であるか否かを判別する。そして、他の特徴語句候補の数がゼロの場合には、ステップS38に処理を移し、他の特徴語句候補の数がゼロではない場合には、ステップS33に処理を戻す。   Next, in step S37, as in step S27, the control unit 11 determines whether or not the number of other feature word candidates is zero, in other words, the number of remaining feature word candidates is “1”. It is determined whether or not. If the number of other feature word candidates is zero, the process proceeds to step S38. If the number of other feature word candidates is not zero, the process returns to step S33.

次に、ステップS38において、ステップS28と同様に、制御部11は、ステップS34において採用した全ての特徴語句候補を、最小数の特徴語句として抽出する。   Next, in step S38, as in step S28, the control unit 11 extracts all the feature word candidates adopted in step S34 as the minimum number of feature words.

<カテゴリ特徴語句抽出処理>
図5は、上述のカテゴリ特徴語句抽出処理のフローチャートである。
<Category feature word extraction processing>
FIG. 5 is a flowchart of the above-described category feature word extraction process.

まず、ステップS41において、ステップS31と同様に、制御部11は、既存の自然言語処理やテキストマイニングにより、正例の特許文献に含まれる発明の名称、要約、および請求項を解析し、特許文献の内容を特徴付ける特徴語句を取得する。そして、取得した特徴語句を用いて、SBLにより、ステップS28において抽出した最小数の特許分類毎に、その特許分類に分類される正例に含まれる特徴語句であって、その特許分類に分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する。そして、ステップS21、S31と同様に、取得したカテゴリ特徴語句をカテゴリ特徴語句候補として設定する。   First, in step S41, as in step S31, the control unit 11 analyzes the name, summary, and claim of the invention included in the patent document of the positive example by using existing natural language processing and text mining. Get feature words that characterize the contents of. Then, using the acquired feature word / phrase, for each minimum number of patent classifications extracted in step S28, the feature word / phrase included in the positive example classified in the patent classification is classified into the patent classification. Feature phrases that are not included in the negative example are acquired as category feature phrases. Then, similarly to steps S21 and S31, the acquired category feature phrase is set as a category feature phrase candidate.

SBLでは、正例に含まれる特徴語句のAND、ORで表現される条件式について、負例を除外するように構築する問題を解き、候補となる条件式を展開していく概念空間(バージョン空間)の中から適切な自由度(バイアス)を設定して、条件式を確定していく。このSBLについて、図8を用いて詳述する。   In SBL, a concept space (version space) that solves a problem of constructing a conditional expression expressed by AND and OR of characteristic words and phrases included in a positive example so as to exclude a negative example and develops a conditional expression as a candidate. ) To set an appropriate degree of freedom (bias) and determine the conditional expression. This SBL will be described in detail with reference to FIG.

図8は、SBLにより「ブラインド」の概念獲得を行う際に、バイアスを2つの条件の積集合とした場合を示している。この場合、単一条件の最下層が除外される。また、負例を含む最も一般的な概念{色、日よけ}や、{*、カーテン}が除外される。そして、赤と白それぞれの正例が処理された後、最終的な概念である{色、ブラインド}が概念として獲得される。   FIG. 8 shows a case where the bias is a product set of two conditions when the concept of “blind” is acquired by SBL. In this case, the lowest layer of a single condition is excluded. Further, the most general concepts {color, awning} and {*, curtain} including negative examples are excluded. Then, after each positive example of red and white is processed, the final concept {color, blind} is acquired as a concept.

次に、ステップS42において、ステップS22、S32と同様に、制御部11は、ステップS41において設定したカテゴリ特徴語句候補毎に、カテゴリ特徴語句候補の要素として、そのカテゴリ特徴語句候補を含む正例の特許文献を登録する。これによれば、ステップS41において設定したカテゴリ特徴語句候補毎に、カテゴリ特徴語句候補と、そのカテゴリ特徴語句候補を含む正例の特許文献と、が紐付けられて、制御部11のRAMに記憶されることとなる。   Next, in step S42, as in steps S22 and S32, for each category feature phrase candidate set in step S41, the control unit 11 includes the category feature phrase candidate as an element of the category feature phrase candidate. Register patent documents. According to this, for each category feature phrase candidate set in step S41, the category feature phrase candidate and the positive patent document including the category feature phrase candidate are linked and stored in the RAM of the control unit 11. Will be.

次に、ステップS43において、ステップS23、S33と同様に、制御部11は、ステップS42において登録した正例の特許文献の数に基づいて、カテゴリ特徴語句候補を降順に並べ替える。これによれば、ステップS41において設定したカテゴリ特徴語句候補の全ての中で、最も多くの正例の特許文献に含まれているカテゴリ特徴語句候補が、最上位のカテゴリ特徴語句候補となる。   Next, in step S43, as in steps S23 and S33, the control unit 11 rearranges the category feature word / phrase candidates in descending order based on the number of positive patent documents registered in step S42. According to this, among all the category feature word candidates set in step S41, the category feature word candidate included in the most number of positive patent documents becomes the highest category feature word candidate.

次に、ステップS44において、ステップS24、S34と同様に、制御部11は、ステップS43において並べ替えた特徴語句候補のうち、最上位の特徴語句候補を採用する。これによれば、最上位のカテゴリ特徴語句候補が、制御部11のRAMに記憶されることとなる。   Next, in step S44, as in steps S24 and S34, the control unit 11 employs the highest-level feature word candidate among the feature word candidates rearranged in step S43. According to this, the highest category feature word candidate is stored in the RAM of the control unit 11.

次に、ステップS45において、ステップS25、S35と同様に、制御部11は、ステップS44において採用した最上位の特徴語句候補を含む正例の特許文献を、他の特徴語句候補から削除する。これによれば、最上位のカテゴリ特徴語句候補を含む正例の特許文献については、他のカテゴリ特徴語句候補と紐付けられていた関係が、制御部11のRAMから削除されることとなる。   Next, in step S45, as in steps S25 and S35, the control unit 11 deletes the positive patent document including the highest-level feature word candidate adopted in step S44 from the other feature word candidates. According to this, for the patent document of the positive example including the highest category feature word / phrase candidate, the relationship associated with other category feature word / phrase candidates is deleted from the RAM of the control unit 11.

次に、ステップS46において、ステップS26、S36と同様に、制御部11は、含まれる正例の特許文献が無くなったカテゴリ特徴語句候補を、カテゴリ特徴語句候補の中から除外する。これによれば、正例の特許文献の紐付けられていないカテゴリ特徴語句候補は、カテゴリ特徴語句候補ではなくなる。   Next, in step S46, as in steps S26 and S36, the control unit 11 excludes the category feature phrase candidates for which the included patent document of the positive example is lost from the category feature phrase candidates. According to this, the category feature word / phrase candidate that is not associated with the patent document of the positive example is not a category feature word / phrase candidate.

次に、ステップS47において、ステップS27、S37と同様に、制御部11は、他のカテゴリ特徴語句候補の数がゼロであるか否か、言い換えると、残っているカテゴリ特徴語句候補の数が「1」であるか否かを判別する。そして、他のカテゴリ特徴語句候補の数がゼロの場合には、ステップS48に処理を移し、他のカテゴリ特徴語句候補の数がゼロではない場合には、ステップS43に処理を戻す。   Next, in step S47, as in steps S27 and S37, the control unit 11 determines whether the number of other category feature phrase candidates is zero, in other words, the number of remaining category feature phrase candidates is “ It is determined whether or not “1”. If the number of other category feature phrase candidates is zero, the process proceeds to step S48, and if the number of other category feature phrase candidates is not zero, the process returns to step S43.

次に、ステップS48において、ステップS28、S38と同様に、制御部11は、ステップS44において採用した全てのカテゴリ特徴語句候補を、最小数のカテゴリ特徴語句として抽出する。   Next, in step S48, as in steps S28 and S38, the control unit 11 extracts all the category feature phrase candidates adopted in step S44 as the minimum number of category feature phrases.

<本検索式構築事例>
以上の文書検索処理により本検索式を構築した場合の一例を、図9〜11を用いて以下に説明する。具体的には、検索対象として、図9に示すブラインド採光による室温上昇対策のための、採光、照明、および空調の3要素を制御対象とする特許を設定し、この特許を検索するための本検索式を上述の文書検索処理により構築した例について、説明する。
<Example of building this search expression>
An example when the search formula is constructed by the above document search processing will be described below with reference to FIGS. Specifically, as a search target, a patent for controlling three elements of lighting, illumination, and air conditioning for countermeasures against room temperature rise by blind lighting shown in FIG. 9 is set, and a book for searching this patent is set. An example in which a search expression is constructed by the above-described document search process will be described.

まず、図2のステップS1でも説明した予備検索を行った。具体的には、図10に示した検索条件および検索式により、特許データベースの中から、上述の特許に関する特許文献を検索したところ、30件の特許文献が該当することがわかった。そして、これら30件のうち12件の特許文献が、上述の特許に関する特許文献、すなわち正例の特許文献であることが確認できた。すなわち、予備検索により、12件の正例と、18件の負例と、が特許データベースの中から抽出されたこととなる。   First, the preliminary search described in step S1 of FIG. 2 was performed. Specifically, when searching for patent documents related to the above-mentioned patents from the patent database using the search conditions and search formulas shown in FIG. 10, it was found that 30 patent documents corresponded. And it has confirmed that 12 patent documents among these 30 patent documents are the patent documents regarding the above-mentioned patent, ie, the patent document of a positive example. In other words, 12 positive examples and 18 negative examples are extracted from the patent database by the preliminary search.

次に、上述の文書検索処理により、本検索式を構築した。具体的には、上述の予備検索により抽出された12件の正例と、18件の負例と、により、図2〜5に示した各処理を行った。その結果、副検索式として、以下の式(1)、(2)、(3)が構築され、最小数の特徴語句の和集合として、以下の式(4)が構築された。そして、式(1)〜(4)に基づいて、本検索式として、以下の式(5)が構築された。   Next, the search formula was constructed by the document search process described above. Specifically, each process shown in FIGS. 2 to 5 was performed using 12 positive examples extracted by the above-described preliminary search and 18 negative examples. As a result, the following expressions (1), (2), and (3) were constructed as sub-search expressions, and the following expression (4) was constructed as the union of the minimum number of feature words. And based on Formula (1)-(4), the following formula | equation (5) was constructed | assembled as this search formula.

なお、式(1)〜(3)によれば、最小数の特許分類として、空調制御に関する「F24F11/02」と、遠隔制御に関する「H04Q9/00」と、ブラインドに関する「E06B9/264」と、の3つが抽出されたことが分かる。また、「F24F11/02」に対応する最小数のカテゴリ特徴語句として、「照明設備」、「空気調和器」、「照明器具」の3つが抽出され、「H04Q9/00」に対応する最小数のカテゴリ特徴語句として、「無線通信」の1つが抽出され、「E06B9/264」に対応する最小数のカテゴリ特徴語句として、「二酸化炭素」、「電動ブラインド」、「日射状態取得部」、「連動制御」の4つが抽出されたことが分かる。   According to the equations (1) to (3), as the minimum number of patent classifications, “F24F11 / 02” related to air conditioning control, “H04Q9 / 00” related to remote control, “E06B9 / 264” related to blinds, It can be seen that the following three were extracted. Also, as the minimum number of category feature words corresponding to “F24F11 / 02”, three “lighting equipment”, “air conditioner”, and “lighting fixture” are extracted, and the minimum number corresponding to “H04Q9 / 00” is extracted. One of “wireless communication” is extracted as a category feature phrase, and “carbon dioxide”, “electric blind”, “solar radiation state acquisition unit”, “linked” are selected as the minimum number of category feature phrases corresponding to “E06B9 / 264”. It can be seen that four of “control” have been extracted.

また、式(4)によれば、最小数の特徴語句として、「照明器具」、「環境制御」、「電動ブラインド」、「低コスト」、「日射状態取得部」、「連動制御」の6つが抽出されたことが分かる。   In addition, according to the equation (4), the minimum number of feature words are “lighting fixture”, “environmental control”, “electric blind”, “low cost”, “solar radiation state acquisition unit”, “interlocking control” 6 It can be seen that one has been extracted.

図11は、副検索式と、特徴語句の和集合と、正例および負例と、の関係を示す模式図である。図11では、上述の12件の正例の特許文献を、特許文献3、6、9、10、13、15、17、18、22、25、26、27と表し、上述の18件の負例の特許文献を、特許文献1、2、4、5、7、8、11、12、14、16、19、20、21、23、24、28、29、30と表すものとする。   FIG. 11 is a schematic diagram showing the relationship between the sub-search expression, the union of feature words, and the positive and negative examples. In FIG. 11, the above-mentioned 12 positive patent documents are represented as Patent Documents 3, 6, 9, 10, 13, 15, 17, 18, 22, 25, 26, and 27, and the 18 negative patent documents described above. The patent document of an example shall be represented as patent document 1, 2, 4, 5, 7, 8, 11, 12, 14, 16, 19, 20, 21, 23, 24, 28, 29, 30.

式(4)で表される特徴語句の和集合の式を満たすのは、12件の正例の特許文献(特許文献3、6、9、25、18、13、26、17、22、27、15、10)と、4件の負例の特許文献(特許文献29、23、2、30)と、である。このため、式(4)で表される特徴語句の和集合によれば、負例の特許文献も抽出できてしまうが、上述の12件の正例の特許文献の全てを抽出することができる。   Satisfying the union expression of the feature words represented by the expression (4) is that 12 positive patent documents (Patent Documents 3, 6, 9, 25, 18, 13, 26, 17, 22, 27) , 15, 10) and four negative patent documents (Patent Documents 29, 23, 2, 30). For this reason, according to the union of the feature terms expressed by the expression (4), negative patent documents can be extracted, but all of the above 12 positive patent documents can be extracted. .

式(1)の「F24F11/02」に属するのは、6件の正例の特許文献(特許文献3、6、25、18、17、15)と、1件の負例の特許文献(特許文献23)と、である。ここで、式(1)の「照明設備」、「空気調和器」、および「照明器具」は、「F24F11/02」におけるカテゴリ特徴語句であり、これら3つのカテゴリ特徴語句のいずれかは、上述の6件の正例の特許文献には含まれるが、上述の1件の負例の特許文献にはいずれも含まれない特徴語句である。このため、「F24F11/02」および上述の3つのカテゴリ特徴語句で構築される式(1)の副検索式について、上述の6件の正例の特許文献は、この副検索式を満たすが、上述の1件の負例の特許文献は、この副検索式を満たさないこととなる。以上より、式(1)で表される副検索式によれば、「F24F11/02」に属する特許文献の中から、上述の6件の正例の特許文献を抽出することができる。   “F24F11 / 02” in Formula (1) belongs to six positive patent documents (Patent Documents 3, 6, 25, 18, 17, and 15) and one negative patent document (Patent Documents) Reference 23). Here, “lighting equipment”, “air conditioner”, and “lighting fixture” in Expression (1) are category feature phrases in “F24F11 / 02”, and any of these three category feature phrases is described above. These are feature words that are included in the six positive patent documents but not included in the one negative patent document described above. For this reason, regarding the sub-search formula of Formula (1) constructed with “F24F11 / 02” and the above-described three category feature words, the above-mentioned six positive patent documents satisfy this sub-search formula. The above-mentioned negative patent document does not satisfy this sub-search formula. As described above, according to the sub-search expression represented by Expression (1), the above-mentioned six positive patent documents can be extracted from the patent documents belonging to “F24F11 / 02”.

式(2)の副検索式についても、上述の式(1)の副検索式と同様に、「H04Q9/00」に属する特許文献の中から、2件の正例の特許文献(特許文献15、10)を抽出することができる。   As with the sub-search expression of the above formula (1), the two sub-search formulas of the formula (2) are selected from two patent documents belonging to “H04Q9 / 00” (Patent Document 15). 10) can be extracted.

また、式(3)の副検索式についても、上述の式(1)、(2)の副検索式と同様に、「E06B9/264」に属する特許文献の中から、6件の正例の特許文献(特許文献9、25、13、26、22、27)を抽出することができる。   Also, the sub-search formula of the formula (3) is similar to the sub-search formulas of the formulas (1) and (2) described above, from the patent documents belonging to “E06B9 / 264”. Patent documents (Patent documents 9, 25, 13, 26, 22, and 27) can be extracted.

以上より、式(1)〜(4)で構築される、式(5)で表される本検索式によれば、予備検索により見つかった30件の特許文献の中から、上述の12件の正例の特許文献の全てを抽出することができる。このため、式(5)で表される本検索式は、予備検索により見つかった30件の特許文献の中から全ての正例の特許文献を抽出するという目的に対して、適した検索式であると考えることができる。   From the above, according to the present search formula expressed by the formula (5), which is constructed by the formulas (1) to (4), the above-mentioned 12 cases are selected from the 30 patent documents found by the preliminary search. All of the positive patent documents can be extracted. For this reason, this search formula represented by Formula (5) is a search formula suitable for the purpose of extracting all the positive patent documents from the 30 patent documents found by the preliminary search. You can think of it.

ここで、上述の式(5)で表される本検索式により、特許データベースの中から上述の特許に関する特許文献を検索したところ、212件の特許文献が該当することが分かった。   Here, when the patent documents related to the above-mentioned patents were searched from the patent database using the search formula represented by the above-described formula (5), it was found that 212 patent documents corresponded.

<動的スクリーニング手法>
そこで、次に、図12に示す動的スクリーニング手法により、上述の212件の特許文献について本検索を行った。なお、通常では、検索式などにより抽出された特許文献(母集団)のスクリーニング手法において、語句による絞り込み検索といった、母集団に対する適当な条件を適用した部分集合の確認を繰り返す。
<Dynamic screening method>
Then, next, the above-mentioned 212 patent documents were searched by the dynamic screening method shown in FIG. Normally, in the screening method of patent documents (population) extracted by a search formula or the like, confirmation of a subset to which an appropriate condition for the population is applied, such as a narrowing search by words, is repeated.

しかし、ここでは、上述の文書検索処理の有効性を明らかにするために、確認済みである上述の12件の正例の特許文献に続けて、未確認の特許文献を出願日順に並べた状態から、逐次的に特許文献212件を確認した。具体的には、未確認の特許文献の確認(ステップS103)を繰り返す途中で、逐次的に文書検索処理により本検索式を再構築し(ステップS104)、その本検索式との適合度合いの高い順に未確認の特許文献を並べ替えた(ステップS101、S102)。   However, here, in order to clarify the effectiveness of the above-described document search processing, from the state in which unconfirmed patent documents are arranged in order of filing date, following the above-mentioned 12 positive patent documents that have been confirmed. Sequentially, 212 patent documents were confirmed. Specifically, in the middle of repeating confirmation of unconfirmed patent documents (step S103), the main search formula is sequentially reconstructed by document search processing (step S104), and in descending order of suitability with the main search formula. Unidentified patent documents are rearranged (steps S101 and S102).

より具体的には、まず、ステップS101において、文書検索装置1により、上述の212件の特許文献のそれぞれについて、本検索式との適合度合いを求めた。ただし、確認済みの特許文献、すなわち正例または負例として用いられた特許文献については、本検索式との適合度合いを求めないこととした。この適合度合いについては、特許文献毎に、以下の3つの方法により各副検索式の評価値を求め、各副検索式の評価値のうち最も大きいものを本検索式との適合度合いとした。なお、各副検索式の評価値は、3つの方法はいずれか1つにより求めてもよいし、組み合わせて求めてもよい。なお、以下の3つの方法のいずれでも評価値を求めることができない場合には、評価値をゼロとした。   More specifically, first, in step S101, the document search device 1 determines the degree of conformity with the search formula for each of the 212 patent documents described above. However, for a confirmed patent document, that is, a patent document used as a positive example or a negative example, the degree of conformity with the search formula is not determined. For this degree of matching, for each patent document, the evaluation value of each sub-search expression is obtained by the following three methods, and the largest of the evaluation values of each sub-search expression is set as the degree of matching with this search expression. The evaluation value of each sub-search expression may be obtained by any one of the three methods or may be obtained in combination. When the evaluation value could not be obtained by any of the following three methods, the evaluation value was set to zero.

第1の方法では、特許文献の特許分類と、副検索式の特許分類と、が一致する場合に、副検索式の評価値を求めることができる。具体的には、副検索式に属する確認済みの正例の数を確認済みの全正例の数で割った値を、その副検索式の評価値として設定する。さらに、一致する場合であって、副検索式に含まれるカテゴリ特徴語句を特許文献が含む場合には、設定した評価値を第1の値だけ乗算する。ここで、第1の値としては、例えば、2倍といった固定値を設定してもよいし、カテゴリ特徴語句の重要度に応じて設定してもよいし、特許文献に含まれないカテゴリ特徴語句の数に応じて設定してもよい。   In the first method, when the patent classification of the patent document matches the patent classification of the sub-search formula, the evaluation value of the sub-search formula can be obtained. Specifically, a value obtained by dividing the number of confirmed positive examples belonging to the sub-search expression by the number of all confirmed positive examples is set as the evaluation value of the sub-search expression. Further, if the patent document includes the category feature word / phrase included in the sub-search expression when they match, the set evaluation value is multiplied by the first value. Here, as the first value, for example, a fixed value such as twice may be set, or it may be set according to the importance of the category feature phrase, or a category feature phrase not included in the patent document You may set according to the number of.

第2の方法では、特許文献の特許分類と、副検索式の特許分類と、が一致しない場合であって、その副検索式に含まれるカテゴリ特徴語句を特許文献が含む場合に、副検索式の評価値を求めることができる。具体的には、第2の値を、その副検索式の評価値として設定する。ここで、第2の値としては、例えば、副検索式に属する確認済みの正例の数を確認済みの全正例の数で割った値に対して、0.01倍した値を採用することができる。   In the second method, when the patent classification of the patent document does not match the patent classification of the sub-search expression, and the patent document includes the category feature word / phrase included in the sub-search expression, the sub-search expression Can be obtained. Specifically, the second value is set as the evaluation value of the sub search expression. Here, as the second value, for example, a value obtained by multiplying the value obtained by dividing the number of confirmed positive examples belonging to the sub-search expression by the number of all confirmed positive examples is employed. be able to.

第3の方法では、最小数の特徴語句の和集合に含まれる特徴語句を特許文献が含む場合に、副検索式の評価値を求めることができる。具体的には、第3の値を、その副検索式の評価値として設定する。ここで、第3の値としては、例えば、「0.5」といった固定値を設定してもよいし、特許文献に含まれる特徴語句の数に応じて設定してもよい。   In the third method, when the patent document includes a feature word included in the union of the minimum number of feature words, the evaluation value of the sub search expression can be obtained. Specifically, the third value is set as the evaluation value of the sub search expression. Here, as the third value, for example, a fixed value such as “0.5” may be set, or may be set according to the number of feature words included in the patent document.

次に、ステップS102において、文書検索装置1により、ステップS101において求めた適合度合いに基づいて、未確認の特許文献を並べ替えた。そして、確認済みの特許文献を上位に並べ、これら確認済みの特許文献より下位に、並べ替えた未確認の特許文献を並べることとした。   Next, in step S102, the document search apparatus 1 rearranges unconfirmed patent documents based on the degree of matching obtained in step S101. Then, the confirmed patent documents are arranged at the top, and the rearranged unconfirmed patent documents are arranged below the confirmed patent documents.

次に、ステップS103において、ユーザにより、ステップS102において並べ替えた特許文献を、上位から順に、正例または負例のいずれであるか確認した。なお、確認する件数は任意であり、未確認の特許文献全てを確認する必要はないものとした。   Next, in step S103, the user confirmed whether the patent documents rearranged in step S102 are positive examples or negative examples in order from the top. The number of cases to be confirmed is arbitrary, and it is not necessary to confirm all unconfirmed patent documents.

次に、ステップS104において、文書検索装置1により、ステップS103における確認結果、すなわち、新たに正例または負例に分類された特許文献と、確認済の特許文献と、に基づいて上述の文書検索処理を行い、本検索式を再構築した。   Next, in step S104, the document retrieval apparatus 1 performs the above document retrieval based on the confirmation result in step S103, that is, the patent document newly classified as a positive example or a negative example and the confirmed patent document. Processed and rebuilt this query.

ここで、図12に示した動的スクリーニング手法を行う前に、あらかじめ上述の212件の特許文献全てについて確認したところ、上述の12件以外に、新たに3件が正例の特許文献であることが判明した。そこで、以降では、これら3件の正例の特許文献に着目して説明する。   Here, before the dynamic screening method shown in FIG. 12 is performed, all of the above-mentioned 212 patent documents are confirmed in advance, and in addition to the above-mentioned 12, three new patent documents are positive examples. It has been found. Therefore, hereinafter, the description will be given focusing on these three positive patent documents.

上述の212件の特許文献について、出願日の早い順に並べ替えると、上述の3件の正例の特許文献の出現順位は、それぞれ、139、140、160位であった。   When the above-mentioned 212 patent documents are rearranged in order of the filing date, the appearance ranks of the above-mentioned three positive patent documents are 139, 140, and 160, respectively.

そこで、上述の式(1)〜(4)で構築される本検索式を用いて上述の動的スクリーニング手法を行った。すなわち1回目の動的スクリーニング手法を行って、上述の212件のうち未確認である200件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献の出現順位は、それぞれ、55位、57位、71位となった。   Therefore, the above-described dynamic screening technique was performed using the retrieval formula constructed by the above-described formulas (1) to (4). That is, the first dynamic screening technique was performed, and 200 unidentified patent documents out of the 212 cases described above were rearranged. As a result, the appearance ranks of the above three positive patent documents were 55th, 57th and 71st, respectively.

なお、1回目の動的スクリーニング手法において、ステップS103では、未確認である200件のうち8件の特許文献を確認した。これら8件の特許文献の全ては、負例の特許文献であった。また、ステップS104では、12件の正例と、26件(18件+8件)の負例と、により、本検索式を再構築した。   In the first dynamic screening method, in step S103, eight patent documents out of 200 unconfirmed were confirmed. All of these eight patent documents were negative patent documents. In step S104, the search formula is reconstructed with 12 positive examples and 26 negative cases (18 + 8 cases).

そこで、1回目の動的スクリーニング手法において再構築した本検索式を用いて、再度、上述の動的スクリーニング手法を行った。すなわち2回目の動的スクリーニング手法を行って、上述の200件のうち未確認である192件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献の出現順位は、それぞれ、27位、30位、71位となった。   Therefore, the above-described dynamic screening technique was performed again using the retrieval formula reconstructed in the first dynamic screening technique. That is, the second dynamic screening technique was performed, and 192 patent documents that were not confirmed among the 200 cases described above were rearranged. As a result, the appearance ranks of the above-mentioned three positive patent documents were 27th, 30th and 71st, respectively.

なお、2回目の動的スクリーニング手法において、ステップS103では、未確認である192件のうち20件の特許文献を確認した。これら20件の特許文献のうち、2件は正例の特許文献で、残りの18件は負例の特許文献であった。また、ステップS104では、14件(12件+2件)の正例と、44件(26件+18件)の負例と、により、本検索式を再構築した。   In the second dynamic screening method, 20 patent documents out of 192 unconfirmed were confirmed in step S103. Of these 20 patent documents, 2 were positive patent documents and the remaining 18 were negative patent documents. In step S104, the search formula is reconstructed with 14 positive cases (12 cases + 2 cases) and 44 negative cases (26 cases + 18 cases).

そこで、2回目の動的スクリーニング手法において再構築した本検索式を用いて、再度、上述の動的スクリーニング手法を行った。すなわち3回目の動的スクリーニング手法を行って、上述の192件のうち未確認である172件の特許文献を並べ替えた。その結果、上述の3件の正例の特許文献のうち、前回の出現順位が71位であった特許文献の出現順位は、43位となった。   Therefore, the above-described dynamic screening method was performed again using the retrieval formula reconstructed in the second dynamic screening method. That is, the third dynamic screening method was performed, and 172 patent documents that were not confirmed among the above 192 cases were rearranged. As a result, among the above-mentioned three positive patent documents, the appearance order of the patent document whose previous appearance order was 71 was 43rd.

以上によれば、本検索式を構築し、本検索式との適合度合いによる特許文献の並べ替えと、並べ替えられた順での特許文献の確認と、確認結果の本検索式構築へのフィードバックと、を繰り返すことにより、正例の特許文献の出現順位が上昇することが分かる。   According to the above, the search formula is constructed, the patent documents are rearranged according to the degree of conformity with the search formula, the patent documents are confirmed in the sorted order, and the feedback of the confirmation results to the construction of the search formula By repeating the above, it can be seen that the appearance rank of the patent document of the positive example increases.

以上の文書検索装置1によれば、特許分類により分類される特許文献が蓄積されている特許データベースにおいて、正例が分類される特許分類を求め、求めた各特許分類に属する特許文献の中から負例を除外する特徴語句を求める。したがって、特異な負例が存在する場合であっても、有意な特徴語句を選定して負例を除外できる本検索式を構築でき、検索目的と一致する特許文献を検索するために適切な検索式を構築することができる。   According to the above document search device 1, the patent database in which the patent documents classified by the patent classification are accumulated, the patent classification in which the positive examples are classified is obtained, and the patent documents belonging to the obtained patent classifications are selected. Find feature words to exclude negative examples. Therefore, even if there is a specific negative example, this search formula that can select significant feature words and exclude negative examples can be constructed, and an appropriate search for searching patent documents that match the search purpose An expression can be constructed.

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes a design that does not depart from the gist of the present invention.

例えば、特徴語句の代わりに、Fタームを用いてもよい。なお、Fタームを用いる場合には、解析範囲が請求の範囲だけでなく、全文に及ぶ場合が多く、特徴語句を使うよりも検索式の精度を向上できる場合がある。   For example, F terms may be used instead of feature words. When the F term is used, the analysis range often extends not only to the claims but also to the whole sentence, and the accuracy of the search expression may be improved as compared with the use of feature words.

また、上述の実施形態では、文書検索装置1は、特許文献を検索するものとしたが、これに限らない。文書データベースに含まれる文書が、階層化された複数のカテゴリで分類される場合であって、この文書データベースの中から検索目的と一致する文書を検索する場合に、用いることができる。   In the above-described embodiment, the document search apparatus 1 searches for patent documents, but the present invention is not limited to this. This can be used when documents included in the document database are classified into a plurality of hierarchized categories and a document matching the search purpose is searched from the document database.

また、上述の実施形態では、特許データベースは、文書検索装置1の記憶部13に記憶されるものとしたが、これに限らず、例えば、文書検索装置1と通信可能に設けられたサーバの内部に構築されるものとしてもよい。   In the above-described embodiment, the patent database is stored in the storage unit 13 of the document search apparatus 1. However, the invention is not limited to this. For example, the internal database of a server provided to be communicable with the document search apparatus 1. It is good also as what is built in.

また、上述の実施形態では、特許分類としてFIを用いたが、これに限らず、例えばIPC、ECLA、USC、テーマコードといった、文書を分類できる複数の階層化されたカテゴリであればよい。   In the above-described embodiment, the FI is used as the patent classification. However, the invention is not limited to this, and it may be a plurality of hierarchized categories that can classify documents, such as IPC, ECLA, USC, and theme code.

1 文書検索装置
11 制御部
12 通信部
13 記憶部
14 入力I/F
15 バス
16 入力装置
17 出力装置
DESCRIPTION OF SYMBOLS 1 Document retrieval apparatus 11 Control part 12 Communication part 13 Storage part 14 Input I / F
15 bus 16 input device 17 output device

Claims (9)

複数の階層化されたカテゴリに分類される文書データベースの中から検索目的と一致する文書を検索する文書検索方法であって、
前記文書データベースに含まれる複数の文書のうち正例が分類されるカテゴリを取得する第1のステップと、
前記正例に含まれる特徴語句を取得する第2のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する第3のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式を構築する第4のステップと、
前記第2のステップで取得された特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップと、
を備えることを特徴とする文書検索方法。
A document search method for searching for a document matching a search purpose from a document database classified into a plurality of hierarchical categories,
A first step of obtaining a category into which positive examples are classified among a plurality of documents included in the document database;
A second step of acquiring a feature phrase included in the positive example;
A feature word / phrase included in the positive example classified into the category for each category acquired in the first step, and not included in the negative example classified into the category among the plurality of documents. A third step of obtaining a phrase as a category feature phrase;
For each category acquired in the first step, a fourth step of constructing a sub-search expression based on the category and the category feature phrase acquired in the third step;
A fifth step of constructing this search expression based on the union of the feature words acquired in the second step and the sub-search expression constructed in the fourth step;
A document retrieval method comprising:
前記第1のステップでは、前記正例が分類されるカテゴリを取得した後に、当該カテゴリの中から前記正例に属する全ての文書を包括する最小数のカテゴリを抽出し、
前記第2のステップでは、前記正例に含まれる特徴語句を取得した後に、当該特徴語句の中から前記正例に属する全ての文書を包括する最小数の特徴語句を抽出し、
前記第3のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリに分類される正例に属する全ての文書について前記カテゴリ特徴語句を取得した後に、当該カテゴリ特徴語句の中から前記正例に属する全ての文書を包括する最小数のカテゴリ特徴語句を抽出し、
前記第4のステップでは、前記第1のステップで抽出された最小数のカテゴリ毎に、当該カテゴリと、前記第3のステップで抽出された最小数のカテゴリ特徴語句と、に基づいて副検索式を構築し、
前記第5のステップでは、前記第2のステップで抽出された最小数の特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築することを特徴とする請求項1に記載の文書検索方法。
In the first step, after obtaining a category into which the positive example is classified, a minimum number of categories including all documents belonging to the positive example are extracted from the category;
In the second step, after obtaining the feature words / phrases included in the positive example, a minimum number of feature words / phrases that include all documents belonging to the positive example are extracted from the feature words / phrases,
In the third step, for each minimum number of categories extracted in the first step, the category feature words / phrases are obtained for all documents belonging to positive examples classified in the category, and then the category feature words / phrases are obtained. Extract a minimum number of category feature words that include all documents belonging to the positive example from
In the fourth step, for each minimum number of categories extracted in the first step, a sub-search expression based on the category and the minimum number of category feature phrases extracted in the third step Build
In the fifth step, the main search formula is constructed based on the union of the minimum number of feature words extracted in the second step and the sub-search formula constructed in the fourth step. The document search method according to claim 1.
前記第1のステップは、
前記正例が分類されるカテゴリを取得し、当該カテゴリをカテゴリ候補として設定する第1の設定ステップと、
前記カテゴリ候補の要素として当該カテゴリ候補に属する正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ候補を降順に並べ替える第1の整列ステップと、
最上位のカテゴリ候補を採用し、当該最上位のカテゴリ候補に属する正例の文書を他のカテゴリ候補の要素から削除するとともに、要素の無くなったカテゴリ候補を前記第1の設定ステップにおいて設定されたカテゴリ候補の中から除外する第1の採用ステップと、
前記他のカテゴリ候補の数が0になるまで、前記第1の整列ステップおよび前記第1の採用ステップを繰り返し、前記第1の採用ステップで採用されたカテゴリ候補を、前記最小数のカテゴリとして抽出する第1の抽出ステップと、
を備え、
前記第2のステップは、
前記正例に含まれる特徴語句を取得し、当該特徴語句を特徴語句候補として設定する第2の設定ステップと、
前記特徴語句候補の要素として当該特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記特徴語句候補を降順に並べ替える第2の整列ステップと、
最上位の特徴語句候補を採用し、当該最上位の特徴語句候補を含む正例の文書を他の特徴語句候補の要素から削除するとともに、要素の無くなった特徴語句候補を前記第2の設定ステップにおいて設定された特徴語句候補の中から除外する第2の採用ステップと、
前記他の特徴語句候補の数が0になるまで、前記第2の整列ステップおよび前記第2の採用ステップを繰り返し、前記第2の採用ステップで採用された特徴語句候補を、前記最小数の特徴語句として抽出する第2の抽出ステップと、
を備え、
前記第3のステップは、
前記第1のステップで抽出された最小数のカテゴリ毎に、前記カテゴリ特徴語句を取得し、当該カテゴリ特徴語句をカテゴリ特徴語句候補として設定する第3の設定ステップと、
前記カテゴリ特徴語句候補の要素として当該カテゴリ特徴語句候補を含む正例の文書を登録するとともに、当該登録された正例の文書数に基づいて前記カテゴリ特徴語句を降順に並べ替える第3の整列ステップと、
最上位のカテゴリ特徴語句候補を採用し、当該最上位のカテゴリ特徴語句候補を含む正例の文書を他のカテゴリ特徴語句候補の要素から削除するとともに、要素の無くなったカテゴリ特徴語句候補を前記第3の設定ステップにおいて設定されたカテゴリ特徴語句候補の中から除外する第3の採用ステップと、
前記他のカテゴリ特徴語句候補の数が0になるまで、前記第3の整列ステップおよび前記第3の採用ステップを繰り返し、前記第3の採用ステップで採用されたカテゴリ特徴語句候補を、前記最小数のカテゴリ特徴語句として抽出する第3の抽出ステップと、
を備えることを特徴とする請求項2に記載の文書検索方法。
The first step includes
A first setting step of acquiring a category into which the positive example is classified and setting the category as a category candidate;
A first alignment step of registering a positive example document belonging to the category candidate as an element of the category candidate and rearranging the category candidate in descending order based on the number of registered positive example documents;
The highest category candidate is adopted, the positive example document belonging to the highest category candidate is deleted from the elements of the other category candidates, and the category candidate having no elements is set in the first setting step. A first hiring step to exclude from category candidates;
The first alignment step and the first adoption step are repeated until the number of other category candidates becomes 0, and the category candidates adopted in the first adoption step are extracted as the minimum number of categories. A first extraction step to:
With
The second step includes
A second setting step of acquiring a feature phrase included in the positive example and setting the feature phrase as a feature phrase candidate;
A second alignment step of registering a positive example document including the characteristic word candidate as an element of the characteristic word candidate and rearranging the characteristic word candidate in descending order based on the number of registered positive example documents;
Adopting the highest-level feature phrase candidate, deleting the original example document including the highest-level feature phrase candidate from the other feature-phrase candidate elements, and setting the feature-phrase candidate with no elements in the second setting step A second adopting step of excluding from the feature word / phrase candidates set in
The second alignment step and the second adoption step are repeated until the number of other feature word candidates becomes zero, and the feature word candidates adopted in the second adoption step are determined as the minimum number of features. A second extraction step for extracting as a phrase;
With
The third step includes
A third setting step of acquiring the category feature phrase for each minimum number of categories extracted in the first step and setting the category feature phrase as a category feature phrase candidate;
A third alignment step of registering a positive example document including the category characteristic word candidate as an element of the category characteristic word candidate and rearranging the category characteristic word in descending order based on the number of registered positive example documents When,
Adopting the highest category feature phrase candidate, deleting the positive example document including the highest category feature phrase candidate from the elements of other category feature phrase candidates, and removing the category feature phrase candidate with no elements. A third adopting step of excluding from the category feature word / phrase candidates set in the setting step of 3;
The third aligning step and the third adopting step are repeated until the number of the other category feature phrase candidates becomes 0, and the category feature phrase candidates adopted in the third adopting step are determined as the minimum number. A third extraction step for extracting as a category feature word of
The document search method according to claim 2, further comprising:
前記本検索式に基づいて前記文書データベースの中から検索された文書のうち、前記本検索式を構築する際に用いた文書を除くものを、前記本検索式との適合度合いに基づいて降順に並べ替える第6のステップを備えることを特徴とする請求項1から3のいずれかに記載の文書検索方法。   Of the documents searched from the document database based on the main search formula, those excluding the document used when constructing the main search formula are sorted in descending order based on the degree of matching with the main search formula. 4. The document search method according to claim 1, further comprising a sixth step of rearranging. 前記カテゴリ特徴語句は、前記第2のステップで取得された特徴語句には含まれないことを特徴とする請求項1から4のいずれかに記載の文書検索方法。   5. The document search method according to claim 1, wherein the category feature word / phrase is not included in the feature word / phrase acquired in the second step. 前記第3のステップでは、前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例であって前記第2のステップで取得された特徴語句を含む負例には含まれない特徴語句を、カテゴリ特徴語句として取得することを特徴とする請求項1から5のいずれかに記載の文書検索方法。   In the third step, each of the categories acquired in the first step is a feature word / phrase included in a positive example classified into the category, and the negative phrase classified into the category among the plurality of documents. The feature word / phrase that is an example and is not included in the negative example including the feature word / phrase acquired in the second step is acquired as a category feature word / phrase. Document search method. 前記文書は、特許文献であり、
前記カテゴリは、FI、IPC、ECLA、USC、またはテーマコードのいずれかであることを特徴とする請求項1から6のいずれかに記載の文書検索方法。
The document is a patent document;
The document search method according to claim 1, wherein the category is any one of FI, IPC, ECLA, USC, or a theme code.
前記文書は、日本の特許文献であり、
前記特徴語句の代わりにFタームを用いることを特徴とする請求項1から7のいずれかに記載の文書検索方法。
The document is Japanese patent literature,
8. The document search method according to claim 1, wherein an F-term is used instead of the feature word / phrase.
複数の階層化されたカテゴリに分類される文書データベースの中から検索目的と一致する文書を検索する文書検索方法をコンピュータに実行させるためのプログラムであって、
前記文書データベースに含まれる複数の文書のうち正例が分類されるカテゴリを取得する第1のステップと、
前記正例に含まれる特徴語句を取得する第2のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリに分類される正例に含まれる特徴語句であって、前記複数の文書のうち前記カテゴリに分類される負例には含まれない特徴語句を、カテゴリ特徴語句として取得する第3のステップと、
前記第1のステップで取得されたカテゴリ毎に、当該カテゴリと、前記第3のステップで取得されたカテゴリ特徴語句と、に基づいて副検索式を構築する第4のステップと、
前記第2のステップで取得された特徴語句の和集合と、前記第4のステップで構築された副検索式と、に基づいて本検索式を構築する第5のステップと、
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute a document search method for searching for a document that matches a search purpose from a document database classified into a plurality of hierarchical categories,
A first step of obtaining a category into which positive examples are classified among a plurality of documents included in the document database;
A second step of acquiring a feature phrase included in the positive example;
A feature word / phrase included in the positive example classified into the category for each category acquired in the first step, and not included in the negative example classified into the category among the plurality of documents. A third step of obtaining a phrase as a category feature phrase;
For each category acquired in the first step, a fourth step of constructing a sub-search expression based on the category and the category feature phrase acquired in the third step;
A fifth step of constructing this search expression based on the union of the feature words acquired in the second step and the sub-search expression constructed in the fourth step;
A program that causes a computer to execute.
JP2010138632A 2010-06-17 2010-06-17 Document retrieval method and program Pending JP2012003550A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010138632A JP2012003550A (en) 2010-06-17 2010-06-17 Document retrieval method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010138632A JP2012003550A (en) 2010-06-17 2010-06-17 Document retrieval method and program

Publications (1)

Publication Number Publication Date
JP2012003550A true JP2012003550A (en) 2012-01-05

Family

ID=45535445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010138632A Pending JP2012003550A (en) 2010-06-17 2010-06-17 Document retrieval method and program

Country Status (1)

Country Link
JP (1) JP2012003550A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6094937B1 (en) * 2016-09-30 2017-03-15 剛一 尾和 Patent Literature Collection Screening Method
JP6156763B1 (en) * 2016-11-24 2017-07-05 剛一 尾和 Patent Literature Search Method
JP2018026039A (en) * 2016-08-12 2018-02-15 前田建設工業株式会社 Information processing device, information processing method and program
JP7451157B2 (en) 2019-12-06 2024-03-18 キヤノン株式会社 Information processing device, information processing method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026039A (en) * 2016-08-12 2018-02-15 前田建設工業株式会社 Information processing device, information processing method and program
JP6094937B1 (en) * 2016-09-30 2017-03-15 剛一 尾和 Patent Literature Collection Screening Method
JP6156763B1 (en) * 2016-11-24 2017-07-05 剛一 尾和 Patent Literature Search Method
JP2018085082A (en) * 2016-11-24 2018-05-31 剛一 尾和 Search method of patent document
JP7451157B2 (en) 2019-12-06 2024-03-18 キヤノン株式会社 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
JP6265921B2 (en) Method, apparatus and product for semantic processing of text
US7818303B2 (en) Web graph compression through scalable pattern mining
KR100816934B1 (en) Clustering system and method using search result document
CN112256939B (en) Text entity relation extraction method for chemical field
EP3671526B1 (en) Dependency graph based natural language processing
US11281864B2 (en) Dependency graph based natural language processing
KR20130108503A (en) Ascribing actionable attributes to data that describes a personal identity
CN112215837A (en) Multi-attribute image semantic analysis method and device
CN110502640A (en) A kind of extracting method of the concept meaning of a word development grain based on construction
AlJadda et al. Pgmhd: A scalable probabilistic graphical model for massive hierarchical data problems
JP2012003550A (en) Document retrieval method and program
KR101136037B1 (en) Method and apparatus for indexing and retrieving documents
US9230210B2 (en) Information processing apparatus and method for obtaining a knowledge item based on relation information and an attribute of the relation
Maciołek et al. Cluo: Web-scale text mining system for open source intelligence purposes
JPWO2013111287A1 (en) SPARQL query optimization method
CN117171650A (en) Document data processing method, system and medium based on web crawler technology
JP2015162004A (en) Inter-development document trace link generation support device and method and program
EP4064038B1 (en) Automated generation and integration of an optimized regular expression
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
KR102062139B1 (en) Method and Apparatus for Processing Data Based on Intelligent Data Structure
KR100964207B1 (en) Method and apparatus for indexing and retrieving documents based on hashing
CN107220249A (en) Full-text search based on classification
Kúdela et al. Extracting parallel paragraphs from common crawl
Charrada et al. Development of a database with ground truth for old documents analysis
JP6980616B2 (en) Computer system and learning method