JP2003162542A - Information retrieval device and patent information retrieval device - Google Patents

Information retrieval device and patent information retrieval device

Info

Publication number
JP2003162542A
JP2003162542A JP2001361567A JP2001361567A JP2003162542A JP 2003162542 A JP2003162542 A JP 2003162542A JP 2001361567 A JP2001361567 A JP 2001361567A JP 2001361567 A JP2001361567 A JP 2001361567A JP 2003162542 A JP2003162542 A JP 2003162542A
Authority
JP
Japan
Prior art keywords
search
keyword
document
retrieval
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001361567A
Other languages
Japanese (ja)
Other versions
JP3486406B2 (en
Inventor
Genichiro Sueki
源一郎 末木
Hiroaki Fujiki
宏明 藤木
Mamoru Matsuo
衛 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Space Software Co Ltd
Original Assignee
Mitsubishi Space Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Space Software Co Ltd filed Critical Mitsubishi Space Software Co Ltd
Priority to JP2001361567A priority Critical patent/JP3486406B2/en
Publication of JP2003162542A publication Critical patent/JP2003162542A/en
Application granted granted Critical
Publication of JP3486406B2 publication Critical patent/JP3486406B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information retrieval device for retrieving a document similar to a document for which retrieval is requested, and to provide a patent information retrieval device particularly suitable when a document of retrieval target is a patent document. <P>SOLUTION: The information retrieval device has a keyword automatic extraction part 2 that extracts by the semantic role of a keyword included in the document for which retrieval is requested, and a retrieval part 4 that retrieves a document similar to the document for which retrieval is requested from a database 6 storing retrieval target documents by a retrieval conditional expression based on the semantic role of the keyword extracted with the keyword automatic extraction part 2. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、自然言語で記述
した文章を検索要求として入力し、その検索要求に類似
した文書を検索結果として出力する情報検索装置に関す
るものであり、特に検索対象とする文書が特許文書の場
合に好適な特許情報検索装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval apparatus for inputting a sentence described in natural language as a retrieval request and outputting a document similar to the retrieval request as a retrieval result, and particularly to a retrieval object. The present invention relates to a patent information search device suitable when a document is a patent document.

【0002】[0002]

【従来の技術】従来の情報検索装置は、検索を行うため
に、あるキーワードが出現するデータベース中の文書を
インデックス情報として保持しておき、検索要求に対す
る検索結果をインデックス情報を用いて獲得し、それを
ユーザーに提供するという手法が取られていた。
2. Description of the Related Art In order to perform a search, a conventional information search apparatus holds a document in a database in which a certain keyword appears as index information, obtains a search result for a search request using the index information, The method of providing it to the user was taken.

【0003】しかし、インデックス情報を作成するに
は、キーワードの統計情報等の情報をデータベース中の
文書から獲得する必要があり、これに多くの時間を費や
していた。そのため、検索装置運用に多大な労力が必要
となり、さらに新たにデータベースに登録された文書は
インデックス情報を再構築するまで検索することができ
ないという問題があった。
However, in order to create the index information, it is necessary to obtain information such as statistical information of keywords from the documents in the database, which requires a lot of time. Therefore, a large amount of labor is required to operate the search device, and there is a problem that a document newly registered in the database cannot be searched until the index information is reconstructed.

【0004】また、従来の特許情報検索装置は、特許庁
がインターネット上で提供している特許電子図書館(I
PDL)のように、キーワード検索を採用したものが一
般的である。この場合には、検索要求に含まれているキ
ーワードの意味上の関係を検索プログラム中で表現する
ことができないため、検索対象文書中でキーワードが表
す手段や物質発明の場合の物質の使用目的及び使用方法
を考慮した検索を行うことは困難であった。そのため、
検索対象文書中に含まれる検索用キーワードが当該目的
と異なる他の目的に使用されている場合でも、この検索
用キーワードを含む文書が検索結果に出力されるという
問題があった。
A conventional patent information retrieval device is a patent electronic library (I) provided by the JPO on the Internet.
It is common to employ a keyword search such as PDL). In this case, since the semantic relationship of the keywords included in the search request cannot be expressed in the search program, the means indicated by the keywords in the search target document and the purpose of use of the substance in the case of the substance invention and It was difficult to perform a search considering the usage method. for that reason,
Even when the search keyword included in the search target document is used for another purpose different from the purpose, there is a problem that the document including the search keyword is output to the search result.

【0005】また、文の構造情報等を用いて格フレーム
等に代表される構造情報を抽出し、検索対象文書中に出
現する文から抽出した構造と、構造レベルでのマッチン
グを行うことにより、キーワードの使用目的及び使用方
法までを考慮した検索を行う試みもなされているが、そ
のためには構造レベルのマッチングを行うための高度な
機構を検索エンジンに備える必要があった。
Further, by extracting structure information represented by a case frame or the like using the structure information of the sentence and matching the structure extracted from the sentence appearing in the retrieval target document at the structure level, Attempts have also been made to perform searches that take into consideration the purpose and usage of keywords, but for that purpose it was necessary to equip the search engine with an advanced mechanism for performing structure-level matching.

【0006】[0006]

【発明が解決しようとする課題】そこで、この発明は、
以上のような従来の検索装置の問題点に鑑み、検索要求
文書からキーワードをその意味上の役割別に抽出するキ
ーワード自動抽出部と、キーワードの意味上の役割に基
づいたキーワード検索による検索手段を採用し、検索要
求文書に類似した文書を検索するための情報検索装置を
提供することを目的とし、加えて検索対象とする文書が
特に特許文書の場合に好適な特許情報検索装置を提供す
ることを目的としている。
Therefore, the present invention is
In view of the problems of the conventional search device as described above, a keyword automatic extraction unit that extracts keywords from a search request document by their semantic roles and a search means by keyword search based on the semantic roles of the keywords are adopted. However, an object of the present invention is to provide an information search device for searching a document similar to the search request document, and also to provide a patent information search device suitable when the document to be searched is a patent document in particular. Has an aim.

【0007】さらに、超並列計算機を用いることによ
り、データベース中の検索対象文書をインデックス化す
ることなく、高精度で類似した文書を検索することが可
能な情報検索装置及び特許情報検索装置を提供すること
を目的としている。
Further, by using a massively parallel computer, there is provided an information retrieval device and a patent information retrieval device capable of retrieving similar documents with high accuracy without indexing retrieval target documents in a database. Is intended.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、請求項1に記載の発明は、自然言語で記述した文章
を検索要求文書として入力し、検索要求に類似した文書
を検索結果として出力する情報検索装置であって、前記
検索要求文書に含まれるキーワードを該キーワードの意
味上の役割別に抽出するキーワード自動抽出部と、該キ
ーワード自動抽出部により抽出されたキーワードの意味
上の役割に基づいた検索条件式により検索対象文書を保
存しているデータベースから前記検索要求文書に類似す
る文書を検索する検索部とを有することを特徴としてい
る。
In order to achieve the above object, the invention according to claim 1 inputs a sentence described in natural language as a search request document and sets a document similar to the search request as a search result. An information retrieval device for outputting, comprising a keyword automatic extraction unit for extracting a keyword included in the retrieval request document for each semantic role of the keyword, and a semantic role of the keyword extracted by the keyword automatic extraction unit. And a search unit that searches a document similar to the search request document from a database that stores search target documents according to a search condition expression based on the search condition document.

【0009】請求項2に記載の発明は、請求項1の構成
に加えて、前記検索部は、超並列計算機の複数の異なる
プロセッサ上に複数の異なる検索条件式を設定し、前記
検索対象文書を該複数の異なる検索条件式で同時並行的
に全文検索し、前記複数の検索条件式に合致した結果を
出力することを特徴としている。
According to a second aspect of the present invention, in addition to the configuration of the first aspect, the search unit sets a plurality of different search condition expressions on a plurality of different processors of a massively parallel computer, and the search target document is set. Is simultaneously and concurrently searched for in full text with the plurality of different search condition expressions, and a result matching the plurality of search condition expressions is output.

【0010】請求項3に記載の発明は、請求項1に記載
の情報検索装置のキーワード自動抽出部が、前記検索要
求文書の言語の表層表現、形態素情報及び前記検索対象
文書を統計処理した統計情報を用いて、発明の対象を表
す名詞及び発明の目的を実現する手段の前記検索要求文
書中の意味上の役割別にキーワードを自動的に抽出及び
役割分類を行うことを特徴としている。
According to a third aspect of the present invention, the keyword automatic extraction unit of the information retrieval apparatus according to the first aspect statistically processes the surface expression of the language of the retrieval request document, the morpheme information and the retrieval target document. It is characterized in that the information is used to automatically extract and classify keywords according to the semantic role in the search request document of the noun representing the subject of the invention and the means for realizing the object of the invention.

【0011】請求項4に記載の発明は、請求項3の構成
に加えて、前記キーワード自動抽出部は、キーワードを
構成する形態素情報及び前記検索対象文書を統計処理し
た統計情報を用いて、前記検索対象文書の絞り込みに用
いられる発明の対象を表す名詞からなるキーワードの境
界決定を行うことを特徴としている。ここで、名詞とは
狭義の「名詞」だけでなく「複合名詞」をも含む広義の
概念である。
According to a fourth aspect of the present invention, in addition to the configuration of the third aspect, the keyword automatic extraction unit uses the morpheme information forming a keyword and statistical information obtained by statistically processing the search target document, It is characterized in that the boundary of a keyword consisting of a noun representing an object of the invention used for narrowing down search target documents is determined. Here, the noun is a broad concept that includes not only a "noun" in a narrow sense but also a "compound noun".

【0012】請求項5に記載の発明は、請求項3の構成
に加えて、前記キーワード自動抽出部は、キーワードを
構成する形態素情報及び前記検索対象文書を統計処理し
た統計情報を用いて、検索結果のスコア付けに用いられ
る発明の目的を実現する手段を表すキーワードの境界決
定を行うことを特徴としている。
According to a fifth aspect of the invention, in addition to the structure of the third aspect, the keyword automatic extraction unit uses the morpheme information forming the keyword and the statistical information obtained by statistically processing the search target document to perform a search. It is characterized in that the boundaries of keywords that represent means for achieving the object of the invention used for scoring results are determined.

【0013】請求項6に記載の発明は、請求項1の構成
に加えて、前記検索部は、発明の対象を表す名詞からな
る検索用キーワードで前記検索対象文書を絞り込み、該
絞り込まれた検索対象文書について発明の目的を実現す
る手段を表す検索用キーワードによる検索結果をスコア
付けに基づくランキングを実施することを特徴としてい
る。
According to a sixth aspect of the invention, in addition to the configuration of the first aspect, the search unit narrows down the search target document with a search keyword consisting of a noun representing the object of the invention, and the narrowed down search is performed. A feature of the present invention is that a search result by a search keyword representing a means for realizing the object of the invention for a target document is ranked based on scoring.

【0014】請求項7に記載の発明は、請求項6の構成
に加えて、前記検索部は、前記検索対象文書を統計処理
した統計情報により、発明の目的を実現する手段を表す
検索用キーワードの共起によるスコア付け及び該検索用
キーワードの単独出現によるスコア付けの自動判定を行
うことを特徴としている。
According to a seventh aspect of the present invention, in addition to the configuration of the sixth aspect, the search unit represents a keyword for searching that represents means for realizing the object of the invention by statistical information obtained by statistically processing the document to be searched. It is characterized in that scoring based on the co-occurrence of the above and automatic scoring based on the single appearance of the search keyword are performed.

【0015】請求項8に記載の発明は、請求項3乃至7
のいずれか1つに記載の構成に加えて、前記検索部は、
超並列計算機の複数の異なるプロセッサ上に複数の異な
る検索条件式を設定し、前記検索対象文書を該複数の異
なる検索条件式で同時並行的に全文検索し、前記複数の
検索条件式に合致した結果を出力することを特徴として
いる。
The invention described in claim 8 is the invention according to claims 3 to 7.
In addition to the configuration described in any one of,
A plurality of different search condition expressions are set on a plurality of different processors of a massively parallel computer, the full-text search of the search target document is performed in parallel with the plurality of different search condition expressions, and the plurality of search condition expressions are matched. It is characterized by outputting the result.

【0016】[0016]

【発明の実施の形態】以下、この発明の一実施の形態に
係る特許情報検索装置を図面に従って詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION A patent information retrieval device according to an embodiment of the present invention will be described in detail below with reference to the drawings.

【0017】図1は、この発明の一実施の形態に係る特
許情報検索装置のブロック図である。
FIG. 1 is a block diagram of a patent information search device according to an embodiment of the present invention.

【0018】発明が特定の目的を達成するための特定の
手段を提供する技術的思想であることを考えれば、特許
文書を解析する場合に、そこに記載されている発明を目
的と手段で捉えることが重要である。
Considering that the invention is a technical idea for providing a specific means for achieving a specific object, when analyzing a patent document, the invention described therein is grasped by the object and the means. This is very important.

【0019】つまり、特許情報検索装置における類似の
特許文書を検索するといった目的は、発明の「対象」を
表す名詞(複合名詞を含む)と同一若しくは類似した名
詞(複合名詞を含む)を有する文書で、かつ発明の目的
を実現する「手段」や物質発明の場合の「具体的な物質
名」が同一若しくは類似した文書を検索することで達成
すると考えられる。そのためには、主に発明の「対象」
を表す名詞(複合名詞を含む)からなるキーワード(以
下、「対象」キーワードという。)と、発明の目的を実
現するための「手段」や物質発明の場合の「具体的な物
質名」を表すキーワード(以下、「手段」キーワードと
いう。)の文書中における意味上の役割別に分類して抽
出する機能を有し、かつ役割別に抽出したキーワードを
用いた検索対象文書の絞り込みと「手段」キーワードに
よるスコア付け及びランキングを行う手段を有している
ことが望ましい。
That is, a document having a noun (including a compound noun) that is the same as or similar to a noun (including a compound noun) representing the "object" of the invention is used for the purpose of searching for a similar patent document in the patent information search device. It is considered that this can be achieved by searching documents that have the same or similar "means" for realizing the object of the invention and "specific substance name" in the case of substance invention. To that end, the main subject of the invention is
Represents a keyword consisting of nouns (including compound nouns) (hereinafter referred to as "target" keyword), "means" for realizing the object of the invention, and "specific substance name" in the case of a substance invention. It has a function to classify and extract keywords (hereinafter referred to as "means" keywords) according to their semantic roles in the document, and narrows down search target documents using the keywords extracted according to roles and "means" keywords. It is desirable to have a means for scoring and ranking.

【0020】また、「対象」キーワード及び「手段」キ
ーワードを形態素情報及び検索対象文書を統計処理した
統計情報を用いて、適切なキーワードの境界決定が可能
な機能を有し、検索時に検索対象文書を統計処理した統
計情報を用いて「手段」キーワードの共起によるスコア
付け及び単独出現によるスコア付けの自動判定を行う手
段を有することが望ましい。
Further, the "target" keyword and "means" keyword have morphological information and the statistical information obtained by statistically processing the search target document has a function capable of determining an appropriate keyword boundary, and the search target document at the time of search. It is desirable to have a means for automatically determining scoring based on the co-occurrence of the "means" keyword and scoring based on the single occurrence using the statistical information obtained by statistically processing.

【0021】図1において、入力文書解析部1は、形態
素解析部11及び節又は文節への分割部12から構成さ
れている。形態素解析部11では、検索要求文書を形態
素単位に分割し、形態素の品詞情報を取得する。また、
節又は文節への分割部12では形態素解析部11により
得られた形態素情報を用いて、検索要求文書より節及び
文節区切りの情報を得る。
In FIG. 1, the input document analysis unit 1 is composed of a morpheme analysis unit 11 and a division unit 12 into sections or clauses. The morpheme analysis unit 11 divides the search request document into morpheme units and acquires the POS information of the morpheme. Also,
The division unit 12 into clauses or clauses uses the morpheme information obtained by the morpheme analysis unit 11 to obtain information on clauses and clause breaks from the search request document.

【0022】文節の区切り位置は、助詞、接続詞等の直
後、若しくは助詞又は接続助詞等の連続の直後を文節区
切り位置とし、節の区切り位置は、動詞及び助動詞等の
連続を動詞句として動詞句の直後を節の区切り位置とす
る、等の一般的に知られている手法を用いればよい。
The bunsetsu demarcation position is a bunsetsu demarcation position immediately after a particle, a conjunction or the like, or immediately after a continuation of a particle or a connection particle. A generally known method such as setting the section delimitation position immediately after is used.

【0023】図1において、キーワード自動抽出部2
は、キーワード候補の抽出部21、「対象」キーワード
の選定部22、「対象」キーワードの境界決定部23、
「手段」キーワードの選定部24及び「手段」キーワー
ドの境界決定部25から構成されている。
In FIG. 1, the keyword automatic extraction unit 2
Is a keyword candidate extraction unit 21, a “target” keyword selection unit 22, a “target” keyword boundary determination unit 23,
It is composed of a "means" keyword selection unit 24 and a "means" keyword boundary determination unit 25.

【0024】キーワード候補の抽出部21においては、
キーワード候補として、たとえば、名詞、複合名詞及び
形態素解析システムに登録されていない未知語等、文書
の特徴を表すと予測される形態素を指定し、このキーワ
ード候補の抽出を行う。
In the keyword candidate extraction unit 21,
As keyword candidates, for example, morphemes predicted to represent the characteristics of the document such as nouns, compound nouns, and unknown words not registered in the morphological analysis system are designated, and the keyword candidates are extracted.

【0025】なお、複合名詞は、たとえば、名詞の連続
をまとめて複合名詞とする処理により作成する。ただ
し、抽出キーワードの境界決定処理のため、複合名詞を
構成する形態素情報は保存しておく必要がある。
The compound noun is created, for example, by processing a series of nouns into a compound noun. However, it is necessary to save the morpheme information that composes the compound noun for the boundary determination processing of the extracted keyword.

【0026】さらに、キーワード候補の抽出後、必ずキ
ーワードから除外する言葉等を除外リストとして保有し
ておき、この除外リスト中に出現するキーワード候補は
除外する機能を追加してもよい。この除外リストには、
キーワード候補と完全に一致することを除外条件とする
言葉の他に、部分的に一致していれば除外対象とする言
葉を含んでいてもよい。
Further, after extracting the keyword candidates, a word or the like to be excluded from the keywords may be retained as an exclusion list, and a function of excluding the keyword candidates appearing in the exclusion list may be added. This exclusion list includes
In addition to the word that is an exclusion condition that exactly matches the keyword candidate, a word that is an exclusion target may be included if it partially matches.

【0027】「対象」キーワードの選定部22では、キ
ーワード候補の抽出部21より抽出されるキーワード候
補より「対象」キーワード候補の選定を行う。たとえ
ば、入力文書が「〜において〜することを特徴とする
〜」といういわゆるジェプソン形式で記述された特許請
求の範囲の請求項の場合、「おいて」よりも前の部分で
特許出願する発明の「対象」の全体的な説明が記述され
る。さらに、「おいて」よりも後の部分で特許出願する
発明の「対象」の具体的な部分を主題として限定し、主
題となった発明の「対象」について具体的な実現方法の
記述がなされている。よって、キーワード候補の抽出部
21より抽出されたキーワード候補のうち、「おいて」
の前の部分に出現するキーワード候補すべてと「おい
て」の後の部分で説明されている主題を表す名詞(複合
名詞を含む)からなるキーワード候補を「対象」キーワ
ード候補として抽出する。
The "target" keyword selection unit 22 selects "target" keyword candidates from the keyword candidates extracted by the keyword candidate extraction unit 21. For example, in the case of a claim in which the input document is described in a so-called Jepson format, which is "characterized in that", the patent application of the invention filed before "before" A general description of the "subject" is described. Furthermore, the specific part of the “object” of the invention to be applied for a patent is limited as a subject in the part after “in”, and a specific method of realizing the “object” of the subject invention is described. ing. Therefore, among the keyword candidates extracted by the keyword candidate extraction unit 21, “leave”
A keyword candidate consisting of all the keyword candidates appearing in the front part of and the nouns (including compound nouns) representing the subject explained in the part after the "leave" is extracted as the "target" keyword candidate.

【0028】「おいて」以降で説明されている主題は、
たとえば助詞等に注目して抽出することができ、取り立
てて助詞「は」、格助詞「が」、格助詞「として」、格
助詞「を」(ただし、「〜することを特徴とする」の直
前の「を」)、格助詞+動詞「からなる」の優先順位
で、以上の形態素の直前に出現するキーワード候補を1
つ抽出すればよい。ただし、抽出した「対象」キーワー
ド候補のうち、検索対象文書数全体に対する検索対象文
書中で各々のキーワードが含まれる文書数の割合が高い
「対象」キーワード候補は検索対象文書を絞り込む能力
が低いため、「対象」キーワード候補から除外する。
[0028] The subject explained after "Aki" is
For example, it can be extracted by focusing on particles, and the particles "ha", case particles "ga", case particles "as", and case particles "wa" (however, Just before the preceding "", the keyword candidate that appears immediately before the above morpheme in the priority order of case particle + verb "consisting of" is 1
Just extract one. However, among the extracted “target” keyword candidates, the “target” keyword candidates having a high ratio of the number of documents that include each keyword in the search target documents with respect to the total number of search target documents have a low ability to narrow down the search target documents. , Excluded from "target" keyword candidates.

【0029】なお、検索対象文書中にキーワードが含ま
れる文書数の取得には、各々のキーワード候補に対応す
る検索条件式をそれぞれ作成し、それらの検索条件式を
複数の異なるプロセッサを有する超並列計算機5の複数
の異なるプロセッサ上に同時に設定し、検索対象文書が
保存されているデータベース6に蓄積されている文書群
を複数の検索条件式で全文検索し、検索条件式に合致し
た結果を用いることができる。ここで、各々の検索条件
式に合致した結果数が、検索対象文書中に各々のキーワ
ード候補が含まれる文書数となる。このキーワード抽出
部2の処理の都度、全文検索を行うことで統計情報を更
新するようにしているため、統計情報の正確さを保持す
ることができる。
In order to obtain the number of documents including keywords in the documents to be searched, search condition expressions corresponding to the respective keyword candidates are created, and these search condition expressions are provided in a massively parallel manner having a plurality of different processors. It is set on a plurality of different processors of the computer 5 at the same time, the document group stored in the database 6 in which the document to be searched is stored is subjected to full-text search by a plurality of search condition expressions, and the result matching the search condition expression is used. be able to. Here, the number of results that match each search condition expression is the number of documents in which each keyword candidate is included in the search target documents. Since the statistical information is updated by performing a full-text search every time the processing of the keyword extracting unit 2 is performed, the accuracy of the statistical information can be maintained.

【0030】ここで、超並列計算機5は、数千乃至数万
のプロセッサ(以下、これらをまとめてパイプラインと
いう)を内蔵することにより、このパイプラインに複数
の異なった検索条件式を同時に設定可能としている。そ
して、これら大量のプロセッサを同時に動作させること
によって、複数の異なった検索条件式とデータベース6
に保存されている検索対象文書のマッチングを行う全文
検索を実行する。マッチングの結果、検索条件式に合致
する文書が見つかったら、その文書が検索されたとみな
す機能を有している。
Here, the massively parallel computer 5 incorporates several thousands to tens of thousands of processors (hereinafter collectively referred to as a pipeline), so that a plurality of different search condition expressions are simultaneously set in this pipeline. It is possible. Then, by operating a large number of these processors at the same time, a plurality of different search condition expressions and database 6
Perform a full-text search that matches search target documents saved in. As a result of matching, if a document that matches the search condition expression is found, it has a function of assuming that the document has been searched.

【0031】この超並列計算機5は、全文検索エンジン
(たとえば、Paracel社製、FDF(登録商標)
4T TextFinder)のような機器が望ましい
が、これと同等の機能及び性能を有するワークステーシ
ョン等の機器でもよい。
The massively parallel computer 5 is a full-text search engine (for example, FDF (registered trademark) manufactured by Paracel).
A device such as a 4T TextFinder) is desirable, but a device such as a workstation having a function and performance equivalent to this may be used.

【0032】「対象」キーワードの境界決定部23で
は、「対象」キーワードの選定部22で抽出された「対
象」キーワード候補のうち、複合名詞等の複合語の「対
象」キーワードの境界決定を行う。複合語を構成する形
態素で分割し、適切な検索対象文書の絞り込み能力を持
つキーワードの境界決定と同時に共起の設定を行う。境
界決定及び共起の設定は、複合語、分割した形態素の共
起、分割した形態素それぞれの検索対象文書数全体に対
する検索対象文書中で各々が含まれる文書数の割合を用
いて、複合語、分割した形態素の共起、分割した形態素
の選定により行われる。「対象」キーワードの境界決定
手順は図2のフローチャートに示しているが、詳細は後
述する。なお、境界決定の対象外となる「対象」キーワ
ード候補は、そのまま「対象」キーワードとして選定さ
れる。
The "target" keyword boundary determining unit 23 determines the boundary of the "target" keyword of a compound word such as a compound noun among the "target" keyword candidates extracted by the "target" keyword selecting unit 22. . The morphemes that compose the compound words are divided, and the co-occurrence is set at the same time when the boundaries of the keywords having the appropriate search target document narrowing ability are determined. Boundary determination and co-occurrence settings are performed using a compound word, a co-occurrence of divided morphemes, and a ratio of the number of documents each of which is included in the search target document to the total number of search target documents for each of the divided morphemes. It is performed by co-occurrence of the divided morphemes and selection of the divided morphemes. The procedure for determining the boundary of the “target” keyword is shown in the flowchart of FIG. 2, and details will be described later. Note that the “target” keyword candidates that are not the target of boundary determination are directly selected as the “target” keyword.

【0033】「手段」キーワードの選定部24では、キ
ーワード候補の抽出部21より出力されるキーワード候
補より「手段」キーワード候補の選定を行う。たとえ
ば、入力文書が「〜において〜することを特徴とする
〜」といういわゆるジェプソン形式で記述された特許請
求の範囲の請求項の場合、「おいて」よりも後の部分で
特許出願する発明の「対象」の具体的な部分を主題とし
て限定し、主題となった発明の「対象」について具体的
な実現方法、つまり実現のための「手段」や物質発明の
場合の使用する「具体的な物質名」の記述がなされてい
る。よって、「おいて」の後の部分に出現するキーワー
ド候補を「手段」キーワード候補として抽出する。「手
段」キーワード候補を抽出する際は、適合率向上のた
め、他の「手段」キーワード候補を補足的に修飾してい
ると考えられる、格助詞「の」の直前のキーワード候補
を削除してもよいし、さらに多くの修飾内容を削除する
ために、「手段」キーワード候補を節の末尾に出現する
キーワード候補に限定してもよい。
The "means" keyword selection unit 24 selects "means" keyword candidates from the keyword candidates output from the keyword candidate extraction unit 21. For example, in the case of a claim in which the input document is described in the so-called Jepson format, which is characterized in that "in ~,", the invention to be applied for patent in the portion after "preceding" The specific part of the "object" is limited as a subject, and the "object" of the subject invention is specifically realized, that is, "means" for realizing the substance or the "specific" used in the case of the invention. The substance name is described. Therefore, the keyword candidates appearing in the portion after "leave" are extracted as "means" keyword candidates. When extracting "means" keyword candidates, delete the keyword candidate immediately before the case particle "no", which is considered to be a complementary modification of other "means" keyword candidates in order to improve the precision. Alternatively, in order to delete more modified contents, the “means” keyword candidates may be limited to the keyword candidates that appear at the end of the section.

【0034】「手段」キーワードの境界決定部25で
は、「手段」キーワードの選定部24で抽出された「手
段」キーワード候補のうち、複合名詞等の複合語の「手
段」キーワードの境界決定を行う。「手段」キーワード
は「対象」キーワードにより検索対象を限定した後のマ
ッチングに用いられるため、既に検索対象文書の絞り込
みは完了しており、より多くの類似文書をスコアよりラ
ンキングすることが重要である。そのため、境界決定手
法を用いて複合語の「手段」キーワードにより、より多
くの類似文書をスコア付けランキングできるよう、キー
ワードの適切な区切り位置を求める。
The "means" keyword boundary determining unit 25 determines the boundaries of the "means" keywords of compound words such as compound nouns among the "means" keyword candidates extracted by the "means" keyword selecting unit 24. . Since the "means" keyword is used for matching after the search target is limited by the "target" keyword, the search target documents have already been narrowed down, and it is important to rank more similar documents from the score. . Therefore, by using a boundary determination method, an appropriate delimiter position of the keyword is obtained so that more similar documents can be scored and ranked by the keyword "means" of the compound word.

【0035】たとえば、「ゴム状シート」のように「ゴ
ム状」が「シート」の説明のために用いられていること
が明らかな表現が出現するキーワードは「シート状」の
みを「手段」キーワードとしてもよい。ただし、検索対
象文書数全体に対する検索対象文書中で「シート」が含
まれる文書数の割合が高い場合、「シート」は検索対象
文書中において非常に一般的な言葉であり、手段等の特
徴付けを行う能力が低いといえるため、より特徴付けを
行う能力のあるキーワードとして、「シート」を特徴づ
ける「ゴム」を「手段」キーワードとしてもよい。ま
た、複合語を構成する各形態素の隣接の頻度を求めるこ
とにより、形態素の結びつきの強さを求め、結びつきの
強さを元に境界決定を行う等の一般的に知られているキ
ーワード境界決定手法を用いてもよい。
For example, a keyword in which it is clear that "rubbery" is used to describe "sheet" such as "rubbery sheet" appears only in "sheet" as a "means" keyword. May be However, if the ratio of the number of documents that include "sheets" in the search target documents to the total number of search target documents is high, "sheet" is a very general term in the search target documents and the characteristics of the means, etc. Since it can be said that the ability to perform is low, “rubber” that characterizes the “sheet” may be used as the “means” keyword as the keyword having the ability to perform more characterization. In addition, by obtaining the frequency of adjacency of each morpheme that composes a compound word, the strength of the morpheme connection is determined, and the boundary is determined based on the strength of the connection. Techniques may be used.

【0036】さらに、検索対象文書にまったく表れない
「手段」キーワードは検索用キーワードの役割を果たさ
ないため、「手段」キーワードを構成する形態素の共起
を検索に利用する等の処理を行ってもよい。なお、境界
決定の対象外となる「手段」キーワード候補は、そのま
ま「手段」キーワードとして選定される。
Further, since the "means" keyword that does not appear in the document to be searched does not play the role of the search keyword, even if the co-occurrence of the morphemes forming the "means" keyword is used for the search, etc. Good. Note that the “means” keyword candidates that are not subject to boundary determination are directly selected as the “means” keyword.

【0037】図1において、検索条件式作成部3には検
索条件式の作成部31を有している。この検索条件式の
作成部31において、キーワード自動抽出部2により抽
出された「対象」キーワード及び「手段」キーワードを
用いた検索条件式を作成する。「対象」キーワードは検
索対象文書の絞り込みを行う検索条件式の作成に適用さ
れ、たとえば、「対象」キーワードのすべて(and結
合)若しくは一部(and結合とor結合の組み合わ
せ、又はor結合)が出現する文書を検索するための検
索条件式を作成する。
In FIG. 1, the search condition expression creating unit 3 has a search condition expression creating unit 31. The search condition formula creating unit 31 creates a search condition formula using the “target” keyword and the “means” keyword extracted by the keyword automatic extraction unit 2. The “target” keyword is applied to the creation of a search condition expression that narrows down the search target documents. For example, all (and combination) or a part (combination of and combination or or combination) of the “target” keyword is applied. Create a search condition expression to search for documents that appear.

【0038】また、「手段」キーワードは「対象」キー
ワードにより絞り込まれた検索対象文書に対するスコア
付けランキングに適用され、基本的にキーワードのいず
れかが出現した際にスコアを与えればよいが(or結
合)、たとえば、検索対象文書数全体に対する検索対象
文書中での各々のキーワードが含まれる文書数の割合が
高い「手段」キーワードにおいては、検索要求文書中で
直前及び直後に出現する「手段」キーワードと共起した
際(直前若しくは直後のキーワードとのand結合)に
スコアを与えるように検索条件式を作成する等の処理を
用いて検索条件に修正を加えることにより、適合率を高
めることもできる。また、検索対象文書の絞り込み及び
スコア付けランキングのいずれの検索条件式において
も、キーワードに対する同義語や類義語をシソーラス等
を使用して検索条件式の中に追加してもよい。
The "means" keyword is applied to the scoring ranking for the search target documents narrowed down by the "target" keyword, and basically, when any of the keywords appears, a score may be given (or combination. ), For example, in a “means” keyword in which the ratio of the number of documents containing each keyword in the search target document to the total number of search target documents is high, the “means” keyword that appears immediately before and immediately after in the search request document It is also possible to increase the relevance ratio by modifying the search condition by using a process such as creating a search condition expression so as to give a score when it co-occurs with (immediately before and after the keyword and combination). . Further, in any of the search condition expressions for narrowing down the search target documents and scoring ranking, synonyms or synonyms for the keyword may be added to the search condition expression using a thesaurus or the like.

【0039】図1において、検索部4には検索の実行部
41を有している。この検索の実行部41はブーリアン
検索と、キーワード出現によるスコア加算、ベクトル空
間法による類似度スコア計算等のスコア付けランキング
による検索の2種類の検索手法が可能な機能を有する。
In FIG. 1, the search unit 4 has a search execution unit 41. The search execution unit 41 has a function capable of performing two types of search methods, that is, a Boolean search, a score addition by keyword appearance, and a search by score ranking such as similarity score calculation by a vector space method.

【0040】ブーリアン検索とスコア付けランキングに
よる検索を1つの検索エンジンで実現してもよいし、そ
れぞれ別の検索エンジンで実現してもよい。検索の実行
部41では、まず、「対象」キーワードによる検索対象
文書の絞り込みをブーリアン検索により行い、検索結果
に対して「手段」キーワードによるスコア付けランキン
グをスコア付けランキングによる検索により行う。ま
た、検索エンジンとしてParacel社製、FDF
(登録商標)4T TextFinderを用いれば、
「対象」キーワードによる検索対象文書の絞り込みと
「手段」キーワードによるスコア付けランキングを1つ
の検索条件式内に記載することが可能であり、これによ
り同時に検索を行うことができるため、より高速な検索
が可能となる。
The Boolean search and the search based on the scoring ranking may be realized by one search engine or may be realized by different search engines. In the search execution unit 41, first, the search target documents are narrowed down by the “target” keyword by the Boolean search, and the search results are scored by the “means” keyword by the scored ranking. Also, FDF made by Paracel as a search engine
With (registered trademark) 4T TextFinder,
Since it is possible to describe the search target documents by the “target” keyword and the scoring ranking by the “means” keyword in one search condition expression, the search can be performed at the same time. Is possible.

【0041】図2は、「対象」キーワードの境界決定手
順を示すフローチャートである。
FIG. 2 is a flow chart showing the procedure for determining the boundary of the "target" keyword.

【0042】ここで、idf値とは複合語、分割した形
態素の共起、分割した形態素それぞれの検索対象文書数
全体に対する検索対象文書中で各々が含まれる文書数の
割合を逆数にし、さらにlogをとった値であり、値
が大きいほど検索対象文書の絞り込み能力が高いことを
示す。
Here, the idf value is a compound word, the co-occurrence of divided morphemes, and the ratio of the number of documents each of which is included in the search target document to the total number of search target documents for each of the divided morphemes is made an inverse number, and log It is a value obtained by taking a value of 2 , and the larger the value is, the higher the narrowing-down capability of the search target document is.

【0043】そこで、まず、複合語、分割した形態素の
共起、分割した形態素それぞれのidf値を求める(ス
テップS1)。もし、設定した閾値よりもidf値が高
い分割した形態素が存在するか否かを判断し(ステップ
S2)、idf値が高い分割した形態素が存在した場合
は、閾値を超えた形態素すべてを「対象」キーワードと
して採用する(ステップS4)。ステップS2で閾値を
超える分割した形態素がなく、かつ設定した閾値よりも
idf値が高い分割した形態素の共起が存在するか否か
を判断し(ステップS3)、閾値よりもidf値が高い
分割した形態素の共起が存在した場合は、分割した形態
素の共起を「対象」キーワードとする(ステップS
4)。それ以外の分割した形態素及びその共起が「対
象」キーワードとならない場合は、複合語を「対象」キ
ーワードとする(ステップS4)。以上のステップS1
からステップS4の処理を、すべての「対象」キーワー
ド候補について行う(ステップS5)。なお、ステップ
S2及びステップS3のidf値の閾値はそれぞれ別個
の値に設定してもよい。
Therefore, first, the compound word, the co-occurrence of the divided morphemes, and the idf value of each of the divided morphemes are obtained (step S1). If there is a divided morpheme whose idf value is higher than the set threshold value (step S2), and if there is a divided morpheme whose idf value is higher than the set threshold value, all morphemes exceeding the threshold value are targeted. It is adopted as a keyword (step S4). In step S2, there is no divided morpheme exceeding the threshold, and it is determined whether or not a co-occurrence of the divided morphemes whose idf values are higher than the set threshold exists (step S3), and the division whose idf value is higher than the threshold is determined. When the co-occurrence of the morpheme that has been performed exists, the co-occurrence of the divided morpheme is set as the “target” keyword (step S
4). If the other divided morphemes and their co-occurrence are not the “target” keyword, the compound word is set as the “target” keyword (step S4). Step S1 above
The process from to step S4 is performed for all "target" keyword candidates (step S5). The thresholds of the idf value in step S2 and step S3 may be set to different values.

【0044】表1に、図2の「対象」キーワードの境界
決定プログラムに対して、ステップS2のidf閾値を
5、ステップS3でのidf閾値を4として適用した例
を示す。
Table 1 shows an example in which the idf threshold of step S2 is set to 5 and the idf threshold of step S3 is set to 4 with respect to the boundary determination program for the "target" keyword of FIG.

【0045】[0045]

【表1】 [Table 1]

【0046】表1で示した例では、「対象」キーワード
候補として「感熱記録用転写材」、「バックコート層」
及び「加熱手段」を入力した場合は、「転写材」、「バ
ック」と「コート層」の共起(分割した形態素の共起)
が「対象」キーワードとして抽出され、さらに「加熱手
段」(複合語)が「対象」キーワードとして抽出され
る。
In the example shown in Table 1, "thermal recording transfer material" and "back coat layer" are selected as "target" keyword candidates.
When "heating means" is entered, co-occurrence of "transfer material", "back" and "coat layer" (co-occurrence of divided morphemes)
Is extracted as a “target” keyword, and further “heating means” (compound word) is extracted as a “target” keyword.

【0047】「感熱記録用転写材」においては、形態素
の区切りにより「感熱」、「記録用」及び「転写材」に
分割される。次に、ステップS1により、「感熱」、
「記録用」、「転写材」それぞれのidf値と「感
熱」、「記録用」、「転写材」が共起する場合のidf
値を求める。ステップS2により、「感熱」、「記録
用」、「転写材」それぞれのidf値をidfの閾値と
した5と比較すると、idf値が5.10である「転写
材」が「対象」キーワードとして選定され、ステップS
5へと移行することになる。
The "thermosensitive transfer material" is divided into "heat sensitive", "recording" and "transfer material" by the morpheme division. Next, in step S1, "heat sensitive",
Idf values for "recording" and "transfer material" and idf when "heat sensitive", "recording", and "transfer material" co-occur
Find the value. In step S2, when the idf values of “heat sensitive”, “recording”, and “transfer material” are compared with 5, which is the threshold value of idf, “transfer material” having an idf value of 5.10 is regarded as the “target” keyword. Selected, Step S
It will move to 5.

【0048】「バックコート層」においては、「バッ
ク」及び「コート層」に分割される。次に、idf値を
求め、ステップS2により「バック」、「コート層」の
idf値をidf閾値とした5と比較しても「バッ
ク」、「コート層」のいずれもidf値は5より低い値
となる。そのため、ステップS3に処理が移行し、「バ
ック」と「コート層」の共起時のidf値を共起時のi
df閾値とした4と比較する。その結果、「バック」と
「コート層」の共起(分割した形態素の共起)のidf
値は4.11となり、idf閾値を上回るため、「バッ
ク」と「コート層」の共起(分割した形態素の共起)が
「対象」キーワードとして選定され、ステップS5へと
移行することになる。
The "back coat layer" is divided into "back" and "coat layer". Next, even if the idf value is obtained and compared with 5 in which the idf values of "back" and "coat layer" are set as idf thresholds in step S2, the idf value of both "back" and "coat layer" is lower than 5. It becomes a value. Therefore, the process proceeds to step S3, and the idf value at the time of co-occurrence of “back” and “coat layer” is set to i at the time of co-occurrence.
Compare with 4 as the df threshold. As a result, idf of co-occurrence of "back" and "coat layer" (co-occurrence of divided morphemes)
Since the value is 4.11, which exceeds the idf threshold, the co-occurrence of “back” and “coat layer” (co-occurrence of divided morphemes) is selected as the “target” keyword, and the process proceeds to step S5. .

【0049】「加熱手段」においては、「加熱」及び
「手段」に分割されるが、「加熱」、「手段」の両方の
idf値がidf閾値を下回り、かつ「加熱」と「手
段」の共起のidf値もidf閾値を下回る。そのた
め、分割を行う前の「加熱手段」(複合語)が「対象」
キーワードとして選定され、ステップS5へと移行する
ことになる。
The "heating means" is divided into "heating" and "means", but the idf values of both "heating" and "means" are below the idf threshold value, and the "heating" and "means" are the same. The co-occurrence idf value is also below the idf threshold. Therefore, the "heating means" (compound word) before the division is the "target"
The keyword is selected, and the process proceeds to step S5.

【0050】[0050]

【発明の効果】以上説明したように、請求項1に記載の
発明によれば、検索要求文書に含まれるキーワードの意
味上の役割別に抽出するキーワード自動抽出部と、該キ
ーワード自動抽出部により抽出されたキーワードの意味
上の役割に基づいた検索条件式により検索対象文書を保
存しているデータベースから検索要求文書に類似する文
書を検索する検索部とを有するので、ユーザーが検索要
求文書からキーワードの選定を行ったり検索条件式を設
定するといった手間を掛けずに済むため、検索作業を効
率的に行うことができる。また、意味上の役割別のキー
ワードを検索用キーワードとしているため重要でない単
語を検索に使用することがなくなるため、適合率をより
高めることができる。さらに、データベースのデータ更
新の度にインデックス情報を再構築する必要がないか
ら、いつでも検索できる。
As described above, according to the invention described in claim 1, the keyword automatic extraction unit for extracting each keyword included in the search request document according to the semantic role, and the keyword automatic extraction unit. The search unit searches for a document similar to the search request document from the database storing the search target document according to the search condition expression based on the semantic role of the selected keyword. Since it is not necessary to make a selection or set a search condition expression, the search work can be efficiently performed. Further, since keywords for each semantic role are used as search keywords, unimportant words are not used for search, so that the matching rate can be further increased. Further, since it is not necessary to reconstruct the index information each time the data in the database is updated, the index information can be searched at any time.

【0051】また、従来のように、構造レベルでのマッ
チング等の複雑な処理を行わず、キーワードを用いた検
索のみで類似した文書が検索可能であるから、高度で複
雑な機構を検索エンジンに備える必要がないため、高速
な検索を実現することができる。
Further, unlike the prior art, since a similar document can be searched only by a search using a keyword without performing a complicated process such as matching at a structure level, an advanced and complicated mechanism can be used as a search engine. Since it is not necessary to provide it, a high-speed search can be realized.

【0052】請求項2に記載の発明によれば、検索部
は、超並列計算機の複数の異なるプロセッサ上に複数の
異なる検索条件式を設定し、検索対象文書を該複数の異
なる検索条件式で同時並行的に全文検索し、複数の検索
条件式に合致した結果を出力するので、データベース中
の検索対象文書のインデックス化が不要となるため、請
求項1の効果に加えて、低コストで運用が可能な高速情
報検索が可能となる。
According to the second aspect of the present invention, the search unit sets a plurality of different search condition expressions on a plurality of different processors of the massively parallel computer, and the search target document is set by the plurality of different search condition expressions. Since full-text search is performed simultaneously and in parallel, and the results that match multiple search condition expressions are output, indexing of search target documents in the database is not required, so operation is performed at low cost in addition to the effect of claim 1. It enables high-speed information retrieval.

【0053】請求項3に記載の発明によれば、キーワー
ド自動抽出部が、検索要求文書の言語の表層表現、形態
素情報及び検索対象文書を統計処理した統計情報を用い
て、発明の対象を表す名詞及び発明の目的を実現する手
段の検索要求文書中の意味上の役割別にキーワードを自
動的に抽出及び役割分類を行うので、請求項1の効果に
加えて、特許文書の検索における適合率をより高めるこ
とができる。
According to the third aspect of the invention, the keyword automatic extraction unit represents the object of the invention by using the surface expression of the language of the retrieval request document, the morpheme information and the statistical information obtained by statistically processing the retrieval target document. In addition to the effect of claim 1, in addition to the effect of claim 1, the relevance ratio in the search of patent documents can be improved because the keywords are automatically extracted and classified according to the meaning role in the search request document of the noun and the means for achieving the object of the invention. It can be increased.

【0054】請求項4に記載の発明によれば、キーワー
ド自動抽出部は、キーワードを構成する形態素情報及び
検索対象文書を統計処理した統計情報を用いて、検索対
象文書の絞り込みに用いられる発明の対象を表す名詞か
らなるキーワードの境界決定を行うので、請求項3の効
果に加えて、検索要求文書の発明の目的と同一又は類似
した目的を有する特許文書を集める際に最適な検索用キ
ーワードを決定することができる。
According to the invention described in claim 4, the keyword automatic extraction unit uses the morpheme information that constitutes the keyword and the statistical information obtained by statistically processing the search target document to narrow down the search target document. Since the boundary of the keyword consisting of the noun representing the object is determined, in addition to the effect of claim 3, the optimum search keyword is selected when collecting patent documents having the same or similar purpose as the invention of the search request document. You can decide.

【0055】請求項5に記載の発明によれば、キーワー
ド自動抽出部は、キーワードを構成する形態素情報及び
検索対象文書を統計処理した統計情報を用いて、検索結
果のスコア付けに用いられる発明の目的を実現する手段
を表すキーワードの境界決定を行うので、請求項3の効
果に加えて、検索要求文書の発明の目的を実現する手段
と同一又は類似の手段を有する特許文書を集める際に最
適な検索用キーワードを決定することができる。
According to the fifth aspect of the present invention, the keyword automatic extraction unit uses the morpheme information that constitutes the keyword and the statistical information obtained by statistically processing the search target document to score the search results. Since the boundary of the keyword representing the means for realizing the object is determined, it is most suitable for collecting the patent documents having the same or similar means as the means for realizing the object of the invention of the search request document in addition to the effect of claim 3. Search keywords can be determined.

【0056】請求項6に記載の発明によれば、検索部
が、発明の対象を表す名詞からなる検索用キーワードで
検索対象文書を絞り込み、該絞り込まれた検索対象文書
について発明の目的を実現する手段を表す検索用キーワ
ードによる検索結果をスコア付けに基づくランキングを
実施するので、検索要求文書の発明の対象を表す名詞と
同一又は類似の名詞を有する特許文書を集める1次検索
を行った後に、検索要求文書の発明の目的を実現する手
段と同一又は類似の手段を有する特許文書を集める2次
検索を行うといった使い方ができるため、用途に応じて
検索文書数を調整することができると共に、検索要求に
合った特許文書を高い適合率で検索することができる。
According to the sixth aspect of the present invention, the search unit narrows down the search target documents with the search keyword consisting of a noun representing the object of the invention, and realizes the object of the invention for the narrowed down search target documents. Since the search results by means of the search keyword representing the means are ranked based on the scoring, after performing the primary search for collecting the patent documents having the same or similar noun as the noun representing the subject of the invention of the search request document, Since the secondary search can be performed by collecting the patent documents having the same or similar means as the means for realizing the object of the invention of the search request document, the number of search documents can be adjusted according to the use and the search can be performed. You can search for patent documents that meet your requirements with a high relevance rate.

【0057】請求項7に記載の発明によれば、検索部
は、検索対象文書を統計処理した統計情報により、発明
の目的を実現する手段を表す検索用キーワードの共起に
よるスコア付け及び該検索用キーワードの単独出現によ
るスコア付けの自動判定を行うので、検索対象文書を元
データとする統計情報が検索条件式に反映され、請求項
6の効果に加えて、検索要求文書の発明の目的を実現す
る手段と同一又は類似する手段を有する特許文書を高い
適合率で検索することができる。
According to the invention described in claim 7, the search unit uses the statistical information obtained by statistically processing the document to be searched for scoring by co-occurrence of a search keyword representing means for realizing the object of the invention and the search. Since the scoring is automatically determined by the single appearance of the search keyword, the statistical information with the search target document as the original data is reflected in the search condition expression, and in addition to the effect of claim 6, the object of the invention of the search request document is It is possible to search for a patent document having a means that is the same as or similar to the means for realizing it with a high matching rate.

【0058】請求項8に記載の発明によれば、検索部
は、超並列計算機の複数の異なるプロセッサ上に複数の
異なる検索条件式を設定し、検索対象文書を該複数の異
なる検索条件式で同時並行的に全文検索し、複数の検索
条件式に合致した結果を出力するので、データベース中
の検索対象文書のインデックス化が不要となるため、請
求項3乃至7のいずれか1つの効果に加えて、低コスト
で運用が可能な高速特許情報検索が可能となる。
According to the invention described in claim 8, the search section sets a plurality of different search condition expressions on a plurality of different processors of the massively parallel computer, and the search target document is set by the plurality of different search condition expressions. In addition to the effect of any one of claims 3 to 7, since the full-text search is performed simultaneously in parallel and the results matching the plurality of search condition expressions are output, indexing of the search target document in the database is unnecessary. Thus, high-speed patent information search that can be operated at low cost becomes possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】 この発明の一実施の形態に係る特許情報検索
装置のブロック図である。
FIG. 1 is a block diagram of a patent information search device according to an embodiment of the present invention.

【図2】 「対象」キーワードの境界決定手順を示すフ
ローチャートである。
FIG. 2 is a flowchart showing a procedure for determining a boundary of a “target” keyword.

【符号の説明】[Explanation of symbols]

1 入力文書解析部 2 キーワード自動抽出部 3 検索条件式作成部 4 検索部 5 超並列計算機 6 データベース 11 形態素解析部 12 節又は文節への分割部 21 キーワード候補抽出部 22 「対象」キーワードの選定部 23 「対象」キーワードの境界決定部 24 「手段」キーワードの選定部 25 「手段」キーワードの境界決定部 1 Input document analysis unit 2 Keyword automatic extraction unit 3 Search condition formula creation section 4 Search Department 5 Massively parallel computers 6 database 11 Morphological analyzer Division into 12 clauses or clauses 21 Keyword candidate extraction unit 22 "Target" Keyword Selection Section 23 "Target" Keyword Boundary Determiner 24 "Means" Keyword Selection Section 25 "Means" Keyword Boundary Determiner

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松尾 衛 神奈川県鎌倉市上町屋792番地 三菱スペ ース・ソフトウエア株式会社鎌倉事業部内 Fターム(参考) 5B075 NK31 QS01 QS05    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Mamoru Matsuo             Mitsubishi Spa, 792 Kamimachiya, Kamakura City, Kanagawa Prefecture             Software Co., Ltd. in Kamakura Division F-term (reference) 5B075 NK31 QS01 QS05

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 自然言語で記述した文章を検索要求文書
として入力し、検索要求に類似した文書を検索結果とし
て出力する情報検索装置であって、前記検索要求文書に
含まれるキーワードを該キーワードの意味上の役割別に
抽出するキーワード自動抽出部と、該キーワード自動抽
出部により抽出されたキーワードの意味上の役割に基づ
いた検索条件式により検索対象文書を保存しているデー
タベースから前記検索要求文書に類似する文書を検索す
る検索部と、を有することを特徴とする情報検索装置。
1. An information search apparatus for inputting a sentence written in natural language as a search request document and outputting a document similar to a search request as a search result, wherein the keyword included in the search request document is A keyword automatic extraction unit for extracting by semantic role, and a search request document from a database storing search target documents by a search condition expression based on the semantic role of the keyword extracted by the keyword automatic extraction unit An information retrieval apparatus comprising: a retrieval unit that retrieves similar documents.
【請求項2】 前記検索部は、超並列計算機の複数の異
なるプロセッサ上に複数の異なる検索条件式を設定し、
前記検索対象文書を該複数の異なる検索条件式で同時並
行的に全文検索し、前記複数の検索条件式に合致した結
果を出力することを特徴とする請求項1に記載の情報検
索装置。
2. The search unit sets a plurality of different search condition expressions on a plurality of different processors of a massively parallel computer,
The information retrieval apparatus according to claim 1, wherein the retrieval target document is simultaneously and concurrently full-text searched by the plurality of different retrieval condition expressions, and a result matching the plurality of retrieval condition expressions is output.
【請求項3】 請求項1に記載の情報検索装置のキーワ
ード自動抽出部が、前記検索要求文書の言語の表層表
現、形態素情報及び前記検索対象文書を統計処理した統
計情報を用いて、発明の対象を表す名詞及び発明の目的
を実現する手段の前記検索要求文書中の意味上の役割別
にキーワードを自動的に抽出及び役割分類を行うことを
特徴とする特許情報検索装置。
3. The keyword automatic extraction unit of the information search device according to claim 1, using the surface expression of the language of the search request document, the morpheme information, and the statistical information obtained by statistically processing the search target document. A patent information retrieval device characterized by automatically extracting keywords and classifying roles according to semantic roles in the search request document of a noun representing an object and means for realizing the object of the invention.
【請求項4】 前記キーワード自動抽出部は、キーワー
ドを構成する形態素情報及び前記検索対象文書を統計処
理した統計情報を用いて、前記検索対象文書の絞り込み
に用いられる発明の対象を表す名詞からなるキーワード
の境界決定を行うことを特徴とする請求項3に記載の特
許情報検索装置。
4. The keyword automatic extraction unit is composed of a noun representing an object of the invention used for narrowing down the search target document by using morpheme information forming a keyword and statistical information obtained by statistically processing the search target document. The patent information search device according to claim 3, wherein a boundary between keywords is determined.
【請求項5】 前記キーワード自動抽出部は、キーワー
ドを構成する形態素情報及び前記検索対象文書を統計処
理した統計情報を用いて、検索結果のスコア付けに用い
られる発明の目的を実現する手段を表すキーワードの境
界決定を行うことを特徴とする請求項3に記載の特許情
報検索装置。
5. The automatic keyword extraction unit represents means for realizing an object of the invention used for scoring a search result by using morpheme information forming a keyword and statistical information obtained by statistically processing the search target document. The patent information search device according to claim 3, wherein a boundary between keywords is determined.
【請求項6】 請求項1に記載の情報検索装置の前記検
索部が、発明の対象を表す名詞からなる検索用キーワー
ドで前記検索対象文書を絞り込み、該絞り込まれた検索
対象文書について発明の目的を実現する手段を表す検索
用キーワードによる検索結果をスコア付けに基づくラン
キングを実施することを特徴とする特許情報検索装置。
6. The information retrieval apparatus according to claim 1, wherein the retrieval unit narrows down the retrieval target documents with a retrieval keyword composed of a noun representing an object of the invention, and the retrieval target documents narrowed down have an object of the invention. A patent information retrieving apparatus, which performs a ranking based on a scoring of a retrieval result by a retrieval keyword representing a means for realizing.
【請求項7】 前記検索部は、前記検索対象文書を統計
処理した統計情報により、発明の目的を実現する手段を
表す検索用キーワードの共起によるスコア付け及び該検
索用キーワードの単独出現によるスコア付けの自動判定
を行うことを特徴とする請求項6に記載の特許情報検索
装置。
7. The scoring by co-occurrence of a search keyword, which represents means for realizing the object of the invention, and score by the single appearance of the search keyword, based on statistical information obtained by statistically processing the search target document. The patent information search device according to claim 6, wherein automatic determination of attachment is performed.
【請求項8】 前記検索部は、超並列計算機の複数の異
なるプロセッサ上に複数の異なる検索条件式を設定し、
前記検索対象文書を該複数の異なる検索条件式で同時並
行的に全文検索し、前記複数の検索条件式に合致した結
果を出力することを特徴とする請求項3乃至7のいずれ
か1つに記載の特許情報検索装置。
8. The search unit sets a plurality of different search condition expressions on a plurality of different processors of a massively parallel computer,
8. The full-text search of the document to be searched by the plurality of different search condition expressions simultaneously and in parallel, and a result that matches the plurality of search condition expressions is output. Patent information retrieval device described.
JP2001361567A 2001-11-27 2001-11-27 Patent information search device Expired - Fee Related JP3486406B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001361567A JP3486406B2 (en) 2001-11-27 2001-11-27 Patent information search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001361567A JP3486406B2 (en) 2001-11-27 2001-11-27 Patent information search device

Publications (2)

Publication Number Publication Date
JP2003162542A true JP2003162542A (en) 2003-06-06
JP3486406B2 JP3486406B2 (en) 2004-01-13

Family

ID=19172201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001361567A Expired - Fee Related JP3486406B2 (en) 2001-11-27 2001-11-27 Patent information search device

Country Status (1)

Country Link
JP (1) JP3486406B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326922A (en) * 2004-05-12 2005-11-24 Fujitsu Ltd Feature information extracting method, feature information extracting program, and feature information extracting device
WO2009065146A2 (en) * 2007-11-15 2009-05-22 Gibbs Andrew H System and method for conducting a patent search
JP2018077548A (en) * 2016-11-07 2018-05-17 株式会社Personal AI Artificial intelligence device automatically determining existence or non-existence of similarity of thinking sentence from object sentence group

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04357568A (en) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp Text information extracting device and text simularity collating device, and text retrieving system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04357568A (en) * 1991-01-30 1992-12-10 Mitsubishi Electric Corp Text information extracting device and text simularity collating device, and text retrieving system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326922A (en) * 2004-05-12 2005-11-24 Fujitsu Ltd Feature information extracting method, feature information extracting program, and feature information extracting device
WO2009065146A2 (en) * 2007-11-15 2009-05-22 Gibbs Andrew H System and method for conducting a patent search
WO2009065146A3 (en) * 2007-11-15 2009-08-06 Andrew H Gibbs System and method for conducting a patent search
JP2018077548A (en) * 2016-11-07 2018-05-17 株式会社Personal AI Artificial intelligence device automatically determining existence or non-existence of similarity of thinking sentence from object sentence group

Also Published As

Publication number Publication date
JP3486406B2 (en) 2004-01-13

Similar Documents

Publication Publication Date Title
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
Nie et al. Harvesting visual concepts for image search with complex queries
US6901399B1 (en) System for processing textual inputs using natural language processing techniques
JP4726528B2 (en) Suggested related terms for multisense queries
JPH11102374A (en) Method and device for displaying document of data base
Capstick et al. A system for supporting cross-lingual information retrieval
KR100396826B1 (en) Term-based cluster management system and method for query processing in information retrieval
JP2011118689A (en) Retrieval method and system
JP2004341753A (en) Retrieval support device, retrieval support method and program
JP4092933B2 (en) Document information retrieval apparatus and document information retrieval program
Farhan et al. Survey of automatic query expansion for Arabic text retrieval
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
Verma et al. Applying key phrase extraction to aid invalidity search
JPH10207910A (en) Related word dictionary preparing device
JP2009140263A (en) Term co-occurrence degree extractor
Li et al. Complex query recognition based on dynamic learning mechanism
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
Ermakova et al. Query expansion by local context analysis
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Tonelli et al. Matching documents and summaries using key-concepts
JP3486406B2 (en) Patent information search device
JP2009129176A (en) Structured document retrieval device, method, and program
Kian et al. An efficient approach for keyword selection; improving accessibility of web contents by general search engines
JP5094096B2 (en) Apparatus and method for automatically extracting celebrity expressions
Liu Intelligent search techniques for large software systems.

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees