JP2002063192A - Patent document system - Google Patents

Patent document system

Info

Publication number
JP2002063192A
JP2002063192A JP2000251097A JP2000251097A JP2002063192A JP 2002063192 A JP2002063192 A JP 2002063192A JP 2000251097 A JP2000251097 A JP 2000251097A JP 2000251097 A JP2000251097 A JP 2000251097A JP 2002063192 A JP2002063192 A JP 2002063192A
Authority
JP
Japan
Prior art keywords
search
patent document
database
extracting
document system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000251097A
Other languages
Japanese (ja)
Inventor
Yoichi Nakatani
洋一 中谷
Kenichi Tamaoki
研一 玉置
Shizuo Shibata
司壽男 柴田
Masao Tanaka
雅雄 田中
Seiichi Okada
聖一 岡田
Shinichi Asami
新一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Patolis Corp
Original Assignee
Patolis Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Patolis Corp filed Critical Patolis Corp
Priority to JP2000251097A priority Critical patent/JP2002063192A/en
Publication of JP2002063192A publication Critical patent/JP2002063192A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a significant part related with an invention in patent document. SOLUTION: The 'industrial application field' of an invention is explained as an example of a significant part. The texts of the description of a patent are read sentence by sentence from a database 200, in which the text data of the description of a patent are stored (S210), and whether the sentence has a sentence pattern, from which it is possible to extract the 'industrial application field' or the like is checked by using an extraction table (S250). When the sentence matches with the sentence parttern, from which it is possible to extract the >=ndustrial applicative field' (S240: 'YES'), words indicating the 'industrial application field' or the invention itself are extracted, and outputted and stored in an extracted data storage part 100 as data indicating the 'industrial applicative field' or the like.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文献検索の技術に
関し、特に、特許文献に対する検索に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technology for searching documents, and more particularly to a search for patent documents.

【0002】[0002]

【技術的背景】情報検索の分野においては、文献を加工
することなく、全文をそのまま検索対象とする自然語検
索方式と、キーワードを同義語処理(表記のゆれの統一
処理も含む)してデータベース化したキーワード検索方
式とが用いられている。キーワード検索方式としては、
文献のエッセンスを慣用されている具体的な用語により
纏めた短文(例えば、JAPIOの特許文献のデータベ
ースにおいては、発明を主題レベルで纏めたJAPIO抄録
が該当する)を作成し、この短文よりキーワードを抽出
し、データベース化したキーワード検索方式が多く用い
られている。この様なキーワードによる検索は、具体的
な用語による短文を作成する必要はあるが、具体的用語
をキーワードとしているため、同義語処理レベルの統一
化で、ノイズ、漏れの少ない検索が可能であるとされて
いる。自然語検索方式は、文献の加工を必要としない
が、文章作成者の統制化されない表現形式をそのまま用
いている。このため、概念レベルの相違した表現や抽象
的表現などがあり、漏れ、ノイズが多く、精度の高い検
索が不可能とされている。
[Technical Background] In the field of information search, a natural language search method in which the entire text is directly searched without processing documents, and a database that performs synonymous processing of keywords (including unification processing of notation). And a keyword search method. As a keyword search method,
Create a short sentence summarizing the essence of the literature by using commonly used specific terms (for example, in the JAPIO Patent Literature Database, a JAPIO abstract summarizing the invention at the subject level applies), and enter keywords from this short sentence. An extracted and databased keyword search method is often used. In the search using such a keyword, it is necessary to create a short sentence based on a specific term. However, since the specific term is used as a keyword, a search with less noise and omission is possible by unifying the synonym processing levels. It has been. The natural language search method does not require the processing of documents, but uses the expression form that is not controlled by the text creator. For this reason, there are expressions having different concept levels, abstract expressions, and the like, and there are many leaks and noises, and it is impossible to perform a highly accurate search.

【0003】ところで、プロパテント政策の進展によ
り、企業における特許情報調査はより重要性を増してお
り、従来の発明を主題レベルに纏めた、抄録を中心とす
るデーターベースと比較してより詳細な技術情報或いは
権利情報の検索が求められている。そのニーズに応える
ものとして、特許CD−ROM公報をデータベースとす
るフルテキスト検索システムが提供されている。
[0003] By the way, patent information research in corporations has become more important due to the development of the pro-patent policy. Compared with a database centering on abstracts, which summarizes conventional inventions at the subject level, it is more detailed. Searching for technical information or rights information is required. To meet such needs, a full-text search system using a patent CD-ROM as a database has been provided.

【0004】さて、特許の明細書は、発明を明確に浮き
立たせるため、従来技術との比較において説明したり、
或いは、利用分野における発明の位置づけを明確にする
ため利用分野の詳細な技術説明をも合わせて行う等のた
め、発明以外の技術説明が多い。そのため、明細書全域
を検索領域とする検索ではノイズが多くなり、適切な正
解を得られない問題点があった。また、発明を特定する
ために必要と認める事項のすべてを記載した特許請求の
範囲を指定して、その領域だけを検索することも可能で
あるが、特許請求の範囲を領域とする検索においては、
通常、特許請求の範囲は権利範囲を広く確保するため
に、意図的に具体的用語による表現を避け、上位概念
的、抽象的・機能的、創作的表現をとることが多い。そ
のため、検索に際しては、このような上位概念的等の表
現を充分考え抜いて検索式を作成する必要があるが、実
際上は明細書作成者の意図を見抜き、検索式を作成する
ことは事実上不可能である。そのため特許請求の範囲の
検索は極めて再現率(=ヒットした正解文献数/データ
ベース中の全正解文献件数)が低いと言われている。
Now, the specification of a patent is described in comparison with the prior art in order to clearly emphasize the invention,
Alternatively, in order to clarify the position of the invention in the field of use, a detailed technical description of the field of use is also given, and so there are many technical descriptions other than the invention. For this reason, there is a problem that a search in which the entire specification is used as a search area increases noise, and an appropriate correct answer cannot be obtained. It is also possible to specify a claim that describes all matters deemed necessary to specify the invention and to search only that area. ,
Usually, in order to secure a broad scope of claims, the claims often deliberately avoid using specific terms, and use high-level concepts, abstractions / functionalities, and creative expressions. Therefore, when searching, it is necessary to formulate a search formula by sufficiently considering such expressions such as high-level concepts, but in practice, it is virtually impossible to identify the intention of the specification creator and create the search formula. Impossible. Therefore, it is said that the retrieving rate (= the number of correct answer documents hit / the number of all correct answer documents in the database) is extremely low in the search of the claims.

【0005】[0005]

【発明が解決しようとする課題】この発明の第一の目的
は、特許明細書において特許請求の範囲に記載された発
明に最も関係の深い重要部分(以下「発明の重要部分」
と言う)のみを自動的に抽出する技術を提供することに
ある。この発明の第二番目の目的は、発明の重要部分を
検索対象とし、ヒットした特許文献における発明の重要
部分のみを識別表示するようにした特許情報検索システ
ムを提供することにある。この発明の第三の目的は特許
明細書における特許請求の範囲中に用いられる、上位概
念的表現、抽象的・機能的、創作的表現と発明の詳細な
説明中に記述されている具体的技術用語の関係を明確に
した、関連用語辞書を自動的に作成する技術を提供する
ことにある。この発明の第四の目的は、発明の検索結果
から、請求の範囲の上位概念的表現、抽象的・機能的、
創作的表現に付いての情報を得て、請求項に記載された
発明をも検索出来るシステムを提供することにある。
SUMMARY OF THE INVENTION The first object of the present invention is to provide an important part which is most closely related to the invention described in the patent specification (hereinafter referred to as "an important part of the invention").
To automatically extract only). A second object of the present invention is to provide a patent information search system in which an important part of the invention is set as a search target, and only important parts of the invention in hit patent documents are identified and displayed. The third object of the present invention is to use the general concept, abstract / functional, creative expression and specific technology described in the detailed description of the invention as used in the claims in the patent specification. It is an object of the present invention to provide a technology for automatically creating a related term dictionary in which the relation between terms is clarified. A fourth object of the present invention is to provide a high-level conceptual expression, an abstract / functional,
It is an object of the present invention to provide a system that can obtain information on a creative expression and search for the invention described in the claims.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するため
に、本発明は、特許文献システムにおいて、少なくとも
明細書の全文テキストデータを有するデータベースと、
前記データベースから明細書を読み出す手段と、前記読
み出した明細書中の重要部分を、明細書で用いている項
目を利用して抽出する手段と、前記抽出した重要部分
を、前記データベースに検索可能なように書き込む手段
とを備えることを特徴とする。前記重要部分として、
「課題の解決手段」を抽出する手段を有しており、前記
「課題の解決手段」を抽出する手段は、関連請求項ごと
の発明単位を認識する手段を含み、前記「課題の解決手
段」を発明単位ごとに抽出するができる。前記「課題の
解決手段」を抽出する手段は、前記明細書の特許請求の
範囲から直接クエリーを作成する手段と、前記作成した
クエリーを用いて、前記明細書を区切りごとに類似検索
する手段と、前記類似検索した結果を抽出する手段とを
備え、当該明細書中を類似検索を行い、区切りごとの関
連部分を抽出することができる。前記抽出した重要部分
には、文書における位置情報が付加されており、重要部
分に対する検索回答で、文書中の位置も表示できる。ま
た、本発明の特許文献システムにおいて、一般技術用語
および特許請求の範囲内の複合語をインデックスとした
データベースと、前記データベースのインデックスを用
いて文献を検索する手段と、検索結果の文献から、少な
くとも前記複合語を表示・選択できる手段とを備え、前
記検索結果の文献から表示・選択した複合語から新たな
検索を行うことができる。その上、少なくとも明細書の
全文テキストデータを有するデータベースと、前記デー
タベースから明細書の特許請求の範囲を読み出す手段
と、前記読み出した特許請求の範囲から、上位下位を関
連付けるパターンを認識する関連付け検出手段と、関連
付けられた上下関係から、上位の表現と下位の表現とを
関連付けて蓄積する手段とを備え、関連用語辞書を作成
すること及び同辞書を検索に用いることもできる。
In order to achieve the above object, the present invention provides a patent document system, comprising: a database having at least full text data of a specification;
Means for reading the specification from the database, means for extracting the important part in the read specification using items used in the specification, and means for searching the extracted important part in the database Means for writing data as described above. As the important part,
A means for extracting the "means for solving the problem"; the means for extracting the "means for solving the problem" includes a means for recognizing an invention unit for each related claim; Can be extracted for each invention unit. Means for extracting the "solution of the problem", means for directly creating a query from the claims of the specification, and means for performing a similarity search for the specification for each section using the created query Means for extracting the result of the similarity search, and a similarity search can be performed in the specification to extract a relevant portion for each section. Position information in the document is added to the extracted important part, and the position in the document can be displayed by a search response to the important part. Further, in the patent document system of the present invention, at least from a database in which a general technical term and a compound word within the scope of claims are indexed, a means for searching for a document using the index of the database, and a search result document, Means for displaying and selecting the compound word, and a new search can be performed from the compound word displayed and selected from the document of the search result. In addition, a database having at least full text data of the specification, means for reading the claims of the specification from the database, and association detecting means for recognizing a pattern for associating upper and lower levels from the read claims And means for accumulating the upper-level expression and the lower-level expression in association with each other based on the associated hierarchical relationship, so that a related term dictionary can be created and the dictionary can be used for search.

【0007】[0007]

【発明の実施の形態】本発明の実施形態を、図面を参照
して詳細に説明する。 <発明の重要部分データ作成>図1〜図8に特許の明細
書の例として、特許庁が作成した「明細書の書き方」に
付録として添付されている参考明細書の実例を示す。こ
れを主に用いて以下に、発明の重要部分のデータ作成を
説明する。ここで言う発明の重要部分とは、「産業上の
利用分野」、「発明の課題」、「課題の解決手段」を指
す。さて、特許の明細書100は、図1〜図8に示すよ
うに、[発明の名称]110、[特許請求の範囲]12
0、[発明の詳細な説明]140、[図面の簡単な説
明]150、[符号の説明]152及び[図面](図示
せず)のような見出しを付して、項を分けて記述されて
いる。
Embodiments of the present invention will be described in detail with reference to the drawings. <Creation of Important Part Data of the Invention> FIGS. 1 to 8 show examples of reference specifications attached as appendices to "How to Write Specifications" prepared by the Patent Office as examples of patent specifications. Mainly using this, data creation of an important part of the invention will be described below. The important part of the invention referred to here means “industrial application field”, “object of the invention”, and “means for solving the problem”. Now, as shown in FIGS. 1 to 8, the patent specification 100 includes [Title of Invention] 110, [Claims] 12
0, [Detailed description of the invention] 140, [Brief description of the drawings] 150, [Description of reference numerals] 152, and headings such as [Drawing] (not shown) are described separately. ing.

【0008】ところで、発明に関する情報を検索する場
合、発明を、「産業上の利用分野」、「発明の課題」と
「課題の解決手段」の観点より特定し、インデックスを
作成することが重要であるとされている。さて、多くの
場合、特許明細書の[発明の名称]110、[特許請求
の範囲]120及び[符号の説明]152には発明に関
する簡潔な情報及び発明部分を抽出する手掛かりとなる
情報が記述されている。しかしながら、[発明の詳細な
説明]140における記述は、発明を明確に浮き立たせ
るため、従来技術との比較において説明したり、或い
は、利用分野における発明の位置づけを明確にするた
め、利用分野の詳細な技術説明を合わせて行っている
等、発明に関する情報を検索すると言う観点からは、極
めて冗長性の高いものとなっている。
When searching for information relating to the invention, it is important to identify the invention from the viewpoints of "industrial application field", "problem of the invention" and "means for solving the problem" and create an index. It is said that there is. By the way, in many cases, [Title of Invention] 110, [Claims] 120 and [Explanation of Signs] 152 of the patent specification contain brief information on the invention and information that is a clue for extracting the invention part. Have been. However, the description in [Detailed Description of the Invention] 140 is described in comparison with the prior art in order to clearly show the invention, or is described in detail in the field of use in order to clarify the position of the invention in the field of use. From the viewpoint of retrieving information on the invention, for example, in conjunction with various technical explanations, it is extremely redundant.

【0009】そこで、[発明の名称]110、[特許請
求の範囲]120及び[符号の説明]152に記述され
ている記事内容を参考にして、[発明の詳細な説明]1
40以下に展開されている見出し[発明の属する技術分
野]141、[発明が解決しようとする課題]143、
[課題を解決するための手段]144、[発明の実施の
形態]145や[実施例]146で区切られた記事内容
より、発明を特定する「産業上の利用分野」、「発明の
課題」及び「課題の解決手段」をカテゴリー別に抽出す
る手法を以下に記述する。
Therefore, referring to the contents of the articles described in [Title of Invention] 110, [Claims] 120 and [Explanation of References] 152, [Detailed Description of the Invention] 1
Headings [Technical field to which the invention belongs] 141, [Problems to be solved by the invention] 143,
[Means for Solving the Problems] 144, [Embodiment of the Invention] 145 and [Example] From the contents of articles delimited by 146, "industrial application fields" and "problems of the invention" that specify the invention. A method for extracting “means for solving problems” by category is described below.

【0010】<「産業上の利用分野」について>通常、
特許明細書中には[発明の属する技術分野]とした見出
しが設けられており、この見出し以下に記述されている
部分に「産業上の利用分野」に関する記事が発明本体と
共に記述されている場合が多い。また、利用分野に付い
ての的確な表現が、他の見出し部分に存在するケースが
ある。このような中から「産業上の利用分野」のみを取
り出す場合を、図9に示した例を用いて説明する。図9
の記述例210の場合、「産業上の利用分野」は、図9
の211〜215で示されているように、「この発明
は、******における(の)****に用いる++
++に関する」という文で記載されていることが多い。
この場合、「技術分野」は「工作機械における定寸装
置」212であり、「熱影響の防止装置」214は、
「産業上の利用分野」をより詳細に発明を特定してい
る、発明本体を表している。この例で解るように、この
様な文においては、***で示された部分(212参
照)に「産業上の利用分野」が記述される文書構造上の
特徴がある。この様な構造上の特徴を手掛かりとし、
「産業上の利用分野」である「工作機械の定寸装置」を
抽出する。
<About "Industrial Application Field">
In the patent specification, a heading "Technical field to which the invention belongs" is provided, and when an article relating to "industrial application field" is described together with the main body of the invention in the part described below this heading There are many. In some cases, the exact expression of the field of use is present in other headings. A case where only “industrial application fields” are extracted from such a case will be described with reference to an example shown in FIG. FIG.
In the case of the description example 210 of FIG.
As shown at 211 to 215, "The present invention relates to ++ used in (*) **** in ****".
++ ".
In this case, the “technical field” is the “sizing device in machine tool” 212, and the “heat influence prevention device” 214 is
FIG. 4 shows an invention main body that specifies the invention in more detail in “industrial application fields”. As can be seen from this example, such a sentence has a feature in the document structure in which “industrial application field” is described in a portion indicated by *** (see 212). With such structural features as clues,
"Machine tool sizing device" which is an "industrial application field" is extracted.

【0011】上述した文型は、手掛かりの一例であっ
て、「本発明は、工作機械の定寸装置に適用することに
より、+++++した効果が発揮できる」など、実際に
は産業上の利用分野についての種々の表現方法がある。
この様な構造上の特徴をパターン化した特徴抽出テーブ
ルを用いることで、「産業上の利用分野」を簡潔に表現
する部分を抽出することができる。記述例220は別の
パターンの例であり、並列の接続詞226や231等を
利用して文構造等の解析を行っている。これにより、
「関する」225および230が略されている等を認識
して、「駆動モータにより回転駆動される脱水かご」2
22が「産業上の利用分野」(技術分野)であり、「遠
心脱水機」224、「バランスリング」229および
「製造方法」232が発明本体であるとして出力する。
The sentence pattern described above is an example of a clue, and is actually used in industrial applications such as "The present invention can exert an effect of +++++ when applied to a sizing device of a machine tool". There are various expressions.
By using a feature extraction table in which such structural features are patterned, it is possible to extract a portion that simply represents “industrial application field”. The description example 220 is an example of another pattern, and analyzes a sentence structure and the like using parallel conjunctions 226 and 231 and the like. This allows
Recognizing that “related” 225 and 230 are abbreviated and the like, “removing basket that is rotationally driven by the drive motor” 2
Reference numeral 22 denotes "industrial application field" (technical field), and "centrifugal dehydrator" 224, "balance ring" 229, and "manufacturing method" 232 are output as being the main body of the invention.

【0012】この「産業上の利用分野」と発明本体の抽
出処理を、図10におけるフローチャートで説明する。
図10において、特許の明細書等のテキスト・データが
格納されているデータベース200から、明細書の文章
を1文づつ読み出して(S210)、文型の構造上の特
徴をパターン化した特徴抽出テーブルを用いて、「産業
上の利用分野」等を抽出することができる文型であるか
を調べる(S240)。抽出できる文型と一致した場合
(S240でYES)は、一致した文型により、「産業
上の利用分野」や発明本体を示す単語を抽出して、産業
上利用分野等を示すデータとして、抽出データを検索で
きる形式(文献番号等のキーを付与)で抽出データ格納
部100中に出力して蓄える(S250)。この動作
を、対象とする特許明細書が終了するまで繰り返す(S
220)。抽出データ格納部100には、抽出した特許
明細書別に、例えば文献番号をキーとして、図10の右
上に示すように、「産業上の利用分野」や発明本体別に
抽出データ110,120が蓄積される。この抽出デー
タには、文書中の位置情報も付加されて蓄積される。本
発明の特許文献システムでは、この抽出データが「産業
上の利用分野」に関しての検索対象領域となり、検索後
の文献表示の際には、この位置情報により、表示文献の
該当部分をハイライト表示されることになる。
The extraction process of the "industrial application field" and the main body of the invention will be described with reference to the flowchart in FIG.
In FIG. 10, the sentences of the specification are read out one by one from a database 200 storing text data such as a patent specification (S210), and a feature extraction table in which the structural features of the sentence pattern are patterned is obtained. It is checked whether the sentence pattern can be used to extract “industrial application field” or the like (S240). When the sentence pattern matches the extractable sentence pattern (YES in S240), the words indicating the "industrial application field" or the invention itself are extracted from the matched sentence pattern, and the extracted data is extracted as data indicating the industrial use field or the like. The data is output and stored in the extracted data storage unit 100 in a searchable format (with a key such as a document number) (S250). This operation is repeated until the target patent specification ends (S
220). In the extracted data storage unit 100, extracted data 110 and 120 are stored for each extracted patent specification, for example, using a document number as a key, as shown in the upper right of FIG. You. Position information in the document is also added to the extracted data and stored. In the patent document system of the present invention, this extracted data becomes a search target area for “industrial application field”, and when displaying the document after the search, the corresponding portion of the displayed document is highlighted by the position information. Will be done.

【0013】なお、[発明の名称]中には、例えば上述
の例でも、「工作機械」または「定寸装置」など「産業
上の利用分野」に関する用語が存在するケースが多く、
この[発明の名称]中の情報と照合して確認を取り、デ
ータの信頼性を確保することもできる。また、現実的に
は、イレギュラーな表現のための例外処理を人手により
行う作業部分を組み込み、抽出データの正確性と特徴抽
出テーブルの充実を期することがより一層好ましい。例
外処理は、以下に述べる「発明の課題」、「課題の解決
手段」の抽出においても同様に設けることが望ましい。
[0013] Incidentally, in the [Title of the Invention], for example, even in the above-mentioned example, there are many cases where terms related to "industrial application fields" such as "machine tool" or "sizing device" exist.
It is also possible to confirm the data by checking it with the information in [Title of Invention] to ensure the reliability of the data. Further, in reality, it is more preferable to incorporate a work part for manually performing exception processing for irregular expression and to improve the accuracy of the extracted data and the feature extraction table. It is desirable that the exception processing is similarly provided in the extraction of the “problem of the invention” and the “means for solving the problem” described below.

【0014】<「発明の課題」について>上述の「産業
上の利用分野」と同様に[発明の解決しようとする課
題]とした見出しの以下に記述されている部分に「発明
の課題」が示されている。しかし、通常は、「発明の課
題」を明確に、且つ、浮き彫りにするために従来技術の
問題点及びその解決策が合わせて記述され、文章が長大
である場合が多い。この従来技術、問題点などは、後述
する検索の精度、即ち適合率(正解文献数/(ノイズ文
献数+正解文献数))を低下させる要因となるので、直
接発明に関係する部分のみを抽出することが必要とな
る。図2の[発明が解決しようとする課題]143に示
されている記述を見ると、段落[0003]には、従来
技術の問題点について述べており、段落[0004]が
「発明の課題」について述べている。
<Regarding the "Problem of the Invention"> The "Problem of the Invention" is described in the portion described below under the heading "Problem to be Solved by the Invention" similarly to the above-mentioned "Industrial Application Field". It is shown. However, usually, in order to clarify and highlight the “object of the invention”, the problems of the related art and the solutions thereof are described together, and the sentences are often long. Since the prior art, problems, and the like cause a reduction in the accuracy of the search described later, that is, the precision (the number of correct documents / (the number of noise documents + the number of correct documents)), only the part directly related to the invention is extracted. It is necessary to do. Looking at the description shown in [Problem to be Solved by the Invention] 143 in FIG. 2, paragraph [0003] describes a problem of the prior art, and paragraph [0004] describes the “problem of the invention”. Is described.

【0015】「発明の課題」の具体的記事は、例えば上
記に示すように「本発明は、****を得ることを目的
としており、さらに、*****を提供することを目的
としている。」のように、「本発明は」から「目的と
し」までの間に記載されている文書構造上の特徴があ
る。この場合も、この例の様な文書表現上の特徴を手掛
かりとして、「発明の課題」を記述する部分のみを抽出
することができる。これは一例を示したもので、他に、
「この発明の目的は*********提供することに
ある。」等のように、明細書中では別の表現方法が取ら
れている場合がある。そこで実際の抽出においては、こ
の様な文書構造上の特徴をパターン化し収集した、特徴
抽出テーブルと、明細書の見出しを手掛かりとして抽出
を行う。抽出データは、抽出した文書中の位置情報も付
加して蓄積する。
[0015] A specific article of the "object of the invention" is, for example, as described above, "The object of the present invention is to obtain ****, and further to provide ****""There is a feature in the document structure described between" the present invention "and" the object ". Also in this case, it is possible to extract only the portion describing the "object of the invention" by using the feature in document expression as in this example as a clue. This is just an example.
Other expressions may be used in the description, such as "The object of the present invention is to provide ****." Therefore, in actual extraction, extraction is performed using a feature extraction table in which features in the document structure are patterned and collected and a headline of the specification as a clue. The extracted data also accumulates position information in the extracted document and accumulates the extracted data.

【0016】<「課題の解決手段」について>課題の解
決結果が発明であり、発明を特定するために必要と認め
る事項が請求の範囲に請求項毎に記載されている。しか
し、請求項の記載は権利範囲を広く取るために意図的に
具体的な技術用語による表現を避け、上位概念的、抽象
的・機能的表現を取ることが多い。そのため、具体的な
技術用語により、請求項を直接キーワード検索すると漏
れが多くなり充分な再現率を得ることが出来ない。そこ
で、請求項に代えて、請求項に記述された発明に対応し
かつ、具体的な技術用語で記述される記事を[発明の実
施の形態]又は[実施例]より抽出して、その部分を検
索対象とすることにより、誰もが容易に思い付くことが
出来る具体的な技術用語による検索が出来るようにし
て、漏れの少ない即ち再現率の高い検索を可能としてい
る。請求項と最も関係の深い記事部分を抽出する方法と
しては、種々の方法が考えられるが、請求項をクエリー
として、明細書中の段落番号で区切られた部分(以下段
落部分)を一つの文書と見立てて、類似文書検索を行
い、段落部分を類似度順に並べ、字数、類似度などを参
考に、段落部分を検索対象域として採用する方式、請求
項をクエリーとし、クエリーに含まれるキーワード及び
キーワードと共起性の高いワードにより構成される文章
区切り情報(後段でパッセージの確定方法で説明)及び
段落番号による区切り情報を用いて請求項と最も関係の
深い部分を採用する方式等がある。
<Regarding "Means for Solving the Problem"> The result of solving the problem is an invention, and matters deemed necessary for specifying the invention are described in the claims for each claim. However, in order to broaden the scope of the claims, the description of the claims often intentionally avoids the use of specific technical terms, and uses high-level concepts, abstractions, and functional expressions. Therefore, if a claim is directly searched by a keyword using specific technical terms, omissions increase and a sufficient recall cannot be obtained. Therefore, instead of the claims, articles corresponding to the invention described in the claims and described in specific technical terms are extracted from [Embodiments of the invention] or [Examples], and parts thereof are extracted. As a search target, it is possible to perform a search using specific technical terms that anyone can easily come up with, thereby enabling a search with little omission, that is, a high recall rate. There are various methods for extracting the article part most closely related to the claim, but the claim is used as a query, and the parts separated by paragraph numbers in the specification (hereinafter referred to as "paragraph parts") are defined as one document. In the same manner, similar document search is performed, the paragraphs are arranged in the order of similarity, the number of characters, the similarity, etc. are referred to, and the paragraph is used as a search target area. There is a method of using a sentence delimitation information composed of words having a high co-occurrence with a keyword (described later in a method for determining a passage) and a delimitation information by paragraph number to adopt a part most closely related to the claim.

【0017】特許請求の範囲には図1及び図2に示すよ
うに請求項毎に記載されており、請求項には独立形式で
記載されたもの、引用形式で記載されたものがあるが、
本発明の第一の目的に照らして考えた場合、独立請求項
と当該独立請求項を引用する全ての請求項(勿論引用し
たものを引用する関係を含む)を一つの発明単位を形成
する情報として取り扱うことが効果的である。従って、
独立請求項と当該独立請求項を引用する全ての請求項
(以後関連請求項と言う)よりクエリーを作成すること
となる。クエリーは、関連請求項を通常の形態素解析技
術を用いて、用語単位に不要語を排除して分かち書き
し、最終的に重複した用語を排除して作成する。また、
一般的に独立請求項は上位概念的、抽象的・機能的、創
作的に表現され、独立請求項を引用する引用形式請求項
は独立請求項の構成要件をより具体化する形式又は、先
行する引用形式請求項の発明特定事項を置換するなどの
形式で記述されることが多いので、関連請求項によりク
エリーを作成することにより、上位概念的、抽象的・機
能的表現の具体性を幾らかでも補うことができ、関連請
求項により正確に対応する段落部分を検索領域として採
用することが出来る。
The claims are described for each claim as shown in FIG. 1 and FIG. 2, and the claims include those described in an independent form and those described in a cited form.
When considered in light of the first object of the present invention, an independent claim and all claims that refer to the independent claim (including, of course, the relationship citing the cited matter) form one unit of invention. It is effective to treat as Therefore,
A query is created from an independent claim and all the claims that refer to the independent claim (hereinafter referred to as related claims). The query is created by excluding unnecessary words and terminating the related claims in terms of terms using ordinary morphological analysis techniques, and finally eliminating duplicate terms. Also,
In general, an independent claim is expressed as a general concept, abstract, functional, or creative, and a quotation form claim that refers to an independent claim is a form that more specifically embodies the constituent elements of the independent claim or precedes it. Quoted form claims are often described in such a way as to replace the specifics of the invention. Therefore, by creating a query based on the related claims, the concreteness of the broader conceptual, abstract, and functional expressions can be somewhat improved. However, it is possible to employ a paragraph portion more accurately corresponding to the related claim as a search area.

【0018】まず、関連請求項(発明単位)確定につい
て図11を用いて説明する。図11には、図1〜図2に
示した明細書に記載されている[特許請求の範囲]に記
載されている請求項の従属関係を図示した例を示してい
る。これで示されているように、発明単位310は、請
求項1の独立請求項311に、請求項2〜6の従属請求
項312〜316が請求項1等を引用して記載されてい
ることを利用して認識することができる。これにより、
請求項1から請求項6を一つの関連請求項として扱う。
また、発明単位320は、請求項7の独立請求項321
に対して、請求項8〜12の従属請求項322,323
等が請求項7や請求項8等を引用する形式で記載されて
いることで認識できる。
First, determination of a related claim (unit of invention) will be described with reference to FIG. FIG. 11 shows an example illustrating the dependency of the claims described in [Claims] described in the specification shown in FIGS. 1 and 2. As shown, the invention unit 310 is described in the independent claim 311 of claim 1 and the dependent claims 312 to 316 of claims 2 to 6 are described with reference to claim 1 and the like. It can be recognized by using. This allows
Claims 1 to 6 are treated as one related claim.
Further, the invention unit 320 is the independent claim 321 of claim 7
The dependent claims 322, 323 of claims 8 to 12
Can be recognized by being described in a format citing claim 7 or claim 8.

【0019】この関連請求項を認識する処理について、
図12のフローチャートを用いて説明する。図12にお
いて、右肩に示しているのは、図1および図2に示した
明細書例を処理した結果を示す関連請求項テーブルであ
る。特許文献データベース200から処理対象文献の
[特許請求の範囲]から、請求項を1項(1文)づつ読
み込む(S410)。この請求項の文中に、文字列「請
求項」と「記載」の単語があるかを調べる(S44
0)。この単語が無い場合(S440でNo)は独立請
求項であるので、関連請求項テーブル(図12の右上の
310,320参照)に、この独立請求項をキーとして
記憶する。これは、例えば関連請求項テーブル310で
は請求項1、関連請求項テーブル320では請求項7の
場合である。さて、従属請求項の場合は、「請求項」と
「記載」との間の数字を解析して、上位請求項を求める
(S450)。求めた上位請求項に対して、その請求項
が従属請求項であるかを前の独立請求項であるか判定し
た処理(S440)と同様にして行う(S470)。上
位請求項が独立請求項である場合(S470でNo)、
処理対象の請求項を関連請求項テーブルの、その上位請
求項をキーとする項目内に格納する。これは、例えば、
図1の例では[請求項2]や[請求項8]の場合で、こ
れらの上位請求項は[請求項1]や[請求項7]の独立
請求項であるので、関連請求項テーブル310や320
で、[請求項2]や[請求項8]は、その[請求項1]
や[請求項7]をキーとする項目内に格納される。上位
請求項が従属請求項である場合(S470でYes)、
処理対象の請求項を関連請求項テーブルの、その上位請
求項がキーとする項目内に格納する。これは、例えば、
図1の例では[請求項3]や[請求項9]の場合で、こ
れらの上位請求項は[請求項2]や[請求項8]である
ので、関連請求項テーブル310や320で、[請求項
3]や[請求項9]は、[請求項2]や[請求項8]が
キーとしている[請求項1]や[請求項7]をキーとす
る項目内に格納される。このようにして、当該文献の特
許請求の範囲内の請求項(文)が終了する(S420で
Yes)まで処理が行われる。終了すると、関連請求項
テーブル中を整理して、重複している請求項を削除して
処理を終了する。
Regarding the process of recognizing the related claims,
This will be described with reference to the flowchart of FIG. In FIG. 12, shown on the right shoulder is a related claims table showing the result of processing the example of the specification shown in FIGS. Claims are read one by one (one sentence) from the patent document database 200 from [Claims] of the document to be processed (S410). It is checked whether the words of the character strings “claim” and “description” exist in the sentence of this claim (S44).
0). If this word does not exist (No in S440), it is an independent claim, so this independent claim is stored as a key in the related claim table (see 310, 320 in the upper right of FIG. 12). This is the case of claim 1 in the related claim table 310 and claim 7 in the related claim table 320, for example. By the way, in the case of a dependent claim, a number between "claim" and "description" is analyzed to obtain a higher-level claim (S450). The obtained upper-level claim is determined (S470) in the same manner as the processing (S440) of determining whether the claim is a dependent claim or not is a previous independent claim. If the higher-level claim is an independent claim (No in S470),
The claim to be processed is stored in an item of the related claim table, with the higher-level claim as a key. This is, for example,
In the example of FIG. 1, the claims are [Claim 2] and [Claim 8], and since these upper claims are independent claims of [Claim 1] and [Claim 7], the related claim table 310 And 320
[Claim 2] and [Claim 8] are the [Claim 1]
And [Claim 7] are stored in the item having the key as a key. If the higher-level claim is a dependent claim (Yes in S470),
The claim to be processed is stored in the related claim table in an item whose key is a higher-order claim. This is, for example,
In the example of FIG. 1, [Claim 3] and [Claim 9], and these higher claims are [Claim 2] and [Claim 8]. [Claim 3] and [Claim 9] are stored in the items of which [Claim 1] and [Claim 7] are keyed by [Claim 2] and [Claim 8]. In this way, the processing is performed until the claim (sentence) within the scope of the claim of the document is completed (Yes in S420). When the processing is completed, the related claim table is arranged, the duplicated claims are deleted, and the process is terminated.

【0020】次に、発明単位ごとの、「課題の解決手
段」データの抽出を説明する。発明単位ごとに、即ち、
関連請求項より重要事項データを作成することとなる。
このため、まず、課題の解決手段データは、関連請求項
を通常の形態素解析技術を用いて、用語単位に不要語を
排除して分かち書きし、最終的に重複した用語を排除し
て作成する。発明単位ごとのデータ作成を、例として、
図11や図12に示した発明単位310である関連請求
項1〜6を用いて説明する。まず、各請求毎に、形態素
解析して不要語、及び重複を排除して、キーワードを抽
出する。その結果を以下に示す。 [請求項1]脱水かご/首振り/防止/遠心脱水装置 [請求項2]首振り/防止/脱水かご/上端/取り付け
/バランスリング/遠心脱水装置 [請求項3]脱水かご/上端/断面コ字状/バランスリ
ング/取付部/円周上/分割/取り付け/遠心脱水装置 [請求項4]脱水かご/上端/外方向/逆U字状/曲げ
/バランスリング/取付部/取り付け/遠心脱水装置 [請求項5]脱水かご/上端/上方/開口/バランスリ
ング/取付部/取り付け/遠心脱水装置 [請求項6]脱水かご/緩衝手段/遠心脱水装置 この各請求項より抽出したキーワードを重複排除して
「脱水かご、首振り、防止、遠心脱水装置、上端、取り
付け、バランスリング、断面コ字状、取付部、円周、分
割、外方向、逆U字状、曲げ、上方、開口、緩衝手段」
をキーワードとする質問式即ちクエリーを作成し、この
クエリーにより図1〜図8に示した文書の[実施例]1
46の段落部分[0012]−[0017]を類似文書
検索すれば、各段落部分に類似度順に序列を付けて回答
される。この回答より文字数制限を考慮して、段落部分
[0012][0013][0014][0015]を
当該特許文献の関連請求項に最も関係の深い部分として
採用され、位置情報と共に蓄積される。実際の検索にお
いて、課題の解決手段を指定して検索した場合には、段
落部分[0012][0013][0014][001
5]のみが検索対象領域となり、文献表示においては、
当該段落部分がハイライト表示されることになる。同様
に、発明単位320である関連請求項7〜12について
も段落部分を抽出して位置情報と共に蓄積される。
Next, the extraction of "means for solving the problem" data for each invention unit will be described. For each unit of invention,
The important matter data will be created from the related claims.
For this reason, first, the solution to the problem data is created by excluding unnecessary words in terms of terms using an ordinary morphological analysis technique to eliminate unnecessary words, and finally eliminating duplicate terms. Creating data for each invention unit as an example
This will be described with reference to the related claims 1 to 6, which are the invention units 310 shown in FIGS. First, for each request, a keyword is extracted by removing unnecessary words and duplication by morphological analysis. The results are shown below. [Claim 1] Dehydrating basket / swinging / prevention / centrifugal dehydrator [Claim 2] Swinging / prevention / dehydrating basket / top / mounting / balance ring / centrifugal dehydrator [Claim 3] Dehydrating basket / top / cross section U-shaped / balance ring / mounting part / circumferential / division / mounting / centrifugal dehydrator [Claim 4] dehydrating basket / top / outward / reverse U-shape / bending / balance ring / mounting part / mounting / centrifugal Dewatering device [Claim 5] Dehydrating basket / top / upper / opening / balance ring / mounting part / mounting / centrifugal dewatering device [Claim 6] Dehydrating basket / buffer / centrifugal dewatering device Keywords extracted from each claim Deduplicate and dehydration basket, swing, prevention, centrifugal dehydrator, upper end, mounting, balance ring, U-shaped cross section, mounting part, circumference, split, outward, inverted U-shaped, bent, upward, opening , Buffer means "
A query formula, ie, a query, is created using the query as a keyword. [Example] 1 of the document shown in FIGS.
If a similar document search is performed on the 46 paragraphs [0012]-[0017], each paragraph is answered with a ranking in the order of similarity. Based on this answer and considering the number of characters, the paragraph [0012] [0013] [0014] [0015] is adopted as the part most closely related to the related claim of the patent document, and is stored together with the position information. In the actual search, when the search is performed by designating the solution to the problem, the paragraph [0012] [0013] [0014] [001]
5] is the search target area, and in the document display,
The paragraph will be highlighted. Similarly, paragraphs are extracted from the related claims 7 to 12 which are the invention units 320 and are stored together with the position information.

【0021】ここで、前の段落[0016]で述べた
「パッセージの確定方法」を説明する。全文検索におい
て、検索対象とする文章が長くなればなるほどトピック
が多くなり、テキスト中のタームを照合するエクザクト
マッチ検索では、異なるトピック間のタームの組み合わ
せを拾うことになり、ノイズが多くなると言われてい
る。長文による適合率の低下を改善するために、質問に
対応するテキスト中のトピック部分のみを検索対象とし
て検索し、そのトピック部分を表示する手法が提案され
ている。これがパッセージ(passage)検索である。パ
ッセージ検索においては、パッセージの領域を確定する
こと、即ち、テキストを分割することが重要な意味を有
している。テキストを分割する方法としては、文章の
章、節、段落など文章の書式、一定語数、出現語句
による分割、出現語句と構文情報を用いた方法等が考
えられる。 文書の書式による分割は、例えば、特許公報は、章、
節、段落で区切られ、章、節にあたる部分には見出しが
設けられている。これらを文書区切り情報としてパッセ
ージを決める方法がある。また、句点を文書区切り情報
として、領域指定する方法もある。 一定語数による分割は、例えば、新聞などは記事の先
頭部分(見出し)に重要な事柄が書かれているケースが
多いので、先頭から一定語数を採用するような場合がこ
れにあたる。 出現語句による分割は、例えば、自転車に関する記述
の中には、ペダル、チェーン、ハンドル、サドルなどの
関連度の高い単語(共起性が高いと言われる。)が用い
られることが多い。また同様に、電動機に関しては、駆
動制御、バッテリ、電源など関連度の高い単語が用いら
れることが多い。これら共起性の高い単語が文書中に出
現した時、文章のその領域は一つの意味を持つ纏まりと
考え、その領域をパッセージとする考え方である。さら
に付言すれば、エクザクトマッチ方式の検索において、
電動機*自転車との質問に対し、電動機及び自転車を含
む文献においては、電動機と共起性の高い駆動制御、バ
ッテリ、電源などの単語が含まれている一つの意味を持
った纏まり及び自転車と共起性の高いペダル、チェー
ン、ハンドル、サドルなどの単語が含まれている一つの
意味を持った纏まりが存在している。それらが、連接す
るかまたは部分的にオーバーラップしている文書部分が
存在する文献が、質問式に最も適合した文書としての回
答であり、この文献の句読点等で区切られた一纏まりの
文書領域が、質問内容に関して記述されているパッセー
ジとして提示できる部分である。 出現語句と構文情報による分割は、に構文情報例え
ば段落による文書区切り情報、話題を変える「ところ
で」などの手掛りを基にパッセージを確定する手法であ
る。これらの方法の何れを採用するかは、検索対象とす
る文献の書式により、決めることになるが、現実的には
上記したものの組み合わせによる方法が効果的である。
Here, the “passage determination method” described in the preceding paragraph [0016] will be described. In a full-text search, the longer the sentence to be searched, the more topics, and the exact match search, which matches terms in the text, picks up a combination of terms between different topics and increases noise. Have been done. In order to improve the accuracy rate due to a long sentence, a method has been proposed in which only a topic part in a text corresponding to a question is searched as a search target and the topic part is displayed. This is a passage search. In the passage search, it is important to determine the area of the passage, that is, to divide the text. As a method of dividing the text, a text format such as a chapter, a section, or a paragraph of the text, a fixed number of words, division by an appearance word, a method using the appearance word and syntax information, and the like can be considered. For example, patent publications are divided into chapters,
Sections and paragraphs are separated, and chapters and sections are provided with headings. There is a method of determining a passage using these as document separation information. There is also a method of specifying an area using a period as document delimiter information. The division based on a certain number of words is, for example, a case where an important matter is written at the head (heading) of an article in a newspaper or the like in many cases. For the segmentation based on the appearance words, for example, words related to a bicycle, such as a pedal, a chain, a steering wheel, and a saddle, which have a high degree of relevance (referred to as having high co-occurrence), are often used. Similarly, words having a high degree of relevance, such as drive control, a battery, and a power supply, are often used for an electric motor. When words having high co-occurrence appear in a document, the area of the sentence is considered as a group having one meaning, and the area is regarded as a passage. In addition, in Exact Match search,
In response to the question of electric motors and bicycles, in documents that include electric motors and bicycles, there is a single meaning that includes words such as drive control, battery, and power, which have high co-occurrence with electric motors. There is a single meaningful group containing words such as highly probable pedals, chains, handles, and saddles. The document in which the document part in which it is contiguous or partially overlaps is the answer as the document most suitable for the query formula, and a group of document areas separated by punctuation marks of this document Is the part that can be presented as a passage describing the content of the question. The division based on the appearance words and the syntax information is a method of determining a passage based on syntax information, for example, document delimitation information by paragraphs, and clues such as “where” to change topics. Which of these methods is to be adopted depends on the format of the document to be searched, but in practice, a combination of the above is effective.

【0022】<図面>図面は、検索対象とならないが、
発明内容を理解する上で、発明と深く閑係する部分を図
面中の符号を用いて示すことは有意義である。図面の重
要符号は、パッセージ中に用いられる図面の符号の頻
度、及び請求項中の有無等より特定できるが、しかし、
図面は通常イメージデー夕となっているので重要な図面
の符号を特定したとしても、自動的に図面の符号をマー
キングしハイライト表示することは、理論上可能である
としても、実用上の問題が多い,従って、図面の近傍に
重要符号を表示するかまたは、人手により図面の符号を
マーキングすることが好ましい。
<Drawing> Drawings are not searchable,
For understanding the contents of the invention, it is meaningful to indicate portions that are deeply related to the invention using reference numerals in the drawings. The important sign of the drawing can be specified by the frequency of the sign of the drawing used in the passage and the presence or absence in the claims, but
Since drawings are usually image data, even if it is possible to specify important drawing symbols, it is practically impossible to automatically mark and highlight the drawing symbols even if it is theoretically possible. Therefore, it is preferable to display an important code near the drawing or to manually mark the drawing.

【0023】<関連用語辞書の作成>請求項には上位概
念的等の表現が多いこと、そしてその幾らかは引用形式
請求項において、具現化した一般的技術用語により記述
されている場合があることは既に述べた。先に述べたよ
うに、請求の範囲においては、請求項毎に区分して記載
されており、独立請求項は上位概念的等に表現され、独
立請求項を引用する引用形式請求項は、独立請求項の構
成要件をより具体化する形式で記述されることが散見さ
れる。例えば、請求項1には、「脱水かご(11)に首
振りを防止する手段(13)を設けた遠心脱水装置」と
記載して、請求項2において、請求項1を引用して、
「首振りを防止する手段が脱水かご(11)の上端に取
り付けたバランスリング(13)である請求項1記載の
遠心脱水装置。」と記載することがある。このように、
請求項1には上位概念的等に表現されている「首振りを
防止する手段(13)」が、具体的には「上端に取り付
けたバランスリング(13)である」ことが請求項2に
おいて記述されている。この様な請求項の記述に関する
文書構造上の特徴「*****が******である請
求項1記載の」により上位概念的等の表現との関係を認
識することができる。明細書の中には、充分な手掛りの
ないものもある。例えば[請求項6]には「脱水かご
(31)に緩衝手段を設けた請求項1乃至5いずれかに
記載の遠心脱水装置」とあるが、「緩衝手段」が上端外
周に設けた弾性体よりなる緩衝輪であることを特定でき
る手掛りがない。この様な場合は、例えば、「緩衝」と
言う語が共通であるので、システム中に、参考として示
し、人手により確定する例外処理手段を設けることとす
る。この様にして、具体的表現と上位概念的、抽象的・
機能的、創作的表現とを対応させた関連用語辞書を作成
することができる。
<Creation of a related term dictionary> Claims often include expressions such as a general concept, and some of them may be described by embodied general technical terms in cited claims. That has already been mentioned. As described above, in the claims, the claims are described separately for each claim. Independent claims are expressed in terms of the general concept, etc. It is sometimes seen that the claim is described in a more specific form. For example, claim 1 describes "a centrifugal dewatering device in which a dewatering basket (11) is provided with a means (13) for preventing swinging", and in claim 2,
The centrifugal dewatering device according to claim 1, wherein the means for preventing the swing is a balance ring (13) attached to the upper end of the dewatering basket (11). in this way,
Claim 1 states that the "means for preventing swing (13)" expressed in a general concept or the like is specifically "a balance ring (13) attached to the upper end". It has been described. Such a feature in the document structure related to the description of the claim, "**** of claim 1 in which **** is ********" makes it possible to recognize a relationship with an expression such as a conceptual concept. . Some specifications do not have enough clues. For example, [Claim 6] includes "the centrifugal dehydrator according to any one of claims 1 to 5 in which the dehydrating basket (31) is provided with a buffer means". There is no clue that can be specified as a shock absorbing wheel. In such a case, for example, since the word "buffer" is common, an exception processing means shown as a reference and manually determined is provided in the system. In this way, concrete expressions and high-level concepts,
A related term dictionary corresponding to functional and creative expressions can be created.

【0024】<検索>以上では、発明の重要部分を明細
書より抽出する技術を中心に述べたが、以下に、これら
を用いた発明の重要部分の検索に付いて説明する。本発
明の検索対象のデータとしては、従来からの「公報全文
データ」に付加して、上述で説明した処理で重要部分の
データ(キーワード等)として抽出されている、「産業
上の利用分野データ 位置情報」、「発明の課題データ
位置情報」、「課題の解決手段データ 位置情報」、
「発明に関係の深い符号一覧データ」が、各特許文献に
は付加されている。また、本発明による検索方式は通常
の形態素解析によりキーワードを抽出してインデックス
作成するキーワード検索方式、N−gram方式による
フルテキスト検索方式等のエクザクト・マッチをベース
とした検索は方式が好ましい。しかし決して類似文書検
索を排除するものではない。これらを用いることによ
り、「検索」として、「発明の重要部分のカテゴリ(例
えば、「産業上の利用分野」、「発明の課題」等)」を
指定することにより、カテゴリー別の検索ができる。ま
た、検索結果を表示する場合、発明の重要部分の位置情
報利用によるハイライト表示が行える。
<Search> In the above, the technique for extracting the important parts of the invention from the specification has been mainly described. Hereinafter, the search for the important parts of the invention using these will be described. The data to be searched according to the present invention is, in addition to conventional “publication full-text data”, extracted as important part data (keywords and the like) in the above-described processing, “industrial application field data”. Location information "," invention subject data location information "," problem solving means data location information ",
“Code list data closely related to the invention” is added to each patent document. The search method according to the present invention is preferably a search method based on an exact match, such as a keyword search method in which keywords are extracted by ordinary morphological analysis to create an index, and a full-text search method using an N-gram method. But it does not rule out similar document searches. By using these, a search by category can be performed by designating "categories of important parts of the invention (for example," industrial application fields "," problems of the invention ", etc.)" as "searches". In addition, when displaying the search result, highlight display can be performed by using position information of an important part of the invention.

【0025】(請求の範囲拡張検索)独立請求の記載
は、権利範囲を大きく取る関係上、具体的な表現を避
け、上位概念的、抽象的・機能的、創作的に表現するこ
とが多く、検索に不向きであることは先に述べたとおり
である。しかし、特許情報の検索において、特許請求の
範囲に記載されている発明を直接検索することが出来れ
ば、その意義は大きい。このため、請求の範囲中に用い
られる、上位概念的等の表現を抽出し、インデックスと
して登録すれば、請求の範囲を直接検索することは可能
となる。さて、インデックスとして、単一語(例えば、
自動、販売機)だけを用いるもの、複合語(例えば、自
動、販売機、自動販売機)を合わせ持つものがある。複
合語はインデックスが多くなり、メモリが巨大化する欠
点があるが、ノイズが少ないと言う長所がある。この発
明ではさらに進んで、請求の範囲に用いられる抽象的・
機能的表現(例えば、首振りを防止する手段)をも抽出
して、インデックスに利用することを課題の一つとして
いる。請求項における上位概念的等の記載の表現形式
は、例えば「脱水かごに首振りを防止する手段(部材)
を設け」、「防振台に過大な外乱が作用する前に該外乱
を予知する予知手段(部材)を設け」或いは、「床を前
記他の床面と略同一となるように前記他の床面と非接触
に浮上させる浮上手段(部材)と、」「工作物を支持す
ると共に回転させる駆動手投(部材)と、」のように記
載されており、これらは「****に*****を**
**する手段(部材)を設け」や「****を****
**させる手段(部材)と、」にパターン化できる。こ
れらのパターンより抽象的・機能約表現である複合語を
抽出して、インデックスに利用するようにする。しか
し、このように上位概念的等を表現する記載である複合
語をインデックスとしても、通常、検索者は、上述した
ような請求の範囲で用いるような上位概念的等を表現す
る記載である複合語を思い浮かべ、クエリーを作成する
ことは難しい。
(Expansion Search of Claims) Independent claims are often expressed in a high-level concept, abstraction / functionality, and creative, because of the wide scope of rights, avoiding concrete expressions. As described above, it is not suitable for searching. However, in the search for patent information, it is significant if the inventions described in the claims can be directly searched. For this reason, if an expression such as a conceptual concept used in the claims is extracted and registered as an index, it is possible to directly search the claims. Now, as an index, a single word (for example,
Some use only automatic and vending machines, while others have compound words (eg, automatic, vending machines, vending machines). Compound words have the disadvantage of having a large number of indexes and a large memory, but have the advantage of low noise. The present invention goes further and further describes the abstraction used in the claims.
One of the tasks is to extract a functional expression (for example, means for preventing head swing) and use it for an index. The expression form of the concept such as “general concept” in the claims is, for example, “means (member) for preventing the dehydrating basket from swinging.
Provided "," provided with a prediction means (member) for predicting the disturbance before an excessive disturbance acts on the anti-vibration table ", or" provided that the floor is substantially the same as the other floor surface. It is described as "floating means (member) that floats without contacting the floor surface,""drive hand throw (member) that supports and rotates the workpiece," and these are described in "****". ********
** Provide means (members) "or" ********
** means (members) to perform patterning. Compound words, which are abstract / functional expressions, are extracted from these patterns and used for the index. However, even when a compound word that describes a high-level concept or the like is used as an index, the searcher usually uses a compound description that expresses a high-level concept or the like used in the claims described above. It is difficult to imagine words and create queries.

【0026】しかしながら、本発明の拡張検索を用いる
ことにより、検索者は発明のインデックス化されている
上位概念的等を表現する記載である複合語(索引語句)
を選択することが容易にできるようになる。これを図1
3のフローチャートを参照して説明する。図13は、図
1〜図8で示した首振りの防止技術を検索する場合を示
している。図13に示すように、検索者はまず、質問式
(クエリー)1として、発明と直接関連がある一般的技
術用語のキーワードである、遠心脱水機と脱水かごとの
論理積510を検索システムに入力することで(S61
0)、特許情報データベース200に対して検索を行っ
て、検索回答520を得る(S620)。この検索回答
520は、相当多数の特許文献が得られることになる。
本発明においては、検索者は、この検索回答520であ
る特許文献の特許請求の範囲内の一般技術用語(通常の
キーワード)530や上述した索引語句540を、例え
ばRANK機能を用いることにより、それぞれ多い順に
表示させることが可能である(S630)。この表示し
た中から、検索者が検索したい事項に一番近いもの選択
して、索引語句540を含む検索式550を再度作成
し、この検索式550を用いて、検索部分を[特許請求
の範囲]に指定して、特許情報データベース200に対
して検索を行う(S640)。そして、この検索式55
0に対しての検索回答560を得る(S650)。この
ように、発明を定義している上位概念的等を表現する記
載の複合語自体を用いて、特許請求の範囲を検索するこ
とができるので、発明に対して漏れがない検索を行うこ
とができる。
However, by using the extended search of the present invention, the searcher can obtain a compound word (index term) which is a description expressing the indexed general concept of the invention.
Can be easily selected. Figure 1
This will be described with reference to the flowchart of FIG. FIG. 13 shows a case of searching for the technique of preventing the swing shown in FIGS. 1 to 8. As shown in FIG. 13, first, the searcher inputs a logical product 510 of a centrifugal dehydrator and a dehydrating basket, which is a keyword of general technical terms directly related to the present invention, to a search system as a query 1. By inputting (S61
0), a search is performed on the patent information database 200 to obtain a search answer 520 (S620). As the search answer 520, a considerable number of patent documents can be obtained.
In the present invention, the searcher can use the search answer 520 as a general technical term (ordinary keyword) 530 within the scope of the claims of the patent document and the above-mentioned index phrase 540 by using, for example, a RANK function. It is possible to display in descending order (S630). From the displayed items, the searcher selects the item closest to the item to be searched, creates a search expression 550 including the index word 540 again, and uses this search expression 550 to set the search portion to [Claims ], A search is performed on the patent information database 200 (S640). And this search formula 55
A search answer 560 for 0 is obtained (S650). As described above, since the claims can be searched using the compound word itself that expresses a general concept that defines the invention, it is possible to perform a search without omission for the invention. it can.

【0027】また、関連用語辞書を用いると、「請求の
範囲拡張検索」を簡単に行うことが可能となる。即ち、
関連用語辞書には、具体的表現である一般技術用語と特
許請求の範囲に用いられている上位概念的等の表現とが
関連づけられて格納されている。このため、例えば、一
般的技術用語を指定して、この辞書でそれと関連付けら
れている表現を表示させて選択することにより、クエリ
ー(検索式)を作成することができる。また、同義語辞
典により、キーワードを拡張して検索するように、一般
的技術用語を用いたクエリーに対してこの関連用語辞書
による拡張を行い、検索を実行するようにしてもよい。
Further, the use of the related term dictionary makes it possible to easily perform a "claims extended search". That is,
In the related term dictionary, general technical terms, which are specific expressions, and expressions such as broader concepts used in the claims are stored in association with each other. For this reason, for example, a query (search expression) can be created by designating a general technical term and displaying and selecting an expression associated with the general term in this dictionary. In addition, a query using general technical terms may be expanded by using the related term dictionary, and a search may be executed so that a keyword is expanded and searched using a synonym dictionary.

【0028】本発明は、スタンド・アローンのコンピュ
ータ・システムばかりではなく、複数のシステムから構
成される例えばクライアント・サーバ・システム等に適
用してもよい。また、大規模なホスト・システムとこれ
に接続した端末とで構成した検索システムで実行しても
よい。本発明に関するプログラムを格納した記憶媒体か
ら、プログラムをシステムで読み出して実行することに
より、本発明の検索システムの構成を実現することがで
きる。この記録媒体には、フレキシブル・ディスク、C
D−ROM、CD−R、磁気テープ、等がある。
The present invention may be applied not only to a stand-alone computer system, but also to, for example, a client-server system composed of a plurality of systems. Further, the search may be executed by a search system including a large-scale host system and a terminal connected thereto. By reading the program from the storage medium storing the program related to the present invention by the system and executing the program, the configuration of the search system of the present invention can be realized. This recording medium includes a flexible disk, C
There are a D-ROM, a CD-R, a magnetic tape, and the like.

【0029】[0029]

【発明の効果】この発明によれば、特許明細書におい
て、特許請求の範囲に記載された発明の重要部分のみを
自動的に抽出することができる。その抽出データを利用
することにより、精度の高い検索を行うことができる。
この発明では、発明の重要部分の検索結果から、請求の
範囲の上位概念的、抽象的・機能的、創作的表現に付い
ての情報を得て、請求項に記載された発明をも検索する
ことができる。
According to the present invention, only important parts of the invention described in the claims can be automatically extracted from the patent specification. By using the extracted data, a highly accurate search can be performed.
According to the present invention, information on a high-level concept, an abstract / functional, and a creative expression of a claim is obtained from a search result of an important part of the invention, and the invention described in the claim is also searched. be able to.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を説明するための明細書例を示す図であ
る。
FIG. 1 is a diagram showing an example of a specification for explaining the present invention.

【図2】本発明を説明するための明細書例を示す図であ
る。
FIG. 2 is a diagram showing an example of a specification for explaining the present invention.

【図3】本発明を説明するための明細書例を示す図であ
る。
FIG. 3 is a diagram showing an example of a specification for explaining the present invention.

【図4】本発明を説明するための明細書例を示す図であ
る。
FIG. 4 is a diagram showing an example of a specification for explaining the present invention.

【図5】本発明を説明するための明細書例を示す図であ
る。
FIG. 5 is a diagram showing an example of a specification for explaining the present invention.

【図6】本発明を説明するための明細書例を示す図であ
る。
FIG. 6 is a diagram showing an example of a specification for explaining the present invention.

【図7】本発明を説明するための明細書例を示す図であ
る。
FIG. 7 is a diagram showing an example of a specification for explaining the present invention.

【図8】本発明を説明するための明細書例を示す図であ
る。
FIG. 8 is a diagram showing an example of a specification for explaining the present invention.

【図9】産業上の利用分野の抽出を説明するための図で
ある。
FIG. 9 is a diagram for explaining extraction of an industrial application field.

【図10】産業上の利用分野の抽出処理を説明するフロ
ーチャートである。
FIG. 10 is a flowchart illustrating an extraction process of an industrial application field.

【図11】関連請求項の関係を説明するための図であ
る。
FIG. 11 is a diagram for explaining the relationship between related claims.

【図12】関連請求項を定める処理を説明するフローチ
ャートである。
FIG. 12 is a flowchart illustrating a process for determining a related claim.

【図13】請求の範囲拡張検索の処理を説明するフロー
チャートである。
FIG. 13 is a flowchart illustrating a claim extended search process.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 柴田 司壽男 東京都江東区東陽4丁目1番7号 佐藤ダ イヤビルディング 財団法人 日本特許情 報機構内 (72)発明者 田中 雅雄 東京都江東区東陽4丁目1番7号 佐藤ダ イヤビルディング 財団法人 日本特許情 報機構内 (72)発明者 岡田 聖一 東京都江東区東陽4丁目1番7号 佐藤ダ イヤビルディング 財団法人 日本特許情 報機構内 (72)発明者 浅見 新一 東京都江東区東陽4丁目1番7号 佐藤ダ イヤビルディング 財団法人 日本特許情 報機構内 Fターム(参考) 5B075 ND20 NS10 PQ02 PQ22  ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Shizuo Shibata 4-7-1, Toyo, Koto-ku, Tokyo Sato Daiya Building Within the Japan Patent Information Organization (72) Inventor Masao Tanaka Toyo, Koto-ku, Tokyo 4-7-1-7 Sato Dai-ya Building Japan Patent Information Organization (72) Inventor Seichi Okada 4-7-1 7 Toyo, Koto-ku, Tokyo Sato Dai-ya Building Inside Japan Patent Information Organization ( 72) Inventor Shinichi Asami 4-7-1, Toyo, Koto-ku, Tokyo Sato Daiya Building F-term in the Japan Patent Information Organization (Reference) 5B075 ND20 NS10 PQ02 PQ22

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 特許文献システムにおいて、 少なくとも明細書の全文テキストデータを有するデータ
ベースと、 前記データベースから明細書を読み出す手段と、 前記読み出した明細書中の重要部分を、明細書で用いて
いる項目を利用して抽出する手段と、 前記抽出した重要部分を、前記データベースに検索可能
なように書き込む手段とを備えることを特徴とする特許
文献システム。
1. A patent document system, comprising: a database having at least full-text data of a specification; means for reading a specification from the database; and an important part in the read specification used in the specification. And a means for writing the extracted important part in the database in a searchable manner.
【請求項2】 請求項1記載の特許文献において、 前記重要部分として、「課題の解決手段」を抽出する手
段を有しており、 前記「課題の解決手段」を抽出する手段は、関連請求項
ごとの発明単位を認識する手段を含み、 前記「課題の解決手段」を発明単位ごとに抽出すること
を特徴とする特許文献システム。
2. The patent document according to claim 1, further comprising: means for extracting “means for solving the problem” as the important part, wherein the means for extracting the means for solving the problem is a related claim. A patent document system including means for recognizing an invention unit for each term, and extracting the "means for solving the problem" for each invention unit.
【請求項3】 請求項1又は2記載の特許文献におい
て、 前記「課題の解決手段」を抽出する手段は、 前記明細書の特許請求の範囲から直接クエリーを作成す
る手段と、 前記作成したクエリーを用いて、前記明細書を区切りご
とに類似検索する手段と、 前記類似検索した結果を抽出する手段とを備え、当該明
細書中を類似検索を行い、区切りごとの関連部分を抽出
することを特徴とする特許文献システム。
3. The patent document according to claim 1, wherein the means for extracting the “means for solving the problem” includes: means for directly creating a query from the claims of the specification; and Means for performing a similarity search of the specification for each section, and means for extracting a result of the similarity search, performing a similarity search in the specification and extracting a relevant portion for each section. Patent document system featuring.
【請求項4】 請求項1〜3のいずれかに記載の特許文
献システムにおいて、 前記抽出した重要部分には、文書における位置情報が付
加されており、 重要部分に対する検索回答で、文書中の位置も表示でき
るようにしたことを特徴とする特許文献システム。
4. The patent document system according to claim 1, wherein position information in the document is added to the extracted important part, and the position in the document is determined by a search response to the important part. A patent document system characterized by being able to also display a document.
【請求項5】 特許文献システムにおいて、 一般技術用語および特許請求の範囲内の複合語をインデ
ックスとしたデータベースと、 前記データベースのインデックスを用いて文献を検索す
る手段と、 検索結果の文献から、少なくとも前記複合語を表示・選
択できる手段とを備え、 前記検索結果の文献から表示・選択した複合語から新た
な検索を行うことができることを特徴とする特許文献シ
ステム。
5. A patent document system comprising: a database in which general technical terms and compound words within the scope of claims are indexed; means for searching for documents using the index of the database; Means for displaying and selecting the compound word, wherein a new search can be performed from the compound word displayed and selected from the document of the search result.
【請求項6】 特許文献システムにおいて、 少なくとも明細書の全文テキストデータを有するデータ
ベースと、 前記データベースから明細書の特許請求の範囲を読み出
す手段と、 前記読み出した特許請求の範囲から、上位下位を関連付
けるパターンを認識する関連付け検出手段と、 関連付けられた上下関係から、上位の表現と下位の表現
とを関連付けて蓄積する手段とを備え、関連用語辞書を
作成すること及び同辞書を検索に用いることを特徴とす
る特許文献システム。
6. In a patent document system, a database having at least full text data of the specification, means for reading out the claims of the specification from the database, and associating upper and lower levels from the read out claims An association detecting means for recognizing a pattern; and a means for associating a higher-level expression and a lower-level expression in association with each other based on the associated hierarchical relationship, and creating a related term dictionary and using the dictionary for search. Patent document system featuring.
JP2000251097A 2000-08-22 2000-08-22 Patent document system Pending JP2002063192A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000251097A JP2002063192A (en) 2000-08-22 2000-08-22 Patent document system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000251097A JP2002063192A (en) 2000-08-22 2000-08-22 Patent document system

Publications (1)

Publication Number Publication Date
JP2002063192A true JP2002063192A (en) 2002-02-28

Family

ID=18740557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000251097A Pending JP2002063192A (en) 2000-08-22 2000-08-22 Patent document system

Country Status (1)

Country Link
JP (1) JP2002063192A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308318A (en) * 2002-04-17 2003-10-31 Hitachi Ltd Method of supporting reading comprehension of document
JP2011096148A (en) * 2009-10-30 2011-05-12 Fujitsu Ltd Device for illustrating word or combination of words in patent document, program, and method
KR20140059999A (en) * 2012-11-09 2014-05-19 (주)윕스 Apparatus for manufacturing search report and method for displaying the same
JP6134973B1 (en) * 2016-02-22 2017-05-31 ジャパンモード株式会社 Literature data analysis system
KR20190058095A (en) * 2017-11-21 2019-05-29 장현경 Method of displaying patent document and server displaying the same
JP2020500371A (en) * 2016-11-11 2020-01-09 デンネマイヤー オクティマイン ゲーエムベーハー Apparatus and method for semantic search

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308318A (en) * 2002-04-17 2003-10-31 Hitachi Ltd Method of supporting reading comprehension of document
JP2011096148A (en) * 2009-10-30 2011-05-12 Fujitsu Ltd Device for illustrating word or combination of words in patent document, program, and method
KR20140059999A (en) * 2012-11-09 2014-05-19 (주)윕스 Apparatus for manufacturing search report and method for displaying the same
KR102043434B1 (en) * 2012-11-09 2019-11-11 (주)윕스 Apparatus for manufacturing search report and method for displaying the same
JP6134973B1 (en) * 2016-02-22 2017-05-31 ジャパンモード株式会社 Literature data analysis system
JP2017151533A (en) * 2016-02-22 2017-08-31 ジャパンモード株式会社 Literature data analysis system
JP2020500371A (en) * 2016-11-11 2020-01-09 デンネマイヤー オクティマイン ゲーエムベーハー Apparatus and method for semantic search
JP7089513B2 (en) 2016-11-11 2022-06-22 デンネマイヤー オクティマイン ゲーエムベーハー Devices and methods for semantic search
KR20190058095A (en) * 2017-11-21 2019-05-29 장현경 Method of displaying patent document and server displaying the same
KR102030048B1 (en) 2017-11-21 2019-10-08 장현경 Method of displaying patent document and server displaying the same

Similar Documents

Publication Publication Date Title
US7523102B2 (en) Content search in complex language, such as Japanese
US10445359B2 (en) Method and system for classifying media content
CN100474301C (en) System and method for obtaining words or phrases unit translation information based on data excavation
KR101522049B1 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
JP5552426B2 (en) Automatic extended language search
JP3690938B2 (en) Index creation apparatus, creation method, and storage medium
US20110225155A1 (en) System and method for guiding entity-based searching
US20070198511A1 (en) Method, medium, and system retrieving a media file based on extracted partial keyword
WO2014000517A1 (en) Recommendation system and method for input searching
JP2002082943A (en) Specific expression judging device and specific expression judging method, and recording medium with specific expression judging program recorded thereon
KR20100041482A (en) Apparatus and method for search of contents
WO2009123260A1 (en) Cooccurrence dictionary creating system and scoring system
JPH0484271A (en) Intra-information retrieval device
US20070233462A1 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP2002132791A (en) Device and method for extracting place name information, recording medium with extraction program recorded thereon and map information retrieving device
JP2002063192A (en) Patent document system
JPH08147311A (en) Method for retrieving structured document and device therefor
JPH0844771A (en) Information retrieval device
JP2005242416A (en) Natural language text search method and device
JP2002251402A (en) Method and device for document retrieval
EP1605371A1 (en) Content search in complex language, such as japanese
Meyer On Sanskrit and information retrieval
CN105426551A (en) Classical Chinese searching method and device
JP3376996B2 (en) Full text search method
JPH07296005A (en) Japanese text registration/retrieval device