JP2007220144A - Patent retrieval device, and control method and control program for patent retrieval device - Google Patents

Patent retrieval device, and control method and control program for patent retrieval device Download PDF

Info

Publication number
JP2007220144A
JP2007220144A JP2007133313A JP2007133313A JP2007220144A JP 2007220144 A JP2007220144 A JP 2007220144A JP 2007133313 A JP2007133313 A JP 2007133313A JP 2007133313 A JP2007133313 A JP 2007133313A JP 2007220144 A JP2007220144 A JP 2007220144A
Authority
JP
Japan
Prior art keywords
search
patent document
word
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007133313A
Other languages
Japanese (ja)
Inventor
Takashige Tanaka
敬重 田中
Koji Yamada
孝司 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2007133313A priority Critical patent/JP2007220144A/en
Publication of JP2007220144A publication Critical patent/JP2007220144A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To clearly present reference and referred relationships between a plurality of patent literatures and further extract patent literatures of similar technical contents without any reference relationship. <P>SOLUTION: A retrieval processing part 102 of the patent retrieval system 100 analyzes a retrieval source patent literature and extracts a word or composite word contained in the condition setting patent literature as a retrieval condition word. Retrieving words are compared with the retrieval condition word in reference to a database part 11, and patent literatures having high similarity to the retrieval source patent literature are retrieved as patent literatures highly relevant to the retrieval source patent literature. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体に係り、特に複数の特許文献相互間の関係あるいは特許文献における請求項相互間の関係を検索者に対して明確に提示するための技術に関する。   The present invention relates to a patent search device, a control method for a patent search device, a control program, and a recording medium. In particular, a relationship between a plurality of patent documents or a relationship between claims in a patent document is clarified to a searcher. It relates to the technology to present.

近年の技術の発達に伴い、特許出願の件数は膨大なものとなってきている。これに伴って特許文献の量も膨大となってきており、重複研究を防止し、権利侵害のチェック、出願前の調査、他社の技術開発動向の把握、研究開発の方向性の決定等を行う場合の特許文献調査も容易ではないのが実状である。このような特許文献調査における負荷を軽減するためのものとして、従来より、特許検索システムが知られている。従来の特許検索システムにおいては、検索対象の特許文献に含まれると思われるキーワードを一または複数入力し、当該キーワードあるいはキーワード群を含む特許文献をデータベースを参照して抽出し、抽出した特許文献のリストを生成し、表示あるいは出力するように構成されていた。   With the recent development of technology, the number of patent applications has become enormous. Along with this, the amount of patent literature has become enormous, preventing duplicate research, checking for infringement of rights, conducting pre-application investigations, grasping technological development trends of other companies, determining the direction of research and development, etc. In fact, it is not easy to search for patent documents. Conventionally, a patent search system is known as a means for reducing the load in such a patent document search. In the conventional patent search system, one or a plurality of keywords that are considered to be included in the patent documents to be searched are input, the patent documents including the keywords or keyword groups are extracted with reference to the database, and the extracted patent documents It was configured to generate and display or output a list.

上記従来の特許検索システムにおいては、「漏れの少ない」調査を行うことができるものの、キーワードの選択を誤れば、逆に不必要な情報も膨大に含まれてしまうと言う問題点があった。そしてこのような場合には調査そのものの時間も膨大にかかると言う問題点があった。また、不必要にキーワードを増加して絞り込みを行ってしまうと関連する特許文献も抜け落ちてしまうという問題点があった。また、複数の特許文献が抽出される場合であっても、各特許文献相互の関係は、文献内容を詳細に読み取らなければ分からないと言う問題点があった。すなわち、複数の関連する特許文献が抽出されてもどの特許文献がより基本特許に近いものであるかは、当該複数の文献に記載されている情報をある程度参照する必要があった。そこで、本発明の目的は、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することが可能な特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体を提供することにある。   In the above conventional patent search system, although a “leakage” investigation can be performed, there is a problem that if a keyword is selected incorrectly, a large amount of unnecessary information is included. In such a case, there was a problem that the time required for the investigation itself was enormous. In addition, there is a problem in that related patent documents are lost if keywords are unnecessarily increased and narrowed down. Further, even when a plurality of patent documents are extracted, there is a problem that the relationship between each patent document cannot be understood unless the contents of the documents are read in detail. That is, even if a plurality of related patent documents are extracted, it is necessary to refer to some information described in the plurality of documents to determine which patent document is closer to the basic patent. Accordingly, an object of the present invention is to provide a patent search device capable of clearly showing a reference between a plurality of patent documents, a referenced relationship, and extracting a patent document having an approximate technical content even without a reference relationship, It is an object to provide a control method, a control program, and a recording medium for a patent search apparatus.

上記課題を解決するため、特許検索装置は、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部と、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出部と、前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索部と、を備えたことを特徴としている。上記構成によれば、特許検索装置の語句抽出部は、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する。検索部は、特許検索データベース部を参照して前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する。   In order to solve the above-mentioned problem, the patent search device includes a patent search database unit that stores a word or a compound word included in a patent document to be searched in advance as a search term phrase in association with the patent document, and a search source patent document. Analyzes and compares the search term phrase and the search condition phrase with a phrase extraction unit that extracts a word or compound word included in the condition setting patent document as a search condition phrase, and is similar to the search source patent document And a search unit that searches a highly patentable patent document as a patent document highly relevant to the search source patent document. According to the above configuration, the phrase extraction unit of the patent search device analyzes the search source patent document and extracts a word or compound word included in the condition setting patent document as a search condition word. The search unit refers to a patent search database unit to compare the search term phrase and the search condition phrase, and a patent document having a high similarity to the search source patent document is highly relevant to the search source patent document Search as patent literature.

この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出部を備えるようにしてもよい。また、前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備えるようにしてもよい。さらに前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成部と、前記図表作成部により作成された図表を提示するディスプレイ部と、を備えるようにしてもよい。   In this case, a reference destination extracting unit that extracts a reference relationship between the search source patent document and the highly relevant patent document may be provided based on the description in each patent document. Further, the patent search database unit may include a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship. . Furthermore, based on the information in the reference destination database unit, a chart creation unit that creates a chart representing a reference relationship between the search source patent document and the highly relevant patent document, and the chart creation unit A display unit that presents a chart.

さらにまた、前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度算出部と、抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録部と、を備えるようにしてもよい。また、前記検索部は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索するようにしてもよい。   Furthermore, a morpheme analysis unit that performs morphological analysis of the search source patent document and extracts the word or the compound word, and calculates the importance of the extracted word or compound word in the search source patent document. You may make it provide the degree calculation part and the registration part which matches the extracted said word or the said compound word with the said importance, and registers it as the said search term phrase in the said patent search database part. The search unit may search for highly relevant patent documents based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.

さらに前記特許文献は、複数の「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析部を備えるようにしてもよい。さらにまた、前記請求項解析部は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出するようにしてもよい。また、前記請求項解析部は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別するようにしてもよい。さらに前記特許文献は、「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析部を備えるようにしてもよい。   The patent document further includes a description of a plurality of “claims”, and the search unit includes a claim analysis unit that extracts subordinate relationships between the plurality of “claims” based on the search term phrases. You may make it prepare. Furthermore, the claim analysis unit includes the description of other “claims” included in the “claim” of the search object, and the name of the invention of the “claim” and other “claim” of the search object. The dependency relationship may be extracted based on this. In addition, the claim analysis unit includes the description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions of the “term” are the same, it may be determined that the dependency exists. Further, the patent document includes a description of “claim”, and the search unit includes a claim analysis unit that extracts a constituent element included in the description of “claim” based on the search term phrase. May be.

また、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有する特許検索装置の制御方法において、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出過程と、前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索過程と、を備えたことを特徴としている。この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出過程を備えるようにしてもよい。   Further, in a method for controlling a patent search apparatus having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance, the search source patent document is analyzed. The phrase extraction process of extracting a word or compound word included in the condition setting patent document as a search condition phrase and the search term phrase and the search condition phrase are compared, and the similarity to the search source patent document is compared. And a search process for searching for a high patent document as a patent document highly relevant to the search source patent document. In this case, a reference destination extraction process for extracting a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document may be provided.

また、前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備え、前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成過程と、前記図表作成部により作成された図表を提示するディスプレイ過程と、を備えるようにしてもよい。さらに前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度計算過程と、抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録過程と、を備えるようにしてもよい。   In addition, the patent search database unit includes a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship, and the reference destination database A chart creation process for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information of the section, and a display for presenting the chart created by the chart creation section And a process. Further, a morpheme analysis process for extracting the word or the compound word by performing a morphological analysis of the search source patent document, and an importance calculation for calculating the importance of the extracted word or the compound word in the search source patent document A registration process for registering the extracted word or the compound word as the search term phrase in the patent search database unit in association with the importance.

またさらに、前記検索過程は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索するようにしてもよい。また、前記特許文献は、複数の「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析過程を備えるようにしてもよい。さらに前記請求項解析過程は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出するようにしてもよい。   Furthermore, the search process may search for highly relevant patent documents based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase. In addition, the patent document includes a description of a plurality of “claims”, and the search process extracts a subordinate relationship between the plurality of “claims” based on the search term phrase. You may make it provide. Further, the claim analysis process is based on the description of other “claims” included in the “claim” to be searched and the names of the inventions of the “claim” and other “claims” of the search target. The dependency relationship may be extracted.

さらにまた、前記請求項解析過程は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別するようにしてもよい。また、前記特許文献は、「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析過程を備えるようにしてもよい。   Furthermore, the claim analysis process includes the description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions of the “claims” are the same, it may be determined that the dependency exists. Further, the patent document includes a description of “claim”, and the search process includes a claim analysis process of extracting a constituent element included in the description of “claim” based on the search term phrase. It may be.

また、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有するコンピュータを特許検索装置として機能させる制御プログラムは、検索元特許文献を解析させ、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出させ、前記検索用語句および前記検索条件語句を比較させ、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索させる、ことを特徴としている。この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出させるようにしてもよい。また、前記特許文献は、複数の「請求項」の記載を含み、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出させるようにしてもよい。さらに前記特許文献は、「請求項」の記載を含み、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出させるようにしてもよい。また、上記各制御プログラムを記録媒体に記録するようにしてもよい。   In addition, a control program that causes a computer having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in advance as a search term phrase in association with the patent document is a search source patent. Analyzing the document, extracting a word or compound word contained in the condition setting patent document as a search condition word, comparing the search term phrase and the search condition word, and having similarity to the search source patent document It is characterized in that a high-patent document is searched as a patent document highly relevant to the search source patent document. In this case, a reference relationship between the search source patent document and the highly related patent document may be extracted based on the description in each patent document. Further, the patent document may include a plurality of “claims”, and a dependency relationship between the plurality of “claims” may be extracted based on the search term phrase. Further, the patent document may include a description of “claim”, and a constituent element included in the description of “claim” may be extracted based on the search term phrase. The control programs may be recorded on a recording medium.

本発明によれば、特許検索を行うに際し、「漏れの少ない」検索を行え、かつ、不必要な情報が含まれることを抑制することができる。また、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することができる。さらにまた、同一の特許文献中における請求項の従属関係を明確化し、提示することができる。   According to the present invention, when performing a patent search, a “leakage” search can be performed and unnecessary information can be prevented from being included. In addition, it is possible to clearly present a reference and a referenced relationship between a plurality of patent documents, and to extract patent documents having approximate technical contents even without a reference relationship. Furthermore, the dependent relationships of the claims in the same patent document can be clarified and presented.

次に本発明の好適な実施の形態について図面を参照して説明する。本実施形態は、本発明を特許検索システムに適用する場合のものである。
[1]特許検索データベース登録システム
まず特許検索システムに用いられる特許検索データベースを構築するための特許検索データベース登録システムについて説明する。
[1−1]特許検索データベース登録システムの構成
図1は特許検索データベース登録システムの概要構成ブロック図である。特許検索データベース登録システム10は、大別すると、各種データをデータベースとして蓄積するデータベース部11と、データベース部11に各種データを登録するための登録処理部12と、を備えている。ここで、特許検索データベース登録システム10は、コンピュータシステムにおいて実現可能であり、登録処理部12の機能は、登録処理部12を構成する各部に対応する、マイクロプロセッサで実行可能なプログラムによって実現される。また、このようなプログラムは、半導体メモリ、CD−ROMなどの記録媒体から直接実行してもよい。また、外部記憶装置に予めプログラムインストールして実行することも可能である。さらにプログラムの実行に先立って実行する毎、あるいは、最初に一度だけ、インターネットなどのネットワークを介してインストールするようにしてもよい。
Next, preferred embodiments of the present invention will be described with reference to the drawings. In the present embodiment, the present invention is applied to a patent search system.
[1] Patent Search Database Registration System First, a patent search database registration system for constructing a patent search database used in the patent search system will be described.
[1-1] Configuration of Patent Search Database Registration System FIG. 1 is a schematic configuration block diagram of a patent search database registration system. The patent search database registration system 10 roughly includes a database unit 11 that stores various data as a database, and a registration processing unit 12 that registers various data in the database unit 11. Here, the patent search database registration system 10 can be realized in a computer system, and the function of the registration processing unit 12 is realized by a program that can be executed by a microprocessor corresponding to each unit constituting the registration processing unit 12. . Such a program may be directly executed from a recording medium such as a semiconductor memory or a CD-ROM. It is also possible to install and execute a program in the external storage device in advance. Further, it may be installed via a network such as the Internet every time it is executed prior to execution of the program or only once at the beginning.

[1.1.1]データベース部の構成
まず、データベース部の構成について説明する。データベース部11は、ハードディスクなどの外部記憶装置に構築されている。そしてデータベース部11は、大別すると、単語データベース15と、構成要件(発明特定事項)データベース16と、従属関係データベース17と、参照文献データベース18と、を備えている。単語データベース15は、特許文献PDに含まれている単語あるいは複合語を予め指定された特定の分類(分野)に関連させて記憶させるためのデータベースである。
[1.1.1] Configuration of Database Unit First, the configuration of the database unit will be described. The database unit 11 is constructed in an external storage device such as a hard disk. The database unit 11 includes a word database 15, a component requirement (invention specific matter) database 16, a dependency relationship database 17, and a reference document database 18. The word database 15 is a database for storing words or compound words included in the patent document PD in association with a specific classification (field) designated in advance.

図2は単語データベースの基本構成である。単語データベース15は、大別すると、ページテーブル21と、キーワードテーブル22と、ワードテーブル23と、を備えている。図2においては、一つのページテーブル21に対し、1系統のキーワードテーブル22およびワードテーブル23のみを図示しているが、実際には、一つのページテーブル21に対し、複数系統のキーワードテーブル22およびワードテーブル23が構成され、全体として、ツリー構造(木構造)をなしている。ページテーブル21は、ページIDデータ31、認識番号データ32、タイトルデータ33、更新日時データ34、書誌事項データ35および被リンク数データ36を備えている。なお、このデータ構成は一例であり、これに限られるものではない。例えば、対応する公報のページ数や技術分野などのデータを組み込むようにしても構わない。   FIG. 2 shows the basic configuration of the word database. The word database 15 roughly includes a page table 21, a keyword table 22, and a word table 23. In FIG. 2, only one system keyword table 22 and word table 23 are shown for one page table 21, but in practice, a plurality of system keyword tables 22 and A word table 23 is configured and has a tree structure (tree structure) as a whole. The page table 21 includes page ID data 31, identification number data 32, title data 33, update date / time data 34, bibliographic data 35 and linked number data 36. Note that this data configuration is an example, and the present invention is not limited to this. For example, data such as the number of pages and technical fields of the corresponding publication may be incorporated.

ページIDデータ31は、登録する特許文献(特許文書)PDのそれぞれに固有(unique)に割り当てられ、各特許文献PDを特定するためのデータである。認識番号データ32は、公報番号など特許庁によって各特許文献PDに割り振られた値を有するデータである。タイトルデータ33は、各特許文献PDの内容を表す名称を格納している。例えば、特許文献PDが特許公報である場合には、発明の名称である。更新日時データ34は、各特許文献PDの登録日時を格納している。書誌事項データ35は、特許文献PDが特許公報である場合には、公報発行国、公報種別、公開番号、公開日、国際特許分類情報(FI分類番号等)、審査請求の有無、請求項の数、出願形態、全頁数、出願番号、出願日、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願日、出願人情報(識別番号、氏名または名称、住所または居所)、発明者情報(氏名、住所または居所)、代理人情報(識別番号、氏名、資格)、テーマコード、Fターム等である。すなわち、書誌事項データ35は、各特許文献PDに関わる様々な書誌的な情報を格納するためのデータである。被リンク数データ36は、各特許文献PDが参照されている他の特許文献の文献数を格納するためのデータである。   The page ID data 31 is uniquely assigned to each patent document (patent document) PD to be registered, and is data for specifying each patent document PD. The identification number data 32 is data having a value assigned to each patent document PD by the Patent Office, such as a publication number. The title data 33 stores a name representing the contents of each patent document PD. For example, when the patent document PD is a patent publication, it is the name of the invention. The update date / time data 34 stores the registration date / time of each patent document PD. When the patent document PD is a patent gazette, the bibliographic data 35 includes the publication country, publication type, publication number, publication date, international patent classification information (FI classification number, etc.), examination request, Number, application form, total number of pages, application number, filing date, application number of priority claim basic application, application number of priority claim basic application, filing date of priority claim basic application, applicant information (identification number, name) Or name, address or residence), inventor information (name, address or residence), agent information (identification number, name, qualification), theme code, F-term, etc. That is, the bibliographic data 35 is data for storing various bibliographic information related to each patent document PD. The number-of-links data 36 is data for storing the number of documents of other patent documents to which each patent document PD is referenced.

また、キーワードテーブル22は、ページテーブル21とワードテーブル23とを関係付けするためのデーブルである。そして、キーワードテーブル22は、ページIDデータ41、ワードIDデータ42、出現回数(cost)データ43、重要度データ44および段落フラグデータ45を備えている。ページIDデータ41は、ページテーブル21のページIDデータ31に対応するデータが格納するデータである。すなわち、ページテーブル21のページIDデータ31と同一のデータが格納されていれば、当該キーワードテーブル22は、同一のページIDデータを有するページテーブル21に関連するデータを格納していることを表している。ワードIDデータ42は、対応する単語についての情報を格納しているワードテーブル23との関連づけを行うためのデータである。   The keyword table 22 is a table for associating the page table 21 and the word table 23. The keyword table 22 includes page ID data 41, word ID data 42, appearance frequency (cost) data 43, importance data 44, and paragraph flag data 45. The page ID data 41 is data stored by data corresponding to the page ID data 31 of the page table 21. That is, if the same data as the page ID data 31 of the page table 21 is stored, the keyword table 22 indicates that data related to the page table 21 having the same page ID data is stored. Yes. The word ID data 42 is data for associating with the word table 23 that stores information about the corresponding word.

出現回数(cost)データ43は、ワードIDデータ42で特定される単語のページIDデータ41で特定される特許文献中における出現回数に相当するデータである。すなわち、ある単語が当該特許文献中に何回使用されたかを表すデータである。重要度データ44は、ページIDデータ41で特定される特許文献におけるワードIDデータ42で特定される単語の重要度としてTFIDF法により算出したTFIDF値を格納している。このTFIDF値は、後述するワードテーブルに格納されているIDFデータ(IDF値;全特許文献中における対応する単語の出現した文献数に相当)および出現回数データ43に基づいて算出される。すなわち、ある単語が出現した文献数が少ないほど、かつ、各文献における当該単語の出現数が多いほど重要な単語であると認識されることとなる。   The appearance number (cost) data 43 is data corresponding to the number of appearances in the patent document specified by the page ID data 41 of the word specified by the word ID data 42. That is, it is data representing how many times a certain word is used in the patent document. The importance data 44 stores the TFIDF value calculated by the TFIDF method as the importance of the word specified by the word ID data 42 in the patent document specified by the page ID data 41. This TFIDF value is calculated based on IDF data (IDF value; corresponding to the number of documents in which the corresponding word appears in all patent documents) and the appearance frequency data 43 stored in a word table to be described later. That is, the smaller the number of documents in which a certain word appears and the larger the number of occurrences of the word in each document, the more important the word is recognized.

段落フラグデータ45は、ワードIDデータ42で特定される単語がページIDデータ41で特定される特許文献中のいずれの段落で検出されたかを示すデータである。この場合における段落とは、特許文献が論文や書籍などの通常の文献の場合には、一般的な段落の意味の他、章や節などの概念を含むものである。また、特許文献が特許公報などの場合には、発明の名称の欄、特許請求の範囲の欄、発明の詳細な説明の欄、図面の簡単な説明の欄、要約の欄などについても段落として扱っている。   The paragraph flag data 45 is data indicating in which paragraph in the patent document specified by the page ID data 41 the word specified by the word ID data 42 is detected. The paragraph in this case includes concepts such as chapters and sections in addition to the meaning of a general paragraph when the patent document is a normal document such as a paper or a book. If the patent document is a patent gazette, etc., the title column of the invention, the claims column, the detailed description column of the invention, the brief description column of the drawings, the summary column, etc. are also included in the paragraph. I handle it.

ワードテーブル23は、単語データ51、ワードIDデータ52およびIDFデータ53を備えている。単語データ51は、形態素解析後の単語が登録されている。ワードIDデータ52は、単語データ51として登録されている単語を特定するためのデータである。IDFデータ53は、単語データ51として登録されている単語が全特許文献中において出現した文献数に相当するIDF値が登録されている。構成要件データベース16は、特許文献である特許公開公報、特許掲載公報などから、特許請求の範囲に含まれる構成要件(いわゆる発明特定事項)のデータを記憶している。具体的には、各構成要件の名称、各構成要件の作用を特徴づけるような単語などを格納している。従属関係データベース17は、請求項(クレーム)間の繋がりである従属関係に関するデータを記憶している。   The word table 23 includes word data 51, word ID data 52, and IDF data 53. In the word data 51, words after morphological analysis are registered. The word ID data 52 is data for specifying a word registered as the word data 51. In IDF data 53, IDF values corresponding to the number of documents in which words registered as word data 51 appear in all patent documents are registered. The configuration requirement database 16 stores data of configuration requirements (so-called invention specific items) included in the scope of claims from patent publications such as patent publications and patent publications. Specifically, the name of each constituent requirement, a word that characterizes the action of each constituent requirement, and the like are stored. The dependency relationship database 17 stores data related to dependency relationships that are links between claims (claims).

図3に従属関係データベース17のデータフォーマットを示す。従属関係データベース17は、ページIDデータ55と、被引用請求項データ56と、引用請求項データ57と、を備えている。ページIDデータ55は、ページテーブル21のページIDデータ31と同様のデータであり、ページIDデータ55に対応する被引用請求項データ56および引用請求項データ57は、このページIDデータ55に対応する特許文献に含まれる請求項の従属関係を表すこととなる。被引用請求項データ56は、他の請求項により引用される請求項の請求項番号が登録される。引用請求項データ57は、他の請求項を引用する請求項の請求項番号が登録される。   FIG. 3 shows the data format of the dependency relationship database 17. The dependency relationship database 17 includes page ID data 55, cited request data 56, and cited request data 57. The page ID data 55 is the same data as the page ID data 31 of the page table 21, and the cited claim data 56 and the cited claim data 57 corresponding to the page ID data 55 correspond to the page ID data 55. It represents the dependency of the claims included in the patent document. In the cited claim data 56, the claim number of a claim cited by another claim is registered. In the cited claim data 57, the claim number of a claim that cites another claim is registered.

具体的には、ページデータ=1で特定される特許文献の特許請求の範囲の記載において、請求項1および請求項2が独立項となっており、請求項3が請求項1および請求項2を引用した従属項となっており、ページデータ=2で特定される特許文献の特許請求の範囲の記載において、請求項1が独立項となっており、請求項2が請求項1を引用した従属項となっている場合には、従属関係データベース17には、図4に示すようなデータが登録される。すなわち、図4に示すように、以下の(1)〜(3)のデータが登録される。
(1)ページIDデータ=1、被引用請求項データ=1、引用請求項データ=3
(2)ページIDデータ=1、被引用請求項データ=2、引用請求項データ=3
(3)ページIDデータ=2、被引用請求項データ=1、引用請求項データ=2
Specifically, in the description of the claims of the patent document specified by page data = 1, claims 1 and 2 are independent claims, and claim 3 is claims 1 and 2. In the description of the claims of the patent document specified by page data = 2, claim 1 is an independent claim, and claim 2 is cited as claim 1. In the case of a dependent term, data as shown in FIG. 4 is registered in the dependency relationship database 17. That is, as shown in FIG. 4, the following data (1) to (3) are registered.
(1) Page ID data = 1, cited claim data = 1, cited claim data = 3
(2) Page ID data = 1, cited claim data = 2, cited claim data = 3
(3) Page ID data = 2, cited request data = 1, cited request data = 2

参照文献データベース18は、各特許文献について、当該文献中で参照している参照文献あるいは審査などにおいて参照された参照文献に関するデータを格納している。具体的には、参照文献番号(特許公開番号、特許番号、……)、文献名、文献参照頁、文献発行元、著者名などが必要に応じて格納されることとなる。参照文献データベース18は、図8に示すように、参照先ページIDデータ81、参照元ページIDデータ82、タイトルデータ83、文献種別データ84および文献書誌情報データ85を備えている。参照先ページIDデータ81は、参照先の特許文献を特定するためのページIDデータである。参照元ページIDデータ82は、参照元の特許文献を特定するためのページIDデータである。   The reference document database 18 stores, for each patent document, data related to a reference document referred to in the document or a reference document referred in examination. Specifically, reference document numbers (patent publication numbers, patent numbers,...), Document names, document reference pages, document issuers, author names, and the like are stored as necessary. As shown in FIG. 8, the reference document database 18 includes reference destination page ID data 81, reference source page ID data 82, title data 83, document type data 84, and document bibliographic information data 85. The reference destination page ID data 81 is page ID data for specifying a reference destination patent document. The reference source page ID data 82 is page ID data for specifying a reference source patent document.

タイトルデータ83は、参照先の文献タイトルを登録する。上述の例の場合には「特開平△−12345号公報」が文献タイトルとなる。文献種別データ84は、当該参照先の特許文献の種別を表すデータである。例えば、参照先の特許文献の種別が国内特許公報の場合には文献種別データ=0、外国特許公報の場合には文献種別データ=1、論文である場合には文献種別データ=2のように設定される。文献書誌情報データ85は、文献名、文献参照頁、文献発行元、著者名などの書誌情報が所定の順番でCSV形式などのテキストデータ形式で格納されている。なお、この文献書誌情報データ85は、これらの情報が必要なければ、必ずしも設ける必要はない。   The title data 83 registers the document title of the reference destination. In the case of the above-mentioned example, “Japanese Patent Laid-Open No. 12345/1990” becomes the document title. The document type data 84 is data representing the type of the referenced patent document. For example, the document type data = 0 when the type of the patent document to be referred to is a domestic patent publication, the document type data = 1 when it is a foreign patent gazette, and the document type data = 2 when it is a paper. Is set. The bibliographic information data 85 stores bibliographic information such as a document name, a document reference page, a document publisher, and an author name in a text data format such as CSV format in a predetermined order. Note that this bibliographic information data 85 is not necessarily provided unless such information is required.

[1.1.2]検索処理部の構成
次に検索処理部12の構成について再び図1を参照して説明する。検索処理部12は、大別すると、形態素解析部61と、重要度算出部62と、請求項解析部63と、形態素解析用辞書部64と、参照文献抽出部65と、標準化部66と、ストップワード処理部67と、を備えている。形態素解析部61は、特許文献PDを形態素解析して頻出する名詞、サ変名詞、その他の名詞あるいはサ変名詞に類する単語を単語データベース15に登録する。この形態素解析部61による単語の単語データベース15への登録に先立って、標準化部66は、単語の標準化(統一化)を行う。例えば、単語として「PC」、「パソコン」、「パーソナルコンピュータ」の3種類の単語が形態素解析により得られた場合に、これらの単語は同一の意味を有しているので「パソコン」の単語に統一するのである。また、ストップワード処理部67は、特許分野において特許文献の種類に関わらず頻出する単語の単語データベース15への登録を行わないように処理をしている。例えば、単語として「請求項」、「出願」、「特許」、「本発明」、「実用新案」等の単語については、単語データベース15への登録を行わないようにしている。
[1.1.2] Configuration of Search Processing Unit Next, the configuration of the search processing unit 12 will be described with reference to FIG. 1 again. The search processing unit 12 is roughly divided into a morpheme analysis unit 61, an importance calculation unit 62, a claim analysis unit 63, a morpheme analysis dictionary unit 64, a reference document extraction unit 65, a standardization unit 66, A stop word processing unit 67. The morpheme analysis unit 61 registers, in the word database 15, nouns, sagittal nouns, other nouns, or words similar to sagittal nouns that frequently appear by analyzing the patent document PD. Prior to registration of words in the word database 15 by the morpheme analysis unit 61, the standardization unit 66 performs standardization (unification) of words. For example, when three types of words “PC”, “personal computer”, and “personal computer” are obtained by morphological analysis, these words have the same meaning. Unify. In addition, the stop word processing unit 67 performs processing so as not to register frequently appearing words in the word database 15 regardless of the type of patent document in the patent field. For example, words such as “claim”, “application”, “patent”, “present invention”, and “utility model” are not registered in the word database 15 as words.

重要度算出部62は、形態素解析されて登録された単語に対して重要度をTFIDF法を用いてTFIDF値として計算し、単語データベース15へ登録する。請求項解析部63は、大別すると、従属関係解析部63Aと、構成要件抽出部63Bと、を備えている。従属関係解析部63Aは、特許文献が特許公報や実用新案公報などである場合に、特許請求の範囲や実用新案登録請求の範囲などを解析し、各請求項同士の従属関係を調べる。また、構成要件抽出部63Bは、特許請求の範囲や実用新案登録請求の範囲などから構成要件(例えば、発明特定事項)を抽出する。形態素解析用辞書部64は、形態素解析部61が形態素解析を行う際に用いる一般的に知られているような態様の形態素解析辞書を格納している。参照文献抽出部65は、各特許文献について、当該文献中で参照している参照文献あるいは審査などにおいて参照された参照文献を抽出し、参照文献データベース18に登録する。   The importance calculation unit 62 calculates the importance as a TFIDF value using the TFIDF method for a word registered by morphological analysis and registers it in the word database 15. The claim analysis unit 63 roughly includes a dependency relationship analysis unit 63A and a component requirement extraction unit 63B. When the patent document is a patent gazette, a utility model gazette, or the like, the dependency relationship analysis unit 63A analyzes the claims and the scope of the utility model registration request and examines the dependency relationship between the claims. Further, the configuration requirement extraction unit 63B extracts configuration requirements (for example, invention-specific matters) from the scope of claims and the scope of claims for utility model registration. The morpheme analysis dictionary unit 64 stores a morpheme analysis dictionary having a generally known aspect that is used when the morpheme analysis unit 61 performs morpheme analysis. The reference document extraction unit 65 extracts, for each patent document, a reference document referred to in the document or a reference document referred to in examination, and registers it in the reference document database 18.

[1.2]特許検索データベース登録システムの動作
次に特許検索データベース登録システムの動作を説明する。以下の説明においては、特許文献として特許公報を登録対象とする場合を例として説明する。図5に特許検索データベース登録処理のフローチャートを示す。まず特許検索データベース登録システム10は、形態素解析を行い(ステップS1)、単語データベースに登録する(ステップS2)。具体的には、形態素解析部61は、特許文献を形態素解析するに際し、各特許文献毎に固有の番号を所定の条件に基づいてページIDとして割り振り、ページテーブルのページIDデータおよびキーワードテーブルのページIDデータに登録する。次に形態素解析部61は、特許文献である特許公報の形態素解析を行い、公報番号を認識番号データ32として登録する。
[1.2] Operation of Patent Search Database Registration System Next, the operation of the patent search database registration system will be described. In the following description, a case where a patent publication is registered as a patent document will be described as an example. FIG. 5 shows a flowchart of the patent search database registration process. First, the patent search database registration system 10 performs morphological analysis (step S1) and registers it in the word database (step S2). Specifically, when performing morphological analysis of patent documents, the morpheme analysis unit 61 assigns a unique number to each patent document as a page ID based on a predetermined condition, and page ID data of the page table and page of the keyword table Register in ID data. Next, the morpheme analysis unit 61 performs morpheme analysis of a patent publication that is a patent document, and registers the publication number as the recognition number data 32.

続いて、形態素解析部61は、発明の名称を抽出し、当該発明の名称をタイトルデータ33として登録する。そして形態素解析部61は、当該特許公報について、当該データベース登録システムにおける登録日時を更新日時データに登録する。また、形態素解析部61は、特許公報から、公報発行国、公報種別、公開番号、公開日、国際特許分類情報、審査請求の有無、請求項の数、出願形態、全頁数、出願番号、出願日、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願日、出願人情報、発明者情報、代理人情報、テーマコード、Fタームなどを抽出し、書誌事項データ35として登録する。次に特許検索データベース登録システムは、形態素解析の結果に基づいて各単語の重要度を算出し(ステップS3)、単語データベース15のキーワードテーブル22に登録する(ステップS2)。   Subsequently, the morphological analyzer 61 extracts the name of the invention and registers the name of the invention as the title data 33. And the morphological analysis part 61 registers the registration date in the said database registration system into update date data about the said patent gazette. In addition, the morphological analysis unit 61, from the patent publication, the publication country, publication type, publication number, publication date, international patent classification information, presence or absence of examination request, number of claims, application form, total number of pages, application number, Extract application date, priority claim basic application number, priority claim basic application number, priority claim basic application date, applicant information, inventor information, agent information, theme code, F-term, etc. And registered as bibliographic data 35. Next, the patent search database registration system calculates the importance of each word based on the result of morphological analysis (step S3) and registers it in the keyword table 22 of the word database 15 (step S2).

この場合において、重要度算出部62は、キーワードテーブルの出現回数(cost)データ43およびワードテーブルのIDFデータ53に基づいて、重要度データとして格納する重要度を算出している。具体的には、登録対象の全特許文献に含まれる単語(キーワード)毎の出現回数をTFとし、登録対象の全特許文献数をNとし、登録対象の全特許文献のうち重要度算出対象の単語が含まれる特許文献数をnとした場合に、次式により重要度データとしてTFIDF値を算出する。
IDF =log(N/n)
TFIDF=TF・IDF
この場合において、算出したIDFは、IDFデータとしてワードテーブルに登録される。次に特許検索データベース登録システムは、請求項の解析の一部である請求項間の従属関係を解析し(ステップS4)、従属関係データベース17に登録する(ステップS5)。
In this case, the importance level calculation unit 62 calculates the importance level stored as the importance level data based on the appearance count (cost) data 43 of the keyword table and the IDF data 53 of the word table. Specifically, the number of appearances for each word (keyword) included in all registered patent documents is TF, the total number of registered patent documents is N, and the importance calculation target of all registered patent documents is N. When the number of patent documents including a word is n, a TFIDF value is calculated as importance data by the following equation.
IDF = log (N / n)
TFIDF = TF ・ IDF
In this case, the calculated IDF is registered in the word table as IDF data. Next, the patent search database registration system analyzes the dependency relationship between claims, which is a part of claim analysis (step S4), and registers it in the dependency relationship database 17 (step S5).

この場合において、従属関係解析部63Aは、特許請求の範囲や実用新案登録請求の範囲における「請求項○○記載の□□方法において」、「……ことを特徴とする請求項△△記載の■■装置。」などの記載に基づいて、各請求項同士の従属関係を解析し、図4に示したような従属関係を従属関係データベースに登録する。次に特許検索データベース登録システムは、請求項の解析の一部である構成要件抽出を行う(ステップS6)。この場合において、構成要件抽出部63Bは、請求項の記載から構成要件(発明特定事項)を抽出し、構成要件データベース16に登録する(ステップS7)。具体的に、以下の請求項の記載から構成要件を抽出する場合について説明する。   In this case, the dependency relationship analyzing unit 63A may include “in the □□ method described in claim XX”, “...” in the scope of claims and utility model registration claims. Based on the description such as “1. Apparatus”, the dependency relationship between the claims is analyzed, and the dependency relationship as shown in FIG. 4 is registered in the dependency relationship database. Next, the patent search database registration system extracts constituent requirements that are part of the analysis of claims (step S6). In this case, the component requirement extraction unit 63B extracts the component requirement (invention specific matter) from the description in the claims and registers it in the component requirement database 16 (step S7). Specifically, a description will be given of the case of extracting the configuration requirements from the following claims.

[請求項1] 時系列に順序づけられたn個の文書を関連づける方法であって、前記n個の文書間の類似度を計算するステップと、前記類似度から時間制約を用いて類似度行列を作成するステップと、前記類似度行列を前記文書の関連づけを示す隣接行列に変換するステップと、を有することを特徴とする文書の関連づけ方法。 [Claim 1] A method for associating n documents ordered in time series, the step of calculating a similarity between the n documents, and a similarity matrix using a time constraint from the similarity A document associating method comprising: creating a document; and converting the similarity matrix into an adjacency matrix indicating the document association.

この場合には、「ステップ」というキーワードにより以下の3つの構成要件が抽出される。
「前記n個の文書間の類似度を計算するステップ」
「前記類似度から時間制約を用いて類似度行列を作成するステップ」、
「前記類似度行列を前記文書の関連づけを示す隣接行列に変換するステップ」
そして抽出された構成要件は、構成要件データベース16に登録されることとなる。
具体的には、構成要件データベース16は、図6に示すように、ページIDデータ71、クレームIDデータ72および構成要件テキストデータ73を備えている。ページIDデータ71は、ページテーブル21のページIDデータ31と同様のデータであり、ページIDデータ71に対応するクレームIDデータ72および構成要件テキストデータ73は、このページIDデータ71に対応する特許文献に含まれる請求項の内容を表すこととなる。クレームIDデータ72は、構成要件テキストデータ73に格納されているテキストデータのクレーム番号を特定するためのデータである。
In this case, the following three components are extracted by the keyword “step”.
“Step of calculating similarity between the n documents”
“Creating a similarity matrix using time constraints from the similarity”,
“Transforming the similarity matrix into an adjacency matrix indicating the association of the document”
The extracted configuration requirement is registered in the configuration requirement database 16.
Specifically, the configuration requirement database 16 includes page ID data 71, claim ID data 72, and configuration requirement text data 73, as shown in FIG. The page ID data 71 is the same data as the page ID data 31 of the page table 21, and the claim ID data 72 and the configuration requirement text data 73 corresponding to the page ID data 71 are patent documents corresponding to the page ID data 71. Represents the contents of the claims included in. The complaint ID data 72 is data for specifying the complaint number of the text data stored in the component requirement text data 73.

構成要件テキストデータ73は、構成要件をテキストデータとして格納するためのデータである。そして、上記請求項を構成要件データベース16に登録した場合には、図7に示すようになる。すなわち、特許文献を特定するための番号=231がページIDデータ71として格納され、請求項1を表す番号=1がクレームIDデータ72として格納され、請求項1の内容に相当するテキストデータ=「前記n個の文書間の類似度を計算するステップ」が構成要件テキストデータ73として格納される。   The configuration requirement text data 73 is data for storing the configuration requirement as text data. And when the said claim is registered into the component requirement database 16, it will come to show in FIG. That is, the number for specifying the patent document = 231 is stored as the page ID data 71, the number = 1 representing claim 1 is stored as the claim ID data 72, and the text data corresponding to the content of claim 1 = “ The step of calculating the similarity between the n documents is stored as the component requirement text data 73.

次に特許検索データベース登録システム10は、参照文献を抽出する(ステップS8)。この場合において参照文献抽出部65は、特許公報(特許文献)内において、いずれかの特許文献(国内外の特許公報、論文等)を引用しているかを検出し、引用先の情報(公報番号、書名、論文タイトルなど)を参照先データベースに登録する。また、参照先の特許文献が既に登録されている場合には、当該参照先の特許文献に対応するページテーブル21の被リンク数データ36の値を更新する。   Next, the patent search database registration system 10 extracts reference documents (step S8). In this case, the reference document extraction unit 65 detects in the patent publication (patent document) whether one of the patent documents (patent publications in Japan and abroad, papers, etc.) is cited, and references information (publication number). , Book title, paper title, etc.) are registered in the reference database. In addition, when the referenced patent document is already registered, the value of the linked number data 36 of the page table 21 corresponding to the referenced patent document is updated.

具体的には、特許文献である特許公報中に「特開平△−12345号公報によると……」や「文献“Fast Algorithms for Mining Association”を参照……」などの記載を抽出し、参照文献データベース18に登録する。   Specifically, descriptions such as “according to Japanese Patent Application Laid-Open No. △ 12345 ...” and “refer to the document“ Fast Algorithms for Mining Association ”……” are extracted from patent gazettes that are patent documents. Register in the database 18.

[1.3]特許検索システムの構成
図9は特許検索システムの概要構成ブロック図である。図9において、図1の特許検索データベース登録システムと同様の部分には同一の符号を付し、その詳細な説明を省略する。特許検索システム100は、大別すると、各種データをデータベースとして蓄積するデータベース部11と、データベース部11を用いて特許検索を行う検索処理部102と、ディスプレイ部103と、入力部104と、を備えている。
[1.3] Configuration of Patent Search System FIG. 9 is a schematic configuration block diagram of the patent search system. 9, parts that are the same as those in the patent search database registration system of FIG. 1 are given the same reference numerals, and detailed descriptions thereof are omitted. The patent search system 100 roughly includes a database unit 11 that stores various data as a database, a search processing unit 102 that performs a patent search using the database unit 11, a display unit 103, and an input unit 104. ing.

ここで、特許検索システム100は、コンピュータシステムにおいて実現可能であり、検索処理部102の機能は、検索処理部102を構成する各部に対応する、マイクロプロセッサで実行可能なプログラムによって実現される。また、このようなプログラムは、半導体メモリ、CD−ROMなどの記録媒体から直接実行してもよい。また、外部記憶装置に予めプログラムインストールして実行することも可能である。さらにプログラムの実行に先立って実行する毎、あるいは、最初に一度だけ、インターネットなどのネットワークを介してインストールするようにしてもよい。検索処理部102は、入力部104を介して入力された検索元特許文献(あるいは検索元特許文献を特定するための特定情報)に基づいて後述する類似検索、クレーム検索あるいは参照先検索を行う。ディスプレイ部103は、検索結果を含む各種データを表示し、検索オペレータに対して提示する。入力部104は、キーボード、マウス、タブレット、スキャナ、リムーバブルディスク装置、通信インタフェース部などで構成され、検索元特許文献に対応するデータの入力や各種検索条件などの設定を行う。   Here, the patent search system 100 can be realized in a computer system, and the function of the search processing unit 102 is realized by a program that can be executed by a microprocessor corresponding to each unit constituting the search processing unit 102. Such a program may be directly executed from a recording medium such as a semiconductor memory or a CD-ROM. It is also possible to install and execute a program in the external storage device in advance. Further, it may be installed via a network such as the Internet every time it is executed prior to execution of the program or only once at the beginning. The search processing unit 102 performs similar search, claim search, or reference destination search, which will be described later, based on the search source patent document (or specifying information for specifying the search source patent document) input via the input unit 104. The display unit 103 displays various data including search results and presents them to the search operator. The input unit 104 includes a keyboard, a mouse, a tablet, a scanner, a removable disk device, a communication interface unit, and the like, and inputs data corresponding to a search source patent document and sets various search conditions.

[1.3.1]検索処理部の構成
次に検索処理部の構成について説明する。検索処理部102は、大別すると、構文解析・形態素解析部111と、形態素解析用辞書部112と、図表作成部113と、実検索処理部114と、標準化部115と、ストップワード処理部116と、を備えている。構文解析・形態素解析部111は、語句抽出部として機能し、形態素解析部121と、請求項解析部122と、参照文献抽出部123と、を備えている。形態素解析部121は、形態素解析用辞書64を用いて、特許文献を形態素解析して頻出する名詞、サ変名詞、その他の名詞あるいはサ変名詞に類する単語を抽出する。
[1.3.1] Configuration of Search Processing Unit Next, the configuration of the search processing unit will be described. The search processing unit 102 is roughly divided into a syntax analysis / morpheme analysis unit 111, a morpheme analysis dictionary unit 112, a chart creation unit 113, an actual search processing unit 114, a standardization unit 115, and a stop word processing unit 116. And. The syntax analysis / morpheme analysis unit 111 functions as a phrase extraction unit, and includes a morpheme analysis unit 121, a claim analysis unit 122, and a reference document extraction unit 123. The morpheme analysis unit 121 uses the morpheme analysis dictionary 64 to extract nouns, sa-changing nouns, other nouns, or words that are similar to sa-changing nouns by morphologically analyzing patent documents.

この形態素解析部121による形態素解析結果の出力に際して、標準化部115は、単語の標準化(統一化)を行う。また、ストップワード処理部116は、特許分野において特許文献の種類に関わらず頻出する単語について形態素解析結果として出力しないように処理をおこなっている。請求項解析部122は、検索元特許文献が特許公報や実用新案公報などである場合に、特許請求の範囲や実用新案登録請求の範囲などを解析し、各請求項同士の従属関係を調べる。また、特許請求の範囲や実用新案登録請求の範囲などから構成要件(例えば、発明特定事項)を抽出する。参照先抽出部123は、検索元特許文献について、当該検索元特許文献中で参照している参照文献あるいは審査などにおいて参照された参照文献を抽出する。形態素解析用辞書部112は、形態素解析部121が形態素解析を行う際に用いる形態素解析辞書を格納している。   When the morpheme analysis result is output by the morpheme analysis unit 121, the standardization unit 115 standardizes (unifies) words. In addition, the stop word processing unit 116 performs processing so that words that appear frequently regardless of the type of patent document in the patent field are not output as morphological analysis results. When the search source patent document is a patent gazette, a utility model gazette, or the like, the claim analysis unit 122 analyzes a claim range, a utility model registration request range, and the like, and examines a dependency relationship between the claims. Further, constituent requirements (for example, invention-specific matters) are extracted from the scope of claims and the scope of claims for utility model registration. The reference destination extracting unit 123 extracts a reference document referred to in the search source patent document or a reference document referred to in examination or the like for the search source patent document. The morpheme analysis dictionary unit 112 stores a morpheme analysis dictionary used when the morpheme analysis unit 121 performs morpheme analysis.

図表作成部113は、検索結果を図表化して検索オペレータに対して提示する。実検索処理部114は、検索部として機能し、大別すると、類似検索部131と、クレーム検索部132と、参照先検索部133と、を備えている。類似検索部131は、検索元特許文献と類似の特許文献を検索し、類似関係にある特許文献を抽出し、その類似関係を把握する。クレーム検索部132は、検索元特許文献のクレーム(請求項)の従属関係を把握する。参照文献検索部133は、検索元特許文献において参照している特許文献あるいは審査などにおいて参照された特許文献を抽出する。   The chart creation unit 113 charts the search results and presents them to the search operator. The actual search processing unit 114 functions as a search unit, and roughly includes a similarity search unit 131, a claim search unit 132, and a reference destination search unit 133. The similarity search unit 131 searches for patent documents similar to the search source patent document, extracts patent documents having a similar relationship, and grasps the similar relationship. The claim search unit 132 grasps the dependency relationship of the claims (claims) of the search source patent document. The reference document search unit 133 extracts a patent document referred to in the search source patent document or a patent document referred to in examination.

[1.4]特許検索システムの動作
次に特許検索システムの動作を説明する。以下の説明においては、検索元特許文献として特許公報を用いる場合を主として説明する。図10に特許検索処理のフローチャートを示す。この場合において、特許検索処理に先立って、オペレータにより類似の特許文献を検索する類似検索処理を行うか、あるいは、当該特許文献の請求項相互間の関係を調べるクレーム検索処理を行うかのいずれかが指定されているものとし、類似検索処理を行う場合には類似検索フラグがセットされ、クレーム検索処理を行う場合には請求項フラグがセットされているものとする。まず特許検索システム100は、検索元特許文献がデータベース部11に未登録否かを判別する(ステップS11)。
[1.4] Operation of Patent Search System Next, the operation of the patent search system will be described. In the following description, a case where a patent gazette is used as a search source patent document will be mainly described. FIG. 10 shows a flowchart of the patent search process. In this case, prior to the patent search process, either an operator performs a similar search process for searching for similar patent documents or a claims search process for examining the relationship between claims of the patent documents. It is assumed that the similarity search flag is set when the similar search process is performed, and the claim flag is set when the claim search process is performed. First, the patent search system 100 determines whether or not the search source patent document is unregistered in the database unit 11 (step S11).

ステップS11の判別において、検索元特許文献が既にデータベースに登録されている場合には(ステップS11;No)、類似検索フラグあるいは請求項フラグのいずれがセットされているかを判別する(ステップS12)。ステップS12の判別において、類似検索フラグがセットされている場合には(ステップS12;類似フラグセット)、実検索処理部114の参照先検索部133は、参照文献データベース18を検索して検索元特許文献が参照している特許文献を抽出する(ステップS13)。次に実検索処理部114の類似検索部131は、単語データベース15を参照して検索元特許文献に含まれる単語を読み出し、各単語毎に類似検索を行い(ステップS14)、検索元特許文献と単語データベース15に登録されている他の特許文献との間の距離計算および請求項の構成要件についてパターンマッチングを行う。   If the search source patent document is already registered in the database in step S11 (step S11; No), it is determined which of the similar search flag and the claim flag is set (step S12). If it is determined in step S12 that the similar search flag is set (step S12; similar flag set), the reference destination search unit 133 of the actual search processing unit 114 searches the reference document database 18 to search the source patent. The patent document referred to by the document is extracted (step S13). Next, the similarity search unit 131 of the actual search processing unit 114 reads the words included in the search source patent document with reference to the word database 15 and performs a similar search for each word (step S14). The distance matching with other patent documents registered in the word database 15 and pattern matching are performed for the constituent elements of the claims.

より具体的には、検索元特許文献が日本国内の特許公報である場合には、例えば、発明の詳細な説明および要約に含まれる単語のそれぞれをベクトル表現し、単語データベースに登録されている他の特許文献に含まれる単語に対応するベクトルとの間で距離計算処理を行う。また、検索元特許文献において特許請求の範囲を構成する請求項の構成要件と、構成要件データベースに登録されている構成要件との間のパターンマッチング処理を行い、類似度を求める。この距離計算処理およびパターンマッチング処理により得られる類似の度合いに基づいて所定の類似範囲内にある特許文献を特定する。また、同様の距離計算処理およびパターンマッチング処理を検索元特許文献が参照している特許文献についても行う。そして、類似検索処理が終了すると、図表作成部113は、類似検索結果を図表化するための処理を行う(ステップS15)。図表作成部113において、類似検索結果を図表化するための処理が終了するとディスプレイ部103において類似検索結果に対応する図表を表示する(ステップS16)。   More specifically, when the search source patent document is a Japanese patent gazette, for example, each of the words included in the detailed description and summary of the invention is represented by a vector and registered in the word database. A distance calculation process is performed with a vector corresponding to a word included in the patent document. In addition, pattern matching processing is performed between the constituent elements of the claims constituting the scope of claims in the search source patent document and the constituent elements registered in the constituent requirement database to obtain the similarity. Based on the degree of similarity obtained by the distance calculation process and the pattern matching process, patent documents in a predetermined similarity range are specified. The same distance calculation process and pattern matching process are also performed for the patent document referenced by the search source patent document. When the similarity search process is completed, the chart creation unit 113 performs a process for charting the similarity search result (step S15). When the chart creation unit 113 finishes the process for charting the similar search results, the display unit 103 displays a chart corresponding to the similar search results (step S16).

図11に類似検索結果に対応する図表の一例を示す。なお、以下の説明において、特許公報という表現は、日本国における特許掲載公報ばかりでなく、公開特許公報その他の公報も含むものである。図11において、特許公報Xが検索元特許文献である。特許公報Xに対して直接あるいは間接に結ばれている特許文献は、直接あるいは間接的に参照されている特許文献である。またいずれの特許文献にも結ばれていない特許文献は、類似文献であるが、直接的な参照関係にはない特許文献である。この場合には、特許文献間の2次元的距離が近いほど類似度が高いようになっている。さらに特許公報Xの表示位置に対して左側に表示され、かつ、特許公報Xに直接結ばれている特許文献(米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文R)は、特許公報Xが直接参照している特許文献である。すなわち、米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文Rは、検索元特許文献である特許公報X中において直接的に記述され、参照されている特許文献である。   FIG. 11 shows an example of a chart corresponding to the similar search result. In the following description, the expression “patent gazette” includes not only a patent publication gazette in Japan but also a published patent gazette and other gazettes. In FIG. 11, patent publication X is a search source patent document. A patent document that is directly or indirectly connected to the patent publication X is a patent document that is directly or indirectly referred to. A patent document that is not tied to any patent document is a similar document, but is not a direct reference relationship. In this case, the closer the two-dimensional distance between the patent documents is, the higher the similarity is. Further, a patent document displayed on the left side of the display position of the patent publication X and directly connected to the patent publication X (US Patent Publication S, Patent Publication C, Patent Publication B, Patent Publication D, University Article R) Is a patent document directly referred to by Patent Publication X. That is, US Patent Publication S, Patent Publication C, Patent Publication B, Patent Publication D, and University Paper R are patent documents that are directly described and referenced in Patent Publication X that is a search source patent document.

さらにこれらの米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文Rと特許公報Xとの間の2次元的距離が近いほど類似度が高いようになっている。また、各特許文献を表す枠内に表示されている数字は、当該特許文献を参照している特許文献数である。この図の例の場合には、特許公報Aおよび特許公報Eは、参照件数が多いので、基本特許の可能性が高いということが判断できる。従って、特許公報Xが特許公開公報であるような場合には、特許出願人は、特許公報Aおよび特許公報Eに記載の発明をはじめに参照すべきと考えられることとなる。さらに特許公報Xに類似している特許公報N、Q、Pも存在しているので、これらの特許公報に記載の発明についても注意が必要であることがわかる。この場合において、ディスプレイ部103の表示画面上において、いずれかの特許文献を選択し、検索種別を指定すれば、同様に当該選択した特許文献を検索元特許文献とする検索処理がなされる。このように構成することにより、階層的に検索を継続することができ、所望の特許文献を効率的に検索することができる。   Further, the closer the two-dimensional distance between these US patent publication S, patent publication C, patent publication B, patent publication D, university paper R and patent publication X, the higher the similarity. Moreover, the number displayed in the frame representing each patent document is the number of patent documents referring to the patent document. In the case of the example in this figure, since Patent Gazette A and Patent Gazette E have a large number of references, it can be determined that the possibility of a basic patent is high. Therefore, when the patent publication X is a patent publication publication, it is considered that the patent applicant should refer to the inventions described in the patent publications A and E first. Further, since there are also patent publications N, Q, and P similar to the patent publication X, it can be understood that attention is necessary for the inventions described in these patent publications. In this case, if any patent document is selected on the display screen of the display unit 103 and a search type is designated, similarly, a search process using the selected patent document as a search source patent document is performed. With this configuration, the search can be continued hierarchically, and a desired patent document can be searched efficiently.

また、複数の特許文献を線分で結ぶ場合に線分の色分けを行って系統分けをしたり、出願人毎や、発明者毎、代理人(弁理士など)毎に特許文献を表す枠内の色を変更したり、ブリンク(点滅)表示させることにより、より特許文献相互間の関係を把握しやすくすることが可能となる。一方、 ステップS12の判別において、請求項フラグがセットされている場合には(ステップS12;請求項フラグセット)、実検索処理部114のクレーム検索部132は、構成要件データベースおよび従属関係データベースを検索して請求項相互の従属関係を抽出する(ステップS17)。そして、クレーム検索処理が終了すると、図表作成部113は、クレーム検索結果を図表化するための処理を行う(ステップS15)。図表作成部113において、クレーム検索結果を図表化するための処理が終了するとディスプレイ部103においてクレーム検索結果に対応する図表を表示する(ステップS16)。   In addition, when multiple patent documents are connected by line segments, line segments are color-coded and systematized, or within the frame representing patent documents for each applicant, for each inventor, for each agent (such as patent attorney) It is possible to make it easier to grasp the relationship between patent documents by changing the color of the image or by blinking (blinking). On the other hand, if it is determined in step S12 that the claim flag is set (step S12; claim flag set), the claim search unit 132 of the actual search processing unit 114 searches the configuration requirement database and the dependency relationship database. Then, the dependency relation between claims is extracted (step S17). When the claim search process ends, the chart creation unit 113 performs a process for charting the claim search result (step S15). When the chart creation unit 113 finishes the process for charting the complaint search results, the display unit 103 displays a chart corresponding to the complaint search results (step S16).

図12にクレーム検索結果に対応する図表の一例を示す。この場合において、各請求項には、以下のような記載があるものとする。
請求項1: 「……を備えたことを特徴とする知識抽出方法」
請求項2: 「請求項1記載の知識抽出方法において、……」
請求項3: 「請求項2記載の知識抽出方法において、……」
請求項4: 「……を備えたことを特徴とする知識抽出装置」
請求項5: 「請求項4記載の知識抽出装置において、……」
請求項6: 「請求項4記載の知識抽出装置において、……」
請求項7: 「請求項4記載の知識抽出装置において、……」
請求項8: 「請求項4記載の知識抽出装置において、……」
請求項9: 「……を備えたことを特徴とする知識抽出プログラム」
FIG. 12 shows an example of a chart corresponding to the complaint search result. In this case, each claim has the following description.
Claim 1: "Knowledge extraction method characterized by comprising ..."
Claim 2: "In the knowledge extracting method according to claim 1, ..."
Claim 3: "In the knowledge extraction method according to claim 2, ..."
Claim 4: "Knowledge extraction device characterized by comprising ..."
Claim 5: “In the knowledge extracting device according to claim 4, ...”
Claim 6: "In the knowledge extracting device according to claim 4, ..."
Claim 7: “In the knowledge extracting device according to claim 4, ...”
Claim 8: "In the knowledge extracting device according to claim 4, ..."
Claim 9: "Knowledge extraction program characterized by comprising ..."

クレーム検索部132は、各請求項の記載に基づいて、請求項1、請求項4および請求項9は独立請求項であることを検出する。すなわち、当該請求項の記述中に他の請求項の記述を含まない請求項あるいは発明の名称が異なる他の請求項の記述のみを含む請求項である場合に独立請求項であるとする。また、クレーム検索部132は、当該請求項より前に記述されている請求項の発明の名称と発明の名称が同一であり、かつ、他の請求項の記載(例えば、「請求項○○」)を含む請求項は、当該他の請求項に従属する従属請求項であると判断する。すなわち、請求項2は請求項1の従属請求項、請求項3は請求項2の従属項、請求項5〜請求項8はそれぞれ請求項4の従属項であることを検出する。この結果、図12に示すように、請求項1に対応する枠と請求項2に対応する枠は線分により接続され、さらに請求項2に対応する枠と請求項3に対応する枠は線分により接続されて表示される。また、請求項4に対応する枠には、請求項5〜請求項8に対応する枠が並列的に線分により接続されて表示される。さらに請求項9に対応する枠は独立して表示される。このような表示がなされることにより、検索者は、直感的に当該請求項群の中で基本的な内容を特定している独立請求項を把握できるとともに、請求項間の従属関係を容易に把握できる。   The claim search unit 132 detects that claims 1, 4 and 9 are independent claims based on the description of each claim. In other words, an independent claim is defined as a claim that does not include a description of another claim in the description of the claim or a claim that includes only a description of another claim with a different title. Further, the claim search unit 132 has the same name as the invention of the claim described before the claim and the description of the other claim (for example, “claim XX”). ) Are determined to be dependent claims dependent on the other claims. That is, it is detected that claim 2 is a dependent claim of claim 1, claim 3 is a dependent claim of claim 2, and claims 5 to 8 are dependent claims of claim 4, respectively. As a result, as shown in FIG. 12, the frame corresponding to claim 1 and the frame corresponding to claim 2 are connected by a line segment, and the frame corresponding to claim 2 and the frame corresponding to claim 3 are lines. Connected and displayed by minutes. The frames corresponding to claim 4 are displayed with the frames corresponding to claims 5 to 8 connected in parallel by line segments. Further, the frame corresponding to claim 9 is displayed independently. With such a display, the searcher can intuitively grasp the independent claims specifying the basic contents in the claim group and easily determine the dependency between the claims. I can grasp.

[1.5]実施形態の効果
以上の説明のように、本実施形態によれば、特許検索を行うに際し、オペレータがキーワードを入力することなく、「漏れの少ない」調査を行い、かつ、不必要な情報が含まれることを抑制することができる。また、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することができる。さらにまた、同一の特許文献中における請求項の従属関係を明確にし、オペレータに対して視覚的に容易に把握できる状態で提示できる。
[1.5] Effects of the Embodiment As described above, according to the present embodiment, when performing a patent search, an operator performs a “leak leak” investigation without inputting a keyword, Inclusion of necessary information can be suppressed. In addition, it is possible to clearly present a reference and a referenced relationship between a plurality of patent documents, and to extract patent documents having approximate technical contents even without a reference relationship. Furthermore, the dependency relationship of the claims in the same patent document can be clarified and presented to the operator in a state that can be easily grasped visually.

[2]実施形態の変形例
[2.1]第1変形例
以上の説明においては、データベース部11を登録処理部12(あるいは検索処理部102)と一体に構成していたが、両者をネットワークを介して分散処理システムとして構成することも可能である。この場合において、さらにデータベース部11を構成する各データベース15、16、17,18および形態素解析用辞書64をネットワークを介して別のデータベースサーバに格納するように構成し、複数の登録処理部12(あるいは検索処理部102)として機能するコンピュータシステムから利用可能な構成とすることも可能である。
[2] Modification of Embodiment [2.1] First Modification In the above description, the database unit 11 is configured integrally with the registration processing unit 12 (or the search processing unit 102). It is also possible to configure as a distributed processing system via In this case, each database 15, 16, 17, 18 and morphological analysis dictionary 64 constituting the database unit 11 is further stored in another database server via the network, and a plurality of registration processing units 12 ( Alternatively, a configuration that can be used from a computer system that functions as the search processing unit 102) is also possible.

[2.2]第2変形例
以上の説明においては、標準化部66(あるいは標準化部115)を必須の構成として説明したが、必ずしも標準化部23を設けなくてもデータベースの容量は多少増加するというデメリットはあるが、ほぼ同様な効果を得ることが可能である。
[2.2] Second Modification In the above description, the standardization unit 66 (or the standardization unit 115) has been described as an indispensable configuration. However, even if the standardization unit 23 is not necessarily provided, the capacity of the database slightly increases. Although there are disadvantages, it is possible to obtain almost the same effect.

特許検索データベース登録システムの概要構成ブロック図である。It is a general | schematic block diagram of a patent search database registration system. 単語データベースの基本構成図である。It is a basic lineblock diagram of a word database. 従属関係データベースのデータフォーマットの説明図である。It is explanatory drawing of the data format of a dependency relationship database. 従属関係データベースのデータ登録例の説明図である。It is explanatory drawing of the data registration example of a dependency relationship database. 特許検索データベース登録処理のフローチャートである。It is a flowchart of a patent search database registration process. 構成要件データベースのデータフォーマットの説明図である。It is explanatory drawing of the data format of a component requirement database. 構成要件データベースのデータ登録例の説明図である。It is explanatory drawing of the data registration example of a structure requirement database. 参照文献データベースのデータフォーマットの説明図である。It is explanatory drawing of the data format of a reference literature database. 特許検索システムの概要構成ブロック図である。It is a general | schematic block diagram of a patent search system. 特許検索処理のフローチャートである。It is a flowchart of a patent search process. 類似検索結果に対応する図表の一例の説明図である。It is explanatory drawing of an example of the chart corresponding to a similar search result. クレーム検索結果に対応する図表の一例の説明図である。It is explanatory drawing of an example of the chart corresponding to a claim search result.

符号の説明Explanation of symbols

10…特許検索データベース登録システム、11…データベース部、12…登録処理部、15…単語データベース、16…構成要件(発明特定事項)データベース、17…従属関係データベース、18…参照文献データベース、21…ページテーブル、22…キーワードテーブル、31…ページIDデータ、32…認識番号データ、33…タイトルデータ、34…更新日時データ、35…書誌事項データ、36…被リンク数データ、100…特許検索システム、102…検索処理部、103…ディスプレイ部、104…入力部、111…構文解析・形態素解析部、112…形態素解析用辞書部、113…図表作成部、114…実検索処理部、115…標準化部、116…ストップワード処理部、121…形態素解析部、122…請求項解析部、123…参照文献抽出部。 DESCRIPTION OF SYMBOLS 10 ... Patent search database registration system, 11 ... Database part, 12 ... Registration process part, 15 ... Word database, 16 ... Configuration requirement (invention specific matter) database, 17 ... Dependency relation database, 18 ... Reference literature database, 21 ... Page Table: 22 ... Keyword table, 31 ... Page ID data, 32 ... Recognition number data, 33 ... Title data, 34 ... Update date / time data, 35 ... Bibliographic data, 36 ... Number of linked data, 100 ... Patent search system, 102 ... search processing unit, 103 ... display unit, 104 ... input unit, 111 ... syntax analysis / morpheme analysis unit, 112 ... dictionary unit for morpheme analysis, 113 ... chart creation unit, 114 ... actual search processing unit, 115 ... standardization unit, 116: Stop word processing unit, 121 ... Morphological analysis unit, 122 ... Claim analysis unit 123 ... reference extraction unit.

Claims (24)

検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部と、
検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出部と、
前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索部と、を備えた
ことを特徴とする特許検索装置。
A patent search database unit that stores words or compound words included in a patent document to be searched in advance in association with the patent document as a search term phrase;
Analyzing a search source patent document, and extracting a word or compound word included in the condition setting patent document as a search condition word; and
A search unit that compares the search term phrase and the search condition phrase, and searches for a patent document that is highly similar to the search source patent document as a patent document that is highly relevant to the search source patent document. Patent search device characterized by the above.
請求項1記載の特許検索装置において、
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出部を備えた
ことを特徴とする特許検索装置。
The patent search device according to claim 1,
A patent search apparatus comprising: a reference destination extraction unit that extracts a reference relationship between the search source patent document and the highly relevant patent document based on description in each patent document.
請求項2記載の特許検索装置において、
前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備えた
ことを特徴とする特許検索装置。
The patent search device according to claim 2,
The patent search database unit includes a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship. Search device.
請求項3記載の特許検索装置において、
前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成部と、前記図表作成部により作成された図表を提示するディスプレイ部と、を備えた
ことを特徴とする特許検索装置。
The patent search device according to claim 3,
A chart created by the chart creating section for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information in the referenced database section, and the chart created by the chart creating section And a display section for presenting a patent search device.
請求項1ないし請求項4のいずれかに記載の特許検索装置において、
前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、
抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度算出部と、
抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録部と、を備えた
ことを特徴とする特許検索装置。
In the patent search device according to any one of claims 1 to 4,
A morphological analysis unit that performs morphological analysis of the search source patent document and extracts the word or the compound word; and
An importance calculating unit for calculating the importance of the extracted word or the compound word in the search source patent document;
A patent search apparatus comprising: a registration unit that registers the extracted word or the compound word as the search term phrase in the patent search database unit in association with the importance.
請求項1ないし請求項5のいずれかに記載の特許検索装置において、
前記検索部は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索する
ことを特徴とする特許検索装置。
In the patent search device according to any one of claims 1 to 5,
The patent search device, wherein the search unit searches for a highly relevant patent document based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.
請求項1ないし請求項6記載の特許検索装置において、
前記特許文献は、複数の「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析部を備えた
ことを特徴とする特許検索装置。
The patent search device according to any one of claims 1 to 6,
The patent document includes a description of a plurality of “claims”, and the search unit includes a claim analysis unit that extracts a subordinate relationship between the plurality of “claims” based on the search term phrase. Patent search device characterized by that.
請求項7記載の特許検索装置において、
前記請求項解析部は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出する
ことを特徴とする特許検索装置。
The patent search device according to claim 7, wherein
The claim analysis unit is configured based on the description of other “claims” included in the “claim” of the search target and the names of the inventions of the “claim” and other “claims” of the search target. A patent search device characterized by extracting dependency relationships.
請求項8記載の特許検索装置において、
前記請求項解析部は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別する
ことを特徴とする特許検索装置。
The patent search device according to claim 8,
The claim analysis unit includes the description of the other “claim” in the “claim” of the search target, and the name of the invention of the “claim” of the search target and the other “claim”. When the names of the inventions are the same, it is determined that the dependency exists.
請求項1ないし請求項6のいずれかに記載の特許検索装置において、
前記特許文献は、「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析部を備えた
ことを特徴とする特許検索装置。
The patent search device according to any one of claims 1 to 6,
The patent document includes a description of a “claim”, and the search unit includes a claim analysis unit that extracts a configuration requirement included in the description of the “claim” based on the search term phrase. Patent search device featuring.
検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有する特許検索装置の制御方法において、
検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出過程と、
前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索過程と、を備えた
ことを特徴とする特許検索装置の制御方法。
In a control method of a patent search apparatus having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance,
Analyzing the search source patent document and extracting a word or compound word included in the condition setting patent document as a search condition phrase;
A search process for comparing the search term phrase and the search condition phrase and searching for a patent document having a high similarity to the search source patent document as a patent document having high relevance to the search source patent document. A method of controlling a patent search apparatus characterized by the above.
請求項11記載の特許検索装置の制御方法において、
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出過程を備えた
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to claim 11,
A method for controlling a patent search apparatus, comprising: a reference destination extraction process for extracting a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document .
請求項12記載の特許検索装置の制御方法において、
前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備え、
前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成過程と、
前記図表作成部により作成された図表を提示するディスプレイ過程と、を備えた
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to claim 12,
The patent search database unit includes a reference database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship,
A chart creation process for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information in the reference destination database unit;
And a display process for presenting the chart created by the chart creating section.
請求項11ないし請求項13のいずれかに記載の特許検索装置の制御方法において、
前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、
抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度計算過程と、
抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録過程と、を備えた
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to any one of claims 11 to 13,
A morphological analysis process of extracting the word or the compound word by performing morphological analysis of the search source patent document;
Importance calculation process for calculating the importance of the extracted word or the compound word in the search source patent document,
And a registration step of registering the extracted word or the compound word as the search term phrase in the patent search database unit in association with the degree of importance.
請求項11ないし請求項14のいずれかに記載の特許検索装置の制御方法において、
前記検索過程は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索する
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to any one of claims 11 to 14,
The method of controlling a patent search apparatus, wherein the search process searches for a highly relevant patent document based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.
請求項11ないし請求項15記載の特許検索装置の制御方法において、
前記特許文献は、複数の「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析過程を備えた
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to any one of claims 11 to 15,
The patent document includes a description of a plurality of “claims”, and the search process includes a claim analysis process for extracting a subordinate relationship between the plurality of “claims” based on the search term phrase. A method for controlling a patent search apparatus, characterized in that:
請求項16記載の特許検索装置の制御方法において、
前記請求項解析過程は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出する
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to claim 16,
The claim analysis process is based on the description of other “claims” included in the “claim” of the search object and the name of the invention of the “claim” of the search object and the other “claim”. A method for controlling a patent search apparatus, characterized in that a dependency relationship is extracted.
請求項17記載の特許検索装置の制御方法において、
前記請求項解析過程は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別する
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to claim 17,
In the claim analysis process, there is a description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions are the same, it is determined that the dependency exists.
請求項11ないし請求項15のいずれかに記載の特許検索装置の制御方法において、
前記特許文献は、「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析過程を備えた
ことを特徴とする特許検索装置の制御方法。
In the control method of the patent search device according to any one of claims 11 to 15,
The patent document includes a description of “claim”, and the search process includes a claim analysis process for extracting a constituent element included in the description of “claim” based on the search term phrase. A method for controlling a patent search apparatus.
検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有するコンピュータを特許検索装置として機能させる制御プログラムであって、
検索元特許文献を解析させ、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出させ、前記検索用語句および前記検索条件語句を比較させ、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索させる
ことを特徴とする制御プログラム。
A control program that causes a computer having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance as a patent search device,
Analyzing the search source patent document, extracting a word or compound word contained in the condition setting patent document as a search condition phrase, comparing the search term phrase and the search condition phrase, and for the search source patent document A control program for causing a patent document having high similarity to be searched as a patent document having high relevance to the search source patent document.
請求項20記載の制御プログラムにおいて、
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出させる
ことを特徴とする制御プログラム。
The control program according to claim 20,
A control program that extracts a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document.
請求項20または請求項21記載の制御プログラムにおいて、
前記特許文献は、複数の「請求項」の記載を含み、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出させる
ことを特徴とする制御プログラム。
The control program according to claim 20 or claim 21,
The patent document includes a description of a plurality of “claims” and causes a dependency relationship between the plurality of “claims” to be extracted based on the search term phrase.
請求項20または請求項21記載の制御プログラムにおいて、
前記特許文献は、「請求項」の記載を含み、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出させる
ことを特徴とする制御プログラム。
The control program according to claim 20 or claim 21,
The patent document includes a description of “claim”, and extracts a constituent requirement included in the description of “claim” based on the search term phrase.
請求項20ないし請求項23のいずれかに記載の制御プログラムを記録したことを特徴とする記録媒体。   24. A recording medium on which the control program according to any one of claims 20 to 23 is recorded.
JP2007133313A 2007-05-18 2007-05-18 Patent retrieval device, and control method and control program for patent retrieval device Withdrawn JP2007220144A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007133313A JP2007220144A (en) 2007-05-18 2007-05-18 Patent retrieval device, and control method and control program for patent retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007133313A JP2007220144A (en) 2007-05-18 2007-05-18 Patent retrieval device, and control method and control program for patent retrieval device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001355274A Division JP2003157262A (en) 2001-11-20 2001-11-20 Patent retrieval device, control method therefor, control program and recording medium

Publications (1)

Publication Number Publication Date
JP2007220144A true JP2007220144A (en) 2007-08-30

Family

ID=38497282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007133313A Withdrawn JP2007220144A (en) 2007-05-18 2007-05-18 Patent retrieval device, and control method and control program for patent retrieval device

Country Status (1)

Country Link
JP (1) JP2007220144A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182041A (en) * 2009-02-04 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> Concept retrieval method and device and program and computer-readable recording medium
KR20190097750A (en) * 2018-02-13 2019-08-21 국민대학교산학협력단 Semantic-based similar patent search apparatus and method, storage media storing the same
CN114580556A (en) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 Method and device for pre-evaluating patent literature
CN114600098A (en) * 2019-10-30 2022-06-07 株式会社资生堂 Information processing system, method, program, and data structure

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182041A (en) * 2009-02-04 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> Concept retrieval method and device and program and computer-readable recording medium
KR20190097750A (en) * 2018-02-13 2019-08-21 국민대학교산학협력단 Semantic-based similar patent search apparatus and method, storage media storing the same
KR102051825B1 (en) 2018-02-13 2020-01-08 국민대학교산학협력단 Semantic-based similar patent search apparatus and method, storage media storing the same
CN114600098A (en) * 2019-10-30 2022-06-07 株式会社资生堂 Information processing system, method, program, and data structure
CN114580556A (en) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 Method and device for pre-evaluating patent literature

Similar Documents

Publication Publication Date Title
US11048882B2 (en) Automatic semantic rating and abstraction of literature
US10936806B2 (en) Document processing apparatus, method, and program
US20080016065A1 (en) Document search system, document search processing method, and document search processing program
US20110320459A1 (en) Term identification method and apparatus
US11023654B2 (en) Analyzing document content and generating an appendix
US20120179709A1 (en) Apparatus, method and program product for searching document
JP2010262577A (en) System, method and program for creation of extraction rule
Gupta et al. Biomedical text summarization: a graph-based ranking approach
US10896227B2 (en) Data processing system, data processing method, and data structure
JP2007220144A (en) Patent retrieval device, and control method and control program for patent retrieval device
JP2012113459A (en) Example translation system, example translation method and example translation program
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2003157262A (en) Patent retrieval device, control method therefor, control program and recording medium
JP2007257149A (en) Document processing apparatus and method
Nitu et al. Reconstructing scanned documents for full-text indexing to empower digital library services
US20090299997A1 (en) Grouping work support processing method and apparatus
JP2004133510A (en) Technical literature retrieval system
JP2004070376A (en) Document display device and method therefor
WO2021049485A1 (en) Legal analyzer and legal analysis method
JP2019003237A (en) Presentation method, presentation apparatus, and presentation program
Chondrogiannis et al. Meaning inference of abbreviations appearing in clinical studies
JP2006146705A (en) Structured document ambiguity collation device and program therefor
Bernardes et al. Exploring NPL: Generating Automatic Control Keywords
Bastianello et al. Referency: Harmonizing Citations in Transdisciplinary Scholarly Literature

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070612

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071218