JP2007220144A - Patent retrieval device, and control method and control program for patent retrieval device - Google Patents
Patent retrieval device, and control method and control program for patent retrieval device Download PDFInfo
- Publication number
- JP2007220144A JP2007220144A JP2007133313A JP2007133313A JP2007220144A JP 2007220144 A JP2007220144 A JP 2007220144A JP 2007133313 A JP2007133313 A JP 2007133313A JP 2007133313 A JP2007133313 A JP 2007133313A JP 2007220144 A JP2007220144 A JP 2007220144A
- Authority
- JP
- Japan
- Prior art keywords
- search
- patent document
- word
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 70
- 239000000284 extract Substances 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 71
- 150000001875 compounds Chemical class 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 18
- 239000000470 constituent Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 34
- 239000002131 composite material Substances 0.000 abstract 1
- 230000001419 dependent effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004397 blinking Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体に係り、特に複数の特許文献相互間の関係あるいは特許文献における請求項相互間の関係を検索者に対して明確に提示するための技術に関する。 The present invention relates to a patent search device, a control method for a patent search device, a control program, and a recording medium. In particular, a relationship between a plurality of patent documents or a relationship between claims in a patent document is clarified to a searcher. It relates to the technology to present.
近年の技術の発達に伴い、特許出願の件数は膨大なものとなってきている。これに伴って特許文献の量も膨大となってきており、重複研究を防止し、権利侵害のチェック、出願前の調査、他社の技術開発動向の把握、研究開発の方向性の決定等を行う場合の特許文献調査も容易ではないのが実状である。このような特許文献調査における負荷を軽減するためのものとして、従来より、特許検索システムが知られている。従来の特許検索システムにおいては、検索対象の特許文献に含まれると思われるキーワードを一または複数入力し、当該キーワードあるいはキーワード群を含む特許文献をデータベースを参照して抽出し、抽出した特許文献のリストを生成し、表示あるいは出力するように構成されていた。 With the recent development of technology, the number of patent applications has become enormous. Along with this, the amount of patent literature has become enormous, preventing duplicate research, checking for infringement of rights, conducting pre-application investigations, grasping technological development trends of other companies, determining the direction of research and development, etc. In fact, it is not easy to search for patent documents. Conventionally, a patent search system is known as a means for reducing the load in such a patent document search. In the conventional patent search system, one or a plurality of keywords that are considered to be included in the patent documents to be searched are input, the patent documents including the keywords or keyword groups are extracted with reference to the database, and the extracted patent documents It was configured to generate and display or output a list.
上記従来の特許検索システムにおいては、「漏れの少ない」調査を行うことができるものの、キーワードの選択を誤れば、逆に不必要な情報も膨大に含まれてしまうと言う問題点があった。そしてこのような場合には調査そのものの時間も膨大にかかると言う問題点があった。また、不必要にキーワードを増加して絞り込みを行ってしまうと関連する特許文献も抜け落ちてしまうという問題点があった。また、複数の特許文献が抽出される場合であっても、各特許文献相互の関係は、文献内容を詳細に読み取らなければ分からないと言う問題点があった。すなわち、複数の関連する特許文献が抽出されてもどの特許文献がより基本特許に近いものであるかは、当該複数の文献に記載されている情報をある程度参照する必要があった。そこで、本発明の目的は、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することが可能な特許検索装置、特許検索装置の制御方法、制御プログラムおよび記録媒体を提供することにある。 In the above conventional patent search system, although a “leakage” investigation can be performed, there is a problem that if a keyword is selected incorrectly, a large amount of unnecessary information is included. In such a case, there was a problem that the time required for the investigation itself was enormous. In addition, there is a problem in that related patent documents are lost if keywords are unnecessarily increased and narrowed down. Further, even when a plurality of patent documents are extracted, there is a problem that the relationship between each patent document cannot be understood unless the contents of the documents are read in detail. That is, even if a plurality of related patent documents are extracted, it is necessary to refer to some information described in the plurality of documents to determine which patent document is closer to the basic patent. Accordingly, an object of the present invention is to provide a patent search device capable of clearly showing a reference between a plurality of patent documents, a referenced relationship, and extracting a patent document having an approximate technical content even without a reference relationship, It is an object to provide a control method, a control program, and a recording medium for a patent search apparatus.
上記課題を解決するため、特許検索装置は、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部と、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出部と、前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索部と、を備えたことを特徴としている。上記構成によれば、特許検索装置の語句抽出部は、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する。検索部は、特許検索データベース部を参照して前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する。 In order to solve the above-mentioned problem, the patent search device includes a patent search database unit that stores a word or a compound word included in a patent document to be searched in advance as a search term phrase in association with the patent document, and a search source patent document. Analyzes and compares the search term phrase and the search condition phrase with a phrase extraction unit that extracts a word or compound word included in the condition setting patent document as a search condition phrase, and is similar to the search source patent document And a search unit that searches a highly patentable patent document as a patent document highly relevant to the search source patent document. According to the above configuration, the phrase extraction unit of the patent search device analyzes the search source patent document and extracts a word or compound word included in the condition setting patent document as a search condition word. The search unit refers to a patent search database unit to compare the search term phrase and the search condition phrase, and a patent document having a high similarity to the search source patent document is highly relevant to the search source patent document Search as patent literature.
この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出部を備えるようにしてもよい。また、前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備えるようにしてもよい。さらに前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成部と、前記図表作成部により作成された図表を提示するディスプレイ部と、を備えるようにしてもよい。 In this case, a reference destination extracting unit that extracts a reference relationship between the search source patent document and the highly relevant patent document may be provided based on the description in each patent document. Further, the patent search database unit may include a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship. . Furthermore, based on the information in the reference destination database unit, a chart creation unit that creates a chart representing a reference relationship between the search source patent document and the highly relevant patent document, and the chart creation unit A display unit that presents a chart.
さらにまた、前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度算出部と、抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録部と、を備えるようにしてもよい。また、前記検索部は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索するようにしてもよい。 Furthermore, a morpheme analysis unit that performs morphological analysis of the search source patent document and extracts the word or the compound word, and calculates the importance of the extracted word or compound word in the search source patent document. You may make it provide the degree calculation part and the registration part which matches the extracted said word or the said compound word with the said importance, and registers it as the said search term phrase in the said patent search database part. The search unit may search for highly relevant patent documents based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.
さらに前記特許文献は、複数の「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析部を備えるようにしてもよい。さらにまた、前記請求項解析部は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出するようにしてもよい。また、前記請求項解析部は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別するようにしてもよい。さらに前記特許文献は、「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析部を備えるようにしてもよい。 The patent document further includes a description of a plurality of “claims”, and the search unit includes a claim analysis unit that extracts subordinate relationships between the plurality of “claims” based on the search term phrases. You may make it prepare. Furthermore, the claim analysis unit includes the description of other “claims” included in the “claim” of the search object, and the name of the invention of the “claim” and other “claim” of the search object. The dependency relationship may be extracted based on this. In addition, the claim analysis unit includes the description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions of the “term” are the same, it may be determined that the dependency exists. Further, the patent document includes a description of “claim”, and the search unit includes a claim analysis unit that extracts a constituent element included in the description of “claim” based on the search term phrase. May be.
また、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有する特許検索装置の制御方法において、検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出過程と、前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索過程と、を備えたことを特徴としている。この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出過程を備えるようにしてもよい。 Further, in a method for controlling a patent search apparatus having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance, the search source patent document is analyzed. The phrase extraction process of extracting a word or compound word included in the condition setting patent document as a search condition phrase and the search term phrase and the search condition phrase are compared, and the similarity to the search source patent document is compared. And a search process for searching for a high patent document as a patent document highly relevant to the search source patent document. In this case, a reference destination extraction process for extracting a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document may be provided.
また、前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備え、前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成過程と、前記図表作成部により作成された図表を提示するディスプレイ過程と、を備えるようにしてもよい。さらに前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度計算過程と、抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録過程と、を備えるようにしてもよい。 In addition, the patent search database unit includes a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship, and the reference destination database A chart creation process for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information of the section, and a display for presenting the chart created by the chart creation section And a process. Further, a morpheme analysis process for extracting the word or the compound word by performing a morphological analysis of the search source patent document, and an importance calculation for calculating the importance of the extracted word or the compound word in the search source patent document A registration process for registering the extracted word or the compound word as the search term phrase in the patent search database unit in association with the importance.
またさらに、前記検索過程は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索するようにしてもよい。また、前記特許文献は、複数の「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析過程を備えるようにしてもよい。さらに前記請求項解析過程は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出するようにしてもよい。 Furthermore, the search process may search for highly relevant patent documents based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase. In addition, the patent document includes a description of a plurality of “claims”, and the search process extracts a subordinate relationship between the plurality of “claims” based on the search term phrase. You may make it provide. Further, the claim analysis process is based on the description of other “claims” included in the “claim” to be searched and the names of the inventions of the “claim” and other “claims” of the search target. The dependency relationship may be extracted.
さらにまた、前記請求項解析過程は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別するようにしてもよい。また、前記特許文献は、「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析過程を備えるようにしてもよい。 Furthermore, the claim analysis process includes the description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions of the “claims” are the same, it may be determined that the dependency exists. Further, the patent document includes a description of “claim”, and the search process includes a claim analysis process of extracting a constituent element included in the description of “claim” based on the search term phrase. It may be.
また、検索対象とする特許文献に含まれる単語あるいは複合語を予め検索用語句として当該特許文献に関連づけて記憶する特許検索データベース部を有するコンピュータを特許検索装置として機能させる制御プログラムは、検索元特許文献を解析させ、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出させ、前記検索用語句および前記検索条件語句を比較させ、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索させる、ことを特徴としている。この場合において、各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出させるようにしてもよい。また、前記特許文献は、複数の「請求項」の記載を含み、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出させるようにしてもよい。さらに前記特許文献は、「請求項」の記載を含み、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出させるようにしてもよい。また、上記各制御プログラムを記録媒体に記録するようにしてもよい。 In addition, a control program that causes a computer having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in advance as a search term phrase in association with the patent document is a search source patent. Analyzing the document, extracting a word or compound word contained in the condition setting patent document as a search condition word, comparing the search term phrase and the search condition word, and having similarity to the search source patent document It is characterized in that a high-patent document is searched as a patent document highly relevant to the search source patent document. In this case, a reference relationship between the search source patent document and the highly related patent document may be extracted based on the description in each patent document. Further, the patent document may include a plurality of “claims”, and a dependency relationship between the plurality of “claims” may be extracted based on the search term phrase. Further, the patent document may include a description of “claim”, and a constituent element included in the description of “claim” may be extracted based on the search term phrase. The control programs may be recorded on a recording medium.
本発明によれば、特許検索を行うに際し、「漏れの少ない」検索を行え、かつ、不必要な情報が含まれることを抑制することができる。また、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することができる。さらにまた、同一の特許文献中における請求項の従属関係を明確化し、提示することができる。 According to the present invention, when performing a patent search, a “leakage” search can be performed and unnecessary information can be prevented from being included. In addition, it is possible to clearly present a reference and a referenced relationship between a plurality of patent documents, and to extract patent documents having approximate technical contents even without a reference relationship. Furthermore, the dependent relationships of the claims in the same patent document can be clarified and presented.
次に本発明の好適な実施の形態について図面を参照して説明する。本実施形態は、本発明を特許検索システムに適用する場合のものである。
[1]特許検索データベース登録システム
まず特許検索システムに用いられる特許検索データベースを構築するための特許検索データベース登録システムについて説明する。
[1−1]特許検索データベース登録システムの構成
図1は特許検索データベース登録システムの概要構成ブロック図である。特許検索データベース登録システム10は、大別すると、各種データをデータベースとして蓄積するデータベース部11と、データベース部11に各種データを登録するための登録処理部12と、を備えている。ここで、特許検索データベース登録システム10は、コンピュータシステムにおいて実現可能であり、登録処理部12の機能は、登録処理部12を構成する各部に対応する、マイクロプロセッサで実行可能なプログラムによって実現される。また、このようなプログラムは、半導体メモリ、CD−ROMなどの記録媒体から直接実行してもよい。また、外部記憶装置に予めプログラムインストールして実行することも可能である。さらにプログラムの実行に先立って実行する毎、あるいは、最初に一度だけ、インターネットなどのネットワークを介してインストールするようにしてもよい。
Next, preferred embodiments of the present invention will be described with reference to the drawings. In the present embodiment, the present invention is applied to a patent search system.
[1] Patent Search Database Registration System First, a patent search database registration system for constructing a patent search database used in the patent search system will be described.
[1-1] Configuration of Patent Search Database Registration System FIG. 1 is a schematic configuration block diagram of a patent search database registration system. The patent search
[1.1.1]データベース部の構成
まず、データベース部の構成について説明する。データベース部11は、ハードディスクなどの外部記憶装置に構築されている。そしてデータベース部11は、大別すると、単語データベース15と、構成要件(発明特定事項)データベース16と、従属関係データベース17と、参照文献データベース18と、を備えている。単語データベース15は、特許文献PDに含まれている単語あるいは複合語を予め指定された特定の分類(分野)に関連させて記憶させるためのデータベースである。
[1.1.1] Configuration of Database Unit First, the configuration of the database unit will be described. The
図2は単語データベースの基本構成である。単語データベース15は、大別すると、ページテーブル21と、キーワードテーブル22と、ワードテーブル23と、を備えている。図2においては、一つのページテーブル21に対し、1系統のキーワードテーブル22およびワードテーブル23のみを図示しているが、実際には、一つのページテーブル21に対し、複数系統のキーワードテーブル22およびワードテーブル23が構成され、全体として、ツリー構造(木構造)をなしている。ページテーブル21は、ページIDデータ31、認識番号データ32、タイトルデータ33、更新日時データ34、書誌事項データ35および被リンク数データ36を備えている。なお、このデータ構成は一例であり、これに限られるものではない。例えば、対応する公報のページ数や技術分野などのデータを組み込むようにしても構わない。
FIG. 2 shows the basic configuration of the word database. The
ページIDデータ31は、登録する特許文献(特許文書)PDのそれぞれに固有(unique)に割り当てられ、各特許文献PDを特定するためのデータである。認識番号データ32は、公報番号など特許庁によって各特許文献PDに割り振られた値を有するデータである。タイトルデータ33は、各特許文献PDの内容を表す名称を格納している。例えば、特許文献PDが特許公報である場合には、発明の名称である。更新日時データ34は、各特許文献PDの登録日時を格納している。書誌事項データ35は、特許文献PDが特許公報である場合には、公報発行国、公報種別、公開番号、公開日、国際特許分類情報(FI分類番号等)、審査請求の有無、請求項の数、出願形態、全頁数、出願番号、出願日、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願日、出願人情報(識別番号、氏名または名称、住所または居所)、発明者情報(氏名、住所または居所)、代理人情報(識別番号、氏名、資格)、テーマコード、Fターム等である。すなわち、書誌事項データ35は、各特許文献PDに関わる様々な書誌的な情報を格納するためのデータである。被リンク数データ36は、各特許文献PDが参照されている他の特許文献の文献数を格納するためのデータである。
The
また、キーワードテーブル22は、ページテーブル21とワードテーブル23とを関係付けするためのデーブルである。そして、キーワードテーブル22は、ページIDデータ41、ワードIDデータ42、出現回数(cost)データ43、重要度データ44および段落フラグデータ45を備えている。ページIDデータ41は、ページテーブル21のページIDデータ31に対応するデータが格納するデータである。すなわち、ページテーブル21のページIDデータ31と同一のデータが格納されていれば、当該キーワードテーブル22は、同一のページIDデータを有するページテーブル21に関連するデータを格納していることを表している。ワードIDデータ42は、対応する単語についての情報を格納しているワードテーブル23との関連づけを行うためのデータである。
The keyword table 22 is a table for associating the page table 21 and the word table 23. The keyword table 22 includes
出現回数(cost)データ43は、ワードIDデータ42で特定される単語のページIDデータ41で特定される特許文献中における出現回数に相当するデータである。すなわち、ある単語が当該特許文献中に何回使用されたかを表すデータである。重要度データ44は、ページIDデータ41で特定される特許文献におけるワードIDデータ42で特定される単語の重要度としてTFIDF法により算出したTFIDF値を格納している。このTFIDF値は、後述するワードテーブルに格納されているIDFデータ(IDF値;全特許文献中における対応する単語の出現した文献数に相当)および出現回数データ43に基づいて算出される。すなわち、ある単語が出現した文献数が少ないほど、かつ、各文献における当該単語の出現数が多いほど重要な単語であると認識されることとなる。
The appearance number (cost)
段落フラグデータ45は、ワードIDデータ42で特定される単語がページIDデータ41で特定される特許文献中のいずれの段落で検出されたかを示すデータである。この場合における段落とは、特許文献が論文や書籍などの通常の文献の場合には、一般的な段落の意味の他、章や節などの概念を含むものである。また、特許文献が特許公報などの場合には、発明の名称の欄、特許請求の範囲の欄、発明の詳細な説明の欄、図面の簡単な説明の欄、要約の欄などについても段落として扱っている。
The
ワードテーブル23は、単語データ51、ワードIDデータ52およびIDFデータ53を備えている。単語データ51は、形態素解析後の単語が登録されている。ワードIDデータ52は、単語データ51として登録されている単語を特定するためのデータである。IDFデータ53は、単語データ51として登録されている単語が全特許文献中において出現した文献数に相当するIDF値が登録されている。構成要件データベース16は、特許文献である特許公開公報、特許掲載公報などから、特許請求の範囲に含まれる構成要件(いわゆる発明特定事項)のデータを記憶している。具体的には、各構成要件の名称、各構成要件の作用を特徴づけるような単語などを格納している。従属関係データベース17は、請求項(クレーム)間の繋がりである従属関係に関するデータを記憶している。
The word table 23 includes
図3に従属関係データベース17のデータフォーマットを示す。従属関係データベース17は、ページIDデータ55と、被引用請求項データ56と、引用請求項データ57と、を備えている。ページIDデータ55は、ページテーブル21のページIDデータ31と同様のデータであり、ページIDデータ55に対応する被引用請求項データ56および引用請求項データ57は、このページIDデータ55に対応する特許文献に含まれる請求項の従属関係を表すこととなる。被引用請求項データ56は、他の請求項により引用される請求項の請求項番号が登録される。引用請求項データ57は、他の請求項を引用する請求項の請求項番号が登録される。
FIG. 3 shows the data format of the
具体的には、ページデータ=1で特定される特許文献の特許請求の範囲の記載において、請求項1および請求項2が独立項となっており、請求項3が請求項1および請求項2を引用した従属項となっており、ページデータ=2で特定される特許文献の特許請求の範囲の記載において、請求項1が独立項となっており、請求項2が請求項1を引用した従属項となっている場合には、従属関係データベース17には、図4に示すようなデータが登録される。すなわち、図4に示すように、以下の(1)〜(3)のデータが登録される。
(1)ページIDデータ=1、被引用請求項データ=1、引用請求項データ=3
(2)ページIDデータ=1、被引用請求項データ=2、引用請求項データ=3
(3)ページIDデータ=2、被引用請求項データ=1、引用請求項データ=2
Specifically, in the description of the claims of the patent document specified by page data = 1, claims 1 and 2 are independent claims, and
(1) Page ID data = 1, cited claim data = 1, cited claim data = 3
(2) Page ID data = 1, cited claim data = 2, cited claim data = 3
(3) Page ID data = 2, cited request data = 1, cited request data = 2
参照文献データベース18は、各特許文献について、当該文献中で参照している参照文献あるいは審査などにおいて参照された参照文献に関するデータを格納している。具体的には、参照文献番号(特許公開番号、特許番号、……)、文献名、文献参照頁、文献発行元、著者名などが必要に応じて格納されることとなる。参照文献データベース18は、図8に示すように、参照先ページIDデータ81、参照元ページIDデータ82、タイトルデータ83、文献種別データ84および文献書誌情報データ85を備えている。参照先ページIDデータ81は、参照先の特許文献を特定するためのページIDデータである。参照元ページIDデータ82は、参照元の特許文献を特定するためのページIDデータである。
The
タイトルデータ83は、参照先の文献タイトルを登録する。上述の例の場合には「特開平△−12345号公報」が文献タイトルとなる。文献種別データ84は、当該参照先の特許文献の種別を表すデータである。例えば、参照先の特許文献の種別が国内特許公報の場合には文献種別データ=0、外国特許公報の場合には文献種別データ=1、論文である場合には文献種別データ=2のように設定される。文献書誌情報データ85は、文献名、文献参照頁、文献発行元、著者名などの書誌情報が所定の順番でCSV形式などのテキストデータ形式で格納されている。なお、この文献書誌情報データ85は、これらの情報が必要なければ、必ずしも設ける必要はない。
The
[1.1.2]検索処理部の構成
次に検索処理部12の構成について再び図1を参照して説明する。検索処理部12は、大別すると、形態素解析部61と、重要度算出部62と、請求項解析部63と、形態素解析用辞書部64と、参照文献抽出部65と、標準化部66と、ストップワード処理部67と、を備えている。形態素解析部61は、特許文献PDを形態素解析して頻出する名詞、サ変名詞、その他の名詞あるいはサ変名詞に類する単語を単語データベース15に登録する。この形態素解析部61による単語の単語データベース15への登録に先立って、標準化部66は、単語の標準化(統一化)を行う。例えば、単語として「PC」、「パソコン」、「パーソナルコンピュータ」の3種類の単語が形態素解析により得られた場合に、これらの単語は同一の意味を有しているので「パソコン」の単語に統一するのである。また、ストップワード処理部67は、特許分野において特許文献の種類に関わらず頻出する単語の単語データベース15への登録を行わないように処理をしている。例えば、単語として「請求項」、「出願」、「特許」、「本発明」、「実用新案」等の単語については、単語データベース15への登録を行わないようにしている。
[1.1.2] Configuration of Search Processing Unit Next, the configuration of the
重要度算出部62は、形態素解析されて登録された単語に対して重要度をTFIDF法を用いてTFIDF値として計算し、単語データベース15へ登録する。請求項解析部63は、大別すると、従属関係解析部63Aと、構成要件抽出部63Bと、を備えている。従属関係解析部63Aは、特許文献が特許公報や実用新案公報などである場合に、特許請求の範囲や実用新案登録請求の範囲などを解析し、各請求項同士の従属関係を調べる。また、構成要件抽出部63Bは、特許請求の範囲や実用新案登録請求の範囲などから構成要件(例えば、発明特定事項)を抽出する。形態素解析用辞書部64は、形態素解析部61が形態素解析を行う際に用いる一般的に知られているような態様の形態素解析辞書を格納している。参照文献抽出部65は、各特許文献について、当該文献中で参照している参照文献あるいは審査などにおいて参照された参照文献を抽出し、参照文献データベース18に登録する。
The
[1.2]特許検索データベース登録システムの動作
次に特許検索データベース登録システムの動作を説明する。以下の説明においては、特許文献として特許公報を登録対象とする場合を例として説明する。図5に特許検索データベース登録処理のフローチャートを示す。まず特許検索データベース登録システム10は、形態素解析を行い(ステップS1)、単語データベースに登録する(ステップS2)。具体的には、形態素解析部61は、特許文献を形態素解析するに際し、各特許文献毎に固有の番号を所定の条件に基づいてページIDとして割り振り、ページテーブルのページIDデータおよびキーワードテーブルのページIDデータに登録する。次に形態素解析部61は、特許文献である特許公報の形態素解析を行い、公報番号を認識番号データ32として登録する。
[1.2] Operation of Patent Search Database Registration System Next, the operation of the patent search database registration system will be described. In the following description, a case where a patent publication is registered as a patent document will be described as an example. FIG. 5 shows a flowchart of the patent search database registration process. First, the patent search
続いて、形態素解析部61は、発明の名称を抽出し、当該発明の名称をタイトルデータ33として登録する。そして形態素解析部61は、当該特許公報について、当該データベース登録システムにおける登録日時を更新日時データに登録する。また、形態素解析部61は、特許公報から、公報発行国、公報種別、公開番号、公開日、国際特許分類情報、審査請求の有無、請求項の数、出願形態、全頁数、出願番号、出願日、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願番号、優先権主張基礎出願の出願日、出願人情報、発明者情報、代理人情報、テーマコード、Fタームなどを抽出し、書誌事項データ35として登録する。次に特許検索データベース登録システムは、形態素解析の結果に基づいて各単語の重要度を算出し(ステップS3)、単語データベース15のキーワードテーブル22に登録する(ステップS2)。
Subsequently, the
この場合において、重要度算出部62は、キーワードテーブルの出現回数(cost)データ43およびワードテーブルのIDFデータ53に基づいて、重要度データとして格納する重要度を算出している。具体的には、登録対象の全特許文献に含まれる単語(キーワード)毎の出現回数をTFとし、登録対象の全特許文献数をNとし、登録対象の全特許文献のうち重要度算出対象の単語が含まれる特許文献数をnとした場合に、次式により重要度データとしてTFIDF値を算出する。
IDF =log(N/n)
TFIDF=TF・IDF
この場合において、算出したIDFは、IDFデータとしてワードテーブルに登録される。次に特許検索データベース登録システムは、請求項の解析の一部である請求項間の従属関係を解析し(ステップS4)、従属関係データベース17に登録する(ステップS5)。
In this case, the importance
IDF = log (N / n)
TFIDF = TF ・ IDF
In this case, the calculated IDF is registered in the word table as IDF data. Next, the patent search database registration system analyzes the dependency relationship between claims, which is a part of claim analysis (step S4), and registers it in the dependency relationship database 17 (step S5).
この場合において、従属関係解析部63Aは、特許請求の範囲や実用新案登録請求の範囲における「請求項○○記載の□□方法において」、「……ことを特徴とする請求項△△記載の■■装置。」などの記載に基づいて、各請求項同士の従属関係を解析し、図4に示したような従属関係を従属関係データベースに登録する。次に特許検索データベース登録システムは、請求項の解析の一部である構成要件抽出を行う(ステップS6)。この場合において、構成要件抽出部63Bは、請求項の記載から構成要件(発明特定事項)を抽出し、構成要件データベース16に登録する(ステップS7)。具体的に、以下の請求項の記載から構成要件を抽出する場合について説明する。
In this case, the dependency
[請求項1] 時系列に順序づけられたn個の文書を関連づける方法であって、前記n個の文書間の類似度を計算するステップと、前記類似度から時間制約を用いて類似度行列を作成するステップと、前記類似度行列を前記文書の関連づけを示す隣接行列に変換するステップと、を有することを特徴とする文書の関連づけ方法。 [Claim 1] A method for associating n documents ordered in time series, the step of calculating a similarity between the n documents, and a similarity matrix using a time constraint from the similarity A document associating method comprising: creating a document; and converting the similarity matrix into an adjacency matrix indicating the document association.
この場合には、「ステップ」というキーワードにより以下の3つの構成要件が抽出される。
「前記n個の文書間の類似度を計算するステップ」
「前記類似度から時間制約を用いて類似度行列を作成するステップ」、
「前記類似度行列を前記文書の関連づけを示す隣接行列に変換するステップ」
そして抽出された構成要件は、構成要件データベース16に登録されることとなる。
具体的には、構成要件データベース16は、図6に示すように、ページIDデータ71、クレームIDデータ72および構成要件テキストデータ73を備えている。ページIDデータ71は、ページテーブル21のページIDデータ31と同様のデータであり、ページIDデータ71に対応するクレームIDデータ72および構成要件テキストデータ73は、このページIDデータ71に対応する特許文献に含まれる請求項の内容を表すこととなる。クレームIDデータ72は、構成要件テキストデータ73に格納されているテキストデータのクレーム番号を特定するためのデータである。
In this case, the following three components are extracted by the keyword “step”.
“Step of calculating similarity between the n documents”
“Creating a similarity matrix using time constraints from the similarity”,
“Transforming the similarity matrix into an adjacency matrix indicating the association of the document”
The extracted configuration requirement is registered in the
Specifically, the
構成要件テキストデータ73は、構成要件をテキストデータとして格納するためのデータである。そして、上記請求項を構成要件データベース16に登録した場合には、図7に示すようになる。すなわち、特許文献を特定するための番号=231がページIDデータ71として格納され、請求項1を表す番号=1がクレームIDデータ72として格納され、請求項1の内容に相当するテキストデータ=「前記n個の文書間の類似度を計算するステップ」が構成要件テキストデータ73として格納される。
The configuration
次に特許検索データベース登録システム10は、参照文献を抽出する(ステップS8)。この場合において参照文献抽出部65は、特許公報(特許文献)内において、いずれかの特許文献(国内外の特許公報、論文等)を引用しているかを検出し、引用先の情報(公報番号、書名、論文タイトルなど)を参照先データベースに登録する。また、参照先の特許文献が既に登録されている場合には、当該参照先の特許文献に対応するページテーブル21の被リンク数データ36の値を更新する。
Next, the patent search
具体的には、特許文献である特許公報中に「特開平△−12345号公報によると……」や「文献“Fast Algorithms for Mining Association”を参照……」などの記載を抽出し、参照文献データベース18に登録する。
Specifically, descriptions such as “according to Japanese Patent Application Laid-Open No. △ 12345 ...” and “refer to the document“ Fast Algorithms for Mining Association ”……” are extracted from patent gazettes that are patent documents. Register in the
[1.3]特許検索システムの構成
図9は特許検索システムの概要構成ブロック図である。図9において、図1の特許検索データベース登録システムと同様の部分には同一の符号を付し、その詳細な説明を省略する。特許検索システム100は、大別すると、各種データをデータベースとして蓄積するデータベース部11と、データベース部11を用いて特許検索を行う検索処理部102と、ディスプレイ部103と、入力部104と、を備えている。
[1.3] Configuration of Patent Search System FIG. 9 is a schematic configuration block diagram of the patent search system. 9, parts that are the same as those in the patent search database registration system of FIG. 1 are given the same reference numerals, and detailed descriptions thereof are omitted. The
ここで、特許検索システム100は、コンピュータシステムにおいて実現可能であり、検索処理部102の機能は、検索処理部102を構成する各部に対応する、マイクロプロセッサで実行可能なプログラムによって実現される。また、このようなプログラムは、半導体メモリ、CD−ROMなどの記録媒体から直接実行してもよい。また、外部記憶装置に予めプログラムインストールして実行することも可能である。さらにプログラムの実行に先立って実行する毎、あるいは、最初に一度だけ、インターネットなどのネットワークを介してインストールするようにしてもよい。検索処理部102は、入力部104を介して入力された検索元特許文献(あるいは検索元特許文献を特定するための特定情報)に基づいて後述する類似検索、クレーム検索あるいは参照先検索を行う。ディスプレイ部103は、検索結果を含む各種データを表示し、検索オペレータに対して提示する。入力部104は、キーボード、マウス、タブレット、スキャナ、リムーバブルディスク装置、通信インタフェース部などで構成され、検索元特許文献に対応するデータの入力や各種検索条件などの設定を行う。
Here, the
[1.3.1]検索処理部の構成
次に検索処理部の構成について説明する。検索処理部102は、大別すると、構文解析・形態素解析部111と、形態素解析用辞書部112と、図表作成部113と、実検索処理部114と、標準化部115と、ストップワード処理部116と、を備えている。構文解析・形態素解析部111は、語句抽出部として機能し、形態素解析部121と、請求項解析部122と、参照文献抽出部123と、を備えている。形態素解析部121は、形態素解析用辞書64を用いて、特許文献を形態素解析して頻出する名詞、サ変名詞、その他の名詞あるいはサ変名詞に類する単語を抽出する。
[1.3.1] Configuration of Search Processing Unit Next, the configuration of the search processing unit will be described. The
この形態素解析部121による形態素解析結果の出力に際して、標準化部115は、単語の標準化(統一化)を行う。また、ストップワード処理部116は、特許分野において特許文献の種類に関わらず頻出する単語について形態素解析結果として出力しないように処理をおこなっている。請求項解析部122は、検索元特許文献が特許公報や実用新案公報などである場合に、特許請求の範囲や実用新案登録請求の範囲などを解析し、各請求項同士の従属関係を調べる。また、特許請求の範囲や実用新案登録請求の範囲などから構成要件(例えば、発明特定事項)を抽出する。参照先抽出部123は、検索元特許文献について、当該検索元特許文献中で参照している参照文献あるいは審査などにおいて参照された参照文献を抽出する。形態素解析用辞書部112は、形態素解析部121が形態素解析を行う際に用いる形態素解析辞書を格納している。
When the morpheme analysis result is output by the morpheme analysis unit 121, the
図表作成部113は、検索結果を図表化して検索オペレータに対して提示する。実検索処理部114は、検索部として機能し、大別すると、類似検索部131と、クレーム検索部132と、参照先検索部133と、を備えている。類似検索部131は、検索元特許文献と類似の特許文献を検索し、類似関係にある特許文献を抽出し、その類似関係を把握する。クレーム検索部132は、検索元特許文献のクレーム(請求項)の従属関係を把握する。参照文献検索部133は、検索元特許文献において参照している特許文献あるいは審査などにおいて参照された特許文献を抽出する。
The
[1.4]特許検索システムの動作
次に特許検索システムの動作を説明する。以下の説明においては、検索元特許文献として特許公報を用いる場合を主として説明する。図10に特許検索処理のフローチャートを示す。この場合において、特許検索処理に先立って、オペレータにより類似の特許文献を検索する類似検索処理を行うか、あるいは、当該特許文献の請求項相互間の関係を調べるクレーム検索処理を行うかのいずれかが指定されているものとし、類似検索処理を行う場合には類似検索フラグがセットされ、クレーム検索処理を行う場合には請求項フラグがセットされているものとする。まず特許検索システム100は、検索元特許文献がデータベース部11に未登録否かを判別する(ステップS11)。
[1.4] Operation of Patent Search System Next, the operation of the patent search system will be described. In the following description, a case where a patent gazette is used as a search source patent document will be mainly described. FIG. 10 shows a flowchart of the patent search process. In this case, prior to the patent search process, either an operator performs a similar search process for searching for similar patent documents or a claims search process for examining the relationship between claims of the patent documents. It is assumed that the similarity search flag is set when the similar search process is performed, and the claim flag is set when the claim search process is performed. First, the
ステップS11の判別において、検索元特許文献が既にデータベースに登録されている場合には(ステップS11;No)、類似検索フラグあるいは請求項フラグのいずれがセットされているかを判別する(ステップS12)。ステップS12の判別において、類似検索フラグがセットされている場合には(ステップS12;類似フラグセット)、実検索処理部114の参照先検索部133は、参照文献データベース18を検索して検索元特許文献が参照している特許文献を抽出する(ステップS13)。次に実検索処理部114の類似検索部131は、単語データベース15を参照して検索元特許文献に含まれる単語を読み出し、各単語毎に類似検索を行い(ステップS14)、検索元特許文献と単語データベース15に登録されている他の特許文献との間の距離計算および請求項の構成要件についてパターンマッチングを行う。
If the search source patent document is already registered in the database in step S11 (step S11; No), it is determined which of the similar search flag and the claim flag is set (step S12). If it is determined in step S12 that the similar search flag is set (step S12; similar flag set), the reference
より具体的には、検索元特許文献が日本国内の特許公報である場合には、例えば、発明の詳細な説明および要約に含まれる単語のそれぞれをベクトル表現し、単語データベースに登録されている他の特許文献に含まれる単語に対応するベクトルとの間で距離計算処理を行う。また、検索元特許文献において特許請求の範囲を構成する請求項の構成要件と、構成要件データベースに登録されている構成要件との間のパターンマッチング処理を行い、類似度を求める。この距離計算処理およびパターンマッチング処理により得られる類似の度合いに基づいて所定の類似範囲内にある特許文献を特定する。また、同様の距離計算処理およびパターンマッチング処理を検索元特許文献が参照している特許文献についても行う。そして、類似検索処理が終了すると、図表作成部113は、類似検索結果を図表化するための処理を行う(ステップS15)。図表作成部113において、類似検索結果を図表化するための処理が終了するとディスプレイ部103において類似検索結果に対応する図表を表示する(ステップS16)。
More specifically, when the search source patent document is a Japanese patent gazette, for example, each of the words included in the detailed description and summary of the invention is represented by a vector and registered in the word database. A distance calculation process is performed with a vector corresponding to a word included in the patent document. In addition, pattern matching processing is performed between the constituent elements of the claims constituting the scope of claims in the search source patent document and the constituent elements registered in the constituent requirement database to obtain the similarity. Based on the degree of similarity obtained by the distance calculation process and the pattern matching process, patent documents in a predetermined similarity range are specified. The same distance calculation process and pattern matching process are also performed for the patent document referenced by the search source patent document. When the similarity search process is completed, the
図11に類似検索結果に対応する図表の一例を示す。なお、以下の説明において、特許公報という表現は、日本国における特許掲載公報ばかりでなく、公開特許公報その他の公報も含むものである。図11において、特許公報Xが検索元特許文献である。特許公報Xに対して直接あるいは間接に結ばれている特許文献は、直接あるいは間接的に参照されている特許文献である。またいずれの特許文献にも結ばれていない特許文献は、類似文献であるが、直接的な参照関係にはない特許文献である。この場合には、特許文献間の2次元的距離が近いほど類似度が高いようになっている。さらに特許公報Xの表示位置に対して左側に表示され、かつ、特許公報Xに直接結ばれている特許文献(米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文R)は、特許公報Xが直接参照している特許文献である。すなわち、米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文Rは、検索元特許文献である特許公報X中において直接的に記述され、参照されている特許文献である。 FIG. 11 shows an example of a chart corresponding to the similar search result. In the following description, the expression “patent gazette” includes not only a patent publication gazette in Japan but also a published patent gazette and other gazettes. In FIG. 11, patent publication X is a search source patent document. A patent document that is directly or indirectly connected to the patent publication X is a patent document that is directly or indirectly referred to. A patent document that is not tied to any patent document is a similar document, but is not a direct reference relationship. In this case, the closer the two-dimensional distance between the patent documents is, the higher the similarity is. Further, a patent document displayed on the left side of the display position of the patent publication X and directly connected to the patent publication X (US Patent Publication S, Patent Publication C, Patent Publication B, Patent Publication D, University Article R) Is a patent document directly referred to by Patent Publication X. That is, US Patent Publication S, Patent Publication C, Patent Publication B, Patent Publication D, and University Paper R are patent documents that are directly described and referenced in Patent Publication X that is a search source patent document.
さらにこれらの米国特許公報S、特許公報C、特許公報B、特許公報D、大学論文Rと特許公報Xとの間の2次元的距離が近いほど類似度が高いようになっている。また、各特許文献を表す枠内に表示されている数字は、当該特許文献を参照している特許文献数である。この図の例の場合には、特許公報Aおよび特許公報Eは、参照件数が多いので、基本特許の可能性が高いということが判断できる。従って、特許公報Xが特許公開公報であるような場合には、特許出願人は、特許公報Aおよび特許公報Eに記載の発明をはじめに参照すべきと考えられることとなる。さらに特許公報Xに類似している特許公報N、Q、Pも存在しているので、これらの特許公報に記載の発明についても注意が必要であることがわかる。この場合において、ディスプレイ部103の表示画面上において、いずれかの特許文献を選択し、検索種別を指定すれば、同様に当該選択した特許文献を検索元特許文献とする検索処理がなされる。このように構成することにより、階層的に検索を継続することができ、所望の特許文献を効率的に検索することができる。
Further, the closer the two-dimensional distance between these US patent publication S, patent publication C, patent publication B, patent publication D, university paper R and patent publication X, the higher the similarity. Moreover, the number displayed in the frame representing each patent document is the number of patent documents referring to the patent document. In the case of the example in this figure, since Patent Gazette A and Patent Gazette E have a large number of references, it can be determined that the possibility of a basic patent is high. Therefore, when the patent publication X is a patent publication publication, it is considered that the patent applicant should refer to the inventions described in the patent publications A and E first. Further, since there are also patent publications N, Q, and P similar to the patent publication X, it can be understood that attention is necessary for the inventions described in these patent publications. In this case, if any patent document is selected on the display screen of the
また、複数の特許文献を線分で結ぶ場合に線分の色分けを行って系統分けをしたり、出願人毎や、発明者毎、代理人(弁理士など)毎に特許文献を表す枠内の色を変更したり、ブリンク(点滅)表示させることにより、より特許文献相互間の関係を把握しやすくすることが可能となる。一方、 ステップS12の判別において、請求項フラグがセットされている場合には(ステップS12;請求項フラグセット)、実検索処理部114のクレーム検索部132は、構成要件データベースおよび従属関係データベースを検索して請求項相互の従属関係を抽出する(ステップS17)。そして、クレーム検索処理が終了すると、図表作成部113は、クレーム検索結果を図表化するための処理を行う(ステップS15)。図表作成部113において、クレーム検索結果を図表化するための処理が終了するとディスプレイ部103においてクレーム検索結果に対応する図表を表示する(ステップS16)。
In addition, when multiple patent documents are connected by line segments, line segments are color-coded and systematized, or within the frame representing patent documents for each applicant, for each inventor, for each agent (such as patent attorney) It is possible to make it easier to grasp the relationship between patent documents by changing the color of the image or by blinking (blinking). On the other hand, if it is determined in step S12 that the claim flag is set (step S12; claim flag set), the
図12にクレーム検索結果に対応する図表の一例を示す。この場合において、各請求項には、以下のような記載があるものとする。
請求項1: 「……を備えたことを特徴とする知識抽出方法」
請求項2: 「請求項1記載の知識抽出方法において、……」
請求項3: 「請求項2記載の知識抽出方法において、……」
請求項4: 「……を備えたことを特徴とする知識抽出装置」
請求項5: 「請求項4記載の知識抽出装置において、……」
請求項6: 「請求項4記載の知識抽出装置において、……」
請求項7: 「請求項4記載の知識抽出装置において、……」
請求項8: 「請求項4記載の知識抽出装置において、……」
請求項9: 「……を備えたことを特徴とする知識抽出プログラム」
FIG. 12 shows an example of a chart corresponding to the complaint search result. In this case, each claim has the following description.
Claim 1: "Knowledge extraction method characterized by comprising ..."
Claim 2: "In the knowledge extracting method according to
Claim 3: "In the knowledge extraction method according to
Claim 4: "Knowledge extraction device characterized by comprising ..."
Claim 5: “In the knowledge extracting device according to claim 4, ...”
Claim 6: "In the knowledge extracting device according to claim 4, ..."
Claim 7: “In the knowledge extracting device according to claim 4, ...”
Claim 8: "In the knowledge extracting device according to claim 4, ..."
Claim 9: "Knowledge extraction program characterized by comprising ..."
クレーム検索部132は、各請求項の記載に基づいて、請求項1、請求項4および請求項9は独立請求項であることを検出する。すなわち、当該請求項の記述中に他の請求項の記述を含まない請求項あるいは発明の名称が異なる他の請求項の記述のみを含む請求項である場合に独立請求項であるとする。また、クレーム検索部132は、当該請求項より前に記述されている請求項の発明の名称と発明の名称が同一であり、かつ、他の請求項の記載(例えば、「請求項○○」)を含む請求項は、当該他の請求項に従属する従属請求項であると判断する。すなわち、請求項2は請求項1の従属請求項、請求項3は請求項2の従属項、請求項5〜請求項8はそれぞれ請求項4の従属項であることを検出する。この結果、図12に示すように、請求項1に対応する枠と請求項2に対応する枠は線分により接続され、さらに請求項2に対応する枠と請求項3に対応する枠は線分により接続されて表示される。また、請求項4に対応する枠には、請求項5〜請求項8に対応する枠が並列的に線分により接続されて表示される。さらに請求項9に対応する枠は独立して表示される。このような表示がなされることにより、検索者は、直感的に当該請求項群の中で基本的な内容を特定している独立請求項を把握できるとともに、請求項間の従属関係を容易に把握できる。
The
[1.5]実施形態の効果
以上の説明のように、本実施形態によれば、特許検索を行うに際し、オペレータがキーワードを入力することなく、「漏れの少ない」調査を行い、かつ、不必要な情報が含まれることを抑制することができる。また、複数の特許文献間の参照、被参照関係を明確に提示し、さらに参照関係がなくても近似する技術内容の特許文献を抽出することができる。さらにまた、同一の特許文献中における請求項の従属関係を明確にし、オペレータに対して視覚的に容易に把握できる状態で提示できる。
[1.5] Effects of the Embodiment As described above, according to the present embodiment, when performing a patent search, an operator performs a “leak leak” investigation without inputting a keyword, Inclusion of necessary information can be suppressed. In addition, it is possible to clearly present a reference and a referenced relationship between a plurality of patent documents, and to extract patent documents having approximate technical contents even without a reference relationship. Furthermore, the dependency relationship of the claims in the same patent document can be clarified and presented to the operator in a state that can be easily grasped visually.
[2]実施形態の変形例
[2.1]第1変形例
以上の説明においては、データベース部11を登録処理部12(あるいは検索処理部102)と一体に構成していたが、両者をネットワークを介して分散処理システムとして構成することも可能である。この場合において、さらにデータベース部11を構成する各データベース15、16、17,18および形態素解析用辞書64をネットワークを介して別のデータベースサーバに格納するように構成し、複数の登録処理部12(あるいは検索処理部102)として機能するコンピュータシステムから利用可能な構成とすることも可能である。
[2] Modification of Embodiment [2.1] First Modification In the above description, the
[2.2]第2変形例
以上の説明においては、標準化部66(あるいは標準化部115)を必須の構成として説明したが、必ずしも標準化部23を設けなくてもデータベースの容量は多少増加するというデメリットはあるが、ほぼ同様な効果を得ることが可能である。
[2.2] Second Modification In the above description, the standardization unit 66 (or the standardization unit 115) has been described as an indispensable configuration. However, even if the
10…特許検索データベース登録システム、11…データベース部、12…登録処理部、15…単語データベース、16…構成要件(発明特定事項)データベース、17…従属関係データベース、18…参照文献データベース、21…ページテーブル、22…キーワードテーブル、31…ページIDデータ、32…認識番号データ、33…タイトルデータ、34…更新日時データ、35…書誌事項データ、36…被リンク数データ、100…特許検索システム、102…検索処理部、103…ディスプレイ部、104…入力部、111…構文解析・形態素解析部、112…形態素解析用辞書部、113…図表作成部、114…実検索処理部、115…標準化部、116…ストップワード処理部、121…形態素解析部、122…請求項解析部、123…参照文献抽出部。
DESCRIPTION OF
Claims (24)
検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出部と、
前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索部と、を備えた
ことを特徴とする特許検索装置。 A patent search database unit that stores words or compound words included in a patent document to be searched in advance in association with the patent document as a search term phrase;
Analyzing a search source patent document, and extracting a word or compound word included in the condition setting patent document as a search condition word; and
A search unit that compares the search term phrase and the search condition phrase, and searches for a patent document that is highly similar to the search source patent document as a patent document that is highly relevant to the search source patent document. Patent search device characterized by the above.
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出部を備えた
ことを特徴とする特許検索装置。 The patent search device according to claim 1,
A patent search apparatus comprising: a reference destination extraction unit that extracts a reference relationship between the search source patent document and the highly relevant patent document based on description in each patent document.
前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備えた
ことを特徴とする特許検索装置。 The patent search device according to claim 2,
The patent search database unit includes a reference destination database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship. Search device.
前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成部と、前記図表作成部により作成された図表を提示するディスプレイ部と、を備えた
ことを特徴とする特許検索装置。 The patent search device according to claim 3,
A chart created by the chart creating section for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information in the referenced database section, and the chart created by the chart creating section And a display section for presenting a patent search device.
前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析部と、
抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度算出部と、
抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録部と、を備えた
ことを特徴とする特許検索装置。 In the patent search device according to any one of claims 1 to 4,
A morphological analysis unit that performs morphological analysis of the search source patent document and extracts the word or the compound word; and
An importance calculating unit for calculating the importance of the extracted word or the compound word in the search source patent document;
A patent search apparatus comprising: a registration unit that registers the extracted word or the compound word as the search term phrase in the patent search database unit in association with the importance.
前記検索部は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索する
ことを特徴とする特許検索装置。 In the patent search device according to any one of claims 1 to 5,
The patent search device, wherein the search unit searches for a highly relevant patent document based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.
前記特許文献は、複数の「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析部を備えた
ことを特徴とする特許検索装置。 The patent search device according to any one of claims 1 to 6,
The patent document includes a description of a plurality of “claims”, and the search unit includes a claim analysis unit that extracts a subordinate relationship between the plurality of “claims” based on the search term phrase. Patent search device characterized by that.
前記請求項解析部は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出する
ことを特徴とする特許検索装置。 The patent search device according to claim 7, wherein
The claim analysis unit is configured based on the description of other “claims” included in the “claim” of the search target and the names of the inventions of the “claim” and other “claims” of the search target. A patent search device characterized by extracting dependency relationships.
前記請求項解析部は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別する
ことを特徴とする特許検索装置。 The patent search device according to claim 8,
The claim analysis unit includes the description of the other “claim” in the “claim” of the search target, and the name of the invention of the “claim” of the search target and the other “claim”. When the names of the inventions are the same, it is determined that the dependency exists.
前記特許文献は、「請求項」の記載を含み、前記検索部は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析部を備えた
ことを特徴とする特許検索装置。 The patent search device according to any one of claims 1 to 6,
The patent document includes a description of a “claim”, and the search unit includes a claim analysis unit that extracts a configuration requirement included in the description of the “claim” based on the search term phrase. Patent search device featuring.
検索元特許文献を解析し、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出する語句抽出過程と、
前記検索用語句および前記検索条件語句を比較し、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索する検索過程と、を備えた
ことを特徴とする特許検索装置の制御方法。 In a control method of a patent search apparatus having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance,
Analyzing the search source patent document and extracting a word or compound word included in the condition setting patent document as a search condition phrase;
A search process for comparing the search term phrase and the search condition phrase and searching for a patent document having a high similarity to the search source patent document as a patent document having high relevance to the search source patent document. A method of controlling a patent search apparatus characterized by the above.
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出する参照先抽出過程を備えた
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to claim 11,
A method for controlling a patent search apparatus, comprising: a reference destination extraction process for extracting a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document .
前記特許検索データベース部は、抽出した前記参照関係に基づいて、前記検索元特許文書に対応づけて参照関係のある特許文献についての情報を格納する参照先データベース部を備え、
前記参照先データベース部の情報に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を表す図表を作成する図表作成過程と、
前記図表作成部により作成された図表を提示するディスプレイ過程と、を備えた
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to claim 12,
The patent search database unit includes a reference database unit that stores information on patent documents having a reference relationship in association with the search source patent document based on the extracted reference relationship,
A chart creation process for creating a chart representing a reference relationship between the search source patent document and the highly relevant patent document based on the information in the reference destination database unit;
And a display process for presenting the chart created by the chart creating section.
前記検索元特許文献の形態素解析を行って前記単語あるいは前記複合語を抽出する形態素解析過程と、
抽出された前記単語あるいは前記複合語の当該検索元特許文献における重要度を計算する重要度計算過程と、
抽出された前記単語あるいは前記複合語を前記重要度に対応づけて前記特許検索データベース部に前記検索用語句として登録する登録過程と、を備えた
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to any one of claims 11 to 13,
A morphological analysis process of extracting the word or the compound word by performing morphological analysis of the search source patent document;
Importance calculation process for calculating the importance of the extracted word or the compound word in the search source patent document,
And a registration step of registering the extracted word or the compound word as the search term phrase in the patent search database unit in association with the degree of importance.
前記検索過程は、前記検索用語句に対応するベクトルおよび前記検索条件語句に対応するベクトルの距離に基づいて関連性の高い特許文献を検索する
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to any one of claims 11 to 14,
The method of controlling a patent search apparatus, wherein the search process searches for a highly relevant patent document based on a distance between a vector corresponding to the search term phrase and a vector corresponding to the search condition phrase.
前記特許文献は、複数の「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出する請求項解析過程を備えた
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to any one of claims 11 to 15,
The patent document includes a description of a plurality of “claims”, and the search process includes a claim analysis process for extracting a subordinate relationship between the plurality of “claims” based on the search term phrase. A method for controlling a patent search apparatus, characterized in that:
前記請求項解析過程は、検索対象の「請求項」中に含まれる他の「請求項」の記載並びに当該検索対象の「請求項」および他の「請求項」の発明の名称に基づいて前記従属関係を抽出する
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to claim 16,
The claim analysis process is based on the description of other “claims” included in the “claim” of the search object and the name of the invention of the “claim” of the search object and the other “claim”. A method for controlling a patent search apparatus, characterized in that a dependency relationship is extracted.
前記請求項解析過程は、前記検索対象の「請求項」に前記他の「請求項」の記載があり、かつ、当該検索対象の「請求項」の発明の名称と前記他の「請求項」の発明の名称が同一である場合に、前記従属関係があると判別する
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to claim 17,
In the claim analysis process, there is a description of the other “claim” in the “claim” of the search object, and the name of the invention of the “claim” of the search object and the other “claim”. When the names of the inventions are the same, it is determined that the dependency exists.
前記特許文献は、「請求項」の記載を含み、前記検索過程は、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出する請求項解析過程を備えた
ことを特徴とする特許検索装置の制御方法。 In the control method of the patent search device according to any one of claims 11 to 15,
The patent document includes a description of “claim”, and the search process includes a claim analysis process for extracting a constituent element included in the description of “claim” based on the search term phrase. A method for controlling a patent search apparatus.
検索元特許文献を解析させ、当該条件設定用特許文献に含まれる単語あるいは複合語を検索条件語句として抽出させ、前記検索用語句および前記検索条件語句を比較させ、前記検索元特許文献に対して類似性の高い特許文献を前記検索元特許文献に関連性の高い特許文献として検索させる
ことを特徴とする制御プログラム。 A control program that causes a computer having a patent search database unit that stores a word or a compound word included in a patent document to be searched for in association with the patent document as a search term phrase in advance as a patent search device,
Analyzing the search source patent document, extracting a word or compound word contained in the condition setting patent document as a search condition phrase, comparing the search term phrase and the search condition phrase, and for the search source patent document A control program for causing a patent document having high similarity to be searched as a patent document having high relevance to the search source patent document.
各特許文献中の記載に基づいて、前記検索元特許文献と前記関連性の高い特許文献との間の参照関係を抽出させる
ことを特徴とする制御プログラム。 The control program according to claim 20,
A control program that extracts a reference relationship between the search source patent document and the highly relevant patent document based on the description in each patent document.
前記特許文献は、複数の「請求項」の記載を含み、前記検索用語句に基づいて前記複数の「請求項」の相互間の従属関係を抽出させる
ことを特徴とする制御プログラム。 The control program according to claim 20 or claim 21,
The patent document includes a description of a plurality of “claims” and causes a dependency relationship between the plurality of “claims” to be extracted based on the search term phrase.
前記特許文献は、「請求項」の記載を含み、前記検索用語句に基づいて前記「請求項」の記載に含まれる構成要件を抽出させる
ことを特徴とする制御プログラム。 The control program according to claim 20 or claim 21,
The patent document includes a description of “claim”, and extracts a constituent requirement included in the description of “claim” based on the search term phrase.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007133313A JP2007220144A (en) | 2007-05-18 | 2007-05-18 | Patent retrieval device, and control method and control program for patent retrieval device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007133313A JP2007220144A (en) | 2007-05-18 | 2007-05-18 | Patent retrieval device, and control method and control program for patent retrieval device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001355274A Division JP2003157262A (en) | 2001-11-20 | 2001-11-20 | Patent retrieval device, control method therefor, control program and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007220144A true JP2007220144A (en) | 2007-08-30 |
Family
ID=38497282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007133313A Withdrawn JP2007220144A (en) | 2007-05-18 | 2007-05-18 | Patent retrieval device, and control method and control program for patent retrieval device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007220144A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182041A (en) * | 2009-02-04 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Concept retrieval method and device and program and computer-readable recording medium |
KR20190097750A (en) * | 2018-02-13 | 2019-08-21 | 국민대학교산학협력단 | Semantic-based similar patent search apparatus and method, storage media storing the same |
CN114580556A (en) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | Method and device for pre-evaluating patent literature |
CN114600098A (en) * | 2019-10-30 | 2022-06-07 | 株式会社资生堂 | Information processing system, method, program, and data structure |
-
2007
- 2007-05-18 JP JP2007133313A patent/JP2007220144A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182041A (en) * | 2009-02-04 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Concept retrieval method and device and program and computer-readable recording medium |
KR20190097750A (en) * | 2018-02-13 | 2019-08-21 | 국민대학교산학협력단 | Semantic-based similar patent search apparatus and method, storage media storing the same |
KR102051825B1 (en) | 2018-02-13 | 2020-01-08 | 국민대학교산학협력단 | Semantic-based similar patent search apparatus and method, storage media storing the same |
CN114600098A (en) * | 2019-10-30 | 2022-06-07 | 株式会社资生堂 | Information processing system, method, program, and data structure |
CN114580556A (en) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | Method and device for pre-evaluating patent literature |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11048882B2 (en) | Automatic semantic rating and abstraction of literature | |
US10936806B2 (en) | Document processing apparatus, method, and program | |
US20080016065A1 (en) | Document search system, document search processing method, and document search processing program | |
US20110320459A1 (en) | Term identification method and apparatus | |
US11023654B2 (en) | Analyzing document content and generating an appendix | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
JP2010262577A (en) | System, method and program for creation of extraction rule | |
Gupta et al. | Biomedical text summarization: a graph-based ranking approach | |
US10896227B2 (en) | Data processing system, data processing method, and data structure | |
JP2007220144A (en) | Patent retrieval device, and control method and control program for patent retrieval device | |
JP2012113459A (en) | Example translation system, example translation method and example translation program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP2003157262A (en) | Patent retrieval device, control method therefor, control program and recording medium | |
JP2007257149A (en) | Document processing apparatus and method | |
Nitu et al. | Reconstructing scanned documents for full-text indexing to empower digital library services | |
US20090299997A1 (en) | Grouping work support processing method and apparatus | |
JP2004133510A (en) | Technical literature retrieval system | |
JP2004070376A (en) | Document display device and method therefor | |
WO2021049485A1 (en) | Legal analyzer and legal analysis method | |
JP2019003237A (en) | Presentation method, presentation apparatus, and presentation program | |
Chondrogiannis et al. | Meaning inference of abbreviations appearing in clinical studies | |
JP2006146705A (en) | Structured document ambiguity collation device and program therefor | |
Bernardes et al. | Exploring NPL: Generating Automatic Control Keywords | |
Bastianello et al. | Referency: Harmonizing Citations in Transdisciplinary Scholarly Literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070612 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070612 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20071218 |