JP5971794B2 - Patent search support device, patent search support method, and program - Google Patents

Patent search support device, patent search support method, and program Download PDF

Info

Publication number
JP5971794B2
JP5971794B2 JP2012096778A JP2012096778A JP5971794B2 JP 5971794 B2 JP5971794 B2 JP 5971794B2 JP 2012096778 A JP2012096778 A JP 2012096778A JP 2012096778 A JP2012096778 A JP 2012096778A JP 5971794 B2 JP5971794 B2 JP 5971794B2
Authority
JP
Japan
Prior art keywords
patent document
unrelated
feature vector
vector
related patent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012096778A
Other languages
Japanese (ja)
Other versions
JP2013225207A (en
Inventor
稔也 鶴原
稔也 鶴原
明洋 東
明洋 東
芳文 鈴木
芳文 鈴木
由紀子 中村
由紀子 中村
谷川 英和
英和 谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IRD CORP
Original Assignee
IRD CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IRD CORP filed Critical IRD CORP
Priority to JP2012096778A priority Critical patent/JP5971794B2/en
Publication of JP2013225207A publication Critical patent/JP2013225207A/en
Application granted granted Critical
Publication of JP5971794B2 publication Critical patent/JP5971794B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特許調査を支援する特許調査支援装置等に関するものである。   The present invention relates to a patent search support apparatus that supports patent search.

従来、特許調査の結果を管理する装置等が開発されている(例えば、特許文献1参照)。   Conventionally, devices for managing the results of patent searches have been developed (see, for example, Patent Document 1).

特開2007−242004号公報JP 2007-224004 A

しかしながら、従来の特許調査においては、人手により関連特許と非関連特許とを分類することは、非常に時間のかかる作業で有り、一度非関連特許と分類された特許の書類に誤りがあれば、それが再考されることは希であり、誤った分類結果が残ってしまう、という問題があった。   However, in the conventional patent search, manually classifying related patents and unrelated patents is a very time-consuming work, and if there is an error in the documents of patents once classified as unrelated patents, It was rare that it was reconsidered, and there was a problem that incorrect classification results remained.

本第一の発明の特許調査支援装置は、特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部と、1以上の各関連特許書類から1以上の用語を取得し、1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、1以上の各非関連特許書類から1以上の用語を取得し、1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する特徴ベクトル取得部と、1以上の関連特許特徴ベクトルと1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する判断部と、判断部が決定した非関連特許書類を特定する情報を出力する出力部とを具備する特許調査支援装置である。
かかる構成により、非関連特許の特許書類の中から、関連特許を抽出できる。これにより、例えば、特許調査において、人手により調査対象の特許を関連特許または非関連特許のいずれかに分類した際に、誤って非関連特許と分類した特許書類の中から、関連特許である可能性が高い特許書類を特定する情報を取得することができる。
A patent search support device according to the first aspect of the present invention includes a related patent document storage unit capable of storing one or more related patent documents, which are related patent documents determined to be related as a result of screening work in patent search, and a patent search The unrelated patent document storage unit that can store one or more unrelated patent documents that are determined to be irrelevant as a result of the sorting operation in the database, and one or more terms from each of the one or more related patent documents To acquire a related patent feature vector, which is a vector of each related patent document using one or more terms, for each related patent document, and to acquire one or more terms from one or more unrelated patent documents A feature vector acquisition unit that acquires, for each unrelated patent document, an unrelated patent feature vector that is a vector of each unrelated patent document using one or more terms, one or more related patent feature vectors, and one or more Non Using the consecutive patent feature vector, the decision part for determining the unrelated patent document corresponding to the unrelated patent feature vector that should belong to the class of the related patent, and the information specifying the unrelated patent document determined by the judgment part are output. And a patent search support device including an output unit.
With this configuration, related patents can be extracted from non-related patent documents. As a result, for example, in a patent search, when a patent to be searched is manually classified as either a related patent or an unrelated patent, it can be a related patent from among patent documents that were mistakenly classified as an unrelated patent. It is possible to obtain information that identifies highly patentable patent documents.

また、本第二の発明の特許調査支援装置は、第一の発明に対して、判断部は、関連特許のクラスに属するべきか否かの判断対象の非関連特許書類のベクトルである判断対象非関連特許特徴ベクトルに対応する非関連特許書類を、1以上の関連特許特徴ベクトルおよび判断対象非関連特許特徴ベクトルを除く1以上の非関連特許特徴ベクトルを用いて決定する、特許調査支援装置である。
かかる構成により、非関連特許の特許書類の中から、関連特許を抽出できる。これにより、例えば、特許調査において、人手により調査対象の特許を関連特許または非関連特許のいずれかに分類した際に、誤って非関連特許と分類した特許書類の中から、関連特許である可能性が高い特許書類を特定する情報を取得することができる。
In addition, in the patent search support device of the second invention, in the first invention, the determination unit is a determination target that is a vector of non-related patent documents that is a determination target of whether or not to belong to a related patent class. A patent search support device that determines an unrelated patent document corresponding to an unrelated patent feature vector using one or more unrelated patent feature vectors excluding one or more related patent feature vectors and a judgment target unrelated patent feature vector. is there.
With this configuration, related patents can be extracted from non-related patent documents. As a result, for example, in a patent search, when a patent to be searched is manually classified as either a related patent or an unrelated patent, it can be a related patent from among patent documents that were mistakenly classified as an unrelated patent. It is possible to obtain information that identifies highly patentable patent documents.

また、本第三の発明の特許調査支援装置は、第一または第二の発明に対して、1以上の関連特許書類および1以上の非関連特許書類を除いた特許の書類である1以上の新規特許書類を格納し得る新規特許書類格納部をさらに具備し、特徴ベクトル取得部は、1以上の各新規特許書類から1以上の用語を取得し、1以上の用語を用いて各新規特許書類のベクトルである新規特許特徴ベクトルを、新規特許書類ごとに取得し、判断部は、1以上の関連特許特徴ベクトル、または1以上の関連特許特徴ベクトルと1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき新規特許特徴ベクトルに対応する新規特許書類を決定し、出力部は、判断部が決定した関連特許のクラスに属するべき新規特許書類を特定する情報を出力する、特許調査支援装置である。
かかる構成により、未分類の特許書類が関連特許であるか非関連特許であるかを判断できる。これにより、例えば、ユーザは、何件かの特許書類を関連特許または非関連特許に分類すると、未分類の特許書類から関連特許である可能性が高い特許書類を特定する情報を取得できる。
In addition, the patent search support device of the third invention has one or more patent documents excluding one or more related patent documents and one or more unrelated patent documents with respect to the first or second invention. A new patent document storage unit that can store new patent documents is further provided, and the feature vector acquisition unit acquires one or more terms from one or more new patent documents, and uses each one or more terms to create each new patent document. A new patent feature vector, which is a vector of, for each new patent document, the determination unit uses one or more related patent feature vectors, or one or more related patent feature vectors and one or more unrelated patent feature vectors The new patent document corresponding to the new patent feature vector that should belong to the related patent class is determined, and the output unit outputs information identifying the new patent document that should belong to the related patent class determined by the determination unit It is a patent search support device.
With this configuration, it is possible to determine whether an unclassified patent document is a related patent or an unrelated patent. Thereby, for example, when a user classifies some patent documents into related patents or non-related patents, the user can acquire information that identifies patent documents that are likely to be related patents from unclassified patent documents.

また、本第四の発明の特許調査支援装置は、第一から第三いずれかの発明に対して、判断部は、1以上の関連特許特徴ベクトル、または1以上の関連特許特徴ベクトルと1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属すべきではない関連特許特徴ベクトルに対応する関連特許書類を決定し、出力部は、判断部が決定した関連特許のクラスに属すべきではない関連特許書類を特定する情報を出力する、特許調査支援装置である。
かかる構成により、関連特許の特許書類の中から、非関連特許を抽出できる。これにより、例えば、特許調査において、人手により調査対象の特許を関連特許または非関連特許のいずれかに分類した際に、誤って関連特許と分類した特許書類の中から、非関連特許である可能性が高い特許書類を特定する情報を取得することができる。
In addition, in the patent search support device of the fourth invention, for any one of the first to third inventions, the determination unit includes one or more related patent feature vectors, or one or more related patent feature vectors and one or more. To determine the related patent document corresponding to the related patent feature vector that should not belong to the related patent class, and the output section should belong to the related patent class determined by the judgment section It is a patent search support device that outputs information specifying related patent documents that are not.
With this configuration, unrelated patents can be extracted from the patent documents of related patents. As a result, for example, when a patent subject to search is manually classified as either a related patent or an unrelated patent in a patent search, it may be an unrelated patent from among patent documents that were mistakenly classified as related patents. It is possible to obtain information that identifies highly patentable patent documents.

また、本第五の発明の特許調査支援装置は、特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、1以上の関連特許書類および1以上の非関連特許書類を除いた関連特許の書類である1以上の新規特許書類を格納し得る新規特許書類格納部と、1以上の各関連特許書類から1以上の用語を取得し、1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、1以上の各新規特許書類から1以上の用語を取得し、1以上の用語を用いて各新規特許書類のベクトルである新規特許特徴ベクトルを、新規特許書類ごとに取得する特徴ベクトル取得部と、1以上の関連特許特徴ベクトルを用いて、新規特許書類の特許特徴ベクトルが関連特許のクラスに属するかを決定する判断部と、判断部が関連特許のクラスに属すると決定した新規特許書類を特定する情報を出力する出力部とを具備する特許調査支援装置である。
かかる構成により、未分類の特許書類が関連特許であるかを判断できる。これにより、例えば、何件かの特許書類を関連特許または非関連特許に分類すると、未分類の特許書類から関連特許の可能性が高い特許書類を特定する情報を取得できる。
In addition, the patent search support device of the fifth invention includes a related patent document storage unit that can store one or more related patent documents that are related patent documents that are determined to be related as a result of screening work in the patent search; A new patent document storage unit that can store one or more new patent documents that are related patent documents excluding one or more related patent documents and one or more unrelated patent documents, and one or more from each one or more related patent documents A related patent feature vector, which is a vector of each related patent document using one or more terms, for each related patent document, and one or more terms from one or more new patent documents A new patent using a feature vector acquisition unit that acquires a new patent feature vector, which is a vector of each new patent document using one or more terms, for each new patent document, and one or more related patent feature vectors Patent search comprising a determination unit that determines whether a patent feature vector of a class belongs to the class of related patents, and an output unit that outputs information identifying new patent documents that the determination unit has determined to belong to the class of related patents It is a support device.
With this configuration, it is possible to determine whether an unclassified patent document is a related patent. Thereby, for example, when some patent documents are classified into related patents or non-related patents, it is possible to acquire information for identifying patent documents having a high possibility of related patents from unclassified patent documents.

また、本第六の発明の特許調査支援装置は、第五の発明に対して、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部をさらに具備し、特徴ベクトル取得部は、さらに、1以上の各非関連特許書類から1以上の用語を取得し、1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得し、判断部は、1以上の関連特許特徴ベクトル、および1以上の非関連特許特徴ベクトルを用いて、新規特許書類の特許特徴ベクトルが関連特許のクラスに属するかを決定する、特許調査支援装置である。
かかる構成により、未分類の特許書類が関連特許であるか非関連特許であるかを判断できる。これにより、例えば、何件かの特許書類を関連特許または非関連特許に分類すると、未分類の特許書類から関連特許の可能性が高い、または非関連特許である可能性が高い特許書類を特定する情報を取得できる。
In addition, the patent search support device of the sixth aspect of the invention provides at least one unrelated patent document that is a document of an unrelated patent that is determined to be unrelated as a result of the sorting work in the patent search for the fifth invention. The feature vector acquisition unit further acquires one or more terms from each of the one or more non-related patent documents, and uses each of the one or more terms to store each non-relevant patent document storage unit. An unrelated patent feature vector that is a vector of a patent document is acquired for each unrelated patent document, and the determination unit uses the one or more related patent feature vectors and the one or more unrelated patent feature vectors to create a new patent document. This is a patent search support device that determines whether a patent feature vector of a certain category belongs to a related patent class.
With this configuration, it is possible to determine whether an unclassified patent document is a related patent or an unrelated patent. Thus, for example, if some patent documents are classified as related patents or unrelated patents, patent documents that are likely to be related patents or are likely to be unrelated patents are identified from unclassified patent documents. Information to be acquired.

本発明による特許調査支援装置等によれば、特許書類が関連特許であるか、非関連特許であるかを判断できる。   According to the patent search support apparatus and the like according to the present invention, it is possible to determine whether a patent document is a related patent or an unrelated patent.

実施の形態1における特許調査支援装置を含むシステムの概念図Conceptual diagram of a system including a patent search support device in the first embodiment 同実施の形態における特許調査支援装置のブロック図Block diagram of patent search support apparatus in the embodiment 同実施の形態における特許調査支援装置の動作を示すフローチャートThe flowchart which shows operation | movement of the patent search assistance apparatus in the embodiment 同実施の形態における特徴ベクトル取得部の動作を示すフローチャートFlowchart showing the operation of the feature vector acquisition unit in the same embodiment 同実施の形態における判断部の動作を示すフローチャートThe flowchart which shows operation | movement of the judgment part in the embodiment 同実施の形態における各特許書類格納部に格納されている特許の書類の例を示す図The figure which shows the example of the document of the patent stored in each patent document storage part in the embodiment 同実施の形態における各特許書類の特徴ベクトルの例を示す図The figure which shows the example of the feature vector of each patent document in the embodiment 同実施の形態における受付部が受け付ける情報を入力する画面の表示例を示す図The figure which shows the example of a display of the screen which inputs the information which the reception part in the embodiment receives 同実施の形態における出力部が出力した情報を表示した画面の表示例を示す図The figure which shows the example of a display of the screen which displayed the information which the output part in the same embodiment output 実施の形態2における特許調査支援装置の動作を示すフローチャートFlowchart showing the operation of the patent research support device in the second embodiment 同実施の形態における出力部が出力した情報を表示した画面の表示例を示す図The figure which shows the example of a display of the screen which displayed the information which the output part in the same embodiment output 上記実施の形態におけるコンピュータシステムの外観の一例を示す図The figure which shows an example of the external appearance of the computer system in the said embodiment 上記実施の形態におけるコンピュータシステムの構成の一例を示す図The figure which shows an example of a structure of the computer system in the said embodiment.

以下、特許調査支援装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。   Hereinafter, embodiments of a patent search support apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.

(実施の形態1)
本実施の形態において、特許書類を関連特許と非関連特許とに人手で分類された結果を用いて、非関連特許に分類された特許書類や、未分類の特許書類等から関連特許書類である可能性のある特許書類を判断し、その結果を出力する特許調査支援装置1について説明する。
(Embodiment 1)
In the present embodiment, a patent document classified as an unrelated patent or an unclassified patent document is a related patent document by using the result of manually classifying the patent document into a related patent and an unrelated patent. The patent search support apparatus 1 that determines a possible patent document and outputs the result will be described.

図1は、本実施の形態における特許調査支援装置1を含むシステムの概念図である。図1において、特許調査支援装置1と1または2以上のユーザ端末3とは、ネットワーク100を介して接続されている。ネットワーク100は、有線、または無線の通信回線であり、例えば、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線等である。また、ユーザ端末3は、ネットワーク100に接続可能な端末であれば何でも良い。例えば、ユーザ端末3は、デスクトップパソコン、ノートパソコン、スマートフォン、またはPDA等であっても良い。   FIG. 1 is a conceptual diagram of a system including a patent search support apparatus 1 according to the present embodiment. In FIG. 1, a patent research support device 1 and one or more user terminals 3 are connected via a network 100. The network 100 is a wired or wireless communication line, such as the Internet, an intranet, a LAN (Local Area Network), a public telephone line, or the like. The user terminal 3 may be any terminal that can be connected to the network 100. For example, the user terminal 3 may be a desktop personal computer, a notebook personal computer, a smartphone, or a PDA.

図2は、本実施の形態における特許調査支援装置1のブロック図である。特許調査支援装置1は、受付部101、関連特許書類格納部102、非関連特許書類格納部103、新規特許書類格納部104、特徴ベクトル取得部105、判断部106、および出力部107を備える。   FIG. 2 is a block diagram of the patent search support apparatus 1 in the present embodiment. The patent search support apparatus 1 includes a reception unit 101, a related patent document storage unit 102, an unrelated patent document storage unit 103, a new patent document storage unit 104, a feature vector acquisition unit 105, a determination unit 106, and an output unit 107.

受付部101は、1または2以上の関連特許書類を特定する情報と1または2以上の非関連特許書類を特定する情報とを受け付ける。関連特許書類とは、関連特許に関する書類である。非関連特許書類とは、非関連特許の書類である。関連特許とは、調査したい技術や発明に関連する特許である。非関連特許とは、調査したい技術や調査したい発明等に関連しない特許である。   The receiving unit 101 receives information specifying one or more related patent documents and information specifying one or more unrelated patent documents. Related patent documents are documents related to related patents. An unrelated patent document is a document of an unrelated patent. Related patents are patents related to the technology or invention to be investigated. An unrelated patent is a patent that is not related to the technology to be searched or the invention to be searched.

受付部101が受け付ける関連特許書類を特定する情報は、通常、人手で行った特許調査における選別作業の結果、関連すると判断された特許の書類を特定する情報である。また、受付部101が受け付ける非関連特許書類を特定する情報は、通常、人手で行った特許調査における選別作業の結果、関連しないと判断された特許の書類を特定する情報である。   The information specifying the related patent document received by the receiving unit 101 is information for specifying the patent document that is determined to be related as a result of the sorting operation in the patent search conducted manually. The information specifying unrelated patent documents received by the receiving unit 101 is information for specifying patent documents that are determined to be irrelevant as a result of screening work in a patent search conducted manually.

また、特許調査とは、ある技術やある発明等に関連した文献を調査することである。例えば、特許調査は、先行技術調査、侵害予防調査や無効化資料調査等である。先行技術調査は、特許出願前に先行技術が存在するか否かを調査することをいう。侵害予防調査は、商品やサービスを市場に出す前に他者特許を侵害するか否かを調査することをいう。無効化資料調査は、他者の登録特許を無効にするために調査することをいう。特許の書類とは、特許庁に出願された特許等の出願書類等に関する情報である。特許の書類の種類は、公開特許公報、特許公報、実用新案公開公報、実用新案登録公報、公表特許公報、公表実用新案公報、再公表特許公報、再公表実用新案公報等である。また、特許の書類の発行国は、日本、米国、中国、欧州、韓国等、問わない。なお、特許の書類の言語やデータ形式等は問わない。特許書類を特定する情報とは、特許の書類を1つに特定できる情報であれば何でも良い。特許書類を特定する情報は、例えば、特許の書類そのものであっても良く、特許の書類を一意に特定する特許書類IDであっても良い。特許書類IDは、出願番号であっても良く、公開番号や登録番号等であっても良い。   The patent search is a search for a document related to a certain technology or a certain invention. For example, a patent search is a prior art search, an infringement prevention search, an invalidation data search, or the like. Prior art search refers to investigating whether prior art exists before filing a patent application. Infringement prevention investigation refers to investigating whether or not to infringe other patents before putting goods or services on the market. The invalidation document search is a search for invalidating the registered patent of another person. A patent document is information relating to an application document such as a patent filed at the JPO. The types of patent documents are published patent gazette, patent gazette, utility model published gazette, utility model registered gazette, published patent gazette, published utility model gazette, republished patent gazette, republished utility model gazette, and the like. The country where patent documents are issued is not limited to Japan, the United States, China, Europe, South Korea, etc. The language and data format of patent documents are not limited. The information specifying the patent document may be anything as long as it is information that can specify one patent document. The information for specifying the patent document may be, for example, the patent document itself or a patent document ID for uniquely specifying the patent document. The patent document ID may be an application number, a publication number, a registration number, or the like.

また、受付部101は、関連特許書類を関連特許書類格納部102に格納する。また、受付部101は、非関連特許書類を非関連特許書類格納部103に格納する。また、受付部101は、新規特許書類を新規特許書類格納部104に格納する。新規特許書類とは、関連特許書類、および非関連特許書類を除いた未分類の特許の書類である。受付部101は、1または2以上の新規特許書類を受け付けても良く、図示しない特許書類格納部から、受け付けた関連特許書類と非関連特許書類とが含まれない特許の書類を取得して新規特許書類としても良い。なお、図示しない特許書類格納部は、外部の特許検索装置等であっても良い。   In addition, the reception unit 101 stores related patent documents in the related patent document storage unit 102. The receiving unit 101 stores unrelated patent documents in the unrelated patent document storage unit 103. The receiving unit 101 stores the new patent document in the new patent document storage unit 104. New patent documents are unclassified patent documents excluding related patent documents and unrelated patent documents. The receiving unit 101 may receive one or more new patent documents, and obtains a new patent document by acquiring a patent document that does not include the received related patent document and unrelated patent document from a patent document storage unit (not shown). It may be a patent document. The patent document storage unit (not shown) may be an external patent search device or the like.

受付部101は、特許書類IDを受け付けた場合、図示しない特許書類格納部から、特許の書類を取得しても良い。その際、受付部101は、特許書類ID1件ごとに特許の書類を取得しても良く、一度に全ての特許の書類を取得しても良い。なお、図示しない特許書類格納部は、1以上の特許書類を格納している。   When receiving the patent document ID, the receiving unit 101 may acquire a patent document from a patent document storage unit (not shown). At that time, the reception unit 101 may acquire patent documents for each patent document ID, or may acquire all patent documents at once. Note that a patent document storage unit (not shown) stores one or more patent documents.

また、受付部101は、出力部107が出力した判断結果(なお、判断結果については後述する。)を受け付けても良く、判断結果に応じて分類し直された各特許の書類をも受け付けても良い。判断結果に応じて分類し直された各特許の書類とは、出力部107が判断結果を出力した後、ユーザが判断結果を参考に再度分類した1以上の特許の書類である。   The accepting unit 101 may accept the determination result output by the output unit 107 (the determination result will be described later), and also accept each patent document reclassified according to the determination result. Also good. Each patent document that has been reclassified according to the determination result is one or more patent documents that are classified again by the user with reference to the determination result after the output unit 107 outputs the determination result.

受付部101は、通常、ネットワーク100を介してユーザ端末3から送信された、各特許書類を特定する情報を受け付けるが、キーボードやマウス、タッチパネル等の入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリ等の記録媒体から読み出された情報の受け付けであっても良い。   The accepting unit 101 usually accepts information specifying each patent document transmitted from the user terminal 3 via the network 100, but accepts information input from an input device such as a keyboard, mouse, touch panel, wired or It may be reception of information transmitted via a wireless communication line or reception of information read from a recording medium such as an optical disk, a magnetic disk, or a semiconductor memory.

関連特許書類格納部102には、関連特許の書類である1以上の関連特許書類を格納し得る。ここでの関連特許は、通常、特許調査における人手による選別作業の結果、関連すると判断された特許であるが、自動的に関連すると判断された特許でも良い。ここで、格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。関連特許書類格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。後述する他の格納部についても同様とする。関連特許書類格納部102に関連特許書類が格納される過程は問わない。通常、関連特許書類格納部102には、受付部101が受け付けた関連特許書類が格納されるが、例えば、記録媒体を介して関連特許書類が関連特許書類格納部102で格納されるようになっても良く、通信回線等を介して送信された関連特許書類が関連特許書類格納部102で格納されるようになっても良い。格納部に情報が格納される過程は問わないことは、他の記録媒体でも同様である。   The related patent document storage unit 102 can store one or more related patent documents that are related patent documents. The related patent here is usually a patent that is determined to be related as a result of manual selection in a patent search, but may be a patent that is automatically determined to be related. Here, storage is a concept including long-term storage using a non-volatile recording medium and temporary storage using a volatile recording medium. The related patent document storage unit 102 is preferably a nonvolatile recording medium, but can also be realized by a volatile recording medium. The same applies to other storage units described later. The process for storing the related patent documents in the related patent document storage unit 102 is not limited. Normally, the related patent document storage unit 102 stores the related patent document received by the receiving unit 101. For example, the related patent document storage unit 102 stores the related patent document via a recording medium. Alternatively, related patent documents transmitted via a communication line or the like may be stored in the related patent document storage unit 102. The process of storing information in the storage unit is not limited, and the same applies to other recording media.

非関連特許書類格納部103には、非関連特許の書類である1以上の非関連特許書類を格納し得る。ここでの非関連特許は、通常、特許調査における人手による選別作業の結果、関連しないと判断された特許であるが、自動的に関連しないと判断された特許でも良い。   The unrelated patent document storage unit 103 can store one or more unrelated patent documents that are unrelated patent documents. The unrelated patents here are usually patents that are determined to be unrelated as a result of manual selection in patent searches, but may be patents that are automatically determined not to be related.

新規特許書類格納部104には、1以上の新規特許書類を格納し得る。新規特許書類は、1以上の関連特許書類および1以上の非関連特許書類を除いた特許の書類である。なお、新規特許書類は、関連特許書類格納部102と非関連特許書類格納部103とに格納されている特許書類と重複しない。   The new patent document storage unit 104 can store one or more new patent documents. A new patent document is a patent document excluding one or more related patent documents and one or more unrelated patent documents. The new patent document does not overlap with the patent documents stored in the related patent document storage unit 102 and the unrelated patent document storage unit 103.

特徴ベクトル取得部105は、1または2以上の各関連特許書類から1または2以上の用語を取得し、1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得する。なお、特徴ベクトル取得部105は、通常、2以上の各関連特許書類から関連特許特徴ベクトルを取得する。さらに、特徴ベクトル取得部105は、1または2以上の各非関連特許書類から1以上の用語を取得し、1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する。なお、特徴ベクトル取得部105は、通常、2以上の各非関連特許書類から非関連特許特徴ベクトルを取得する。また、特徴ベクトル取得部105は、1以上の各新規特許書類から1以上の用語を取得し、1以上の用語を用いて各新規特許書類のベクトルである新規特許特徴ベクトルを、新規特許書類ごとに取得しても良い。   The feature vector acquisition unit 105 acquires one or more terms from one or more related patent documents, and uses the one or more terms to obtain related patent feature vectors, which are vectors of the related patent documents, Obtain for each document. The feature vector acquisition unit 105 normally acquires related patent feature vectors from two or more related patent documents. Furthermore, the feature vector acquisition unit 105 acquires one or more terms from one or more of each unrelated patent document, and uses the one or more terms to obtain an unrelated patent feature vector that is a vector of each unrelated patent document. Acquire for each unrelated patent document. Note that the feature vector acquisition unit 105 normally acquires unrelated patent feature vectors from two or more unrelated patent documents. The feature vector acquisition unit 105 acquires one or more terms from one or more new patent documents, and uses each of the one or more new patent documents to generate a new patent feature vector, which is a vector of each new patent document, for each new patent document. You may get to.

特徴ベクトル取得部105が関連特許書類から取得する用語は、例えば、あらかじめ決められた品詞(例えば、名詞等)であっても良く、予め決められた品詞の連続であっても良く、専門用語であっても良く、あるいは、その他の用語であっても良い。用語が専門用語である場合には、例えば、図示しない記録媒体に専門用語が記憶されており、その専門用語が関連特許書類に含まれているかどうか判断することによって用語の取得が行われても良く、文書から専門用語を抽出するアルゴリズムを用いることによって用語の取得が行われても良い。後者の方法については、例えば、次の文献を参照されたい。大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126。中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月。なお、その用語の取得の際に、特徴ベクトル取得部105は、TF値やTF−IDF値を重要度として利用し、重要度の低い用語を除いて取得しても良い。また、IDF値を算出する際に対象となる文書は、関連特許書類格納部102と非関連特許書類格納部103と新規特許書類格納部104に格納されている全文書であっても良く、新規特許書類に対して処理を行わない場合は、関連特許書類格納部102と非関連特許書類格納部103とに格納されている全文書であっても良い。重要度の低い用語とは、重要度の値が閾値以下である用語であっても良く、重要度順に並べて上位から所定の個数の用語であっても良い。なお、閾値は、例えば、予め決められた値であっても良く、重要度の最大値に1より小さい数(例えば、0.9や0.8等)を掛けた値であっても良い。また、その所定の個数は、例えば、予め決められた個数であっても良く、特徴ベクトル取得部105が取得した用語の総数に1より小さい値(例えば、0.01や0.001等)を掛けた個数であっても良い。また、特徴ベクトル取得部105は、特許の書類の少なくとも一部を含む文字列から用語を取得する。特許の書類の少なくとも一部を含む文字列とは、例えば、特許の書類に記載された全文であっても良く、見出しによって識別される文字列であっても良く、複数の見出しの組み合わせによって識別される文字列であっても良い。見出しとは、例えば、発明の名称、特許請求の範囲、または要約等の特許の書類内の領域を識別するもので有れば何でも良い。なお、特徴ベクトル取得部105が、関連特許書類から用語を取得する方法について記載したが、非関連特許書類、および新規特許書類から用語を取得する場合についても同様である。   The term acquired from the related patent document by the feature vector acquisition unit 105 may be, for example, a predetermined part of speech (for example, a noun), a predetermined part of speech, or a technical term. There may be other terms. If the term is a technical term, for example, the technical term is stored in a recording medium (not shown), and the term can be acquired by determining whether the technical term is included in the related patent document. The term may be acquired by using an algorithm for extracting technical terms from a document. For the latter method, see, for example, the following document. Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by different number of words”, Information Processing Society of Japan Research Report, 2000-NL-136, p. 119-126. Nakagawa Hiroshi, Mori Yasunori, Yumoto Yasuaki, “Terminology Extraction Based on Appearance Frequency and Connection Frequency”, Natural Language Processing, Vol. 10 No. 1, p. 27-45, January 2003. When acquiring the term, the feature vector acquisition unit 105 may use the TF value or the TF-IDF value as the importance level, and may acquire the term except for the less important term. Further, the documents that are targeted when calculating the IDF value may be all documents stored in the related patent document storage unit 102, the unrelated patent document storage unit 103, and the new patent document storage unit 104, When the processing is not performed on the patent document, all documents stored in the related patent document storage unit 102 and the unrelated patent document storage unit 103 may be used. The term of low importance may be a term whose importance value is a threshold value or less, or may be a predetermined number of terms arranged in order of importance. The threshold may be a predetermined value, for example, or may be a value obtained by multiplying the maximum value of importance by a number smaller than 1 (for example, 0.9 or 0.8). The predetermined number may be a predetermined number, for example, and a value smaller than 1 (for example, 0.01 or 0.001) is added to the total number of terms acquired by the feature vector acquisition unit 105. It may be a multiplied number. The feature vector acquisition unit 105 acquires a term from a character string including at least a part of a patent document. The character string including at least a part of a patent document may be, for example, the full text described in the patent document, a character string identified by a heading, or a combination of a plurality of headings. It may be a character string. The heading may be anything as long as it identifies an area in a patent document, such as the name of an invention, a claim, or a summary. In addition, although the feature vector acquisition part 105 described about the method of acquiring a term from a related patent document, it is the same also when acquiring a term from an unrelated patent document and a new patent document.

特徴ベクトル取得部105が取得する各関連特許特徴ベクトルは、通常、特徴ベクトル取得部105が取得したすべての用語数分の次元を持つベクトルである。関連特許特徴ベクトルの要素は、例えば、用語の出現回数であっても良く、用語のTF値であっても良く、用語のTF−IDF値であっても良く、用語が特許の書類内に存在するかどうかを示す数字、具体的には「1(存在する)」「−1(存在しない)」等であっても良い。なお、特徴ベクトル取得部105が、関連特許特徴ベクトルを取得する方法について記載したが、非関連特許特徴ベクトル、および新規特許特徴ベクトルを取得する場合についても同様である。   Each related patent feature vector acquired by the feature vector acquisition unit 105 is usually a vector having dimensions corresponding to all the terms acquired by the feature vector acquisition unit 105. The element of the related patent feature vector may be, for example, the number of occurrences of the term, the TF value of the term, or the TF-IDF value of the term, and the term exists in the patent document. It may be a number indicating whether or not to be performed, specifically “1 (present)”, “−1 (not present)”, or the like. In addition, although the feature vector acquisition part 105 described about the method of acquiring a related patent feature vector, it is the same also when acquiring an unrelated patent feature vector and a new patent feature vector.

また、特徴ベクトル取得部105は、特許書類全体(全文)から特徴ベクトルを取得しても良いし、特許書類の一部分から特徴ベクトルを取得しても良い。特許書類の一部分とは、例えば、要約書のみ、特許請求の範囲のみ、要約書と特許請求の範囲、明細書のみ、または明細書の実施の形態のみ等である。   The feature vector acquisition unit 105 may acquire a feature vector from the entire patent document (full text), or may acquire a feature vector from a part of the patent document. The part of the patent document is, for example, only an abstract, claims only, an abstract and claims, a description only, or an embodiment of the specification.

なお、特徴ベクトル取得部105は、図示しない関連用語辞書を保持しており、かかる関連用語辞書に格納されている関連用語は同一の用語であると判断して、特徴ベクトルを取得しても良い。ここで、関連用語辞書は、例えば、2以上の同義語や類義語等を有する関連用語群を1以上保持している。なお、例えば、関連用語群は「データベース、データーベース、DB、リポジトリ、辞書」である。そして、特徴ベクトル取得部105は、一の関連用語群に含まれる2以上の用語は同一の用語として処理を行う。特徴ベクトル取得部105は、通常、MPUやメモリ等から実現され得る。特徴ベクトル取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   Note that the feature vector acquisition unit 105 holds a related term dictionary (not shown), and may determine that the related terms stored in the related term dictionary are the same term and acquire the feature vector. . Here, the related term dictionary holds, for example, one or more related term groups having two or more synonyms and synonyms. For example, the related term group is “database, database, DB, repository, dictionary”. Then, the feature vector acquisition unit 105 processes two or more terms included in one related term group as the same term. The feature vector acquisition unit 105 can usually be realized by an MPU, a memory, or the like. The processing procedure of the feature vector acquisition unit 105 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

判断部106は、1または2以上の関連特許特徴ベクトルと1または2以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定しても良い。なお、判断部106は、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する場合には、関連特許特徴ベクトルのクラスと判断対象の非関連特許特徴ベクトルとを用いて、判断対象の非関連特許特徴ベクトルが関連特許のクラスに属するか判断しても良く、関連特許特徴ベクトルのクラスと非関連特許特徴ベクトルのクラスと判断対象の非関連特許特徴ベクトルとを用いて、判断対象の非関連特許特徴ベクトルが関連特許のクラスに属するか判断しても良い。また、判断部106は、通常、2以上の関連特許特徴ベクトルを用いる。また、判断部106は、通常、2以上の非関連特許特徴ベクトルを用いる。かかることは、以下の他の場合でも同様である。また、判断部106は、関連特許のクラスに属するべきか否かの判断対象の非関連特許書類のベクトルである判断対象非関連特許特徴ベクトルに対応する非関連特許書類を、1以上の関連特許特徴ベクトルおよび判断対象非関連特許特徴ベクトルを除く1以上の非関連特許特徴ベクトルを用いて決定しても良い。なお、判断部106は、関連特許のクラスに属するべきか否かの判断対象の非関連特許書類のベクトルである判断対象非関連特許特徴ベクトルに対応する非関連特許書類を、1以上の関連特許特徴ベクトルおよび判断対象非関連特許特徴ベクトルを含む2以上の非関連特許特徴ベクトルを用いて決定しても良い。また、判断部106は、1または2以上の関連特許特徴ベクトル、または、1または2以上の関連特許特徴ベクトルと1または2以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき新規特許特徴ベクトルに対応する新規特許書類を決定しても良い。判断部106は、1以上の関連特許特徴ベクトル、または1以上の関連特許特徴ベクトルと1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属すべきではない関連特許特徴ベクトルに対応する関連特許書類を決定しても良い。   The determination unit 106 uses the one or more related patent feature vectors and the one or more unrelated patent feature vectors to generate an unrelated patent document corresponding to the unrelated patent feature vector that should belong to the related patent class. You may decide. When determining the unrelated patent document corresponding to the unrelated patent feature vector that should belong to the class of the related patent, the determination unit 106 determines the class of the related patent feature vector and the unrelated patent feature vector to be determined. It is possible to determine whether the unrelated patent feature vector to be determined belongs to the class of the related patent, the class of the related patent feature vector, the class of the unrelated patent feature vector, and the unrelated patent feature vector to be determined. It may be used to determine whether the unrelated patent feature vector to be determined belongs to the related patent class. The determination unit 106 normally uses two or more related patent feature vectors. The determination unit 106 normally uses two or more unrelated patent feature vectors. The same applies to other cases described below. In addition, the determination unit 106 selects one or more related patents from unrelated patent documents corresponding to a determination target unrelated patent feature vector that is a vector of non-related patent documents to be determined whether or not to belong to a related patent class. The determination may be made using one or more unrelated patent feature vectors excluding the feature vector and the determination target unrelated patent feature vector. It should be noted that the determination unit 106 outputs an unrelated patent document corresponding to a determination target unrelated patent feature vector, which is a vector of unrelated patent documents to be determined whether or not to belong to a related patent class, as one or more related patents. The determination may be made using two or more unrelated patent feature vectors including the feature vector and the determination target unrelated patent feature vector. The determination unit 106 belongs to the class of related patents using one or more related patent feature vectors, or one or more related patent feature vectors and one or more unrelated patent feature vectors. A new patent document corresponding to the new patent feature vector to be determined may be determined. The determination unit 106 uses one or more related patent feature vectors, or one or more related patent feature vectors and one or more unrelated patent feature vectors, to deal with related patent feature vectors that should not belong to the related patent class. Related patent documents may be determined.

クラスとは、1または2以上の特徴ベクトルが算出されたものの集合である。クラスには、異なる種類の特徴ベクトルを含まない。異なる種類の特徴ベクトルを含まないとは、例えば、関連特許特徴ベクトルのクラスには、関連特許特徴ベクトルではない特徴ベクトルを含まないということである。なお、判断部106は、関連特許特徴ベクトルのクラスの補集合を非関連特許の集合と判断しても良く、非関連特許特徴ベクトルのクラスの補集合を関連特許の集合と判断しても良く、関連特許特徴ベクトルのクラスと非関連特許特徴ベクトルのクラスの和集合の補集合を、関連特許でも非関連特許でもない特許書類と判断しても良い。なお、クラスは、後述する機械学習を用いて、学習器が分類した結果である集合であっても良い。   A class is a set of one or more feature vectors calculated. Classes do not contain different types of feature vectors. The phrase “not including different types of feature vectors” means, for example, that a class of related patent feature vectors does not include a feature vector that is not a related patent feature vector. The determination unit 106 may determine the complement of the related patent feature vector class as an unrelated patent set, and may determine the complement of the unrelated patent feature vector class as a related patent set. The complementary set of the union of the related patent feature vector class and the unrelated patent feature vector class may be determined as a patent document that is neither a related patent nor an unrelated patent. The class may be a set that is a result of classification by a learning device using machine learning described later.

ここで、特徴ベクトルを用いて、上記の判断する方法は問わない。例えば、判断部106は、ベクトルの類似度を用いて判断しても良く、機械学習を用いて判断しても良い。以下、判断部106がベクトルを用いて(1)1以上の非関連特許書類から、関連特許書類を決定する方法について、(A)ベクトルの類似度を用いて判断する方法、(B)機械学習を用いて判断する方法、の2つに分けて説明する。また、(2)関連特許のクラスに属する新規特許特徴ベクトルに対応する新規特許書類を決定する方法、(3)1以上の関連特許書類から、非関連特許書類を決定する方法についても、(1)と同様に2つに分けて説明する。なお、判断部106は、新規特許書類を3以上のクラスに分類しても良い。   Here, the determination method described above is not limited using the feature vector. For example, the determination unit 106 may determine using vector similarity or may use machine learning. Hereinafter, the determination unit 106 uses (1) a method for determining a related patent document from one or more unrelated patent documents using a vector, (A) a method for determining using a vector similarity, and (B) machine learning It will be described in two parts: a method of making a determination using Also, (2) a method for determining a new patent document corresponding to a new patent feature vector belonging to a class of related patents, and (3) a method for determining an unrelated patent document from one or more related patent documents (1) ) And will be described in two parts. The determination unit 106 may classify new patent documents into three or more classes.

(1)1以上の非関連特許書類から、関連特許書類を決定する方法
(A)特徴ベクトルの類似度を用いて判断
特徴ベクトルの類似度を用いて判断するとは、判断対象の非関連特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度(コサイン尺度)と、非関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度とを算出し、判断対象の非関連特許特徴ベクトルとのCOS尺度の大きい代表ベクトルの含まれるクラスに属すると判断することであっても良い。また、判断対象の非関連特許特徴ベクトルと、関連特許特徴ベクトルのクラスの1以上の各代表ベクトルとのCOS尺度を算出し、非関連特許特徴ベクトルといずれかの代表ベクトルとのCOS尺度が閾値より大きい場合に、判断部106は、当該非関連特許を関連特許であると判断しても良い。なお、COS尺度の算出方法は、公知技術であるため説明を省略する。なお、類似度の算出方法は、ピアソンの相関係数を用いても良く、偏差パターン類似度を用いても良い。ピアソンの相関係数、および偏差パターン類似度似ついては、公知技術であるため、説明を省略する。また、関連特許特徴ベクトルのクラスは1であっても良く、2以上で有っても良い。クラスを2以上作成する場合は、例えば、分割最適化クラスタリング(k−means法等)を用いて特徴ベクトルをクラスタリングしても良く、階層的クラスタリング(最短距離法等)を用いて特徴ベクトルをクラスタリングしても良く、その他の公知なクラスタリング手法を用いて特徴ベクトルをクラスタリングしても良い。なお、各クラスタリング法の詳細は公知技術であるため、説明を省略する。なお、非関連特許特徴ベクトルのクラスについても同様である。代表ベクトルとは、クラス内の最も頻出する特徴ベクトルであっても良く、クラスの平均ベクトルであっても良い。なお、平均ベクトルは、通常のベクトル平均であっても良く、すべてを単位ベクトルとして扱って算出する単位ベクトル平均であっても良い。非関連特許特徴ベクトルが関連特許特徴ベクトルとのクラスに属すると判断され場合に、その非関連特許特徴ベクトルの特許の書類を関連特許書類と決定する。
(1) Method for determining related patent document from one or more unrelated patent documents (A) Judgment using feature vector similarity Determining using feature vector similarity means unrelated patent feature to be judged Calculating a COS scale (cosine scale) of a vector, a representative vector of a class of related patent feature vectors, and a COS scale of a representative vector of a class of unrelated patent feature vectors; It may be determined that the class belongs to a class including a representative vector having a large COS measure. Further, a COS scale between the unrelated patent feature vector to be determined and one or more representative vectors of the class of the related patent feature vector is calculated, and the COS scale between the unrelated patent feature vector and one of the representative vectors is a threshold value. If larger, the determination unit 106 may determine that the unrelated patent is a related patent. Since the COS scale calculation method is a known technique, the description thereof is omitted. Note that the similarity calculation method may use a Pearson correlation coefficient or a deviation pattern similarity. Since the Pearson correlation coefficient and the deviation pattern similarity are well-known techniques, description thereof is omitted. Further, the class of the related patent feature vector may be 1, or may be 2 or more. When creating two or more classes, for example, feature vectors may be clustered using division optimization clustering (such as k-means method), or feature vectors may be clustered using hierarchical clustering (such as shortest distance method). Alternatively, the feature vectors may be clustered using other known clustering methods. Note that details of each clustering method are well-known techniques, and thus description thereof is omitted. The same applies to the class of unrelated patent feature vectors. The representative vector may be a feature vector that appears most frequently in the class, or may be an average vector of the class. The average vector may be a normal vector average, or a unit vector average calculated by treating all as unit vectors. If it is determined that the unrelated patent feature vector belongs to the class of the related patent feature vector, the patent document of the unrelated patent feature vector is determined as the related patent document.

(B)機械学習を用いて判断
機械学習を用いて判断するとは、ニューラルネットワークやSVM(Support Vector Machine)やSVR(Support Vector Regression)等の学習器を用いて学習し、学習が完了した学習器に対して、判断対象の非関連特許特徴ベクトルを分類させて関連特許特徴ベクトルのクラスに属するか判断することである。ニューラルネットワークとは、脳機能におけるいくつかの特性を計算機上のシミュレーションによって表現することを目指した学習モデルである。ニューラルネットワークには、様々な種類のモデルや方法があるが、そのどれを採用しても良い。例えば、ニューラルネットワークの種類は、パーセプトロンを採用しても良く、バックプロパケーションを採用しても良く、ボルツマンマシン等を採用しても良い。ニューラルネットワークに関する各モデルの詳細は、公知技術であるため説明を省略する。SVMとは、教師データを用いて分類パターンを学習し、分類の境界線を設定し、分類を行う学習モデルである。SVMの詳細は、公知技術であるため説明を省略する。SVRとは、教師データを用いて分類パターンを学習し、3以上のクラスに分類する学習モデルである。SVRの詳細は、公知技術であるため説明を省略する。判断部106が機械学習を用いて判断する場合、関連特許書類格納部102と非関連特許書類格納部103に格納されている特許の書類の特徴ベクトルを教師データとして学習させる。判断部106が学習に使用する素性は、特徴ベクトル取得部105が取得した各用語に対応した値である。また、判断部106が学習に使用する素性には、特許分類が含まれていても良い。特許分類を素性に含める場合は、特許分類に対して、特許分類を一意に特定する数値情報を設定し、その値を用いて学習させる。学習が完了した後、例えば、非関連特許特徴ベクトルが関連特許特徴ベクトルと判断された場合に、判断部106は、その非関連特許特徴ベクトルの特許の書類を関連特許書類と決定する。
(B) Judgment using machine learning Judgment using machine learning means learning using a learning device such as a neural network, SVM (Support Vector Machine) or SVR (Support Vector Regression), and learning is completed. On the other hand, the unrelated patent feature vector to be judged is classified to determine whether it belongs to the related patent feature vector class. A neural network is a learning model that aims to express some characteristics of brain function by computer simulation. There are various types of models and methods in the neural network, any of which may be adopted. For example, as the type of neural network, a perceptron may be employed, back-property may be employed, or a Boltzmann machine may be employed. Details of each model relating to the neural network are well known in the art, and a description thereof is omitted. SVM is a learning model that learns a classification pattern using teacher data, sets boundary lines for classification, and performs classification. Details of the SVM are well known in the art, and a description thereof will be omitted. SVR is a learning model that learns classification patterns using teacher data and classifies them into three or more classes. The details of SVR are well-known techniques, and thus the description thereof is omitted. When the determination unit 106 makes a determination using machine learning, the feature vectors of the patent documents stored in the related patent document storage unit 102 and the unrelated patent document storage unit 103 are learned as teacher data. The feature used by the determination unit 106 for learning is a value corresponding to each term acquired by the feature vector acquisition unit 105. The features used by the determination unit 106 for learning may include a patent classification. When the patent classification is included in the feature, numerical information that uniquely identifies the patent classification is set for the patent classification, and learning is performed using the value. After the learning is completed, for example, when the unrelated patent feature vector is determined to be the related patent feature vector, the determination unit 106 determines the patent document of the unrelated patent feature vector as the related patent document.

(2)関連特許のクラスに属する新規特許特徴ベクトルに対応する新規特許書類を決定する方法
(A)特徴ベクトルの類似度を用いて判断
特徴ベクトルの類似度を用いて判断するとは、判断対象の新規特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度と、非関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度とを算出し、判断対象の新規特許特徴ベクトルがCOS尺度の大きい代表ベクトルの含まれるクラスに属すると判断することである。
(2) Method for determining a new patent document corresponding to a new patent feature vector belonging to the class of related patents (A) Judging using the similarity of feature vectors Judging using the similarity of feature vectors A COS measure of a new patent feature vector, a representative vector of a class of related patent feature vectors, and a COS measure of a representative vector of a class of unrelated patent feature vectors are calculated, and the new patent feature vector to be judged is a COS measure. Is determined to belong to a class including a representative vector having a large.

(B)機械学習を用いて判断
機械学習を用いて判断するとは、ニューラルネットワークやSVM等の学習器を用いて学習し、学習が完了した学習器に対して、判断対象の新規特許特徴ベクトルを分類させて、関連特許特徴ベクトル、もしくは非関連特許特徴ベクトルのどちらのクラスに属するかを判断することである。
(B) Judgment using machine learning Judgment using machine learning means learning using a learning device such as a neural network or SVM, and a new patent feature vector to be judged is determined for a learning device that has completed learning. The classification is to determine whether the class belongs to a related patent feature vector or an unrelated patent feature vector.

(3)1以上の関連特許書類から、非関連特許書類を決定する方法
(A)特徴ベクトルの類似度を用いて判断
特徴ベクトルの類似度を用いて判断するとは、判断対象の関連特許特徴ベクトルと、関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度と、非関連特許特徴ベクトルのクラスの代表ベクトルとのCOS尺度とを算出し、判断対象の関連特許特徴ベクトルがCOS尺度の大きい代表ベクトルの含まれるクラスに属すると判断することである。
(3) Method for determining unrelated patent document from one or more related patent documents (A) Judgment using feature vector similarity Determining using feature vector similarity is related patent feature vector to be judged And a COS measure of the representative vector of the class of the related patent feature vector and a COS measure of the representative vector of the class of the non-related patent feature vector, and a representative vector having a large COS measure of the related patent feature vector to be determined Is determined to belong to the class included.

(B)機械学習を用いて判断
機械学習を用いて判断するとは、ニューラルネットワークやSVM等の学習器を用いて学習し、学習が完了した学習器に対して、判断対象の関連特許特徴ベクトルを分類させて非関連特許特徴ベクトルのクラスに属するか判断することである。
(B) Judgment using machine learning Judgment using machine learning means learning using a learning device such as a neural network or SVM, and the related patent feature vector to be judged is determined for the learning device that has completed learning. The classification is to determine whether it belongs to the class of unrelated patent feature vectors.

判断部106は、通常、MPUやメモリ等から実現され得る。判断部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The determination unit 106 can usually be realized by an MPU, a memory, or the like. The processing procedure of the determination unit 106 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

出力部107は、判断部106が決定した関連特許書類を特定する情報を出力する。また、出力部107は、判断部106が決定した関連特許のクラスに属するべき新規特許書類を特定する情報を出力する。また、出力部107は、判断部106が決定した関連特許のクラスに属すべきではない関連特許書類を特定する情報を出力する。   The output unit 107 outputs information specifying the related patent document determined by the determination unit 106. Further, the output unit 107 outputs information specifying a new patent document that should belong to the related patent class determined by the determination unit 106. Further, the output unit 107 outputs information for specifying related patent documents that should not belong to the related patent class determined by the determination unit 106.

ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への格納、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。また、出力部107は、通常、ネットワーク100を通じてユーザ端末3へ判断結果を送信する。出力部107は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。これにより、本来関連特許であるが、誤って非関連特許と分類してしまった特許の書類を見つけることができ、また、未分類の特許書類から関連特許書類のみを取得することができる。   Here, output means display on a display, projection using a projector, printing with a printer, sound output, transmission to an external device, storage on a recording medium, other processing device or other program, etc. It is a concept including delivery of processing results. Further, the output unit 107 normally transmits the determination result to the user terminal 3 through the network 100. The output unit 107 can be realized by output device driver software, or output device driver software and an output device. As a result, it is possible to find a document of a patent that is originally a related patent but erroneously classified as a non-related patent, and it is possible to obtain only a related patent document from an unclassified patent document.

図3は、本実施の形態における特許調査支援装置1の動作の一例を示すフローチャートである。以下、図3を用いて動作について説明する。   FIG. 3 is a flowchart showing an example of the operation of the patent search support apparatus 1 in the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS301)受付部101は、ユーザ端末3から1以上の関連特許書類が格納されたフォルダと、1以上の非関連特許書類が格納されたフォルダと、1以上の新規特許書類が格納されたフォルダとを受け付けたかどうかを判断する。そして、各フォルダを受け付けた場合は、ステップS302へ進み、受け付けなかった場合は、ステップS301を繰り返し実行する。   (Step S301) The reception unit 101 stores a folder storing one or more related patent documents from the user terminal 3, a folder storing one or more unrelated patent documents, and one or more new patent documents. Determine whether the folder is accepted. If each folder is received, the process proceeds to step S302. If not received, step S301 is repeatedly executed.

(ステップS302)受付部101は、受け付けた関連特許書類を関連特許書類格納部102に格納し、受け付けた非関連特許書類を非関連特許書類格納部103に格納し、受け付けた新規特許書類を新規特許書類格納部104に格納する。   (Step S302) The receiving unit 101 stores the received related patent document in the related patent document storage unit 102, stores the received non-related patent document in the non-related patent document storage unit 103, and newly receives the received new patent document. It is stored in the patent document storage unit 104.

(ステップS303)特徴ベクトル取得部105は、関連特許書類格納部102に格納されている関連特許書類から関連特許特徴ベクトルを取得する。特徴ベクトル取得部105の取得方法の詳細は、図4のフローチャートを用いて後述する。   (Step S303) The feature vector acquisition unit 105 acquires a related patent feature vector from the related patent document stored in the related patent document storage unit 102. Details of the acquisition method of the feature vector acquisition unit 105 will be described later with reference to the flowchart of FIG.

(ステップS304)特徴ベクトル取得部105は、非関連特許書類格納部103に格納されている非関連特許書類から非関連特許特徴ベクトルを取得する。特徴ベクトル取得部105の取得方法の詳細は、図4のフローチャートを用いて後述する。   (Step S304) The feature vector acquisition unit 105 acquires an unrelated patent feature vector from the unrelated patent documents stored in the unrelated patent document storage unit 103. Details of the acquisition method of the feature vector acquisition unit 105 will be described later with reference to the flowchart of FIG.

(ステップS305)特徴ベクトル取得部105は、新規特許書類格納部104に格納されている新規特許書類から新規特許特徴ベクトルを取得する。特徴ベクトル取得部105の取得方法の詳細は、図4のフローチャートを用いて後述する。   (Step S <b> 305) The feature vector acquisition unit 105 acquires a new patent feature vector from the new patent document stored in the new patent document storage unit 104. Details of the acquisition method of the feature vector acquisition unit 105 will be described later with reference to the flowchart of FIG.

(ステップS306)判断部106は、すべての関連特許特徴ベクトルから平均ベクトルを算出する。なお、ベクトルの次元が異なる場合は、最も次元の多い関連特許特徴ベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S306) The determination unit 106 calculates an average vector from all the related patent feature vectors. If the dimensions of the vectors are different, the dimensions are unified to the related patent feature vector having the largest number of dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS307)判断部106は、すべての非関連特許特徴ベクトルから平均ベクトルを算出する。なお、ベクトルの次元が異なる場合は、最も次元の多い非関連特許特徴ベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S307) The determination unit 106 calculates an average vector from all unrelated patent feature vectors. If the dimensions of the vectors are different, the dimensions are unified to the unrelated patent feature vector having the largest number of dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS308)判断部106は、カウンタmに1を代入する。   (Step S308) The determination unit 106 substitutes 1 for the counter m.

(ステップS309)判断部106は、m番目の非関連特許書類が非関連特許書類格納部103に格納されているかどうか判断する。m番目の非関連特許書類が非関連特許書類格納部103に格納されている場合は、ステップS310に進み、格納されていない場合は、ステップS312へ進む。   (Step S309) The determination unit 106 determines whether or not the m-th unrelated patent document is stored in the unrelated patent document storage unit 103. If the m-th unrelated patent document is stored in the unrelated patent document storage unit 103, the process proceeds to step S310. Otherwise, the process proceeds to step S312.

(ステップS310)判断部106は、m番目の非関連特許書類が関連特許であるかを判断する。判断部106の判断の詳細は、図5のフローチャートを用いて後述する。   (Step S310) The determination unit 106 determines whether the mth unrelated patent document is a related patent. Details of the determination by the determination unit 106 will be described later with reference to the flowchart of FIG.

(ステップS311)判断部106は、カウンタmを1だけインクリメントし、ステップS309に戻る。   (Step S311) The determination unit 106 increments the counter m by 1, and returns to step S309.

(ステップS312)判断部106は、カウンタnに1を代入する。   (Step S312) The determination unit 106 substitutes 1 for a counter n.

(ステップS313)判断部106は、n番目の新規特許書類が新規特許書類格納部104に格納されているかどうか判断する。n番目の新規特許書類が新規特許書類格納部104に格納されている場合は、ステップS314に進み、格納されていない場合は、ステップS316へ進む。   (Step S313) The determination unit 106 determines whether or not the nth new patent document is stored in the new patent document storage unit 104. If the n-th new patent document is stored in the new patent document storage unit 104, the process proceeds to step S314, and if not, the process proceeds to step S316.

(ステップS314)判断部106は、n番目の新規特許書類が関連特許であるかを判断する。判断部106の判断の詳細は、図5のフローチャートを用いて後述する。   (Step S314) The determination unit 106 determines whether the nth new patent document is a related patent. Details of the determination by the determination unit 106 will be described later with reference to the flowchart of FIG.

(ステップS315)判断部106は、カウンタnを1だけインクリメントし、ステップS313に戻る。   (Step S315) The determination unit 106 increments the counter n by 1, and returns to step S313.

(ステップS316)判断部106は、カウンタkに1を代入する。   (Step S316) The determination unit 106 substitutes 1 for the counter k.

(ステップS317)判断部106は、k番目の関連特許書類が関連特許書類格納部102に格納されているかどうか判断する。k番目の新規特許書類が関連特許書類格納部102に格納されている場合は、ステップS318に進み、格納されていない場合は、ステップS320へ進む。   (Step S317) The determination unit 106 determines whether or not the k-th related patent document is stored in the related patent document storage unit 102. If the k-th new patent document is stored in the related patent document storage unit 102, the process proceeds to step S318, and if not, the process proceeds to step S320.

(ステップS318)判断部106は、n番目の関連特許書類が非関連特許であるかを判断する。判断部106の判断の詳細は、図5のフローチャートを用いて後述する。   (Step S318) The determination unit 106 determines whether the nth related patent document is an unrelated patent. Details of the determination by the determination unit 106 will be described later with reference to the flowchart of FIG.

(ステップS319)判断部106は、カウンタkを1だけインクリメントし、ステップS317に戻る。   (Step S319) The determination unit 106 increments the counter k by 1, and returns to step S317.

(ステップS320)出力部107は、判断部106が判断した結果を出力し、終了する。   (Step S320) The output unit 107 outputs the result determined by the determination unit 106, and ends.

なお、図3のフローチャートのステップS306において、判断部106は、すべての関連特許特徴ベクトルから平均ベクトルを算出した。しかし、判断部106は、すべての関連特許特徴ベクトルの距離の差が一定以内(COS尺度が閾値以上)の2以上のグループを構成し、グループごとに、関連特許特徴ベクトルの平均ベクトルを算出しても良い。   In step S306 in the flowchart of FIG. 3, the determination unit 106 calculates an average vector from all the related patent feature vectors. However, the determination unit 106 configures two or more groups within which the difference in distance between all related patent feature vectors is within a certain range (COS scale is equal to or greater than a threshold), and calculates an average vector of the related patent feature vectors for each group. May be.

また、ステップS307において、判断部106は、すべての非関連特許特徴ベクトルから平均ベクトルを算出した。しかし、判断部106は、すべての非関連特許特徴ベクトルの距離の差が一定以内(COS尺度が閾値以上)の2以上のグループを構成し、グループごとに、非関連特許特徴ベクトルの平均ベクトルを算出しても良い。また、図3のフローチャートにおいて、非関連特許書類の特徴ベクトルは算出されなくても良い。   In step S307, the determination unit 106 calculates an average vector from all unrelated patent feature vectors. However, the determination unit 106 configures two or more groups within which the difference in distance between all unrelated patent feature vectors is within a certain range (COS scale is equal to or greater than a threshold value), and calculates an average vector of unrelated patent feature vectors for each group. It may be calculated. Further, in the flowchart of FIG. 3, the feature vector of the unrelated patent document may not be calculated.

図4は、図3の特徴ベクトルの算出(ステップS302、S303、S304)の動作の一例を示すフローチャートである。以下、図4を用いて、特徴ベクトルの算出処理について説明する。なお、図4におけるXには、ステップS302から呼び出された場合は、関連特許書類が代入され、ステップS303から呼び出された場合は、非関連特許書類が代入され、ステップS304から呼び出された場合は、新規特許書類が代入されているものとする。以下は、Xに関連特許書類が代入されたステップS302から呼び出されたものとして説明する。ステップS303、およびステップS304については、それぞれ読み替えるものとする。   FIG. 4 is a flowchart illustrating an example of the operation of the feature vector calculation (steps S302, S303, and S304) in FIG. The feature vector calculation process will be described below with reference to FIG. In FIG. 4, X is assigned a related patent document when called from step S302, and when called from step S303, an unrelated patent document is assigned, and when called from step S304. Suppose that a new patent document is assigned. The following description will be made assuming that the call is made from step S302 in which the related patent document is assigned to X. Step S303 and step S304 are to be read respectively.

(ステップS401)特徴ベクトル取得部105は、カウンタpに1を代入する。   (Step S401) The feature vector acquisition unit 105 assigns 1 to the counter p.

(ステップS402)特徴ベクトル取得部105は、p番目の関連特許書類が関連特許書類格納部102に格納されているかどうか判断する。p番目の関連特許書類が関連特許書類格納部102に格納されている場合は、ステップS403に進み、格納されていない場合は、上位の処理に戻る。   (Step S <b> 402) The feature vector acquisition unit 105 determines whether the p-th related patent document is stored in the related patent document storage unit 102. If the p-th related patent document is stored in the related patent document storage unit 102, the process proceeds to step S403. If the p-th related patent document is not stored, the process returns to the upper process.

(ステップS403)特徴ベクトル取得部105は、p番目の関連特許書類から用語をすべて取得する。   (Step S403) The feature vector acquisition unit 105 acquires all terms from the p-th related patent document.

(ステップS404)特徴ベクトル取得部105は、ステップS403で取得した用語を図示しない用語格納部に重複しないように追記する。なお、図示しない用語格納部は、処理が終了するまで用語を追記され続ける。   (Step S404) The feature vector acquisition unit 105 adds the term acquired in step S403 so as not to overlap with a term storage unit (not shown). Note that a term storage unit (not shown) continues to add terms until the processing is completed.

(ステップS405)特徴ベクトル取得部105は、ステップS403で取得した用語のTF−IDF値を算出する。なお、特徴ベクトル取得部105は、図示しない関連用語辞書を保持しており、かかる関連用語辞書に格納されている関連用語は同一の用語であると判断して、用語のTF−IDF値を算出しても良い。   (Step S405) The feature vector acquisition unit 105 calculates the TF-IDF value of the term acquired in step S403. Note that the feature vector acquisition unit 105 holds a related term dictionary (not shown), determines that the related terms stored in the related term dictionary are the same term, and calculates the TF-IDF value of the term. You may do it.

(ステップS406)特徴ベクトル取得部105は、図示しない用語格納部に格納されている用語が格納されている順に用語のTF−IDF値を要素に持ったベクトルを作成する。なお、p番目の関連特許書類に記載されていない用語の要素は0とする。   (Step S406) The feature vector acquisition unit 105 creates a vector having TF-IDF values of terms as elements in the order in which the terms stored in a term storage unit (not shown) are stored. In addition, the element of the term which is not described in the p-th related patent document is set to 0.

(ステップS407)特徴ベクトル取得部105は、ステップS406で作成した特徴ベクトルを特許書類の種類と対応付けて図示しない特徴ベクトル格納部に格納する。特許書類の種類とは、関連特許であるか、非関連特許であるか、または新規特許であるかを示す情報である。   (Step S407) The feature vector acquisition unit 105 stores the feature vector created in step S406 in a feature vector storage unit (not shown) in association with the type of patent document. The type of patent document is information indicating whether it is a related patent, a non-related patent, or a new patent.

(ステップS408)特徴ベクトル取得部105は、カウンタpを1だけインクリメントし、ステップS402に戻る。   (Step S408) The feature vector acquisition unit 105 increments the counter p by 1, and returns to step S402.

図5は、図3の判断(ステップS310、S314、S317)の動作の一例を示すフローチャートである。以下、図5を用いて、判断処理について説明する。なお、Yには、ステップS310から呼び出された場合は、m番目の非関連特許書類が代入され、ステップS314から呼び出された場合は、n番目の新規特許書類が代入され、ステップS317から呼び出された場合は、k番目の関連特許書類が代入されているものとする。また、Zには、ステップS310から呼び出された場合は、関連特許が代入され、ステップS314から呼び出された場合は、関連特許が代入され、ステップS317から呼び出された場合は、非関連特許が代入されているものとする。以下は、Yに非関連特許書類が代入され、Zに関連特許が代入されたステップS310から呼び出されたものとして説明する。ステップS314、およびステップS317については、それぞれ読み替えるものとする。   FIG. 5 is a flowchart showing an example of the operation of the determination of FIG. 3 (steps S310, S314, and S317). Hereinafter, the determination process will be described with reference to FIG. Note that, when called from step S310, the m-th unrelated patent document is substituted for Y, and when called from step S314, the n-th new patent document is substituted and called from step S317. In this case, it is assumed that the kth related patent document is assigned. In Z, a related patent is substituted when called from step S310, a related patent is substituted when called from step S314, and an unrelated patent is substituted when called from step S317. It is assumed that The following description is based on the assumption that the non-related patent document is assigned to Y and the related patent is assigned to Z, and is called from step S310. Step S314 and step S317 are to be read respectively.

(ステップS501)判断部106は、関連特許の平均ベクトルとm番目の非関連特許書類の特徴ベクトルとのCOS尺度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S501) The determination unit 106 calculates a COS measure between the average vector of related patents and the feature vector of the m-th unrelated patent document. When the dimensions of the vectors are different, the dimensions are unified into a vector with many dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS502)判断部106は、非関連特許の平均ベクトルとm番目の非関連特許書類の特徴ベクトルとのCOS尺度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S502) The determination unit 106 calculates a COS measure between the average vector of unrelated patents and the feature vector of the m-th unrelated patent document. When the dimensions of the vectors are different, the dimensions are unified into a vector with many dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS503)判断部106は、COS尺度が大きい平均ベクトルが、関連特許の平均ベクトルであるかどうか判断する。関連特許の平均ベクトルであった場合は、ステップS504へ進み、関連特許の平均ベクトルでなかった場合は、上位の処理に戻る。   (Step S503) The determination unit 106 determines whether an average vector having a large COS measure is an average vector of related patents. If it is the average vector of the related patents, the process proceeds to step S504, and if it is not the average vector of the related patents, the process returns to the upper process.

(ステップS504)判断部106は、図示しない判断結果格納部にm番目の非関連特許書類は、関連特許の可能性があること特許書類IDと対応付けて格納する。   (Step S504) The determination unit 106 stores in the determination result storage unit (not shown) the mth unrelated patent document in association with the patent document ID that there is a possibility of a related patent.

なお、判断部106が、すべての関連特許特徴ベクトルの距離の差が一定以内の2以上のグループを構成し、グループごとに、関連特許特徴ベクトルの平均ベクトルを算出している場合、図5のフローチャートにおいて、非関連特許の特許特徴ベクトルが、いずれかのグループの関連特許特徴ベクトルの平均ベクトルとのCOS尺度が閾値より大きければ、判断部106は、かかる非関連特許を関連特許と判断しても良い。また、かかる場合、図5のフローチャートにおいて、非関連特許の特許特徴ベクトルと、最もCOS尺度が大きい平均ベクトルが、いずれかのグループの関連特許特徴ベクトルの平均ベクトルである場合、判断部106は、かかる非関連特許を関連特許と判断しても良い。   In the case where the determination unit 106 forms two or more groups within which the difference in distance between all the related patent feature vectors is within a certain range and calculates the average vector of the related patent feature vectors for each group, FIG. In the flowchart, if the COS measure of the patent feature vector of the unrelated patent and the average vector of the related patent feature vectors of any group is larger than the threshold, the determination unit 106 determines that the unrelated patent is the related patent. Also good. In such a case, in the flowchart of FIG. 5, when the patent feature vector of the unrelated patent and the average vector having the largest COS scale are the average vectors of the related patent feature vectors of any group, the determination unit 106 Such unrelated patents may be determined as related patents.

また、判断部106が、すべての関連特許特徴ベクトルの距離の差が一定以内の2以上のグループを構成し、グループごとに、関連特許特徴ベクトルの平均ベクトルを算出している場合、図5のフローチャートにおいて、新規特許書類の特許特徴ベクトルと、いずれかのグループの関連特許特徴ベクトルの平均ベクトルとのCOS尺度が閾値より大きい場合、判断部106は、かかる新規特許書類を関連特許と判断しても良い。一方、新規特許書類の特許特徴ベクトルと、いずれのグループの関連特許特徴ベクトルの平均ベクトルとのCOS尺度が閾値より小さい場合、判断部106は、かかる新規特許書類を非関連特許と判断しても良い。   Further, when the determining unit 106 forms two or more groups within which the distance difference between all the related patent feature vectors is within a certain range and calculates the average vector of the related patent feature vectors for each group, FIG. In the flowchart, when the COS measure between the patent feature vector of the new patent document and the average vector of the related patent feature vectors of any group is larger than the threshold, the determination unit 106 determines that the new patent document is a related patent. Also good. On the other hand, when the COS measure between the patent feature vector of the new patent document and the average vector of the related patent feature vectors of any group is smaller than the threshold, the determination unit 106 determines that the new patent document is an unrelated patent. good.

また、判断部106が、すべての関連特許特徴ベクトルの距離の差が一定以内の2以上のグループを構成し、グループごとに、関連特許特徴ベクトルの平均ベクトルを算出している場合、図5のフローチャートにおいて、関連特許の特許特徴ベクトルが、すべてのグループの関連特許特徴ベクトルの平均ベクトルとのCOS尺度が閾値より小さければ、判断部106は、かかる関連特許を非関連特許と判断しても良い。さらに、図5のフローチャートにおいて、非関連特許の特許特徴ベクトルを用いなくても良い。   Further, when the determining unit 106 forms two or more groups within which the distance difference between all the related patent feature vectors is within a certain range and calculates the average vector of the related patent feature vectors for each group, FIG. In the flowchart, if the COS measure of the patent feature vector of the related patent and the average vector of the related patent feature vectors of all the groups is smaller than the threshold, the determination unit 106 may determine the related patent as an unrelated patent. . Further, in the flowchart of FIG. 5, the patent feature vector of the unrelated patent need not be used.

以下、本実施の形態における特許調査支援装置1の具体的な動作について説明する。ユーザ端末3のユーザが、ポインティングデバイスやキーボード等を操作し、図6で示されるように、関連特許書類が格納されている関連特許フォルダと、非関連特許書類が格納されている非関連特許フォルダと、新規特許書類が格納されている新規特許書類フォルダとを選択した後、「実行」ボタンをクリックしたとする。すると、ネットワーク100を解して、受付部101が受け付ける。受付部101は、各フォルダのデータを受け付けると、関連特許フォルダ内の関連特許書類は、関連特許書類格納部102へ、非関連特許フォルダ内の非関連特許書類は、非関連特許書類格納部103へ、新規特許フォルダ内の新規特許書類は、新規特許書類格納部104へ格納する(ステップS301、S302)。本具体例において、各特許書類格納部に格納されている特許の書類は、図7で示されるものであるとする。図7(a)は、関連特許書類格納部102に格納されている関連特許書類を示し、図7(b)は、非関連特許書類格納部103に格納されている非関連特許書類を示し、図7(c)は、新規特許書類格納部104に格納されている新規特許書類を示す。図7の各テーブルは、特許書類IDと、発明の名称と、要約の文章と、特許請求の範囲の文章と、背景技術の文章等とを有するレコードを多数有している。なお、特許書類IDは、ここでは、公開番号である。また、特許書類は、ここではテーブルのレコードで示しているが、そのデータ構造は問わないことは言うまでもない。   Hereinafter, a specific operation of the patent research support device 1 in the present embodiment will be described. As shown in FIG. 6, the user of the user terminal 3 operates a pointing device, a keyboard, or the like, and related patent folders storing related patent documents and unrelated patent folders storing non-related patent documents. And a new patent document folder in which new patent documents are stored, and then the “execute” button is clicked. Then, the accepting unit 101 accepts the network 100. When the receiving unit 101 receives the data of each folder, the related patent documents in the related patent folder are transferred to the related patent document storage unit 102, and the unrelated patent documents in the unrelated patent folder are set to the unrelated patent document storage unit 103. The new patent documents in the new patent folder are stored in the new patent document storage unit 104 (steps S301 and S302). In this specific example, it is assumed that the patent documents stored in each patent document storage unit are as shown in FIG. 7A shows related patent documents stored in the related patent document storage unit 102, FIG. 7B shows non-related patent documents stored in the non-related patent document storage unit 103, FIG. 7C shows a new patent document stored in the new patent document storage unit 104. Each table in FIG. 7 has a large number of records including a patent document ID, an invention name, a summary text, a claim text, a background art text, and the like. Here, the patent document ID is a public number here. Further, although patent documents are shown here as records in a table, it goes without saying that the data structure does not matter.

特徴ベクトル取得部105は、関連特許書類格納部102に格納されている関連特許書類と、非関連特許書類格納部103に格納されている非関連特許書類と、新規特許書類格納部104に格納されている新規特許書類とから特徴ベクトルを作成する(ステップS303〜S305)。以下、かかる処理の詳細を説明する。   The feature vector acquisition unit 105 is stored in the related patent document stored in the related patent document storage unit 102, the unrelated patent document stored in the unrelated patent document storage unit 103, and the new patent document storage unit 104. A feature vector is created from the new patent document (steps S303 to S305). Hereinafter, details of such processing will be described.

特徴ベクトル取得部105は、関連特許書類格納部102から1件目の関連特許書類である「特許書類ID:特開2011−AAAAAA」を取得する(ステップS401、S402)。特徴ベクトル取得部105は、取得した「特許書類ID:特開2011−AAAAAA」から、名詞の連続である「データ管理装置」、「表示部」、「検索キーワード」、「データ管理システム」、「電子機器」、「位置情報」、「現在位置」や「コンピュータ」等を用語として取得する。特徴ベクトル取得部105は、取得した用語を図示しない用語格納部に追記する(ステップS403、S404)。特徴ベクトル取得部105は、取得した用語ごとにTF−IDF値を「データ管理装置:0.0264」や「表示部:0.1628」等のように算出する(ステップS405)。そして、特徴ベクトル取得部105は、TF−IDF値を要素に持ったベクトルを作成し、図示しない特徴ベクトル格納部に格納する(ステップS406、S407)。そして、特徴ベクトル取得部105は、次の特許書類に処理を移す(ステップS408)。以下、特徴ベクトル取得部105は、同様に関連特許書類格納部102、非関連特許書類格納部103、および新規特許書類格納部104のすべての特許の書類に対して特徴ベクトルを作成する。特徴ベクトル取得部105が取得した各特許書類の特徴ベクトルは、図8で示されるものであるとする。図8のテーブルは、特許書類IDと、特許書類の種類と、図示しない用語格納部に格納された用語に対応するベクトルの要素とを有するレコードを多数有している。   The feature vector acquisition unit 105 acquires “patent document ID: JP2011-AAAAAA”, which is the first related patent document, from the related patent document storage unit 102 (steps S401 and S402). The feature vector acquisition unit 105 obtains a series of nouns “data management device”, “display unit”, “search keyword”, “data management system”, “data management system”, from the acquired “patent document ID: JP2011-AAAAAA”. “Electronic device”, “location information”, “current location”, “computer”, and the like are acquired as terms. The feature vector acquisition unit 105 adds the acquired term to a term storage unit (not shown) (steps S403 and S404). The feature vector acquisition unit 105 calculates a TF-IDF value for each acquired term as “data management device: 0.0264”, “display unit: 0.1628”, or the like (step S405). Then, the feature vector acquisition unit 105 creates a vector having the TF-IDF value as an element and stores it in a feature vector storage unit (not shown) (steps S406 and S407). Then, the feature vector acquisition unit 105 moves the process to the next patent document (step S408). Hereinafter, the feature vector acquisition unit 105 similarly creates feature vectors for all patent documents in the related patent document storage unit 102, the unrelated patent document storage unit 103, and the new patent document storage unit 104. The feature vector of each patent document acquired by the feature vector acquisition unit 105 is assumed to be as shown in FIG. The table of FIG. 8 has a large number of records having patent document IDs, patent document types, and vector elements corresponding to terms stored in a term storage unit (not shown).

判断部106は、関連特許の特徴ベクトルの平均ベクトルと非関連特許の特徴ベクトルの平均ベクトルを算出する(ステップS306、S307)。   The determination unit 106 calculates an average vector of feature vectors of related patents and an average vector of feature vectors of unrelated patents (steps S306 and S307).

判断部106は、1件目の非関連特許書類である「特許書類ID:特開2012−DDDDDD」の非関連特許特徴ベクトルを図示しない特徴ベクトル格納部から取得する(ステップS308、S309)。判断部106は、取得した非関連特許特徴ベクトルと関連特許特徴ベクトルの平均ベクトルとのCOS尺度、および非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する(ステップS501、S502)。「特許書類ID:特開2012−DDDDDD」の非関連特許特徴ベクトルは、関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかったとする。判断部106は、「特許書類ID:特開2012−DDDDDD」を図示しない判断結果格納部に関連特許の可能性があることを示す情報と対応付けて格納する(ステップS310、S503、S504)。なお、判断部106は、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、何も格納しない。そして、判断部106は、次の非関連特許特徴ベクトルに処理を移す(ステップS311)。以降、判断部106は、図示しない特徴ベクトル格納部に格納されている残りの非関連特許書類すべてに対しても同様に判断する。   The determination unit 106 acquires an unrelated patent feature vector of “patent document ID: JP2012-DDDDDD” which is the first unrelated patent document from a feature vector storage unit (not shown) (steps S308 and S309). The determination unit 106 calculates a COS measure between the acquired unrelated patent feature vector and the average vector of the related patent feature vectors, and a COS measure between the average vector of the unrelated patent feature vectors (steps S501 and S502). It is assumed that the non-related patent feature vector of “Patent Document ID: JP2012-DDDDDD” has a larger COS scale with the average vector of the related patent feature vectors. The determination unit 106 stores “patent document ID: JP2012-DDDDDD” in association with information indicating that there is a possibility of a related patent in a determination result storage unit (not shown) (steps S310, S503, and S504). Note that the determination unit 106 stores nothing if the COS scale with the average vector of unrelated patent feature vectors is larger. Then, the determination unit 106 moves the process to the next unrelated patent feature vector (step S311). Thereafter, the determination unit 106 similarly determines all remaining unrelated patent documents stored in a feature vector storage unit (not shown).

判断部106は、1件目の新規特許書類である「特許書類ID:特開2012−GGGGGG」の新規特許特徴ベクトルを図示しない特徴ベクトル格納部から取得する(ステップS312、S313)。判断部106は、取得した新規特許特徴ベクトルと関連特許特徴ベクトルの平均ベクトルとのCOS尺度、および非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する。「特許書類ID:特開2012−GGGGGG」の新規特許特徴ベクトルは、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかったとする。判断部106は、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、何も格納せずに次の新規特許特徴ベクトルに処理を移す(ステップS315)。なお、判断部106は、関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、「特許書類ID」を図示しない判断結果格納部に関連特許の可能性があることを示す情報と対応付けて格納する(ステップS314)。以降、判断部106は、図示しない特徴ベクトル格納部に格納されている残りの新規特許書類すべてに対しても同様に判断する。   The determination unit 106 acquires a new patent feature vector of “patent document ID: JP2012-GGGGGG”, which is the first new patent document, from a feature vector storage unit (not shown) (steps S312 and S313). The determination unit 106 calculates a COS measure between the acquired new patent feature vector and the average vector of the related patent feature vectors, and a COS measure between the average vector of the unrelated patent feature vectors. It is assumed that the new patent feature vector of “Patent Document ID: JP2012-GGGGGG” has a larger COS scale with the average vector of unrelated patent feature vectors. If the COS scale with the average vector of unrelated patent feature vectors is larger, the determination unit 106 moves the processing to the next new patent feature vector without storing anything (step S315). In addition, when the COS scale with the average vector of the related patent feature vectors is larger, the determination unit 106 is information indicating that there is a possibility of a related patent in the determination result storage unit not illustrated with “patent document ID”. And stored in association with each other (step S314). Thereafter, the determination unit 106 similarly determines all remaining new patent documents stored in a feature vector storage unit (not shown).

判断部106は、1件目の関連特許書類である「特許書類ID:特開2011−AAAAAA」の関連特許特徴ベクトルを図示しない特徴ベクトル格納部から取得する(ステップS316、S317)。判断部106は、取得した関連特許特徴ベクトルと関連特許特徴ベクトルの平均ベクトルとのCOS尺度、および非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する。「特許書類ID:特開2011−AAAAAA」の非関連特許特徴ベクトルは、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかったとする。判断部106は、「特許書類ID:特開2011−AAAAAA」を図示しない判断結果格納部に非関連特許の可能性があることを示す情報と対応付けて格納する(ステップS318)。なお、判断部106は、関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、何も格納しない。そして、判断部106は、次の関連特許特徴ベクトルに処理を移す(ステップS319)。以降、判断部106は、図示しない特徴ベクトル格納部に格納されている残りの非関連特許書類すべてに対しても同様に判断する。   The determination unit 106 acquires a related patent feature vector of “patent document ID: JP2011-AAAAAA”, which is the first related patent document, from a feature vector storage unit (not shown) (steps S316 and S317). The determination unit 106 calculates a COS measure between the acquired related patent feature vector and the average vector of the related patent feature vectors, and a COS measure between the average vector of the unrelated patent feature vectors. It is assumed that the unrelated patent feature vector of “Patent Document ID: JP2011-AAAAAA” has a larger COS scale with the average vector of unrelated patent feature vectors. The determination unit 106 stores “patent document ID: JP2011-AAAAAA” in association with information indicating that there is a possibility of an unrelated patent in a determination result storage unit (not shown) (step S318). Note that the determination unit 106 stores nothing when the COS scale with the average vector of the related patent feature vectors is larger. Then, the determination unit 106 moves the process to the next related patent feature vector (step S319). Thereafter, the determination unit 106 similarly determines all remaining unrelated patent documents stored in a feature vector storage unit (not shown).

出力部107は、図示しない判断結果格納部に「特許書類ID」が格納されたことを検知すると、「特許書類ID」と関連特許書類、または非関連特許書類の可能性があるかを示す情報とをネットワーク100を介してユーザ端末3に送信する(ステップS320)。ユーザ端末3では、「特開2012−DDDDDD」と「特開2005−FFFFFF」等とを非関連特許書類格納部103内にある関連特許の可能性がある特許書類として表示される。また、「特開2011−AAAAAA」等を関連特許書類格納部102内にある非関連特許の可能性がある特許書類として表示される。また、「特開2011−HHHHHH」等を新規特許書類格納部104内にある関連特許の可能性がある特許書類として表示される。ユーザ端末3では、図9で示されるように表示される。ユーザは、図9の表示を見ることにより、例えば、誤って非関連特許として分類してしまっていた特許書類を再度確認する。   When the output unit 107 detects that the “patent document ID” is stored in the determination result storage unit (not shown), the information indicating whether there is a possibility of the “patent document ID” and the related patent document or the unrelated patent document. Are transmitted to the user terminal 3 via the network 100 (step S320). On the user terminal 3, “JP 2012-DDDDDD”, “JP 2005-FFFFFF”, and the like are displayed as patent documents that may be related patents in the unrelated patent document storage unit 103. In addition, “JP 2011-AAAAAA” or the like is displayed as a patent document that may be an unrelated patent in the related patent document storage unit 102. In addition, “JP 2011-HHHHHH” or the like is displayed as a patent document that may be a related patent in the new patent document storage unit 104. On the user terminal 3, it is displayed as shown in FIG. By viewing the display in FIG. 9, for example, the user confirms again a patent document that has been erroneously classified as an unrelated patent.

以上、本実施の形態の特許調査支援装置1によれば、特許調査を行った際に誤って非関連特許書類として分類してしまった関連特許書類をチェックできるため、ヒューマンエラーによる調査漏れを回避することができる。また、特許調査を行った際に誤って関連特許書類と分類してしまった非関連特許書類をチェックできるため、作業時間を短縮できる。また、ある程度関連特許、非関連特許を分類していれば、未分類の新規特許書類が関連特許書類であるかを判断できるため、以降の特許調査にかかる作業時間を短縮できる。   As described above, according to the patent search support apparatus 1 of the present embodiment, it is possible to check related patent documents that are mistakenly classified as unrelated patent documents when a patent search is performed, thereby avoiding a search omission due to a human error. can do. In addition, it is possible to check unrelated patent documents that have been mistakenly classified as related patent documents during a patent search, thereby reducing work time. Further, if related patents and non-related patents are classified to some extent, it is possible to determine whether an unclassified new patent document is a related patent document, so that the time required for subsequent patent searches can be shortened.

なお、本実施の形態において、特許調査支援装置1が新規特許書類格納部104を備える場合について説明したが、特許調査支援装置1は、新規特許書類格納部104を備えていなくてもよい。新規特許書類格納部104を備えていない場合には、特許調査支援装置1は、新規特許書類に関する処理は、行わなくても良い。   In the present embodiment, the case where the patent search support apparatus 1 includes the new patent document storage unit 104 has been described. However, the patent search support apparatus 1 may not include the new patent document storage unit 104. In the case where the new patent document storage unit 104 is not provided, the patent search support device 1 may not perform the process related to the new patent document.

また、本実施の形態において、特許調査支援装置1の判断部106は、関連特許書類格納部102に格納された特許の書類から非関連特許の可能性のある特許の書類であるかを判断する場合について説明したが、判断部106は、関連特許書類格納部102に格納された特許の書類から非関連特許の可能性のある特許の書類であるかを判断しなくても良い。関連特許書類格納部102に格納された特許の書類から非関連特許の可能性のある特許の書類であるかを判断しない場合は、非関連特許書類格納部103に格納された特許の書類から関連特許の可能性のある特許の書類であるかのみを判断しても良く、非関連特許書類格納部103に格納された特許の書類から関連特許の可能性のある特許の書類と、新規特許書類格納部104に格納された関連特許書類の可能性のある特許の書類であるかを判断しても良い。   In the present embodiment, the determination unit 106 of the patent search support apparatus 1 determines whether the patent document stored in the related patent document storage unit 102 is a patent document that may be an unrelated patent. Although the case has been described, the determination unit 106 may not determine from the patent documents stored in the related patent document storage unit 102 whether the document is a patent document that may be an unrelated patent. If it is not determined from the patent documents stored in the related patent document storage unit 102 whether the patent document is a potentially unrelated patent, the related documents are stored in the unrelated patent document storage unit 103. It may be determined whether the document is a patent document that may be a patent, a patent document that may be a related patent and a new patent document from the patent documents stored in the unrelated patent document storage unit 103. It may be determined whether or not the patent document is a related patent document stored in the storage unit 104.

また、本実施の形態において、特許調査支援装置1の判断部106が、非関連特許特徴ベクトルのクラスに判断対象の特徴ベクトルが属する場合に非関連特許であると判断したが、判断部106は、非関連特許特徴ベクトルのクラスを用いず、関連特許特徴ベクトルのクラスのみを用いて、非関連特許書類格納部103に格納された特許の書類から関連特許の可能性のある特許の書類であるかを判断しても良く、新規特許書類格納部104に格納された特許の書類から関連特許の可能性のある特許の書類であるかを判断しても良く、関連特許書類格納部102に格納された特許の書類から非関連特許の可能性のある特許の書類であるかを判断しても良い。非関連特許特徴ベクトルのクラスを用いない場合は、関連特許特徴ベクトルのクラスに属さない特徴ベクトルを非関連特許としても良い。なお、非関連特許特徴ベクトルのクラスを用いない場合には、機械学習を用いる方法は、使用できないため、関連特許特徴ベクトルの1または2以上のクラスの代表ベクトルとの類似度を用いて関連特許特徴ベクトルのクラスに属するか否かを判断する。クラスに属するか否かの判断は、例えば、代表ベクトルと判断対象の特徴ベクトルとの類似度が予め定めた閾値以上であるかどうかで判断しても良く、各クラスタリング手法を用いて、関連特許特徴ベクトルのクラスにクラスタリングされるか否かで判断しても良い。   Further, in the present embodiment, the determination unit 106 of the patent search support apparatus 1 determines that the determination target feature vector belongs to the class of the unrelated patent feature vector, but the determination unit 106 This is a patent document that may be a related patent from the patent documents stored in the unrelated patent document storage unit 103 using only the related patent feature vector class without using the class of the unrelated patent feature vector. It may be determined whether it is a patent document that has a possibility of a related patent from the patent documents stored in the new patent document storage unit 104, and is stored in the related patent document storage unit 102. It may be determined whether the document is a patent document that may be an unrelated patent. When the non-related patent feature vector class is not used, a feature vector that does not belong to the related patent feature vector class may be used as an unrelated patent. If a class of unrelated patent feature vectors is not used, a method using machine learning cannot be used. Therefore, a related patent is used by using the similarity of a related patent feature vector with one or more representative vectors of classes. It is determined whether or not it belongs to a feature vector class. The determination as to whether or not belonging to a class may be made based on, for example, whether or not the similarity between the representative vector and the feature vector to be determined is equal to or greater than a predetermined threshold. The determination may be made based on whether or not the feature vector class is clustered.

また、本実施の形態における特許調査支援装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部とにアクセス可能なコンピュータを、1以上の各関連特許書類から1以上の用語を取得し、1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、1以上の各非関連特許書類から1以上の用語を取得し、1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する特徴ベクトル取得部、1以上の関連特許特徴ベクトル、および1以上の非関連特許特徴ベクトルを用いて、1以上の非関連特許書類から、関連特許書類を決定する判断部、判断部が決定した関連特許書類を特定する情報を出力する出力部として機能させるためのプログラムである。   Moreover, the software which implement | achieves the patent search assistance apparatus 1 in this Embodiment is the following programs. That is, the program includes a related patent document storage unit that can store one or more related patent documents that are determined to be related as a result of screening work in the patent search, and a related result of screening work in the patent search. A computer having access to an unrelated patent document storage unit capable of storing one or more unrelated patent documents, which are documents of unrelated patents determined not to be used, and one or more terms from each of the one or more related patent documents; Obtain a related patent feature vector, which is a vector of each related patent document using one or more terms, for each related patent document, and acquire one or more terms from each of one or more unrelated patent documents A feature vector acquisition unit that acquires, for each unrelated patent document, an unrelated patent feature vector that is a vector of each unrelated patent document using one or more terms, and one or more related patent feature vectors And one or more unrelated patent feature vectors, a determination unit for determining related patent documents from one or more unrelated patent documents, and an output unit for outputting information specifying the related patent documents determined by the determination unit It is a program to make it function as.

(実施の形態2)
本実施の形態において、特許書類を関連特許と非関連特許とに人手で分類された結果を用いて、未分類の特許書類等から関連特許書類、または非関連特許書類である可能性のある特許の書類を判断し、その結果を出力する特許調査支援装置2について説明する。
(Embodiment 2)
In the present embodiment, using a result obtained by manually classifying a patent document into a related patent and an unrelated patent, a patent that may be a related patent document or an unrelated patent document from an unclassified patent document, etc. The patent search support apparatus 2 that determines the document and outputs the result will be described.

図1は、本実施の形態における特許調査支援装置1を含むシステムの概念図であるが、特許調査支援装置1を特許調査支援装置2と読み替えることで、特許調査支援装置2を含むシステムの概念図とする。   FIG. 1 is a conceptual diagram of a system including a patent search support apparatus 1 according to the present embodiment. By replacing the patent search support apparatus 1 with a patent search support apparatus 2, the concept of a system including the patent search support apparatus 2 is illustrated. The figure.

図2は、本実施の形態における特許調査支援装置1のブロック図であるが、判断部106を判断部201、出力部107を出力部202と読み替えることで、特許調査支援装置2のブロック図とする。特許調査支援装置2は、受付部101、関連特許書類格納部102、非関連特許書類格納部103、新規特許書類格納部104、特徴ベクトル取得部105、判断部201、および出力部202を備える。受付部101、関連特許書類格納部102、非関連特許書類格納部103、新規特許書類格納部104、および特徴ベクトル取得部105は、実施の形態1と同様であるため、説明を省略する。   FIG. 2 is a block diagram of the patent search support apparatus 1 according to the present embodiment. By replacing the determination unit 106 with the determination unit 201 and the output unit 107 with the output unit 202, FIG. To do. The patent research support apparatus 2 includes a reception unit 101, a related patent document storage unit 102, an unrelated patent document storage unit 103, a new patent document storage unit 104, a feature vector acquisition unit 105, a determination unit 201, and an output unit 202. Since the receiving unit 101, the related patent document storage unit 102, the unrelated patent document storage unit 103, the new patent document storage unit 104, and the feature vector acquisition unit 105 are the same as those in the first embodiment, the description thereof is omitted.

判断部201は、1または2以上の関連特許特徴ベクトルを用いて、新規特許書類の特許特徴ベクトルが関連特許のクラスに属するか否かを決定する。また、判断部201は、1または2以上の関連特許特徴ベクトル、および1または2以上の非関連特許特徴ベクトルを用いて、新規特許書類の特許特徴ベクトルが関連特許のクラスか、非関連特許のクラスかを決定する。特徴ベクトルを用いる方法、及びクラスの概念については、実施の形態1の判断部106と同様であるため、説明を省略する。判断部201は、新規特許書類が関連特許特徴ベクトルのクラス、または非関連特許特徴ベクトルのクラスに属するか否かを判断する。また、判断部201は、関連特許特徴ベクトルのクラスに属するか否かを判断しても良く、非関連特許特徴ベクトルのクラスに属するか否かを判断しても良い。なお、判断部201は、一方のクラスに属さない新規特許書類を他方のクラスに属すると判断し持てよい。判断部201の判断の方法は、判断部106と概ね同様であるが、判断部106では、判断結果の扱いが異なる。例えば、判断部106では、新規特許書類が、関連特許であるか否かを判断する場合に、関連特許ではないと判断すれば、その判断結果を利用しなかったが、ここでは、判断部201は、当該新規特許書類が示す特許を非関連特許であると判断する。判断部201は、通常、MPUやメモリ等から実現され得る。判断部201の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The determination unit 201 uses one or more related patent feature vectors to determine whether or not the patent feature vector of the new patent document belongs to the related patent class. In addition, the determination unit 201 uses one or more related patent feature vectors and one or more unrelated patent feature vectors to determine whether the patent feature vector of the new patent document is a related patent class or an unrelated patent. Decide whether it is a class. Since the method using the feature vector and the concept of class are the same as those of the determination unit 106 of the first embodiment, description thereof is omitted. The determination unit 201 determines whether the new patent document belongs to a class of related patent feature vectors or a class of unrelated patent feature vectors. Further, the determination unit 201 may determine whether or not it belongs to the class of the related patent feature vector, and may determine whether or not it belongs to the class of the unrelated patent feature vector. The determination unit 201 may determine that a new patent document that does not belong to one class belongs to the other class. The determination method of the determination unit 201 is substantially the same as that of the determination unit 106, but the determination unit 106 handles the determination result differently. For example, when the determination unit 106 determines whether or not the new patent document is a related patent, if it is determined that the new patent document is not a related patent, the determination result is not used. Determines that the patent indicated by the new patent document is an unrelated patent. The determination unit 201 can usually be realized by an MPU, a memory, or the like. The processing procedure of the determination unit 201 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

出力部202は、判断部201が決定したクラスを、新規特許書類ごとに出力する。出力部107は、通常、ネットワーク100を通じてユーザ端末3へ判断結果を送信する。出力部107は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。これにより、未分類の特許書類から関連特許書類、または非関連特許書類を分類して取得することができる。   The output unit 202 outputs the class determined by the determination unit 201 for each new patent document. The output unit 107 normally transmits the determination result to the user terminal 3 through the network 100. The output unit 107 can be realized by output device driver software, or output device driver software and an output device. Thereby, related patent documents or unrelated patent documents can be classified and acquired from unclassified patent documents.

図10は、本実施の形態における特許調査支援装置1の動作の一例を示すフローチャートである。以下、図10を用いて動作について説明する。なお、ステップS301〜S307については、実施の形態1と同様であるため、説明を省略する。   FIG. 10 is a flowchart showing an example of the operation of the patent search support apparatus 1 in the present embodiment. Hereinafter, the operation will be described with reference to FIG. Steps S301 to S307 are the same as those in the first embodiment, and a description thereof will be omitted.

(ステップS601)判断部201は、カウンタnに1を代入する。   (Step S601) The determination unit 201 assigns 1 to a counter n.

(ステップS602)判断部201は、n番目の新規特許書類が新規特許書類格納部104に格納されているかどうか判断する。n番目の新規特許書類が新規特許書類格納部104に格納されている場合は、ステップS603に進み、格納されていない場合は、ステップS607へ進む。   (Step S <b> 602) The determination unit 201 determines whether the nth new patent document is stored in the new patent document storage unit 104. If the nth new patent document is stored in the new patent document storage unit 104, the process proceeds to step S603, and if not, the process proceeds to step S607.

(ステップS603)判断部201は、関連特許の平均ベクトルとn番目の新規特許書類の特徴ベクトルとのCOS尺度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S603) The determination unit 201 calculates a COS measure between the average vector of related patents and the feature vector of the nth new patent document. When the dimensions of the vectors are different, the dimensions are unified into a vector with many dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS604)判断部201は、非関連特許の平均ベクトルとn番目の新規特許書類の特徴ベクトルとのCOS尺度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。   (Step S604) The determination unit 201 calculates a COS measure between the average vector of unrelated patents and the feature vector of the nth new patent document. When the dimensions of the vectors are different, the dimensions are unified into a vector with many dimensions. 0 is assigned to the dimension element that has been increased during unification.

(ステップS605)判断部201は、COS尺度が大きい方の平均ベクトルの特許書類の種類を、図示しない判断結果格納部にn番目の新規特許書類IDと対応付けて格納する。   (Step S605) The determination unit 201 stores the type of the average vector patent document having the larger COS scale in association with the nth new patent document ID in a determination result storage unit (not shown).

(ステップS606)判断部201は、カウンタnを1だけインクリメントし、ステップS313に戻る。   (Step S606) The determination unit 201 increments the counter n by 1, and returns to step S313.

(ステップS607)出力部202は、判断部201が判断した結果を出力し、終了する。   (Step S607) The output unit 202 outputs the result determined by the determination unit 201, and ends.

以下、本実施の形態における特許調査支援装置2の具体的な動作について説明する。なお、判断部201、および出力部202を除く動作については、実施の形態1と同様であるため、説明を省略し、図7の関連特許書類格納部102と非関連特許書類格納部103と新規特許書類格納部104とにデータが格納され、図8の各特許書類の特徴ベクトルが取得された状態とする。   Hereinafter, a specific operation of the patent research support device 2 in the present embodiment will be described. Since operations other than the determination unit 201 and the output unit 202 are the same as those in the first embodiment, description thereof will be omitted, and the related patent document storage unit 102, the unrelated patent document storage unit 103 in FIG. Data is stored in the patent document storage unit 104, and the feature vector of each patent document in FIG. 8 is acquired.

判断部201は、1件目の新規特許書類である「特許書類ID:特開2012−GGGGGG」の新規特許特徴ベクトルを図示しない特徴ベクトル格納部から取得する(ステップS601、S602)。判断部106は、取得した新規特許特徴ベクトルと関連特許特徴ベクトルの平均ベクトルとのCOS尺度、および非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する(ステップS603、S604)。「特許書類ID:特開2012−GGGGGG」の新規特許特徴ベクトルは、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかったとする。判断部106は、「特許書類ID:特開2012−GGGGGG」を図示しない判断結果格納部に非関連特許の可能性があることを示す情報と対応付けて格納する。(ステップS605)。なお、判断部106は、関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、「特許書類ID:特開2012−GGGGGG」を図示しない判断結果格納部に関連特許の可能性があることを示す情報と対応付けて格納する。そして、判断部201は、次の新規特許特徴ベクトルに処理を移す(ステップS606)以降、判断部201は、図示しない特徴ベクトル格納部に格納されている残りの新規特許書類すべてに対しても同様に判断する。   The determination unit 201 acquires a new patent feature vector of “patent document ID: JP 2012-GGGGGG”, which is the first new patent document, from a feature vector storage unit (not shown) (steps S601 and S602). The determination unit 106 calculates a COS measure between the acquired new patent feature vector and the average vector of the related patent feature vectors, and a COS measure between the average vector of the unrelated patent feature vectors (steps S603 and S604). It is assumed that the new patent feature vector of “Patent Document ID: JP2012-GGGGGG” has a larger COS scale with the average vector of unrelated patent feature vectors. The determination unit 106 stores “patent document ID: JP 2012-GGGGGG” in association with information indicating that there is a possibility of an unrelated patent in a determination result storage unit (not shown). (Step S605). If the COS scale with the average vector of the related patent feature vectors is larger, the determination unit 106 may have a related patent in the determination result storage unit (not shown) “Patent Document ID: JP2012-GGGGGG”. And stored in association with information indicating that there is. Then, after the determination unit 201 moves the process to the next new patent feature vector (step S606), the determination unit 201 also applies to all the remaining new patent documents stored in the feature vector storage unit (not shown). Judgment.

出力部202は、図示しない判断結果格納部に「特許書類ID」が格納されたことを検知すると、「特許書類ID」と関連特許書類、または非関連特許書類であるかを示す情報とを出力する(ステップS607)。具体例では、「特開2011−HHHHHH」等を新規特許書類格納部104内にある関連特許の可能性がある特許書類とし、特開2012−GGGGGG」や「特開2005−IIIIII」等を新規特許書類格納部104内にある非関連特許書類として出力した。出力部202は、ネットワーク100を介して、ユーザ端末3に送信する。ユーザ端末3は、出力部202が送信した判断結果を受信すると、図11で示される表示を行う。ユーザは、図11の表示を見ることにより、特許書類を確認する。   When the output unit 202 detects that the “patent document ID” is stored in a determination result storage unit (not shown), the output unit 202 outputs “patent document ID” and information indicating whether the document is a related patent document or an unrelated patent document. (Step S607). In a specific example, “JP2011-HHHHHH” or the like is a patent document that may be a related patent in the new patent document storage unit 104, and JP2012-GGGGGG or “JP2005-IIIIII” is new. Output as unrelated patent documents in the patent document storage unit 104. The output unit 202 transmits to the user terminal 3 via the network 100. When the user terminal 3 receives the determination result transmitted by the output unit 202, the user terminal 3 performs the display shown in FIG. The user confirms the patent document by looking at the display of FIG.

以上、本実施の形態の特許調査支援装置2によれば、ある程度関連特許、非関連特許を分類していれば、未分類の新規特許書類が関連特許書類であるか、非関連特許書類であるかを判断できるため、特許調査を効率的に行うことができる。   As described above, according to the patent research support device 2 of the present embodiment, if a related patent and an unrelated patent are classified to some extent, an unclassified new patent document is a related patent document or an unrelated patent document. Therefore, patent search can be conducted efficiently.

また、本実施の形態における特許調査支援装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部と、1以上の関連特許書類および1以上の非関連特許書類を除いた関連特許の書類である1以上の新規特許書類を格納し得る新規特許書類格納部とにアクセス可能なコンピュータを、1以上の各関連特許書類から1以上の用語を取得し、1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、1以上の各非関連特許書類から1以上の用語を取得し、1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得し、かつ、1以上の各新規特許書類から1以上の用語を取得し、1以上の用語を用いて各新規特許書類のベクトルである新規特許特徴ベクトルを、新規特許書類ごとに取得する特徴ベクトル取得部、1以上の関連特許特徴ベクトル、および1以上の非関連特許特徴ベクトルを用いて、新規特許書類の特許特徴ベクトルが属するクラスが関連特許のクラスか、非関連特許のクラスかを決定する判断部、判断部が決定したクラスを、新規特許書類ごとに出力する出力部として機能させるためのプログラムである。   Moreover, the software which implement | achieves the patent search assistance apparatus 1 in this Embodiment is the following programs. That is, the program includes a related patent document storage unit that can store one or more related patent documents that are determined to be related as a result of screening work in the patent search, and a related result of screening work in the patent search. Non-related patent document storage unit that can store one or more non-related patent documents that are determined to be non-related patents, and related patents excluding one or more related patent documents and one or more non-related patent documents A computer having access to a new patent document storage that can store one or more new patent documents that are documents of the same, obtain one or more terms from each of the one or more related patent documents, and use the one or more terms A related patent feature vector, which is a vector of each related patent document, is acquired for each related patent document, and one or more terms are acquired from each of one or more unrelated patent documents, and the one or more terms are used. An unrelated patent feature vector, which is a vector of unrelated patent documents, is acquired for each unrelated patent document, and one or more terms are acquired from each of one or more new patent documents, and A new patent feature vector that is a vector of a new patent document is obtained for each new patent document by using a feature vector acquisition unit, one or more related patent feature vectors, and one or more unrelated patent feature vectors. This is a program for functioning as a decision unit that determines whether the class to which a patent feature vector belongs is a related patent class or an unrelated patent class, and an output unit that outputs the class determined by the decision unit for each new patent document. .

なお、上記各実施の形態において、特許調査支援装置1、2が受付部101を備える場合について説明したが、特許調査支援装置1、および2は、受付部101を備えていなくてもよい。受付部101を備えていない場合には、関連特許書類格納部102と非関連特許書類格納部103と新規特許書類格納部104とに予め特許書類が格納されている特許調査支援装置1、および2であっても良い。   In each of the above embodiments, the case where the patent search support apparatuses 1 and 2 include the reception unit 101 has been described. However, the patent search support apparatuses 1 and 2 may not include the reception unit 101. If the receiving unit 101 is not provided, the patent search support apparatuses 1 and 2 in which patent documents are stored in advance in the related patent document storage unit 102, the unrelated patent document storage unit 103, and the new patent document storage unit 104 It may be.

また、上記各実施の形態において、特許調査支援装置1、2の受付部101が新規特許書類を受け付ける場合について説明したが、受付部101は、新規特許書類を受け付けなくても良い。受付部101が新規特許書類を受け付けない場合には、図示しない外部、または内部の3以上の特許書類を格納する特許書類格納部から、受付部101が受け付けた関連特許書類と、非関連特許書類を除いた特許書類を取得し、新規特許書類として新規特許書類格納部に格納しても良い。   In each of the above embodiments, the case where the receiving unit 101 of the patent search support apparatuses 1 and 2 receives a new patent document has been described. However, the receiving unit 101 may not receive a new patent document. When the receiving unit 101 does not receive a new patent document, a related patent document and an unrelated patent document received by the receiving unit 101 from a patent document storage unit that stores three or more patent documents outside or not illustrated. Patent documents other than the above may be acquired and stored in the new patent document storage unit as new patent documents.

また、上記各実施の形態では、サーバ・クライアントシステムである場合について説明したが、上記各装置はサーバ・クライアントシステムにおけるサーバ装置であっても良く、スタンドアロンの装置であっても良い。スタンドアロンの装置であった場合、受付部101は、キーボードやマウス、タッチパネル等の入力デバイスから入力された情報の受け付けても良い。出力部107、及び出力部202は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字等のための出力を行っても良い。   Further, although cases have been described with the above embodiments where they are server / client systems, each of the above devices may be a server device in a server / client system or may be a stand-alone device. In the case of a stand-alone device, the receiving unit 101 may receive information input from an input device such as a keyboard, a mouse, or a touch panel. The output unit 107 and the output unit 202 may perform output for display on a display, projection using a projector, printing with a printer, and the like.

また、上記各実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。   In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.

なお、上記各プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。   In each of the above programs, the function realized by the program does not include a function that can be realized only by hardware. For example, functions that can be realized only by hardware such as a modem and an interface card in an acquisition unit that acquires information, an output unit that outputs information, and the like are not included in the functions realized by the program.

図12は、上記各プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。   FIG. 12 is a schematic diagram showing an example of the external appearance of a computer that executes the above-described programs to realize the present invention according to the above-described embodiment. The embodiment described above can be realized by computer hardware and a computer program executed on the computer hardware.

図12において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。   In FIG. 12, a computer system 1100 includes a computer 1101 including a CD-ROM drive 1105 and an FD drive 1106, a keyboard 1102, a mouse 1103, and a monitor 1104.

図13は、コンピュータシステム1100の内部構成を示す図である。図13において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを記憶するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。   FIG. 13 is a diagram showing an internal configuration of the computer system 1100. In FIG. 13, in addition to the CD-ROM drive 1105 and the FD drive 1106, a computer 1101 is connected to an MPU 1111, a ROM 1112 for storing a program such as a bootup program, and an MPU 1111. And a RAM 1113 that provides a temporary storage space, a hard disk 1114 that stores application programs, system programs, and data, an MPU 1111, a bus 1115 that interconnects the ROM 1112, and the like. The computer 1101 may include a network card (not shown) that provides connection to the LAN.

コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。   A program for causing the computer system 1100 to execute the functions of the present invention according to the above embodiment is stored in the CD-ROM 1121 or the FD 1122, inserted into the CD-ROM drive 1105 or the FD drive 1106, and transferred to the hard disk 1114. May be. Instead, the program may be transmitted to the computer 1101 via a network (not shown) and stored in the hard disk 1114. The program is loaded into the RAM 1113 when executed. The program may be loaded directly from the CD-ROM 1121, the FD 1122, or the network.

プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 1101 to execute the functions of the present invention according to the above-described embodiment. The program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 1100 operates is well known and will not be described in detail.

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

関連特許と非関連特許とを分類する時間を短縮し、一度非関連特許と分類された特許の書類に誤りがあれば、それが再考される機会を得ることができるため、例えば、特許調査支援装置等として有用である。   For example, patent search support can reduce the time to classify related patents and non-related patents, and if there is an error in the documents of patents that have been classified as non-related patents, there is an opportunity to reconsider them. It is useful as a device.

1、2 特許調査支援装置
101 受付部
102 関連特許書類格納部
103 非関連特許書類格納部
104 新規特許書類格納部
105 特徴ベクトル取得部
106、201 判断部
107、202 出力部
DESCRIPTION OF SYMBOLS 1, 2, Patent search support apparatus 101 Reception part 102 Related patent document storage part 103 Unrelated patent document storage part 104 New patent document storage part 105 Feature vector acquisition part 106, 201 Judgment part 107, 202 Output part

Claims (6)

特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、
特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部と、
前記1以上の各関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、前記1以上の各非関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する特徴ベクトル取得部と、
前記1以上の関連特許特徴ベクトルと前記1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する判断部と、
前記判断部が決定した非関連特許書類を特定する情報を出力する出力部とを具備する特許調査支援装置。
A related patent document storage unit capable of storing one or more related patent documents, which are related patent documents determined to be related as a result of the screening work in the patent search;
A non-related patent document storage unit capable of storing one or more non-related patent documents, which are non-related patent documents determined to be irrelevant as a result of screening in the patent search;
Obtaining one or more terms from each of the one or more related patent documents, obtaining a related patent feature vector, which is a vector of each related patent document using the one or more terms, for each related patent document; and Features that acquire one or more terms from each of one or more unrelated patent documents, and acquire, for each unrelated patent document, an unrelated patent feature vector that is a vector of each unrelated patent document using the one or more terms A vector acquisition unit;
Using the one or more related patent feature vectors and the one or more unrelated patent feature vectors to determine a non-related patent document corresponding to an unrelated patent feature vector that should belong to a class of related patents;
A patent search support apparatus comprising: an output unit that outputs information for specifying an unrelated patent document determined by the determination unit.
前記判断部は、
関連特許のクラスに属するべきか否かの判断対象の非関連特許書類のベクトルである判断対象非関連特許特徴ベクトルに対応する非関連特許書類を、前記1以上の関連特許特徴ベクトルおよび前記判断対象非関連特許特徴ベクトルを除く1以上の非関連特許特徴ベクトルを用いて決定する、請求項1記載の特許調査支援装置。
The determination unit
An unrelated patent document corresponding to a judgment object unrelated patent feature vector, which is a vector of unrelated patent documents to be judged as to whether or not to belong to a related patent class, includes the one or more related patent feature vectors and the judgment target The patent search support device according to claim 1, wherein the determination is made using one or more unrelated patent feature vectors excluding unrelated patent feature vectors.
前記1以上の関連特許書類および前記1以上の非関連特許書類を除いた特許の書類である1以上の新規特許書類を格納し得る新規特許書類格納部をさらに具備し、
前記特徴ベクトル取得部は、
前記1以上の各新規特許書類から1以上の用語を取得し、当該1以上の用語を用いて各新規特許書類のベクトルである新規特許特徴ベクトルを、新規特許書類ごとに取得し、
前記判断部は、
前記1以上の関連特許特徴ベクトル、または前記1以上の関連特許特徴ベクトルと前記1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき新規特許特徴ベクトルに対応する新規特許書類を決定し、
前記出力部は、
前記判断部が決定した関連特許のクラスに属するべき新規特許書類を特定する情報を出力する、請求項1または請求項2記載の特許調査支援装置。
A new patent document storage unit capable of storing one or more new patent documents that are patent documents excluding the one or more related patent documents and the one or more unrelated patent documents;
The feature vector acquisition unit
Obtaining one or more terms from each of the one or more new patent documents, obtaining a new patent feature vector, which is a vector of each new patent document, using the one or more terms for each new patent document;
The determination unit
A new patent document corresponding to a new patent feature vector that should belong to a class of related patents using the one or more related patent feature vectors or the one or more related patent feature vectors and the one or more unrelated patent feature vectors Decide
The output unit is
The patent search support device according to claim 1 or 2, wherein information specifying a new patent document that should belong to a class of related patents determined by the determination unit is output.
前記判断部は、
前記1以上の関連特許特徴ベクトル、または前記1以上の関連特許特徴ベクトルと前記1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属すべきではない関連特許特徴ベクトルに対応する関連特許書類を決定し、
前記出力部は、
前記判断部が決定した関連特許のクラスに属すべきではない関連特許書類を特定する情報を出力する、請求項1から請求項3いずれか記載の特許調査支援装置。
The determination unit
Associations corresponding to related patent feature vectors that should not belong to a class of related patents using the one or more related patent feature vectors or the one or more related patent feature vectors and the one or more unrelated patent feature vectors Determine patent documents,
The output unit is
The patent search support device according to any one of claims 1 to 3, which outputs information specifying a related patent document that should not belong to a related patent class determined by the determination unit.
特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部と、特徴ベクトル取得部と、判断部と、出力部とを用いて処理される特許調査支援方法であって、
前記特徴ベクトル取得部が、前記1以上の各関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、前記1以上の各非関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する特徴ベクトル取得ステップと、
前記判断部が、前記1以上の関連特許特徴ベクトルと前記1以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する判断ステップと、
前記出力部が、前記判断ステップで決定した関連特許書類を特定する情報を出力する出力ステップとを具備する特許調査支援方法。
As a result of screening work in patent search, a related patent document storage unit that can store one or more related patent documents that are determined to be related, and as a result of screening work in patent search, it was determined to be irrelevant Patent search support method processed using an unrelated patent document storage unit capable of storing one or more unrelated patent documents that are unrelated patent documents, a feature vector acquisition unit, a determination unit, and an output unit There,
The feature vector acquisition unit acquires one or more terms from the one or more related patent documents, and uses the one or more terms to determine a related patent feature vector that is a vector of each related patent document for each related patent document. And acquiring one or more terms from each of the one or more unrelated patent documents, and using the one or more terms, a non-related patent feature vector, which is a vector of each unrelated patent document, A feature vector acquisition step for each patent document;
The determination unit determines an unrelated patent document corresponding to an unrelated patent feature vector to belong to a related patent class using the one or more related patent feature vectors and the one or more unrelated patent feature vectors. A decision step ;
A patent search support method, comprising: an output step in which the output unit outputs information specifying the related patent document determined in the determination step.
特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る関連特許書類格納部と、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る非関連特許書類格納部とにアクセス可能なコンピュータを、
前記1以上の各関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得し、かつ、前記1以上の各非関連特許書類から1以上の用語を取得し、当該1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する特徴ベクトル取得部、
前記1以上の関連特許特徴ベクトルと前記1以上の非関連特許特徴ベクトルを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する判断部、
前記判断部が決定した非関連特許書類を特定する情報を出力する出力部として機能させるためのプログラム。
As a result of screening work in patent search, a related patent document storage unit that can store one or more related patent documents that are determined to be related, and as a result of screening work in patent search, it was determined to be irrelevant A computer accessible to an unrelated patent document storage section capable of storing one or more unrelated patent documents that are unrelated patent documents;
Obtaining one or more terms from each of the one or more related patent documents, obtaining a related patent feature vector, which is a vector of each related patent document using the one or more terms, for each related patent document; and Features that acquire one or more terms from each of one or more unrelated patent documents, and acquire, for each unrelated patent document, an unrelated patent feature vector that is a vector of each unrelated patent document using the one or more terms Vector acquisition part,
A determination unit that determines an unrelated patent document corresponding to an unrelated patent feature vector that should belong to a class of related patents using the one or more related patent feature vectors and the one or more unrelated patent feature vectors;
The program for functioning as an output part which outputs the information which specifies the unrelated patent document determined by the said judgment part.
JP2012096778A 2012-04-20 2012-04-20 Patent search support device, patent search support method, and program Expired - Fee Related JP5971794B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012096778A JP5971794B2 (en) 2012-04-20 2012-04-20 Patent search support device, patent search support method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012096778A JP5971794B2 (en) 2012-04-20 2012-04-20 Patent search support device, patent search support method, and program

Publications (2)

Publication Number Publication Date
JP2013225207A JP2013225207A (en) 2013-10-31
JP5971794B2 true JP5971794B2 (en) 2016-08-17

Family

ID=49595225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012096778A Expired - Fee Related JP5971794B2 (en) 2012-04-20 2012-04-20 Patent search support device, patent search support method, and program

Country Status (1)

Country Link
JP (1) JP5971794B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844478B (en) * 2017-11-20 2020-12-04 浪潮卓数大数据产业发展有限公司 Patent file processing method and device
EP3716099A4 (en) 2017-11-22 2021-07-14 Kao Corporation Document classification device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4550882B2 (en) * 2004-11-25 2010-09-22 シャープ株式会社 Information classification device, information classification method, information classification program, information classification system
JP2008084064A (en) * 2006-09-28 2008-04-10 National Institute Of Advanced Industrial & Technology Text classification processing method, text classification processing device and text classification processing program
JP5137567B2 (en) * 2007-12-28 2013-02-06 三菱電機株式会社 Search filtering device and search filtering program
JP2010118050A (en) * 2008-10-17 2010-05-27 Toyohashi Univ Of Technology System and method for automatically searching patent literature
JP2010128530A (en) * 2008-11-25 2010-06-10 Asahi Kasei Corp Document classification evaluation device, document classification evaluation method and program
JP5692074B2 (en) * 2009-08-11 2015-04-01 日本電気株式会社 Information classification apparatus, information classification method, and program

Also Published As

Publication number Publication date
JP2013225207A (en) 2013-10-31

Similar Documents

Publication Publication Date Title
JP6053131B2 (en) Information processing apparatus, information processing method, and program
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
KR102589649B1 (en) Machine learning decision-guiding techniques for alerts generated in monitoring systems
WO2017113592A1 (en) Model generation method, word weighting method, apparatus, device and computer storage medium
US9659052B1 (en) Data object resolver
WO2018121198A1 (en) Topic based intelligent electronic file searching
JP2015225669A (en) Annotation display assistance device and annotation display assistance method
CN106407316B (en) Software question and answer recommendation method and device based on topic model
CN112384909A (en) Method and system for improving text-to-content suggestions using unsupervised learning
KR101638535B1 (en) Method of detecting issue patten associated with user search word, server performing the same and storage medium storing the same
CN110941702A (en) Retrieval method and device for laws and regulations and laws and readable storage medium
CN112400165A (en) Method and system for improving text-to-content suggestions using unsupervised learning
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN113326363B (en) Searching method and device, prediction model training method and device and electronic equipment
JP5971794B2 (en) Patent search support device, patent search support method, and program
WO2021154429A1 (en) Siamese neural networks for flagging training data in text-based machine learning
CN111460257A (en) Thematic generation method and device, electronic equipment and storage medium
US20190265954A1 (en) Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram
US10698971B2 (en) Method and apparatus for storing access log based on keyword
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
JP5912813B2 (en) Patent Search Result Evaluation Device, Patent Search Result Evaluation Method, and Program
JP2010198498A (en) Information processor and information processing method and program
CN109597873A (en) Processing method, device, computer-readable medium and the electronic equipment of corpus data
EP3432154A1 (en) Method and apparatus for providing search recommendation information
US11790014B2 (en) System and method of determining content similarity by comparing semantic entity attributes

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160708

R150 Certificate of patent or registration of utility model

Ref document number: 5971794

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees