JP2005339412A - Patent map generation method and program - Google Patents
Patent map generation method and program Download PDFInfo
- Publication number
- JP2005339412A JP2005339412A JP2004160365A JP2004160365A JP2005339412A JP 2005339412 A JP2005339412 A JP 2005339412A JP 2004160365 A JP2004160365 A JP 2004160365A JP 2004160365 A JP2004160365 A JP 2004160365A JP 2005339412 A JP2005339412 A JP 2005339412A
- Authority
- JP
- Japan
- Prior art keywords
- word
- patent specification
- group
- specification document
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は,特定の対象に関する複数の特許が与えられた際に、それらの特許群に含まれる特許の相互の関係を内容に基づいて分類し、該分類された特許群をその分類の状況が視覚的にわかり易いように表示する特許マップ生成技術、特にミクロマップ生成技術に関する。 In the present invention, when a plurality of patents related to a specific object are given, the mutual relations of the patents included in those patent groups are classified based on the contents, and the classified patent groups are classified according to the classification status. The present invention relates to a patent map generation technique for displaying in a visually easy-to-understand manner, and more particularly to a micromap generation technique.
特許マップには、特定の技術領域に関する特許群に基づき出願傾向を可視化したマクロマップと、特定の対象に関する特許群について、1つ以上の観点に基づいて、該特許群に含まれる特許相互の関係を分類し、個々の特許が該対象に関する発明においてどのような位置づけにあるかを可視化するミクロマップとがある。 The patent map includes a macro map that visualizes application trends based on a group of patents related to a specific technical field, and a relationship between patents included in the group of patents based on one or more viewpoints regarding a group of patents related to a specific object And a micromap that visualizes how each patent is positioned in the subject invention.
本発明はミクロマップに関するものであるが、従来、ミクロマップの作成には、技術対象についての専門知識と特許文書の形式に関する知識が必要であるとされ、技術対象が属する技術分野における特許専門家が人手により作成していた。 The present invention relates to a micromap. Conventionally, the creation of a micromap requires technical knowledge about the technical object and knowledge about the format of the patent document, and patent experts in the technical field to which the technical object belongs. Was created manually.
しかし、このような背景技術においては、技術対象が属する技術分野ごとの特許専門家の人数が少ないために、一定期間に作成できる特許マップの数が限られてしまう点、膨大な費用を必要とする点が問題となっている。知的財産についての企業や個人の意識の高まりとともに、特許マップの重要性が増しているにも関わらず、このように、特許マップの作成が数少ない専門家の能力にのみ依存している点が、国の特許戦略上も大きな問題である。 However, in such background technology, since the number of patent experts for each technical field to which the technical object belongs is small, the number of patent maps that can be created in a certain period is limited, and enormous costs are required. This is a problem. Despite the increasing importance of patent maps with the increasing awareness of companies and individuals about intellectual property, the creation of patent maps depends only on the skills of a few specialists. The national patent strategy is also a big problem.
本発明の課題は、当該技術対象分野の特許専門家が人手のみにより特許マップを作成することに起因する量的な限界と高価な費用という課題を解決するために、コンピュータ等により自動的または半自動的に特許マップを生成する方法を提供することにある。 An object of the present invention is to automatically or semi-automatically use a computer or the like in order to solve the problem of quantitative limitations and expensive costs caused by a patent expert in the technical subject field creating a patent map only by hand. It is intended to provide a method for generating a patent map.
本発明は、特許マップ生成の対象となる特許明細文書群に含まれる語に関する知識ベースであるところの「概念ベース」を、該特許明細文書群における語の使われ方を統計処理することにより生成し、該概念ベースを用いて該特許明細文書群に含まれる個々の特許明細文書についてのベクトル値を計算し、該ベクトル値に基づいて該特許明細文書群をクラスタリングすることにより、該特許明細文書群の個々の特許明細書が表す特許がどのクラスターに属するかに基づいて、該個々の特許の該特許明細文書群における位置づけを明らかにし、その位置を視覚化することにより特許マップを生成する。 The present invention generates a “concept base”, which is a knowledge base related to a word included in a patent specification document group that is a target of patent map generation, by statistically processing how the word is used in the patent specification document group. And calculating a vector value for each patent specification document included in the patent specification document group using the concept base, and clustering the patent specification document group based on the vector value, thereby obtaining the patent specification document Based on which cluster the patents represented by the individual patent specifications of the group belong, the patent map is generated by clarifying the position of the individual patent in the patent specification document group and visualizing the position.
以下、本発明における課題を解決するための手段についてより具体的に説明する。
特定の対象に関する特許明細文書の集合は、記憶装置に格納される。記憶装置に格納された特許文書の集合(ここでは特許明細文書群と呼ぶ)の個々の特許明細文書から、与えられた特許マップ生成のための観点に基づき、該観点に関連する部分を抽出する。該特許明細文書から抽出された部分を、特許マップ生成において、該特許明細文書を代表するものとする。該抽出された特許明細文書の部分に対し、分かち書き処理を行って単語の列として、これを記憶装置に格納する。この処理を該特許明細文書群に含まれるすべての特許明細文書に対して施すことにより、抽出された特許明細文書に対応する単語列の群が、記憶装置に格納されることになる。
Hereinafter, means for solving the problems in the present invention will be described more specifically.
A collection of patent specification documents relating to a particular subject is stored in a storage device. Based on a given viewpoint for generating a patent map, a portion related to the viewpoint is extracted from each patent specification document of a set of patent documents (referred to as a patent specification document group) stored in the storage device. . The part extracted from the patent specification document shall be representative of the patent specification document in patent map generation. The extracted portion of the patent specification document is subjected to a splitting process and stored as a word string in the storage device. By applying this process to all patent specification documents included in the patent specification document group, a group of word strings corresponding to the extracted patent specification document is stored in the storage device.
該単語列群に対して、単語の出現頻度、単語と単語の出現距離の関係等に基づいて統計的な処理を行い、該単語列群に含まれるすべての異なった単語について、個々の単語に対応するベクトル値を計算し、記憶装置に格納する。この処理により、特許明細文書の抽出された部分に出現する単語に対し、該単語と該単語に対応するベクトル値とが組として得られる。この単語と該単語に対応するベクトルの組から成る集合を概念ベースと呼ぶ。概念ベースから単語を検索することにより、該単語に対応するベクトル値を得ることができる。 Statistical processing is performed on the word string group based on the appearance frequency of the word, the relationship between the word and the word appearance distance, etc., and all the different words included in the word string group are assigned to individual words. The corresponding vector value is calculated and stored in the storage device. By this processing, for the word appearing in the extracted part of the patent specification document, the word and the vector value corresponding to the word are obtained as a set. A set composed of a set of this word and a vector corresponding to the word is called a concept base. By retrieving a word from the concept base, a vector value corresponding to the word can be obtained.
概念ベースを作成した後、抽出された特許明細文書の部分の群の中の個々の抽出された特許明細文書の部分について、対応する単語列に含まれる個々の単語に関して概念ベースから該単語のベクトル値を得て、該単語列にわたってすべての単語に対応するベクトルを総和して、これを該特許明細文書が表す特許の特許ベクトル値とする。すなわち、これまでの処理により、与えられた特許明細文書群に含まれる個々の特許明細文書が表す特許に対して、対応する特許ベクトル値が付与される。 After creating the concept base, for each extracted patent specification document part in the group of extracted patent specification document parts, the word vector from the concept base with respect to the individual words contained in the corresponding word string The values are obtained and the vectors corresponding to all the words over the word string are summed, and this is used as the patent vector value of the patent represented by the patent specification document. That is, according to the processing so far, the corresponding patent vector value is assigned to the patent represented by each patent specification document included in the given patent specification document group.
特許ベクトル値が、記憶装置に格納されたすべての特許明細文書が表す特許に対して得られた後、該特許明細文書群が表す特許群を該特許ベクトル値に基づきクラスタリングを行う。該クラスタリング処理により、該特許群は、1以上のクラスターに分類される。 After patent vector values are obtained for patents represented by all patent specification documents stored in the storage device, the patent groups represented by the patent specification document groups are clustered based on the patent vector values. By the clustering process, the patent group is classified into one or more clusters.
分類のための観点が複数与えられている場合には、上述した、特許明細文書から観点に関連する部分を抽出する処理からクラスタリング処理までを、観点ごとに繰り返すことにより、個々の特許について、それぞれの観点における分類が得られる。 When multiple viewpoints for classification are given, the above-described processing from extracting a part related to the viewpoint from the patent specification document to the clustering process is repeated for each viewpoint, for each patent. Classification in terms of
得られた個々の観点における分類に基づいて、与えられた特許群を紙面や画面等の2次元平面状に配置すること等により特許マップを得る。
本発明の特許マップ生成方法では、与えられた特許の特許明細文書のうち、特許マップ作成の観点に関連する部分を抽出し、該抽出された部分の文書を単語列に分け、単語列に含まれる単語に対して統計処理を施すことにより、個々の単語に対応するベクトル値を得る。得られたベクトル値は、該特許明細文書の部分の群における単語の使われ方を反映しており、これは、該特許明細文書の部分の群での文脈における単語の意味を知識として表現しているとも言うことができる。
A patent map is obtained by arranging a given group of patents on a two-dimensional plane such as a paper surface or a screen based on the obtained classification in each viewpoint.
In the patent map generation method of the present invention, a portion related to the viewpoint of creating a patent map is extracted from the patent specification document of a given patent, the extracted portion of the document is divided into word strings, and included in the word string By applying statistical processing to each word, a vector value corresponding to each word is obtained. The resulting vector value reflects how the word is used in the group of parts of the patent specification document, which represents the meaning of the word in context in the group of parts of the patent specification document as knowledge. You can also say.
該特許明細文書の部分の群に含まれる特許明細文書の部分に関し、該特許明細書の部分に対応する単語列の個々の単語について、概念ベースから該単語に対応するベクトル値を得、このようにして得られるベクトル値を該単語列に含まれるすべての単語にわたって総和することにより、該特許明細文書が表す特許に対応した特許ベクトル値を得ている。文書は単語の集合から構成され、単語の知識の総体であると考えられるため、この処理によりえら得る特許ベクトル値は、該特許マップ生成のための観点に基づいた該特許の特徴を表現していることになる。 With respect to the parts of the patent specification document included in the group of parts of the patent specification document, a vector value corresponding to the word is obtained from the concept base for each word in the word string corresponding to the part of the patent specification. The vector values obtained in this way are summed over all the words included in the word string to obtain a patent vector value corresponding to the patent represented by the patent specification document. Since a document is composed of a set of words and is considered to be the total knowledge of words, the patent vector value obtained by this processing expresses the characteristics of the patent based on the viewpoint for generating the patent map. Will be.
特許ベクトル値が、特許マップ生成の観点における特許の特徴を表現しているのであるから、特許ベクトル値に基づいて特許群をクラスタリングすることにより、該特許マップ生成の観点における分類を得ることができる。 Since patent vector values express the characteristics of patents in terms of patent map generation, clustering patent groups based on patent vector values can provide classification in terms of patent map generation. .
観点が複数与えられた場合には、以上を観点ごとに繰り返すことにより、与えられた特許群について、個々の観点ごとの分類を得ることができる。例えば、観点が2つ与えられた場合には、特許群に含まれる個々の特許は、観点の異なる2つのクラスターに属することになる。2次元に分類できることになるとも言える。同様に、観点が3つ与えられた場合には、特許群に含まれる個々の特許は、観点の異なる3つのクラスターに属することになる。すなわち、3次元に分類できることになるとも言える。 When a plurality of viewpoints are given, the above is repeated for each viewpoint, whereby a classification for each viewpoint can be obtained for a given patent group. For example, when two viewpoints are given, individual patents included in the patent group belong to two clusters having different viewpoints. It can be said that it can be classified into two dimensions. Similarly, when three viewpoints are given, individual patents included in the patent group belong to three clusters having different viewpoints. That is, it can be said that it can be classified into three dimensions.
上記で得られた分類に基づいて、最終的には、特許群を紙面または画面上に視覚的に表現される。紙面や画面は2次元平面であるため、特許マップ生成のための観点が3以上の場合には、何らかの手法により2次元に縮退させられることになる。 Based on the classification obtained above, finally, the patent group is visually represented on a paper or a screen. Since the paper and the screen are two-dimensional planes, if the viewpoint for generating a patent map is three or more, the paper and the screen are reduced to two dimensions by some method.
本発明の方法およびそれに基づいたプログラムによれば、特定対象に関する特許明細文書の集合が与えられ、特許マップ生成のための観点が1以上与えられた際に、与えられた特許明細文書群の中の個々の特許明細文書が表す特許の相互の関係に基づいて、該特許を2次元平面上に配置する特許マップの生成を行うことが可能となる。従来の特許マップ生成は、当該対象が含まれる技術分野に精通した特許専門家が人手により行っていたが、本発明によりコンピュータ等により自動的又は半自動的に特許マップを生成できるようになる。 According to the method of the present invention and the program based thereon, a set of patent specification documents relating to a specific object is given, and one or more viewpoints for generating a patent map are given. It is possible to generate a patent map in which the patents are arranged on a two-dimensional plane based on the mutual relationship between the patents represented by the individual patent specification documents. Conventional patent map generation is performed manually by a patent expert who is familiar with the technical field in which the object is included, but according to the present invention, a patent map can be generated automatically or semi-automatically by a computer or the like.
以下、図面を参照しながら、本発明を実施するための最良の形態について詳細に説明する。
図1は、本発明の実施例の処理手順及びデータの流れを示している。
Hereinafter, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
FIG. 1 shows a processing procedure and a data flow of an embodiment of the present invention.
与えられた特定の対象に関する特許明細文書の集合301は、記憶装置に格納され、特許明細文書群201となる。ここで、特定対象に関する特許明細文書を、どのように探し出すかは本発明が本質的に規定するところではないが、特許検索システムに適切なキーワードやキーワードを用いた論理式を人間が与えて該特許明細文書群を得る等の方法が考えられる。
A
同時に特許マップ作成のための観点302が外部より指定される。指定された観点に基づいて、観点に対応する特許明細文書の部分の指定が101において生成される。例えば、観点として「解決すべき課題」が与えられた場合、特許明細文書の中から「発明が解決しようとする課題」の部分を抽出することが指定される。該指定を行うための具体的な方法は、本発明において本質的に規定されるものではないが、あらかじめ、観点と該観点に対応する部分との表を組み込んでおき、観点が与えられた際に、該表から該観点に対応する対応部分に関する記述を探し出す方法などが考えられる。
At the same time, a
与えられた観点に対応する部分が指定されると、該指定に基づいて、記憶装置に格納された特許明細文書群201の個々の特許明細文書から、特許明細文書の関連部分の抽出が102において行われ、抽出された特許明細書の部分の群202として記憶装置に格納される。
When a portion corresponding to a given viewpoint is specified, extraction of a related portion of the patent specification document is performed at 102 based on the specification from the individual patent specification documents of the patent
抽出された特許明細文書の部分の群202に含まれる個々の特許明細文書の部分に対し形態素解析処理103が行われる。形態素解析処理は、入力された文書の部分に含まれる文を単語の列に分解する処理を行う。すなわち、文を単語に分かち書きすることにより、日本語の文を該文に含まれる単語の列に変換する。抽出された特許明細文書の部分の群202に含まれるすべての文は、形態素解析処理103により単語の列に変換され、抽出された特許明細文書の部分に対応した単語列の群203として、記憶装置に格納される。
The
抽出された特許明細文書の部分に対応した単語列の群203から、近傍共起行列生成104により近傍共起行列が生成され、特異値分解による次元圧縮105が施されて、概念ベース204が生成される。以下では、概念ベースの生成について、別の図である図2を用いてより詳細に説明する。
A neighborhood co-occurrence matrix is generated by the neighborhood
図1における抽出された特許明細文書の部分に対応した単語列群203には、図2における単語列群401に示すように、個々の特許明細文書の部分ごとに、該特許明細文書の部分に含まれる単語が、出現順に単語の列を形成している。該単語の列の群を入力として取り、近傍共起行列生成104において近傍共起行列が生成される。近傍共起行列とは、処理対象とするすべての単語列において、ある単語(これを Wi 書くことにする)とある単語(これを Wj と書くことにする)が一定の単語数以内に同時に生起する頻度から計算される値を Wi 対応する行、 Wj に対応する列の要素として持つ行列のことである。近傍共起行列を生成するための方法は、本発明において本質的に規定されるものではないが、単語列に含まれる単語数をnとしたときに、全ての要素が0であるn行n列の行列をまず用意し、単語列の群を順次走査しながら、ある単語 Wi に対して該単語の前後一定単語数以内に現れる個々の単語 Wj に対し、 Wi に対応する行、 Wj に対応する列の要素に一定数を加算すること等により、該単語列群に含まれる単語の数に比例するオーダーの計算量で生成できる。また、近傍共起する頻度から計算される値として、どのような値を用いるかについても、本発明で本質的に規定されるものではない。頻度そのものを用いることや、頻度を単調増加する関数に入力して得られる値を用いることなどが考えられる。また、近傍共起行列は、かならずしも行と列の数が互いに等しい正方行列である必要はない。個々の単語に関連付けられる単語ベクトル値は、行列の個々の行として得られるため、行数は概念ベースとして必要とする単語の数と同じである必要があるが、列数はこれと等しい必要はない。
As shown in the
近傍共起行列402が生成されると、特異値分解による次元圧縮処理105により、該近傍共起行列が特異値分解された後、その結果に基づいて次元圧縮が行われる。
特異値分解とは、ある行列Aがあったときに、
A=L×λ×R
となるような行列L、λ、Rを求める処理を言う。ただし、λは対角行列、すなわち、対角要素以外の要素はすべて0であるような行列である。また、λの対角要素は、上の行にあるものほど、値が大きくなるように求められることが一般的である。行列Aのランクをrとすると、行列Lはn行r列の大きさを持ち、行列λはr行r列の大きさを持ち、行列Rはr行m列の大きさを持つことになる。
When the
Singular value decomposition means that when there is a matrix A,
A = L × λ × R
Is a process for obtaining matrices L, λ, and R such that However, λ is a diagonal matrix, that is, a matrix in which all elements other than the diagonal elements are zero. In general, the diagonal elements of λ are determined so that the values in the upper row are larger. When the rank of the matrix A is r, the matrix L has a size of n rows and r columns, the matrix λ has a size of r rows and r columns, and the matrix R has a size of r rows and m columns. .
特異値分解を行った後、該分解により得られた左側行列Lから一部の列だけを選択し抽出して、新たな行列404とする。近傍共起行列402において、ある単語 Wi に対応する行をi行目としたとき、該新たな行列404のi行目が該単語に関連付けられた単語ベクトル値となる。この単語と該単語に関連付けられた単語ベクトル値を組として、単語列群に含まれるすべての単語について記憶装置に格納したものが概念ベース204になる。左側行列から、どの列を選択して単語ベクトル値とするかは、本発明において本質的に規定されるものではないが、一般には左側の列より一定数の列が選択される。具体的には、近傍共起行列は 10000行×3000列程度であり、左側行列の左側から 100〜 200列が選択される。もちろん、これらの数は本実施例における単なる例示であり、本発明において本質的に規定されるものではない。
After performing the singular value decomposition, only some columns are selected and extracted from the left matrix L obtained by the decomposition to obtain a
また、特異値分解による次元圧縮105において、特異値分解をどのような方法で実施するかは、本発明において本質的に規定するところではない。一般には、行列Aを左上部、行列Aの転置を右下部に持ち、他の要素が0であるような正方行列Bを生成し、該正方行列Bの固有値を求めて、該固有地をAの特異値と対応させることにより特異値分解を実行できる。また、近傍共起行列Aにおいて、0である要素が比率的に多い場合、すなわち、Aが疎な行列である場合には、少ないメモリ所要でかつ高速に特異値分解を行うことが可能なランチョス法等が用いられる。さらに、最終的に左側行列のうち必要とされる列における要素の値が求められれば良いため、左側行列のすべての要素を求めた後に、選択された列を抽出して単語ベクトル値とするといった2段階の処理をかならずしも行う必要はない。特異値分解の処理方法の中には、左側行列の列の値が順次求まって行く方法もあるので、このような方法を用いる場合は、必要とする列の値がすべて求まった時点で、特異値分解の処理を打ち切ってもかまわない。
In the
概念ベースが生成された後、抽出された特許明細文書の部分に対応した単語列の群203から、個々の特許明細文書が表す特許に対する特許ベクトル値の生成106が行われる。抽出された特許明細文書の部分に対応した単語列の群203に含まれる個々の抽出された特許明細文書の部分の単語列を用いて、該抽出された特許明細文書の部分を含んでいる特許明細文書が表す特許の特許ベクトル値を計算することになる。個々の抽出された特許明細文書の部分の単語列に含まれる個々の単語に対して、概念ベースにおいて該単語に関連付けられた単語ベクトル値を得て、該得られた単語ベクトル値を、該個々の抽出された特許明細文書の部分の単語列に含まれるすべての単語について足し合わせて合成ベクトル値を得る。この合成ベクトル値を、該抽出された特許明細文書の部分を含んでいる特許明細文書が表す特許の特許ベクトル値とする。本実施例では、合成ベクトルを、単語のベクトル値を単純に足し合わせて得ているが、これは本発明において本質的に規定されるものでなく、個々の単語ベクトル値に単語の特性に応じた何らかの重みをかけた上で総和する方法なども考えられる。
After the concept base is generated, a patent
上記により、特許明細文書群201が表す特許群の個々の特許について、該特許に関連付けられた特許ベクトル値が求まることになる。特許を該特許を一意に指定できる符号(例えば特許番号)と該特許に関連付けられた特許ベクトル値とを組として、特許明細文書群201が表す特許群のすべての特許について記憶装置に格納した特許ベクトル値群205を得る。
As described above, for each patent of the patent group represented by the patent
特許ベクトル値群205は、特許ベクトル値に基づいたクラスタリング107によって分類され、特許を指定する符号と該特許が属する分類についての符号との組として記憶装置に格納される。特許明細文書群201が表すすべての特許を分類し格納したものとして、特許と分類の対応情報206が得られる。ここでクラスタリングの方法は、本発明において本質的に規定されるものではない。階層クラスタリング手法を用いても良いし、非階層クラスタリング手法を用いてもかまわない。階層クラスタリングにおいては、クラスタリングによりクラスターの階層図が得られることになり、この階層図上のどの階層に基づいて分類するかが問題となるが、クラスター化の際に求まるクラスター間の類似度があるあらかじめ設定した閾値よりも小さくならない階層のなかで最も高い階層のものを選ぶことにする。ただし、このクラスター階層選択基準は、本発明において本質的に規定されるものではなく、外部から与えられる他の情報に基づいて分類に用いるためのクラスター階層を決定する方法等も考えられる。また、非階層クラスタリングにおいては、クラスター数を与える必要があるが、該与えるクラスター数を決定する方法も、本発明において本質的に規定されるものではない。
The patent
得られた特許と分類の対応情報206に基づいて、特許の2次元平面への配置108が行われ、該配置に基づいて、紙面上あるいは画面上に対象となる特許が2次元平面上の配置として表示された特許マップ303が得られる。本実施例では、観点がひとつの場合を例として説明しているため、分類軸は1次元となり、2次元平面への配置は容易である。
Based on the obtained
ただし、与えられる観点の数は、本発明において本質的に規定されるものではない。2以上の観点が与えられた場合は、個々の観点に対して、観点に関連した特許明細文書部分の指定101からクラスタリング107までを行い、該クラスタリングに基づく特許と分類の対応情報206も観点ごとに得る。このようにして得られた、観点ごとの特許と分類の対応情報206に基づいて特許を2次元平面上に配置する。観点が二つの場合は表として容易に配置できる。観点が三つ以上の場合には、2次元平面上に射影する処理が必要となるが、その処理法は本発明において本質的に規定されるものではない。観点が三つの場合は、三つのうち二つの観点に基づいて表として配置し、残りのひとつの観点に基づいた分類を、特許を表す文字や点の大きさとして表す方法等が考えられる。観点が四つの場合は、観点が三つの場合の射影に加え、もうひとつの観点の分類を色として表す方法等が考えられる。
However, the number of viewpoints given is not essentially defined in the present invention. When two or more viewpoints are given, the specification specification
101 観点に関連した特許明細文書部分指定
102 抽出指定に基づく特許明細文書部分の抽出
103 形態素解析処理
104 近傍共起行列生成
105 特異値分解による次元圧縮
106 特許ベクトル値の生成
107 クラスタリング
108 2次元平面への配置
201 特許明細文書群
202 抽出された特許明細文書の部分の群
203 抽出された特許明細文書の部分に対応した単語列の群
204 概念ベース
205 特許ベクトル値群
206 特許と分類の対応情報
301 特許マップ作成対象の特許明細文書
302 特許マップ作成のための観点
303 特許マップ
101 Patent specification document part specification related to
Claims (6)
記憶装置に格納された特許明細文書群に対して、
該特許明細文書群の個々の特許明細文書から特定の部分を抽出する処理と、
該特定の部分を単語ごとに分割して単語列とする処理と、
該特許明細文書群のすべての特許明細文書における単語列に対して統計的処理を施すことにより、該単語列に含まれるすべての単語について、個々の単語と該個々の単語に関連付けられたベクトル値を記憶装置に格納して概念ベースとする処理と、
該記憶装置に格納された特許明細文書群の個々の特許明細文書に対し、
該特許明細文書から抽出された特定部分を単語ごとに分割して単語集合を得る処理と、
該単語集合に含まれる個々の単語について、概念ベースから該単語に関連付けられたベクトル値を得る処理と、
該単語集合に含まれるすべての単語に対し得られたベクトル値の総和を演算する処理と、
該ベクトルの総和であるところのベクトル値を該特許明細文書が表す特許のベクトル値として計算して、該特許と関連付けて記憶装置に格納する処理と、
記憶装置に格納された特許明細文書群が表す特許群に対し、該特許群の個々の特許に関連付けられた特許ベクトル値に基づいてクラスタリングを実行する処理と、
同一クラスターに属する特許ごとに分類を実行する処理と、
を実行するコンピュータプログラム。 A computer program for causing a computer to execute a process of generating a patent map by classifying the mutual relations of patents included in a group of patents based on the contents when a plurality of patents relating to a specific object are given Because
For patent specification documents stored in the storage device,
A process of extracting a specific part from individual patent specification documents of the patent specification document group;
A process of dividing the specific part into words to form a word string;
By applying statistical processing to word strings in all patent specification documents of the patent specification document group, for all words included in the word string, individual words and vector values associated with the individual words A process based on a concept stored in a storage device;
For individual patent specification documents of the patent specification document group stored in the storage device,
A process of obtaining a word set by dividing a specific part extracted from the patent specification document for each word;
For each word included in the word set, obtaining a vector value associated with the word from the concept base;
A process of calculating the sum of vector values obtained for all words included in the word set;
Calculating a vector value that is the sum of the vectors as a vector value of a patent represented by the patent specification document, and storing the calculated value in a storage device in association with the patent;
Processing for clustering the patent group represented by the patent specification document group stored in the storage device based on the patent vector values associated with the individual patents of the patent group;
A process of performing classification for each patent belonging to the same cluster;
A computer program that executes.
記憶装置に格納された特許明細文書群から特定の部分を抽出した特許明細文書の部分の集合に対する単語列群に対し、
単語列に含まれる互いに相異なる単語を数えあげる処理と、
該数えあげた単語の個々の単語を行に対応させ、また該個々の単語を列にも対応させた行列を作成する処理と、
単語列群を順次走査して、ある単語(以下単語 Wi と書く)とある単語(以下単語 Wj と書く)が単語列中で近傍に出現した場合に、該行列の単語 Wi に対応する行で単語 Wj に対応する列における要素を正のある数だけ増加させることを、該単語列群に含まれるすべての単語列に対して繰り返して、行列の各要素の値を求める処理と(以下、求められた要素値から成る行列を近傍共起行列と呼ぶ)、
該近傍共起行列を特異値分解する処理と、
該特異値分解によって計算される右側行列の列からいくつかの列を選び出す処理と、
単語に対して、右側行列の該単語に対応する行において、該選び出された列の要素の数値を要素としても持つベクトル値を関連付けることにより概念ベースを作成する処理と、
を実行するコンピュータプログラム。 A computer program according to claim 1,
For a word string group for a set of parts of a patent specification document obtained by extracting a specific part from a group of patent specification documents stored in a storage device,
Counting different words in the word string,
A process of creating a matrix in which the individual words of the counted words correspond to rows and the individual words also correspond to columns;
When the word string group is sequentially scanned and a word (hereinafter referred to as the word Wi) and a word (hereinafter referred to as the word Wj) appear nearby in the word string, the line corresponding to the word Wi of the matrix Incrementing the number of elements in the column corresponding to the word Wj by a positive number is repeated for all the word strings included in the word string group to obtain the value of each element of the matrix (hereinafter referred to as A matrix of element values is called a neighborhood co-occurrence matrix),
Processing for singular value decomposition of the neighborhood co-occurrence matrix;
A process of selecting several columns from the columns of the right matrix calculated by the singular value decomposition;
A process of creating a concept base by associating a word value with a vector value that also has a numerical value of an element of the selected column as an element in a row corresponding to the word in the right side matrix;
A computer program that executes.
同一クラスターに属する特許ごとに分類を実行した結果であるところの特許を、近傍に配置して画面表示する処理を実行するコンピュータプログラム。 A computer program according to claim 1,
A computer program for executing a process of arranging and displaying a patent, which is a result of executing classification for each patent belonging to the same cluster, in the vicinity.
記憶装置に格納された特許明細文書群に対して、
該特許明細文書群の個々の特許明細文書から特定の部分を抽出し、
該特定の部分を単語ごとに分割して単語列とし、
該特許明細文書群のすべての特許明細文書における単語列に対して統計的処理を施すことにより、該単語列に含まれるすべての単語について、個々の単語と該個々の単語に関連付けられたベクトル値を記憶装置に格納して概念ベースとし、
該記憶装置に格納された特許明細文書群の個々の特許明細文書に対し、
該特許明細文書から抽出された特定部分を単語ごとに分割して単語集合を得る処理と、
該単語集合に含まれる個々の単語について、概念ベースから該単語に関連付けられたベクトル値を得、
該単語集合に含まれるすべての単語に対し得られたベクトル値の総和を演算する処理と、
該ベクトルの総和であるところのベクトル値を該特許明細文書が表す特許のベクトル値として計算して、該特許と関連付けて記憶装置に格納し、
記憶装置に格納された特許明細文書群が表す特許群に対し、該特許群の個々の特許に関連付けられた特許ベクトル値に基づいてクラスタリングを実行し、
同一クラスターに属する特許ごとに分類を実行する、
過程を含むことを特徴とする特許マップ生成方法。 A method for generating a patent map by classifying a mutual relationship of patents included in a group of patents based on contents when a plurality of patents related to a specific object are given,
For patent specification documents stored in the storage device,
Extracting specific parts from individual patent specification documents of the patent specification document group;
The specific part is divided into words to form a word string,
By applying statistical processing to word strings in all patent specification documents of the patent specification document group, for all words included in the word string, individual words and vector values associated with the individual words Is stored in a storage device as a concept base,
For individual patent specification documents of the patent specification document group stored in the storage device,
A process of obtaining a word set by dividing a specific part extracted from the patent specification document for each word;
For each word included in the word set, obtain a vector value associated with the word from the concept base;
A process of calculating the sum of vector values obtained for all words included in the word set;
A vector value that is the sum of the vectors is calculated as a vector value of a patent represented by the patent specification document, and stored in a storage device in association with the patent;
Clustering is performed on the patent group represented by the patent specification document group stored in the storage device based on the patent vector values associated with the individual patents of the patent group,
Perform classification for each patent belonging to the same cluster,
A method for generating a patent map, comprising a process.
記憶装置に格納された特許明細文書群から特定の部分を抽出した特許明細文書の部分の集合に対する単語列群に対し、
単語列に含まれる互いに相異なる単語を数えあげ、
該数えあげた単語の個々の単語を行に対応させ、また該個々の単語を列にも対応させた行列を作成し、
単語列群を順次走査して、ある単語(以下単語 Wi と書く)とある単語(以下単語 Wj と書く)が単語列中で近傍に出現した場合に、該行列の単語 Wi に対応する行で単語 Wj に対応する列における要素を正のある数だけ増加させることを、該単語列群に含まれるすべての単語列に対して繰り返して、行列の各要素の値を求め(以下、求められた要素値から成る行列を近傍共起行列と呼ぶ)、
該近傍共起行列を特異値分解し、
該特異値分解によって計算される右側行列の列からいくつかの列を選び出し、
単語に対して、右側行列の該単語に対応する行において、該選び出された列の要素の数値を要素としても持つベクトル値を関連付けることにより概念ベースを作成する、
過程を含むことを特徴とする特許マップ生成方法。 The method of claim 4, comprising:
For a word string group for a set of parts of a patent specification document obtained by extracting a specific part from a group of patent specification documents stored in a storage device,
Count different words in a word string,
Create a matrix in which the individual words of the counted words correspond to rows and the individual words also correspond to columns,
When a sequence of word strings is scanned sequentially and a word (hereinafter referred to as word Wi) and a word (hereinafter referred to as word Wj) appear nearby in the word string, the line corresponding to word Wi in the matrix Increasing the number of elements in the column corresponding to the word Wj by a positive number is repeated for all the word strings included in the word string group, and the values of the elements of the matrix are obtained (hereinafter referred to as found A matrix of element values is called a neighborhood co-occurrence matrix),
Singular value decomposition of the neighborhood co-occurrence matrix,
Select some columns from the columns of the right matrix calculated by the singular value decomposition,
Creating a concept base by associating a word value with a vector value having the numerical value of the element of the selected column as an element in a row corresponding to the word in the right-side matrix;
A method for generating a patent map, comprising a process.
同一クラスターに属する特許ごとに分類を実行した結果であるところの特許を、近傍に配置して画面表示する過程を含むことを特徴とする特許マップ生成方法。 The method of claim 4, comprising:
A method for generating a patent map, comprising a step of arranging a patent that is a result of executing classification for each patent belonging to the same cluster and displaying it on the screen in the vicinity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004160365A JP2005339412A (en) | 2004-05-31 | 2004-05-31 | Patent map generation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004160365A JP2005339412A (en) | 2004-05-31 | 2004-05-31 | Patent map generation method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005339412A true JP2005339412A (en) | 2005-12-08 |
Family
ID=35492883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004160365A Pending JP2005339412A (en) | 2004-05-31 | 2004-05-31 | Patent map generation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005339412A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100849631B1 (en) | 2006-08-01 | 2008-07-31 | (주)윕스 | Grouping System of Documents and Method Thereof and Recording Medium Thereof |
US9244910B2 (en) | 2013-10-10 | 2016-01-26 | Fuji Xerox Co., Ltd | Information processing apparatus, information processing method, and non-transitory computer readable medium |
JP2020135838A (en) * | 2019-02-22 | 2020-08-31 | 成年 川上 | Patent map generating program and method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296550A (en) * | 1998-04-10 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2002163275A (en) * | 2000-11-29 | 2002-06-07 | Matsushita Electric Ind Co Ltd | Technical document retrieving device |
JP2004070636A (en) * | 2002-08-06 | 2004-03-04 | Mitsubishi Electric Corp | Concept searching device |
-
2004
- 2004-05-31 JP JP2004160365A patent/JP2005339412A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11296550A (en) * | 1998-04-10 | 1999-10-29 | Ricoh Co Ltd | Device and method for classifying document and computer-readable recording medium where program allowing computer to implement same method is recorded |
JP2002163275A (en) * | 2000-11-29 | 2002-06-07 | Matsushita Electric Ind Co Ltd | Technical document retrieving device |
JP2004070636A (en) * | 2002-08-06 | 2004-03-04 | Mitsubishi Electric Corp | Concept searching device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100849631B1 (en) | 2006-08-01 | 2008-07-31 | (주)윕스 | Grouping System of Documents and Method Thereof and Recording Medium Thereof |
US9244910B2 (en) | 2013-10-10 | 2016-01-26 | Fuji Xerox Co., Ltd | Information processing apparatus, information processing method, and non-transitory computer readable medium |
JP2020135838A (en) * | 2019-02-22 | 2020-08-31 | 成年 川上 | Patent map generating program and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | 3d-future: 3d furniture shape with texture | |
CN108804530B (en) | Subtitling areas of an image | |
US9721157B2 (en) | Systems and methods for obtaining and using information from map images | |
US20080059452A1 (en) | Systems and methods for obtaining and using information from map images | |
JP5458815B2 (en) | Multimedia search system | |
KR20010067187A (en) | Information processing system capable of indicating tendency to change | |
CN105354593B (en) | A kind of threedimensional model sorting technique based on NMF | |
US20060288029A1 (en) | Sentence classification device and method | |
US20170228654A1 (en) | Methods and systems for base map and inference mapping | |
CN105849720A (en) | Visual semantic complex network and method for forming network | |
TW201820172A (en) | System, method and non-transitory computer readable storage medium for conversation analysis | |
JP2011248596A (en) | Searching system and searching method for picture-containing documents | |
CN109471930B (en) | Emotional board interface design method for user emotion | |
CN114510594A (en) | Traditional pattern subgraph retrieval method based on self-attention mechanism | |
CN114387608B (en) | Table structure identification method combining convolution and graph neural network | |
JP2005339412A (en) | Patent map generation method and program | |
JP2004086262A (en) | Visual information classification method, visual information classification device, visual information classification program, and recording medium storing the program | |
JP2009075881A (en) | Text-analyzing program, text-analyzing method, and text-analyzing device | |
JP4453440B2 (en) | Visual information classification method and apparatus, program, and storage medium recording visual information classification program | |
JP2007108867A (en) | Literature retrieval method, literature retrieval system, and literature retrieval program | |
Budig | Extracting spatial information from historical maps: algorithms and interaction | |
JP6529698B2 (en) | Data analyzer and data analysis method | |
JP2011108192A (en) | Multimedia classification system and multimedia retrieval system | |
JP2009252185A (en) | Information searching device, information searching method, control program, and recording medium | |
JP2000020538A (en) | Method and device for retrieving information, and storage medium for information retrieving program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110111 |