JP2009230323A - Information analyzing device and program - Google Patents
Information analyzing device and program Download PDFInfo
- Publication number
- JP2009230323A JP2009230323A JP2008073181A JP2008073181A JP2009230323A JP 2009230323 A JP2009230323 A JP 2009230323A JP 2008073181 A JP2008073181 A JP 2008073181A JP 2008073181 A JP2008073181 A JP 2008073181A JP 2009230323 A JP2009230323 A JP 2009230323A
- Authority
- JP
- Japan
- Prior art keywords
- representative vector
- representative
- group
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は情報解析装置及びプログラムに関する。 The present invention relates to an information analysis apparatus and a program.
近年情報化社会の進展に伴い、電子化された膨大な情報がコンピュータ内に蓄積されるようになってきている。このために、蓄積された大量の情報の中から価値のある情報を見つけることや、情報の全体的な構造を理解することは、従来に比べますます困難になっている。これらの困難に対応するため、これらの情報を系統別に分類し、利用者に提示することが求められている。 With the progress of the information society in recent years, a huge amount of computerized information has been accumulated in computers. For this reason, it is more difficult than ever to find valuable information from a large amount of accumulated information and to understand the overall structure of the information. In order to cope with these difficulties, it is required to classify these pieces of information by system and present them to the user.
これらの情報を提示する方法として、分類された情報を2次元あるいは3次元空間内のグラフやマップ等に可視化する事が考えられている。これは分類された情報の関係を直観的に理解できる点で有効である。上述の可視化方法の一つとして、情報の一つ一つを解析対象として多次元の特徴ベクトルで表現し、その特徴ベクトルを分析し解析対象の分布をマップに表す手法が従来から存在している。 As a method of presenting such information, it is considered to visualize the classified information on a graph or map in a two-dimensional or three-dimensional space. This is effective in that the relationship between classified information can be intuitively understood. As one of the visualization methods described above, there is a conventional method in which each piece of information is represented as an analysis target by a multidimensional feature vector, the feature vector is analyzed, and the distribution of the analysis target is represented in a map. .
例えば大量の文献を解析対象とする場合の情報解析および可視化手法として、非特許文献1に以下のような方法が開示されている。はじめに文献ごとにその文献に含まれるキーワードを成分とする特徴ベクトルを作成し、その特徴ベクトルをクラスタリングする事によって解析対象をグループに分類する。次に、分類された各グループの重心を各グループの代表ベクトルとして算出し、その代表ベクトルを主成分分析により2次元空間にマッピングする。さらに各文献に対応する特徴ベクトルは既にマッピングされた全てのグループの代表ベクトルとの距離を保存するように多次元尺度構成法によりマッピングする。2段階でマッピングを行うこの方法により、各解析対象は所属するグループに近い位置にプロットされるため、グループに分類された解析対象の関係が可視化される。
しかしながら、従来の手法では、解析対象となる特徴ベクトルの成分の分布の特性の変化によって、上述の代表ベクトル間の相互関係を解析することが困難な場合があった。 However, with the conventional method, it may be difficult to analyze the interrelationship between the above representative vectors due to a change in the distribution characteristics of the component of the feature vector to be analyzed.
例えば、代表ベクトルを各グループの特徴ベクトルの重心によって決定すると、グループ間の特徴ベクトルの成分どうしの重複が多い場合にはグループの特徴が目立たなくなっていた。 For example, when the representative vector is determined based on the center of gravity of the feature vector of each group, the feature of the group becomes inconspicuous when there are many overlapping feature vector components between groups.
本発明は上記課題に鑑みてなされたものであって、その目的は、解析対象に係る特徴ベクトルの成分の分布の特性が変化しても、その特性に応じて適応的に代表ベクトルを決定することができる情報解析装置及びプログラムを提供することにある。 The present invention has been made in view of the above problems, and its purpose is to adaptively determine a representative vector according to the characteristics of the distribution of the feature vector components related to the analysis object even if the characteristics change. An object of the present invention is to provide an information analysis apparatus and a program that can be used.
請求項1の発明は情報解析装置であって、複数グループのいずれかに分類された複数の解析対象のそれぞれについて、複数種類の特徴のそれぞれを該解析対象が有する程度を示す値をその成分とする特徴ベクトルを取得する取得手段と、前記複数の解析対象のうち全部又は一部について前記取得手段により取得される特徴ベクトルの所定の成分値閾値以上の値を有する成分の分布に関する評価に基づいて、複数種類の代表ベクトル決定方法のうち1つを選択する選択手段と、前記選択手段により選択される代表ベクトル決定方法により、前記各グループに分類された解析対象について前記取得手段により取得される特徴ベクトルに基づいて、該グループの代表ベクトルを決定する決定手段と、を含むことを特徴とする。
The invention of
請求項2の発明は請求項1の発明において、前記複数種類の代表ベクトル決定方法は、前記各グループに係る特徴ベクトルの情報のうち該グループの代表ベクトルの決定に用いる情報の量が制限された制限代表ベクトル決定方法を少なくとも1つ含み、前記選択手段は、前記取得手段により取得される特徴ベクトルの前記所定の成分値閾値以上の値を有する成分の数を示す値が所定の成分数閾値より多い場合に、前記制限代表ベクトル決定方法のうち1つを選択する、ことを特徴とする。 According to a second aspect of the present invention, in the first aspect of the invention, the plurality of types of representative vector determining methods are limited in the amount of information used to determine the representative vector of the group out of the feature vector information related to each group. Including at least one limited representative vector determination method, wherein the selection unit has a value indicating the number of components having a value equal to or greater than the predetermined component value threshold of the feature vector acquired by the acquisition unit than a predetermined component number threshold If there are many, one of the limited representative vector determination methods is selected.
請求項3の発明は請求項1又は2の発明において、前記複数種類の代表ベクトル決定方法は、各グループの特徴ベクトルの重心ベクトルを決定する基準代表ベクトル決定方法と、所定の成分値閾値以上の値を有する成分が異なるグループの代表ベクトル間で重複する程度を前記基準代表ベクトル決定方法よりも低くする低重複代表ベクトル決定方法と、所定の成分値閾値以上の値を有する成分が異なるグループの代表ベクトル間で重複する程度を前記基準代表ベクトル決定方法よりも高くする高重複代表ベクトル決定方法と、を含み、前記選択手段は、前記所定の成分値閾値以上の値を有する成分が異なるグループに係る特徴ベクトル間で重複する程度を評価し、該重複する程度が所定程度以上である場合に、前記低重複代表ベクトル決定方法を選択し、該重複する程度が所定程度より小さい場合に、前記高重複代表ベクトル決定方法を選択する、ことを特徴とする。
The invention of claim 3 is the invention of
請求項4の発明は請求項3の発明において、前記選択手段は、異なるグループに係る特徴ベクトル間の近さの程度を算出し、該近さの程度により前記重複する程度を評価する、ことを特徴とする。 According to a fourth aspect of the present invention, in the third aspect of the invention, the selecting means calculates a degree of proximity between feature vectors of different groups, and evaluates the degree of overlap according to the degree of proximity. Features.
請求項5の発明は請求項3又は4の発明において、前記低重複代表ベクトル決定方法は、前記各グループに分類された解析対象について前記取得手段により取得される特徴ベクトルのうち、前記基準代表ベクトル決定方法により決定される該グループの代表ベクトルに基づいて選択される一部のみを用いて該グループの代表ベクトルを決定する方法である、ことを特徴とする。 According to a fifth aspect of the present invention, in the invention of the third or fourth aspect, the low-overlapping representative vector determination method includes the reference representative vector among the feature vectors acquired by the acquisition unit for the analysis target classified into the groups. The method is characterized in that the representative vector of the group is determined by using only a part selected based on the representative vector of the group determined by the determination method.
請求項6の発明は請求項1から5のいずれかの発明において、前記決定手段により決定された前記各グループの代表ベクトルをマップが生成される空間と同じ座標系に射影した座標情報を生成する座標情報生成手段、をさらに含むことを特徴とする。 According to a sixth aspect of the present invention, in any one of the first to fifth aspects, coordinate information is generated by projecting the representative vector of each group determined by the determining means to the same coordinate system as a space in which a map is generated. Coordinate information generating means is further included.
請求項7の発明は、複数グループのいずれかに分類された複数の解析対象のそれぞれについて、複数種類の特徴のそれぞれを該解析対象が有する程度を示す値をその成分とする特徴ベクトルを取得する取得手段、前記複数の解析対象のうち全部又は一部について前記取得手段により取得される特徴ベクトルの所定の成分値閾値以上の値を有する成分の分布に関する評価に基づいて、複数種類の代表ベクトル決定方法のうち1つを選択する選択手段、前記選択手段により選択される代表ベクトル決定方法により、前記各グループに分類された解析対象について前記取得手段により取得される特徴ベクトルに基づいて、該グループの代表ベクトルを決定する決定手段、としてコンピュータを機能させるためのプログラムである。 The invention according to claim 7 obtains a feature vector whose component is a value indicating a degree of the analysis target for each of the plurality of types of features for each of the plurality of analysis targets classified into any of a plurality of groups. Determining a plurality of types of representative vectors based on an evaluation relating to a distribution of components having a value equal to or greater than a predetermined component value threshold of a feature vector acquired by the acquiring unit for all or a part of the plurality of analysis objects; Based on the feature vector acquired by the acquisition unit for the analysis target classified into each group by the selection unit for selecting one of the methods, and the representative vector determination method selected by the selection unit, This is a program for causing a computer to function as a determination means for determining a representative vector.
請求項1,7の発明によれば、解析対象に係る特徴ベクトルの成分の分布の特性が変化しても、適応的に代表ベクトルを決定することができる。 According to the first and seventh aspects of the present invention, the representative vector can be determined adaptively even when the distribution characteristics of the component of the feature vector related to the analysis object change.
請求項2の発明によれば、解析対象に係る特徴ベクトルの所定の成分値閾値以上の値を有する成分の数を示す値が所定の成分数閾値より多い場合に、関係がより適切に解析できる代表ベクトルを決定することができる。各成分が示す特徴が特徴ベクトルを代表する情報である蓋然性が低いからである。 According to the second aspect of the present invention, when the value indicating the number of components having a value equal to or greater than the predetermined component value threshold of the feature vector to be analyzed is greater than the predetermined component number threshold, the relationship can be analyzed more appropriately. A representative vector can be determined. This is because the probability that the feature indicated by each component is information representative of the feature vector is low.
請求項3の発明によれば、所定の成分値閾値以上の値を有する成分が異なるグループに係る特徴ベクトル間で重複する程度が所定程度以上である場合に、代表ベクトル間の重複を少なくし、上記重複する程度が所定程度より小さい場合に代表ベクトル間の重複を多くすることで、関係がより適切に解析できる代表ベクトルを決定することができる。 According to the invention of claim 3, when the degree of overlapping between the feature vectors related to different groups with components having a value equal to or greater than a predetermined component value threshold is a predetermined degree or more, the overlap between representative vectors is reduced, When the overlapping degree is smaller than the predetermined degree, the representative vector whose relationship can be analyzed more appropriately can be determined by increasing the overlapping between the representative vectors.
請求項4の発明によれば、異なるグループに係る特徴ベクトル間の重複の程度を評価する指標として、異なるグループに係る特徴ベクトル間の近さの程度を用いることができる。 According to the fourth aspect of the present invention, the degree of proximity between feature vectors related to different groups can be used as an index for evaluating the degree of overlap between feature vectors related to different groups.
請求項5の発明によれば、代表ベクトル間の重複を少なくする代表ベクトル決定方法として、基準代表ベクトル決定方法により決定されるベクトルに基づいて選択される一部のみを用いて各グループの代表ベクトルを決定する方法を用いることができる。 According to the invention of claim 5, as a representative vector determining method for reducing the overlap between representative vectors, only a part selected based on the vector determined by the reference representative vector determining method is used. Can be used.
請求項6の発明によれば、解析対象に係る特徴ベクトルの成分の分布の特性が変化しても、マップの元情報となる代表ベクトルの座標情報を適応的に生成することができる。 According to the sixth aspect of the present invention, even if the characteristics of the distribution of the component of the feature vector related to the analysis object change, the coordinate information of the representative vector that is the original information of the map can be adaptively generated.
本発明の実施形態について図面を参照しながら説明する。図1は、本発明の実施形態に係る情報解析装置1の構成図の一例である。同図に示すように、情報解析装置1は、CPU11、メモリ12、入力部13、および出力部14を含んでいる。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is an example of a configuration diagram of an
CPU11は、メモリ12に格納されているプログラムに従って動作する。なお、上記プログラムは、CD−ROMやDVD−ROM等の情報記録媒体に格納されて提供されるものであってもよいし、インターネット等のネットワークを介して提供されるものであってもよい。
The
メモリ12は、RAMやROM等のメモリ素子やハードディスク等の記録装置によって構成されている。メモリ12は、上記プログラムを格納する。また、メモリ12は、各部から入力される情報や演算結果を格納する。
The
入力部13は、外部のコンピュータとの通信手段、リムーバブルメディア等の外部記録装置や利用者からの指示を受け入れるキーボードやマウス等で構成されている。入力部13は、CPU11の制御に基づいて、外部から入力された情報をCPU11やメモリ12に出力する。
The
出力部14は、外部のコンピュータとの通信手段や利用者への表示出力手段である。出力部14は、CPU11の制御に基づいて、CPU11の処理結果を外部に出力する。
The
図2は、情報解析装置1が実現する機能を示す機能ブロック図である。情報解析装置1は、機能的に特徴ベクトル取得部21と、決定方法選択部22と、代表ベクトル決定部23と、座標情報生成部24と、描画部25と、を含む。これらの機能はCPU11がメモリ12に格納されたプログラムを実行し、入力部13および出力部14を制御することによって実現される。
FIG. 2 is a functional block diagram showing functions realized by the
特徴ベクトル取得部21は、CPU11、メモリ12および入力部13を中心として実現される。特徴ベクトル取得部21は、入力部13より予め複数のグループに分類された複数の特徴ベクトルの情報を入力し、その情報をメモリ12に格納する。
The feature
ここで、入力データに係る解析対象と特徴ベクトルについて説明する。本実施形態においては、解析対象は特許文献などの電子文書としている。一つの特徴ベクトルは一つの解析対象と対応し、その特徴ベクトルの成分は解析対象がもつ複数種類の特徴のそれぞれを有する程度をあらわす。本実施形態においては解析対象がもつ複数種類の特徴は、例えば文章を形態素解析によって抽出したキーワードや、特許文献におけるFタームなど書誌的事項から抽出したキーワードであり、その特徴の程度は各キーワードの出現頻度である。なお、この場合は特徴ベクトルの成分の値は電子文書より抽出したキーワードの出現頻度となる。 Here, the analysis target and the feature vector related to the input data will be described. In the present embodiment, the analysis target is an electronic document such as a patent document. One feature vector corresponds to one analysis target, and the component of the feature vector represents the degree of having each of a plurality of types of features of the analysis target. In this embodiment, the plural types of features of the analysis target are, for example, keywords extracted from bibliographic items such as keywords obtained by morphological analysis or F-terms in patent literature, and the degree of the feature is determined for each keyword. Appearance frequency. In this case, the value of the feature vector component is the appearance frequency of the keyword extracted from the electronic document.
図3は解析対象から特徴ベクトルを生成する方法の一例を示す図である。図3(a),(b),(c)は解析対象が文章である場合の特徴ベクトル生成について、図3(d),(e),(f)は解析対象が書誌的事項である場合の特徴ベクトル生成についてあらわしている。 FIG. 3 is a diagram illustrating an example of a method for generating a feature vector from an analysis target. 3A, 3B, and 3C show feature vector generation when the analysis target is a sentence, and FIGS. 3D, 3E, and 3F show the case where the analysis target is a bibliographic item. This shows the generation of feature vectors.
図3(a)は、解析対象1および2の文章を表している。この例の文章は少数の文からなる短い文章であるが、複数の章によって構成されるような長い文章でもよい。これらの文章に対し形態素解析および助詞などの意味を持たないキーワードの除去と、出現頻度の計算を行う。図3(b)がその結果の出現頻度の例である。これを用いて各解析対象のキーワード(特徴)の出現頻度を基に成分の値を決めた特徴ベクトルが生成される。図3(c)がその結果の特徴ベクトルの例である。図3(c)では、キーワード(特徴)と成分の値の対応の把握を容易にするため、特徴ベクトルを表で表現している。この表では、例えば解析対象1の特徴ベクトルが(1,1,1,1,1,2,1,1,1,1,0,0,0,0,0)であることを示している。これ以降もベクトルについて同様な表現を行う。図3(d)は解析対象3および4が有する書誌的事項キーワードをあらわしている。ここでは書誌的事項キーワードの例として特許文献におけるFターム分類を用いている。書誌的事項キーワードに対しては、文書構造を基にした直接的なキーワード(特徴)抽出と、出現頻度の計算がされ(結果となる出現頻度の例が図3(e)である)、特徴ベクトルが生成される(結果となる特徴ベクトルの例が図3(f)である)。なお、図3に示される特徴ベクトルは理解の容易のため長さが1となるような正規化はされていないが、正規化がされていてもよい。なお、解析対象の数が多くても同じ方法で特徴ベクトルを生成することができる。
FIG. 3A shows sentences of analysis objects 1 and 2. The sentence in this example is a short sentence composed of a small number of sentences, but may be a long sentence composed of a plurality of chapters. For these sentences, morphological analysis and removal of keywords having no meaning such as particles are performed and the appearance frequency is calculated. FIG. 3B shows an example of the appearance frequency of the result. Using this, a feature vector in which a component value is determined based on the appearance frequency of each analysis target keyword (feature) is generated. FIG. 3C shows an example of the resulting feature vector. In FIG. 3C, feature vectors are expressed in a table in order to easily understand the correspondence between keywords (features) and component values. In this table, for example, the feature vector of the
さらに特徴ベクトルは、予め複数のグループに分類されている。分類の方法は特に問わず、K−means法などの公知のクラスタリング手法によって分類を行ってもよいし、人為的に分類を行ってもよい。 Further, the feature vectors are previously classified into a plurality of groups. The classification method is not particularly limited, and the classification may be performed by a known clustering method such as a K-means method, or the classification may be performed artificially.
なお特徴ベクトル取得部21は、入力部13を介して外部から情報を入力するだけではなく、事前に他のプログラムなどによってメモリ12上に記録された上記特徴ベクトルの情報を内部的に取得してもよい。
Note that the feature
決定方法選択部22は、CPU11を中心として実現される。決定方法選択部22は、メモリ12に格納された複数の特徴ベクトルの所定の成分値閾値以上の値を有する成分の分布に関する評価によって、複数種類ある代表ベクトルの決定方法のうち一つを選択する。本実施形態における決定方法選択部22の処理フローを図4に示す。
The determination
S31は、特徴ベクトルの所定の成分値閾値以上の値を有する成分の数を、上述の成分の分布として評価するステップである。具体的には以下の手順で処理を行う。 S31 is a step of evaluating the number of components having a value equal to or larger than a predetermined component value threshold of the feature vector as the above-described component distribution. Specifically, processing is performed according to the following procedure.
決定方法選択部22は、取得した各特徴ベクトルの成分の値が0より大きい成分の数をカウントする。さらに取得した全特徴ベクトルについてその成分の数の平均値をとり、それが所定の成分数閾値以上か否かを判断する。
The determination
例えば所定の成分数閾値を5と設定した場合について図3を用いて説明する。図3(f)の書誌的事項の場合は解析対象3および4の特徴ベクトルの成分の値が0より大きい成分の数はそれぞれ3個および4個である。成分の数の平均値は3.5となり、所定の成分数閾値よりも小さいと判断される。一方、図3(c)の文章の場合は解析対象1および2の特徴ベクトルで上記条件を満たす成分の数はそれぞれ10個および6個である。成分の数の平均値は8となり、所定の成分数閾値より大きいと判断される。 For example, the case where the predetermined component number threshold is set to 5 will be described with reference to FIG. In the case of the bibliographic item of FIG. 3 (f), the number of components whose feature vector components of analysis objects 3 and 4 are greater than 0 is 3 and 4, respectively. The average value of the number of components is 3.5, and is determined to be smaller than the predetermined component number threshold. On the other hand, in the case of the sentence in FIG. 3C, the number of components satisfying the above conditions in the feature vectors of the analysis targets 1 and 2 is 10 and 6, respectively. The average value of the number of components is 8, which is determined to be larger than the predetermined component number threshold.
ここで、成分の値が0以上である成分がカウント対象となっているのは、本実施形態では、キーワードが出現するか否かを判断基準としているからである。なお、この場合は所定の成分値閾値は0である。 Here, the reason why the component whose component value is 0 or more is counted is because, in this embodiment, whether or not a keyword appears is used as a criterion. In this case, the predetermined component value threshold is zero.
上述の成分の数の平均値が所定の成分数閾値以下であれば、各グループの代表ベクトルの決定方法として、各グループの特徴ベクトルが持つ情報を全て利用するような方法を選定する。この場合は一つ一つの成分が特徴ベクトルを代表している可能性が高いと考えられるからである。このような情報の例としては、図3(d)の書誌的事項などのように人為的に索引付けされた情報がある。本実施形態において選定される代表ベクトルの決定方法は各グループに分類されている特徴ベクトルの重心を計算する方法である(S32)。 If the average value of the number of components described above is equal to or less than a predetermined component number threshold, a method that uses all the information of the feature vectors of each group is selected as the representative vector determination method for each group. This is because it is highly likely that each component represents a feature vector. An example of such information is information that has been artificially indexed, such as the bibliographic items of FIG. The representative vector determination method selected in the present embodiment is a method of calculating the center of gravity of the feature vectors classified into each group (S32).
一方、上述の成分の数の平均値が所定の成分数閾値より大きければ、さらに分類間の距離について判断を行う(S33)。この場合は一つ一つの成分が特徴ベクトルを代表していない可能性が高く、不要な特徴が混じる可能性が高いと考えられるからである。S33では他の種類の成分の分布を評価し、不要な特徴を減らすような代表ベクトル生成方法(制限代表ベクトル決定方法)が選定される(S34,S35)。詳しくはS33の説明で後述する。 On the other hand, if the average value of the number of components described above is larger than a predetermined component number threshold value, the distance between the classifications is further determined (S33). In this case, it is highly likely that each component does not represent a feature vector, and it is highly likely that unnecessary features are mixed. In S33, the distribution of other types of components is evaluated, and a representative vector generation method (restricted representative vector determination method) that reduces unnecessary features is selected (S34, S35). Details will be described later in the description of S33.
所定の成分数閾値は、予め定められた固定値でもよいし、特徴ベクトル取得部21で取得した特徴ベクトルを用いて、(特徴ベクトルの次元数÷3)などの計算により決められた値でもよい。なお、本実施形態においては特徴ベクトルの成分の数の平均値を判断条件に利用しているが、特徴ベクトルの成分の数を代表していればよく、例えば中央値や最小値を利用してもよい。
The predetermined component number threshold value may be a predetermined fixed value, or may be a value determined by calculation such as (the number of dimensions of the feature vector ÷ 3) using the feature vector acquired by the feature
S33は、異なるグループにある特徴ベクトル間で所定の成分値閾値以上の値を有する成分が重複する程度を、特徴ベクトル内の成分の分布として評価するステップである。具体的には以下の手順で処理を行う。 S33 is a step of evaluating the degree of overlapping of components having a value equal to or greater than a predetermined component value threshold between feature vectors in different groups as the distribution of components in the feature vector. Specifically, processing is performed according to the following procedure.
はじめに、各グループの基準代表ベクトルを計算し、基準代表ベクトル間でのユークリッド距離を求める。ここでは、基準代表ベクトルとして、各グループの特徴ベクトルの重心を用いている。全ての組み合わせに対する基準代表ベクトル間の距離の平均が重複の程度を示す。 First, the reference representative vector of each group is calculated, and the Euclidean distance between the reference representative vectors is obtained. Here, the center of gravity of the feature vector of each group is used as the reference representative vector. The average distance between the reference representative vectors for all combinations indicates the degree of overlap.
ここで、ユークリッド距離が重複の程度を示すのは、例えば以下の理由である。本実施形態においては特徴ベクトルの各成分はキーワードの出現頻度であり、基準代表ベクトルの各成分の値が0以上であるから、重複成分が多い場合は、重複している成分の値の差が小さくなり、その二乗和の平方によってあらわされるユークリッド距離も近くなる傾向がある。なお、ベクトル間のユークリッド距離が最大になるのはそれぞれの成分どうしが直交する場合であり、この場合はベクトル間の内積が0、つまり全成分が重複しない。ここで、距離はユークリッド距離に限られず、余弦距離等の公知の距離計算方法で計算された距離でもよい。また、グループ間の距離の計算は、必ずしも基準代表ベクトルを用いなくてもよく、他方のグループに最も近い特徴ベクトルをそれぞれのグループから選び、その間の距離を計算するといった方法でもよい。 Here, the Euclidean distance indicates the degree of overlap, for example, for the following reason. In this embodiment, each component of the feature vector is the appearance frequency of the keyword, and since the value of each component of the reference representative vector is 0 or more, if there are many overlapping components, the difference in the values of the overlapping components is There is a tendency that the Euclidean distance expressed by the square of the sum of squares becomes smaller and closer. Note that the Euclidean distance between vectors is maximum when the respective components are orthogonal to each other. In this case, the inner product between the vectors is 0, that is, all the components do not overlap. Here, the distance is not limited to the Euclidean distance, and may be a distance calculated by a known distance calculation method such as a cosine distance. The distance between groups may not necessarily be calculated using a reference representative vector, and a feature vector closest to the other group may be selected from each group and the distance between them may be calculated.
距離の平均が所定の距離以上であれば、異なるグループにある特徴ベクトル間で所定の成分値閾値以上の値を有する成分が重複する程度が所定の程度以上であると判断し、代表ベクトル間の所定の成分値閾値以上の成分間で重複する程度が小さくなる代表ベクトル決定方法(低重複ベクトル決定方法)を選定する。本実施形態において選定される方法は、各グループの重心に最も近い特徴ベクトルを代表ベクトルとする方法である(S34)。 If the average distance is greater than or equal to a predetermined distance, it is determined that the degree of overlap of components having a value greater than or equal to a predetermined component value threshold between feature vectors in different groups is greater than or equal to a predetermined level. A representative vector determination method (low overlap vector determination method) that reduces the degree of overlap between components that are equal to or greater than a predetermined component value threshold is selected. The method selected in this embodiment is a method in which a feature vector closest to the center of gravity of each group is used as a representative vector (S34).
図5はグループの重心に最も近い特徴ベクトルが代表ベクトルとして決定される例を示す図である。この図でグループ1にはV11,V12,V13,V14の4つの特徴ベクトルが分類され、グループ2にはV21,V22,V23,V24の4つの特徴ベクトルが分類されている。代表ベクトルはグループ重心に一番近い特徴ベクトルV14およびV22である。グループ重心よりも代表ベクトルの方が、0でない成分の数が少なく、特徴がより明確化されるのがわかる。さらに、重心に最も近い特徴ベクトルを代表ベクトルとして選ぶことで、グループ1とグループ2とで、重心ベクトルどうしの重複する程度より代表ベクトルどうしで重複する程度を小さくする(例えば距離を遠くする)ことができる。なお、代表ベクトル決定方法は必ずしも各グループの重心に最も近い特徴ベクトルを選定する方法に限られるわけではなく、各グループの重心に近い数個のベクトルを選び、さらにその重心を代表ベクトルとして決定してもよい。
FIG. 5 is a diagram showing an example in which the feature vector closest to the center of gravity of the group is determined as the representative vector. In this figure,
上述のような代表ベクトル決定方法を用いることで、複数グループ間で共通して所定の成分値閾値以上の値を有する(特徴を示す)成分の影響を除き、グループ内でのみ特徴を示す成分の割合を増やすことができ、各グループの代表ベクトル間の差異を明確化し、より解析しやすい代表ベクトルを決定できる。 By using the representative vector determination method as described above, the influence of components having a value equal to or greater than a predetermined component value threshold (indicating characteristics) in common among a plurality of groups is excluded, and components having characteristics only in groups are displayed. The ratio can be increased, the difference between the representative vectors of each group can be clarified, and a representative vector that is easier to analyze can be determined.
一方、距離の平均が所定の距離以上であれば、異なるグループにある特徴ベクトル間で所定の成分値閾値以上の値を有する成分が重複する程度が所定の程度より小さいと判断し、代表ベクトル間の所定の成分値閾値以上の成分間で重複する程度が大きくなる代表ベクトル決定方法(高重複代表ベクトル決定方法)を選定する。本実施形態において選定される代表ベクトル決定方法は、各グループ内で頻出上位N個(Nは1以上の整数)の成分を抽出して残し、それ以外の成分を0とする代表ベクトルを作成する方法である(S35)。 On the other hand, if the average distance is equal to or greater than the predetermined distance, it is determined that the degree of overlapping of components having a value equal to or greater than the predetermined component value threshold between feature vectors in different groups is smaller than the predetermined level. A representative vector determining method (high overlapping representative vector determining method) that increases the degree of overlap between components equal to or greater than a predetermined component value threshold is selected. The representative vector determination method selected in the present embodiment creates a representative vector in which the top N frequently occurring components (N is an integer of 1 or more) are extracted and left in each group, and other components are set to 0. Method (S35).
図6はグループの特徴ベクトルから頻出成分を抽出して代表ベクトルを決定する例を示す図である。本図の例ではNは3として代表ベクトルを作成している。グループ1にはV11,V12,V13,V14の4つの特徴ベクトルが分類され、グループ2にはV21,V22,V23,V24の4つの特徴ベクトルが分類されている。各グループの重心ベクトルどうしで重複する成分の数は4つで、一方頻出上位3個をとって生成したベクトルどうしで重複する成分の数は3つであり、重複する成分の数は少なくなる。しかし、正規化した代表ベクトルでは他の代表ベクトルと重複している成分の値が大きくなるため、重複する程度を大きくする(例えば距離を近くする)ことができる。なお、省略している成分は、複数のグループに共通して出現しない(重複しない)成分としている。この図の例ではNは3としているが、5や10など特徴ベクトルの次元数より小さい他の数としてもよい。
FIG. 6 is a diagram showing an example in which a representative vector is determined by extracting a frequent component from a group feature vector. In the example of this figure, N is 3 and a representative vector is created.
このように、頻出成分を抽出することで、各グループ内でのみ所定の成分値閾値以上の値を有し(特徴を示し)、他のグループでは特徴を示さない成分の影響を除き、複数グループ間で共通して特徴を示す成分、つまり重複する成分の割合を増やし、より解析しやすい代表ベクトルを決定できる。 In this way, by extracting frequent components, multiple groups are excluded except for the influence of components that have a value equal to or greater than a predetermined component value threshold only in each group (indicating characteristics) and that do not exhibit characteristics in other groups. It is possible to determine a representative vector that is easier to analyze by increasing the proportion of components that exhibit features in common, that is, the proportion of overlapping components.
なお、本実施形態においては所定の成分値閾値以上の値を有する成分が異なるグループに係る特徴ベクトル間で重複する程度を評価するために、各グループの基準代表ベクトル間の距離を利用しているが、他の指標を用いてもよい。例えば決定方法選択部22は、上記重複する程度を判断する2つのグループについて、ある成分の値が所定の成分値閾値以上の値であるという条件を満たす特徴ベクトルが双方のグループに存在するか成分ごとに確認する。その確認の結果双方のグループにその条件を満たす特徴ベクトルが存在すると確認された成分の数をカウントし、そのカウントされた値をその2つのグループ間の重複する程度の判断に用いてもよい。
In the present embodiment, the distance between the reference representative vectors of each group is used to evaluate the degree of overlap between feature vectors of different groups with components having a value equal to or greater than a predetermined component value threshold. However, other indicators may be used. For example, the determination
本実施形態においては、決定方法選択部22はS31およびS33の2つの判断を行っているが、どちらか一方の判断のみを行うようにしてもよい。さらにS33のみの判断を行う場合は、上述の重複の程度が所定の程度以上か所定の程度未満かによって2つの代表ベクトル決定方法のうちの一つを選択する代わりに、重複の程度の大きさに応じてさらに多くの種類の代表ベクトル決定方法のうちの一つを選択するようにしてもよい。例えば、上述の重複の程度が大きくなるのに応じて、低重複代表ベクトル決定方法、基準代表ベクトルを代表ベクトルとして決定する方法、高重複代表ベクトル決定方法の順に、いずれかの代表ベクトル決定方法を選択するようにしてもよい。
In the present embodiment, the determination
決定方法選択部22は、上述の実施形態ではメモリ12に格納された複数の特徴ベクトルに基づいて代表ベクトル決定方法を選択しているが、代わりに、情報解析装置を操作する者から入力部13を介して指示を受け、その指示を受けた代表ベクトル決定方法を選択するようにしてもよい。
The determination
代表ベクトル決定部23は、CPU11を中心として実現される。代表ベクトル決定部23は、決定方法選択部22で選択された代表ベクトル決定方法を用いて、メモリ12に格納された複数の特徴ベクトルに対してグループごとに代表ベクトルを決定し、決定した代表ベクトルをメモリ12に格納する。代表ベクトルの決定方法は決定方法選択部22の説明で記述したとおりである。
The representative
座標情報生成部24は、各グループの代表ベクトルと、各グループに分類された特徴ベクトルから、マップ生成を行う空間の座標系に座標を変換する。代表ベクトルと特徴ベクトルはキーワード(特徴)の種類の次元を持つ高次元ベクトルであり、マップの生成対象となる、より低次元(2次元、3次元など)の座標系(以下、マップ座標系という)へ射影することが必要となる。
The coordinate
座標情報生成部24は、はじめに代表ベクトルをマップ座標系に射影し、その後、特徴ベクトルを代表ベクトルとの距離を保存するようにマップ座標系に射影するという2段階の処理を行う。これにより、各グループの代表ベクトル間だけでなく、各グループの解析対象も関係を保存してマッピングされる。以下では2段階マッピングについてマップ座標系を2次元の空間とした場合を例として説明する。
The coordinate
1段階目のマッピングである代表ベクトルの射影の一例は以下のとおりである。図7は、多次元空間上に存在する各グループの特徴ベクトルの分布イメージの一例を示す図である。本図は多次元データを3次元で模式的にあらわしている。特徴ベクトルはA,B,C,Dの4グループに分類されており、二点鎖線内の領域は特徴ベクトルが存在する領域を、丸は代表ベクトルの多次元空間上の座標をあらわしている。図8は、図7に示される各グループの代表ベクトルをマップ座標系に射影したイメージの一例を示す図である。この射影は、例えば主座標分析や主成分分析などの公知の手法で行うことができる。以下、マッピングされた空間をマップ対象空間と呼ぶ。 An example of the projection of the representative vector, which is the mapping at the first stage, is as follows. FIG. 7 is a diagram illustrating an example of a distribution image of feature vectors of each group existing in a multidimensional space. This figure schematically represents multidimensional data in three dimensions. The feature vectors are classified into four groups of A, B, C, and D. The region within the two-dot chain line indicates the region where the feature vector exists, and the circle indicates the coordinates of the representative vector in the multidimensional space. FIG. 8 is a diagram showing an example of an image obtained by projecting the representative vector of each group shown in FIG. 7 onto the map coordinate system. This projection can be performed by a known method such as principal coordinate analysis or principal component analysis. Hereinafter, the mapped space is referred to as a map target space.
次に、2段階目のマッピングである各特徴ベクトルの射影の一例は以下のとおりである。座標情報生成部24は、各グループに対して以下のマッピング処理を行う。はじめに、マッピング処理を行うグループ(以下「対象グループ」という)の代表ベクトルとは別の代表ベクトルを2つ選択する。その2つの代表ベクトルの選択の基準は、例えば対象グループの代表ベクトルとの距離が近い順などであってよい。例えば図8におけるグループAが対象グループであれば、グループBおよびグループDの代表ベクトルを選択する。そして、対象グループに分類されている特徴ベクトルM個、そのグループの代表ベクトル、他の選択された2つの代表ベクトルの計(M+3)個について、主座標分析などを用いてマップ座標系と同じ2次元空間に射影する。ここで射影した情報を仮マップ情報と呼ぶ。次に、各グループについて作成された仮マップ情報に含まれる各特徴ベクトルの座標情報をアフィン変換し、それを特徴ベクトルに対応したマップ対象空間上の座標とする。各仮マップをアフィン変換する際には、各仮マップ情報に含まれる3つの代表ベクトルのそれぞれについて、アフィン変換された座標と1段階目のマッピングで射影された座標とが一致するようにする。また、これまで説明した2段階目のマッピングの方法に代えて、非特許文献1に記載された公知の方法である、各特徴ベクトルと既にマッピングされた全てのグループの代表ベクトルとの距離を保存するように多次元尺度構成法によりマッピングする方法を用いてもよい。
Next, an example of the projection of each feature vector, which is the second-stage mapping, is as follows. The coordinate
描画部25は、座標情報生成部24が生成した代表ベクトルと特徴ベクトルに対応するマップ対象空間上の座標から、利用者が認識できるように描画した画像を生成し出力部14を介して出力する。ただし、出力部14に出力するのではなく、JPEGなどの所定の画像データフォーマットに変換して、メモリ12に格納し、利用者に提供してもよい。
The
図9は描画部25が各グループの特徴ベクトルをマップ座標系に射影したイメージの一例を示す図である。図9は、特徴ベクトルに対応する座標そのものはプロットされておらず、ある範囲内に解析対象が存在する密度が濃淡で表されている。
FIG. 9 is a diagram illustrating an example of an image in which the
なお、これまでに説明した実施形態では、対象となる解析対象として主に特許文献について説明したが、複数種類の特徴を有するものであれば解析対象はそれだけには限られない。例えば、Web上に存在するHTML文書やXML文書、電子媒体に記録された音声情報などでもよい。 In the embodiments described so far, the patent document is mainly described as the analysis target to be analyzed. However, the analysis target is not limited to that as long as it has a plurality of types of features. For example, it may be an HTML document or XML document existing on the Web, audio information recorded on an electronic medium, or the like.
他にも、特徴ベクトルの成分として、解析対象にあらわれるキーワード(特徴)の出現頻度をそのまま使っているが、例えば出現頻度0なら成分の値を−1とし、多ければ+1と表現してもよい。この場合は所定の成分値閾値を−1とすればよい。 In addition, the appearance frequency of the keyword (feature) appearing in the analysis target is used as it is as the component of the feature vector. For example, if the appearance frequency is 0, the value of the component may be −1, and if it is more, it may be expressed as +1. . In this case, the predetermined component value threshold may be set to -1.
1 情報解析装置、11 CPU、12 メモリ、13 入力部、14 出力部、21 特徴ベクトル取得部、22 決定方法選択部、23 代表ベクトル決定部、24 座標情報生成部、25 描画部。
DESCRIPTION OF
Claims (7)
前記複数の解析対象のうち全部又は一部について前記取得手段により取得される特徴ベクトルの所定の成分値閾値以上の値を有する成分の分布に関する評価に基づいて、複数種類の代表ベクトル決定方法のうち1つを選択する選択手段と、
前記選択手段により選択される代表ベクトル決定方法により、前記各グループに分類された解析対象について前記取得手段により取得される特徴ベクトルに基づいて、該グループの代表ベクトルを決定する決定手段と、
を含むことを特徴とする情報解析装置。 For each of a plurality of analysis objects classified into any of a plurality of groups, an acquisition means for acquiring a feature vector having as its component a value indicating the degree of the analysis object having each of a plurality of types of features;
Of the plurality of types of representative vector determination methods, based on the evaluation on the distribution of components having a value equal to or greater than a predetermined component value threshold value of the feature vector acquired by the acquisition unit for all or a part of the plurality of analysis targets. A selection means for selecting one;
A determining unit that determines a representative vector of the group based on a feature vector acquired by the acquiring unit with respect to an analysis target classified into each group by a representative vector determining method selected by the selecting unit;
An information analysis apparatus comprising:
前記選択手段は、前記取得手段により取得される特徴ベクトルの前記所定の成分値閾値以上の値を有する成分の数を示す値が所定の成分数閾値より多い場合に、前記制限代表ベクトル決定方法のうち1つを選択する、
ことを特徴とする請求項1に記載の情報解析装置。 The plurality of types of representative vector determination methods include at least one limited representative vector determination method in which an amount of information used for determining a representative vector of the group among information on feature vectors related to each group is limited;
The selection unit is configured to determine whether the feature vector acquired by the acquisition unit has a value indicating the number of components having a value equal to or greater than the predetermined component value threshold value when the number of components is greater than a predetermined component number threshold value. Select one of them,
The information analysis apparatus according to claim 1.
前記選択手段は、前記所定の成分値閾値以上の値を有する成分が異なるグループに係る特徴ベクトル間で重複する程度を評価し、該重複する程度が所定程度以上である場合に、前記低重複代表ベクトル決定方法を選択し、該重複する程度が所定程度より小さい場合に、前記高重複代表ベクトル決定方法を選択する、
ことを特徴とする請求項1又は2に記載の情報解析装置。 The plurality of types of representative vector determination methods include a reference representative vector determination method for determining a centroid vector of a feature vector of each group, and a degree in which components having a value equal to or greater than a predetermined component value threshold overlap between representative vectors of different groups. Lower overlap representative vector determination method that lowers the reference representative vector determination method, and the degree of overlap of components having a value equal to or greater than a predetermined component value threshold between different groups of representative vectors than the reference representative vector determination method A high overlapping representative vector determination method for increasing,
The selection means evaluates the degree of overlapping of components having a value equal to or greater than the predetermined component value threshold between feature vectors related to different groups, and when the overlapping degree is equal to or higher than the predetermined level, the low overlap representative Selecting a vector determination method, and selecting the high overlap representative vector determination method when the overlapping degree is smaller than a predetermined level;
The information analysis apparatus according to claim 1, wherein the information analysis apparatus is an information analysis apparatus.
ことを特徴とする請求項3に記載の情報解析装置。 The selection means calculates a degree of proximity between feature vectors relating to different groups, and evaluates the degree of overlap according to the degree of proximity;
The information analysis apparatus according to claim 3.
ことを特徴とする請求項3又は4に記載の情報解析装置。 The low overlap representative vector determination method is selected based on a representative vector of the group determined by the reference representative vector determination method among the feature vectors acquired by the acquisition unit for the analysis target classified into each group. A method for determining a representative vector of the group using only a part of
The information analysis apparatus according to claim 3 or 4, characterized by the above.
をさらに含むことを特徴とする請求項1から5のいずれか一項に記載の情報解析装置。 Coordinate information generating means for generating coordinate information obtained by projecting the representative vector of each group determined by the determining means to the same coordinate system as the space in which the map is generated;
The information analysis apparatus according to claim 1, further comprising:
前記複数の解析対象のうち全部又は一部について前記取得手段により取得される特徴ベクトルの所定の成分値閾値以上の値を有する成分の分布に関する評価に基づいて、複数種類の代表ベクトル決定方法のうち1つを選択する選択手段、
前記選択手段により選択される代表ベクトル決定方法により、前記各グループに分類された解析対象について前記取得手段により取得される特徴ベクトルに基づいて、該グループの代表ベクトルを決定する決定手段、
としてコンピュータを機能させるためのプログラム。 Acquisition means for acquiring, for each of a plurality of analysis objects classified into any of a plurality of groups, a feature vector whose component is a value indicating the degree of the analysis object having a plurality of types of features;
Of the plurality of types of representative vector determination methods, based on the evaluation on the distribution of components having a value equal to or greater than a predetermined component value threshold value of the feature vector acquired by the acquisition unit for all or a part of the plurality of analysis targets. A selection means for selecting one,
A determining unit that determines a representative vector of the group based on a feature vector acquired by the acquiring unit with respect to an analysis target classified into each group by a representative vector determining method selected by the selecting unit;
As a program to make the computer function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008073181A JP2009230323A (en) | 2008-03-21 | 2008-03-21 | Information analyzing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008073181A JP2009230323A (en) | 2008-03-21 | 2008-03-21 | Information analyzing device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009230323A true JP2009230323A (en) | 2009-10-08 |
Family
ID=41245660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008073181A Pending JP2009230323A (en) | 2008-03-21 | 2008-03-21 | Information analyzing device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009230323A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011040206A1 (en) | 2009-10-02 | 2011-04-07 | 日本電気株式会社 | Mobile terminal device, charger, and charging system |
WO2019102533A1 (en) * | 2017-11-22 | 2019-05-31 | 花王株式会社 | Document classification device |
-
2008
- 2008-03-21 JP JP2008073181A patent/JP2009230323A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011040206A1 (en) | 2009-10-02 | 2011-04-07 | 日本電気株式会社 | Mobile terminal device, charger, and charging system |
WO2019102533A1 (en) * | 2017-11-22 | 2019-05-31 | 花王株式会社 | Document classification device |
JPWO2019102533A1 (en) * | 2017-11-22 | 2020-02-27 | 花王株式会社 | Document classification device |
CN111373392A (en) * | 2017-11-22 | 2020-07-03 | 花王株式会社 | Document sorting device |
US10984344B2 (en) | 2017-11-22 | 2021-04-20 | Kao Corporation | Document classifying device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5033580B2 (en) | Image processing apparatus and image processing method | |
JP5229744B2 (en) | Image classification device and image classification program | |
JP5059545B2 (en) | Image processing apparatus and image processing method | |
JP6888484B2 (en) | A search program, a search method, and an information processing device on which the search program operates. | |
JP5094830B2 (en) | Image search apparatus, image search method and program | |
CN101211344A (en) | Text message ergodic rapid four-dimensional visualization method | |
CN106777130B (en) | Index generation method, data retrieval method and device | |
JP5014479B2 (en) | Image search apparatus, image search method and program | |
JP4699337B2 (en) | RECOMMENDED INFORMATION DETECTION PROVIDING DEVICE, RECOMMENDED INFORMATION DETECTION PROVIDING METHOD, AND PROGRAM THEREOF | |
JP5356289B2 (en) | Image search system | |
JP2019045929A (en) | Information processing device, information processing method, and program | |
CN103678356B (en) | A kind of method, apparatus and equipment of the application field attribute information for being used to obtain keyword | |
JP2009230323A (en) | Information analyzing device and program | |
Hao et al. | Modeling positive and negative feedback for improving document retrieval | |
JP5092458B2 (en) | Map generating apparatus, map manufacturing method, and program | |
KR101359661B1 (en) | conversion system and method for 3D object represented by triangle mesh to 3D object represented by DoSurface | |
JP2006155344A (en) | Data analyzer, data analysis program, and data analysis method | |
JP2012133608A (en) | Histogram generation device, method and program | |
JP2010073194A (en) | Image processing device, image processing method, and program | |
CN114004674A (en) | Model training method, commodity pushing method and device and electronic equipment | |
JP5083162B2 (en) | Image data determination apparatus, image data determination system, and program | |
Ramanujan et al. | ShapeSIFT: Suggesting sustainable options in design reuse from part repositories | |
JP2011141664A (en) | Device, method and program for comparing document | |
JP2017004052A (en) | Learning device, method, and program | |
JP6336827B2 (en) | Image search device, image search method, and search system |