JP2012008680A - Program and information analyzing device - Google Patents

Program and information analyzing device Download PDF

Info

Publication number
JP2012008680A
JP2012008680A JP2010142380A JP2010142380A JP2012008680A JP 2012008680 A JP2012008680 A JP 2012008680A JP 2010142380 A JP2010142380 A JP 2010142380A JP 2010142380 A JP2010142380 A JP 2010142380A JP 2012008680 A JP2012008680 A JP 2012008680A
Authority
JP
Japan
Prior art keywords
data elements
node
data element
updated
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010142380A
Other languages
Japanese (ja)
Other versions
JP5545063B2 (en
Inventor
Yukihiro Tsuboshita
幸寛 坪下
Hiroshi Okamoto
洋 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2010142380A priority Critical patent/JP5545063B2/en
Publication of JP2012008680A publication Critical patent/JP2012008680A/en
Application granted granted Critical
Publication of JP5545063B2 publication Critical patent/JP5545063B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent a node that is only infrequently connected to other nodes from tightening in link to any other node.SOLUTION: An information analyzing device 10 acquires linking information indicating directed links set between a plurality of nodes, updates the acquired linking information by adding to a plurality of nodes having directed links, virtual nodes that are connected from individual ones of a plurality of nodes and connected to individual ones of a plurality of nodes, selects nodes whose number of connections to other nodes are less than a first value out of a plurality of nodes, sets links to the virtual nodes until the numbers of connections of the selected nodes reach the first value, and thereby further updates the linking information. The information analyzing device 10 makes bidirectional the links indicated by the updated linking information set in each of the plurality of nodes and the virtual nodes to further update the linking information, and calculates the weight of each link indicated by the further updated linking information.

Description

本発明は、プログラム及び情報分析装置に関する。   The present invention relates to a program and an information analysis apparatus.

論文、特許文献、ウェブページ等の文書間には引用、参照等の有向の接続関係があり、これらの文書をデータ要素(ノード)、接続関係をリンクとしたネットワークの情報を解析し有意な情報を得ることが行われている。例えば、下記の非特許文献1には、多くの引用を集める文書ほど価値が高くなるようにして、各文書の評価値を算出する技術が記載されている。   There are directed connections such as citations and references between documents such as papers, patent documents, web pages, etc., and network information using these documents as data elements (nodes) and connection relationships as links is significant. Getting information is done. For example, the following Non-Patent Document 1 describes a technique for calculating an evaluation value of each document so that a document collecting more citations has a higher value.

Lawrence Page, Sergey Brin,Rajeev Motwani, Terry Winograd,“The PageRank CitationRanking: Bringing Order to the Web”、[online]、1998年1月26日、インターネット〈URL:http://www-db.stanford.edu/~backrub/pageranksub.ps〉Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, [online], January 26, 1998, Internet <URL: http://www-db.stanford.edu /~backrub/pageranksub.ps>

過去の文献を引用する文書群から構成されるネットワークにおいては、リンクを通じて評価値が過去の文書へと流れてしまうため、リンクを仮想的に双方向化して各文書の評価値を算出することが考えられる。この際、被引用数が少ないが引用数の多い文書を不当に高く評価することがないよう、各文書の引用数を規定値に揃えて計算する技術も提案されている。ただし、こうした場合にも、引用数が少ない文書が評価の高い文書を引用していると、実際の文書の価値よりも高い評価値が算出されてしまうことがあった。   In a network composed of documents that cite past documents, the evaluation value flows to the past document through the link. Therefore, it is possible to calculate the evaluation value of each document by virtually bidirectionalizing the link. Conceivable. At this time, a technique has been proposed in which the number of citations of each document is calculated so as to be equal to a specified value so that a document with a small number of citations but a large number of citations is not unreasonably high. However, even in such a case, if a document with a small number of citations cites a document with a high evaluation, an evaluation value higher than the value of the actual document may be calculated.

本発明の目的は、有向の接続関係があるデータ要素間の接続関係を双方向化して各データ要素の評価値を算出する場合に、他のデータ要素への接続数が少ないデータ要素が接続先のデータ要素と結びつきが過度に強くなることを抑制するプログラム及び情報分析装置を提供することにある。   An object of the present invention is to connect a data element having a small number of connections to other data elements when calculating the evaluation value of each data element by bidirectionalizing the connection relation between data elements having a directed connection relation. It is an object of the present invention to provide a program and an information analysis apparatus that suppress an excessively strong connection with a previous data element.

上記目的を達成するために、請求項1に記載の発明は、コンピュータを、複数のデータ要素間に設定された有向の接続関係を示す接続情報を取得する取得手段と、有向の接続関係を有する複数のデータ要素に、当該複数のデータ要素の各データ要素から接続され、且つ、当該複数のデータ要素の各データ要素に接続する仮想データ要素を追加して、前記取得手段により取得される接続情報を更新する第1更新手段と、前記複数のデータ要素のうち他のデータ要素への接続数が予め定められた第1の値に満たないデータ要素を選択すると共に、当該選択したデータ要素の接続数が前記第1の値に達するまで前記仮想データ要素への接続関係を設定して、前記第1更新手段により更新される接続情報を更新する第2更新手段と、前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された、前記第2更新手段により更新される接続情報に示される接続関係を双方向化して、前記第2更新手段により更新される接続情報を更新する第3更新手段と、前記第3更新手段により更新される接続情報に示される各接続関係の重みを算出する算出手段として機能させるためのプログラムである。   In order to achieve the above object, the invention according to claim 1 is directed to a computer, an acquisition means for acquiring connection information indicating a directed connection relationship set between a plurality of data elements, and a directed connection relationship. Acquired by the acquisition means by adding a virtual data element connected to each data element of the plurality of data elements to a plurality of data elements having A first updating means for updating connection information; and a data element in which the number of connections to another data element is less than a predetermined first value among the plurality of data elements, and the selected data element Second updating means for setting connection relations to the virtual data elements until the number of connections reaches the first value and updating connection information updated by the first updating means; and the plurality of data The connection relation indicated in the connection information updated by the second update means set in each of the element and the virtual data element is bidirectionalized, and the connection information updated by the second update means is updated. 3 update means and a program for functioning as calculation means for calculating the weight of each connection relation indicated in the connection information updated by the third update means.

また、請求項2に記載の発明は、前記コンピュータをさらに、前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された接続関係を示す隣接行列を、各データ要素からの接続数が予め定められた第2の値に一致するように生成する生成手段として機能させ、前記算出手段は、前記生成手段により生成された隣接行列を前記第3更新手段により更新した後に、当該更新された隣接行列に基づき、各データ要素からの接続関係の重みが合計で1となるように算出することを特徴とする請求項1に記載のプログラムである。   In the invention according to claim 2, the computer further includes an adjacency matrix indicating a connection relationship set for each of the plurality of data elements and the virtual data element, and the number of connections from each data element is predetermined. The generation means for generating the second matrix so as to match the second value, and the calculation means updates the adjacency matrix generated by the generation means by the third update means, and then updates the updated adjacency matrix. The program according to claim 1, wherein the weight of connection relations from each data element is calculated to be 1 in total.

また、請求項3に記載の発明は、前記第1の値は、前記複数のデータ要素のデータ要素数で、前記取得手段により取得される接続情報に示される接続数を除して算出される平均の接続数に基づいて定められることを特徴とする請求項1又は2に記載のプログラムである。   In the invention according to claim 3, the first value is calculated by dividing the number of data elements of the plurality of data elements by the number of connections indicated in the connection information acquired by the acquisition unit. 3. The program according to claim 1, wherein the program is determined based on an average number of connections.

また、請求項4に記載の発明は、前記コンピュータをさらに、前記複数のデータ要素毎の評価値を、前記算出手段により算出される各接続関係の重みに従って更新する処理を、予め定められた終了条件が満足されるまで繰り返し実行する更新手段として機能させるための請求項1から3のいずれかに記載のプログラムである。   According to a fourth aspect of the present invention, the computer further updates the evaluation value for each of the plurality of data elements according to the weight of each connection relation calculated by the calculation means, in a predetermined end. The program according to any one of claims 1 to 3, wherein the program is made to function as an updating unit that is repeatedly executed until a condition is satisfied.

また、請求項5に記載の発明は、複数のデータ要素間に設定された有向の接続関係を示す接続情報を取得する取得手段と、有向の接続関係を有する複数のデータ要素に、当該複数のデータ要素の各データ要素から接続され、且つ、当該複数のデータ要素の各データ要素に接続する仮想データ要素を追加して、前記取得手段により取得される接続情報を更新する第1更新手段と、前記複数のデータ要素のうち他のデータ要素への接続数が予め定められた第1の値に満たないデータ要素を選択すると共に、当該選択したデータ要素の接続数が前記第1の値に達するまで前記仮想データ要素への接続関係を設定して、前記追加更新手段により更新される接続情報を更新する第2更新手段と、前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された、前記第2更新手段により更新される接続情報に示される接続関係を双方向化して、前記第2更新手段により更新される接続情報を更新する第3更新手段と、前記第3更新手段により更新される接続情報に示される各接続関係の重みを算出する算出手段と、を含むことを特徴とする情報分析装置である。   In addition, the invention according to claim 5 includes an acquisition unit that acquires connection information indicating a directed connection relationship set between a plurality of data elements, and a plurality of data elements having a directed connection relationship. First update means for updating connection information acquired by the acquisition means by adding a virtual data element connected from each data element of the plurality of data elements and connected to each data element of the plurality of data elements And selecting a data element in which the number of connections to other data elements is less than a predetermined first value among the plurality of data elements, and the number of connections of the selected data element is the first value A second update unit that sets connection relations to the virtual data elements until reaching the value and updates connection information updated by the additional update unit, and each of the plurality of data elements and the virtual data elements Third update means for updating the connection information updated by the second update means by bidirectionalizing the set connection relation indicated by the connection information updated by the second update means; and the third update Calculating means for calculating the weight of each connection relationship indicated in the connection information updated by the means.

請求項1及び5に記載の発明によれば、有向の接続関係があるデータ要素間の接続関係を双方向化して各データ要素の評価値を算出する場合に、他のデータ要素への接続数が少ないデータ要素が接続先のデータ要素と結びつきが過度に強くなることを抑制できる。   According to the first and fifth aspects of the present invention, when the evaluation value of each data element is calculated by bidirectionalizing the connection relation between data elements having a directed connection relation, the connection to other data elements It can be suppressed that the data elements with a small number are excessively connected to the data element of the connection destination.

請求項2に記載の発明によれば、データ要素間の接続関係の重みをデータ要素からデータ要素への遷移確率で表す場合に、他のデータ要素への接続数が少ないデータ要素が接続先のデータ要素と結びつきが過度に強くなることを抑制できる。   According to the second aspect of the present invention, when the weight of the connection relation between the data elements is expressed by the transition probability from the data element to the data element, the data element having a small number of connections to the other data elements is the connection destination. It is possible to prevent the connection with the data element from becoming excessively strong.

請求項3に記載の発明によれば、データ要素全体における平均の接続数に満たないデータ要素が接続先のデータ要素と結びつきが過度に強くなることを抑制できる。   According to the third aspect of the present invention, it is possible to prevent the data element that is less than the average number of connections in the entire data element from being excessively strongly linked to the connection destination data element.

請求項4に記載の発明によれば、他のデータ要素への接続数が少ないデータ要素が評価の高いデータ要素に接続していた場合、過度に高い評価値を得ることを抑制できる。   According to the fourth aspect of the present invention, when a data element having a small number of connections to other data elements is connected to a highly evaluated data element, it is possible to suppress obtaining an excessively high evaluation value.

本実施形態に係る情報分析装置の機能ブロック図である。It is a functional block diagram of the information analysis device concerning this embodiment. ネットワークの一例を示す図である。It is a figure which shows an example of a network. ノード群に仮想ノードを追加して拡張したネットワークの一例を示す図である。It is a figure which shows an example of the network expanded by adding a virtual node to a node group. 双方向化された隣接行列の表すネットワークの一例を示す図である。It is a figure which shows an example of the network which the bidirectional | two-way adjacency matrix represents. ノード間のリンクを単純に双方向化した場合の例(A)と、本実施形態で用いた手法で双方向化した場合の例(B)を示す図である。It is a figure which shows the example (A) at the time of making the link between nodes simply bidirectional, and the example (B) at the time of bidirectionalizing by the method used by this embodiment. ノードの評価値の算出処理の一例を示すフローチャートである。It is a flowchart which shows an example of a calculation process of the evaluation value of a node.

以下、本発明を実施するための実施の形態(以下、実施形態という)を、図面に従って説明する。   Hereinafter, embodiments for carrying out the present invention (hereinafter referred to as embodiments) will be described with reference to the drawings.

図1には、本実施形態に係る情報分析装置10の機能ブロック図を示した。図1に示されるように、情報分析装置10は、ノードデータ取得部100、仮想ノード追加設定部102、隣接行列生成部104、正則化処理部106、双方向化処理部108、遷移確率行列生成部110、評価値更新部112、及び処理結果保持部114を含む。上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によって情報分析装置10として機能するコンピュータに供給されることとしてもよいし、インターネット等のデータ通信手段を介してコンピュータに供給されることとしてもよい。   FIG. 1 shows a functional block diagram of an information analysis apparatus 10 according to the present embodiment. As illustrated in FIG. 1, the information analysis apparatus 10 includes a node data acquisition unit 100, a virtual node addition setting unit 102, an adjacency matrix generation unit 104, a regularization processing unit 106, a bidirectionalization processing unit 108, and a transition probability matrix generation. Section 110, evaluation value update section 112, and processing result holding section 114. The functions of the above-described units are such that a computer having a control unit such as a CPU, a storage unit such as a memory, and an input / output unit that transmits and receives data to and from an external device reads a program stored in a computer-readable information storage medium. It may be realized by executing. The program may be supplied to a computer functioning as the information analysis apparatus 10 by an information storage medium, or may be supplied to the computer via data communication means such as the Internet.

ノードデータ取得部100は、複数のノード(データ要素)の各データを取得すると共に、各ノードのリンク先(接続先)を示す接続情報を取得するものである。なお、本実施形態におけるノード(データ要素)とは、グラフ理論におけるグラフを構成する節点(頂点)に相当し、リンク(接続関係)とは節点を結ぶ辺(エッジ)に相当するものであって、本実施形態では電子文書等の1つのデータファイルを1つのノードに対応させた例について説明する。例えば、情報分析装置10が文書間の引用ネットワークを解析する場合には、文書をノード、文書間の引用関係をリンクとしてよい。その場合に、ノードデータ取得部100は、文書を格納したデータベースにアクセスして文書を取得することとしてよく、取得した文書が引用する文書(引用文書)の情報は、取得した文書の内容から取得してもよいし、文書を格納しているデータベースに問い合わせて取得することとしてもよい。例えば、文書が特許文献である場合には、特許文献における先行技術文献の欄から引用文書を特定してもよいし、特許文献の識別情報に基づいて審査情報を取得し、当該取得した審査情報に基づいて引用文書を特定することとしてもよい。また、文書が科学技術論文である場合には、科学技術論文の引用欄から引用文書を抽出することとしてよい。   The node data acquisition unit 100 acquires each data of a plurality of nodes (data elements) and acquires connection information indicating a link destination (connection destination) of each node. Note that a node (data element) in the present embodiment corresponds to a node (vertex) constituting a graph in graph theory, and a link (connection relationship) corresponds to an edge (edge) connecting nodes. In this embodiment, an example in which one data file such as an electronic document is associated with one node will be described. For example, when the information analysis apparatus 10 analyzes a citation network between documents, the document may be a node and the citation relationship between documents may be a link. In that case, the node data acquisition unit 100 may acquire a document by accessing a database storing the document, and information on a document (quoted document) cited by the acquired document is acquired from the content of the acquired document. Alternatively, it may be obtained by inquiring a database storing documents. For example, when the document is a patent document, the cited document may be specified from the column of the prior art document in the patent document, or the examination information is obtained based on the identification information of the patent document, and the obtained examination information is obtained. The cited document may be specified based on the above. When the document is a scientific and technical paper, the cited document may be extracted from the citation column of the scientific and technical paper.

図2には、ノードデータ取得部100により取得されるノードデータに基づき、各ノードをその接続関係に従って接続したネットワークの一例を示す図である。図2において、1つのノードは1つの文書に対応しており、ノードi(n)からノードj(n)へ接続する矢印は、ノードiがノードjを引用する関係を表している。 FIG. 2 is a diagram illustrating an example of a network in which each node is connected according to the connection relation based on the node data acquired by the node data acquiring unit 100. In FIG. 2, one node corresponds to one document, and an arrow connecting from the node i (n i ) to the node j (n j ) represents a relationship in which the node i cites the node j.

仮想ノード追加設定部102は、ノードデータ取得部100により取得されたノード群に仮想ノードを追加すると共に、当該追加した仮想ノードとノード群の間にリンクを設定するものである。仮想ノードは、ノード群の全てのノードに引用され、そしてノード群の全てのノードを引用されるノードである。ここで、仮想ノード追加設定部102は、ノード群に含まれるノードのうち、他のノードを引用する引用数が規定値に満たないノードについては、引用数が規定値に達するまで、仮想ノードを引用するようにノードの接続情報を設定する。なお、引用数の規定値は、所与の定数としてもよいし、ノード群における平均の引用数としてもよいし、ノード群における引用数の最大値であってもよい。ノード群における平均の引用数が整数でない場合には、平均の引用数を四捨五入、切り捨て、又は切り上げにより整数とすることとしてよい。なお、仮想ノード追加設定部102は、ノードデータ取得部100により取得されたノード群の接続関係を示す隣接行列に、仮想ノードの行及び列を追加し、仮想ノードと、ノード群の各ノードとの間に接続関係を設定することで隣接行列を更新し、さらに、ノード群に含まれるノードのうち他のノードへの接続数が予め定められた第1の値に満たないノードを選択すると共に、当該選択したノードの接続数が第1の値に達するまで仮想データ要素への接続関係を設定して、上記更新された隣接行列をさらに更新することとしてよい。   The virtual node addition setting unit 102 adds a virtual node to the node group acquired by the node data acquisition unit 100 and sets a link between the added virtual node and the node group. A virtual node is a node that is cited by all nodes in the node group and all nodes in the node group. Here, the virtual node addition setting unit 102 selects a virtual node until the number of citations reaches a specified value for a node in which the number of citations of other nodes is less than the specified value among the nodes included in the node group. Set the node connection information to quote. The specified value of the number of citations may be a given constant, an average number of citations in the node group, or the maximum value of the number of citations in the node group. If the average number of citations in the node group is not an integer, the average number of citations may be rounded, rounded down, or rounded up to an integer. The virtual node addition setting unit 102 adds a row and a column of the virtual node to the adjacency matrix indicating the connection relation of the node group acquired by the node data acquiring unit 100, and the virtual node, each node of the node group, and The adjacency matrix is updated by setting the connection relationship between the nodes, and among the nodes included in the node group, a node whose number of connections to other nodes is less than a predetermined first value is selected. The connection relationship to the virtual data element may be set until the number of connections of the selected node reaches the first value, and the updated adjacency matrix may be further updated.

図3には、ノードデータ取得部100により取得されたノード群に仮想ノードを追加して拡張したネットワークの一例を示す。図3に示されるように、仮想ノードはノード群の全てのノードと少なくとも1つの双方向のリンクを有している。このうち引用数が少ないノードからは、仮想ノードへの複数本のリンクが設けられる。例えば、引用数の規定値が3であり、ノードiの引用数が2である場合には、ノードiから仮想ノードへ1本の引用リンクが設定されることとなり、ノードjの引用数が1である場合には、ノードjから仮想ノードへ2本の引用リンクが設定される。   FIG. 3 shows an example of a network expanded by adding a virtual node to the node group acquired by the node data acquisition unit 100. As shown in FIG. 3, the virtual node has at least one bidirectional link with all the nodes of the node group. Among these, a node with a small number of citations is provided with a plurality of links to the virtual node. For example, if the specified value of the citation count is 3 and the citation count of the node i is 2, one citation link is set from the node i to the virtual node, and the citation count of the node j is 1. In this case, two citation links are set from the node j to the virtual node.

隣接行列生成部104は、ノードデータ取得部100により取得されたノード群に、仮想ノード追加設定部102により仮想ノードが追加されると共に仮想ノードへのリンクが設定されて拡張されたネットワークを表す隣接行列を生成するものである。   The adjacency matrix generation unit 104 adds a virtual node to the node group acquired by the node data acquisition unit 100 by the virtual node addition setting unit 102 and sets a link to the virtual node and indicates an extended network. A matrix is generated.

具体的には、隣接行列生成部104は、ノードj(n)がノードi(n)を引用している時に、隣接行列Aの成分Aijを以下の式(1)で表す。
ij=1 (1)
ここで、i及びjは1〜N(Nは仮想ノードを含めたノード数)の自然数である。ただし、ノードjがノードiをL回引用している場合には、Aij=Lとなる。また、ノードjがノードiを引用していないときにはAijは以下の式(2)で表す。
ij=0 (2)
なお、各ノードは自分自身を引用することはないため隣接行列Aの対角成分は以下の式(3)で表される。
ii=0 (3)
本実施形態では、以上の処理により隣接行列Aを生成する。
Specifically, the adjacency matrix generation unit 104 represents the component A ij of the adjacency matrix A by the following formula (1) when the node j (n j ) cites the node i (n i ).
A ij = 1 (1)
Here, i and j are natural numbers of 1 to N (N is the number of nodes including virtual nodes). However, if node j cites node i L times, A ij = L. When node j does not cite node i, A ij is expressed by the following equation (2).
A ij = 0 (2)
Since each node does not quote itself, the diagonal component of the adjacency matrix A is expressed by the following equation (3).
A ii = 0 (3)
In the present embodiment, the adjacency matrix A is generated by the above processing.

ここで、ノードjのアウトリンク数(引用数)kout(j)は以下の式(4)で、ノードjのインリンク数(被引用数)kin(j)は以下の式(5)で表される。

Figure 2012008680
Figure 2012008680
Here, the number of outlinks (number of citations) k out (j) of the node j is the following expression (4), and the number of inlinks (number of citations) k in (j) of the node j is the following expression (5). It is represented by
Figure 2012008680
Figure 2012008680

正則化処理部106は、各ノードのアウトリンク数をm(mは自然数)本に揃える処理(正規化)を行うものである。具体的には、正規化処理部は、全てのノードには少なくとも規定値以上の引用数があるため、i≠jのときkout(j)≠0であり、隣接行列Aを以下の式(6)により変換して、正規化された隣接行列A(チルダ)を生成する。

Figure 2012008680
また、i=jのときには以下の式(7)となる。
Figure 2012008680
The regularization processing unit 106 performs processing (normalization) for aligning the number of outlinks of each node to m (m is a natural number). Specifically, the normalization processing unit has a number of citations equal to or greater than a specified value in all nodes, so that k out (j) ≠ 0 when i ≠ j, and the adjacency matrix A is expressed by the following formula ( 6) to generate a normalized adjacency matrix A (tilde).
Figure 2012008680
When i = j, the following equation (7) is obtained.
Figure 2012008680

双方向化処理部108は、正規化された隣接行列A(チルダ)におけるリンクを双方向化して、隣接行列を更新するものである。双方向化処理部108は、i≠jのとき、正規化された隣接行列A(チルダ)を用いて、双方向化された隣接行列A(オーバーライン)を以下の式(8)により生成する。

Figure 2012008680
また、i=jのときには、双方向化された隣接行列A(オーバーライン)は以下の式(9)により表される。
Figure 2012008680
なお、双方向化された隣接行列A(オーバーライン)は、式(10)に示されるように対称行列である。
Figure 2012008680
The bi-directional processing unit 108 bi-directionalizes links in the normalized adjacency matrix A (tilde) and updates the adjacency matrix. The bi-directional processing unit 108 generates a bi-directional adjacency matrix A (overline) using the normalized adjacency matrix A (tilde) by the following equation (8) when i ≠ j. .
Figure 2012008680
When i = j, the bidirectional adjacency matrix A (overline) is expressed by the following equation (9).
Figure 2012008680
Note that the bidirectionalized adjacency matrix A (overline) is a symmetric matrix as shown in Equation (10).
Figure 2012008680

ここで、双方向化された隣接行列A(オーバーライン)に基づくノードjのアウトリンク数k(j)は、以下の式(11)により得られる。

Figure 2012008680
ただし、κ(j)は以下の式(12)により表される。
Figure 2012008680
Here, the number of outlinks k (j) of the node j based on the bidirectionalized adjacency matrix A (overline) is obtained by the following equation (11).
Figure 2012008680
However, κ (j) is expressed by the following equation (12).
Figure 2012008680

図4には、双方向化された隣接行列の表すネットワークの一例を示した。図4において、ノードjからの実線のリンクが元々ノード間に設定されているリンクを示し、点線のリンクが双方向化処理により新たに設定されたリンクを示している。なお、ノードjのアウトリンク数k(j)の第1項目は、実線のリンクに基づく項であり、第2項目は、双方向化処理により追加された点線のリンクに基づく項である。   FIG. 4 shows an example of a network represented by a bidirectional adjacency matrix. In FIG. 4, a solid line link from the node j indicates a link originally set between nodes, and a dotted line link indicates a link newly set by bidirectional processing. Note that the first item of the number of outlinks k (j) of the node j is a term based on the solid line link, and the second item is a term based on the dotted line link added by the bidirectional processing.

遷移確率行列生成部110は、双方向化された隣接行列を、各ノードにおいてアウトリンクの重みの総計が1となるように(すなわち、リンクの重みが確率を表すように)規格化するものである。具体的には、遷移確率行列生成部110は、双方向化された隣接行列に基づき、遷移確率行列Tijを以下の式(13)により生成する。

Figure 2012008680
なお、一般にTijは対称行列ではない。式(13)を式(8)〜(12)に基づいて展開すると、式(14)のようになる。
Figure 2012008680
式(14)からも明らかなようにTijはmに依存しない。 The transition probability matrix generation unit 110 normalizes the bi-directional adjacency matrix so that the sum of the weights of the outlinks at each node is 1 (that is, the link weights represent the probabilities). is there. Specifically, the transition probability matrix generation unit 110 generates a transition probability matrix T ij by the following equation (13) based on the bidirectional adjacency matrix.
Figure 2012008680
In general, T ij is not a symmetric matrix. When Expression (13) is expanded based on Expressions (8) to (12), Expression (14) is obtained.
Figure 2012008680
As is clear from equation (14), T ij does not depend on m.

図5には、ノード間のリンクを単純に双方向化した場合の例(A)と、本実施形態で用いた手法で双方向化した場合の例(B)を示した。図5では、ノードiが、多くの引用を集める価値の高いノードjのみを引用している場合を想定している。ここで、ノードjからのノードiに与える影響、すなわち遷移確率行列Tijの値を求める。ノードiはノードjを引用し、逆の引用はないから、式(14)に基づき、Tijは以下の式(15)により表される。

Figure 2012008680
式(14)から、ノードjのノードiに対する影響は、ノードiのアウトリンク数k(i)に反比例する。ここで、図5(A)の場合には、k(i)=1であるのに対して、図5(B)の場合には、k(i)=Lとなる(Lは引用数の規定値(最低本数)でL>1である)から、(A)の場合に比べて(B)の場合には、ノードjからノードiへの影響は1/Lに低減される。なお、(B)の場合には、(L−1)本のリンクにより仮想ノードからノードiへの影響が及ぼされるが、仮想ノードは、全てのノードを引用し、また全てのノードから引用されるノードであるため、全ノードにおける平均的な評価値を有する。そのため、(A)では(B)よりもノードjからの影響をL倍で受けることに比べると、ノードiが引用している全ノードから受ける評価値の総計は減少することとなり、ノードiが、被引用数が少ないにもかかわらず、引用先のノードの価値が高いことにより大きな評価を受けることが回避される。 FIG. 5 shows an example (A) when the link between nodes is simply bidirectionalized, and an example (B) when bidirectionalized by the method used in this embodiment. In FIG. 5, it is assumed that the node i quotes only the node j that is highly worth collecting many citations. Here, the influence on the node i from the node j, that is, the value of the transition probability matrix T ij is obtained. Since node i cites node j and there is no reverse citation, T ij is expressed by the following equation (15) based on equation (14).
Figure 2012008680
From equation (14), the influence of node j on node i is inversely proportional to the number of outlinks k (i) of node i. Here, in the case of FIG. 5A, k (i) = 1, whereas in the case of FIG. 5B, k (i) = L (L is the number of citations). In the case of (B), the influence from the node j to the node i is reduced to 1 / L compared to the case of (A). In the case of (B), (L-1) links affect the node i from the virtual node, but the virtual node quotes all nodes and is quoted from all nodes. Therefore, it has an average evaluation value in all nodes. Therefore, in (A), the total evaluation value received from all the nodes cited by node i is reduced compared to receiving the influence from node j by L times than in (B). Even though the number of citations is small, it is avoided to receive a large evaluation due to the high value of the cited node.

評価値更新部112は、遷移確率行列生成部110により生成された遷移確率行列に基づいて、各ノードの評価値を予め定められた終了条件が満足されるまで繰り返し更新するものである。評価値更新部112により更新された各ノードの評価値が大きい順に各ノードの順位(ランク)が決まる。以下、評価値更新部112による処理の一例を以下説明する。   Based on the transition probability matrix generated by the transition probability matrix generation unit 110, the evaluation value update unit 112 repeatedly updates the evaluation value of each node until a predetermined end condition is satisfied. The rank (rank) of each node is determined in descending order of the evaluation value of each node updated by the evaluation value update unit 112. Hereinafter, an example of processing by the evaluation value update unit 112 will be described.

評価値更新部112は、ノードiの評価値pを以下の式(16)により算出する。

Figure 2012008680
ここで、dは0≦d≦1を満たす実数定数であり、評価値更新部112は、全てのノードiにおいてpの値の変化量が予め定められた条件(例えば、pの変化量が閾値以下となる)を満たすまで、繰り返し式(15)による評価値の更新を繰り返すこととしてよい。なお、各ノードが有する評価値の初期値は予め付与することとしてよい。 The evaluation value update unit 112 calculates the evaluation value p i of the node i by the following equation (16).
Figure 2012008680
Here, d is a real number constant satisfying 0 ≦ d ≦ 1, the evaluation value updating unit 112, all conditions the amount of change values of p i at node i is predetermined (e.g., the variation of p i It is possible to repeat the update of the evaluation value according to the iterative expression (15) until the value satisfies a value equal to or less than the threshold. The initial value of the evaluation value possessed by each node may be given in advance.

処理結果保持部114は、評価値更新部112により更新された各ノードの評価値(ランク値)を保持するものである。処理結果保持部114に保持された各ノードの評価値は、各種の処理に供されることとしてよい。例えば、情報分析装置10は、処理対象の複数のノードの中から、指定された検索条件に合致するノードを検索し、当該検索されたノードを、処理結果保持部114に保持される各ノードの評価値に基づく順位で表示させる表示データを生成し出力することとしてよい。   The processing result holding unit 114 holds the evaluation value (rank value) of each node updated by the evaluation value update unit 112. The evaluation value of each node held in the processing result holding unit 114 may be used for various processes. For example, the information analysis apparatus 10 searches for a node that matches a specified search condition from among a plurality of nodes to be processed, and stores the searched node for each node held in the processing result holding unit 114. Display data to be displayed in the order based on the evaluation value may be generated and output.

次に、図6に示されるフローチャートを参照して、情報分析装置10により行われるノードの評価値の算出処理の一例について説明する。   Next, an example of a node evaluation value calculation process performed by the information analysis apparatus 10 will be described with reference to a flowchart shown in FIG.

図6に示されるように、情報分析装置10は、複数のノードを含むノード群と、各ノード間に定められた有向リンク(引用関係)の情報を含むノードデータを取得する(S1001)。情報分析装置10は、取得したノード群に仮想ノードを追加する(S1002)。ここで、情報分析装置10は、ノード群に含まれるノードのうち未選択のノードを1つ選択し(S1003)、当該選択したノードのアウトリンク数(引用数)が規定値に達していない場合には(S1004:N)、アウトリンク数が規定値に達するまで仮想ノードへのリンクを設定する(S1005)。上記選択したノードのアウトリンク数が規定値以上である場合(S1004:Y)、又はS1005の処理を終えると、情報分析装置10はノード群に未選択のノードがあるか否かを判断し(S1006)、未選択のノードがある場合には(S1006:Y)、S1003に戻ってそれ以降の処理を繰り返し、未選択のノードがない場合には(S1006:N)、S1007の処理に進む。   As illustrated in FIG. 6, the information analysis apparatus 10 acquires node data including information of a node group including a plurality of nodes and a directed link (quotation relationship) defined between the nodes (S1001). The information analysis apparatus 10 adds a virtual node to the acquired node group (S1002). Here, the information analysis apparatus 10 selects one unselected node among the nodes included in the node group (S1003), and the number of outlinks (quotation count) of the selected node does not reach the specified value. (S1004: N), a link to the virtual node is set until the number of outlinks reaches a specified value (S1005). When the number of outlinks of the selected node is greater than or equal to the specified value (S1004: Y), or when the processing of S1005 is completed, the information analysis apparatus 10 determines whether there is an unselected node in the node group ( In S1006), if there is an unselected node (S1006: Y), the process returns to S1003 and the subsequent processing is repeated. If there is no unselected node (S1006: N), the process proceeds to S1007.

情報分析装置10は、以上の処理により仮想ノードを含むノード群の間に設定されたリンクにより構成されるネットワークの情報を示す隣接行列を生成する(S1007)。そして、情報分析装置10は、上記生成した隣接行列に対して、各ノードからのアウトリンク数を一定数に揃える正則化処理を行うと共に(S1008)、さらに正則化された隣接行列に対して、各有向リンクを双方向化する双方向化処理を行う(S1009)。情報分析装置10は、双方向化された隣接行列に基づいて、各ノードからのアウトリンクの重みを、当該アウトリンクを介して他のノードにデータ値が遷移する遷移確率を示すように規格化して遷移確率行列を算出する(S1010)。   The information analysis apparatus 10 generates an adjacency matrix indicating network information configured by links set between the node groups including the virtual nodes by the above processing (S1007). Then, the information analysis apparatus 10 performs regularization processing for aligning the number of out-links from each node to a constant number for the generated adjacency matrix (S1008), and for the regularized adjacency matrix, Bi-directional processing for bi-directionalizing each directional link is performed (S1009). Based on the bidirectional adjacency matrix, the information analysis apparatus 10 normalizes the weight of the out-link from each node to indicate the transition probability that the data value transitions to another node via the out-link. Then, a transition probability matrix is calculated (S1010).

情報分析装置10は、上記算出した遷移確率行列に従って各ノードの評価値(ランク値)を順次更新する処理を、各ノードの評価値の変化量が所与の閾値を下回るまで実行し(S1011)、各ノードの評価値を得て処理を終了する。   The information analysis apparatus 10 executes the process of sequentially updating the evaluation value (rank value) of each node according to the calculated transition probability matrix until the amount of change in the evaluation value of each node falls below a given threshold (S1011). Then, the evaluation value of each node is obtained and the process is terminated.

本実施形態に係る情報分析装置10では、ノード間の引用関係を双方向化し、各ノードの引用数を計算上揃えた上で各ノードの評価値を算出する際に、全てのノードと接続、被接続の関係にある仮想ノードを引用数が規定値に達するまで引用するようにしたことで、引用数の少ないノードが引用先のノードと結びつきが強くなることを回避している。こうして、被引用数が少ないにもかかわらず、引用先のノードの価値が高いことにより大きな評価を受けるノードが存在しないようにした。   In the information analysis apparatus 10 according to the present embodiment, when quoting relationships between nodes are bidirectionalized, and the number of citations of each node is calculated and the evaluation value of each node is calculated, all nodes are connected, By quoting the virtual nodes in the connected relationship until the number of citations reaches a specified value, it is avoided that a node with a small number of citations is strongly linked to the node of the citation destination. In this way, even though the number of citations is small, there is no node that is highly evaluated due to the high value of the quoted node.

本実施形態では、文書をノード、引用関係をリンクとした例を説明したが、本発明は上記の例に限られず、有向リンクにより接続されるノード全般に同様に適用されるものであることはもちろんである。   In this embodiment, an example in which a document is a node and a citation relationship is a link has been described. However, the present invention is not limited to the above example, and is similarly applied to all nodes connected by directed links. Of course.

10 情報分析装置、100 ノードデータ取得部、102 仮想ノード追加設定部、104 隣接行列生成部、106 正則化処理部、108 双方向化処理部、110 遷移確率行列生成部、112 評価値更新部、114 処理結果保持部。   DESCRIPTION OF SYMBOLS 10 Information analysis apparatus, 100 Node data acquisition part, 102 Virtual node addition setting part, 104 Adjacency matrix production | generation part, 106 Regularization processing part, 108 Bidirectionalization processing part, 110 Transition probability matrix generation part, 112 Evaluation value update part, 114 Processing result holding unit.

Claims (5)

コンピュータを、
複数のデータ要素間に設定された有向の接続関係を示す接続情報を取得する取得手段と、
有向の接続関係を有する複数のデータ要素に、当該複数のデータ要素の各データ要素から接続され、且つ、当該複数のデータ要素の各データ要素に接続する仮想データ要素を追加して、前記取得手段により取得される接続情報を更新する第1更新手段と、
前記複数のデータ要素のうち他のデータ要素への接続数が予め定められた第1の値に満たないデータ要素を選択すると共に、当該選択したデータ要素の接続数が前記第1の値に達するまで前記仮想データ要素への接続関係を設定して、前記第1更新手段により更新される接続情報を更新する第2更新手段と、
前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された、前記第2更新手段により更新される接続情報に示される接続関係を双方向化して、前記第2更新手段により更新される接続情報を更新する第3更新手段と、
前記第3更新手段により更新される接続情報に示される各接続関係の重みを算出する算出手段
として機能させるためのプログラム。
Computer
An acquisition means for acquiring connection information indicating a directed connection relationship set between a plurality of data elements;
The acquisition is performed by adding a virtual data element connected to each data element of the plurality of data elements to a plurality of data elements having a directed connection relationship and connected to each data element of the plurality of data elements. First update means for updating connection information acquired by the means;
A data element whose number of connections to other data elements is less than a predetermined first value is selected from the plurality of data elements, and the number of connections of the selected data element reaches the first value. Second update means for setting connection relations to the virtual data elements until the connection information updated by the first update means is updated;
Connection information that is set by each of the plurality of data elements and the virtual data element and that is updated by the second update unit by bidirectionalizing the connection relationship indicated by the connection information that is updated by the second update unit. A third updating means for updating
The program for functioning as a calculation means for calculating the weight of each connection relationship indicated in the connection information updated by the third update means.
前記コンピュータをさらに、
前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された接続関係を示す隣接行列を、各データ要素からの接続数が予め定められた第2の値に一致するように生成する生成手段として機能させ、
前記算出手段は、前記生成手段により生成された隣接行列を前記第3更新手段により更新した後に、当該更新された隣接行列に基づき、各データ要素からの接続関係の重みが合計で1となるように算出する
ことを特徴とする請求項1に記載のプログラム。
The computer further
Generation means for generating an adjacency matrix indicating connection relations set for each of the plurality of data elements and the virtual data element so that the number of connections from each data element matches a predetermined second value Make it work
The calculating means updates the adjacency matrix generated by the generating means by the third updating means, and then, based on the updated adjacency matrix, the weight of connection relation from each data element becomes 1 in total. The program according to claim 1, wherein the program is calculated as follows.
前記第1の値は、前記複数のデータ要素のデータ要素数で、前記取得手段により取得される接続情報に示される接続数を除して算出される平均の接続数に基づいて定められる
ことを特徴とする請求項1又は2に記載のプログラム。
The first value is determined based on an average number of connections calculated by dividing the number of connections indicated in the connection information acquired by the acquisition unit by the number of data elements of the plurality of data elements. The program according to claim 1 or 2, characterized in that
前記コンピュータをさらに、
前記複数のデータ要素毎の評価値を、前記算出手段により算出される各接続関係の重みに従って更新する処理を、予め定められた終了条件が満足されるまで繰り返し実行する更新手段
として機能させるための請求項1から3のいずれかに記載のプログラム。
The computer further
A function for updating the evaluation value for each of the plurality of data elements in accordance with the weight of each connection relationship calculated by the calculation unit until the predetermined end condition is satisfied is functioned as an update unit. The program according to any one of claims 1 to 3.
複数のデータ要素間に設定された有向の接続関係を示す接続情報を取得する取得手段と、
有向の接続関係を有する複数のデータ要素に、当該複数のデータ要素の各データ要素から接続され、且つ、当該複数のデータ要素の各データ要素に接続する仮想データ要素を追加して、前記取得手段により取得される接続情報を更新する第1更新手段と、
前記複数のデータ要素のうち他のデータ要素への接続数が予め定められた第1の値に満たないデータ要素を選択すると共に、当該選択したデータ要素の接続数が前記第1の値に達するまで前記仮想データ要素への接続関係を設定して、前記追加更新手段により更新される接続情報を更新する第2更新手段と、
前記複数のデータ要素及び前記仮想データ要素のそれぞれに設定された、前記第2更新手段により更新される接続情報に示される接続関係を双方向化して、前記第2更新手段により更新される接続情報を更新する第3更新手段と、
前記第3更新手段により更新される接続情報に示される各接続関係の重みを算出する算出手段と、を含む
ことを特徴とする情報分析装置。
An acquisition means for acquiring connection information indicating a directed connection relationship set between a plurality of data elements;
The acquisition is performed by adding a virtual data element connected to each data element of the plurality of data elements to a plurality of data elements having a directed connection relationship and connected to each data element of the plurality of data elements. First update means for updating connection information acquired by the means;
A data element whose number of connections to other data elements is less than a predetermined first value is selected from the plurality of data elements, and the number of connections of the selected data element reaches the first value. Second update means for setting connection relations to the virtual data elements until the connection information updated by the additional update means is updated;
Connection information that is set by each of the plurality of data elements and the virtual data element and that is updated by the second update unit by bidirectionalizing the connection relationship indicated by the connection information that is updated by the second update unit. A third updating means for updating
Calculating means for calculating a weight of each connection relation indicated in the connection information updated by the third updating means.
JP2010142380A 2010-06-23 2010-06-23 Program and information analyzer Expired - Fee Related JP5545063B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010142380A JP5545063B2 (en) 2010-06-23 2010-06-23 Program and information analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010142380A JP5545063B2 (en) 2010-06-23 2010-06-23 Program and information analyzer

Publications (2)

Publication Number Publication Date
JP2012008680A true JP2012008680A (en) 2012-01-12
JP5545063B2 JP5545063B2 (en) 2014-07-09

Family

ID=45539174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010142380A Expired - Fee Related JP5545063B2 (en) 2010-06-23 2010-06-23 Program and information analyzer

Country Status (1)

Country Link
JP (1) JP5545063B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101965277B1 (en) * 2018-08-10 2019-04-03 주식회사 비트나인 System and method for analysis of hypergraph data and computer program for the same
KR101965276B1 (en) * 2018-08-10 2019-04-03 주식회사 비트나인 System and method for analysis of data based on graph and computer program for the same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151392A (en) * 2007-12-18 2009-07-09 Fuji Xerox Co Ltd Information analysis device and information analysis program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151392A (en) * 2007-12-18 2009-07-09 Fuji Xerox Co Ltd Information analysis device and information analysis program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101965277B1 (en) * 2018-08-10 2019-04-03 주식회사 비트나인 System and method for analysis of hypergraph data and computer program for the same
KR101965276B1 (en) * 2018-08-10 2019-04-03 주식회사 비트나인 System and method for analysis of data based on graph and computer program for the same

Also Published As

Publication number Publication date
JP5545063B2 (en) 2014-07-09

Similar Documents

Publication Publication Date Title
CN105934755B (en) Enhancing search results with social tags
US10936950B1 (en) Processing sequential interaction data
JP4633162B2 (en) Index generation system, information retrieval system, and index generation method
CN101828185B (en) Ranking and providing search results based in part on a number of click-through features
US8412665B2 (en) Action prediction and identification temporal user behavior
CN104361081A (en) WEB document-based automatic abstracting method
CN108090104B (en) Method and device for acquiring webpage information
JP2015079395A (en) Information processing device, method, and program
JP5545063B2 (en) Program and information analyzer
Cortez A tutorial on using the rminer R package for data mining tasks
CN102541947A (en) Method and equipment for updating authority score of webpage based on friefox event
CN103984754A (en) Search system and search method
JP2013041530A (en) Program for route calculation, and route calculation device
JP2009146213A (en) Information analysis device and information analysis program
JP5194765B2 (en) Information analysis apparatus and information analysis program
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
JP5833068B2 (en) Series data analysis device and program
JP5471877B2 (en) Program and information analyzer
JP6739379B2 (en) Information processing apparatus, information processing method, program, and advertisement information processing system
US20220035885A1 (en) Link localization by country
Karmitsa et al. Diagonal bundle method with convex and concave updates for large-scale nonconvex and nonsmooth optimization
KR101564616B1 (en) Method for analyzing big data based on association rule
JP2014044552A (en) Evaluation method, information processing device, and program
US20130185401A1 (en) Configuration management device, configuration management method, and configuration management program
JP5589009B2 (en) RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

R150 Certificate of patent or registration of utility model

Ref document number: 5545063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees