JP6625507B2 - Association device, association method and program - Google Patents

Association device, association method and program Download PDF

Info

Publication number
JP6625507B2
JP6625507B2 JP2016206082A JP2016206082A JP6625507B2 JP 6625507 B2 JP6625507 B2 JP 6625507B2 JP 2016206082 A JP2016206082 A JP 2016206082A JP 2016206082 A JP2016206082 A JP 2016206082A JP 6625507 B2 JP6625507 B2 JP 6625507B2
Authority
JP
Japan
Prior art keywords
cluster
parameter
node
estimating
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016206082A
Other languages
Japanese (ja)
Other versions
JP2018067189A (en
Inventor
具治 岩田
具治 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016206082A priority Critical patent/JP6625507B2/en
Publication of JP2018067189A publication Critical patent/JP2018067189A/en
Application granted granted Critical
Publication of JP6625507B2 publication Critical patent/JP6625507B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数のネットワークのデータが与えられたときに、与えられたデータの各ノードの対応付けを見つける対応付け装置、対応付け方法及びプログラムに関する。   The present invention relates to an associating device, an associating method, and a program for finding association of each node of given data when given data of a plurality of networks.

異なるネットワークのノードを対応付ける技術は様々な場面で必要となる。例えば、異なるデータベースのIDを対応付けたり、語彙を対応付けることで辞書を作成したり、画像と説明文の対応を見つけたりする際に、ノードの対応付けが必要となる。   Techniques for associating nodes of different networks are required in various situations. For example, it is necessary to associate nodes when associating IDs of different databases, creating a dictionary by associating vocabulary, or finding the correspondence between an image and an explanatory note.

これまでにノードの対応付け手法は数多く提案されている(例えば、非特許文献1及び2参照)。   A number of node association methods have been proposed (for example, see Non-Patent Documents 1 and 2).

Yuya Yoshikawa, Tomoharu Iwata, Hiroshi Sawada, Takeshi Yamada,"Cross-Domain Matching for Bag-of-Words Data via Kernel Embeddings of Latent Distributions,"Advances in Neural Information Processing Systems, 2015Yuya Yoshikawa, Tomoharu Iwata, Hiroshi Sawada, Takeshi Yamada, "Cross-Domain Matching for Bag-of-Words Data via Kernel Embeddings of Latent Distributions," Advances in Neural Information Processing Systems, 2015 Tomoharu Iwata, James Robert Lloyd, Zoubin Ghahramani,"Unsupervised Many-to-Many Object Matching for Relational Data,"IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.38, No.3, 607-619, 2016Tomoharu Iwata, James Robert Lloyd, Zoubin Ghahramani, "Unsupervised Many-to-Many Object Matching for Relational Data," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 38, No. 3, 607-619, 2016

非特許文献1の対応付け手法は、異なるネットワークのノードの距離が計測できることや、一部のノード間の対応が既知であることを仮定しており、距離が計測できず、かつ、対応が全く得られない場合に、利用できないという問題がある。   The associating method of Non-Patent Document 1 assumes that the distance between nodes in different networks can be measured, and that the correspondence between some nodes is known. If it cannot be obtained, there is a problem that it cannot be used.

非特許文献2の対応付け手法は、距離が計測できず、かつ、対応が全く得られない場合にも適用可能な、教師なし対応付け手法である。しかし、データにノイズが含まれる場合に精度が低くなるという問題点がある。   The association method of Non-Patent Document 2 is an unsupervised association method that can be applied even when the distance cannot be measured and no correspondence can be obtained at all. However, there is a problem that accuracy is reduced when data contains noise.

本発明は、各ノードがクラスタに関連するかどうかを推定しながら各ノードをクラスタに割り当てることにより、ノイズを含むデータであっても各ノードの対応付けを見つけることができる対応付け装置、対応付け方法及びプログラムを提供することを目的とする。   The present invention provides an associating device that assigns each node to a cluster while estimating whether or not each node is associated with a cluster. It is intended to provide a method and a program.

本発明の一形態に係る対応付け装置は、
複数のネットワークのデータが入力されたときに、当該複数のネットワークのデータの各ノードの対応付けを見つける対応付け装置であって、
各ノードとクラスタとの関係を推定するときに、前記入力されたデータ、該当ノード以外のクラスタ割当集合、該当ノード以外の関連割当集合、及びパラメータに基づき、該当ノードがクラスタに関連するかどうかを推定するクラスタ関連推定部と、
前記パラメータがどのくらい前記入力されたデータをもっともらしく説明できているかを示す尤度が高くなるようにパラメータを推定するパラメータ推定部と、
前記クラスタ関連推定部における推定を、終了条件が満たされるまで繰り返す終了条件判定部と、
を有することを特徴とする。
An associating device according to an embodiment of the present invention includes:
When the data of a plurality of networks is input, the associating device to find the association of each node of the data of the plurality of networks,
When estimating the relationship between each node and the cluster, based on the input data, the cluster assignment set other than the corresponding node, the related assignment set other than the corresponding node, and the parameter, it is determined whether the corresponding node is related to the cluster. A cluster-related estimating unit for estimating,
A parameter estimating unit that estimates a parameter such that the likelihood indicating how much the parameter can explain the input data plausibly is high,
An end condition determining unit that repeats the estimation in the cluster related estimating unit until an end condition is satisfied;
It is characterized by having.

また、本発明の一形態に係る対応付け方法は、
複数のネットワークのデータが入力されたときに、当該複数のネットワークのデータの各ノードの対応付けを見つける対応付け装置における対応付け方法であって、
各ノードとクラスタとの関係を推定するときに、前記入力されたデータ、該当ノード以外のクラスタ割当集合、該当ノード以外の関連割当集合、及びパラメータに基づき、該当ノードがクラスタに関連するかどうかを推定するクラスタ関連推定ステップと、
前記パラメータがどのくらい前記入力されたデータをもっともらしく説明できているかを示す尤度が高くなるようにパラメータを推定するパラメータ推定ステップと、
前記クラスタ関連推定ステップにおける推定を、終了条件が満たされるまで繰り返す終了条件判定ステップと、
を有する対応付け方法。
In addition, the association method according to one embodiment of the present invention includes:
When data of a plurality of networks are input, a matching method in a matching device that finds a correspondence between each node of the data of the plurality of networks,
When estimating the relationship between each node and the cluster, based on the input data, the cluster assignment set other than the corresponding node, the related assignment set other than the corresponding node, and the parameter, it is determined whether the corresponding node is related to the cluster. A cluster-related estimation step for estimating;
A parameter estimation step of estimating the parameter such that the likelihood indicating how much the parameter can explain the input data plausibly is high,
An end condition determining step of repeating the estimation in the cluster related estimating step until an end condition is satisfied;
An association method having:

また、本発明の一形態に係るプログラムは、
コンピュータを、上記の対応付け装置の各部として機能させることを特徴とする。
The program according to one embodiment of the present invention includes:
It is characterized by causing a computer to function as each section of the above-mentioned association device.

本発明によれば、ノイズを含むデータであっても各ノードの対応付けを見つけることが可能になる。   According to the present invention, it is possible to find the correspondence of each node even if the data includes noise.

本発明の実施例に係る対応付け装置の機能ブロック図FIG. 2 is a functional block diagram of the association device according to the embodiment of the present invention. 本発明の実施例に係る対応付け装置における処理を示すフローチャート4 is a flowchart illustrating processing in the association device according to the embodiment of the present invention. 本発明の実施例によるネットワークの生成過程を示す図FIG. 4 is a diagram illustrating a network generation process according to an embodiment of the present invention. クラスタ割当及び関連割当を行った結果を示す図Diagram showing the results of cluster assignment and related assignment 本発明の実施例によるシミュレーション結果を示す図FIG. 7 is a diagram showing a simulation result according to the embodiment of the present invention. 本発明の実施例による単語のクラスタ割当と関連割当結果を示す図FIG. 4 is a diagram illustrating a result of word cluster assignment and related assignment according to an embodiment of the present invention. 本発明の実施例に係る対応付け装置のハードウェア構成例を示す図FIG. 2 is a diagram illustrating an example of a hardware configuration of an associating device according to an embodiment of the present invention.

以下、図面を参照して本発明の実施例について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明の実施例では、複数のネットワークのデータが入力されたときに、当該複数のネットワークのデータの各ノードの対応付けを見つける対応付け装置について説明する。   In the embodiment of the present invention, a description will be given of an associating device that, when data of a plurality of networks is input, finds association of each node of the data of the plurality of networks.

入力データとしてD個のネットワークデータが与えられたとする。ネットワーク表現されていないデータの場合、事例間の類似度などをもとにリンクをはることにより、ネットワークデータに変換することで、本発明の実施例が適用可能になる。このように、入力データはノード及びリンクの有無によって表現される。簡単のため、以下の実施例ではタイプ1のノードとタイプ2のノードで構成される重みのない二部グラフについて説明を行うが、重み付きのネットワークや、二部グラフではない一般的なグラフ、リンクに複数のタイプがあるネットワーク(リンクが友人関係、家族関係、仕事関係等の属性があるネットワーク)など、他のネットワークでも適用可能である。   Suppose that D network data are given as input data. In the case of data that is not represented in the network, the embodiment of the present invention can be applied by converting to network data by linking based on the similarity between cases and the like. Thus, the input data is represented by the presence or absence of the node and the link. For the sake of simplicity, the following embodiment describes an unweighted bipartite graph composed of a type 1 node and a type 2 node. However, a weighted network, a general graph that is not a bipartite graph, The present invention can be applied to other networks such as a network having a plurality of types of links (a network having attributes such as a friend relationship, a family relationship, and a work relationship).

入力データは   The input data is

Figure 0006625507
と表現する。ここで
Figure 0006625507
Is expressed as here

Figure 0006625507
はd番目のネットワーク、xdnm∈{0,1}はタイプ1のn番目のノードとタイプ2のm番目のノードの間にリンクの有無を表す変数であり、リンクがある場合xdnm=1、リンクがない場合xdnm=0である。また、Dはネットワーク数であり、Ndtはネットワークdのタイプtのノード数である。
Figure 0006625507
Is a d-th network, x dnm ∈ {0,1} is a variable indicating the presence or absence of a link between the n-th node of type 1 and the m-th node of type 2, and if there is a link, x dnm = 1 , X dnm = 0 if there is no link. D is the number of networks, and Ndt is the number of nodes of type t of the network d.

また、以下の説明において、Ktはタイプtのクラスタ数であり、zdtnはネットワークdのタイプtのn番目のノードのクラスタ割当を表し、zdtn∈{0,1,…,∞}である。rdtnはネットワークdのタイプtのn番目のノードの関連割当であり、関連する場合rdtn=1、関連しない場合rdtn=0である。 In the following description, K t is the number of clusters type t, z dtn represents the cluster allocated to the n-th node type t of the network d, z dtn ∈ {0,1, ..., ∞} in is there. r dtn is a related assignment of the n-th node of type t of the network d, where r dtn = 1 when related and r dtn = 0 when not related.

例えば、後述の例にて説明するWikipediaは、1つ文章に含まれる単語がリンクによって他の文章に結びつけられている。Wikipediaの例では、1つの文章を構成するノードをタイプ1のノードとし、他の文章を構成するノードをタイプ2のノードとして、本発明の実施例に係る対応付け装置は、タイプ1及びタイプ2の各ノードがクラスタに関連するかどうか、また、どのクラスタに割り当てられるかを推定する。更に、異なる言語のWikipediaを異なるネットワークとして扱うことにより、各ノードを複数ネットワークに共通するクラスタに割り当てる。   For example, in Wikipedia described in an example described later, a word included in one sentence is linked to another sentence by a link. In the example of Wikipedia, a node constituting one sentence is a type 1 node, and a node constituting another sentence is a type 2 node. Is estimated to be associated with a cluster and to which cluster it is assigned. Further, by treating Wikipedia of different languages as different networks, each node is assigned to a cluster common to a plurality of networks.

図1は、本発明の実施例に係る対応付け装置100の機能ブロック図である。対応付け装置100は、クラスタ関連推定部110と、パラメータ推定部120と、終了条件判定部130とを有する。   FIG. 1 is a functional block diagram of the associating device 100 according to the embodiment of the present invention. The associating device 100 includes a cluster-related estimating unit 110, a parameter estimating unit 120, and an end condition determining unit 130.

図2を参照して、図1の対応付け装置100における処理について説明する。   With reference to FIG. 2, the processing in the association device 100 of FIG. 1 will be described.

ステップS101において、クラスタ関連推定部110は、入力データを受け取り、ステップS102において、クラスタ関連推定部110は、各ノードがクラスタに関連するかどうかを推定する。具体的には、クラスタ関連推定部110は、各ネットワークの各タイプの各ノードがどのクラスタに割り当てられるか、および、関連があると割り当てるか、を表す割当度を計算する。関連があると割り当てる場合には、ノードはいずれかのクラスタに割り当てられ、関連がないと割り当てる場合には、ノードはクラスタに割り当てられない。ノードとクラスタとの関係を示す割当度は、入力データ、該当ノード以外のクラスタ割当集合、該当ノード以外の関連割当集合、及びパラメータを考慮したものである。そして、クラスタ関連推定部110は、割当度に基づいて、クラスタ割当(各ノードをクラスタに割り当てること)と関連割当(各ノードがクラスタに関連するかどうかを割り当てること)を繰り返す。   In step S101, the cluster association estimating unit 110 receives the input data. In step S102, the cluster association estimating unit 110 estimates whether each node is associated with a cluster. Specifically, the cluster association estimating unit 110 calculates an assignment degree indicating to which cluster each node of each type of each network is to be assigned, and to assign if there is an association. If assigned, the node is assigned to one of the clusters; otherwise, the node is not assigned to a cluster. The degree of assignment indicating the relationship between a node and a cluster is based on input data, a cluster assignment set other than the corresponding node, a related assignment set other than the corresponding node, and parameters. Then, the cluster association estimating unit 110 repeats cluster assignment (assigning each node to a cluster) and association assignment (assigning whether or not each node is associated with a cluster) based on the assignment degree.

ここで、クラスタ関連推定部110は、クラスタと関連がどのくらい入力データをもっともらしく説明できているかを表す尤度が高くなるように、クラスタ割当と関連割当を繰り返す。同じようなリンク構造を持っている関連するノードが同じクラスタに割り当てられる場合、尤度は高くなる。また、ランダムにリンクがはられる場合、関連がないと割り当てると尤度が高くなり、リンクがクラスタ構造に従ってはられている場合、関連があると割り当てると尤度が高くなる。   Here, the cluster association estimating unit 110 repeats the cluster assignment and the association assignment so that the likelihood indicating how plausibly the input data is explained by the cluster and the association is high. The likelihood is high when related nodes with similar link structures are assigned to the same cluster. Also, when a link is randomly assigned, the likelihood increases when the link is assigned if there is no association, and when the link follows the cluster structure, the likelihood increases when the link is assigned.

図3は、本発明の実施例によるネットワークデータの生成過程を示す図である。リンク確率を用いることで、ノード間のリンクがはられる。関連がない場合、ノードによらず一定の確率でノード間のリンクがはられると仮定した場合で以下の説明を進めるが、ノードによって異なる確率でノード間のリンクがはられると仮定してもよい。なお、本発明の実施例では、ネットワークデータは与えられるため、逆問題を解いてネットワークデータからリンク確率等を推定することができる。   FIG. 3 is a diagram illustrating a process of generating network data according to an embodiment of the present invention. The link between the nodes is established by using the link probability. In the case where there is no association, the following description will be made on the assumption that the link between the nodes is established with a certain probability regardless of the node, but it may be assumed that the link between the nodes is established with a different probability depending on the node. . In the embodiment of the present invention, since the network data is provided, the inverse problem can be solved to estimate the link probability and the like from the network data.

ステップS103において、パラメータ推定部120は、クラスタ関連推定部110において用いたパラメータがどのくらい入力データをもっともらしく説明できているかを表す尤度が高くなるようにパラメータを推定する。   In step S103, the parameter estimating unit 120 estimates the parameters such that the likelihood indicating how much the parameters used in the cluster-related estimating unit 110 can explain the input data plausibly is high.

ステップS104において、終了条件判定部130は、クラスタ関連推定部110での処理と、パラメータ推定部120での処理を終了条件が満たされるまで繰り返す。終了条件としては、尤度が収束した、繰り返し数が一定数をこえた、クラスタや関連、パラメータの変化量があるしきい値以下であった、などが用いられる。なお、クラスタ関連推定部110は、割当度に従ってクラスタ割当と関連割当を決めるため、終了条件判定部130は、クラスタ関連推定部110のみの処理を繰り返すことで求められた推定結果に対して、終了条件が満たされているかを判定してもよい。すなわち、パラメータ推定部120におけるパラメータの更新が行われずに、クラスタ関連推定部110の処理を繰り返すことで求められた別のクラスタ割当と関連割当に対して、終了条件が満たされているかを判定してもよい。   In step S104, the termination condition determination unit 130 repeats the processing in the cluster association estimation unit 110 and the processing in the parameter estimation unit 120 until the termination condition is satisfied. As the end condition, the likelihood converges, the number of repetitions exceeds a certain number, the cluster or association, the change amount of the parameter is equal to or less than a certain threshold value, and the like are used. Since the cluster-related estimating unit 110 determines the cluster allocation and the related allocation in accordance with the degree of allocation, the termination condition determining unit 130 determines whether the estimation result obtained by repeating the processing of the cluster-related estimating unit 110 alone is the end. It may be determined whether the condition is satisfied. That is, it is determined whether or not the termination condition is satisfied for another cluster assignment and the related assignment obtained by repeating the processing of the cluster related estimating unit 110 without updating the parameter in the parameter estimating unit 120. You may.

ステップS105において、クラスタ関連推定部110は、終了条件が満たされたときの推定結果であるクラスタ割当と関連割当を出力する。図4は、クラスタ関連推定部110において複数のネットワークのノードに対してクラスタ割当と関連割当を行った結果を示している。最後に、関連するノードのうち、同じクラスタに割り当てられたノードが対応するノードと判断する。   In step S105, the cluster-related estimating unit 110 outputs a cluster assignment and a related assignment, which are estimation results when the termination condition is satisfied. FIG. 4 shows a result of performing cluster assignment and association assignment to nodes of a plurality of networks in the cluster association estimating unit 110. Finally, among the related nodes, the node assigned to the same cluster is determined to be the corresponding node.

なお、尤度の代わりに、事後確率など同等の性質を持つ値を用いることも可能である。また、以下ではマルコフ連鎖モンテカルロ法に基づいて潜在ベクトルを割り当てる場合について記述するが、最尤推定法や変分ベイズ法などを用いることも可能である。   Note that, instead of the likelihood, a value having an equivalent property such as a posterior probability can be used. In the following, the case of assigning a latent vector based on the Markov chain Monte Carlo method will be described. However, it is also possible to use a maximum likelihood estimation method, a variational Bayes method, or the like.

次に、クラスタ関連推定部110について詳細に説明する。   Next, the cluster association estimating unit 110 will be described in detail.

図1に示すように、クラスタ関連推定部110は、初期化部111と、割当部112とを備えている。   As shown in FIG. 1, the cluster-related estimating unit 110 includes an initialization unit 111 and an assignment unit 112.

まず、初期化部111により、各ノードにランダムにクラスタ、関連を割り当てる。   First, the initialization unit 111 randomly assigns a cluster and an association to each node.

次に、割当部112において、まず、各ネットワークの各タイプの各ノードがどのクラスタに割り当てられるか、および、関連があると割り当てるか、を表す割当度を計算する。割当度は、入力として、ネットワークデータ、該当ノード以外のクラスタ割当集合と関連割当集合、パラメータ、をとり、これらの値を考慮したものである必要がある。ここではクラスタの割当は無限混合モデル(Charles Kemp, Joshua Tenenbaum, Thomas Griffiths, Takeshi Yamada, Naonori Ueda,"Learning Systems of Concepts with an Infinite Relational Model,"AAAI, 2006)をもとに行っているが、ネットワークのリンク構造に基づいてクラスタリングを行う手法であれば、他のクラスタリング手法を用いてもよい。   Next, the allocating unit 112 first calculates an allocation degree indicating to which cluster each node of each type of each network is allocated, and whether it is allocated if there is a relation. The assignment degree needs to take network data, a cluster assignment set other than the corresponding node, a related assignment set, and parameters as inputs, and consider these values. Here, clusters are assigned based on an infinite mixed model (Charles Kemp, Joshua Tenenbaum, Thomas Griffiths, Takeshi Yamada, Naonori Ueda, "Learning Systems of Concepts with an Infinite Relational Model," AAAI, 2006) Other clustering methods may be used as long as they perform clustering based on the link structure of the network.

クラスタ割当集合を   Cluster assignment set

Figure 0006625507
とし、関連割当集合を
Figure 0006625507
And the associated assignment set

Figure 0006625507
とする。例えば、ネットワークdのタイプtのn番目のクラスタ割当zdtnと関連割当rdtnは、i=(d,t,n)としたとき、割当度は下式で計算できる。
Figure 0006625507
And For example, when the n-th cluster assignment z dtn and the related assignment r dtn of the type t of the network d are i = (d, t, n), the assignment can be calculated by the following equation.

Figure 0006625507
ここで
Figure 0006625507
here

Figure 0006625507
はノードiを除いたときの集合や値を表し、
Figure 0006625507
Represents a set or a value when node i is excluded.

Figure 0006625507
はノードiに関するリンクの集合、
Figure 0006625507
Is the set of links for node i,

Figure 0006625507
である。
Figure 0006625507
It is.

第一因子は   The first factor is

Figure 0006625507
で計算できる。ここで
Figure 0006625507
Can be calculated by here

Figure 0006625507
は関連割当rのタイプtのノード数、
Figure 0006625507
Is the number of nodes of type t of the related assignment r,

Figure 0006625507
は関連すると割り当てられたクラスタkに割り当てられたタイプtのノード数を表す。
Figure 0006625507
Represents the number of nodes of type t assigned to the cluster k assigned as relevant.

関連しない場合の第二因子は   The second factor when not relevant is

Figure 0006625507
で計算できる。ここで
Figure 0006625507
Can be calculated by here

Figure 0006625507
は関連しないノードのリンク数、
Figure 0006625507
Is the number of links of unrelated nodes,

Figure 0006625507
は関連しないノードの非リンク数、+i0はri=0とした場合の
Figure 0006625507
Is the number of non-links of unrelated nodes, + i0 is when r i = 0

Figure 0006625507
に関する統計量を表す。
Figure 0006625507
Represents the statistics for

関連する場合の第二因子は   The second factor when relevant is

Figure 0006625507
で計算できる。ここで
Figure 0006625507
Can be calculated by here

Figure 0006625507
はクラスタkとlに割り当てられた関連するノードの間のリンク数、
Figure 0006625507
Is the number of links between related nodes assigned to clusters k and l,

Figure 0006625507
はクラスタkとlに割り当てられた関連するノードの間の非リンク数、+ikはri=1とzi=kとした場合の
Figure 0006625507
Is the number of non-links between related nodes assigned to clusters k and l, + ik is when r i = 1 and z i = k

Figure 0006625507
に関する統計量を表す。
Figure 0006625507
Represents the statistics for

次に、パラメータ推定部120について詳細に説明する。   Next, the parameter estimation unit 120 will be described in detail.

パラメータ推定部120は、パラメータαt,a,b,c,d,e,fがどのくらい入力データをもっともらしく説明できているかを表す尤度が高くなるようにパラメータを推定する。例えば、パラメータに対してガンマ事前分布を仮定して事後確率からサンプリングすることにより尤度が高くなるように、パラメータを推定できる。 The parameter estimating unit 120 estimates the parameters such that the likelihood representing how much the parameters α t , a, b, c, d, e, and f can explain input data plausibly is high. For example, parameters can be estimated so that the likelihood increases by sampling from posterior probabilities assuming a gamma prior distribution for the parameters.

<本発明の実施例の評価>
本発明の実施例を評価するため、Wikipediaの英語、ドイツ語、イタリア語、日本語の5カテゴリ(ノーベル物理学賞、ノーベル化学賞、アメリカのバスケットボール選手、アメリカの作曲家、イングランドのサッカー選手)の文書を用いて実験を行った。各言語ペアで各カテゴリから50文書をサンプリングし2つの文書単語ネットワークを作成した。ここでストップワードを除去し、頻出する1000語彙を用いた。1つの文書単語ネットワークのサイズは(150×1000)である。
<Evaluation of Examples of the Present Invention>
To evaluate embodiments of the present invention, five categories of Wikipedia English, German, Italian and Japanese (Nobel Prize in Physics, Nobel Prize in Chemistry, American basketball players, American composers, English footballers) An experiment was performed using the document. We sampled 50 documents from each category in each language pair and created two document word networks. Here, stop words were removed, and frequently used 1000 words were used. The size of one document word network is (150 × 1000).

比較手法として、ReMatch(非特許参考文献2)とIRM+KSを用いた。IRM+KSは無限関係モデル(Charles Kemp, Joshua Tenenbaum, Thomas Griffiths, Takeshi Yamada, Naonori Ueda,"Learning Systems of Concepts with an Infinite Relational Model,"AAAI, 2006)を用いてクラスタリングした後に教師なし対応付け手法であるカーネル並び替え法(Nemanja Djuric, Mihajlo Grbovic, Slobodan Vucetic,"Convex Kernelized Sorting,"AAAI, 2012)を用いて、クラスタの対応を見つける手法である。評価尺度としてはMatching Adjusted Rand Index (MARI)を用いた。
MARIは正しいクラスタ対応付ができるほど高い値をとる。図5にその結果である平均MARIとその標準誤差を示す。太字は最もよい手法に比べてt検定により有意差がなかったことを示す。図5から、本発明の実施例が比較手法に比べ高い性能を示しており、その有効性が確認できる。
As a comparison method, ReMatch (Non-Patent Reference 2) and IRM + KS were used. IRM + KS is an unsupervised matching method after clustering using an infinite relation model (Charles Kemp, Joshua Tenenbaum, Thomas Griffiths, Takeshi Yamada, Naonori Ueda, "Learning Systems of Concepts with an Infinite Relational Model," AAAI, 2006) This method uses the kernel sorting method (Nemanja Djuric, Mihajlo Grbovic, Slobodan Vucetic, "Convex Kernelized Sorting," AAAI, 2012) to find the correspondence between clusters. The Matching Adjusted Rand Index (MARI) was used as an evaluation scale.
MARI is high enough to allow correct cluster mapping. FIG. 5 shows the resulting average MARI and its standard error. Bold letters indicate that there was no significant difference by the t-test compared to the best method. From FIG. 5, the embodiment of the present invention shows higher performance than the comparative method, and its effectiveness can be confirmed.

図6は、は英語(EN)とドイツ語(DE)のデータでのクラスタ割当および関連割当結果を示す。2行ずつで1つのクラスタに対応し、そのなかの上の行が英語の単語であり、下の行がドイツ語の単語である。一番下の2行は関連しないと割り当てられた単語である。例えば、一番上のクラスタには音楽に関連する単語がクラスタリングされており、2番目のクラスタにはバスケットボールに関連する単語がクラスタリングされている。このように、言語をまたいで関連する単語がクラスタリングされ、また、トピックに関係しない単語が関連なしと判断されている。   FIG. 6 shows the results of cluster assignment and related assignment on English (EN) and German (DE) data. Two lines correspond to one cluster, in which the upper line is an English word and the lower line is a German word. The bottom two lines are words that have been assigned as unrelated. For example, words related to music are clustered in the top cluster, and words related to basketball are clustered in the second cluster. In this way, words related across languages are clustered, and words not related to the topic are determined to be unrelated.

<ハードウェア構成例>
図7に、本発明の実施例に係る対応付け装置100のハードウェア構成例を示す。対応付け装置100は、CPU(Central Processing Unit)151等のプロセッサ、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置152、ハードディスク等の記憶装置153等から構成されたコンピュータでもよい。例えば、対応付け装置100の機能及び処理は、記憶装置153又はメモリ装置152に格納されているデータやプログラムをCPU151が実行することによって実現される。また、対応付け装置100に必要な情報は、入出力インタフェース装置154から入力され、対応付け装置100において求められた結果は、入出力インタフェース装置154から出力されてもよい。
<Example of hardware configuration>
FIG. 7 illustrates a hardware configuration example of the associating device 100 according to the embodiment of the present invention. The association device 100 may be a computer including a processor such as a CPU (Central Processing Unit) 151, a memory device 152 such as a RAM (Random Access Memory) and a ROM (Read Only Memory), and a storage device 153 such as a hard disk. . For example, the functions and processing of the association device 100 are realized by the CPU 151 executing data and programs stored in the storage device 153 or the memory device 152. Further, information necessary for the associating device 100 may be input from the input / output interface device 154, and the result obtained in the associating device 100 may be output from the input / output interface device 154.

<補足>
説明の便宜上、本発明の実施例に係る対応付け装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係る対応付け装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係る対応付け装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。
<Supplement>
For convenience of explanation, the associating device according to the embodiment of the present invention is described using a functional block diagram, but the associating device according to the embodiment of the present invention may be implemented by hardware, software, or a combination thereof. It may be realized. For example, the embodiment of the present invention includes a program that causes a computer to realize the function of the association device according to the embodiment of the present invention, a program that causes a computer to execute each procedure of the method according to the embodiment of the present invention, and the like. May be realized. Further, the respective functional units may be used in combination as needed. Further, the method according to the embodiment of the present invention may be performed in an order different from the order shown in the embodiment.

以上、ノイズを含むデータであっても各ノードの対応付けを見つけることができる手法について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。   As described above, the method of finding the correspondence of each node even in the case of data including noise has been described. However, the present invention is not limited to the above-described embodiment, and various methods may be used within the scope of the claims. Changes and applications are possible.

100 対応付け装置
110 クラスタ関連推定部
111 初期化部
112 割当部
120 パラメータ推定部
130 終了条件判定部
151 CPU
152 メモリ装置
153 記憶装置
154 入出力インタフェース装置
REFERENCE SIGNS LIST 100 associating device 110 cluster-related estimating unit 111 initialization unit 112 allocating unit 120 parameter estimating unit 130 end condition determining unit 151 CPU
152 memory device 153 storage device 154 input / output interface device

Claims (7)

複数のネットワークのデータが入力されたときに、当該複数のネットワークのデータの各ノードの対応付けを見つける対応付け装置であって、
各ノードとクラスタとの関係を推定するときに、前記入力されたデータ、該当ノード以外のクラスタ割当集合、該当ノード以外の関連割当集合、及びパラメータに基づき、該当ノードがクラスタに関連するかどうかを推定するクラスタ関連推定部と、
前記パラメータがどのくらい前記入力されたデータをもっともらしく説明できているかを示す尤度が高くなるようにパラメータを推定するパラメータ推定部と、
前記クラスタ関連推定部における推定を、終了条件が満たされるまで繰り返す終了条件判定部と、
を有する対応付け装置。
When the data of a plurality of networks is input, the associating device to find the association of each node of the data of the plurality of networks,
When estimating the relationship between each node and the cluster, based on the input data, the cluster assignment set other than the corresponding node, the related assignment set other than the corresponding node, and the parameter, it is determined whether the corresponding node is related to the cluster. A cluster-related estimating unit for estimating,
A parameter estimating unit that estimates a parameter such that the likelihood indicating how much the parameter can explain the input data plausibly is high,
An end condition determining unit that repeats the estimation in the cluster related estimating unit until an end condition is satisfied;
An associating device comprising:
前記クラスタ関連推定部は、該当ノードがクラスタに関連しない場合、ノードによって異なる確率でノード間のリンクがはられると仮定し、該当ノードがクラスタに関連するかどうかを推定する、請求項1に記載の対応付け装置。   2. The cluster association estimating unit according to claim 1, wherein when the corresponding node is not associated with the cluster, it is assumed that a link between the nodes is established with different probabilities depending on the node, and estimates whether the corresponding node is associated with the cluster. Associating device. 前記パラメータ推定部は、前記パラメータに対してガンマ事前分布を仮定して事後確率からサンプリングすることで、前記パラメータを推定する、請求項1又は2に記載の対応付け装置。   The association device according to claim 1, wherein the parameter estimating unit estimates the parameter by sampling from a posterior probability assuming a gamma prior distribution for the parameter. 複数のネットワークのデータが入力されたときに、当該複数のネットワークのデータの各ノードの対応付けを見つける対応付け装置における対応付け方法であって、
各ノードとクラスタとの関係を推定するときに、前記入力されたデータ、該当ノード以外のクラスタ割当集合、該当ノード以外の関連割当集合、及びパラメータに基づき、該当ノードがクラスタに関連するかどうかを推定するクラスタ関連推定ステップと、
前記パラメータがどのくらい前記入力されたデータをもっともらしく説明できているかを示す尤度が高くなるようにパラメータを推定するパラメータ推定ステップと、
前記クラスタ関連推定ステップにおける推定を、終了条件が満たされるまで繰り返す終了条件判定ステップと、
を有する対応付け方法。
When data of a plurality of networks are input, a matching method in a matching device that finds a correspondence between each node of the data of the plurality of networks,
When estimating the relationship between each node and the cluster, based on the input data, the cluster assignment set other than the corresponding node, the related assignment set other than the corresponding node, and the parameter, it is determined whether the corresponding node is related to the cluster. A cluster-related estimation step for estimating;
A parameter estimation step of estimating the parameter such that the likelihood indicating how much the parameter can explain the input data plausibly is high,
An end condition determining step of repeating the estimation in the cluster related estimating step until an end condition is satisfied;
An association method having:
前記クラスタ関連推定ステップにおいて、該当ノードがクラスタに関連しない場合、ノードによって異なる確率でノード間のリンクがはられると仮定し、該当ノードがクラスタに関連するかどうかを推定する、請求項4に記載の対応付け方法。   The method according to claim 4, wherein in the cluster association estimating step, if the corresponding node is not associated with the cluster, it is assumed that a link between the nodes is established with a different probability depending on the node, and whether the corresponding node is associated with the cluster is estimated. How to match. 前記パラメータ推定ステップにおいて、前記パラメータに対してガンマ事前分布を仮定して事後確率からサンプリングすることで、前記パラメータを推定する、請求項4又は5に記載の対応付け方法。   The method according to claim 4, wherein in the parameter estimating step, the parameter is estimated by sampling from a posterior probability assuming a gamma prior distribution for the parameter. コンピュータを、請求項1乃至3のいずれか1項に記載の対応付け装置の各部として機能させるためのプログラム。   A program for causing a computer to function as each unit of the association device according to any one of claims 1 to 3.
JP2016206082A 2016-10-20 2016-10-20 Association device, association method and program Active JP6625507B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016206082A JP6625507B2 (en) 2016-10-20 2016-10-20 Association device, association method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016206082A JP6625507B2 (en) 2016-10-20 2016-10-20 Association device, association method and program

Publications (2)

Publication Number Publication Date
JP2018067189A JP2018067189A (en) 2018-04-26
JP6625507B2 true JP6625507B2 (en) 2019-12-25

Family

ID=62087117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016206082A Active JP6625507B2 (en) 2016-10-20 2016-10-20 Association device, association method and program

Country Status (1)

Country Link
JP (1) JP6625507B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7014086B2 (en) * 2018-08-02 2022-02-01 日本電信電話株式会社 Analytical equipment, analysis method and program

Also Published As

Publication number Publication date
JP2018067189A (en) 2018-04-26

Similar Documents

Publication Publication Date Title
JP6928371B2 (en) Classifier, learning method of classifier, classification method in classifier
CN107704625B (en) Method and device for field matching
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
WO2019223384A1 (en) Feature interpretation method and device for gbdt model
JP6414363B2 (en) Prediction system, method and program
JP6172317B2 (en) Method and apparatus for mixed model selection
JP6870508B2 (en) Learning programs, learning methods and learning devices
WO2017159402A1 (en) Co-clustering system, method, and program
JP7527488B2 (en) Model training method, data enrichment method, device, electronic device and storage medium
WO2014073206A1 (en) Information-processing device and information-processing method
US20140156569A1 (en) Method and apparatus for improving resilience in customized program learning network computational environments
CN113158685A (en) Text semantic prediction method and device, computer equipment and storage medium
CN115801600B (en) Noise data environment-oriented propagation network structure reconstruction method and device
JP7207540B2 (en) LEARNING SUPPORT DEVICE, LEARNING SUPPORT METHOD, AND PROGRAM
Yousefnezhad et al. A new selection strategy for selective cluster ensemble based on diversity and independency
JP6625507B2 (en) Association device, association method and program
Miao et al. Informative core identification in complex networks
JP6586026B2 (en) Word vector learning device, natural language processing device, method, and program
JP6172315B2 (en) Method and apparatus for mixed model selection
JP2024509849A (en) Training a distributionally robust model
CN113255933A (en) Feature engineering and graph network generation method and device and distributed system
CN111538898A (en) Web service package recommendation method and system based on combined feature extraction
Atsawaraungsuk et al. Identity activation structural tolerance online sequential circular extreme learning machine for highly dimensional data.
WO2016122561A1 (en) Synthesizing a graph
Luzio et al. Decoupling Decision-Making in Fraud Prevention through Classifier Calibration for Business Logic Action

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191127

R150 Certificate of patent or registration of utility model

Ref document number: 6625507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150