JP6152073B2 - Group association apparatus, method, and program - Google Patents

Group association apparatus, method, and program Download PDF

Info

Publication number
JP6152073B2
JP6152073B2 JP2014105512A JP2014105512A JP6152073B2 JP 6152073 B2 JP6152073 B2 JP 6152073B2 JP 2014105512 A JP2014105512 A JP 2014105512A JP 2014105512 A JP2014105512 A JP 2014105512A JP 6152073 B2 JP6152073 B2 JP 6152073B2
Authority
JP
Japan
Prior art keywords
data
groups
kernel
group
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014105512A
Other languages
Japanese (ja)
Other versions
JP2015219880A (en
Inventor
具治 岩田
具治 岩田
平尾 努
努 平尾
健次 福水
健次 福水
元信 金川
元信 金川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014105512A priority Critical patent/JP6152073B2/en
Publication of JP2015219880A publication Critical patent/JP2015219880A/en
Application granted granted Critical
Publication of JP6152073B2 publication Critical patent/JP6152073B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、グループ対応付け装置、方法、及びプログラムに係り、特に、データ間のグループを対応付けるグループ対応付け装置、方法、及びプログラムに関する。   The present invention relates to a group association apparatus, method, and program, and more particularly, to a group association apparatus, method, and program for associating groups between data.

異なるデータに含まれるオブジェクトを対応付ける手法は、画像と文の対応付けや、英語と日本語の単語の対応付け、異なるデータベースに含まれるユーザIDの対応付けなど、様々な応用が可能である。いくつかの応用例においては、オブジェクトをグループ化して、対応付けを行っている。例えば、画像や文をその内容に応じて分類して対応付けを行う場合や、単語がその意味に応じてまとめて対応付けを行う場合、ユーザをその属するコミュニティーに応じてグループ化して対応付けを行う場合などである。   Various methods such as associating images and sentences, associating English and Japanese words, and associating user IDs included in different databases are possible as methods for associating objects included in different data. In some applications, objects are grouped and associated. For example, when images and sentences are classified and matched according to their contents, or when words are associated together according to their meanings, users are grouped according to their communities and associated For example.

これらの対応付けにおいては、オブジェクトに関する対応情報が事前に与えられている場合や、異なるデータ間の距離が計算できる場合の対応付け手法が提案されている (例えば、非特許文献1)。また、対応情報や距離尺度がない場合であっても、オブジェクトを対応付ける手法もいくつか提案されている(例えば、非特許文献2、3、4)。   In these associations, an association method has been proposed in the case where correspondence information about an object is given in advance or a distance between different data can be calculated (for example, Non-Patent Document 1). Also, some methods for associating objects even when there is no correspondence information or distance measure have been proposed (for example, Non-Patent Documents 2, 3, and 4).

Tomoharu Iwata, Shinji Watanabe, Hiroshi Sawada: ”Fashion Coordinates Recommender System using Photographs from Fashion Magazines,” The twenty-second International Joint Conference on Artificial Intelligence (IJCAI), 2262-2267, 2011.Tomoharu Iwata, Shinji Watanabe, Hiroshi Sawada: “Fashion Coordinates Recommender System using Photographs from Fashion Magazines,” The twenty-second International Joint Conference on Artificial Intelligence (IJCAI), 2262-2267, 2011. Tomoharu Iwata, Tsutomu Hirao, Naonori Ueda: ”Unsupervised Cluster Matching via Probabilistic Latent Variable Models,”The Twenty-Seventh AAAI Conference on Artificial Intelligence, 2013.Tomoharu Iwata, Tsutomu Hirao, Naonori Ueda: “Unsupervised Cluster Matching via Probabilistic Latent Variable Models,” The Twenty-Seventh AAAI Conference on Artificial Intelligence, 2013. Novi Quadrianto, Alex J. Smola, Le Song, Tinne Tuytelaars. KernelizedSorting. IEEE Trans. on Pattern Analysis and Machine Intelligence PAMI, vol. 32(10), pp.1809-1821, 2010.Novi Quadrianto, Alex J. Smola, Le Song, Tinne Tuytelaars. Kernelized Sorting. IEEE Trans. On Pattern Analysis and Machine Intelligence PAMI, vol. 32 (10), pp. 1809-1821, 2010. Djuric, N., Grbovic, M., Vucetic, S., Convex Kernelized Sorting, AAAI Conference on Artificial Intelligence (AAAI), Toronto, Canada, 2012.Djuric, N., Grbovic, M., Vucetic, S., Convex Kernelized Sorting, AAAI Conference on Artificial Intelligence (AAAI), Toronto, Canada, 2012.

しかし、非特許文献1の技術では、対応情報や距離尺度が事前に与えられない場合には適用できないという問題がある。また、非特許文献2、3、4の技術では、グループ化されていないデータを対象としているため、オブジェクトのグループについての対応付けができない、という問題がある。   However, the technique of Non-Patent Document 1 has a problem that it cannot be applied when correspondence information and a distance scale are not given in advance. In addition, the techniques of Non-Patent Documents 2, 3, and 4 have a problem that association with object groups cannot be performed because ungrouped data is targeted.

本発明では、上記問題点を解決するために成されたものであり、精度よく、異なるデータ間のグループを対応付けることができるグループ対応付け装置、方法及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and an object of the present invention is to provide a group association apparatus, method, and program capable of accurately associating groups between different data.

上記目的を達成するために、本発明に係るグループ対応付け装置は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け装置であって、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するカーネル計算部と、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行う並び替え部と、を含んで構成されている。   In order to achieve the above object, a group association apparatus according to the present invention receives a plurality of different data, each of which is an input of a plurality of data that is a set of objects grouped into N groups. A group association apparatus that associates groups among the plurality of data, and for each of the plurality of data, for each of two groups out of N groups of the data, A kernel calculation unit for calculating a kernel representing the relationship between two groups, and the plurality of the plurality of data calculated by the kernel calculation unit for each of the plurality of data based on each of the kernels. By reordering the N groups of the data so as to increase the dependency between the data, the group correspondence between the plurality of data is established. It is configured to include a, a rearrangement unit for performing.

前記カーネル計算部は、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算してもよい。   The kernel calculation unit may calculate the kernel using a similarity between distributions of objects included in the group for each of the two groups.

また、本発明に係るグループ対応付け装置において、前記カーネルは、線形カーネル、ガウスカーネル、及び多項式カーネルのうちいずれか一つのカーネルとしてもよい。   In the group association device according to the present invention, the kernel may be any one of a linear kernel, a Gaussian kernel, and a polynomial kernel.

本発明に係るグループ対応付け方法は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け方法であって、カーネル計算部が、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するステップと、並び替え部が、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行うステップと、を含んで実行することを特徴とする。   The group association method according to the present invention is a plurality of different data, and each data is a set of objects grouped into N groups, and a plurality of data is input between the plurality of data. A group associating method for associating groups, wherein the kernel calculation unit is configured to perform, for each of the plurality of data, the two groups for each of two groups out of N groups of the data. A step of calculating a kernel representing a relationship between the plurality of data based on each kernel between the two groups calculated by the kernel calculation unit for each of the plurality of data. By reordering the N groups of the data so as to increase the dependency between the data, the group correspondence between the plurality of data is established. And executes comprise the steps of performing.

また、本発明に係るグループ対応付け方法において、前記カーネル計算部において前記2つのグループ間の関連性を表すカーネルを計算するステップは、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算してもよい。   Further, in the group association method according to the present invention, the step of calculating a kernel representing the relationship between the two groups in the kernel calculation unit includes, for each of the two groups, an object included in the group. The kernel may be calculated using the similarity between distributions.

また、本発明に係るグループ対応付け方法において、前記カーネルは、線形カーネル、ガウスカーネル、及び多項式カーネルのうちいずれか一つのカーネルとしてもよい。   In the group association method according to the present invention, the kernel may be any one of a linear kernel, a Gaussian kernel, and a polynomial kernel.

本発明に係るプログラムは、コンピュータに、上記のグループ対応付け装置を構成する各部として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each unit constituting the group association apparatus.

本発明のグループ対応付け装置、方法、及びプログラムによれば、異なる複数のデータの各データについて、N個のグループのうちの2つのグループ間の各々の関連性を示すカーネルを計算し、計算した2つのグループ間の各々のカーネルに基づいて、複数のデータ間の依存性が高くなるように、データのグループを並び替えることで、精度よく、異なるデータ間のグループを対応付けることができる、という効果が得られる。   According to the group association apparatus, method, and program of the present invention, for each data of a plurality of different data, a kernel indicating each relationship between two groups out of N groups is calculated and calculated. Effect of rearranging groups of data so that the dependency between a plurality of data becomes high based on each kernel between two groups, so that groups between different data can be associated with high accuracy. Is obtained.

本発明の実施の形態に係るグループ対応付け装置の主要構成を示すブロック図である。It is a block diagram which shows the main structures of the group matching apparatus which concerns on embodiment of this invention. 本発明の実施の形態におけるグループ対応付け処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the group matching process routine in embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の原理> <Principle of Embodiment of the Present Invention>

まず、本発明の実施の形態の原理について説明する。   First, the principle of the embodiment of the present invention will be described.

入力データとして2つのグループ化されたオブジェクトの集合であるデータX={X,・・・,X}とY={Y,・・・,Y}という2つのデータが与えられたとする。ここで、 As input data, data X = {X 1 ,..., X N } and Y = {Y 1 ,..., Y N }, which are sets of two grouped objects, are given. To do. here,

は、1つ目のデータのn番目のグループに含まれるオブジェクトの集合、xniはn番目のグループのi番目のオブジェクト、Iはn番目のグループに含まれるオブジェクト数を表す。同様に Is a set of objects included in the nth group of the first data, xni represents the ith object of the nth group, and In represents the number of objects included in the nth group. As well

は、2つ目のデータのn番目のグループに含まれるオブジェクトの集合、ynjはn番目のグループのj番目のオブジェクト、Jはn番目のグループに含まれるオブジェクト数を表す。つまり、データXとYの各々が、N個のグループにグループ化されたオブジェクトの集合である。なお、本説明においては2つのデータが与えられた場合を想定して説明するが、3つ以上のデータが与えられた場合にも、2つのデータ毎に適用することにより、同様に適用可能である。 Represents a set of objects included in the nth group of the second data, y nj represents the jth object of the nth group, and Jn represents the number of objects included in the nth group. That is, each of the data X and Y is a set of objects grouped into N groups. In this description, it is assumed that two pieces of data are given. However, even when three or more pieces of data are given, it can be applied in the same manner by applying to every two pieces of data. is there.

処理としては、まず、上記与えられた2つのデータを読み込む。次に、2つのデータの各々に対し、N個のグループのうち2つのグループ間の各々について、グループ間の関連性を表すカーネルを計算する。計算において、2つのグループの統計的性質が近似する場合、カーネルの値は高くなる。   As processing, first, the two given data are read. Next, for each of the two data, a kernel representing the relationship between the groups is calculated for each of the two groups out of the N groups. In the calculation, if the statistical properties of the two groups approximate, the value of the kernel will be high.

次に、計算したカーネルの値を用いて、2つのデータ間の依存性が最も高くなるように、N個のグループを並び替えることにより、2つのデータ間のグループを対応付ける。   Next, using the calculated kernel value, the groups between the two data are associated by rearranging the N groups so that the dependency between the two data becomes the highest.

対応付けは下記(3)式により、並替行列π∈Πで表現される。 Mapping by the following formula (3) is expressed by rearrangement matrix π∈Π N.

ここで1は要素がすべて1のN次元ベクトルである。そして、下記(4)式により、グループ化されたオブジェクト集合であるデータXとYとの依存性が最大になるような並替行列を求める。 Here, 1 N is an N-dimensional vector whose elements are all 1. Then, by the following equation (4), dependence of the data X N and Y N is the object set that are grouped seeks rearrangement matrix that maximizes.

ここでD(・)は依存性の尺度である。依存性の尺度としては後述するヒルベルト−シュミット独立基準(Hilbert−Schmidt Independence Criterion; HSIC)を用いる。なお、依存性の尺度として、相互情報量など他の依存性の尺度を用いることも可能である。   Here, D (•) is a measure of dependence. As a measure of dependence, the Hilbert-Schmidt Independence Criterion (HSIC) described later is used. It should be noted that other dependency scales such as mutual information can be used as the dependency scale.

上述したように、本発明の実施の形態では、異なる複数のデータについて、データ毎に、N個のグループのうちの2つのグループ間の各々に対してカーネルを計算し、複数のデータ間の依存性が高くなるように、N個のグループを並び替えることで、複数のデータ間のグループの対応付けを行う。   As described above, in the embodiment of the present invention, for each of a plurality of different data, a kernel is calculated for each of two groups out of N groups for each data, and the dependency between the plurality of data is determined. The groups are associated with each other by rearranging the N groups so as to increase the performance.

<本発明の実施の形態に係るグループ対応付け装置の構成> <Configuration of Group Correlation Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係るグループ対応付け装置の構成について説明する。図1に示すように、本発明の実施の形態に係るグループ対応付け装置100は、CPUと、RAMと、後述するグループ対応付け処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このグループ対応付け装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。   Next, the configuration of the group association apparatus according to the embodiment of the present invention will be described. As shown in FIG. 1, a group association apparatus 100 according to an embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a group association processing routine described later, Can be configured with a computer including Functionally, the group association apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.

入力部10は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを受け付ける。本実施の形態では、複数のデータは2つのデータX、Yとする。   The input unit 10 receives a plurality of different data, each data being a set of objects grouped into N groups. In the present embodiment, the plurality of data are two pieces of data X and Y.

演算部20は、データ記憶部30と、カーネル計算部32と、並び替え部34とを含んで構成されている。   The calculation unit 20 includes a data storage unit 30, a kernel calculation unit 32, and a rearrangement unit 34.

データ記憶部30は、入力部10において受け付けた2つのデータを記憶している。   The data storage unit 30 stores two data received by the input unit 10.

カーネル計算部32は、まず、データ記憶部30に記憶されている2つのデータを読み込む。次に、読み込んだ2つのデータに基づいて、2つのデータの各々について、当該データのN個のグループのうち2つのグループ間の各々に対し、2つのグループ間の関連性を表すカーネルを計算する。   The kernel calculation unit 32 first reads two data stored in the data storage unit 30. Next, based on the read two data, for each of the two data, a kernel representing the relationship between the two groups is calculated for each of the two groups out of the N groups of the data. .

カーネル計算部32における計算は、当該データのN個のグループの各々を分布として捉え、グループの分布間の各々の統計的性質を類似度としてカーネルを計算する。まず、当該データの2つのグループに含まれる2つのオブジェクト間の各々の類似度であるカーネルを計算する。そして、計算した2つのオブジェクト間の各々のカーネルに基づいて、当該データについて、N個のグループのうちの2つのグループの分布間の各々のカーネルを計算する。ここで、カーネル埋め込み法により、オブジェクト間のカーネルを用いて、分布を、再生核ヒルベルト空間上の1点により表現できる。そして、再生核ヒルベルト空間上での分布間のカーネルが、2つのグループ間のカーネルであると考える。   The calculation in the kernel calculation unit 32 regards each of the N groups of the data as a distribution, and calculates a kernel using each statistical property between the distributions of the groups as a similarity. First, a kernel that is the degree of similarity between two objects included in two groups of the data is calculated. Then, based on the calculated kernels between the two objects, the kernels between the distributions of the two groups of the N groups are calculated for the data. Here, with the kernel embedding method, the distribution can be expressed by one point on the reproduction kernel Hilbert space using a kernel between objects. Then, it is considered that the kernel between distributions on the reproduction kernel Hilbert space is a kernel between two groups.

オブジェクト間のカーネル、及び分布間のカーネルとしては、線形カーネル、ガウスカーネル、多項式カーネルのうち任意のカーネルを用いることができる。   As a kernel between objects and a kernel between distributions, any kernel among a linear kernel, a Gaussian kernel, and a polynomial kernel can be used.

オブジェクトxniとxmjの間の線形カーネルは下記(5)式で計算できる。 A linear kernel between the objects x ni and x mj can be calculated by the following equation (5).

また、オブジェクトxniとxmjの間のガウスカーネルは下記(6)式で計算できる。 Further, a Gaussian kernel between the objects x ni and x mj can be calculated by the following equation (6).

また、オブジェクトxniとxmjの間の多項式カーネルは下記(7)式で計算できる。 A polynomial kernel between the objects x ni and x mj can be calculated by the following equation (7).

再生核ヒルベルト空間上でのグループXとXの間の線形カーネルは下記(8)式で計算できる。 Linear kernel between groups X n and X m on the reproducing kernel Hilbert space can be calculated by the following equation (8).

また、グループXとXの間のガウスカーネルは下記(9)式で計算できる。 Also, the Gaussian kernel between groups X n and X m can be calculated by the following equation (9).

また、グループXとXの間の多項式カーネルは下記(10)式で計算できる。 Further, the polynomial kernel between groups X n and X m can be calculated by the following equation (10).

そして、カーネル計算部32は、上記(8)式、(9)式、又は(10)式に従って、計算した2つのグループ間の各々のカーネルに基づいて、2つのデータの各々について、データごとに、全てのグループ間のカーネルをまとめた行列を得る。本実施の形態では、1つ目のデータXの全てのグループ間のカーネルをまとめたものをKとする。ここでKはN×Nの行列であり、Kの(n,m)要素はn番目のグループとm番目のグループのカーネルK(X,X)を表す。同様に、2つ目のデータYの全てのグループ間のカーネルをまとめたものをLとする。 Then, the kernel calculation unit 32 performs, for each data, for each of the two data based on each kernel between the two groups calculated according to the above formula (8), (9), or (10). Get a matrix summarizing kernels between all groups. In the present embodiment, K is the sum of kernels between all groups of the first data X. Here, K is an N × N matrix, and the (n, m) element of K represents the kernel K (X n , X m ) of the n th group and the m th group. Similarly, let L be the sum of kernels between all groups of the second data Y.

並び替え部34は、カーネル計算部32により2つのデータの各々に対して計算した2つのグループ間の各々のカーネルに基づいて、2つのデータ間の依存性が高くなるように、データのN個のグループを並び替えて、2つのデータ間のグループを対応付ける。   The rearrangement unit 34 determines the N pieces of data so that the dependency between the two data becomes high based on each kernel between the two groups calculated by the kernel calculation unit 32 for each of the two data. Are rearranged to associate groups between two pieces of data.

例えば、並び替え部34は、まず、カーネル計算部32により得たデータXついてのK、データYについてのLを読み込む。そして、XとYとのデータ間の依存性が高くなるように、N個のグループを並べ替える。ここで、依存性の尺度としてヒルベルト−シュミット独立基準(Hilbert−Schmidt Independence Criterion;HSIC)を用いる。2つのデータ間のHSICは以下(11)式により表される。   For example, the rearrangement unit 34 first reads K for data X and L for data Y obtained by the kernel calculation unit 32. Then, the N groups are rearranged so that the dependency between the data of X and Y becomes high. Here, the Hilbert-Schmidt Independence Criterion (HSIC) is used as a measure of dependence. The HSIC between the two data is expressed by the following equation (11).

ここでtrはトレース、H=I−1 /Nは中心化行列を表す。また、 ̄K=HKH、 ̄L=HLHである。次の(12)式により、HSICを最大化するように、並替行列を求める。 Here, tr represents a trace, and H = I−1 N 1 N T / N represents a centering matrix. Further,  ̄K = HKH and  ̄L = HLH. The permutation matrix is obtained so as to maximize the HSIC by the following equation (12).

なお、(12)式は、DC Programmingを用いる方法、制約付き固有値問題として解く方法(非特許文献3)、又は凸問題として解く方法(非特許文献4)などを用いることにより最大化する。   Equation (12) is maximized by using a method using DC Programming, a method solving as a restricted eigenvalue problem (Non-Patent Document 3), a method solving as a convex problem (Non-Patent Document 4), or the like.

<本発明の実施の形態に係るグループ対応付け装置の作用> <Operation of Group Correlation Device According to Embodiment of the Present Invention>

次に、本発明の実施の形態に係るグループ対応付け装置100の作用について説明する。入力部10において、各データが、N個のグループにグループ化されたオブジェクトの集合である2つのデータを受け付けると、データ記憶部30に格納する。そして、グループ対応付け装置100は、図2に示すグループ対応付け処理ルーチンを実行する。   Next, the operation of the group association apparatus 100 according to the embodiment of the present invention will be described. When the input unit 10 receives two pieces of data, each of which is a set of objects grouped into N groups, the data is stored in the data storage unit 30. Then, the group association apparatus 100 executes a group association processing routine shown in FIG.

まず、ステップS100では、2つのデータをデータ記憶部30から取得する。   First, in step S <b> 100, two data are acquired from the data storage unit 30.

次に、ステップS102では、ステップS100で取得した2つのデータに基づいて、2つのデータの各々に対し、上記(8)式、(9)式、又は(10)式に従って、当該データのN個のグループのうちの2つのグループ間の各々のカーネルを計算する。そして、2つのデータの各々について、データごとに、全てのグループ間のカーネルをまとめた行列を得る。   Next, in step S102, based on the two data acquired in step S100, for each of the two data, according to the above formula (8), (9), or (10), N pieces of the data Compute each kernel between two of the groups. Then, for each of the two data, a matrix in which the kernels between all the groups are collected is obtained for each data.

次に、ステップS106において、ステップS102で2つのデータの各々に対して計算したグループ間の各々のカーネルに基づいて、上記(12)式に従って、2つのデータ間の依存性が最も高くなるように、データのN個のグループを並び替える並替行列を求める。そして、求めた並替行列に基づいて、データのN個のグループを並び替え、2つのデータ間でグループを対応付ける。そして、ステップS108において、ステップS106でデータ間のグループを対応付けた2つのデータを出力し、処理を終了する。   Next, in step S106, based on each kernel between the groups calculated for each of the two data in step S102, the dependency between the two data is maximized according to the above equation (12). , Find a permutation matrix that rearranges the N groups of data. Then, based on the obtained rearrangement matrix, N groups of data are rearranged, and groups are associated between the two data. In step S108, two data in which groups between the data are associated in step S106 are output, and the process ends.

<実験結果> <Experimental result>

次に、本実施の形態に係る手法に基づいて行った実験結果について説明する。   Next, experimental results performed based on the method according to the present embodiment will be described.

本発明の実施の形態に係る手法を評価するため、第1の実験例として、4つのラベル付きデータセットを用いて、データセットごとに実験を行った。実験のため、各データセットの特徴量をランダムに分割し、データセットごとに2つのデータを作成した。   In order to evaluate the method according to the embodiment of the present invention, an experiment was performed for each data set using four labeled data sets as a first experimental example. For the experiment, feature values of each data set were randomly divided, and two data were created for each data set.

第1の実験例において、本実施の形態と比較する手法としては、KS−mean及びKS−objectを用いた。KS−meanは、グループ毎の特徴量をその平均で表し、オブジェクト対応付け法であるconvex Kernelized Sorting(非特許文献4)を用いてグループを対応付ける方法である。KS−objectは、まずオブジェクトの対応付けをconvex Kernelized Sortingを用いて行い、その後、グループ間の対応する確率を対応付けられたオブジェクト数によって計算し、グループ間の対応付ける方法である。   In the first experimental example, KS-mean and KS-object were used as a method for comparison with the present embodiment. KS-mean is a method of representing a feature amount for each group as an average, and associating groups using convex kernelized sorting (Non-Patent Document 4), which is an object association method. KS-object is a method of first associating objects by using convex kernelized sorting, and then calculating the corresponding probability between groups based on the number of associated objects, and associating the groups.

第1の実験例における本実施の形態に係る手法では、オブジェクト間の各々のカーネルの計算には(5)式を、グループ間の各々のカーネルの計算には(8)式を適用した。   In the method according to the present embodiment in the first experimental example, Equation (5) is applied to the calculation of each kernel between objects, and Equation (8) is applied to the calculation of each kernel between groups.

第1の実験例における各実験結果の平均正答率と標準誤差を表1に表す。本発明の実施の形態に係る手法が、全データセットで最も高い正答率を示しており、効果的にグループの対応付けを発見できている。なお、KS−objectは多くの計算量を必要とするため、オブジェクト数が多いSatimageとLetterのデータセットには適用していない。   Table 1 shows the average correct answer rate and standard error of each experimental result in the first experimental example. The method according to the embodiment of the present invention shows the highest correct answer rate in all the data sets, and the group association can be found effectively. Since KS-object requires a large amount of calculation, it is not applied to the data sets of Satimage and Letter having a large number of objects.

また、第2の実験例として、Wikipedia(登録商標)に含まれる6言語(英語、ドイツ語、フィンランド語、フランス語、日本語)の文書のカテゴリを対応付ける実験を行った。   Further, as a second experimental example, an experiment was performed in which categories of documents in six languages (English, German, Finnish, French, Japanese) included in Wikipedia (registered trademark) are associated.

第2の実験例において本実施の形態と比較する手法としては、KS−meanを用いた。第2の実験例における本実施の形態に係る手法では、オブジェクト間の各々のカーネルの計算には(6)式を、グループ間の各々のカーネルの計算には(9)式を適用した。   In the second experimental example, KS-mean was used as a method for comparison with the present embodiment. In the method according to the present embodiment in the second experimental example, equation (6) is applied to the calculation of each kernel between objects, and equation (9) is applied to the calculation of each kernel between groups.

第2の実験例における各実験結果の平均正答率と標準誤差を表2に示す。1つの言語対を除き、本発明の実施の形態に係る手法がKS−meanよりも高い正答率を示し、本発明の実施の形態に係る手法の有効性を示している。   Table 2 shows the average correct answer rate and standard error of each experimental result in the second experimental example. With the exception of one language pair, the method according to the embodiment of the present invention shows a higher correct answer rate than KS-mean, indicating the effectiveness of the method according to the embodiment of the present invention.

以上、説明したように、本実施の形態に係るグループ対応付け装置によれば、異なる2つのデータの各データについて、N個のグループのうち2つのグループ間の各々のカーネルを計算し、計算した2つのグループ間の各々のカーネルに基づいて、2つのデータ間の依存性が高くなるように、データのグループを並び替えることで、精度よく、異なるデータ間のグループを対応付けることができる。   As described above, according to the group association device according to the present embodiment, for each data of two different data, each kernel between two groups out of N groups is calculated and calculated. By rearranging the data groups so that the dependency between the two data becomes high based on the respective kernels between the two groups, the groups between the different data can be associated with each other with high accuracy.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

10 入力部
20 演算部
30 データ記憶部
32 カーネル計算部
34 並び替え部
100 グループ対応付け装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 30 Data storage part 32 Kernel calculation part 34 Rearrangement part 100 Group matching apparatus

Claims (5)

異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け装置であって、
前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するカーネル計算部と、
前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行う並び替え部と、
を含むグループ対応付け装置。
Group associating device for associating a plurality of pieces of data with a plurality of different data, each of which is a set of objects grouped into N groups, and associating the groups among the plurality of data Because
For each of the plurality of data, a kernel calculation unit that calculates a kernel representing a relationship between the two groups for each of two groups out of N groups of the data;
Based on each kernel between the two groups calculated for each of the plurality of data by the kernel calculation unit, the N groups of the data are increased so that the dependency between the plurality of data is increased. By reordering, a reordering unit that associates groups among the plurality of data,
A group association apparatus including
前記カーネル計算部は、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算する請求項1に記載のグループ対応付け装置。   The group association device according to claim 1, wherein the kernel calculation unit calculates the kernel using a similarity between distributions of objects included in the group for each of the two groups. 異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け方法であって、
カーネル計算部が、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するステップと、
並び替え部が、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行うステップと、
を含むグループ対応付け方法。
A group association method for associating a group between a plurality of pieces of data, each of which is a plurality of different data, each of which is a set of objects grouped into N groups. Because
A kernel calculator for each of the plurality of data, for each of two groups out of N groups of the data, calculating a kernel representing the relationship between the two groups;
Based on each kernel between the two groups calculated by the kernel calculation unit for each of the plurality of data, the sorting unit increases the dependency between the plurality of data. Rearranging the N groups of the group to associate groups among the plurality of data; and
Group matching method including
前記カーネル計算部において前記2つのグループ間の関連性を表すカーネルを計算するステップは、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算する請求項3に記載のグループ対応付け方法。   The step of calculating a kernel representing the relationship between the two groups in the kernel calculation unit calculates the kernel using the similarity between distributions of objects included in the group for each of the two groups. The group association method according to claim 3. コンピュータを、請求項1又は2に記載のグループ対応付け装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the group matching apparatus of Claim 1 or 2.
JP2014105512A 2014-05-21 2014-05-21 Group association apparatus, method, and program Active JP6152073B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014105512A JP6152073B2 (en) 2014-05-21 2014-05-21 Group association apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014105512A JP6152073B2 (en) 2014-05-21 2014-05-21 Group association apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2015219880A JP2015219880A (en) 2015-12-07
JP6152073B2 true JP6152073B2 (en) 2017-06-21

Family

ID=54779159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014105512A Active JP6152073B2 (en) 2014-05-21 2014-05-21 Group association apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6152073B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263447A (en) * 2002-03-11 2003-09-19 Ricoh Co Ltd Document group retrieval device, document group retrieval method, and computer readable recording medium recording program for allowing computer to carry out document group retrieval method
US8326087B2 (en) * 2008-11-25 2012-12-04 Xerox Corporation Synchronizing image sequences
JP5988419B2 (en) * 2012-01-11 2016-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Prediction method, prediction system, and program
JP5701787B2 (en) * 2012-02-17 2015-04-15 日本電信電話株式会社 Data classification prediction apparatus, method, and program

Also Published As

Publication number Publication date
JP2015219880A (en) 2015-12-07

Similar Documents

Publication Publication Date Title
Guo et al. Curriculumnet: Weakly supervised learning from large-scale web images
Tolias et al. Visual query expansion with or without geometry: refining local descriptors by feature aggregation
Kato et al. Image reconstruction from bag-of-visual-words
Braytee et al. Multi-label feature selection using correlation information
Serra et al. Gold: Gaussians of local descriptors for image representation
Uddin et al. Study on Convolutional Neural Network to Detect COVID‐19 from Chest X‐Rays
CN110134777B (en) Question duplication eliminating method and device, electronic equipment and computer readable storage medium
WO2014055874A1 (en) Fast computation of kernel descriptors
Alawad et al. Deep transfer learning across cancer registries for information extraction from pathology reports
CN113722512A (en) Text retrieval method, device and equipment based on language model and storage medium
WO2020022498A1 (en) Clustering device, method and program
AU2015204339B2 (en) Information processing apparatus and information processing program
JP7389389B2 (en) Processing equipment, processing method and processing program
WO2021174923A1 (en) Concept word sequence generation method, apparatus, computer device, and storage medium
JP6017277B2 (en) Program, apparatus and method for calculating similarity between contents represented by set of feature vectors
US20210117448A1 (en) Iterative sampling based dataset clustering
JP6152073B2 (en) Group association apparatus, method, and program
JP2014225168A (en) Program, device, and method for calculating similarity between images represented by feature point set
Moran et al. Optimal Tag Sets for Automatic Image Annotation.
Zhou et al. GD-RDA: a new regularized discriminant analysis for high-dimensional data
CN111488400A (en) Data classification method, device and computer readable storage medium
US11048872B2 (en) Method of determining word similarity
CN113868424A (en) Text theme determining method and device, computer equipment and storage medium
Zuo et al. Multi-view multi-task feature extraction for web image classification
CN110532384A (en) A kind of multitask dictionary list classification method, system, device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170526

R150 Certificate of patent or registration of utility model

Ref document number: 6152073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150