JP6152073B2 - グループ対応付け装置、方法、及びプログラム - Google Patents

グループ対応付け装置、方法、及びプログラム Download PDF

Info

Publication number
JP6152073B2
JP6152073B2 JP2014105512A JP2014105512A JP6152073B2 JP 6152073 B2 JP6152073 B2 JP 6152073B2 JP 2014105512 A JP2014105512 A JP 2014105512A JP 2014105512 A JP2014105512 A JP 2014105512A JP 6152073 B2 JP6152073 B2 JP 6152073B2
Authority
JP
Japan
Prior art keywords
data
groups
kernel
group
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014105512A
Other languages
English (en)
Other versions
JP2015219880A (ja
Inventor
具治 岩田
具治 岩田
平尾 努
努 平尾
健次 福水
健次 福水
元信 金川
元信 金川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014105512A priority Critical patent/JP6152073B2/ja
Publication of JP2015219880A publication Critical patent/JP2015219880A/ja
Application granted granted Critical
Publication of JP6152073B2 publication Critical patent/JP6152073B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、グループ対応付け装置、方法、及びプログラムに係り、特に、データ間のグループを対応付けるグループ対応付け装置、方法、及びプログラムに関する。
異なるデータに含まれるオブジェクトを対応付ける手法は、画像と文の対応付けや、英語と日本語の単語の対応付け、異なるデータベースに含まれるユーザIDの対応付けなど、様々な応用が可能である。いくつかの応用例においては、オブジェクトをグループ化して、対応付けを行っている。例えば、画像や文をその内容に応じて分類して対応付けを行う場合や、単語がその意味に応じてまとめて対応付けを行う場合、ユーザをその属するコミュニティーに応じてグループ化して対応付けを行う場合などである。
これらの対応付けにおいては、オブジェクトに関する対応情報が事前に与えられている場合や、異なるデータ間の距離が計算できる場合の対応付け手法が提案されている (例えば、非特許文献1)。また、対応情報や距離尺度がない場合であっても、オブジェクトを対応付ける手法もいくつか提案されている(例えば、非特許文献2、3、4)。
Tomoharu Iwata, Shinji Watanabe, Hiroshi Sawada: "Fashion Coordinates Recommender System using Photographs from Fashion Magazines," The twenty-second International Joint Conference on Artificial Intelligence (IJCAI), 2262-2267, 2011. Tomoharu Iwata, Tsutomu Hirao, Naonori Ueda: "Unsupervised Cluster Matching via Probabilistic Latent Variable Models,"The Twenty-Seventh AAAI Conference on Artificial Intelligence, 2013. Novi Quadrianto, Alex J. Smola, Le Song, Tinne Tuytelaars. KernelizedSorting. IEEE Trans. on Pattern Analysis and Machine Intelligence PAMI, vol. 32(10), pp.1809-1821, 2010. Djuric, N., Grbovic, M., Vucetic, S., Convex Kernelized Sorting, AAAI Conference on Artificial Intelligence (AAAI), Toronto, Canada, 2012.
しかし、非特許文献1の技術では、対応情報や距離尺度が事前に与えられない場合には適用できないという問題がある。また、非特許文献2、3、4の技術では、グループ化されていないデータを対象としているため、オブジェクトのグループについての対応付けができない、という問題がある。
本発明では、上記問題点を解決するために成されたものであり、精度よく、異なるデータ間のグループを対応付けることができるグループ対応付け装置、方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係るグループ対応付け装置は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け装置であって、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するカーネル計算部と、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行う並び替え部と、を含んで構成されている。
前記カーネル計算部は、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算してもよい。
また、本発明に係るグループ対応付け装置において、前記カーネルは、線形カーネル、ガウスカーネル、及び多項式カーネルのうちいずれか一つのカーネルとしてもよい。
本発明に係るグループ対応付け方法は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け方法であって、カーネル計算部が、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するステップと、並び替え部が、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行うステップと、を含んで実行することを特徴とする。
また、本発明に係るグループ対応付け方法において、前記カーネル計算部において前記2つのグループ間の関連性を表すカーネルを計算するステップは、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算してもよい。
また、本発明に係るグループ対応付け方法において、前記カーネルは、線形カーネル、ガウスカーネル、及び多項式カーネルのうちいずれか一つのカーネルとしてもよい。
本発明に係るプログラムは、コンピュータに、上記のグループ対応付け装置を構成する各部として機能させるためのプログラムである。
本発明のグループ対応付け装置、方法、及びプログラムによれば、異なる複数のデータの各データについて、N個のグループのうちの2つのグループ間の各々の関連性を示すカーネルを計算し、計算した2つのグループ間の各々のカーネルに基づいて、複数のデータ間の依存性が高くなるように、データのグループを並び替えることで、精度よく、異なるデータ間のグループを対応付けることができる、という効果が得られる。
本発明の実施の形態に係るグループ対応付け装置の主要構成を示すブロック図である。 本発明の実施の形態におけるグループ対応付け処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の原理>
まず、本発明の実施の形態の原理について説明する。
入力データとして2つのグループ化されたオブジェクトの集合であるデータX={X,・・・,X}とY={Y,・・・,Y}という2つのデータが与えられたとする。ここで、
は、1つ目のデータのn番目のグループに含まれるオブジェクトの集合、xniはn番目のグループのi番目のオブジェクト、Iはn番目のグループに含まれるオブジェクト数を表す。同様に
は、2つ目のデータのn番目のグループに含まれるオブジェクトの集合、ynjはn番目のグループのj番目のオブジェクト、Jはn番目のグループに含まれるオブジェクト数を表す。つまり、データXとYの各々が、N個のグループにグループ化されたオブジェクトの集合である。なお、本説明においては2つのデータが与えられた場合を想定して説明するが、3つ以上のデータが与えられた場合にも、2つのデータ毎に適用することにより、同様に適用可能である。
処理としては、まず、上記与えられた2つのデータを読み込む。次に、2つのデータの各々に対し、N個のグループのうち2つのグループ間の各々について、グループ間の関連性を表すカーネルを計算する。計算において、2つのグループの統計的性質が近似する場合、カーネルの値は高くなる。
次に、計算したカーネルの値を用いて、2つのデータ間の依存性が最も高くなるように、N個のグループを並び替えることにより、2つのデータ間のグループを対応付ける。
対応付けは下記(3)式により、並替行列π∈Πで表現される。
ここで1は要素がすべて1のN次元ベクトルである。そして、下記(4)式により、グループ化されたオブジェクト集合であるデータXとYとの依存性が最大になるような並替行列を求める。
ここでD(・)は依存性の尺度である。依存性の尺度としては後述するヒルベルト−シュミット独立基準(Hilbert−Schmidt Independence Criterion; HSIC)を用いる。なお、依存性の尺度として、相互情報量など他の依存性の尺度を用いることも可能である。
上述したように、本発明の実施の形態では、異なる複数のデータについて、データ毎に、N個のグループのうちの2つのグループ間の各々に対してカーネルを計算し、複数のデータ間の依存性が高くなるように、N個のグループを並び替えることで、複数のデータ間のグループの対応付けを行う。
<本発明の実施の形態に係るグループ対応付け装置の構成>
次に、本発明の実施の形態に係るグループ対応付け装置の構成について説明する。図1に示すように、本発明の実施の形態に係るグループ対応付け装置100は、CPUと、RAMと、後述するグループ対応付け処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このグループ対応付け装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを受け付ける。本実施の形態では、複数のデータは2つのデータX、Yとする。
演算部20は、データ記憶部30と、カーネル計算部32と、並び替え部34とを含んで構成されている。
データ記憶部30は、入力部10において受け付けた2つのデータを記憶している。
カーネル計算部32は、まず、データ記憶部30に記憶されている2つのデータを読み込む。次に、読み込んだ2つのデータに基づいて、2つのデータの各々について、当該データのN個のグループのうち2つのグループ間の各々に対し、2つのグループ間の関連性を表すカーネルを計算する。
カーネル計算部32における計算は、当該データのN個のグループの各々を分布として捉え、グループの分布間の各々の統計的性質を類似度としてカーネルを計算する。まず、当該データの2つのグループに含まれる2つのオブジェクト間の各々の類似度であるカーネルを計算する。そして、計算した2つのオブジェクト間の各々のカーネルに基づいて、当該データについて、N個のグループのうちの2つのグループの分布間の各々のカーネルを計算する。ここで、カーネル埋め込み法により、オブジェクト間のカーネルを用いて、分布を、再生核ヒルベルト空間上の1点により表現できる。そして、再生核ヒルベルト空間上での分布間のカーネルが、2つのグループ間のカーネルであると考える。
オブジェクト間のカーネル、及び分布間のカーネルとしては、線形カーネル、ガウスカーネル、多項式カーネルのうち任意のカーネルを用いることができる。
オブジェクトxniとxmjの間の線形カーネルは下記(5)式で計算できる。
また、オブジェクトxniとxmjの間のガウスカーネルは下記(6)式で計算できる。
また、オブジェクトxniとxmjの間の多項式カーネルは下記(7)式で計算できる。
再生核ヒルベルト空間上でのグループXとXの間の線形カーネルは下記(8)式で計算できる。
また、グループXとXの間のガウスカーネルは下記(9)式で計算できる。
また、グループXとXの間の多項式カーネルは下記(10)式で計算できる。
そして、カーネル計算部32は、上記(8)式、(9)式、又は(10)式に従って、計算した2つのグループ間の各々のカーネルに基づいて、2つのデータの各々について、データごとに、全てのグループ間のカーネルをまとめた行列を得る。本実施の形態では、1つ目のデータXの全てのグループ間のカーネルをまとめたものをKとする。ここでKはN×Nの行列であり、Kの(n,m)要素はn番目のグループとm番目のグループのカーネルK(X,X)を表す。同様に、2つ目のデータYの全てのグループ間のカーネルをまとめたものをLとする。
並び替え部34は、カーネル計算部32により2つのデータの各々に対して計算した2つのグループ間の各々のカーネルに基づいて、2つのデータ間の依存性が高くなるように、データのN個のグループを並び替えて、2つのデータ間のグループを対応付ける。
例えば、並び替え部34は、まず、カーネル計算部32により得たデータXついてのK、データYについてのLを読み込む。そして、XとYとのデータ間の依存性が高くなるように、N個のグループを並べ替える。ここで、依存性の尺度としてヒルベルト−シュミット独立基準(Hilbert−Schmidt Independence Criterion;HSIC)を用いる。2つのデータ間のHSICは以下(11)式により表される。
ここでtrはトレース、H=I−1 /Nは中心化行列を表す。また、 ̄K=HKH、 ̄L=HLHである。次の(12)式により、HSICを最大化するように、並替行列を求める。
なお、(12)式は、DC Programmingを用いる方法、制約付き固有値問題として解く方法(非特許文献3)、又は凸問題として解く方法(非特許文献4)などを用いることにより最大化する。
<本発明の実施の形態に係るグループ対応付け装置の作用>
次に、本発明の実施の形態に係るグループ対応付け装置100の作用について説明する。入力部10において、各データが、N個のグループにグループ化されたオブジェクトの集合である2つのデータを受け付けると、データ記憶部30に格納する。そして、グループ対応付け装置100は、図2に示すグループ対応付け処理ルーチンを実行する。
まず、ステップS100では、2つのデータをデータ記憶部30から取得する。
次に、ステップS102では、ステップS100で取得した2つのデータに基づいて、2つのデータの各々に対し、上記(8)式、(9)式、又は(10)式に従って、当該データのN個のグループのうちの2つのグループ間の各々のカーネルを計算する。そして、2つのデータの各々について、データごとに、全てのグループ間のカーネルをまとめた行列を得る。
次に、ステップS106において、ステップS102で2つのデータの各々に対して計算したグループ間の各々のカーネルに基づいて、上記(12)式に従って、2つのデータ間の依存性が最も高くなるように、データのN個のグループを並び替える並替行列を求める。そして、求めた並替行列に基づいて、データのN個のグループを並び替え、2つのデータ間でグループを対応付ける。そして、ステップS108において、ステップS106でデータ間のグループを対応付けた2つのデータを出力し、処理を終了する。
<実験結果>
次に、本実施の形態に係る手法に基づいて行った実験結果について説明する。
本発明の実施の形態に係る手法を評価するため、第1の実験例として、4つのラベル付きデータセットを用いて、データセットごとに実験を行った。実験のため、各データセットの特徴量をランダムに分割し、データセットごとに2つのデータを作成した。
第1の実験例において、本実施の形態と比較する手法としては、KS−mean及びKS−objectを用いた。KS−meanは、グループ毎の特徴量をその平均で表し、オブジェクト対応付け法であるconvex Kernelized Sorting(非特許文献4)を用いてグループを対応付ける方法である。KS−objectは、まずオブジェクトの対応付けをconvex Kernelized Sortingを用いて行い、その後、グループ間の対応する確率を対応付けられたオブジェクト数によって計算し、グループ間の対応付ける方法である。
第1の実験例における本実施の形態に係る手法では、オブジェクト間の各々のカーネルの計算には(5)式を、グループ間の各々のカーネルの計算には(8)式を適用した。
第1の実験例における各実験結果の平均正答率と標準誤差を表1に表す。本発明の実施の形態に係る手法が、全データセットで最も高い正答率を示しており、効果的にグループの対応付けを発見できている。なお、KS−objectは多くの計算量を必要とするため、オブジェクト数が多いSatimageとLetterのデータセットには適用していない。
また、第2の実験例として、Wikipedia(登録商標)に含まれる6言語(英語、ドイツ語、フィンランド語、フランス語、日本語)の文書のカテゴリを対応付ける実験を行った。
第2の実験例において本実施の形態と比較する手法としては、KS−meanを用いた。第2の実験例における本実施の形態に係る手法では、オブジェクト間の各々のカーネルの計算には(6)式を、グループ間の各々のカーネルの計算には(9)式を適用した。
第2の実験例における各実験結果の平均正答率と標準誤差を表2に示す。1つの言語対を除き、本発明の実施の形態に係る手法がKS−meanよりも高い正答率を示し、本発明の実施の形態に係る手法の有効性を示している。
以上、説明したように、本実施の形態に係るグループ対応付け装置によれば、異なる2つのデータの各データについて、N個のグループのうち2つのグループ間の各々のカーネルを計算し、計算した2つのグループ間の各々のカーネルに基づいて、2つのデータ間の依存性が高くなるように、データのグループを並び替えることで、精度よく、異なるデータ間のグループを対応付けることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 データ記憶部
32 カーネル計算部
34 並び替え部
100 グループ対応付け装置

Claims (5)

  1. 異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け装置であって、
    前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するカーネル計算部と、
    前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行う並び替え部と、
    を含むグループ対応付け装置。
  2. 前記カーネル計算部は、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算する請求項1に記載のグループ対応付け装置。
  3. 異なる複数のデータであって、各データが、N個のグループにグループ化されたオブジェクトの集合である複数のデータを入力として、前記複数のデータ間で、グループの対応付けを行うグループ対応付け方法であって、
    カーネル計算部が、前記複数のデータの各々に対し、前記データのN個のグループのうちの2つのグループ間の各々について、前記2つのグループ間の関連性を表すカーネルを計算するステップと、
    並び替え部が、前記カーネル計算部により前記複数のデータの各々に対して計算した前記2つのグループ間の各々のカーネルに基づいて、前記複数のデータ間の依存性が高くなるように、前記データのN個のグループを並び替えることにより、前記複数のデータ間でグループの対応付けを行うステップと、
    を含むグループ対応付け方法。
  4. 前記カーネル計算部において前記2つのグループ間の関連性を表すカーネルを計算するステップは、前記2つのグループ間の各々について、前記グループに含まれるオブジェクトの分布間の類似度を用いて前記カーネルを計算する請求項3に記載のグループ対応付け方法。
  5. コンピュータを、請求項1又は2に記載のグループ対応付け装置を構成する各部として機能させるためのプログラム。
JP2014105512A 2014-05-21 2014-05-21 グループ対応付け装置、方法、及びプログラム Active JP6152073B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014105512A JP6152073B2 (ja) 2014-05-21 2014-05-21 グループ対応付け装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014105512A JP6152073B2 (ja) 2014-05-21 2014-05-21 グループ対応付け装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015219880A JP2015219880A (ja) 2015-12-07
JP6152073B2 true JP6152073B2 (ja) 2017-06-21

Family

ID=54779159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014105512A Active JP6152073B2 (ja) 2014-05-21 2014-05-21 グループ対応付け装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6152073B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263447A (ja) * 2002-03-11 2003-09-19 Ricoh Co Ltd 文書グループ検索装置および文書グループ検索方法、並びに文書グループ検索方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US8326087B2 (en) * 2008-11-25 2012-12-04 Xerox Corporation Synchronizing image sequences
JP5988419B2 (ja) * 2012-01-11 2016-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 予測方法、予測システムおよびプログラム
JP5701787B2 (ja) * 2012-02-17 2015-04-15 日本電信電話株式会社 データ分類予測装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2015219880A (ja) 2015-12-07

Similar Documents

Publication Publication Date Title
Guo et al. Curriculumnet: Weakly supervised learning from large-scale web images
Tolias et al. Visual query expansion with or without geometry: refining local descriptors by feature aggregation
Kato et al. Image reconstruction from bag-of-visual-words
Braytee et al. Multi-label feature selection using correlation information
Serra et al. Gold: Gaussians of local descriptors for image representation
Uddin et al. Study on Convolutional Neural Network to Detect COVID‐19 from Chest X‐Rays
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
WO2014055874A1 (en) Fast computation of kernel descriptors
Alawad et al. Deep transfer learning across cancer registries for information extraction from pathology reports
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
WO2020022498A1 (ja) クラスタリング装置、方法、及びプログラム
AU2015204339B2 (en) Information processing apparatus and information processing program
JP7389389B2 (ja) 処理装置、処理方法および処理プログラム
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
US20210117448A1 (en) Iterative sampling based dataset clustering
JP6152073B2 (ja) グループ対応付け装置、方法、及びプログラム
JP2014225168A (ja) 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法
Moran et al. Optimal Tag Sets for Automatic Image Annotation.
Zhou et al. GD-RDA: a new regularized discriminant analysis for high-dimensional data
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
US11048872B2 (en) Method of determining word similarity
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质
Zuo et al. Multi-view multi-task feature extraction for web image classification
CN110532384A (zh) 一种多任务字典单分类方法、系统、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170526

R150 Certificate of patent or registration of utility model

Ref document number: 6152073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150