JP7260704B1

JP7260704B1 - 情報処理システム、コンピュータプログラム、及び情報処理方法

Info

Publication number: JP7260704B1
Application number: JP2022136165A
Authority: JP
Inventors: 雄介熊谷; 龍道本
Original assignee: Hakuhodo DY Holdings Inc
Current assignee: Hakuhodo DY Holdings Inc
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2023-04-18
Anticipated expiration: 2042-08-29
Also published as: JP2024032488A; WO2024048305A1

Abstract

【課題】データセット間のデータ構造に関する類似性を評価する。【解決手段】第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットが取得される（Ｓ１１０）。第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットが取得される（Ｓ１２０）。複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性が評価される（Ｓ１３０－Ｓ２２０）。【選択図】図４

Description

本開示は、情報処理システム及び情報処理方法に関する。

従来、商品の販売データに基づき消費者の購買行動を分析することが行われている。消費者のマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。

異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。特許文献１は、第一の消費者群に関する第一のデータセットと、第二の消費者群に関する第二のデータセットとを、第一のデータセットと第二のデータセットとの間で共通する変数を用いて結合する技術を開示する。

特開２０１６－１２６６０９号公報

第一のデータセットに第二のデータセットを結合しようとするとき、結合対象の第二のデータセットの候補として、複数種類のデータセットを用意できる場合がある。例えば、第一のデータセットに、第二のデータセットとして消費者の購買行動に関するデータセットを結合しようとするとき、上記候補として、異なる消費者集合の購買行動に関する複数のデータセットを、複数のデータベンダから取得できる場合がある。

あるいは、購買行動を異なるパラメータを用いて記述する複数のデータセットを、ＰＯＳデータなどの販売履歴の加工により用意できる場合がある。パラメータの例には、商品の購入数及び購入金額などが含まれる。

ここで、第一のデータセットが、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合に関するデータセットである場合を考える。この場合、結合対象の第二のデータセットとして、女性のみの消費者集合のデータセットを選択するよりも、全年齢及び全性別の消費者がおよそ一様に存在する消費者集合のデータセットを選択するほうが、データフュージョンの精度は向上すると考えられる。

すなわち、第二のデータセットが取り扱う消費者集合によって、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。同様に、第二のデータセットが記述する購買行動のパラメータの種類によっても、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、変化すると考えられる。特徴空間上の消費者の分布がパラメータの種類によって変化するためである。

このように、第一のデータセットと第二のデータセットとの間のデータフュージョンの精度は、第一のデータセットと第二のデータセットとの間のデータ構造の類似性に依存する。この依存は、購買行動のデータセットに限定されない。

そこで、本開示の一側面によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能なシステム及び方法を提供できることが望ましい。

本開示の一側面によれば、第一の取得部と、第二の取得部と、評価部とを備える情報処理システムが提供される。第一の取得部は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される。第二の取得部は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される。

評価部は、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される。

上記近傍グラフは、複数の要素の特徴空間上の分布に関連する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。

本開示の一側面によれば、第一の取得部と、第二の取得部と、第一の類似度算出部と、第二の類似度算出部と、第一の固有値算出部と、第二の固有値算出部と、評価部とを備える別の情報処理システムが提供されてもよい。

第一の取得部は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される。第二の取得部は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される。

第一の類似度算出部は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出するように構成される。第二の類似度算出部は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出するように構成される。

第一の固有値算出部は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。

第二の固有値算出部は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列である。

評価部は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される。

近傍グラフは、複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。上記比較によれば、第一の集合に関する近傍グラフと、第二の集合に関する近傍グラフの類似性を評価することができる。

近傍グラフは、対応するデータセットのデータ構造に対応する。従って、上記比較によれば、第一のデータセットのデータ構造と、第二のデータセットのデータ構造との間の類似性を評価することができる。

この評価は、例えば、第一のデータセットと第二のデータセットとの間のデータフュージョンに関する相性の判別に役立つ。評価は、例えばデータフュージョンにおける結合対象のデータセットの選択に役立つ。但し、評価は、データフュージョンの用途に限定されない。

本開示の一側面によれば、評価部は、固有値の大きさを基準に順位付けされる、第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、第一の固有値の一群における順位、及び、第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、第二の固有値の一群における順位に基づき、複数の第一の固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。こうした評価によれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。

本開示の一側面によれば、評価部は、第一の固有値の一群に含まれる固有値の大きい順に第１位から所定順位までの固有値のそれぞれを、複数の第二の固有値のうちの同一順位の固有値と比較することにより、データ構造に関する類似性を評価してもよい。

本開示の一側面によれば、評価部は、誤差の二乗和によりデータ構造に関する類似性の評価値を算出するように構成されてもよい。誤差のそれぞれは、複数の第一の固有値のうちの、対応する順位の第一の固有値と、複数の第二の固有値のうちの、対応する順位の第二の固有値との差であり得る。誤差の二乗和を用いることによれば、データセット間のデータ構造に関する類似性を、一層適切に評価可能である。

本開示の一側面によれば、第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列であってもよい。

本開示の一側面によれば、第二の取得部は、第二のデータセットとして、複数の評価対象のデータセットを取得してもよい。複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり得る。複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。

第二の類似度算出部は、複数の評価対象のデータセットのそれぞれについて、対応する集合における複数の要素間の類似度を算出してもよい。第二の固有値算出部は、複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、対応する集合における複数の要素のそれぞれを、類似度の高さが所定条件を満足する対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出してもよい。

評価部は、複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく比較対象の固有値の一群と、第一の固有値の一群との間の比較に基づき、第一のデータセットと、対応する評価対象のデータセットと、の間のデータ構造に関する類似性を評価してもよい。

本開示の一側面によれば、情報処理システムは、選択部を更に備えてもよい。選択部は、複数の評価対象のデータセットのうち、データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成され得る。

本開示の一側面によれば、情報処理システムは、結合部を更に備えてもよい。結合部は、第一のデータセットと、結合対象に選択された第二のデータセットとを、第一の集合と、対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように、結合する構成にされ得る。

こうした選択によれば、第一のデータセットとの結合に相応しい第二のデータセットを、複数のデータセットの中から選択することができる。従って、第一のデータセットと第二のデータセットと間の高精度なデータフュージョンを実現可能である。

本開示の一側面によれば、第一のデータセットは、複数の第一の要素として、第一の集合における複数の人の特徴を記述するデータセットであってもよい。第二のデータセットは、複数の第二の要素として、第二の集合における複数の人の特徴を記述するデータセットであってもよい。

本開示の一側面によれば、上述した情報処理システムにおける少なくとも一部の機能をコンピュータに実現させるためのコンピュータプログラムが提供されてもよい。本開示の一側面によれば、第一の取得部、第二の取得部、及び評価部の少なくとも一部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。

本開示の一側面によれば、第一の取得部、第二の取得部、第一の類似度算出部、第二の類似度算出部、第一の固有値算出部、第二の固有値算出部、及び評価部の少なくとも一部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な非一時的記録媒体に記録され得る。

本開示の一側面によれば、情報処理方法が提供されてもよい。情報処理方法は、コンピュータにより実行されてもよい。情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。

情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。

情報処理方法は、第一のデータセットから判別される複数の第一の要素間の類似度に基づく第一の集合の近傍グラフと、第二のデータセットから判別される複数の第二の要素間の類似度に基づく第二の集合の近傍グラフと、の比較に基づいて、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。

本開示の一側面によれば、別の情報処理方法が提供されてもよい。別の情報処理方法は、コンピュータにより実行されてもよい。別の情報処理方法は、第一の集合における複数の第一の要素に関して、複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することを含んでいてもよい。

別の情報処理方法は、第二の集合における複数の第二の要素に関して、複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することを含んでいてもよい。

別の情報処理方法は、第一のデータセットに基づき、複数の第一の要素間の類似度を算出することを含んでいてもよい。別の情報処理方法は、第二のデータセットに基づき、複数の第二の要素間の類似度を算出することを含んでいてもよい。

別の情報処理方法は、複数の第一の要素間の類似度に基づき、第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することを含んでいてもよい。第一のグラフラプラシアン行列は、複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する第一の集合内の一以上の第一の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。

別の情報処理方法は、複数の第二の要素間の類似度に基づき、第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することを含んでいてもよい。第二のグラフラプラシアン行列は、複数の第二の要素のそれぞれを、類似度の高さが所定条件を満足する第二の集合内の一以上の第二の要素と接続した近傍グラフに対応するグラフラプラシアン行列であり得る。

別の情報処理方法は、第一の固有値の一群と第二の固有値の一群との間の比較に基づき、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価することを含んでいてもよい。

上述の情報処理方法によれば、様々な種類のデータセットに関して、第一のデータセットと第二のデータセットとの間のデータ構造に関する類似性を評価可能である。上述の情報処理システム及び情報処理方法は、データフュージョンの用途に限定されない。

情報処理システムの構成を表すブロック図である。データフュージョンによる拡張データセットの生成例を説明する図である。プロセッサが実行する評価処理を表すフローチャート（その１）である。プロセッサが実行する評価処理を表すフローチャート（その２）である。プロセッサが実行する拡張処理を表すフローチャート（その１）である。プロセッサが実行する拡張処理を表すフローチャート（その２）である。

以下に本開示の例示的実施形態を、図面を参照しながら説明する。
本実施形態の情報処理システム１は、汎用コンピュータに専用のコンピュータプログラムＰｒがインストールされて構成される。情報処理システム１は、図１に示すように、プロセッサ１１と、メモリ１３と、ストレージ１５と、ユーザインタフェース１７と、通信インタフェース１９とを備える。

プロセッサ１１は、ストレージ１５に格納されたコンピュータプログラムＰｒに従う処理を実行するように構成される。メモリ１３は、ＲＡＭを備える一次記憶装置であり、プロセッサ１１による処理の実行時に作業エリアとして使用される。

ストレージ１５は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムＰｒの他、コンピュータプログラムＰｒに従う処理の実行時に供される各種データを記憶する。

ユーザインタフェース１７は、情報処理システム１を操作するユーザからの操作信号をプロセッサ１１に入力するための入力デバイスと、ユーザに各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。

通信インタフェース１９は、ＬＡＮ（ローカルエリアネットワーク）インタフェース及びＵＳＢ（ユニバーサル・シリアル・シリアル）インタフェースを含み、外部装置との通信に使用される。情報処理システム１は、通信インタフェース１９を通じて外部装置との間でデータ送受する。

プロセッサ１１は、コンピュータプログラムＰｒに従う処理の実行により、ストレージ１５に記憶された第一のデータセット１５Ａを、ストレージ１５に記憶された第二のデータセット１５Ｂを用いて拡張した拡張データセット１５Ｃを生成する。第一のデータセット１５Ａ及び第二のデータセット１５Ｂは、例えば通信インタフェース１９を通じて外部装置から予め取得され、ストレージ１５に格納される。

第一のデータセット１５Ａは、第一の集合に関する第一の特徴を記述するデータセットであり、第一のエンティティ毎の特徴データを、第一の特徴データとして備える。第一のエンティティのそれぞれは、第一の集合に含まれる複数の要素のそれぞれに対応する。第一の集合は、第一のエンティティの集合である。第一の集合は、第一の消費者集合であり得る。一例によれば、第一のエンティティは、消費者、すなわち人である。

第一のエンティティ毎の第一の特徴データは、対応する第一のエンティティの第一の特徴を記述するデータである。例えば、第一のデータセット１５Ａは、図２に示すように、第一の消費者集合の購買行動に関するデータセットであり得る。この場合、第一の特徴データは、対応する消費者の購買行動の特徴を記述するデータであり得る。第一の特徴データは、例えば、複数の商品に関して、商品毎の購買有無を記述するデータであり得る。

第二のデータセット１５Ｂは、第二の集合に関する第二の特徴を記述するデータセットであり、第二の特徴データとして、第二のエンティティ毎の特徴データを備える。第二のエンティティのそれぞれは、第二の集合に含まれる複数の要素のそれぞれに対応する。

第二の集合は、第二のエンティティの集合である。第二の集合は、第二の消費者集合であり得る。第二の消費者集合は、第一の消費者集合と同じ又は異なる消費者集合であり得る。一例によれば、第二のエンティティは、消費者、すなわち人である。

第二のエンティティ毎の第二の特徴データは、対応する第二のエンティティの第二の特徴を記述するデータである。第二の特徴データは、第二の特徴として、第一の特徴データが説明する第一の特徴と、同じ又は異なる特徴を記述するデータであり得る。すなわち、第二のデータセット１５Ｂは、第二の集合及び第二の特徴の少なくとも一方が、第一の集合及び第一の特徴とは異なるデータセットである。

例えば、第二のデータセット１５Ｂは、図２に示すように、第二の消費者集合のオンライン行動に関するデータセットであり得る。図２に示す例によれば、オンライン行動は、ウェブサイトへの訪問行動であり得る。第二の特徴データは、例えば、複数のウェブサイトに関して、ウェブサイト毎の訪問有無を記述するデータであり得る。

拡張データセット１５Ｃは、第一のデータセット１５Ａに、第二のデータセット１５Ｂが備える情報を付加したデータセットである。拡張により、第一のエンティティに関する情報量は増大する。情報量の増大は、人の行動分析や広告配信に役立つ。

本実施形態によれば、プロセッサ１１は、ユーザからの指示に従って図３及び図４に示す評価処理を実行するように構成される。評価処理によれば、ユーザが、データフュージョンにより結合しようとする第一のデータセット１５Ａと第二のデータセット１５Ｂとの間のデータ構造の類似性が評価され、これによりデータフュージョンの精度が事前評価される。データフュージョンの精度は、データフュージョンにより生成される拡張データセット１５Ｃが説明する情報の確度（すなわち正確性）に対応する。

第一のデータセット１５Ａ及び第二のデータセット１５Ｂのデータ構造は、それぞれ、第一のデータセット１５Ａ及び第二のデータセット１５Ｂにおけるエンティティ間の類似性をグラフで表現したときの当該グラフの構造に対応する。グラフは、周知のように、ノード（換言すれば点）及びリンク（換言すれば辺）の集合により構成される。

評価処理では、第一のデータセット１５Ａに対応するグラフとして、特徴空間上において、第一の集合における第一のエンティティのそれぞれのノードを、類似度が最も高い第一のエンティティのノードに接続して構成される最近傍グラフが用いられる。

同様に、第二のデータセット１５Ｂに対応するグラフとして、特徴空間上において、第二の集合における第二のエンティティのそれぞれのノードを、類似度が最も高い第二のエンティティのノードに接続して構成される最近傍グラフが用いられる。

図３に示す評価処理を開始すると、プロセッサ１１は、ユーザインタフェース１７を通じてユーザから指定された第一のデータセット１５Ａを、ストレージ１５から読み出す。プロセッサ１１は、読み出した第一のデータセット１５Ａに基づき、第一の集合に含まれる複数の第一のエンティティについて、第一のエンティティ毎の特徴ベクトルｘを生成する（Ｓ１１０）。

具体的には、プロセッサ１１は、第一のエンティティ毎に、第一のデータセット１５Ａが有する対応する第一のエンティティの特徴データに基づいて、対応する第一のエンティティの特徴ベクトルｘ＝（ｘ１，ｘ２，…，ｘＭ１）を生成する。Ｍ１は、特徴ベクトルｘの次元数に対応する。

第一のデータセット１５Ａが図２に例示される消費者の購買行動の特徴を表すデータセットである場合、特徴ベクトルｘは、商品毎のベクトル要素を備えることができる。各商品のベクトル要素は、対応する消費者の対応する商品の購買有無を表す。

続くＳ１２０において、プロセッサ１１は、ユーザインタフェース１７を通じてユーザから指定された第二のデータセット１５Ｂを、ストレージ１５から読み出す。プロセッサ１１は、読み出した第二のデータセット１５Ｂに基づき、第二の集合に含まれる複数の第二のエンティティについて、第二のエンティティ毎の特徴ベクトルｙを生成する。

具体的には、プロセッサ１１は、第二のエンティティ毎に、第二のデータセット１５Ｂが有する対応する第二のエンティティの特徴データに基づいて、対応する第二のエンティティの特徴ベクトルｙ＝（ｙ１，ｙ２，…，ｙＭ２）を生成する。Ｍ２は、特徴ベクトルｙの次元数に対応する。

第二のデータセット１５Ｂが図２に例示される消費者のオンライン行動の特徴を表すデータセットである場合、特徴ベクトルｙは、ウェブサイト毎のベクトル要素を備えることができる。各ウェブサイトのベクトル要素は、対応する消費者の対応するウェブサイトへの訪問有無を表す。

続くＳ１３０において、プロセッサ１１は、第一の集合に含まれる第一のエンティティ間の類似度Ｒ１を算出する。プロセッサ１１は、第一の集合において採り得る二つの第一のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第一のエンティティ間の類似度Ｒ１を、特徴ベクトルｘを用いて算出する。

類似度Ｒ１は、例えば、組合せを構成する二つの第一のエンティティの特徴ベクトルｘの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度Ｒ１は、コサイン類似度に限定されない。

続くＳ１４０において、プロセッサ１１は、第一のエンティティ間の類似度Ｒ１に基づき、第一のグラフラプラシアン行列Ｌ１を算出する。第一のグラフラプラシアン行列Ｌ１は、第一のデータセット１５Ａの最近傍グラフのグラフラプラシアン行列である。第一のグラフラプラシアン行列Ｌ１は、最近傍グラフの次数行列Ｄ１及び隣接行列Ａ１を用いて、式Ｌ１＝Ｄ１－Ａ１により算出され得る。

第一のデータセット１５Ａの最近傍グラフは、複数の第一のエンティティのうちの一つを、処理対象のエンティティに選択し、処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度Ｒ１が最も高い一つの第一のエンティティのノードに向けて、リンク（換言すれば有向辺）を張る手順を、第一の集合における複数の第一のエンティティのすべてについて実行して定義される有向グラフであり得る。

続くＳ１５０において、プロセッサ１１は、第一のグラフラプラシアン行列Ｌ１の固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］を算出する。値Ｎ１は、固有値の数である。

固有値λ１［ｉ］（ｉ＝１，２，…，Ｎ１）のインデックスｉは、固有値の大きさを基準に順位付けされる、固有値λ１［ｉ］の、固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］の一群における順位を表す。すなわち、λ１［１］≧λ１［２］≧…≧λ１［Ｎ１］である。

続くＳ１６０において、プロセッサ１１は、固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ１［Ｋ１］の順位Ｋ１を判別する。αは、例えば値０．９であり得る。すなわち、プロセッサ１１は、下記条件式を満足する最小の値Ｋ１を判別する。

続くＳ１７０において、プロセッサ１１は、第二の集合に含まれる第二のエンティティ間の類似度Ｒ２を算出する。プロセッサ１１は、第二の集合において採り得る二つの第二のエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つの第二のエンティティの類似度Ｒ２を、特徴ベクトルｙを用いて算出する。

類似度Ｒ２は、例えば、組合せを構成する二つの第二のエンティティの特徴ベクトルｙの正規化された内積で算出されるコサイン類似度であり得る。但し、類似度Ｒ２は、コサイン類似度に限定されない。

続くＳ１８０において、プロセッサ１１は、第二のエンティティ間の類似度Ｒ２に基づき、第二のグラフラプラシアン行列Ｌ２を算出する。第二のグラフラプラシアン行列Ｌ２は、第二のデータセット１５Ｂの最近傍グラフのグラフラプラシアン行列である。

第二のグラフラプラシアン行列Ｌ２は、最近傍グラフの次数行列Ｄ２及び隣接行列Ａ２を用いて、式Ｌ２＝Ｄ２－Ａ２により算出され得る。最近傍グラフは、複数の第二のエンティティのうちの一つを、処理対象のエンティティに選択し、選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度Ｒ２が最も高い一つの第二のエンティティのノードに向けて、リンク（換言すれば有向辺）を張る手順を、第二の集合における複数の第二のエンティティのすべてについて実行して定義される有向グラフであり得る。

続くＳ１９０において、プロセッサ１１は、第二のグラフラプラシアン行列Ｌ２の固有値λ２［１］，λ２［２］，…，λ２［ｉ］，…，λ２［Ｎ２］を算出する。値Ｎ２は、固有値の数である。

固有値λ２［ｉ］（ｉ＝１，２，…，Ｎ２）のインデックスｉは、固有値の大きさを基準に順位付けされる、固有値λ２［ｉ］の、固有値λ２［１］，λ２［２］，…，λ２［ｉ］，…，λ２［Ｎ２］の一群における順位を表す。すなわち、λ２［１］≧λ２［２］≧…≧λ２［Ｎ２］である。

続くＳ２００において、プロセッサ１１は、固有値λ２［１］，λ２［２］，…，λ２［ｉ］，…，λ２［Ｎ２］を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ２［Ｋ２］の順位Ｋ２を判別する。すなわち、プロセッサ１１は、下記条件式を満足する最小の値Ｋ２を判別する。αは、例えば値０．９であり得る。

続くＳ２１０において、プロセッサ１１は、値Ｋ１，Ｋ２のうち小さい方の値ｍｉｎ｛Ｋ１，Ｋ２｝を、値Ｋに設定する。

続くＳ２２０において、プロセッサ１１は、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間のデータ構造の類似性に関する評価値Ｅとして、次式に従い固有値の誤差の二乗和を算出する。

誤差のそれぞれは、第一のグラフラプラシアン行列Ｌ１の固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｋ］のうちの、対応する順位の固有値λ１［ｉ］と、第二のグラフラプラシアン行列Ｌ２の固有値λ２［１］，λ２［２］，…，λ２［ｉ］，…，λ２［Ｋ］のうちの、対応する順位の固有値λ２［ｉ］との差（λ１［ｉ］－λ２［ｉ］）であり得る。

誤差の二乗和を算出することは、第一のグラフラプラシアン行列Ｌ１の固有値の一群λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］に含まれる第１位から所定順位までの固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｋ］のそれぞれを、第二のグラフラプラシアン行列Ｌ２の固有値λ２［１］，λ２［２］，…，λ２［ｉ］，…，λ２［Ｋ］のうちの同一順位の固有値と比較することを含む。

続くＳ２３０において、プロセッサ１１は、Ｓ２２０で算出した評価値Ｅを、ユーザインタフェース１７のディスプレイを通じて、ユーザに表示する。その後、評価処理を終了する。

この評価処理によれば、ユーザは、表示された評価値Ｅに基づき、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間のデータフュージョンの精度を、事前に予測することができる。

具体的には、ユーザは、表示される評価値Ｅの値が小さいほど、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間のデータ構造の類似性が高いと判別することができる。ユーザは、表示される評価値Ｅの値が小さいほど、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間において、高精度なデータフュージョンを実現可能であると判別することができる。それにより、ユーザは、情報確度の高い拡張データセット１５Ｃを得ることができると判別することができる。

続いて、ユーザインタフェース１７を通じてユーザから拡張処理の実行指示が入力されると、プロセッサ１１が実行する拡張処理の詳細を、図５及び図６を用いて説明する。実行指示と併せて、ユーザからは、第一のデータセット１５Ａに対する結合対象の第二のデータセット１５Ｂの候補として、複数のデータセットがユーザインタフェース１７を通じて指定される。複数のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり得る。

拡張処理では、これらの複数のデータセットのうち、上述した評価処理と同様の手法で算出した評価値Ｅが最小のデータセットが、結合対象の第二のデータセット１５Ｂとして選択される。第一のデータセット１５Ａには、選択された第二のデータセット１５Ｂが、データフュージョンにより結合される。

拡張処理を開始すると、プロセッサ１１は、Ｓ１１０での処理と同様に、ユーザインタフェース１７を通じてユーザから指定された第一のデータセット１５Ａを、ストレージ１５から読み出す。プロセッサ１１は、読み出した第一のデータセット１５Ａに基づき、第一のエンティティ毎の特徴ベクトルｘを生成する（Ｓ３１０）。更に、プロセッサ１１は、結合対象の第二のデータセット１５Ｂの候補として指定された複数のデータセットをストレージ１５から読み出すことにより取得する（Ｓ３２０）。

その後、プロセッサ１１は、Ｓ１３０～Ｓ１６０での処理と同様に、Ｓ３３０～Ｓ３６０の処理を実行する。すなわち、Ｓ３３０において、プロセッサ１１は、第一のエンティティ間の類似度Ｒ１を算出する。

Ｓ３４０において、プロセッサ１１は、第一のエンティティ間の類似度Ｒ１に基づき、第一のグラフラプラシアン行列Ｌ１を算出する。続くＳ３５０において、プロセッサ１１は、第一のグラフラプラシアン行列Ｌ１の固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］を算出する。値Ｎ１は、固有値の数である。固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］は、条件式λ１［１］≧λ１［２］≧…≧λ１［Ｎ１］を満足する。

続くＳ３６０において、プロセッサ１１は、固有値λ１［１］，λ１［２］，…，λ１［ｉ］，…，λ１［Ｎ１］を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ１［Ｋ１］の順位Ｋ１を判別する。αは、例えば値０．９であり得る。

続くＳ３７０において、プロセッサ１１は、上記候補の複数のデータセットの中から、評価対象のデータセットを一つ選択する。続くＳ３８０において、プロセッサ１１は、評価対象のデータセットに基づき、エンティティ毎に、対応するエンティティの特徴ベクトルｙを生成する。

ここでいうエンティティは、評価対象のデータセットが取り扱う情報の標本集合における要素である。標本集合は、消費者集合に対応し得る。エンティティは、消費者集合に含まれる複数の消費者のそれぞれであり得る。

評価対象のデータセットは、エンティティ毎に、対応するエンティティの特徴を記述する特徴データを備える。Ｓ３８０におけるエンティティ毎の特徴ベクトルｙの生成は、第二のデータセット１５Ｂに関するＳ１２０での処理と同様に行われる。

続くＳ３９０において、プロセッサ１１は、Ｓ１７０での処理と同様に、評価対象のデータセットが取り扱う標本集合に含まれるエンティティ間の類似度Ｒ３を、特徴ベクトルｙに基づいて算出する。

プロセッサ１１は、標本集合において採り得る二つのエンティティの組合せの全てに関して、組合せ毎に、組合せを構成する二つのエンティティの類似度Ｒ３を、特徴ベクトルｙを用いて算出する。類似度Ｒ３は、コサイン類似度であり得る。

続く４００において、プロセッサ１１は、Ｓ１８０での処理と同様に、エンティティ間の類似度Ｒ３に基づき、グラフラプラシアン行列Ｌ３を算出する。

グラフラプラシアン行列Ｌ３は、評価対象のデータセットの最近傍グラフのグラフラプラシアン行列である。最近傍グラフは、標本集合における複数のエンティティのうちの一つを、処理対象のエンティティに選択し、選択した処理対象のエンティティのノードから、処理対象のエンティティとの間の類似度Ｒ３が最も高い一つのエンティティのノードに向けて、リンク（換言すれば有向辺）を張る手順を、標本集合における複数のエンティティのすべてについて実行して定義される有向グラフであり得る。

続くＳ４１０において、プロセッサ１１は、Ｓ１９０での処理と同様に、グラフラプラシアン行列Ｌ３の固有値λ３［１］，λ３［２］，…，λ３［ｉ］，…，λ３［Ｎ３］を算出する。値Ｎ３は、固有値の数であり、固有値λ３［１］，λ３［２］，…，λ３［ｉ］，…，λ３［Ｎ３］は、条件式λ３［１］≧λ３［２］≧…≧λ３［Ｎ３］を満足する。

続くＳ４２０において、プロセッサ１１は、Ｓ２００での処理と同様に、固有値λ３［１］，λ３［２］，…，λ３［ｉ］，…，λ３［Ｎ３］を、大きい順に加算したときに、全合計の所定割合αを超える固有値λ３［Ｋ３］の順位Ｋ３を判別する。αは、例えば値０．９であり得る。

続くＳ４３０において、プロセッサ１１は、プロセッサ１１は、値Ｋ１，Ｋ３のうち小さい方の値ｍｉｎ｛Ｋ１，Ｋ３｝を、値Ｋに設定する。

続くＳ４４０において、プロセッサ１１は、第一のデータセット１５Ａと評価対象のデータセットとの間のデータ構造の類似性に関する評価値Ｅとして、次式に従い固有値の誤差の二乗和を算出する。

続くＳ４５０において、プロセッサ１１は、候補として指定された複数のデータセットのすべてについて、Ｓ３７０～Ｓ４４０の処理を実行したかを判断する。実行していないと判断すると（Ｓ４５０でＮｏ）、プロセッサ１１は、候補の中から、評価対象として未選択のデータセットを、評価対象のデータセットとして新たに一つ選択する（Ｓ３７０）。新たに選択した評価対象のデータセットに関して、Ｓ３８０～Ｓ４４０の処理を実行する。

このようにしてプロセッサ１１は、候補として指定された複数のデータセットのすべてについてＳ３７０～Ｓ４４０の処理を実行するまで、Ｓ４５０で否定判断して、Ｓ３７０～Ｓ４４０の処理を繰返し実行する。これにより、候補として指定された複数のデータセットに関して、データセット毎に評価値Ｅを算出する。

複数のデータセットのすべてについてＳ３７０～Ｓ４４０の処理を実行したと判断すると（Ｓ４５０でＹｅｓ）、プロセッサ１１は、候補として指定された複数のデータセットのうち、評価値Ｅが最小のデータセットを、第一のデータセット１５Ａとのデータ構造の類似性が最も高いデータセットとして判別する（Ｓ４６０）。

そして、プロセッサ１１は、候補として指定された複数のデータセットのうち、評価値Ｅが最小のデータセットを、第一のデータセット１５Ａに対する結合対象の第二のデータセット１５Ｂとして選択する（Ｓ４６０）。

その後、プロセッサ１１は、データフュージョン技術を用いて、第一のデータセット１５Ａに、第二のデータセット１５Ｂを結合することにより、第一のデータセット１５Ａを、選択した第二のデータセット１５Ｂを用いて拡張した拡張データセット１５Ｃを生成する（Ｓ４７０）。

第一のデータセット１５Ａと第二のデータセット１５Ｂとの間の結合は、関係する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合することにより行われる。二つの特徴データの結合は、二つの特徴データを関連付けることに対応する。

第一例によれば、特徴が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。第二例によれば、特徴空間上での第一の集合における各第一のエンティティの相対位置と、第二の集合における各第二のエンティティの相対位置とに基づいて、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとが結合される。

その後、プロセッサ１１は、生成した拡張データセット１５Ｃを出力する（Ｓ４８０）。具体的には、プロセッサ１１は、拡張データセット１５Ｃをストレージ１５に書き込む。ストレージ１５に書き込まれた拡張データセット１５Ｃは、例えば消費者行動を分析するために役立てられる。

ここでデータフュージョン技術について追加的に説明する。出願人は、既にいくつかのデータフュージョン技術を、先行する特許出願により開示している。第一のデータセット１５Ａ及び第二のデータセット１５Ｂに、デモグラフィック属性等の第一のエンティティと第二のエンティティとの間で共通する変数が含まれる場合、プロセッサ１１は、共通変数により判別される特徴が類似する第一のエンティティの特徴データと、第二のエンティティの特徴データとを、結合するように、第一のデータセット１５Ａと第二のデータセット１５Ｂとを結合することができる。

あるいは、プロセッサ１１は、第一のデータセット１５Ａと第二のデータセット１５Ｂとの間に共通変数が含まれない場合、特徴空間上での第一の集合における第一のエンティティの相対位置と、特徴空間上での第二の集合における第二のエンティティの相対位置と、が類似する第一のエンティティと第二のエンティティとの組合せを判別して、相対位置が類似する第一のエンティティの特徴データと第二のエンティティの特徴データとを結合するように、第一のデータセット１５Ａに第二のデータセット１５Ｂを結合することができる。

以上に説明した本実施形態の情報処理システム１によれば、データセット間のデータ構造の類似性を、最近傍グラフに基づくグラフラプラシアン行列の固有値に基づいて評価する。

最近傍グラフは、対応するデータセットのデータ構造に対応する。最近傍グラフは、集合を構成する複数の要素の特徴空間上の分布に関連する。二つの近傍グラフが類似するとき、対応する二つのグラフラプラシアン行列の固有値の一群も類似する。

従って、固有値の比較によれば、第一の集合に関する最近傍グラフと、第二の集合に関する最近傍グラフとの間の類似性を評価することができる。結果として、第一のデータセット１５Ａのデータ構造と、第二のデータセット１５Ｂのデータ構造との間の類似性を評価することができる。

この評価は、データフュージョンにおける結合対象のデータセットの選択に役立つ。第一のデータセット１５Ａを、データ構造の類似性が高い第二のデータセット１５Ｂと、データフュージョン技術により結合することによれば、拡張された情報に関する確度の高い拡張データセット１５Ｃを生成することができる。

すなわち、データ構造が大きく異なる二つのデータセットを結合するよりも、互いのデータ構造が近い二つのデータセットを結合したほうが、データセット全体において、エンティティ間の特徴データの結合を良好に行うことができる。

特に本実施形態では、大きい固有値ほど、データ構造の評価に重要であるという考えの下、更には、固有値の和の固有値の総和に占める割合が大きいほど、和に対応する固有値の各値は、総和に対応する固有値の全体を代表しているという考えの下で、値Ｋ１，Ｋ２，Ｋ３が算出され、値Ｋが判別されている。

そして、上述のようにＫ個の誤差の二乗和により、評価値Ｅが算出されている。すなわち、本実施形態の評価値Ｅの算出方法によれば、比較対象のデータセット間の固有値の数が異なる場合でも、固有値を比較して、データ構造の類似性に関する評価値Ｅを適切に算出することができる。従って、本実施形態によれば、データ構造の類似性に関する良好な評価、及び、この評価に基づく良好なデータフュージョンを実現可能である。

［その他の実施形態］
本開示は、上記実施形態に限定されるものではなく、種々の態様を採ることができる。例えば、グラフラプラシアン行列は、ｋ近傍グラフのグラフラプラシアン行列であってもよい。例えば、第一のグラフラプラシアン行列Ｌ１は、第一の集合における第一のエンティティのそれぞれのノードを、類似度Ｒ１が高い順に第一の集合内の一以上のｋ個の第一のエンティティのノードと接続したｋ近傍グラフ、に対応するグラフラプラシアン行列であってもよい。

第二のグラフラプラシアン行列Ｌ２は、第二の集合における第二のエンティティのそれぞれのノードを、類似度Ｒ２が高い順に第二の集合内の一以上のｋ個の第二のエンティティのノードと接続したｋ近傍グラフ、に対応するグラフラプラシアン行列であってもよい。ｋ近傍グラフは、有向グラフであってもよいし、無向グラフであってもよい。同様に、グラフラプラシアン行列Ｌ３は、ｋ近傍グラフであり得る。

上記実施形態では、近傍グラフの比較が、グラフラプラシアン行列の固有値の比較を通じて行われた。しかしながら、近傍グラフの比較は、この例に限定されない。近傍グラフの構造を、任意の手法で数値表現し、二つの近似グラフに対応する数値の比較により、近傍グラフの構造が比較されてもよい。そのような近傍グラフの構造の比較により、対応する二つのデータセットのデータ構造の類似性が評価されてもよい。ここでいう数値には、ベクトルが含まれ得る。

上記実施形態における１つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、１つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。

［本明細書が開示する技術思想］
本明細書には、次の技術思想が開示されていると理解することができる。
［項目１］
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
［項目２］
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
［項目３］
前記評価部は、固有値の大きさを基準に順位付けされる、前記第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、前記第一の固有値の一群における順位、及び、前記第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、前記第二の固有値の一群における順位に基づき、前記複数の第一の固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する項目２記載の情報処理システム。
［項目４］
前記評価部は、前記第一の固有値の一群に含まれる固有値の大きい順に第１位から所定順位までの固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する項目３記載の情報処理システム。
［項目５］
前記評価部は、誤差の二乗和により前記データ構造に関する類似性の評価値を算出するように構成され、前記誤差のそれぞれは、前記複数の第一の固有値のうちの、対応する順位の第一の固有値と、前記複数の第二の固有値のうちの、前記対応する順位の第二の固有値との差である項目３又は項目４の記載の情報処理システム。
［項目６］
前記第一のグラフラプラシアン行列は、前記複数の第一の要素のそれぞれを、前記第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であり、
前記第二のグラフラプラシアン行列は、前記複数の第二の要素のそれぞれを、前記第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列である項目２～項目５のいずれか一項記載の情報処理システム。
［項目７］
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記第二の類似度算出部は、前記複数の評価対象のデータセットのそれぞれについて、前記対応する集合における前記複数の要素間の類似度を算出し、
前記第二の固有値算出部は、前記複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、前記対応する集合における前記複数の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出し、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく前記比較対象の固有値の一群と、前記第一の固有値の一群との間の比較に基づき、前記第一のデータセットと前記対応する評価対象のデータセットとの間の前記データ構造に関する類似性を評価する
項目２～項目６のいずれか一項記載の情報処理システム。
［項目８］
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える項目７記載の情報処理システム。
［項目９］
前記第一のデータセットは、前記複数の第一の要素として、前記第一の集合における複数の人の特徴を記述するデータセットであり、前記第二のデータセットは、前記複数の第二の要素として、前記第二の集合における複数の人の特徴を記述するデータセットである項目１～項目８のいずれか一項記載の情報処理システム。
［項目１０］
項目１記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
［項目１１］
項目２～項目７のいずれか一項記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記第一の類似度算出部、前記第二の類似度算出部、前記第一の固有値算出部、前記第二の固有値算出部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
［項目１２］
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
［項目１３］
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出することと、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出することと、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することと、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することと、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。

１…情報処理システム、１１…プロセッサ、１３…メモリ、１５…ストレージ、１７…ユーザインタフェース、１９…通信インタフェース、Ｐｒ…コンピュータプログラム。

Claims

第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
情報処理システムであって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備え、
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価し、
前記情報処理システムは、更に、
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択されたデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える情報処理システム。
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得するように構成される第一の取得部と、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得するように構成される第二の取得部と、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出するように構成される第一の類似度算出部と、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出するように構成される第二の類似度算出部と、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出するように構成される第一の固有値算出部と、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出するように構成される第二の固有値算出部と、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価するように構成される評価部と、
を備える情報処理システム。
前記評価部は、固有値の大きさを基準に順位付けされる、前記第一の固有値の一群に含まれる複数の第一の固有値のそれぞれの、前記第一の固有値の一群における順位、及び、前記第二の固有値の一群に含まれる複数の第二の固有値のそれぞれの、前記第二の固有値の一群における順位に基づき、前記複数の第一の固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項３記載の情報処理システム。
前記評価部は、前記第一の固有値の一群に含まれる固有値の大きい順に第１位から所定順位までの固有値のそれぞれを、前記複数の第二の固有値のうちの同一順位の固有値と比較することにより、前記データ構造に関する類似性を評価する請求項４記載の情報処理システム。
前記評価部は、誤差の二乗和により前記データ構造に関する類似性の評価値を算出するように構成され、前記誤差のそれぞれは、前記複数の第一の固有値のうちの、対応する順位の第一の固有値と、前記複数の第二の固有値のうちの、前記対応する順位の第二の固有値との差である請求項４記載の情報処理システム。
前記第一のグラフラプラシアン行列は、前記複数の第一の要素のそれぞれを、前記第一の集合における類似度が最も高い第一の要素と接続した最近傍グラフのグラフラプラシアン行列であり、
前記第二のグラフラプラシアン行列は、前記複数の第二の要素のそれぞれを、前記第二の集合における類似度が最も高い第二の要素と接続した最近傍グラフのグラフラプラシアン行列である請求項３記載の情報処理システム。
前記第二の取得部は、前記第二のデータセットとして、複数の評価対象のデータセットを取得し、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記第二の類似度算出部は、前記複数の評価対象のデータセットのそれぞれについて、前記対応する集合における前記複数の要素間の類似度を算出し、
前記第二の固有値算出部は、前記複数の評価対象のデータセットのそれぞれについて、近傍グラフであって、前記対応する集合における前記複数の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記対応する集合内の一以上の要素と接続した近傍グラフ、に対応するグラフラプラシアン行列の固有値の一群を、比較対象の固有値の一群として算出し、
前記評価部は、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットに基づく前記比較対象の固有値の一群と、前記第一の固有値の一群との間の比較に基づき、前記第一のデータセットと前記対応する評価対象のデータセットとの間の前記データ構造に関する類似性を評価する
請求項３記載の情報処理システム。
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択するように構成される選択部と、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合する構成にされる結合部と、
を備える請求項８記載の情報処理システム。
前記第一のデータセットは、前記複数の第一の要素として、前記第一の集合における複数の人の特徴を記述するデータセットであり、前記第二のデータセットは、前記複数の第二の要素として、前記第二の集合における複数の人の特徴を記述するデータセットである請求項１～請求項９のいずれか一項記載の情報処理システム。
請求項１記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
請求項２記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記評価部、前記選択部、及び前記結合部としてコンピュータを機能させるためのコンピュータプログラム。
請求項３～請求項８のいずれか一項記載の情報処理システムにおける前記第一の取得部、前記第二の取得部、前記第一の類似度算出部、前記第二の類似度算出部、前記第一の固有値算出部、前記第二の固有値算出部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の間の比較であって、前記第一の集合の近傍グラフに対応するグラフラプラシアン行列及び前記第二の集合の近傍グラフに対応するグラフラプラシアン行列を用いた比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットから判別される前記複数の第一の要素間の類似度に基づく前記第一の集合の近傍グラフと、前記第二のデータセットから判別される前記複数の第二の要素間の類似度に基づく前記第二の集合の近傍グラフと、の比較に基づいて、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含み、
前記第二のデータセットを取得することは、前記第二のデータセットとして、複数の評価対象のデータセットを取得することを含み、
前記複数の評価対象のデータセットのそれぞれは、対応する集合における複数の要素に関して、前記複数の要素のそれぞれの特徴を記述するデータを含むデータセットであり、
前記複数の評価対象のデータセットは、互いに異なる集合に関するデータセット、又は、互いに記述される特徴が異なるデータセットであり、
前記評価することは、前記複数の評価対象のデータセットのそれぞれについて、対応する評価対象のデータセットから判別される前記対応する集合における前記複数の要素間の類似度に基づく前記対応する集合の近傍グラフと、前記第一の集合の近傍グラフとの間の比較に基づき、前記対応する評価対象のデータセットと前記第一のデータセットとの間の前記データ構造に関する類似性を評価することを含み、
前記情報処理方法は、更に、
前記複数の評価対象のデータセットのうち、前記データ構造に関する類似性の評価が最も高いデータセットを、結合対象に選択することと、
前記第一のデータセットと、前記結合対象に選択された前記第二のデータセットとを、前記第一の集合と前記対応する集合との間において類似する要素の特徴を記述するデータを関連付けるように結合することと、
を含む情報処理方法。
コンピュータにより実行される情報処理方法であって、
第一の集合における複数の第一の要素に関して、前記複数の第一の要素のそれぞれの特徴を記述するデータを含む第一のデータセットを取得することと、
第二の集合における複数の第二の要素に関して、前記複数の第二の要素のそれぞれの特徴を記述するデータを含む第二のデータセットを取得することと、
前記第一のデータセットに基づき、前記複数の第一の要素間の類似度を算出することと、
前記第二のデータセットに基づき、前記複数の第二の要素間の類似度を算出することと、
前記複数の第一の要素間の類似度に基づき、近傍グラフであって、前記複数の第一の要素のそれぞれを、類似度の高さが所定条件を満足する前記第一の集合内の一以上の第一の要素と接続した近傍グラフ、に対応する第一のグラフラプラシアン行列の固有値の一群を、第一の固有値の一群として算出することと、
前記複数の第二の要素間の類似度に基づき、近傍グラフであって、前記複数の第二の要素のそれぞれを、類似度の高さが前記所定条件を満足する前記第二の集合内の一以上の第二の要素と接続した近傍グラフ、に対応する第二のグラフラプラシアン行列の固有値の一群を、第二の固有値の一群として算出することと、
前記第一の固有値の一群と前記第二の固有値の一群との間の比較に基づき、前記第一のデータセットと前記第二のデータセットとの間のデータ構造に関する類似性を評価することと、
を含む情報処理方法。