JP6302126B1 - 情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6302126B1
JP6302126B1 JP2017197105A JP2017197105A JP6302126B1 JP 6302126 B1 JP6302126 B1 JP 6302126B1 JP 2017197105 A JP2017197105 A JP 2017197105A JP 2017197105 A JP2017197105 A JP 2017197105A JP 6302126 B1 JP6302126 B1 JP 6302126B1
Authority
JP
Japan
Prior art keywords
cluster
feature data
database
group
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017197105A
Other languages
English (en)
Other versions
JP2019070973A (ja
Inventor
龍 道本
龍 道本
良治 見並
良治 見並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hakuhodo DY Holdings Inc
Original Assignee
Hakuhodo DY Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hakuhodo DY Holdings Inc filed Critical Hakuhodo DY Holdings Inc
Priority to JP2017197105A priority Critical patent/JP6302126B1/ja
Application granted granted Critical
Publication of JP6302126B1 publication Critical patent/JP6302126B1/ja
Priority to PCT/JP2018/037559 priority patent/WO2019073959A1/ja
Priority to US16/754,517 priority patent/US11593513B2/en
Priority to EP18865414.9A priority patent/EP3671481A4/en
Publication of JP2019070973A publication Critical patent/JP2019070973A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データベースに関する新規技術の提供。【解決手段】システム(50)は、第一及び第二データベースに基づくデータベースを生成する。第一データベース(151)は、第一グループの構成体毎に特徴データを有し、第二データベース(351)は、第二グループの構成体毎に特徴データを有する。システムは、第一グループと第二グループとの間の構成体のペアの複数を、複数のクラスタに分割し、クラスタ情報を提供する。更に、クラスタ情報に基づき第一データベースの特徴データをクラスタ毎に統合する第一生成部(10)から、クラスタ毎の第一統合特徴データを取得する。更に、クラスタ情報に基づき第二データベースの特徴データをクラスタ毎に統合する第二生成部(30)から、クラスタ毎の第二統合特徴データを取得する。そして、同一クラスタの第一及び第二統合特徴データを結合したデータをクラスタ毎に有する結合データベース(551)を生成する。【選択図】図1

Description

本開示は、情報処理システム及び情報処理方法に関する。
従来、商品の販売データに基づき顧客の購買行動を解析することが行われている。商業活動に役立てるために、顧客によるマスメディアやネットワークコンテンツへの接触行動を解析することも行われている。
アンケート形式や対面での質問形式により、顧客の購買行動、マスメディア/ネットワークコンテンツへの接触行動、及び、ライフスタイル等の多様な情報を収集することも行われている。
近年では、こうした顧客に関するデータを備える巨大なデータベースを、各企業が有している。しかしながら、各企業は、個人情報保護を主な理由として、これらの顧客に関するデータを外部に提供することに消極的である。これらのデータは、それを保有する企業から外部に提供される場合、暗号化されて提供されたり、顧客の特定に繋がる情報が大幅に削除されて提供されたり、意図的に誤り(ノイズ)を含むように変更された状態で提供されたりする(特許文献1参照)。
特開2014−109647号公報
上述したように、データ保有企業からの顧客に関するデータの提供は、個人情報保護の観点から限られている。このため、従来技術によれば、社会に存在する各種データを有効に活用することが難しい。
そこで、本開示の一側面では、社会に存在する各種データを有効活用可能なデータベースに関する新規技術を提供できることが望ましい。
本開示の一側面に係る情報処理システムは、第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムである。第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する。第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する。
本開示の一側面によれば、情報処理システムは、クラスタリング部と、第一取得部と、第二取得部と、結合部と、を備える。クラスタリング部は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するように構成される。
上述のように、一つの構成体ペアは、互いに少なくとも対応する第一グループの構成体と第二グループの構成体とのペアである。ここでの用語「少なくとも対応する」は、「一致する」を概念に含む。従って、一つの構成体ペアに属する第一グループの構成体及び第二グループの構成体の実体は、単一の実体であってもよい。例えば、複数の構成体ペアの夫々は、実体が同一であると推定される構成体のペアであり得る。構成体ペアが、実体が同一である構成体のペアである場合、「複数の構成体ペア」は、「第一グループと第二グループとの間で共通する複数の構成体」と読み替えられてもよい。
第一取得部は、第一生成部からクラスタ毎の第一統合特徴データを取得するように構成される。第一生成部は、クラスタリング部から取得したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第一統合特徴データを生成するように構成される。
第二取得部は、第二生成部からクラスタ毎の第二統合特徴データを取得するように構成される。第二生成部は、クラスタリング部から取得したクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第二統合特徴データを生成するように構成される。
結合部は、第一取得部が取得したクラスタ毎の第一統合特徴データと、第二取得部が取得したクラスタ毎の第二統合特徴データと、に基づき、新たなデータベースとして、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成するように構成される。
この情報処理システムによれば、第一データベース及び第二データベースが有する加工なしの特徴データを入手することができなくても、第一統合特徴データ及び第二統合特徴データを有意義に結合して、第一データベースと第二データベースとの結合データベースに対応した、有意義な結合データベースを生成することができる。
この情報処理システムによって生成される結合データベースの特徴データは、第一及び第二データベースにおける特徴データをクラスタ毎に統計処理により統合した第一及び第二統合特徴データである。このため、本開示の情報処理システムによれば、個人情報を保護できる。従って、本開示の一側面によれば、社会に存在する各種データを有効活用可能なデータベースに関する新規技術を提供可能である。
本開示の一側面によれば、第一及び第二グループの構成体は、消費者であってもよい。この場合、第一データベースは、第一グループの消費者毎に、当該消費者の第一の特徴を表す特徴データを有し、第二データベースは、第二グループの消費者毎に、当該消費者の第二の特徴を表す特徴データを有し得る。
本開示の一側面によれば、第一グループの構成体の夫々には、個別の第一の識別コードが割り当てられてもよい。第一データベースは、第一グループの構成体毎の特徴データを、構成体の第一の識別コードと関連付けて記憶してもよい。第二グループの構成体の夫々には、個別の第二の識別コードが割り当てられてもよい。第二データベースは、第二グループの構成体毎の特徴データを、当該構成体の第二の識別コードと関連付けて記憶してもよい。
本開示の一側面によれば、クラスタリング部は、第一の識別コードと第二の識別コードとの対応関係を表す情報に基づき、上記複数の構成体ペアを特定して、複数の構成体ペアを、複数のクラスタに分割してもよい。クラスタリング部は、第一生成部に、複数の構成体ペアの夫々が属するクラスタを第一の識別コードと関連付けて表すクラスタ情報を提供してもよい。クラスタリング部は、第二生成部に、複数の構成体ペアの夫々が属するクラスタを第二の識別コードと関連付けて表すクラスタ情報を提供してもよい。
本開示の一側面によれば、第一及び第二データベースは、第一データベースと第二データベースとの間で共通する識別コードを用いて、各構成体の特徴データを、対応する構成体の識別コードと関連付けて記憶してもよい。クラスタリング部は、複数の構成体ペアとして、第一データベースと第二データベースとの間で同一の識別コードが関連付けられた特徴データのペアに対応する構成体ペアの複数を、複数のクラスタに分割し、クラスタ情報として、第一及び第二生成部に、複数の構成体ペアの夫々が属するクラスタを識別コードと関連付けて表すクラスタ情報を提供するように構成されてもよい。
本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体の夫々に関し、当該構成体の個人情報を特定関数で秘匿化/ハッシュ化し、第一グループに属する複数の構成体のリストであって、構成体毎の秘匿値/ハッシュ値を含むリストを、クラスタリング部に提供するように構成されてもよい。
第二生成部は、第二グループに属する複数の構成体の夫々に関し、当該構成体の個人情報を上記特定関数で秘匿化/ハッシュ化し、第二グループに属する複数の構成体のリストであって、構成体毎の秘匿値/ハッシュ値を含むリストを、クラスタリング部に提供するように構成されてもよい。
クラスタリング部は、第一生成部から取得したリストに含まれる秘匿値/ハッシュ値及び第二生成部から取得したリストに含まれる秘匿値/ハッシュ値に基づいて、複数の構成体ペアを特定し、第一及び第二生成部に、複数の構成体ペアの夫々が属するクラスタを秘匿値/ハッシュ値と関連付けて表すクラスタ情報を提供してもよい。
本開示の一側面によれば、クラスタリング部は、複数の構成体ペアを、複数の構成体ペア間の類似度に基づき、複数のクラスタに分割するように構成されてもよい。このような類似度に基づくクラスタリングによれば、似た構成体の特徴データを統合することができるため、クラスタ毎の特徴データの統合によっても価値のある情報が失われるのを抑えることができ、より有意義な結合データベースを生成することができる。
本開示の一側面によれば、クラスタリング部は、複数の構成体ペア間の第一及び第二の特徴の少なくとも一方に関する類似度を特定可能な類似度情報を取得するように構成されてもよい。この場合、クラスタリング部は、取得した類似度情報に基づき、複数の構成体ペアを、第一及び第二の特徴の少なくとも一方が類似する構成体ペアをまとめるように、複数のクラスタに分割するように構成されてもよい。
本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体のリストであって、第一の特徴に関する複数の構成体間の類似度を表すリストを、クラスタリング部に提供するように構成されてもよい。第二生成部は、第二グループに属する複数の構成体のリストであって、第二の特徴に関する複数の構成体間の類似度を表すリストを、クラスタリング部に提供するように構成されてもよい。この場合、クラスタリング部は、第一生成部及び第二生成部から取得したリストに基づいて、複数の構成体ペアを、第一及び第二の特徴が類似する構成体をまとめるように、複数のクラスタに分割する構成にされてもよい。
本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体のリストであって、構成体毎の第一の属性値を含むリストを、クラスタリング部に提供するように構成されてもよい。第二生成部は、第二グループに属する複数の構成体のリストであって、構成体毎の第二の属性値を含むリストを、クラスタリング部に提供するように構成されてもよい。この場合、クラスタリング部は、第一及び第二の属性値の少なくとも一方に基づき、複数の構成体ペア間の類似度を判定し、判定した類似度に基づき、複数の構成体ペアを、複数のクラスタに分割するように構成され得る。
本開示の一側面によれば、上記情報処理システムが備えるクラスタリング部、第一取得部、第二取得部、及び結合部の少なくとも一つとしての機能をコンピュータに実現させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な一時的でない記録媒体に格納され得る。
本開示の一側面によれば、第一データベースを備える第一の外部システム、及び、第二データベースを備える第二の外部システムと通信可能な情報処理システムが提供されてもよい。この情報処理システムは、第一の外部システムから第一グループに属する複数の構成体のリストを取得し、更には、第二の外部システムから第二グループに属する複数の構成体のリストを取得し、取得したリストに基づいて、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、第一及び第二の外部システムに提供するクラスタリング部を備えていてもよい。
第一の外部システムは、クラスタリング部から取得したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第一統合特徴データを、情報処理システムに提供するように構成されてもよい。情報処理システムは、第一の外部システムからクラスタ毎の第一統合特徴データを取得する第一取得部を備えていてもよい。
第二の外部システムは、クラスタリング部から取得したクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第二統合特徴データを、情報処理システムに提供するように構成されてもよい。情報処理システムは、第二の外部システムからクラスタ毎の第二統合特徴データを取得する第二取得部を備えていてもよい。
情報処理システムは、第一取得部が取得したクラスタ毎の第一統合特徴データと、第二取得部が取得したクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する結合部を備えていてもよい。
本開示の一側面によれば、第一データベースを備える外部システムと通信可能に構成された、第二データベースを備える情報処理システムが提供されてもよい。この情報処理システムは、クラスタリング部と、取得部と、生成部と、結合部と、を備えることができる。クラスタリング部は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、外部システムに提供する。
外部システムは、クラスタリング部から受信したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第一統合特徴データを、情報処理システムに提供する。取得部は、外部システムからクラスタ毎の第一統合特徴データを取得する。
生成部は、クラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合することにより、クラスタ毎の第二統合特徴データを生成する。結合部は、取得部が取得したクラスタ毎の第一統合特徴データと、生成部が生成したクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する。
本開示の一側面によれば、第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法が提供されてもよい。この方法は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割して、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、クラスタリング手順により提供されるクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第一統合特徴データを生成するデバイス、からクラスタ毎の第一統合特徴データを取得する第一取得手順と、クラスタリング手順により提供されるクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第二統合特徴データを生成するデバイス、からクラスタ毎の第二統合特徴データを取得する第二取得手順と、第一取得手順により取得されたクラスタ毎の第一統合特徴データと、第二取得手順により取得されたクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する結合手順と、を含むことができる。
第一実施形態の情報処理システムの構成を表すブロック図である。 第一データベース及びメンバリストの構成を表す図である。 第二データベース及びメンバリストの構成を表す図である。 結合デバイスが実行する結合関連処理を表すフローチャートである。 第一データ提供システムが実行する第一データ提供処理を表すフローチャートである。 第二データ提供システムが実行する第二データ提供処理を表すフローチャートである。 第一クラスタ情報及び第二クラスタ情報の構成を表す図である。 第一及び第二データ提供システムが実行する加工処理を表すフローチャートである。 図9Aは、第一データベースの加工に関する説明図であり、図9Bは、第二データベースの加工に関する説明図である。 結合データベースの構成を表す図である。 第二実施形態の第一データ提供システムが実行するメンバリスト生成処理を表すフローチャートである。 第二実施形態の第二データ提供システムが実行するメンバリスト生成処理を表すフローチャートである。 第二実施形態の結合システムが実行する処理を表すフローチャートである。 第三実施形態の第一データ提供システムが実行する第一データ提供処理を表すフローチャートである。 第三実施形態の第二データ提供システムが実行する第二データ提供処理を表すフローチャートである。 第三実施形態の結合システムが実行する処理を表すフローチャートである。 第四実施形態の結合システムが有する関係表に関する説明図である。 第四実施形態の結合システムが実行する結合関連処理を表すフローチャートである。 第五実施形態の情報処理システムの構成を表すブロック図である。 第五実施形態の結合システムが実行する結合関連処理を表すフローチャートである。
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
[第一実施形態]
本実施形態の情報処理システム1は、図1に示すように、第一データ提供システム10と、第二データ提供システム30と、結合システム50と、を備える。結合システム50は、第一データ提供システム10から提供される第一データベース151に関するデータと、第二データ提供システム30から提供される第二データベース351に関するデータと、に基づき、第一データベース151と第二データベース351とを結合した結合データベース551を生成するように構成される。
結合データベース551を生成する工程には、第一データ提供システム10が第一データベース151内のデータを加工する工程と、第二データ提供システム30が第二データベース351内のデータを加工する工程と、が含まれる。加工する工程には、第一データベース151及び第二データベース351が有する複数の個人に関するデータを統合して、集団に関するデータに変換する工程が含まれる。
結合システム50は、これらの加工を制御するための情報(後述する第一クラスタ情報155及び第二クラスタ情報355)を、第一データベース151及び第二データベース351に提供する。この提供は、結合システム50が、第一データ提供システム10及び第二データ提供システム30から個人に関するデータの提供を受けなくても、消費者に関する有意義な結合データベース551を生成することを可能にする。
第一データ提供システム10、第二データ提供システム30、及び、結合システム50のそれぞれは、説明を簡単にするため、図1において単一装置(マシン)として表現される。しかしながら、第一データ提供システム10、第二データ提供システム30、及び、結合システム50は、それぞれ、複数のマシンで構成されてもよい。
第一データ提供システム10は、プロセッサ11と、メモリ13と、ストレージ装置15と、を備える。第一データ提供システム10は、図示しない通信インタフェースを備え、ネットワークNTを通じて、結合システム50と通信可能に構成される。
プロセッサ(CPU)11は、メモリ13又はストレージ装置15に記憶されたプログラムに従う処理を実行する。メモリ13は、ROM及びRAM等を含む。ストレージ装置15は、第一データベース151を格納する。
第一データベース151は、第一グループに属する消費者毎に、消費者の特徴を表す特徴データを有する。第一グループに属する消費者は、第一グループの構成体に対応する。以下では、第一グループに属する消費者のことを、第一グループのメンバとも表現する。
図2上段には、第一データベース151の構成が概念的に示される。図2上段から理解できるように、第一データベース151は、各メンバの特徴データ(x1,x2,…)を、メンバの顧客番号ID_A及び連結子ID_Cに関連付けて記憶する。
顧客番号ID_A及び連結子ID_Cは、それぞれ、対応するメンバを識別するためのメンバ固有の識別コードである。但し、顧客番号ID_Aは、第二データベース351では用いられない第一グループ専用の識別コードである。この点で、顧客番号ID_Aは、第一データベース151及び第二データベース351において共通して用いられる連結子ID_Cとは異なる。
特徴データは、対応するメンバの特徴を複数の要素x1,x2,…で表す。要素x1,x2,…の例には、メンバの年齢、性別、居住地域、趣味、並びに、商品毎の購買経験及び購買数等が含まれる。第一データベース151が特定企業Aによって管理される場合、第一データベース151の特徴データに含まれる商品毎の購買経験及び購買数に関する情報は、特定企業Aから販売される商品に関する情報であり得る。
第二データ提供システム30は、プロセッサ31と、メモリ33と、ストレージ装置35と、を備える。第二データ提供システム30は、図示しない通信インタフェースを備え、ネットワークNTを通じて、結合システム50と通信可能に構成される。
プロセッサ(CPU)31は、メモリ33又はストレージ装置35に記憶されたプログラムに従う処理を実行する。メモリ33は、ROM及びRAM等を含む。ストレージ装置35は、第二データベース351を格納する。
第二データベース351は、第二グループに属する消費者毎に、消費者の特徴を表す特徴データを有する。第二グループに属する消費者は、第二グループの構成体に対応する。以下では、第二グループに属する消費者のことを、第二グループのメンバとも表現する。
図3上段には、第二データベース351の構成が概念的に示される。図3上段から理解できるように、第二データベース351は、各メンバの特徴データ(y1,y2,…)を、メンバの顧客番号ID_B及び連結子ID_Cに関連付けて記憶する。
顧客番号ID_B及び連結子ID_Cは、それぞれ、対応するメンバを識別するためのメンバ固有の識別コードである。但し、顧客番号ID_Bは、第一データベース151では用いられない第二グループ専用の識別コードである。連結子ID_Cは、上述した通り、第一データベース151と共通して用いられる識別コードである。第二データベース351において、第一データベース151と同一の消費者についての特徴データには、第一データベース151と同一の値を示す連結子ID_Cが関連付けられる。
第二データベース351内の特徴データは、メンバの特徴を複数の要素y1,y2,…で表す。要素y1,y2,…の例には、メンバの年齢、性別、居住地域、趣味、並びに、商品毎の購買経験及び購買数等が含まれる。但し、要素y1,y2,…の少なくとも一部は、第一データベース151の特徴データが有する要素x1,x2,…とは異なる。その意味で、同一消費者についての第二データベース351における特徴データと第一データベース151における特徴データとは、互いに同一消費者の異なる種類の特徴を表す。要素y1,y2,…の例として説明した商品毎の購買経験及び購買数に関する情報は、例えば、特定企業Aとは別の特定企業Bから販売される商品に関する情報であり得る。
連結子ID_Cは、複数のデータベースに共通する消費者を識別するために用いられる。具体的には、同一消費者についての、第一データベース151の特徴データと、第二データベース351の特徴データとを関連付けるために用いられる。
図2上段及び図3上段に示される例によれば、第一データベース151において顧客番号ID_AとしてのA0003,A0004、A0005,A0006,A0007に関連付けられた特徴データの消費者が、第二データベース351において顧客番号ID_BとしてのB0001,B0002,B0003,B0004,B0005に関連付けられた特徴データの消費者と同じである。
連結子ID_Cは、例えば、第一及び第二グループよりも、メンバ数の多い第三グループの顧客番号であり得る。第三グループは、消費者の多くがメンバとして所属するグループであり得る。連結子ID_Cは、消費者が所有するスマートフォン等の通信機器の識別コードであってもよいし、ネットワーク上の消費者追跡に利用される消費者の識別コード(例えばCookie等)であってもよい。
連結子ID_Cは、第一データベース151の管理者と、第二データベース351の管理者とが協力せずとも共通して入手可能な消費者の識別コードであると都合が良い。連結子ID_Cは、これらの識別コードを秘匿化、具体的にはハッシュ化した値であってもよい。ハッシュ化は、同一消費者の連結子ID_Cの値が同じとなるように、第一データ提供システム10及び第二データ提供システム30で、同じハッシュ関数を用いて行うことができる。付言すると、第一グループのメンバ及び第二グループのメンバの一部は、連結子ID_Cを有していなくてもよい。この場合、第一データベース151及び第二データベース351における該当メンバの特徴データには、連結子が不明であることを示す情報が関連付けられる。
結合システム50は、プロセッサ51と、メモリ53と、ストレージ装置55と、を備える。結合システム50は、図示しない通信インタフェースを備え、ネットワークNTを通じて、第一データ提供システム10及び第二データ提供システム30と通信可能に構成される。
プロセッサ(CPU)51は、メモリ53又はストレージ装置55に記憶されたプログラムに従う処理を実行する。メモリ53は、ROM及びRAM等を含む。ストレージ装置55には、プロセッサ51が実行する処理により生成される結合データベース551が格納される。
結合システム50のプロセッサ51は、図示しないユーザインタフェースを通じて、結合システム50のユーザから、第一データベース151及び第二データベース351に基づく結合データベース551の生成指示が入力されると、図4に示す結合関連処理を開始する。
結合関連処理を開始すると、プロセッサ51は、ネットワークNTを通じて、第一データ提供システム10及び第二データ提供システム30にメンバリストを要求する要求信号を送信する(S110)。
この要求信号を受信すると、第一データ提供システム10のプロセッサ11は、図5に示す第一データ提供処理を開始し、第一データベース151に特徴データを有する第一グループのメンバを列挙したメンバリスト153を生成し(S310)、生成したメンバリスト153を結合システム50にネットワークNTを通じて送信する(S320)。
具体的に、プロセッサ11は、図2下段に示すように、第一グループのメンバを、連結子ID_Cで表現してメンバリスト153を生成する。メンバリスト153を生成する際、連結子ID_Cはハッシュ化されてもよい。ここで、連結子ID_Cが不明の第一グループのメンバは、メンバリスト153に列挙されない。本実施形態において、連結子ID_Cが不明のメンバの特徴データは、結合データベース551の生成に用いられない。換言すれば、結合データベース551の生成過程において、連結子ID_Cが不明のメンバの特徴データは、存在しないものとみなされる。
同様に、第二データ提供システム30のプロセッサ31は、上記要求信号を受信すると、図6に示す第二データ提供処理を開始し、第二データベース351に特徴データを有する第二グループのメンバを列挙したメンバリスト353を生成し(S410)、生成したメンバリスト353を、結合システム50にネットワークNTを通じて送信する(S420)。具体的に、プロセッサ31は、図3下段に示すように、第二グループのメンバを、連結子ID_Cで表して、メンバリスト353を生成する。メンバリスト353を生成する際、連結子ID_Cは、第一データ提供システム10と同じハッシュ関数を用いてハッシュ化されてもよい。
結合システム50のプロセッサ51は、このように第一データ提供システム10及び第二データ提供システム30から送信されてくる第一グループのメンバリスト153及び第二グループのメンバリスト353を受信し(S120)、受信したメンバリスト153,353に基づいて、クラスタリング処理(S130)を実行する。
クラスタリング処理(S130)において、プロセッサ51は、第一グループ及び第二グループのメンバリスト153,353から、第一グループ及び第二グループに共通するメンバ(以下、「共通メンバ」と称する)を特定する(S131)。特定は、メンバリスト153,353間の連結子ID_Cの照合により実現可能である。
その後、プロセッサ51は、共通メンバを複数のクラスタに分割する(S133)。例えば、プロセッサ51は、共通メンバを、ランダムに又は所定規則で、予め定められたメンバ数のクラスタに分割することができる。例えば、共通メンバの数がMで、予め定められたクラスタ当たりのメンバ数がKである場合、値Mを値Kで除算したときの商αに対応する個数だけクラスタを生成することができる。値Kは、個人情報保護の観点で1より大きい値に定められる。1以上の剰余βがある場合、剰余βに対応するメンバは、上記商αに対応する個数のクラスタのいずれかにランダム又は所定規則で配分され得る。
更に、プロセッサ51は、第一グループのメンバリスト153から特定される共通メンバではない第一グループのメンバ、即ち、第一グループの非共通メンバを、複数のクラスタに分割する(S135)。S135におけるクラスタリングは、S133におけるクラスタリングと同様の手法で行うことができる。
更に、プロセッサ51は、第二グループのメンバリスト353から特定される共通メンバではない第二グループのメンバ、即ち、第二グループの非共通メンバを、複数のクラスタに分割する(S137)。S137におけるクラスタリングは、S135におけるクラスタリングと同様の手法で行うことができる。
プロセッサ51は、このようにして共通メンバ、第一グループの非共通メンバ、及び第二グループの非共通メンバをそれぞれ、複数のクラスタに分割した後、第一クラスタ情報155及び第二クラスタ情報355を生成し(S140)、第一データ提供システム10に、第一クラスタ情報155を送信し、第二データ提供システム30に、第二クラスタ情報355を送信する(S140)。
第一クラスタ情報155は、図7に示すように、第一データ提供システム10から受信したメンバリスト153に、各メンバが属するクラスタの識別コードであるクラスタ番号を付して生成される。第二クラスタ情報355は、第二データ提供システム30から受信したメンバリスト353に、各メンバが属するクラスタのクラスタ番号を付して生成される。
第一データ提供システム10のプロセッサ11は、第一クラスタ情報155を受信すると(S330)、第一データベース151に対する加工処理を実行する(S340)。具体的に、プロセッサ11は、図8に示す加工処理を実行する。
即ち、プロセッサ11は、受信した第一クラスタ情報155に基づき、クラスタの一つを選択し(S510)、選択したクラスタに属するメンバの第一データベース151内の複数の特徴データを統計処理により統合して、選択したクラスタに対応する一つの特徴データ(以下、「統合特徴データ」と称する)を生成する(S520)。
プロセッサ11は、全てのクラスタに関して統合特徴データを生成したと判断するまで、S510及びS520の処理を繰返し実行することにより、クラスタ毎に統合特徴データを生成する。そして、全てのクラスタの統合特徴データを生成すると(S530でYes)、加工処理(S340)を終了し、クラスタ毎の統合特徴データを備える加工後第一データベース157を結合システム50に送信する(S350)。
加工後第一データベース157は、第一データベース151が備えるメンバ毎の特徴データに代えて、この特徴データに対する統計処理後のデータであるクラスタ毎の統合特徴データを有するデータベースである。図9Aには、加工後第一データベース157の構成を部分的に表す。
S520において、プロセッサ11は、選択したクラスタに属する複数のメンバの特徴データが示す要素x1,x2,…の値を、要素毎に、一つの統計値に変換して、このクラスタに対応する一つの統合特徴データを生成する。
図7に示す第一クラスタ情報155の例によれば、顧客番号A0003及びA0004の特徴データは、同一クラスタ(クラスタ番号002)に属する。そのため、このクラスタに関して、S520では、A0003の特徴データとA0004の特徴データとが、要素x1,x2,…毎に統計値に変換されて、要素x1,x2,…毎の統計値を含む統合特徴データが生成される。
図9Aに示されるように、要素x1に関しては、A0003の値x1[3]と、A0004の値x1[4]とが統計処理されて、その統計値ST{x1[3],x1[4]}が、クラスタ番号002の統合特徴データにおける要素x1の値として記述される。ここでST{}は、括弧{}内の値の統計値であることを示す。統計値は、平均値であってもよいし、中央値であってもよいし、最頻値であってもよいし、最大値及び/又は最小値であってもよいし、構成比であってもよい。統計値の種類は、要素x1,x2,…の種類毎に予め定められる。
例えば、要素x1が年齢を表すとき、統計値ST{x1[3],x1[4]}は、年齢x1[3]及び年齢x1[4]の平均値であり得る。要素x1が性別を表すとき、統計値ST{x1[3],x1[4]}は、男性及び/又は女性の比率であり得る。要素x1が商品の購入経験を表すとき、ST{x1[3],x1[4]}は、商品の購入経験を有するメンバの比率であり得る。要素x1が商品の購入数を表すとき、ST{x1[3],x1[4]}は、商品の購入数の平均値、中央値、及び、最大値の一つ又は組合せであり得る。
この他、図7に示す第一クラスタ情報155の例によれば、顧客番号A0005、A0006、及びA0007の特徴データは、同一クラスタ(クラスタ番号003)に属する。そのため、このクラスタに関して、加工処理のS520では、A0005の特徴データと、A0006の特徴データと、A0007の特徴データが、要素x1,x2,…毎に統計値に変換されて、統合特徴データが生成される。
図9Aに示されるように、統合特徴データは、変数kの値を追加で有する。この変数kは、クラスタに属するメンバの数を表し、統合特徴データを生成する際に、統合特徴データ内に記述される。
第二データ提供システム30も、結合システム50から第二クラスタ情報355を受信すると、第一データ提供システム10と同様の処理を実行する。即ち、第二データ提供システム30のプロセッサ31は、第二クラスタ情報355を受信すると(S430)、第二データベース351に対する加工処理を実行する(S440)。ここで、プロセッサ31が実行する加工処理は、図8に示す通りである。
即ち、プロセッサ31は、第二データベース351が有する特徴データを、第二クラスタ情報355に基づき、クラスタ毎に統合して、クラスタ毎の統合特徴データを生成する。具体的に、プロセッサ31は、クラスタ毎に、対応するクラスタに属する複数のメンバの特徴データが示す要素y1,y2,…の値を、要素毎に、一つの統計値に変換して、このクラスタに対応する一つの統合特徴データを生成する。これにより、プロセッサ31は、第二データベース351に基づくクラスタ毎の統合特徴データを備える加工後第二データベース357を生成する。その後、プロセッサ31は、加工後第二データベース357を、結合システム50に送信する(S450)。
図7に示す第二クラスタ情報355の例によれば、顧客番号B0001及びB0002の特徴データは、同一クラスタ(クラスタ番号002)に属する。そのため、このクラスタに関して、加工処理のS520では、B0001の特徴データとB0002の特徴データとが、要素y1,y2,…毎に統計値に変換されて、要素y1,y2,…毎の統計値を含む統合特徴データが生成される。
加工後第二データベース357が備える統合特徴データの例は、図9Bに示される。図9Bに示されるように、要素y1に関しては、B0001の値y1[1]と、B0002の値y1[2]とが統計処理されて、その統計値ST{y1[1],y1[2]}が、クラスタ番号002の統合特徴データにおける要素y1の値として記述される。統計値の種類は、要素y1,y2,…の種類毎に予め定められる。
結合システム50のプロセッサ51は、第一データ提供システム10から上記加工後第一データベース157を受信し(S150)、更に、第二データ提供システム30から加工後第二データベース357を受信すると(S160)、これら加工後第一データベース157及び加工後第二データベース357を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置55に格納する(S170)。その後、図4に示す処理を終了する。
結合データベース551の構成は、図10において概念的に示される。S170において、結合システム50のプロセッサ51は、加工後第一データベース157と加工後第二データベース357との間で、同一クラスタの統合特徴データ同士を結合するように、加工後第一データベース157が備えるクラスタ毎の統合特徴データと、加工後第二データベース357が備えるクラスタ毎の統合特徴データと、を結合することによって、結合データベース551を生成する。
結合データベース551は、クラスタ毎に、第一統合特徴データと第二統合特徴データとが結合された結合データを有する。ここで、一つのクラスタの第一統合特徴データは、加工後第一データベース157が有する対応クラスタの統合特徴データであり、第二統合特徴データは、加工後第二データベース357が有する対応クラスタの統合特徴データである。
以上に、本実施形態の情報処理システム1について説明したが、この情報処理システム1によれば、結合システム50は、第一データベース151及び第二データベース351が有する個人の特徴データを入手することなしに、第一データベース151に基づくクラスタ毎の統合特徴データ及び第二データベース351に基づくクラスタ毎の統合特徴データを有意義に結合して、第一データベース151と第二データベース351との結合データベースに対応した有意義な結合データベース551を生成することができる。
個人の特徴データをクラスタの特徴データ(統合特徴データ)に変換することは、個人情報保護に役立つ。従って、本技術によれば、個人情報保護の観点からデータ提供に消極的なデータベースの管理者からも、比較的容易にデータ提供を受けることができる。よって、本実施形態によれば、個人情報を保護しつつ、社会に散在する消費者に関するデータを有意義に結合して、有意義な結合データベース551を生成することができる。結合データベース551は、例えば、ストレージ装置55から取り出して、消費者行動の分析等に利用することができる。
この他、本実施形態では、結合システム50が、第一データ提供システム10における第一データベース151の加工、及び、第二データ提供システム30における第二データベース351の加工を、第一及び第二クラスタ情報155,355の提供により制御する。この制御により、第一データ提供システム10及び第二データ提供システム30からは、共通メンバに関し、共通するクラスタ毎の統合特徴データの提供を受けることができ、結合システム50は、同一クラスタ毎に、統合特徴データを有意義に結合することができる。
比較例として、第一グループのメンバ及び第二グループのメンバが、第一データ提供システム及び第二データ提供システムにおいて個別にクラスタリングされる例を考える。この場合、共通メンバに対応するクラスタ群は、第一データ提供システムと第二データ提供システムとで異なる。従って、比較例の結合システムは、クラスタ内のメンバが異なる第一グループのクラスタ毎の統合特徴データと、第二グループのクラスタ毎の統合特徴データを結合して、結合データベースを生成することになる。
この比較例から理解できるように、本実施形態によれば、第一データベース151及び第二データベース351の加工を伴いながらも、比較例の結合データベースより有意義で価値のある結合データベース551を生成することができる。
付言すると、比較例では、互いに結合される二つの統合特徴データに対応する二つのクラスタの両方に属するメンバが唯一である状態も発生し得る。このような状態が発生する可能性は、3個以上の多数のデータベースを連結する場合に高まる。これに対し、本実施形態は、多数のデータベースを連結しても、連結される複数の統合特徴データに対応するクラスタは同一メンバで構成されるため、上述のような状態が発生しない。従って、本実施形態によれば、個人情報保護の観点でも、より優れた結合データベース551を提供することができる。
[第二実施形態]
続いて、第二実施形態の情報処理システム1を説明する。第二実施形態の情報処理システム1は、結合システム50が、第一データ提供システム10及び第二データ提供システム30から提供される距離情報付のメンバリストを利用して、共通メンバ、第一グループの非共通メンバ、及び、第二グループの非共通メンバをクラスタリングする点で、第一実施形態の情報処理システム1とは異なる。一方、第二実施形態の情報処理システム1は、その他の多くの点で、第一実施形態の情報処理システム1と同様に構成される。
従って、以下では、第二実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
本実施形態において、第一データ提供システム10のプロセッサ11は、第一データ提供処理(図5)のS310において、図11に示すメンバリスト生成処理を実行する。
このメンバリスト生成処理において、プロセッサ11は、第一データベース151において連結子ID_Cの付された特徴データに対応する第一グループのメンバに関して、メンバ間の距離D1を算出する(S311)。
距離D1は、特徴データの要素x1,x2,…に対応する特徴空間上でのメンバ間の距離を意味する。距離D1は、要素x1,x2,…で定義される特徴についてのメンバ間の類似度に対応する。距離D1が小さいほど対応するメンバ間は類似していると理解できる。距離D1は、例えば、ユークリッド距離であり得る。例えばメンバiと、メンバjとの間の距離D1[i,j]は、次式に従って算出することができる。この式は、図11にも示される。
D1[i,j]={Σ(xn[i]−xn[j])1/2
ここで、変数nは、値1から特徴データの要素数に対応する値Nまでの値を採る。n=1である場合のxnは、要素x1を意味し、n=2である場合のxnは、要素x2を意味する。xn[i]及びxn[j]は、それぞれ、メンバi及びメンバjの特徴データにおける要素xnの値であると理解してよい。ここで要素xnの値は、全て数値で表現されているものと理解されてよい。Σ(xn[i]−xn[j])は、n=1からn=Nまでの(xn[i]−xn[j])の和であると理解されてよい。S311では、全てのメンバi及びメンバjの組合せに関して、距離D1[i,j]を算出する。
その後、プロセッサ11は、第一実施形態と同様に、第一グループのメンバを連結子ID_Cで表現したメンバリスト1531であって、S311で算出した距離D1の情報を付した距離情報付のメンバリスト1531を生成する(S312)。図11に示す例によれば、メンバリスト1531には、メンバjの連結子に、任意のメンバiとの組合せ毎の距離D1[i,j]が関連付けられている。S320(図5)では、このように生成した距離情報付のメンバリスト1531を結合システム50に送信する。
同様に、第二データ提供システム30のプロセッサ31は、第二データ提供処理(図6)のS410において、図12に示すメンバリスト生成処理を実行する。
このメンバリスト生成処理において、プロセッサ31は、第二データベース351において連結子ID_Cの付された特徴データに対応する第二グループのメンバに関して、メンバ間の距離D2を算出する(S411)。
距離D2は、特徴データの要素y1,y2,…に対応する特徴空間上でのメンバ間の距離を意味する。距離D2は、要素y1,y2,…で定義される特徴についてのメンバ間の類似度に対応する。距離D2が小さいほど対応するメンバ間は類似していると理解できる。距離D2は、例えば、ユークリッド距離であり得る。例えばメンバiとメンバjとの間の距離D2[i,j]は、次式に従って算出することができる。この式は、図12にも示される。
D2[i,j]={Σ(yn[i]−yn[j])1/2
ここで、変数nは、値1から特徴データの要素数に対応する値Nまでの値を採る。yn[i]及びyn[j]は、それぞれ、メンバi及びメンバjの特徴データにおける要素ynの値であると理解してよい。ここで要素ynの値は、全て数値で表現されているものと理解されてよい。Σ(yn[i]−yn[j])は、n=1からn=Nまでの(yn[i]−yn[j])の和であると理解されてよい。S411では、全てのメンバi及びメンバjの組合せに関して、距離D2[i,j]を算出する。
その後、プロセッサ31は、第一実施形態と同様に、第二グループのメンバを連結子ID_Cで表現したメンバリスト3531であって、S411で算出した距離D2の情報を付した距離情報付のメンバリスト3531を生成する。図12に示す例によれば、メンバリスト3531には、メンバjの連結子に、任意のメンバiとの組合せ毎の距離D2[i,j]が関連付けている。S420(図6)では、このように生成した距離情報付のメンバリスト3531を結合システム50に送信する。
結合システム50のプロセッサ51は、第一データ提供システム10から受信したメンバリスト1531及び第二データ提供システム30から受信したメンバリスト3531に基づいて、S133,S135,S137(図4参照)のそれぞれにおいて、図13に示す処理を実行する。
即ち、S133において、プロセッサ51は、共通メンバに関してメンバ間の距離Dを、メンバリスト1531が示す距離D1及びメンバリスト3531が示す距離D2の合成距離D=(D1+D21/2として算出する(S610)。この距離Dは,要素x1,x2,…,y1,y2で定義される特徴についてのメンバ間の類似度に対応する。メンバiとメンバjとの間の距離D=D[i,j]は、式D[i,j]=(D1[i,j]+D2[i,j]1/2に従って算出することができる。
この距離Dの算出により、要素x1,x2,…,y1,y2に対応する特徴空間上での各メンバの絶対位置を特定することはできないものの、メンバ間の相対位置、即ちメンバの分布については特定することができる。
プロセッサ51は、この距離Dから特定される特徴空間上の共通メンバの分布に基づき、距離Dが近い、換言すれば特徴が類似するメンバを、予め定められた数ずつまとめるようにして、共通メンバを、複数のクラスタに分割する(S620)。各クラスタは、上記予め定められた数のメンバから構成される。このクラスタリングは、周知のk−means法(k平均法)を利用して行うことができる。クラスタリングは、他の公知の技法を用いて行われてもよい。
同様に、S135において、プロセッサ51は、第一グループの非共通メンバに関してメンバ間の距離D=(D1+D21/2を、メンバリスト1531が示す距離D1に基づいて算出する(S610)。ここで、第一グループの非共通メンバに関しては距離D2に対応する情報が存在しないので、D2=0と取り扱って距離Dを算出することができる。換言すれば、S610では、メンバiとメンバjとの間の距離D=D[i,j]を、D=D1[i,j]に設定することができる。
プロセッサ51は、この距離Dから特定される特徴空間上の第一グループの非共通メンバの分布に基づき、距離Dが近いメンバを、予め定められた数ずつまとめるようにして、第一グループの非共通メンバを、複数のクラスタに分割する(S620)。
同様に、S137において、プロセッサ51は、第二グループの非共通メンバに関してメンバ間の距離D=(D1+D21/2を、メンバリスト3531が示す距離D2に基づいて算出する(S610)。ここでは、D1=0と取り扱って距離Dを算出することができる。換言すれば、S610では、メンバiとメンバjとの間の距離D=D[i,j]を、D=D2[i,j]に設定することができる。
プロセッサ51は、この距離Dから特定される特徴空間上の第二グループの非共通メンバの分布に基づき、距離Dが近いメンバを、予め定められた数ずつまとめるようにして、第二グループの非共通メンバを、複数のクラスタに分割する(S620)。
プロセッサ51は、クラスタリング処理(S130)において上述の処理を実行すると、その処理結果に基づく第一クラスタ情報155及び第二クラスタ情報355をそれぞれ第一データ提供システム10及び第二データ提供システム30に送信する(S140)。その後、第一実施形態と同様の処理を実行する。
本実施形態によれば、距離Dの情報に基づき、結合システム50が、共通メンバ、第一グループの非共通メンバ、及び、第二の非共通メンバを、距離Dが近い(即ち特徴が類似する)メンバでまとめるように、クラスタリングする。従って、距離Dを考慮せずにクラスタリングを行う第一実施形態と比較して、より有意義な結合データベース551を生成することができる。即ち、有意義な消費者の情報が統計処理によって失われないように複数の特徴データを統合し、その統合特徴データに基づいて結合データベース551を生成することができる。
以上、第二実施形態の情報処理システム1について説明したが、距離D1は、第一データベース151が備える特徴データの要素x1,x2,…の全てを用いて算出されなくてもよく、距離D1は、一部の要素を用いて算出されてもよい。同様に、距離D2は、特徴データが有する要素y1,y2,…の内、一部の要素を用いて算出されてもよい。一部の要素のみを用いた距離D1,D2の算出は、個人情報保護を強固にする目的で有意義である。
[第三実施形態]
続いて、第三実施形態の情報処理システム1を説明する。第三実施形態の情報処理システム1は、第二実施形態と同じく、距離情報に基づいてメンバのクラスタリングを行うように構成される。
以下では、第三実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
本実施形態において、第一データ提供システム10のプロセッサ11は、結合システム50からメンバリストについての要求信号を受信すると、図5に示す処理に代えて、図14に示す第一データ提供処理を実行する。この第一データ提供処理において、プロセッサ11は、第一データベース151において連結子ID_Cの付された特徴データに対応する第一グループのメンバに関して、各メンバの属性値Z1を算出する(S710)。図14右領域及び以下に示されるZ1[i]は、メンバiについての属性値Z1を意味する。
メンバiの属性値Z1[i]は、例えば、メンバiの年齢、性別、居住地域、職業等の基本属性(例えばデモグラフィック属性)の組合せを、その組合せに対応する数値に符号化したものである。例えば、メンバiの属性値Z1[i]は、メンバiの基本属性の組合せをハッシュ関数に入力したときに算出されるハッシュ値であり得る。
但し、属性値Z1は、基本属性の一つだけをハッシュ化したものであってもよい。属性値Z1は、例えば、メンバの居住地域だけをハッシュ化したものであってもよい。ハッシュ化は、メンバの基本属性に関する具体的な情報を、第一データ提供システム10の外部に対し秘密にするために行われる。
上記基本属性に関する情報は、第一データベース151内の特徴データから抽出されてもよいし、ストレージ装置15が記憶する第一データベース151とは別の第一グループの会員情報を格納するデータベースから取得されてもよい。
S710において各メンバの属性値Z1を算出した後、プロセッサ11は、第一グループのメンバを連結子ID_Cで表現したメンバリスト1532であって、S710で算出した属性値Z1を付したメンバリスト1532を生成する(S720)。図14右領域に示される例によれば、メンバリスト1532は、メンバiの連結子に、メンバiに関する属性値Z1[i]を関連付けて生成される。
更に、プロセッサ11は、属性値Z1の組合せ(Z1_p,Z1_q)を距離D1に変換するための変換テーブル1533を作成する(S730)。変換テーブル1533は、図14右領域に示されるように、属性値Z1の組合せ(Z1_p,Z1_q)毎に、その組合せ(Z1_p,Z1_q)に対応する距離D1が記述されたテーブルである。
変換テーブル1533によれば、メンバiの属性値Z[i]が値Z1_pであり、メンバjの属性値Z[j]が値Z1_qであるときの、メンバiとメンバjとの間の距離D1を、変換テーブル1533において対応する組合せ(Z1_p,Z1_q)に関連付けられた距離D1に特定可能である。メンバiとメンバjとの間の距離D1は、基本属性で定義される特徴空間上に、メンバiとメンバjを配置したときの、特徴空間上でのメンバ間の距離と理解してよい。この距離は、第二実施形態と同様、ユークリッド距離であり得る。
プロセッサ11は、属性値Z1の組合せ(Z1_p,Z1_q)毎に、属性値Z1_pに対応する基本属性の組合せに対応する特徴空間上の点と、属性値Z1_qに対応する基本属性の組合せに対応する特徴空間上の点との間の距離を、距離D1として算出して、変換テーブル1533を生成することができる。
プロセッサ11は、生成したメンバリスト1532及び変換テーブル1533を、結合システム50に送信する(S740)。その後、プロセッサ11は、第一実施形態と同様に、第一クラスタ情報155を受信し(S330)、その第一クラスタ情報155に基づいて、第一データベース151を加工して、加工後第一データベース157を生成し(S340)、加工後第一データベース157を結合システム50に送信し(S350)、第一データ提供処理を終了する。
同様に、第二データ提供システム30のプロセッサ31は、結合システム50からメンバリストについての要求信号を受信すると、図6に示す処理に代えて、図15に示す第二データ提供処理を実行する。この第二データ提供処理において、プロセッサ31は、S710と同様、第二グループのメンバに関して、各メンバの属性値Z2を算出する(S810)。図15右領域及び以下に示されるZ2[i]は、メンバiについての属性値Z2を意味する。
メンバiの属性値Z2[i]は、上述した属性値Z1と同様に、メンバiの基本属性の組合せを、その組合せに対応する数値(例えばハッシュ値)に符号化したものである。上記基本属性に関する情報は、第二データベース351内の特徴データから抽出されてもよいし、ストレージ装置35が記憶する第二データベース351とは別の第二グループの会員情報を格納するデータベースから取得されてもよい。
S810において各メンバの属性値Z2を算出した後、プロセッサ31は、第二グループのメンバを連結子ID_Cで表現したメンバリスト3532であって、S810で算出した属性値Z2を付したメンバリスト3532を生成する(S820)。メンバリスト3532の例は、図15右領域に示される。
更に、プロセッサ31は、属性値Z2の組合せ(Z2_p,Z2_q)を距離D2に変換するための変換テーブル3533を作成する(S830)。変換テーブル3533は、図15右領域に示されるように、属性値Z2の組合せ(Z2_p,Z2_q)毎に、その組合せ(Z2_p,Z2_q)に対応する距離D2が記述されたテーブルである。
プロセッサ31は、属性値Z2の組合せ(Z2_p,Z2_q)毎に、属性値Z2_pに対応する基本属性の組合せに対応する特徴空間上の点と、属性値Z2_qに対応する基本属性の組合せに対応する特徴空間上の点との間の距離を、距離D2として算出して、変換テーブル3533を生成することができる。
プロセッサ31は、生成したメンバリスト3532及び変換テーブル3533を、結合システム50に送信する(S840)。その後、プロセッサ31は、第一実施形態と同様に、第二クラスタ情報355を受信し(S430)、その第二クラスタ情報355に基づいて、第二データベース351を加工して、加工後第二データベース357を生成し(S440)、加工後第二データベース357を結合システム50に送信し、第二データ提供処理を終了する。
結合システム50のプロセッサ51は、第一データ提供システム10から受信したメンバリスト1532及び変換テーブル1533、並びに、第二データ提供システム30から受信したメンバリスト3532及び変換テーブル3533に基づき、S133,S135,S137(図4参照)のそれぞれにおいて、図16に示す処理を実行することができる。
即ち、S133において、プロセッサ51は、共通メンバに関してメンバ間の距離D1を、メンバリスト1532及び変換テーブル1533に基づいて算出する(S910)。更に、メンバ間の距離D2を、メンバリスト3532及び変換テーブル3533に基づいて算出する(S920)。そして、算出した距離D1及び距離D2に基づいて、メンバ間の距離D=(D1+D21/2を算出する(S930)。
その後、プロセッサ51は、S620での処理と同様、距離Dから特定される特徴空間上の共通メンバの分布に基づき、距離Dが近い、換言すれば特徴が類似するメンバを、予め定められた数ずつまとめるようにして、共通メンバを複数のクラスタに分割する(S940)。
プロセッサ51は、S135においても同様に、図16に従う手順で、第一グループの非共通メンバを、距離Dが近いメンバを予め定められた数ずつまとめるように、複数のクラスタに分割する。S137においても同様に、第二グループの非共通メンバを、距離Dが近いメンバを予め定められた数ずつまとめるように、複数のクラスタに分割する。S135,S137において特定できない距離D1,D2の取り扱いについては、第二実施形態と同様である。
以上、第三実施形態の情報処理システム1について説明したが、第三実施形態においても第二実施形態と同様に、メンバ間の特徴空間上の距離に基づいてクラスタリングを行うので、有意義な結合データベース551を生成可能である。
[第四実施形態]
続いて、第四実施形態の情報処理システム1を説明する。以下では、第四実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
本実施形態の情報処理システム1は、結合システム50がストレージ装置55内に、第一データベース151内で用いられる顧客番号ID_Aと、第二データベース351内で用いられる顧客番号ID_Bとの関係を示す関係表553を記憶する。図17上段には、関係表553を概念的に表す。
即ち、関係表553は、第一グループ及び第二グループの両者に所属する共通メンバの夫々に関し、共通メンバの顧客番号ID_Aと、顧客番号ID_Bとを関連付ける情報を有する。図17上段に示す関係表553は、更に、各メンバの連結子ID_Cの情報を有するが、この情報は任意であり、なくてもよい。
関係表553は、第一データベース151及び第二データベース351の管理者から予め提供された情報に基づき、生成され得る。関係表553は、別の者から提供された情報に基づき、生成されてもよい。例えば、ウェブページへのアクセスなどのネットワーク上のユーザ行動を追跡する企業は、その追跡により、同一ユーザに関する複数企業の顧客番号ID_A,ID_Bを入手し得る。関係表553は、このような企業から入手可能な情報に基づいて生成可能である。関係表553は、結合システム50がネットワーク上のユーザ行動を追跡して取得した情報に基づいて生成してもよい。
本実施形態では、結合システム50のプロセッサ51が、ユーザからの指示に基づき、図4に示す処理に代えて、図18に示す結合関連処理を実行する。
この結合関連処理において、プロセッサ51は、メンバリストの要求及び受信を行わず、S1010において、S130に対応するクラスタリング処理を行う。このクラスタリング処理(S1010)では、関係表553を参照して、共通メンバを特定し(S131)、共通メンバを複数のクラスタに分割し(S133)、更には、第一グループの非共通メンバを複数のクラスタに分割し(S135)、第二グループの非共通メンバを複数のクラスタに分割する(S137)。
その後、プロセッサ51は、S1020において、第一クラスタ情報1554及び第二クラスタ情報3554を生成し、第一データ提供システム10に、第一クラスタ情報1554を送信し、第二データ提供システム30に、第二クラスタ情報3554を送信する。
第一クラスタ情報1554は、図17左下領域に示すように、第一グループのメンバを、第一データベース151が用いる第一グループの顧客番号ID_Aで表現した、第一グループのメンバリストに、各メンバが属するクラスタのクラスタ番号を付して生成される。第二クラスタ情報3554は、図17右下領域に示すように、第二グループのメンバを、第二データベース351が用いる第二グループの顧客番号ID_Bで表現した、第二グループのメンバリストに、各メンバが属するクラスタのクラスタ番号を付して生成される。
続くS1030において、プロセッサ51は、第一データ提供システム10から加工後第一データベース157を受信し、更には、第二データ提供システム30から加工後第二データベース357を受信し(S1040)、これら加工後第一データベース157及び加工後第二データベース357を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置55に格納する(S1050)。その後、図17に示す処理を終了する。
第一データ提供システム10のプロセッサ11は、図5に示すS310,S320の処理を実行せず、結合システム50から第一クラスタ情報1554を受信すると(S330)、この第一クラスタ情報1554が有する顧客番号ID_Aとクラスタ番号との関連付け情報に基づいて、加工後第一データベース157を生成及び送信することができる(S340,S350)。
第二データ提供システム30のプロセッサ31は、図6に示すS410,S420の処理を実行せず、結合システム50から第二クラスタ情報3554を受信すると(S430)、この第二クラスタ情報3554が有する顧客番号ID_Bとクラスタ番号との関連付け情報に基づいて、加工後第二データベース357を生成及び送信することができる(S440,S450)。
以上、第四実施形態の情報処理システム1を説明したが、本実施形態の情報処理システム1も第一実施形態と同様の効果を奏する。
[第五実施形態]
続いて、第五実施形態の情報処理システム5を説明する。以下では、第五実施形態の情報処理システム5の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
本実施形態の情報処理システム5は、図19に示すように、第一実施形態の第二データ提供システム30に対応する機能が、結合システム80に組み込まれた構成にされる。具体的に、この情報処理システム5は、第一実施形態の第一データ提供システム10に対応するデータ提供システム70と、第一実施形態の第二データ提供システム30及び結合システム50に対応する結合システム80と、を備える。
データ提供システム70は、プロセッサ71と、メモリ73と、ストレージ装置75と、を備える。ストレージ装置75は、第一データベース151を格納する。このデータ提供システム70は、第一実施形態の第一データ提供システム10と同一構成であると理解されてよい。プロセッサ71が実行する処理は、第一実施形態のプロセッサ11が実行する処理と基本的に同じであると理解されてよい。
結合システム80は、データ提供システム70とネットワークNTを通じて通信可能に構成される。この結合システム80は、プロセッサ81と、メモリ83と、ストレージ装置85と、を備える。ストレージ装置85は、第二データベース351を格納する。ストレージ装置85は、プロセッサ81が実行する処理により結合データベース551が生成されたときに、当該結合データベース551を格納する。
プロセッサ81は、結合データベース551の生成指示がユーザから入力されると、図4に示す処理に代えて、図20に示す結合関連処理を実行する。
この結合関連処理において、プロセッサ81は、ネットワークNTを通じて、データ提供システム70にメンバリストを要求する要求信号を送信し(S1110)、データ提供システム70から、第一グループのメンバリスト153を取得する(S1120)。
その後、取得したメンバリスト153に基づいてクラスタリング処理を実行する(S1130)。このクラスタリング処理(S1130)において、プロセッサ81は、メンバリスト153と第二データベース351とを照合し、第一グループ及び第二グループに共通して存在する共通メンバを特定する。更には、第一グループのメンバリスト153に表されるメンバの内、共通メンバ以外のメンバを、第一グループの非共通メンバとして特定する。この他、第二データベース351に特徴データを有する第二グループのメンバの内、共通メンバ以外のメンバを、第二グループの非共通メンバとして特定する。
プロセッサ81は、特定した共通メンバ、第一グループの非共通メンバ、及び、第二グループの非共通メンバのそれぞれを、第一実施形態におけるS133,S135,S137の処理と同様の手法で、複数のクラスタに分割する。
プロセッサ81は、このようにしてS1130におけるクラスタリング処理を終了すると、データ提供システム70に第一クラスタ情報155を送信し(S1140)、第一クラスタ情報155に基づく加工後第一データベース157を、データ提供システム70から取得する(S1150)。
更に、プロセッサ81は、S1130におけるクラスタリング処理の結果に基づいて、ストレージ装置85内の第二データベース351が有する特徴データを、クラスタ毎に統計処理により統合して、クラスタ毎の統合特徴データを生成する。これにより、プロセッサ81は、第二データベース351に基づくクラスタ毎の統合特徴データを備える加工後第二データベース357を生成する(S1160)。
その後、プロセッサ81は、データ提供システム70から取得した上記加工後第一データベース157と、自ら生成した上記加工後第二データベース357と、を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置85に格納する(S1170)。その後、図20に示す処理を終了する。
結合システム80で生成された結合データベース551は、結合システム80側の企業が消費者行動分析や広告配信対象の決定に役立ててもよいし、第一データベース151側の企業に提供されてもよい。本実施形態の情報処理システム5に係る技術も、第一実施形態と同様に、個人情報保護の観点からデータ提供に消極的な企業からのデータ提供を容易にすることができ、更には、統計化されたデータに基づいても、消費者行動分析等に有意義な結合データベースを生成することができる。
以上に第一実施形態から第五実施形態までを説明したが、本開示は、上記実施形態に限定されるものではなく種々の態様を採ることができる。例えば、第五実施形態には、第二実施形態から第四実施形態の技術思想が適用されてもよい。第五実施形態に第四実施形態の技術思想が適用される場合には、例えば、結合システム80が関係表553を有することができ、図20におけるS1110,S1120の処理は省略され得る。
連結子ID_Cは、メンバに予め割り当てられるものでなくてもよい。連結子ID_Cは、第一データベース151及び第二データベース351の管理者が保有する各メンバの詳細な個人情報を符号化して生成されるものであってもよい。データ提供システム10,30は、このような個人情報を記憶し、個人情報を符号化して連結子ID_Cを生成する機能を有していてもよい。ここでいう個人情報の例には、名前、住所、電話番号、メールアドレス等の情報が含まれる。符号化には、ハッシュ関数が用いられ得る。
即ち、連結子ID_Cは、個人情報をハッシュ関数に入力して生成されるハッシュ値であってもよい。第一データベース151及び第二データベース351において共通するハッシュ関数で個人情報を符号化して連結子ID_Cを生成すれば、同一人物に関して、第一データベース151の特徴データ及び第二データベース351の特徴データのいずれにも同一の連結子ID_Cを関連付けることができる。不可逆なハッシュ値を連結子ID_Cに用いれば、基本的には、外部に個人情報が漏えいすることもない。ハッシュ値に変換する個人情報は、連結子ID_Cがおよそ各個人に対して固有になる情報であれば、上述の具体例に限定されない。連結子ID_Cに代えて、符号化を伴わない個人情報の一部がその顧客番号ID_A,ID_Bと共に共通メンバの特定のために結合システムに提供されてもよい。
この他、上記実施形態では、第一グループ及び第二グループに共通する複数のメンバを、複数のクラスタに分割したが、第一グループ内のメンバと第二グループ内のメンバとのペアに関して、複数のペアを、複数のクラスタに分割し、そのクラスタリング結果に基づいて結合データベース551を生成してもよい。ペアは、第一グループと第二グループとの間で、互いに少なくとも対応するメンバのペアであり得る。ペアは、そのペアに属する二人のメンバが互いに少なくとも対応するメンバのペアであり得る。例えば、互いに少なくとも対応するメンバのペアは、実体が同一であると推定される又は実体が同一である蓋然性が高いメンバのペアであり得る。
例えば、第四実施形態では、関係表553が、共通メンバの顧客番号ID_Aと、顧客番号ID_Bとを関連付ける情報を有するが、関係表553は、互いに少なくとも対応する第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示す表であってもよい。例えば、関係表553は、同一であると推定される第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示す表であり得る。
このような関係表553は、例えば、クッキー(Cookie)リストの照合により生成可能である。周知のように、クッキーは、ウェブページにアクセスする人物の識別のために使用される。ネットワーク上の消費者行動を追跡することによっては、顧客番号ID_Aと対応付けられるクッキーリストと、顧客番号ID_Bと対応付けられるクッキーリストとを、生成可能である。そして、顧客番号ID_Aと対応付けられるクッキーリストと顧客番号ID_Bと対応付けられるクッキーリストとの一致度が高い場合、その顧客番号ID_Aに対応する第一グループのメンバと、顧客番号ID_Bに対応する第二グループのメンバは、同一の消費者である可能性が高いと言える。
従って、クッキーリストの一致度が基準以上である第一グループのメンバと第二グループのメンバとを同一人物であると推定すれば、関係表553として、同一であると推定される第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示した表を生成可能である。
このような関係表553を用いる情報処理システム1にも、距離情報に基づいたクラスタリングを行う第二実施形態及び第三実施形態の技術を適用可能である。この場合、第一データ提供システム10から結合システム50へは、図11及び図14に示されるメンバリスト1531,1532に代替するメンバリストとして、連結子ID_Cではなく顧客番号ID_Aで各メンバを表すメンバリストを送信することができる。同様に、第二データ提供システム30から結合システム50へは、図12及び図15に示されるメンバリスト3531,3532に代替するメンバリストとして、顧客番号ID_Bで各メンバを表すメンバリストを送信することができる。
この他、上記実施形態では、二つのデータベースを加工して結合する例を説明したが、三つ以上のデータベースを加工して結合する際に、上記実施形態の技術を適用できることは言うまでもない。従って、本開示は、三以上のデータベースを加工して結合する目的で活用されてもよい。この場合、一つのデータベースを中心に複数のデータベースが結合されてもよいし、複数のデータベースが直列に結合されてもよい。
データベースは、消費者と関連する物及び/又は場所を構成体(メンバ)とするグループの特徴データを有するデータベースであってもよい。近年においては、消費者行動が、スマートフォンなどの携帯端末と密接にかかわっている。従って、第一データベース151及び第二データベース351は、消費者に対応する携帯端末毎の特徴データを有していてもよい。
更に、結合データベース551は、加工後第一データベース157及び加工後第二データベース357への参照情報を有するデータベースとして構成されてもよい。即ち、結合データベース551は、統合特徴データの実体を有していなくてもよく、クラスタ毎の結合データは、加工後第一データベース157及び加工後第二データベース357が有する統合特徴データへのリンク情報又はアドレス情報を有する形態で構成されていてもよい。
第二実施形態では、距離D1及び距離D2の情報を用いてクラスタリングが行なわれたが、距離D1及び距離D2のいずれか一方のみがクラスタリングに用いられてもよい。この場合、不要な距離D1,D2の一方を値ゼロとみなして合成距離Dを算出すればよい。不要な距離D1,D2の一方の情報は、データ提供システム10,30から結合システム50に提供されなくてもよい。第三実施形態で、距離D1、D2に代えて用いられる属性値Z1,Z2も同様に、一方のみが用いられる変形例が考えられる。
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
用語間の対応関係は、次の通りである。結合システム50,80のプロセッサ51,81によって実行されるS130,S1010,S1130の処理は、クラスタリング部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS150,S1030,S1150の処理は、第一取得部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS160,S1040,S1160の処理及びプロセッサ81がS1170においてS1160で生成された加工後データベース357を読み出す処理は、第二取得部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS170,S1050,S1170の処理は、結合部によって実現される処理の一例に対応する。第一データ提供システム10のプロセッサ11によって実行されるS340の処理は、第一生成部によって実現される処理の一例に対応する。第二データ提供システム30のプロセッサ31によって実行されるS440の処理及び結合システム80のプロセッサ81によって実行されるS1160の処理は、第二生成部によって実現される処理の一例に対応する。
1…情報処理システム、5…情報処理システム、10…第一データ提供システム、11…プロセッサ、13…メモリ、15…ストレージ装置、30…第二データ提供システム、31…プロセッサ、33…メモリ、35…ストレージ装置、50…結合システム、51…プロセッサ、53…メモリ、55…ストレージ装置、70…データ提供システム、71…プロセッサ、73…メモリ、75…ストレージ装置、80…結合システム、81…プロセッサ、83…メモリ、85…ストレージ装置、151…第一データベース、153…メンバリスト、155…第一クラスタ情報、157…加工後第一データベース、351…第二データベース、353…メンバリスト、355…第二クラスタ情報、357…加工後第二データベース、551…結合データベース、553…関係表、1531…メンバリスト、1532…メンバリスト、1533…変換テーブル、1554…第一クラスタ情報、3531…メンバリスト、3532…メンバリスト、3533…変換テーブル、3554…第二クラスタ情報、NT…ネットワーク。

Claims (17)

  1. 第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムであって、前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する情報処理システムにおいて、
    前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング部と、
    前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成する第一生成部、から前記クラスタ毎の第一統合特徴データを取得する第一取得部と、
    前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成する第二生成部、から前記クラスタ毎の第二統合特徴データを取得する第二取得部と、
    前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
    を備える情報処理システム。
  2. 請求項1記載の情報処理システムであって、
    前記第一及び第二グループの構成体は、消費者であり、前記第一データベースは、前記第一グループの消費者毎に、当該消費者の第一の特徴を表す特徴データを有し、前記第二データベースは、前記第二グループの消費者毎に、当該消費者の第二の特徴を表す特徴データを有する情報処理システム。
  3. 請求項1又は請求項2記載の情報処理システムであって、
    前記第一グループの構成体の夫々には、個別の第一の識別コードが割り当てられ、前記第一データベースは、前記第一グループの構成体毎の特徴データを、当該構成体の前記第一の識別コードと関連付けて記憶し、
    前記第二グループの構成体の夫々には、個別の第二の識別コードが割り当てられ、前記第二データベースは、前記第二グループの構成体毎の特徴データを、当該構成体の前記第二の識別コードと関連付けて記憶し、
    前記クラスタリング部は、前記第一の識別コードと前記第二の識別コードとの対応関係を表す情報に基づき、前記複数の構成体ペアを特定して前記複数のクラスタに分割し、前記クラスタ情報として、前記第一生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記第一の識別コードと関連付けて表すクラスタ情報を提供し、前記第二生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記第二の識別コードと関連付けて表すクラスタ情報を提供する情報処理システム。
  4. 請求項1〜請求項3のいずれか一項に記載の情報処理システムであって、
    前記複数の構成体ペアの夫々は、実体が同一であると推定される構成体のペアである情報処理システム。
  5. 請求項1又は請求項2記載の情報処理システムであって、
    前記第一及び第二データベースは、前記第一データベースと前記第二データベースとの間で共通する識別コードを用いて、各構成体の特徴データを、対応する構成体の識別コードと関連付けて記憶し、
    前記クラスタリング部は、前記複数の構成体ペアとして、前記第一データベースと前記第二データベースとの間で同一の識別コードが関連付けられた前記特徴データのペアに対応する構成体ペアの複数を、複数のクラスタに分割し、前記クラスタ情報として、前記第一及び第二生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記識別コードと関連付けて表すクラスタ情報を提供する情報処理システム。
  6. 請求項1〜請求項5のいずれか一項に記載の情報処理システムであって、
    前記クラスタリング部は、前記複数の構成体ペアを、前記複数の構成体ペア間の類似度に基づき、前記複数のクラスタに分割する情報処理システム。
  7. 請求項6記載の情報処理システムであって、
    前記クラスタリング部は、前記複数の構成体ペア間の前記第一及び第二の特徴の少なくとも一方に関する類似度を特定可能な類似度情報を取得し、前記取得した類似度情報に基づき、前記複数の構成体ペアを、前記第一及び第二の特徴の少なくとも一方が類似する構成体ペアをまとめるように、前記複数のクラスタに分割する情報処理システム。
  8. 請求項6又は請求項7記載の情報処理システムであって、
    前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記第一の特徴に関する複数の構成体間の類似度を表すリストを、前記クラスタリング部に提供し、
    前記第二生成部は、前記第二グループに属する複数の構成体のリストであって、前記第二の特徴に関する複数の構成体間の類似度を表すリストを、前記クラスタリング部に提供し、
    前記クラスタリング部は、前記第一生成部及び前記第二生成部から取得した前記リストに基づいて、前記複数の構成体ペアを、前記第一及び第二の特徴が類似する構成体ペアをまとめるように、前記複数のクラスタに分割する情報処理システム。
  9. 請求項6記載の情報処理システムであって、
    前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記構成体毎の属性値を含むリストを、前記クラスタリング部に提供し、
    前記クラスタリング部は、前記属性値に基づき、前記複数の構成体ペア間の類似度を判定し、前記判定した類似度に基づき、前記複数の構成体ペアを、前記複数のクラスタに分割する情報処理システム。
  10. 請求項6記載の情報処理システムであって、
    前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記構成体毎の第一の属性値を含むリストを、前記クラスタリング部に提供し、
    前記第二生成部は、前記第二グループに属する複数の構成体のリストであって、前記構成体毎の第二の属性値を含むリストを、前記クラスタリング部に提供し、
    前記クラスタリング部は、前記第一及び前記第二の属性値に基づき、前記複数の構成体ペア間の類似度を判定し、前記判定した類似度に基づき、前記複数の構成体ペアを、前記複数のクラスタに分割する情報処理システム。
  11. 請求項1〜請求項10のいずれか一項記載の情報処理システムであって、
    前記第一生成部及び前記第一データベースは、第一の外部システムに設けられ、前記第二生成部及び前記第二データベースは、前記第一の外部システムとは独立した第二の外部システムに設けられ、前記情報処理システムは、前記第一及び第二の外部システムと通信可能に構成される情報処理システム。
  12. 第一及び第二の外部システムと通信可能な情報処理システムであって、
    前記第一の外部システムは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する第一データベースを備え、
    前記第二の外部システムは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する第二データベースを備える情報処理システムにおいて、
    前記第一の外部システムから前記第一グループに属する複数の構成体のリストを取得し、更には、前記第二の外部システムから前記第二グループに属する複数の構成体のリストを取得し、前記取得したリストに基づいて、前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、前記第一及び第二の外部システムに提供するクラスタリング部と、
    前記第一の外部システムが、前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第一統合特徴データを、前記第一の外部システムから取得する第一取得部と、
    前記第二の外部システムが、前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第二統合特徴データを、前記第二の外部システムから取得する第二取得部と、
    前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
    を備える情報処理システム。
  13. 外部システムと通信可能に構成された情報処理システムであって、
    前記外部システムは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する第一データベースを備え、
    前記情報処理システムは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する第二データベースを備え、
    前記情報処理システムは、更に、
    前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、前記外部システムに提供するクラスタリング部と、
    前記外部システムが、前記クラスタリング部から受信した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第一統合特徴データを、前記外部システムから取得する取得部と、
    前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合することにより、前記クラスタ毎の第二統合特徴データを生成する生成部と、
    前記取得部が取得した前記クラスタ毎の第一統合特徴データと、前記生成部が生成した前記クラスタ毎の第二統合特徴データと、に基づき、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
    を備える情報処理システム。
  14. 第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムであって、前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、前記第一及び第二グループは、共通する複数の構成体を少なくとも部分的に含む情報処理システムにおいて、
    前記共通する複数の構成体を、複数のクラスタに分割し、前記共通する複数の構成体の夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング部と、
    前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成する第一生成部、から前記クラスタ毎の第一統合特徴データを取得する第一取得部と、
    前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成する第二生成部、から前記クラスタ毎の第二統合特徴データを取得する第二取得部と、
    前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
    を備える情報処理システム。
  15. 請求項1〜請求項12及び請求項14のいずれか一項記載の情報処理システムが備えるクラスタリング部と、第一取得部と、第二取得部と、結合部としての機能をコンピュータに実現させるためのプログラム。
  16. 第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法であって、
    前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、
    前記方法は、
    前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割して、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、
    前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成するデバイス、から前記クラスタ毎の第一統合特徴データを取得する第一取得手順と、
    前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成するデバイス、から前記クラスタ毎の第二統合特徴データを取得する第二取得手順と、
    前記第一取得手順により取得された前記クラスタ毎の第一統合特徴データと、前記第二取得手順により取得された前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合手順と、
    を含む情報処理方法。
  17. 第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法であって、
    前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、前記第一及び第二グループは、共通する複数の構成体を少なくとも部分的に含み、
    前記方法は、
    前記共通する複数の構成体を、複数のクラスタに分割して、前記共通する複数の構成体の夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、
    前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第一データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成するデバイス、から前記クラスタ毎の第一統合特徴データを取得する第一取得手順と、
    前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第二データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成するデバイス、から前記クラスタ毎の第二統合特徴データを取得する第二取得手順と、
    前記第一取得手順により取得された前記クラスタ毎の第一統合特徴データと、前記第二取得手順により取得された前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合手順と、
    を含む情報処理方法。
JP2017197105A 2017-10-10 2017-10-10 情報処理システム、情報処理方法、及びプログラム Active JP6302126B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017197105A JP6302126B1 (ja) 2017-10-10 2017-10-10 情報処理システム、情報処理方法、及びプログラム
PCT/JP2018/037559 WO2019073959A1 (ja) 2017-10-10 2018-10-09 情報処理システム、データ提供システム、及び関連する方法
US16/754,517 US11593513B2 (en) 2017-10-10 2018-10-09 Information processing system, data provision system, and related method
EP18865414.9A EP3671481A4 (en) 2017-10-10 2018-10-09 INFORMATION PROCESSING SYSTEM, DATA PROVIDING SYSTEM AND RELEVANT PROCEDURE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017197105A JP6302126B1 (ja) 2017-10-10 2017-10-10 情報処理システム、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6302126B1 true JP6302126B1 (ja) 2018-03-28
JP2019070973A JP2019070973A (ja) 2019-05-09

Family

ID=61756645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017197105A Active JP6302126B1 (ja) 2017-10-10 2017-10-10 情報処理システム、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6302126B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6630462B1 (ja) * 2019-04-03 2020-01-15 株式会社ミラック光学 ガタツキ抑制機構付き手動ステージ
JP6803598B1 (ja) * 2020-08-04 2020-12-23 Eaglys株式会社 データ共有システム、データ共有方法、およびデータ共有プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175432A (ja) * 2000-12-06 2002-06-21 Gala Inc 配信仲介サービス装置の介在によりコンセプトメールを多数のターゲットに配信する方法およびその配信仲介サービス装置
JP2003288464A (ja) * 2002-03-28 2003-10-10 Toto Ltd マーケティングデータ提供システム
US7636696B1 (en) * 1999-11-19 2009-12-22 Megasoft Consultants, Inc. System, method, and computer program product for maintaining consumer privacy and security in electronic commerce transactions
JP2015230353A (ja) * 2014-06-04 2015-12-21 株式会社ロイヤリティマーケティング 情報システム、統合装置、第一装置、情報処理方法、およびプログラム
JP2016038780A (ja) * 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。
JP2016126609A (ja) * 2015-01-06 2016-07-11 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636696B1 (en) * 1999-11-19 2009-12-22 Megasoft Consultants, Inc. System, method, and computer program product for maintaining consumer privacy and security in electronic commerce transactions
JP2002175432A (ja) * 2000-12-06 2002-06-21 Gala Inc 配信仲介サービス装置の介在によりコンセプトメールを多数のターゲットに配信する方法およびその配信仲介サービス装置
JP2003288464A (ja) * 2002-03-28 2003-10-10 Toto Ltd マーケティングデータ提供システム
JP2015230353A (ja) * 2014-06-04 2015-12-21 株式会社ロイヤリティマーケティング 情報システム、統合装置、第一装置、情報処理方法、およびプログラム
JP2016038780A (ja) * 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。
JP2016126609A (ja) * 2015-01-06 2016-07-11 株式会社博報堂Dyホールディングス 情報処理システム、及び、プログラム。

Also Published As

Publication number Publication date
JP2019070973A (ja) 2019-05-09

Similar Documents

Publication Publication Date Title
US20210258236A1 (en) Systems and methods for social graph data analytics to determine connectivity within a community
JP6201077B1 (ja) 調査データ処理装置及び調査データ処理方法
US9348916B2 (en) Method and system for providing search services for a social media ecosystem
US8694495B2 (en) Information processing device, information processing terminal, information processing method, and program
CN105930540A (zh) 一种数据处理系统
CN102934113B (zh) 信息提供系统、信息提供方法、信息提供设备
JP5406981B2 (ja) 統計情報生成システム及び統計情報生成方法
JP6365915B2 (ja) 応対装置、応対システム、応対方法、及び記録媒体
JP6985518B2 (ja) パーソナライズされた推奨を生成するために適合されたクライアント、サーバ、およびクライアント−サーバシステム
CN110648195B (zh) 一种用户识别方法、装置、计算机设备
WO2019073959A1 (ja) 情報処理システム、データ提供システム、及び関連する方法
JP6302126B1 (ja) 情報処理システム、情報処理方法、及びプログラム
CN112307297B (zh) 一种基于优先级规则的用户标识统一方法及系统
CN111461827A (zh) 产品评价信息的推送方法和装置
CN107437182B (zh) 资料分发方法及装置
US20150019286A1 (en) Information displaying method, information displaying system, information displaying program, and method for providing information displaying program
KR20130026567A (ko) 사용자 단말의 행동패턴에 따른 추천 컨텐츠를 제공하는 컨텐츠 제공시스템
JP2014006742A (ja) 影響力推定方法、装置及びプログラム
JP6431229B1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
JP7227412B1 (ja) 情報処理システム、コンピュータプログラム、及び情報処理方法
CN108230042B (zh) 需求识别方法、装置、电子设备及计算机可读存储介质
JP5329633B2 (ja) 情報収集システム、情報収集方法、およびプログラム
JP2019175419A (ja) データ提供システム、データ提供方法、及びコンピュータプログラム
CN109474703B (zh) 个性化产品组合推送方法、装置及系统
JP7506214B1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171010

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171010

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180301

R150 Certificate of patent or registration of utility model

Ref document number: 6302126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250