JP2019070973A - Information processing system, information processing method, and program - Google Patents

Information processing system, information processing method, and program Download PDF

Info

Publication number
JP2019070973A
JP2019070973A JP2017197105A JP2017197105A JP2019070973A JP 2019070973 A JP2019070973 A JP 2019070973A JP 2017197105 A JP2017197105 A JP 2017197105A JP 2017197105 A JP2017197105 A JP 2017197105A JP 2019070973 A JP2019070973 A JP 2019070973A
Authority
JP
Japan
Prior art keywords
cluster
feature data
database
group
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017197105A
Other languages
Japanese (ja)
Other versions
JP6302126B1 (en
Inventor
龍 道本
Ryu Domoto
龍 道本
良治 見並
Ryoji Minami
良治 見並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hakuhodo DY Holdings Inc
Original Assignee
Hakuhodo DY Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hakuhodo DY Holdings Inc filed Critical Hakuhodo DY Holdings Inc
Priority to JP2017197105A priority Critical patent/JP6302126B1/en
Application granted granted Critical
Publication of JP6302126B1 publication Critical patent/JP6302126B1/en
Priority to EP18865414.9A priority patent/EP3671481A4/en
Priority to PCT/JP2018/037559 priority patent/WO2019073959A1/en
Priority to US16/754,517 priority patent/US11593513B2/en
Publication of JP2019070973A publication Critical patent/JP2019070973A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide new technologies related to databases.SOLUTION: A system (50) generates a database based on a first database and a second database. The first database (151) has feature data for each component in a first group, and the second database (351) has feature data for each component in a second group. The system divides a plurality of pairs of components between the first group and the second group into a plurality of clusters and provides cluster information; acquires first integrated feature data for each cluster from a first generation unit (10) that integrates the feature data of the first database for each cluster based on the cluster information; acquires second integrated feature data for each cluster from a second generation unit (30) that integrates the feature data of the second database for each cluster based on the cluster information; and generates a combined database (551) which has, for each cluster, data combining the first and second integrated feature data of the same cluster.SELECTED DRAWING: Figure 1

Description

本開示は、情報処理システム及び情報処理方法に関する。   The present disclosure relates to an information processing system and an information processing method.

従来、商品の販売データに基づき顧客の購買行動を解析することが行われている。商業活動に役立てるために、顧客によるマスメディアやネットワークコンテンツへの接触行動を解析することも行われている。   Heretofore, it has been practiced to analyze the purchase behavior of a customer based on sales data of a product. In order to use for commercial activities, analysis of contact behavior with mass media and network content by customers is also performed.

アンケート形式や対面での質問形式により、顧客の購買行動、マスメディア/ネットワークコンテンツへの接触行動、及び、ライフスタイル等の多様な情報を収集することも行われている。   It is also conducted to collect various information such as purchase behavior of customers, contact behavior to mass media / network contents, lifestyle, etc. by questionnaire format or face-to-face question format.

近年では、こうした顧客に関するデータを備える巨大なデータベースを、各企業が有している。しかしながら、各企業は、個人情報保護を主な理由として、これらの顧客に関するデータを外部に提供することに消極的である。これらのデータは、それを保有する企業から外部に提供される場合、暗号化されて提供されたり、顧客の特定に繋がる情報が大幅に削除されて提供されたり、意図的に誤り(ノイズ)を含むように変更された状態で提供されたりする(特許文献1参照)。   In recent years, each company has a huge database that includes data on such customers. However, each company is reluctant to provide data on these customers to the outside, mainly for the protection of personal information. These data, if provided externally by the company that owns it, is provided encrypted, provided that information leading to the identification of the customer has been largely deleted and provided, or intentionally (error) It is provided in the state changed so that it may contain (refer patent document 1).

特開2014−109647号公報JP, 2014-109647, A

上述したように、データ保有企業からの顧客に関するデータの提供は、個人情報保護の観点から限られている。このため、従来技術によれば、社会に存在する各種データを有効に活用することが難しい。   As described above, the provision of data on customers from data-holding companies is limited in terms of personal information protection. Therefore, according to the prior art, it is difficult to effectively utilize various data existing in society.

そこで、本開示の一側面では、社会に存在する各種データを有効活用可能なデータベースに関する新規技術を提供できることが望ましい。   Therefore, in one aspect of the present disclosure, it is desirable to be able to provide a new technology related to a database that can effectively utilize various data existing in society.

本開示の一側面に係る情報処理システムは、第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムである。第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する。第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する。   An information processing system according to an aspect of the present disclosure is an information processing system that generates a new database based on the first and second databases. The first database has, for each of the members of the first group, feature data representing the first feature of the members. The second database has, for each of the members of the second group, feature data representing a second feature of the members.

本開示の一側面によれば、情報処理システムは、クラスタリング部と、第一取得部と、第二取得部と、結合部と、を備える。クラスタリング部は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するように構成される。   According to one aspect of the present disclosure, an information processing system includes a clustering unit, a first acquisition unit, a second acquisition unit, and a coupling unit. The clustering unit divides a plurality of construct pairs, which are a pair of constructs between the first group and the second group and in which two constructs belonging to the pair at least correspond to each other, into a plurality of clusters; It is configured to provide cluster information representing the cluster to which each of the constituent pairs belong.

上述のように、一つの構成体ペアは、互いに少なくとも対応する第一グループの構成体と第二グループの構成体とのペアである。ここでの用語「少なくとも対応する」は、「一致する」を概念に含む。従って、一つの構成体ペアに属する第一グループの構成体及び第二グループの構成体の実体は、単一の実体であってもよい。例えば、複数の構成体ペアの夫々は、実体が同一であると推定される構成体のペアであり得る。構成体ペアが、実体が同一である構成体のペアである場合、「複数の構成体ペア」は、「第一グループと第二グループとの間で共通する複数の構成体」と読み替えられてもよい。   As mentioned above, one constituent pair is a pair of a first group of constituents and a second group of constituents at least corresponding to each other. The term "at least corresponding" as used herein includes "matching" in the concept. Thus, the entities of the first group of constituents and the second group of constituents belonging to one constituent pair may be a single entity. For example, each of a plurality of construct pairs may be a pair of constructs whose entities are assumed to be identical. When a construct pair is a pair of constructs having the same entity, "a plurality of construct pairs" is read as "a plurality of constructs common to the first group and the second group" It is also good.

第一取得部は、第一生成部からクラスタ毎の第一統合特徴データを取得するように構成される。第一生成部は、クラスタリング部から取得したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第一統合特徴データを生成するように構成される。   The first acquisition unit is configured to acquire first integrated feature data for each cluster from the first generation unit. The first generation unit integrates feature data corresponding to a plurality of constituent pairs possessed by the first database by statistical processing for each cluster based on cluster information acquired from the clustering unit, and thereby is integrated for each cluster It is configured to generate first integrated feature data as feature data.

第二取得部は、第二生成部からクラスタ毎の第二統合特徴データを取得するように構成される。第二生成部は、クラスタリング部から取得したクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第二統合特徴データを生成するように構成される。   The second acquisition unit is configured to acquire second integrated feature data for each cluster from the second generation unit. The second generation unit integrates feature data corresponding to a plurality of construction body pairs possessed by the second database by statistical processing for each cluster based on cluster information acquired from the clustering unit, and thereby is integrated for each cluster It is configured to generate second integrated feature data as feature data.

結合部は、第一取得部が取得したクラスタ毎の第一統合特徴データと、第二取得部が取得したクラスタ毎の第二統合特徴データと、に基づき、新たなデータベースとして、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成するように構成される。   The combining unit is configured as a new database based on the first integrated feature data for each cluster acquired by the first acquisition unit and the second integrated feature data for each cluster acquired by the second acquisition unit. It is configured to generate a combined database having combined data for each cluster combining one integrated feature data and a second integrated feature data.

この情報処理システムによれば、第一データベース及び第二データベースが有する加工なしの特徴データを入手することができなくても、第一統合特徴データ及び第二統合特徴データを有意義に結合して、第一データベースと第二データベースとの結合データベースに対応した、有意義な結合データベースを生成することができる。   According to this information processing system, the first integrated feature data and the second integrated feature data are meaningfully combined even if it is not possible to obtain the feature data without processing that the first database and the second database have. A meaningful combined database can be generated that corresponds to the combined database of the first and second databases.

この情報処理システムによって生成される結合データベースの特徴データは、第一及び第二データベースにおける特徴データをクラスタ毎に統計処理により統合した第一及び第二統合特徴データである。このため、本開示の情報処理システムによれば、個人情報を保護できる。従って、本開示の一側面によれば、社会に存在する各種データを有効活用可能なデータベースに関する新規技術を提供可能である。   The feature data of the combined database generated by the information processing system is first and second combined feature data in which feature data in the first and second databases are integrated by statistical processing for each cluster. Therefore, according to the information processing system of the present disclosure, personal information can be protected. Therefore, according to one aspect of the present disclosure, it is possible to provide a new technology related to a database that can effectively utilize various data existing in society.

本開示の一側面によれば、第一及び第二グループの構成体は、消費者であってもよい。この場合、第一データベースは、第一グループの消費者毎に、当該消費者の第一の特徴を表す特徴データを有し、第二データベースは、第二グループの消費者毎に、当該消費者の第二の特徴を表す特徴データを有し得る。   According to one aspect of the present disclosure, the first and second groups of components may be consumers. In this case, the first database has, for each consumer of the first group, the feature data representing the first feature of the consumer, and the second database, for each consumer of the second group, the consumer May have feature data representing a second feature of

本開示の一側面によれば、第一グループの構成体の夫々には、個別の第一の識別コードが割り当てられてもよい。第一データベースは、第一グループの構成体毎の特徴データを、構成体の第一の識別コードと関連付けて記憶してもよい。第二グループの構成体の夫々には、個別の第二の識別コードが割り当てられてもよい。第二データベースは、第二グループの構成体毎の特徴データを、当該構成体の第二の識別コードと関連付けて記憶してもよい。   According to one aspect of the present disclosure, each of the first group of constructs may be assigned a respective first identification code. The first database may store feature data of each of the first group of constituents in association with the first identification code of the constituents. A separate second identification code may be assigned to each of the second group of constructs. The second database may store the feature data of the second group of constituents in association with the second identification code of the constituents.

本開示の一側面によれば、クラスタリング部は、第一の識別コードと第二の識別コードとの対応関係を表す情報に基づき、上記複数の構成体ペアを特定して、複数の構成体ペアを、複数のクラスタに分割してもよい。クラスタリング部は、第一生成部に、複数の構成体ペアの夫々が属するクラスタを第一の識別コードと関連付けて表すクラスタ情報を提供してもよい。クラスタリング部は、第二生成部に、複数の構成体ペアの夫々が属するクラスタを第二の識別コードと関連付けて表すクラスタ情報を提供してもよい。   According to one aspect of the present disclosure, the clustering unit identifies the plurality of constituent pairs based on the information indicating the correspondence between the first identification code and the second identification code, and determines the plurality of constituent pairs. May be divided into a plurality of clusters. The clustering unit may provide the first generation unit with cluster information representing a cluster to which each of the plurality of construction body pairs belongs in association with the first identification code. The clustering unit may provide, to the second generation unit, cluster information representing a cluster to which each of the plurality of construction body pairs belongs in association with the second identification code.

本開示の一側面によれば、第一及び第二データベースは、第一データベースと第二データベースとの間で共通する識別コードを用いて、各構成体の特徴データを、対応する構成体の識別コードと関連付けて記憶してもよい。クラスタリング部は、複数の構成体ペアとして、第一データベースと第二データベースとの間で同一の識別コードが関連付けられた特徴データのペアに対応する構成体ペアの複数を、複数のクラスタに分割し、クラスタ情報として、第一及び第二生成部に、複数の構成体ペアの夫々が属するクラスタを識別コードと関連付けて表すクラスタ情報を提供するように構成されてもよい。   According to one aspect of the present disclosure, the first and second databases use the identification code common to the first database and the second database to identify the feature data of each construct and the corresponding construct. It may be stored in association with the code. The clustering unit divides a plurality of constituent pairs corresponding to a pair of feature data associated with the same identification code between the first database and the second database as a plurality of constituent pairs into a plurality of clusters. The present invention may be configured to provide, as cluster information, cluster information representing a cluster to which each of a plurality of construction pairs belongs in association with an identification code as the first and second generation units.

本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体の夫々に関し、当該構成体の個人情報を特定関数で秘匿化/ハッシュ化し、第一グループに属する複数の構成体のリストであって、構成体毎の秘匿値/ハッシュ値を含むリストを、クラスタリング部に提供するように構成されてもよい。   According to one aspect of the present disclosure, the first generation unit conceals / hashes the personal information of the plurality of constituents belonging to the first group with a specific function, and a plurality of members belonging to the first group The configuration unit may be configured to provide the clustering unit with a list including a secrecy value / hash value for each configuration.

第二生成部は、第二グループに属する複数の構成体の夫々に関し、当該構成体の個人情報を上記特定関数で秘匿化/ハッシュ化し、第二グループに属する複数の構成体のリストであって、構成体毎の秘匿値/ハッシュ値を含むリストを、クラスタリング部に提供するように構成されてもよい。   The second generation unit is a list of a plurality of constituents belonging to the second group, regarding each of the plurality of constituents belonging to the second group, concealing / hashing the personal information of the constituents with the specific function, , And may be configured to provide the clustering unit with a list including the concealment value / hash value for each construct.

クラスタリング部は、第一生成部から取得したリストに含まれる秘匿値/ハッシュ値及び第二生成部から取得したリストに含まれる秘匿値/ハッシュ値に基づいて、複数の構成体ペアを特定し、第一及び第二生成部に、複数の構成体ペアの夫々が属するクラスタを秘匿値/ハッシュ値と関連付けて表すクラスタ情報を提供してもよい。   The clustering unit identifies a plurality of construct pairs based on the concealment value / hash value included in the list acquired from the first generation unit and the concealment value / hash value included in the list acquired from the second generation unit, The first and second generation units may be provided with cluster information representing a cluster to which each of the plurality of construct pair belongs, in association with the secret value / hash value.

本開示の一側面によれば、クラスタリング部は、複数の構成体ペアを、複数の構成体ペア間の類似度に基づき、複数のクラスタに分割するように構成されてもよい。このような類似度に基づくクラスタリングによれば、似た構成体の特徴データを統合することができるため、クラスタ毎の特徴データの統合によっても価値のある情報が失われるのを抑えることができ、より有意義な結合データベースを生成することができる。   According to an aspect of the present disclosure, the clustering unit may be configured to divide the plurality of construct pairs into a plurality of clusters based on the degree of similarity between the plurality of construct pairs. According to such clustering based on the degree of similarity, feature data of similar configurations can be integrated, so that loss of valuable information can be suppressed even by integration of feature data for each cluster. A more meaningful combined database can be generated.

本開示の一側面によれば、クラスタリング部は、複数の構成体ペア間の第一及び第二の特徴の少なくとも一方に関する類似度を特定可能な類似度情報を取得するように構成されてもよい。この場合、クラスタリング部は、取得した類似度情報に基づき、複数の構成体ペアを、第一及び第二の特徴の少なくとも一方が類似する構成体ペアをまとめるように、複数のクラスタに分割するように構成されてもよい。   According to an aspect of the present disclosure, the clustering unit may be configured to obtain similarity information that can specify the similarity of at least one of the first and second features between a plurality of constituent pairs. . In this case, the clustering unit divides the plurality of construct pairs into a plurality of clusters based on the acquired similarity information so that at least one of the first and second features is similar. May be configured.

本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体のリストであって、第一の特徴に関する複数の構成体間の類似度を表すリストを、クラスタリング部に提供するように構成されてもよい。第二生成部は、第二グループに属する複数の構成体のリストであって、第二の特徴に関する複数の構成体間の類似度を表すリストを、クラスタリング部に提供するように構成されてもよい。この場合、クラスタリング部は、第一生成部及び第二生成部から取得したリストに基づいて、複数の構成体ペアを、第一及び第二の特徴が類似する構成体をまとめるように、複数のクラスタに分割する構成にされてもよい。   According to one aspect of the present disclosure, the first generation unit is a list of a plurality of constructs belonging to the first group, the list representing the similarity between the plurality of constructs related to the first feature, the clustering unit May be configured to provide. The second generation unit may be configured to provide the clustering unit with a list representing a plurality of constructs belonging to the second group and representing the similarity between the plurality of constructs relating to the second feature. Good. In this case, based on the list acquired from the first generation unit and the second generation unit, the clustering unit combines the plurality of structure pairs into a plurality of structures in which the first and second features are similar. It may be configured to be divided into clusters.

本開示の一側面によれば、第一生成部は、第一グループに属する複数の構成体のリストであって、構成体毎の第一の属性値を含むリストを、クラスタリング部に提供するように構成されてもよい。第二生成部は、第二グループに属する複数の構成体のリストであって、構成体毎の第二の属性値を含むリストを、クラスタリング部に提供するように構成されてもよい。この場合、クラスタリング部は、第一及び第二の属性値の少なくとも一方に基づき、複数の構成体ペア間の類似度を判定し、判定した類似度に基づき、複数の構成体ペアを、複数のクラスタに分割するように構成され得る。   According to one aspect of the present disclosure, the first generation unit is configured to provide the clustering unit with a list including a plurality of constituents belonging to the first group and including the first attribute value of each constituent. May be configured. The second generation unit may be configured to provide the clustering unit with a list including a plurality of constituent bodies belonging to the second group and including a second attribute value for each construction body. In this case, the clustering unit determines the degree of similarity between the plurality of structure pairs based on at least one of the first and second attribute values, and based on the determined degree of similarity, the plurality of structure pairs It may be configured to split into clusters.

本開示の一側面によれば、上記情報処理システムが備えるクラスタリング部、第一取得部、第二取得部、及び結合部の少なくとも一つとしての機能をコンピュータに実現させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムは、コンピュータ読取可能な一時的でない記録媒体に格納され得る。   According to an aspect of the present disclosure, there is provided a computer program for causing a computer to implement at least one of a clustering unit, a first acquisition unit, a second acquisition unit, and a coupling unit included in the information processing system. May be The computer program may be stored in a computer readable non-transitory recording medium.

本開示の一側面によれば、第一データベースを備える第一の外部システム、及び、第二データベースを備える第二の外部システムと通信可能な情報処理システムが提供されてもよい。この情報処理システムは、第一の外部システムから第一グループに属する複数の構成体のリストを取得し、更には、第二の外部システムから第二グループに属する複数の構成体のリストを取得し、取得したリストに基づいて、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、第一及び第二の外部システムに提供するクラスタリング部を備えていてもよい。   According to an aspect of the present disclosure, an information processing system capable of communicating with a first external system including a first database and a second external system including a second database may be provided. The information processing system acquires a list of a plurality of constituents belonging to the first group from the first external system, and further acquires a list of a plurality of constituents belonging to the second group from the second external system. And a plurality of construction pairs each of which is a pair of constructions between the first group and the second group and at least two constructions corresponding to each other correspond to each other, based on the acquired list, into a plurality of clusters. And a clustering unit that provides cluster information representing a cluster to which each of a plurality of construct pairs belongs to the first and second external systems.

第一の外部システムは、クラスタリング部から取得したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第一統合特徴データを、情報処理システムに提供するように構成されてもよい。情報処理システムは、第一の外部システムからクラスタ毎の第一統合特徴データを取得する第一取得部を備えていてもよい。   The first external system integrates feature data corresponding to a plurality of constituent pairs possessed by the first database by statistical processing for each cluster based on the cluster information acquired from the clustering unit, and generates the second feature for each cluster generated thereby One integrated feature data may be configured to be provided to the information processing system. The information processing system may include a first acquisition unit that acquires first integrated feature data for each cluster from the first external system.

第二の外部システムは、クラスタリング部から取得したクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第二統合特徴データを、情報処理システムに提供するように構成されてもよい。情報処理システムは、第二の外部システムからクラスタ毎の第二統合特徴データを取得する第二取得部を備えていてもよい。   The second external system integrates feature data corresponding to a plurality of constituent pairs possessed by the second database by statistical processing for each cluster based on the cluster information acquired from the clustering unit, and generates the second feature for each cluster generated thereby The second integrated feature data may be configured to be provided to the information processing system. The information processing system may include a second acquisition unit that acquires second integrated feature data for each cluster from the second external system.

情報処理システムは、第一取得部が取得したクラスタ毎の第一統合特徴データと、第二取得部が取得したクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する結合部を備えていてもよい。   The information processing system performs first integrated feature data of the same cluster based on the first integrated feature data of each cluster acquired by the first acquisition unit and the second integrated characteristic data of each cluster acquired by the second acquisition unit. And the second integrated feature data may be provided with a combining unit that generates a combined database having combined data for each cluster.

本開示の一側面によれば、第一データベースを備える外部システムと通信可能に構成された、第二データベースを備える情報処理システムが提供されてもよい。この情報処理システムは、クラスタリング部と、取得部と、生成部と、結合部と、を備えることができる。クラスタリング部は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、外部システムに提供する。   According to one aspect of the present disclosure, an information processing system may be provided that includes a second database configured to be communicable with an external system that includes the first database. The information processing system can include a clustering unit, an acquisition unit, a generation unit, and a coupling unit. The clustering unit divides a plurality of construct pairs, which are a pair of constructs between the first group and the second group and in which two constructs belonging to the pair at least correspond to each other, into a plurality of clusters; Cluster information is provided to the external system that represents the cluster to which each of the constituent pairs belong.

外部システムは、クラスタリング部から受信したクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データをクラスタ毎に統計処理によって統合し、それにより生成したクラスタ毎の第一統合特徴データを、情報処理システムに提供する。取得部は、外部システムからクラスタ毎の第一統合特徴データを取得する。   The external system integrates feature data corresponding to a plurality of constituent pairs possessed by the first database by statistical processing on a cluster basis based on cluster information received from the clustering unit, thereby generating a first integrated feature for each cluster Provide data to the information processing system. The acquisition unit acquires first integrated feature data for each cluster from the external system.

生成部は、クラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合することにより、クラスタ毎の第二統合特徴データを生成する。結合部は、取得部が取得したクラスタ毎の第一統合特徴データと、生成部が生成したクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する。   The generation unit generates second integrated feature data for each cluster by integrating feature data corresponding to a plurality of component pairs of the second database based on cluster information by statistical processing for each cluster. The combining unit is based on the first integrated feature data for each cluster acquired by the acquiring unit and the second integrated feature data for each cluster generated by the generating unit, the first integrated feature data and the second integrated feature of the same cluster A combined database is generated which has combined data combining data with each cluster.

本開示の一側面によれば、第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法が提供されてもよい。この方法は、第一グループと第二グループとの間の構成体のペアであってペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割して、複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、クラスタリング手順により提供されるクラスタ情報に基づき、第一データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第一統合特徴データを生成するデバイス、からクラスタ毎の第一統合特徴データを取得する第一取得手順と、クラスタリング手順により提供されるクラスタ情報に基づき、第二データベースが有する複数の構成体ペアに対応する特徴データを、クラスタ毎に統計処理によって統合し、それによりクラスタ毎に統合された特徴データとしての第二統合特徴データを生成するデバイス、からクラスタ毎の第二統合特徴データを取得する第二取得手順と、第一取得手順により取得されたクラスタ毎の第一統合特徴データと、第二取得手順により取得されたクラスタ毎の第二統合特徴データと、に基づき、同一クラスタの第一統合特徴データと第二統合特徴データとを結合した結合データをクラスタ毎に有する結合データベースを生成する結合手順と、を含むことができる。   According to one aspect of the present disclosure, an information processing method may be provided for generating a new database based on the first and second databases. The method divides a plurality of pairs of members between the first group and the second group, in which two members belonging to the pair at least correspond to each other, into a plurality of clusters. Feature data corresponding to a plurality of construct pairs included in the first database, based on the clustering procedure providing cluster information representing the cluster to which each of the construct pairs belongs, and the cluster information provided by the clustering procedure, The first acquisition procedure for acquiring the first integrated feature data for each cluster from the device that generates the first integrated feature data as feature data integrated for each cluster by statistical processing, and the clustering procedure Based on the provided cluster information, feature data corresponding to a plurality of construction pairs possessed by the second database A second acquisition procedure for acquiring second integrated feature data for each cluster from the device for integrating the clusters by statistical processing for each cluster and thereby generating the second integrated feature data as feature data integrated for each cluster And first integrated feature data of the same cluster based on the first integrated feature data of each cluster acquired by the first acquisition procedure and the second integrated feature data of each cluster acquired by the second acquisition procedure And a combining procedure for creating a combined database having, per cluster, combined data combined with the second integrated feature data.

第一実施形態の情報処理システムの構成を表すブロック図である。It is a block diagram showing composition of an information processing system of a first embodiment. 第一データベース及びメンバリストの構成を表す図である。It is a figure showing the composition of the 1st database and member list. 第二データベース及びメンバリストの構成を表す図である。It is a figure showing composition of the 2nd database and member list. 結合デバイスが実行する結合関連処理を表すフローチャートである。It is a flowchart showing the coupling related process which a coupling device performs. 第一データ提供システムが実行する第一データ提供処理を表すフローチャートである。It is a flowchart showing the 1st data provision process which a 1st data provision system performs. 第二データ提供システムが実行する第二データ提供処理を表すフローチャートである。It is a flowchart showing the 2nd data provision process which a 2nd data provision system performs. 第一クラスタ情報及び第二クラスタ情報の構成を表す図である。It is a figure showing composition of the 1st cluster information and the 2nd cluster information. 第一及び第二データ提供システムが実行する加工処理を表すフローチャートである。It is a flowchart showing the processing which a 1st and 2nd data provision system performs. 図9Aは、第一データベースの加工に関する説明図であり、図9Bは、第二データベースの加工に関する説明図である。FIG. 9A is an explanatory diagram regarding processing of the first database, and FIG. 9B is an explanatory diagram regarding processing of the second database. 結合データベースの構成を表す図である。It is a figure showing composition of a binding database. 第二実施形態の第一データ提供システムが実行するメンバリスト生成処理を表すフローチャートである。It is a flowchart showing the member list production | generation process which the 1st data provision system of 2nd embodiment performs. 第二実施形態の第二データ提供システムが実行するメンバリスト生成処理を表すフローチャートである。It is a flowchart showing the member list production | generation process which the 2nd data provision system of 2nd embodiment performs. 第二実施形態の結合システムが実行する処理を表すフローチャートである。It is a flowchart showing the process which the coupling system of 2nd embodiment performs. 第三実施形態の第一データ提供システムが実行する第一データ提供処理を表すフローチャートである。It is a flowchart showing the 1st data provision process which the 1st data provision system of 3rd embodiment performs. 第三実施形態の第二データ提供システムが実行する第二データ提供処理を表すフローチャートである。It is a flowchart showing the 2nd data provision process which the 2nd data provision system of 3rd embodiment performs. 第三実施形態の結合システムが実行する処理を表すフローチャートである。It is a flowchart showing the process which the coupling system of 3rd embodiment performs. 第四実施形態の結合システムが有する関係表に関する説明図である。It is explanatory drawing regarding the related table which the coupling system of 4th embodiment has. 第四実施形態の結合システムが実行する結合関連処理を表すフローチャートである。It is a flowchart showing the coupling related processing which the coupling system of a 4th embodiment performs. 第五実施形態の情報処理システムの構成を表すブロック図である。It is a block diagram showing the composition of the information processing system of a fifth embodiment. 第五実施形態の結合システムが実行する結合関連処理を表すフローチャートである。It is a flowchart showing the coupling related process which the coupling system of 5th embodiment performs.

以下に本開示の例示的実施形態を、図面を参照しながら説明する。   Exemplary embodiments of the present disclosure are described below with reference to the drawings.

[第一実施形態]
本実施形態の情報処理システム1は、図1に示すように、第一データ提供システム10と、第二データ提供システム30と、結合システム50と、を備える。結合システム50は、第一データ提供システム10から提供される第一データベース151に関するデータと、第二データ提供システム30から提供される第二データベース351に関するデータと、に基づき、第一データベース151と第二データベース351とを結合した結合データベース551を生成するように構成される。
First Embodiment
As shown in FIG. 1, the information processing system 1 of the present embodiment includes a first data providing system 10, a second data providing system 30, and a coupling system 50. The coupling system 50 is configured to receive the first database 151 and the second database based on data on the first database 151 provided from the first data providing system 10 and data on the second database 351 provided from the second data providing system 30. It is comprised so that the joint database 551 which couple | bonded with the two database 351 may be produced | generated.

結合データベース551を生成する工程には、第一データ提供システム10が第一データベース151内のデータを加工する工程と、第二データ提供システム30が第二データベース351内のデータを加工する工程と、が含まれる。加工する工程には、第一データベース151及び第二データベース351が有する複数の個人に関するデータを統合して、集団に関するデータに変換する工程が含まれる。   The step of generating the combined database 551 includes the steps of processing the data in the first database 151 by the first data providing system 10 and the step of processing the data in the second database 351 by the second data providing system 30; Is included. The process of processing includes a process of integrating data on a plurality of individuals in the first database 151 and the second database 351 into data on a group.

結合システム50は、これらの加工を制御するための情報(後述する第一クラスタ情報155及び第二クラスタ情報355)を、第一データベース151及び第二データベース351に提供する。この提供は、結合システム50が、第一データ提供システム10及び第二データ提供システム30から個人に関するデータの提供を受けなくても、消費者に関する有意義な結合データベース551を生成することを可能にする。   The coupling system 50 provides the first database 151 and the second database 351 with information (first cluster information 155 and second cluster information 355 described later) for controlling the processing. This provision enables the combination system 50 to generate a meaningful combination database 551 for consumers without receiving provision of data on individuals from the first data provision system 10 and the second data provision system 30. .

第一データ提供システム10、第二データ提供システム30、及び、結合システム50のそれぞれは、説明を簡単にするため、図1において単一装置(マシン)として表現される。しかしながら、第一データ提供システム10、第二データ提供システム30、及び、結合システム50は、それぞれ、複数のマシンで構成されてもよい。   Each of the first data providing system 10, the second data providing system 30, and the coupling system 50 is represented as a single device (machine) in FIG. 1 to simplify the description. However, the first data providing system 10, the second data providing system 30, and the coupling system 50 may each be configured with a plurality of machines.

第一データ提供システム10は、プロセッサ11と、メモリ13と、ストレージ装置15と、を備える。第一データ提供システム10は、図示しない通信インタフェースを備え、ネットワークNTを通じて、結合システム50と通信可能に構成される。   The first data providing system 10 includes a processor 11, a memory 13, and a storage device 15. The first data providing system 10 includes a communication interface (not shown), and is configured to be communicable with the coupling system 50 through the network NT.

プロセッサ(CPU)11は、メモリ13又はストレージ装置15に記憶されたプログラムに従う処理を実行する。メモリ13は、ROM及びRAM等を含む。ストレージ装置15は、第一データベース151を格納する。   The processor (CPU) 11 executes processing in accordance with a program stored in the memory 13 or the storage device 15. The memory 13 includes a ROM, a RAM, and the like. The storage device 15 stores a first database 151.

第一データベース151は、第一グループに属する消費者毎に、消費者の特徴を表す特徴データを有する。第一グループに属する消費者は、第一グループの構成体に対応する。以下では、第一グループに属する消費者のことを、第一グループのメンバとも表現する。   The first database 151 has, for each consumer belonging to the first group, feature data representing a feature of the consumer. The consumers belonging to the first group correspond to the constituents of the first group. Hereinafter, the consumers belonging to the first group will also be expressed as members of the first group.

図2上段には、第一データベース151の構成が概念的に示される。図2上段から理解できるように、第一データベース151は、各メンバの特徴データ(x1,x2,…)を、メンバの顧客番号ID_A及び連結子ID_Cに関連付けて記憶する。   The configuration of the first database 151 is conceptually shown in the upper part of FIG. As can be understood from the upper part of FIG. 2, the first database 151 stores the feature data (x1, x2,...) Of each member in association with the member's customer number ID_A and connector ID_C.

顧客番号ID_A及び連結子ID_Cは、それぞれ、対応するメンバを識別するためのメンバ固有の識別コードである。但し、顧客番号ID_Aは、第二データベース351では用いられない第一グループ専用の識別コードである。この点で、顧客番号ID_Aは、第一データベース151及び第二データベース351において共通して用いられる連結子ID_Cとは異なる。   Each of the customer number ID_A and the connector ID_C is a member-specific identification code for identifying the corresponding member. However, the customer number ID_A is an identification code dedicated to the first group that is not used in the second database 351. At this point, the customer number ID_A is different from the connector ID_C commonly used in the first database 151 and the second database 351.

特徴データは、対応するメンバの特徴を複数の要素x1,x2,…で表す。要素x1,x2,…の例には、メンバの年齢、性別、居住地域、趣味、並びに、商品毎の購買経験及び購買数等が含まれる。第一データベース151が特定企業Aによって管理される場合、第一データベース151の特徴データに含まれる商品毎の購買経験及び購買数に関する情報は、特定企業Aから販売される商品に関する情報であり得る。   The feature data represents the feature of the corresponding member by a plurality of elements x1, x2,. Examples of the elements x1, x2, ... include the member's age, gender, residence area, hobbies, and purchase experience and number of purchases for each product. When the first database 151 is managed by the specific company A, the information on the purchase experience and the number of purchases for each product included in the feature data of the first database 151 may be information on goods sold from the specific company A.

第二データ提供システム30は、プロセッサ31と、メモリ33と、ストレージ装置35と、を備える。第二データ提供システム30は、図示しない通信インタフェースを備え、ネットワークNTを通じて、結合システム50と通信可能に構成される。   The second data providing system 30 includes a processor 31, a memory 33, and a storage device 35. The second data providing system 30 includes a communication interface (not shown) and is configured to be communicable with the coupling system 50 through the network NT.

プロセッサ(CPU)31は、メモリ33又はストレージ装置35に記憶されたプログラムに従う処理を実行する。メモリ33は、ROM及びRAM等を含む。ストレージ装置35は、第二データベース351を格納する。   The processor (CPU) 31 executes processing in accordance with a program stored in the memory 33 or the storage device 35. The memory 33 includes a ROM, a RAM, and the like. The storage device 35 stores a second database 351.

第二データベース351は、第二グループに属する消費者毎に、消費者の特徴を表す特徴データを有する。第二グループに属する消費者は、第二グループの構成体に対応する。以下では、第二グループに属する消費者のことを、第二グループのメンバとも表現する。   The second database 351 has feature data representing the features of the consumer for each consumer belonging to the second group. The consumers belonging to the second group correspond to the constituents of the second group. Hereinafter, consumers belonging to the second group are also expressed as members of the second group.

図3上段には、第二データベース351の構成が概念的に示される。図3上段から理解できるように、第二データベース351は、各メンバの特徴データ(y1,y2,…)を、メンバの顧客番号ID_B及び連結子ID_Cに関連付けて記憶する。   The configuration of the second database 351 is conceptually shown in the upper part of FIG. As can be understood from the upper part of FIG. 3, the second database 351 stores the feature data (y1, y2,...) Of each member in association with the member's customer number ID_B and connector ID_C.

顧客番号ID_B及び連結子ID_Cは、それぞれ、対応するメンバを識別するためのメンバ固有の識別コードである。但し、顧客番号ID_Bは、第一データベース151では用いられない第二グループ専用の識別コードである。連結子ID_Cは、上述した通り、第一データベース151と共通して用いられる識別コードである。第二データベース351において、第一データベース151と同一の消費者についての特徴データには、第一データベース151と同一の値を示す連結子ID_Cが関連付けられる。   Each of the customer number ID_B and the connector ID_C is a member-specific identification code for identifying the corresponding member. However, the customer number ID_B is a second group dedicated identification code not used in the first database 151. The connector ID_C is an identification code commonly used with the first database 151 as described above. In the second database 351, a connector ID_C indicating the same value as that of the first database 151 is associated with the feature data of the same consumer as the first database 151.

第二データベース351内の特徴データは、メンバの特徴を複数の要素y1,y2,…で表す。要素y1,y2,…の例には、メンバの年齢、性別、居住地域、趣味、並びに、商品毎の購買経験及び購買数等が含まれる。但し、要素y1,y2,…の少なくとも一部は、第一データベース151の特徴データが有する要素x1,x2,…とは異なる。その意味で、同一消費者についての第二データベース351における特徴データと第一データベース151における特徴データとは、互いに同一消費者の異なる種類の特徴を表す。要素y1,y2,…の例として説明した商品毎の購買経験及び購買数に関する情報は、例えば、特定企業Aとは別の特定企業Bから販売される商品に関する情報であり得る。   The feature data in the second database 351 represents the feature of the member by a plurality of elements y1, y2,. Examples of the elements y1, y2, ... include the member's age, gender, residence area, hobbies, and purchase experience and number of purchases for each product. However, at least a part of the elements y1, y2,... Is different from the elements x1, x2,. In that sense, the feature data in the second database 351 for the same consumer and the feature data in the first database 151 represent different types of features of the same consumer. The information on the purchase experience and the number of purchases for each product described as an example of the elements y1, y2, ... may be, for example, information on a product sold from a specific company B different from the specific company A.

連結子ID_Cは、複数のデータベースに共通する消費者を識別するために用いられる。具体的には、同一消費者についての、第一データベース151の特徴データと、第二データベース351の特徴データとを関連付けるために用いられる。   The connector ID_C is used to identify a consumer common to multiple databases. Specifically, it is used to associate feature data of the first database 151 and feature data of the second database 351 for the same consumer.

図2上段及び図3上段に示される例によれば、第一データベース151において顧客番号ID_AとしてのA0003,A0004、A0005,A0006,A0007に関連付けられた特徴データの消費者が、第二データベース351において顧客番号ID_BとしてのB0001,B0002,B0003,B0004,B0005に関連付けられた特徴データの消費者と同じである。   According to the example shown in the upper part of FIG. 2 and the upper part of FIG. 3, the consumer of the feature data associated with A0003, A0004, A0005, A0006, A0007 as the customer number ID_A in the first database 151 is in the second database 351. It is the same as the consumer of the feature data associated with B0001, B0002, B0003, B0004, B0005 as customer number ID_B.

連結子ID_Cは、例えば、第一及び第二グループよりも、メンバ数の多い第三グループの顧客番号であり得る。第三グループは、消費者の多くがメンバとして所属するグループであり得る。連結子ID_Cは、消費者が所有するスマートフォン等の通信機器の識別コードであってもよいし、ネットワーク上の消費者追跡に利用される消費者の識別コード(例えばCookie等)であってもよい。   The connector ID_C may be, for example, a customer number of a third group having more members than the first and second groups. The third group may be a group to which many consumers are members. The connector ID_C may be an identification code of a communication device such as a smartphone owned by a consumer, or may be an identification code of a consumer (for example, Cookie etc.) used for consumer tracking on the network. .

連結子ID_Cは、第一データベース151の管理者と、第二データベース351の管理者とが協力せずとも共通して入手可能な消費者の識別コードであると都合が良い。連結子ID_Cは、これらの識別コードを秘匿化、具体的にはハッシュ化した値であってもよい。ハッシュ化は、同一消費者の連結子ID_Cの値が同じとなるように、第一データ提供システム10及び第二データ提供システム30で、同じハッシュ関数を用いて行うことができる。付言すると、第一グループのメンバ及び第二グループのメンバの一部は、連結子ID_Cを有していなくてもよい。この場合、第一データベース151及び第二データベース351における該当メンバの特徴データには、連結子が不明であることを示す情報が関連付けられる。   The connector ID_C is advantageously a consumer identification code that can be commonly obtained without the cooperation of the administrator of the first database 151 and the administrator of the second database 351. The connector ID_C may be a value obtained by concealing these identification codes, specifically by hashing. Hashing can be performed using the same hash function in the first data providing system 10 and the second data providing system 30 so that the value of the connector ID_C of the same consumer is the same. In addition, the members of the first group and some of the members of the second group may not have the connector ID_C. In this case, information indicating that the connector is unknown is associated with the feature data of the corresponding member in the first database 151 and the second database 351.

結合システム50は、プロセッサ51と、メモリ53と、ストレージ装置55と、を備える。結合システム50は、図示しない通信インタフェースを備え、ネットワークNTを通じて、第一データ提供システム10及び第二データ提供システム30と通信可能に構成される。   The coupling system 50 includes a processor 51, a memory 53, and a storage device 55. The coupling system 50 includes a communication interface (not shown), and is configured to be communicable with the first data providing system 10 and the second data providing system 30 through the network NT.

プロセッサ(CPU)51は、メモリ53又はストレージ装置55に記憶されたプログラムに従う処理を実行する。メモリ53は、ROM及びRAM等を含む。ストレージ装置55には、プロセッサ51が実行する処理により生成される結合データベース551が格納される。   The processor (CPU) 51 executes processing in accordance with a program stored in the memory 53 or the storage device 55. The memory 53 includes a ROM, a RAM, and the like. The storage device 55 stores a combined database 551 generated by the process executed by the processor 51.

結合システム50のプロセッサ51は、図示しないユーザインタフェースを通じて、結合システム50のユーザから、第一データベース151及び第二データベース351に基づく結合データベース551の生成指示が入力されると、図4に示す結合関連処理を開始する。   The processor 51 of the coupling system 50 receives the instruction to generate the coupling database 551 based on the first database 151 and the second database 351 from the user of the coupling system 50 through a user interface (not shown), as shown in FIG. Start processing

結合関連処理を開始すると、プロセッサ51は、ネットワークNTを通じて、第一データ提供システム10及び第二データ提供システム30にメンバリストを要求する要求信号を送信する(S110)。   When the connection related process is started, the processor 51 transmits a request signal for requesting a member list to the first data providing system 10 and the second data providing system 30 through the network NT (S110).

この要求信号を受信すると、第一データ提供システム10のプロセッサ11は、図5に示す第一データ提供処理を開始し、第一データベース151に特徴データを有する第一グループのメンバを列挙したメンバリスト153を生成し(S310)、生成したメンバリスト153を結合システム50にネットワークNTを通じて送信する(S320)。   When this request signal is received, the processor 11 of the first data providing system 10 starts the first data providing process shown in FIG. 5 and a member list listing members of the first group having feature data in the first database 151. 153 is generated (S310), and the generated member list 153 is transmitted to the coupling system 50 through the network NT (S320).

具体的に、プロセッサ11は、図2下段に示すように、第一グループのメンバを、連結子ID_Cで表現してメンバリスト153を生成する。メンバリスト153を生成する際、連結子ID_Cはハッシュ化されてもよい。ここで、連結子ID_Cが不明の第一グループのメンバは、メンバリスト153に列挙されない。本実施形態において、連結子ID_Cが不明のメンバの特徴データは、結合データベース551の生成に用いられない。換言すれば、結合データベース551の生成過程において、連結子ID_Cが不明のメンバの特徴データは、存在しないものとみなされる。   Specifically, as illustrated in the lower part of FIG. 2, the processor 11 generates a member list 153 by representing the members of the first group by the connector ID_C. When generating the member list 153, the connector ID_C may be hashed. Here, the members of the first group whose connector ID_C is unknown are not listed in the member list 153. In the present embodiment, the feature data of the member whose connector ID_C is unknown is not used to generate the combined database 551. In other words, in the generation process of the combined database 551, the feature data of the member whose connector ID_C is unknown is regarded as nonexistent.

同様に、第二データ提供システム30のプロセッサ31は、上記要求信号を受信すると、図6に示す第二データ提供処理を開始し、第二データベース351に特徴データを有する第二グループのメンバを列挙したメンバリスト353を生成し(S410)、生成したメンバリスト353を、結合システム50にネットワークNTを通じて送信する(S420)。具体的に、プロセッサ31は、図3下段に示すように、第二グループのメンバを、連結子ID_Cで表して、メンバリスト353を生成する。メンバリスト353を生成する際、連結子ID_Cは、第一データ提供システム10と同じハッシュ関数を用いてハッシュ化されてもよい。   Similarly, when the processor 31 of the second data providing system 30 receives the request signal, it starts the second data providing process shown in FIG. 6 and enumerates members of the second group having feature data in the second database 351. The generated member list 353 is generated (S410), and the generated member list 353 is transmitted to the coupling system 50 through the network NT (S420). Specifically, the processor 31 generates a member list 353 by representing the members of the second group with a connector ID_C as shown in the lower part of FIG. When generating the member list 353, the connector ID_C may be hashed using the same hash function as the first data providing system 10.

結合システム50のプロセッサ51は、このように第一データ提供システム10及び第二データ提供システム30から送信されてくる第一グループのメンバリスト153及び第二グループのメンバリスト353を受信し(S120)、受信したメンバリスト153,353に基づいて、クラスタリング処理(S130)を実行する。   The processor 51 of the coupling system 50 receives the member list 153 of the first group and the member list 353 of the second group thus transmitted from the first data providing system 10 and the second data providing system 30 (S120). The clustering process (S130) is executed based on the received member list 153, 353.

クラスタリング処理(S130)において、プロセッサ51は、第一グループ及び第二グループのメンバリスト153,353から、第一グループ及び第二グループに共通するメンバ(以下、「共通メンバ」と称する)を特定する(S131)。特定は、メンバリスト153,353間の連結子ID_Cの照合により実現可能である。   In the clustering process (S130), the processor 51 specifies a member common to the first group and the second group (hereinafter, referred to as "common member") from the member list 153, 353 of the first group and the second group. (S131). The identification can be realized by collating the connector ID_C between the member lists 153 and 353.

その後、プロセッサ51は、共通メンバを複数のクラスタに分割する(S133)。例えば、プロセッサ51は、共通メンバを、ランダムに又は所定規則で、予め定められたメンバ数のクラスタに分割することができる。例えば、共通メンバの数がMで、予め定められたクラスタ当たりのメンバ数がKである場合、値Mを値Kで除算したときの商αに対応する個数だけクラスタを生成することができる。値Kは、個人情報保護の観点で1より大きい値に定められる。1以上の剰余βがある場合、剰余βに対応するメンバは、上記商αに対応する個数のクラスタのいずれかにランダム又は所定規則で配分され得る。   Thereafter, the processor 51 divides the common member into a plurality of clusters (S133). For example, the processor 51 can divide the common members into clusters of a predetermined number of members randomly or with a predetermined rule. For example, when the number of common members is M and the predetermined number of members per cluster is K, clusters can be generated by the number corresponding to the quotient α when dividing the value M by the value K. The value K is set to a value larger than 1 in terms of personal information protection. When there is one or more remainders β, members corresponding to the remainders β may be allocated randomly or according to a predetermined rule to any number of clusters corresponding to the quotient α.

更に、プロセッサ51は、第一グループのメンバリスト153から特定される共通メンバではない第一グループのメンバ、即ち、第一グループの非共通メンバを、複数のクラスタに分割する(S135)。S135におけるクラスタリングは、S133におけるクラスタリングと同様の手法で行うことができる。   Furthermore, the processor 51 divides the members of the first group that are not common members specified from the member list 153 of the first group, that is, the non-common members of the first group into a plurality of clusters (S135). The clustering in S135 can be performed by the same method as the clustering in S133.

更に、プロセッサ51は、第二グループのメンバリスト353から特定される共通メンバではない第二グループのメンバ、即ち、第二グループの非共通メンバを、複数のクラスタに分割する(S137)。S137におけるクラスタリングは、S135におけるクラスタリングと同様の手法で行うことができる。   Further, the processor 51 divides the members of the second group which are not common members specified from the member list 353 of the second group, that is, the non-common members of the second group into a plurality of clusters (S137). The clustering in S137 can be performed by the same method as the clustering in S135.

プロセッサ51は、このようにして共通メンバ、第一グループの非共通メンバ、及び第二グループの非共通メンバをそれぞれ、複数のクラスタに分割した後、第一クラスタ情報155及び第二クラスタ情報355を生成し(S140)、第一データ提供システム10に、第一クラスタ情報155を送信し、第二データ提供システム30に、第二クラスタ情報355を送信する(S140)。   The processor 51 divides the common member, the non-common member of the first group, and the non-common member of the second group into a plurality of clusters in this manner, and then the first cluster information 155 and the second cluster information 355. It generates (S140), transmits the first cluster information 155 to the first data providing system 10, and transmits the second cluster information 355 to the second data providing system 30 (S140).

第一クラスタ情報155は、図7に示すように、第一データ提供システム10から受信したメンバリスト153に、各メンバが属するクラスタの識別コードであるクラスタ番号を付して生成される。第二クラスタ情報355は、第二データ提供システム30から受信したメンバリスト353に、各メンバが属するクラスタのクラスタ番号を付して生成される。   As shown in FIG. 7, the first cluster information 155 is generated by adding a cluster number, which is an identification code of a cluster to which each member belongs, to the member list 153 received from the first data providing system 10. The second cluster information 355 is generated by adding the cluster number of the cluster to which each member belongs to the member list 353 received from the second data providing system 30.

第一データ提供システム10のプロセッサ11は、第一クラスタ情報155を受信すると(S330)、第一データベース151に対する加工処理を実行する(S340)。具体的に、プロセッサ11は、図8に示す加工処理を実行する。   The processor 11 of the first data providing system 10, upon receiving the first cluster information 155 (S330), executes processing on the first database 151 (S340). Specifically, the processor 11 executes the processing shown in FIG.

即ち、プロセッサ11は、受信した第一クラスタ情報155に基づき、クラスタの一つを選択し(S510)、選択したクラスタに属するメンバの第一データベース151内の複数の特徴データを統計処理により統合して、選択したクラスタに対応する一つの特徴データ(以下、「統合特徴データ」と称する)を生成する(S520)。   That is, the processor 11 selects one of the clusters based on the received first cluster information 155 (S510), and integrates, by statistical processing, a plurality of feature data in the first database 151 of the members belonging to the selected cluster. Then, one feature data (hereinafter referred to as "integrated feature data") corresponding to the selected cluster is generated (S520).

プロセッサ11は、全てのクラスタに関して統合特徴データを生成したと判断するまで、S510及びS520の処理を繰返し実行することにより、クラスタ毎に統合特徴データを生成する。そして、全てのクラスタの統合特徴データを生成すると(S530でYes)、加工処理(S340)を終了し、クラスタ毎の統合特徴データを備える加工後第一データベース157を結合システム50に送信する(S350)。   The processor 11 repeatedly generates the integrated feature data for each cluster by repeatedly executing the processes of S510 and S520 until determining that the integrated feature data is generated for all the clusters. Then, when integrated feature data of all clusters are generated (Yes in S530), the processing (S340) is ended, and the processed first database 157 including integrated feature data for each cluster is transmitted to the coupling system 50 (S350) ).

加工後第一データベース157は、第一データベース151が備えるメンバ毎の特徴データに代えて、この特徴データに対する統計処理後のデータであるクラスタ毎の統合特徴データを有するデータベースである。図9Aには、加工後第一データベース157の構成を部分的に表す。   The post-processing first database 157 is a database having integrated feature data for each cluster, which is data after statistical processing for the feature data, instead of the feature data for each member included in the first database 151. FIG. 9A partially shows the configuration of the first processed database 157.

S520において、プロセッサ11は、選択したクラスタに属する複数のメンバの特徴データが示す要素x1,x2,…の値を、要素毎に、一つの統計値に変換して、このクラスタに対応する一つの統合特徴データを生成する。   In S520, the processor 11 converts the values of the elements x1, x2, ... indicated by the feature data of the plurality of members belonging to the selected cluster into one statistical value for each element, and selects one corresponding to the cluster Generate integrated feature data.

図7に示す第一クラスタ情報155の例によれば、顧客番号A0003及びA0004の特徴データは、同一クラスタ(クラスタ番号002)に属する。そのため、このクラスタに関して、S520では、A0003の特徴データとA0004の特徴データとが、要素x1,x2,…毎に統計値に変換されて、要素x1,x2,…毎の統計値を含む統合特徴データが生成される。   According to the example of the first cluster information 155 shown in FIG. 7, the feature data of the customer numbers A0003 and A0004 belong to the same cluster (cluster number 002). Therefore, regarding this cluster, in S520, the feature data of A0003 and the feature data of A0004 are converted into statistical values for each element x1, x2, ..., and integrated features including statistical values for each element x1, x2, ... Data is generated.

図9Aに示されるように、要素x1に関しては、A0003の値x1[3]と、A0004の値x1[4]とが統計処理されて、その統計値ST{x1[3],x1[4]}が、クラスタ番号002の統合特徴データにおける要素x1の値として記述される。ここでST{}は、括弧{}内の値の統計値であることを示す。統計値は、平均値であってもよいし、中央値であってもよいし、最頻値であってもよいし、最大値及び/又は最小値であってもよいし、構成比であってもよい。統計値の種類は、要素x1,x2,…の種類毎に予め定められる。   As shown in FIG. 9A, with respect to the element x1, the value x1 [3] of A0003 and the value x1 [4] of A0004 are statistically processed, and the statistical value ST {x1 [3], x1 [4] is obtained. } Is described as the value of the element x1 in the integrated feature data of the cluster number 002. Here, ST {} indicates that it is a statistical value of values in parentheses {}. The statistical value may be an average value, a median value, a mode value, a maximum value and / or a minimum value, or a composition ratio. May be The type of statistical value is determined in advance for each type of elements x1, x2,.

例えば、要素x1が年齢を表すとき、統計値ST{x1[3],x1[4]}は、年齢x1[3]及び年齢x1[4]の平均値であり得る。要素x1が性別を表すとき、統計値ST{x1[3],x1[4]}は、男性及び/又は女性の比率であり得る。要素x1が商品の購入経験を表すとき、ST{x1[3],x1[4]}は、商品の購入経験を有するメンバの比率であり得る。要素x1が商品の購入数を表すとき、ST{x1[3],x1[4]}は、商品の購入数の平均値、中央値、及び、最大値の一つ又は組合せであり得る。   For example, when the element x1 represents an age, the statistical value ST {x1 [3], x1 [4]} may be an average value of the age x1 [3] and the age x1 [4]. When the element x1 represents a gender, the statistic ST {x1 [3], x1 [4]} may be a male and / or female ratio. When the element x1 represents the purchase experience of a product, ST {x1 [3], x1 [4]} may be a ratio of members who have the purchase experience of the product. When the element x1 represents the number of purchases of a product, ST {x1 [3], x1 [4]} may be one or a combination of an average, a median, and a maximum of the number of purchases of a product.

この他、図7に示す第一クラスタ情報155の例によれば、顧客番号A0005、A0006、及びA0007の特徴データは、同一クラスタ(クラスタ番号003)に属する。そのため、このクラスタに関して、加工処理のS520では、A0005の特徴データと、A0006の特徴データと、A0007の特徴データが、要素x1,x2,…毎に統計値に変換されて、統合特徴データが生成される。   Besides, according to the example of the first cluster information 155 shown in FIG. 7, the feature data of the customer numbers A0005, A0006 and A0007 belong to the same cluster (cluster number 003). Therefore, regarding this cluster, in S520 of processing, the feature data of A0005, the feature data of A0006, and the feature data of A0007 are converted into statistical values for each element x1, x2, ..., and integrated feature data is generated. Be done.

図9Aに示されるように、統合特徴データは、変数kの値を追加で有する。この変数kは、クラスタに属するメンバの数を表し、統合特徴データを生成する際に、統合特徴データ内に記述される。   As shown in FIG. 9A, the integrated feature data additionally has the value of the variable k. The variable k represents the number of members belonging to a cluster, and is described in integrated feature data when generating integrated feature data.

第二データ提供システム30も、結合システム50から第二クラスタ情報355を受信すると、第一データ提供システム10と同様の処理を実行する。即ち、第二データ提供システム30のプロセッサ31は、第二クラスタ情報355を受信すると(S430)、第二データベース351に対する加工処理を実行する(S440)。ここで、プロセッサ31が実行する加工処理は、図8に示す通りである。   The second data providing system 30 also executes the same process as the first data providing system 10 upon receiving the second cluster information 355 from the combined system 50. That is, when the processor 31 of the second data providing system 30 receives the second cluster information 355 (S430), the processor 31 executes processing on the second database 351 (S440). Here, the processing performed by the processor 31 is as shown in FIG.

即ち、プロセッサ31は、第二データベース351が有する特徴データを、第二クラスタ情報355に基づき、クラスタ毎に統合して、クラスタ毎の統合特徴データを生成する。具体的に、プロセッサ31は、クラスタ毎に、対応するクラスタに属する複数のメンバの特徴データが示す要素y1,y2,…の値を、要素毎に、一つの統計値に変換して、このクラスタに対応する一つの統合特徴データを生成する。これにより、プロセッサ31は、第二データベース351に基づくクラスタ毎の統合特徴データを備える加工後第二データベース357を生成する。その後、プロセッサ31は、加工後第二データベース357を、結合システム50に送信する(S450)。   That is, the processor 31 integrates feature data included in the second database 351 for each cluster based on the second cluster information 355, and generates integrated feature data for each cluster. Specifically, the processor 31 converts the values of the elements y1, y2,... Indicated by the feature data of a plurality of members belonging to the corresponding cluster into one statistical value for each element, and To generate one integrated feature data corresponding to. Thereby, the processor 31 generates a second processed database 357 including integrated feature data for each cluster based on the second database 351. Thereafter, the processor 31 transmits the processed second database 357 to the coupling system 50 (S450).

図7に示す第二クラスタ情報355の例によれば、顧客番号B0001及びB0002の特徴データは、同一クラスタ(クラスタ番号002)に属する。そのため、このクラスタに関して、加工処理のS520では、B0001の特徴データとB0002の特徴データとが、要素y1,y2,…毎に統計値に変換されて、要素y1,y2,…毎の統計値を含む統合特徴データが生成される。   According to the example of the second cluster information 355 shown in FIG. 7, the feature data of the customer numbers B0001 and B0002 belong to the same cluster (cluster number 002). Therefore, regarding this cluster, in S520 of processing, the feature data of B0001 and the feature data of B0002 are converted into statistical values for each element y1, y2, ..., and the statistical values for each element y1, y2, ... Integrated feature data to be included is generated.

加工後第二データベース357が備える統合特徴データの例は、図9Bに示される。図9Bに示されるように、要素y1に関しては、B0001の値y1[1]と、B0002の値y1[2]とが統計処理されて、その統計値ST{y1[1],y1[2]}が、クラスタ番号002の統合特徴データにおける要素y1の値として記述される。統計値の種類は、要素y1,y2,…の種類毎に予め定められる。   An example of integrated feature data included in the second processed database 357 is shown in FIG. 9B. As shown in FIG. 9B, with respect to the element y1, the value y1 [1] of B0001 and the value y1 [2] of B0002 are statistically processed, and the statistical value ST {y1 [1], y1 [2] is obtained. } Is described as the value of the element y1 in the integrated feature data of the cluster number 002. The type of statistical value is determined in advance for each type of elements y1, y2,.

結合システム50のプロセッサ51は、第一データ提供システム10から上記加工後第一データベース157を受信し(S150)、更に、第二データ提供システム30から加工後第二データベース357を受信すると(S160)、これら加工後第一データベース157及び加工後第二データベース357を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置55に格納する(S170)。その後、図4に示す処理を終了する。   The processor 51 of the coupling system 50 receives the processed first database 157 from the first data providing system 10 (S150), and further receives the processed second database 357 from the second data providing system 30 (S160). A combined database 551 is generated by combining the post-processing first database 157 and the post-processing second database 357, and the combined database 551 is stored in the storage device 55 (S170). Thereafter, the process shown in FIG. 4 is ended.

結合データベース551の構成は、図10において概念的に示される。S170において、結合システム50のプロセッサ51は、加工後第一データベース157と加工後第二データベース357との間で、同一クラスタの統合特徴データ同士を結合するように、加工後第一データベース157が備えるクラスタ毎の統合特徴データと、加工後第二データベース357が備えるクラスタ毎の統合特徴データと、を結合することによって、結合データベース551を生成する。   The configuration of the combined database 551 is conceptually shown in FIG. In S170, the processor 51 of the coupling system 50 includes the first processed database 157 so as to couple integrated feature data of the same cluster between the first processed database 157 and the second processed database 357. A combined database 551 is generated by combining the integrated feature data for each cluster and the integrated feature data for each cluster included in the second processed database 357.

結合データベース551は、クラスタ毎に、第一統合特徴データと第二統合特徴データとが結合された結合データを有する。ここで、一つのクラスタの第一統合特徴データは、加工後第一データベース157が有する対応クラスタの統合特徴データであり、第二統合特徴データは、加工後第二データベース357が有する対応クラスタの統合特徴データである。   The combined database 551 includes combined data in which the first integrated feature data and the second integrated feature data are combined for each cluster. Here, the first integrated feature data of one cluster is integrated feature data of the corresponding cluster of the processed first database 157, and the second integrated feature data is an integrated of the corresponding cluster of the second processed database 357. It is feature data.

以上に、本実施形態の情報処理システム1について説明したが、この情報処理システム1によれば、結合システム50は、第一データベース151及び第二データベース351が有する個人の特徴データを入手することなしに、第一データベース151に基づくクラスタ毎の統合特徴データ及び第二データベース351に基づくクラスタ毎の統合特徴データを有意義に結合して、第一データベース151と第二データベース351との結合データベースに対応した有意義な結合データベース551を生成することができる。   Although the information processing system 1 according to the present embodiment has been described above, according to the information processing system 1, the combination system 50 does not obtain individual feature data of the first database 151 and the second database 351. The integrated feature data for each cluster based on the first database 151 and the integrated feature data for each cluster based on the second database 351 are meaningfully combined to correspond to the combined database of the first database 151 and the second database 351. A meaningful combined database 551 can be generated.

個人の特徴データをクラスタの特徴データ(統合特徴データ)に変換することは、個人情報保護に役立つ。従って、本技術によれば、個人情報保護の観点からデータ提供に消極的なデータベースの管理者からも、比較的容易にデータ提供を受けることができる。よって、本実施形態によれば、個人情報を保護しつつ、社会に散在する消費者に関するデータを有意義に結合して、有意義な結合データベース551を生成することができる。結合データベース551は、例えば、ストレージ装置55から取り出して、消費者行動の分析等に利用することができる。   Converting individual feature data into cluster feature data (integrated feature data) helps protect personal information. Therefore, according to the present technology, it is possible to receive data provision relatively easily even from a database administrator who is reluctant to provide data from the viewpoint of personal information protection. Therefore, according to the present embodiment, it is possible to generate meaningful combined database 551 by meaningfully combining data on consumers scattered in society while protecting personal information. The combined database 551 can be retrieved from, for example, the storage device 55 and used for analysis of consumer behavior or the like.

この他、本実施形態では、結合システム50が、第一データ提供システム10における第一データベース151の加工、及び、第二データ提供システム30における第二データベース351の加工を、第一及び第二クラスタ情報155,355の提供により制御する。この制御により、第一データ提供システム10及び第二データ提供システム30からは、共通メンバに関し、共通するクラスタ毎の統合特徴データの提供を受けることができ、結合システム50は、同一クラスタ毎に、統合特徴データを有意義に結合することができる。   In addition, in the present embodiment, the coupling system 50 performs processing of the first database 151 in the first data providing system 10 and processing of the second database 351 in the second data providing system 30 as the first and second clusters. It controls by provision of the information 155 and 355. By this control, the first data provision system 10 and the second data provision system 30 can receive provision of integrated feature data for each common cluster with respect to the common members, and the combination system 50 can be provided for each same cluster. Integration feature data can be meaningfully combined.

比較例として、第一グループのメンバ及び第二グループのメンバが、第一データ提供システム及び第二データ提供システムにおいて個別にクラスタリングされる例を考える。この場合、共通メンバに対応するクラスタ群は、第一データ提供システムと第二データ提供システムとで異なる。従って、比較例の結合システムは、クラスタ内のメンバが異なる第一グループのクラスタ毎の統合特徴データと、第二グループのクラスタ毎の統合特徴データを結合して、結合データベースを生成することになる。   As a comparative example, consider an example in which the members of the first group and the members of the second group are separately clustered in the first data providing system and the second data providing system. In this case, the cluster group corresponding to the common member is different between the first data providing system and the second data providing system. Therefore, the combined system of the comparative example combines the combined feature data for each cluster of the first group with different members in the cluster and the combined feature data for each cluster of the second group to generate a combined database .

この比較例から理解できるように、本実施形態によれば、第一データベース151及び第二データベース351の加工を伴いながらも、比較例の結合データベースより有意義で価値のある結合データベース551を生成することができる。   As can be understood from this comparative example, according to the present embodiment, while processing the first database 151 and the second database 351, generating a more meaningful and valuable combined database 551 than the combined database of the comparative example. Can.

付言すると、比較例では、互いに結合される二つの統合特徴データに対応する二つのクラスタの両方に属するメンバが唯一である状態も発生し得る。このような状態が発生する可能性は、3個以上の多数のデータベースを連結する場合に高まる。これに対し、本実施形態は、多数のデータベースを連結しても、連結される複数の統合特徴データに対応するクラスタは同一メンバで構成されるため、上述のような状態が発生しない。従って、本実施形態によれば、個人情報保護の観点でも、より優れた結合データベース551を提供することができる。   In addition, in the comparative example, a state in which a member belonging to both of two clusters corresponding to two integrated feature data coupled to each other is unique may also occur. The possibility that such a situation occurs increases when connecting three or more databases. On the other hand, in the present embodiment, even if a large number of databases are connected, the above-mentioned state does not occur because clusters corresponding to a plurality of integrated feature data to be connected are configured by the same member. Therefore, according to the present embodiment, it is possible to provide a better combined database 551 also from the viewpoint of personal information protection.

[第二実施形態]
続いて、第二実施形態の情報処理システム1を説明する。第二実施形態の情報処理システム1は、結合システム50が、第一データ提供システム10及び第二データ提供システム30から提供される距離情報付のメンバリストを利用して、共通メンバ、第一グループの非共通メンバ、及び、第二グループの非共通メンバをクラスタリングする点で、第一実施形態の情報処理システム1とは異なる。一方、第二実施形態の情報処理システム1は、その他の多くの点で、第一実施形態の情報処理システム1と同様に構成される。
Second Embodiment
Subsequently, an information processing system 1 of the second embodiment will be described. In the information processing system 1 of the second embodiment, the coupling system 50 uses the member list with distance information provided from the first data providing system 10 and the second data providing system 30 to generate a common member, a first group The information processing system 1 is different from the information processing system 1 of the first embodiment in that the non-common members of the second group and the non-common members of the second group are clustered. On the other hand, the information processing system 1 according to the second embodiment is configured in the same manner as the information processing system 1 according to the first embodiment in many other respects.

従って、以下では、第二実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。   Therefore, in the following, regarding the configuration of the information processing system 1 of the second embodiment, a configuration different from the information processing system 1 of the first embodiment will be selectively described, and the same configuration as the information processing system 1 of the first embodiment Description of the part is omitted. The configuration given the same reference numerals as the information processing system 1 of the first embodiment may be understood to be the same configuration as the information processing system 1 of the first embodiment unless there is an additional description.

本実施形態において、第一データ提供システム10のプロセッサ11は、第一データ提供処理(図5)のS310において、図11に示すメンバリスト生成処理を実行する。   In the present embodiment, the processor 11 of the first data provision system 10 executes a member list generation process shown in FIG. 11 in S310 of the first data provision process (FIG. 5).

このメンバリスト生成処理において、プロセッサ11は、第一データベース151において連結子ID_Cの付された特徴データに対応する第一グループのメンバに関して、メンバ間の距離D1を算出する(S311)。   In this member list generation process, the processor 11 calculates the distance D1 between members with respect to the members of the first group corresponding to the feature data attached with the connector ID_C in the first database 151 (S311).

距離D1は、特徴データの要素x1,x2,…に対応する特徴空間上でのメンバ間の距離を意味する。距離D1は、要素x1,x2,…で定義される特徴についてのメンバ間の類似度に対応する。距離D1が小さいほど対応するメンバ間は類似していると理解できる。距離D1は、例えば、ユークリッド距離であり得る。例えばメンバiと、メンバjとの間の距離D1[i,j]は、次式に従って算出することができる。この式は、図11にも示される。   The distance D1 means the distance between members on the feature space corresponding to the elements x1, x2,. The distance D1 corresponds to the similarity between members for the features defined by the elements x1, x2,. It can be understood that the smaller the distance D1, the more similar the corresponding members are. The distance D1 may be, for example, a Euclidean distance. For example, the distance D1 [i, j] between the member i and the member j can be calculated according to the following equation. This equation is also shown in FIG.

D1[i,j]={Σ(xn[i]−xn[j])1/2
ここで、変数nは、値1から特徴データの要素数に対応する値Nまでの値を採る。n=1である場合のxnは、要素x1を意味し、n=2である場合のxnは、要素x2を意味する。xn[i]及びxn[j]は、それぞれ、メンバi及びメンバjの特徴データにおける要素xnの値であると理解してよい。ここで要素xnの値は、全て数値で表現されているものと理解されてよい。Σ(xn[i]−xn[j])は、n=1からn=Nまでの(xn[i]−xn[j])の和であると理解されてよい。S311では、全てのメンバi及びメンバjの組合せに関して、距離D1[i,j]を算出する。
D1 [i, j] = {Σ (xn [i] −xn [j]) 2 } 1/2
Here, the variable n takes a value from the value 1 to the value N corresponding to the number of elements of the feature data. xn in the case of n = 1 means the element x1, and xn in the case of n = 2 means the element x2. It may be understood that xn [i] and xn [j] are the values of element xn in the feature data of member i and member j, respectively. Here, the values of the element xn may be understood to be all expressed numerically. Σ (xn [i] −xn [j]) 2 may be understood as the sum of (xn [i] −xn [j]) 2 from n = 1 to n = N. In S311, the distance D1 [i, j] is calculated for all combinations of member i and member j.

その後、プロセッサ11は、第一実施形態と同様に、第一グループのメンバを連結子ID_Cで表現したメンバリスト1531であって、S311で算出した距離D1の情報を付した距離情報付のメンバリスト1531を生成する(S312)。図11に示す例によれば、メンバリスト1531には、メンバjの連結子に、任意のメンバiとの組合せ毎の距離D1[i,j]が関連付けられている。S320(図5)では、このように生成した距離情報付のメンバリスト1531を結合システム50に送信する。   Thereafter, as in the first embodiment, the processor 11 is a member list 1531 in which the members of the first group are expressed by the connector ID_C, and the member list with distance information to which the information of the distance D1 calculated in S311 is added. 1531 is generated (S312). According to the example shown in FIG. 11, in the member list 1531, the distance D 1 [i, j] for each combination with an arbitrary member i is associated with the connector of the member j. In S320 (FIG. 5), the member list 1531 with distance information generated as described above is transmitted to the coupling system 50.

同様に、第二データ提供システム30のプロセッサ31は、第二データ提供処理(図6)のS410において、図12に示すメンバリスト生成処理を実行する。   Similarly, the processor 31 of the second data provision system 30 executes a member list generation process shown in FIG. 12 in S410 of the second data provision process (FIG. 6).

このメンバリスト生成処理において、プロセッサ31は、第二データベース351において連結子ID_Cの付された特徴データに対応する第二グループのメンバに関して、メンバ間の距離D2を算出する(S411)。   In the member list generation process, the processor 31 calculates the distance D2 between members with respect to the members of the second group corresponding to the feature data attached with the connector ID_C in the second database 351 (S411).

距離D2は、特徴データの要素y1,y2,…に対応する特徴空間上でのメンバ間の距離を意味する。距離D2は、要素y1,y2,…で定義される特徴についてのメンバ間の類似度に対応する。距離D2が小さいほど対応するメンバ間は類似していると理解できる。距離D2は、例えば、ユークリッド距離であり得る。例えばメンバiとメンバjとの間の距離D2[i,j]は、次式に従って算出することができる。この式は、図12にも示される。   The distance D2 means the distance between members on the feature space corresponding to the elements y1, y2,. The distance D2 corresponds to the similarity between members for the features defined by the elements y1, y2,. It can be understood that the smaller the distance D2, the more similar the corresponding members are. The distance D2 may be, for example, a Euclidean distance. For example, the distance D2 [i, j] between member i and member j can be calculated according to the following equation. This equation is also shown in FIG.

D2[i,j]={Σ(yn[i]−yn[j])1/2
ここで、変数nは、値1から特徴データの要素数に対応する値Nまでの値を採る。yn[i]及びyn[j]は、それぞれ、メンバi及びメンバjの特徴データにおける要素ynの値であると理解してよい。ここで要素ynの値は、全て数値で表現されているものと理解されてよい。Σ(yn[i]−yn[j])は、n=1からn=Nまでの(yn[i]−yn[j])の和であると理解されてよい。S411では、全てのメンバi及びメンバjの組合せに関して、距離D2[i,j]を算出する。
D2 [i, j] = {Σ (yn [i] −yn [j]) 2 } 1/2
Here, the variable n takes a value from the value 1 to the value N corresponding to the number of elements of the feature data. yn [i] and yn [j] may be understood to be the value of element yn in the feature data of member i and member j, respectively. Here, the value of the element yn may be understood as being all expressed numerically. Σ (yn [i] −yn [j]) 2 may be understood to be the sum of (yn [i] −yn [j]) 2 from n = 1 to n = N. In S411, the distance D2 [i, j] is calculated for all combinations of member i and member j.

その後、プロセッサ31は、第一実施形態と同様に、第二グループのメンバを連結子ID_Cで表現したメンバリスト3531であって、S411で算出した距離D2の情報を付した距離情報付のメンバリスト3531を生成する。図12に示す例によれば、メンバリスト3531には、メンバjの連結子に、任意のメンバiとの組合せ毎の距離D2[i,j]が関連付けている。S420(図6)では、このように生成した距離情報付のメンバリスト3531を結合システム50に送信する。   Thereafter, as in the first embodiment, the processor 31 is a member list 3531 in which the members of the second group are expressed by the connector ID_C, and the member list with distance information to which the information of the distance D2 calculated in S411 is added. Generate 3531. According to the example shown in FIG. 12, in the member list 3531, the distance D2 [i, j] for each combination with an arbitrary member i is associated with the connector of the member j. In S420 (FIG. 6), the member list 3531 with distance information generated in this way is transmitted to the coupling system 50.

結合システム50のプロセッサ51は、第一データ提供システム10から受信したメンバリスト1531及び第二データ提供システム30から受信したメンバリスト3531に基づいて、S133,S135,S137(図4参照)のそれぞれにおいて、図13に示す処理を実行する。   The processor 51 of the coupling system 50 performs each of S133, S135, and S137 (see FIG. 4) based on the member list 1531 received from the first data providing system 10 and the member list 3531 received from the second data providing system 30. The process shown in FIG. 13 is performed.

即ち、S133において、プロセッサ51は、共通メンバに関してメンバ間の距離Dを、メンバリスト1531が示す距離D1及びメンバリスト3531が示す距離D2の合成距離D=(D1+D21/2として算出する(S610)。この距離Dは,要素x1,x2,…,y1,y2で定義される特徴についてのメンバ間の類似度に対応する。メンバiとメンバjとの間の距離D=D[i,j]は、式D[i,j]=(D1[i,j]+D2[i,j]1/2に従って算出することができる。 That is, in S133, the processor 51 calculates the distance D between members for the common member as the combined distance D = (D1 2 + D2 2 ) 1/2 of the distance D1 indicated by the member list 1531 and the distance D2 indicated by the member list 3531. (S610). This distance D corresponds to the similarity between members of the feature defined by the elements x1, x2, ..., y1, y2. The distance D = D [i, j] between member i and member j is calculated according to the equation D [i, j] = (D1 [i, j] 2 + D 2 [i, j] 2 ) 1/2 be able to.

この距離Dの算出により、要素x1,x2,…,y1,y2に対応する特徴空間上での各メンバの絶対位置を特定することはできないものの、メンバ間の相対位置、即ちメンバの分布については特定することができる。   Although the absolute position of each member on the feature space corresponding to the elements x1, x2,..., Y1, y2 can not be specified by the calculation of the distance D, the relative position between the members, ie, the distribution of the members It can be identified.

プロセッサ51は、この距離Dから特定される特徴空間上の共通メンバの分布に基づき、距離Dが近い、換言すれば特徴が類似するメンバを、予め定められた数ずつまとめるようにして、共通メンバを、複数のクラスタに分割する(S620)。各クラスタは、上記予め定められた数のメンバから構成される。このクラスタリングは、周知のk−means法(k平均法)を利用して行うことができる。クラスタリングは、他の公知の技法を用いて行われてもよい。   Based on the distribution of common members on the feature space specified from the distance D, the processor 51 combines the members having similar distances by a predetermined number, ie, members having similar distances. Are divided into a plurality of clusters (S620). Each cluster is composed of the predetermined number of members. This clustering can be performed using the known k-means method (k-means method). Clustering may be performed using other known techniques.

同様に、S135において、プロセッサ51は、第一グループの非共通メンバに関してメンバ間の距離D=(D1+D21/2を、メンバリスト1531が示す距離D1に基づいて算出する(S610)。ここで、第一グループの非共通メンバに関しては距離D2に対応する情報が存在しないので、D2=0と取り扱って距離Dを算出することができる。換言すれば、S610では、メンバiとメンバjとの間の距離D=D[i,j]を、D=D1[i,j]に設定することができる。 Similarly, in S135, the processor 51 calculates the distance D = (D1 2 + D2 2 ) 1/2 between the members with respect to the non-common member of the first group based on the distance D1 indicated by the member list 1531 (S610) . Here, since there is no information corresponding to the distance D2 regarding the non-common members of the first group, the distance D can be calculated by handling D2 = 0. In other words, in S610, the distance D = D [i, j] between the member i and the member j can be set to D = D1 [i, j].

プロセッサ51は、この距離Dから特定される特徴空間上の第一グループの非共通メンバの分布に基づき、距離Dが近いメンバを、予め定められた数ずつまとめるようにして、第一グループの非共通メンバを、複数のクラスタに分割する(S620)。   Based on the distribution of the non-common members of the first group on the feature space identified from the distance D, the processor 51 puts together the members having the similar distance D by a predetermined number, and the non-common members of the first group are separated. The common member is divided into a plurality of clusters (S620).

同様に、S137において、プロセッサ51は、第二グループの非共通メンバに関してメンバ間の距離D=(D1+D21/2を、メンバリスト3531が示す距離D2に基づいて算出する(S610)。ここでは、D1=0と取り扱って距離Dを算出することができる。換言すれば、S610では、メンバiとメンバjとの間の距離D=D[i,j]を、D=D2[i,j]に設定することができる。 Similarly, in S137, the processor 51 calculates the distance D = (D1 2 + D2 2 ) 1/2 between the members with respect to the non-common member of the second group based on the distance D2 indicated by the member list 3531 (S610) . Here, the distance D can be calculated by handling D1 = 0. In other words, in S610, the distance D = D [i, j] between the member i and the member j can be set to D = D2 [i, j].

プロセッサ51は、この距離Dから特定される特徴空間上の第二グループの非共通メンバの分布に基づき、距離Dが近いメンバを、予め定められた数ずつまとめるようにして、第二グループの非共通メンバを、複数のクラスタに分割する(S620)。   Based on the distribution of the non-common members of the second group on the feature space specified from the distance D, the processor 51 puts together the members having the similar distance D by a predetermined number, and The common member is divided into a plurality of clusters (S620).

プロセッサ51は、クラスタリング処理(S130)において上述の処理を実行すると、その処理結果に基づく第一クラスタ情報155及び第二クラスタ情報355をそれぞれ第一データ提供システム10及び第二データ提供システム30に送信する(S140)。その後、第一実施形態と同様の処理を実行する。   When the processor 51 executes the above processing in the clustering processing (S130), it transmits the first cluster information 155 and the second cluster information 355 based on the processing result to the first data providing system 10 and the second data providing system 30, respectively. (S140). Thereafter, processing similar to that of the first embodiment is performed.

本実施形態によれば、距離Dの情報に基づき、結合システム50が、共通メンバ、第一グループの非共通メンバ、及び、第二の非共通メンバを、距離Dが近い(即ち特徴が類似する)メンバでまとめるように、クラスタリングする。従って、距離Dを考慮せずにクラスタリングを行う第一実施形態と比較して、より有意義な結合データベース551を生成することができる。即ち、有意義な消費者の情報が統計処理によって失われないように複数の特徴データを統合し、その統合特徴データに基づいて結合データベース551を生成することができる。   According to the present embodiment, based on the information of the distance D, the combination system 50 has the common member, the non-common member of the first group, and the second non-common member, the distance D is close (ie, the features are similar) ) Cluster as you group members. Therefore, compared with the first embodiment in which clustering is performed without considering the distance D, a more meaningful combined database 551 can be generated. That is, a plurality of feature data can be integrated so that meaningful consumer information is not lost by statistical processing, and the combined database 551 can be generated based on the integrated feature data.

以上、第二実施形態の情報処理システム1について説明したが、距離D1は、第一データベース151が備える特徴データの要素x1,x2,…の全てを用いて算出されなくてもよく、距離D1は、一部の要素を用いて算出されてもよい。同様に、距離D2は、特徴データが有する要素y1,y2,…の内、一部の要素を用いて算出されてもよい。一部の要素のみを用いた距離D1,D2の算出は、個人情報保護を強固にする目的で有意義である。   The information processing system 1 according to the second embodiment has been described above, but the distance D1 may not be calculated using all of the elements x1, x2,... Of the feature data included in the first database 151. , And may be calculated using some elements. Similarly, the distance D2 may be calculated using some of the elements y1, y2,... Of the feature data. Calculation of the distances D1 and D2 using only some elements is significant for the purpose of strengthening personal information protection.

[第三実施形態]
続いて、第三実施形態の情報処理システム1を説明する。第三実施形態の情報処理システム1は、第二実施形態と同じく、距離情報に基づいてメンバのクラスタリングを行うように構成される。
Third Embodiment
Subsequently, an information processing system 1 of the third embodiment will be described. The information processing system 1 of the third embodiment is configured to perform clustering of members based on distance information, as in the second embodiment.

以下では、第三実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。   In the following, regarding the configuration of the information processing system 1 of the third embodiment, a configuration different from the information processing system 1 of the first embodiment will be selectively described, and related to the same components as the information processing system 1 of the first embodiment. I omit explanation. The configuration given the same reference numerals as the information processing system 1 of the first embodiment may be understood to be the same configuration as the information processing system 1 of the first embodiment unless there is an additional description.

本実施形態において、第一データ提供システム10のプロセッサ11は、結合システム50からメンバリストについての要求信号を受信すると、図5に示す処理に代えて、図14に示す第一データ提供処理を実行する。この第一データ提供処理において、プロセッサ11は、第一データベース151において連結子ID_Cの付された特徴データに対応する第一グループのメンバに関して、各メンバの属性値Z1を算出する(S710)。図14右領域及び以下に示されるZ1[i]は、メンバiについての属性値Z1を意味する。   In the present embodiment, when the processor 11 of the first data providing system 10 receives the request signal for the member list from the coupling system 50, it executes the first data providing process shown in FIG. 14 instead of the process shown in FIG. Do. In the first data provision processing, the processor 11 calculates the attribute value Z1 of each member for the members of the first group corresponding to the feature data attached with the connector ID_C in the first database 151 (S710). The right area in FIG. 14 and Z1 [i] shown below mean the attribute value Z1 for the member i.

メンバiの属性値Z1[i]は、例えば、メンバiの年齢、性別、居住地域、職業等の基本属性(例えばデモグラフィック属性)の組合せを、その組合せに対応する数値に符号化したものである。例えば、メンバiの属性値Z1[i]は、メンバiの基本属性の組合せをハッシュ関数に入力したときに算出されるハッシュ値であり得る。   The attribute value Z1 [i] of the member i is, for example, a combination of basic attributes (for example, demographic attributes) such as the age, sex, residence area, and occupation of the member i into numerical values corresponding to the combinations. is there. For example, the attribute value Z1 [i] of member i may be a hash value calculated when a combination of basic attributes of member i is input to the hash function.

但し、属性値Z1は、基本属性の一つだけをハッシュ化したものであってもよい。属性値Z1は、例えば、メンバの居住地域だけをハッシュ化したものであってもよい。ハッシュ化は、メンバの基本属性に関する具体的な情報を、第一データ提供システム10の外部に対し秘密にするために行われる。   However, the attribute value Z1 may be one obtained by hashing only one of the basic attributes. The attribute value Z1 may be, for example, hashing only the residence area of the member. Hashing is performed to make specific information on basic attributes of members secret from the outside of the first data providing system 10.

上記基本属性に関する情報は、第一データベース151内の特徴データから抽出されてもよいし、ストレージ装置15が記憶する第一データベース151とは別の第一グループの会員情報を格納するデータベースから取得されてもよい。   The information on the basic attribute may be extracted from the feature data in the first database 151 or may be acquired from a database storing member information of a first group different from the first database 151 stored in the storage device 15. May be

S710において各メンバの属性値Z1を算出した後、プロセッサ11は、第一グループのメンバを連結子ID_Cで表現したメンバリスト1532であって、S710で算出した属性値Z1を付したメンバリスト1532を生成する(S720)。図14右領域に示される例によれば、メンバリスト1532は、メンバiの連結子に、メンバiに関する属性値Z1[i]を関連付けて生成される。   After calculating the attribute value Z1 of each member in S710, the processor 11 is the member list 1532 representing the members of the first group by the connector ID_C, and the member list 1532 to which the attribute value Z1 calculated in S710 is added Generate (S720). According to the example shown in the right area of FIG. 14, the member list 1532 is generated by associating the connector of member i with the attribute value Z1 [i] regarding member i.

更に、プロセッサ11は、属性値Z1の組合せ(Z1_p,Z1_q)を距離D1に変換するための変換テーブル1533を作成する(S730)。変換テーブル1533は、図14右領域に示されるように、属性値Z1の組合せ(Z1_p,Z1_q)毎に、その組合せ(Z1_p,Z1_q)に対応する距離D1が記述されたテーブルである。   Furthermore, the processor 11 creates a conversion table 1533 for converting the combination (Z1_p, Z1_q) of the attribute values Z1 into the distance D1 (S730). The conversion table 1533 is a table in which, for each combination (Z1_p, Z1_q) of the attribute values Z1, a distance D1 corresponding to the combination (Z1_p, Z1_q) is described as shown in the right area of FIG.

変換テーブル1533によれば、メンバiの属性値Z[i]が値Z1_pであり、メンバjの属性値Z[j]が値Z1_qであるときの、メンバiとメンバjとの間の距離D1を、変換テーブル1533において対応する組合せ(Z1_p,Z1_q)に関連付けられた距離D1に特定可能である。メンバiとメンバjとの間の距離D1は、基本属性で定義される特徴空間上に、メンバiとメンバjを配置したときの、特徴空間上でのメンバ間の距離と理解してよい。この距離は、第二実施形態と同様、ユークリッド距離であり得る。   According to the conversion table 1533, the distance D1 between the member i and the member j when the attribute value Z [i] of the member i is the value Z1_p and the attribute value Z [j] of the member j is the value Z1_q Can be specified as the distance D1 associated with the corresponding combination (Z1_p, Z1_q) in the conversion table 1533. The distance D1 between the member i and the member j may be understood as the distance between the members on the feature space when the member i and the member j are arranged on the feature space defined by the basic attribute. This distance may be Euclidean distance as in the second embodiment.

プロセッサ11は、属性値Z1の組合せ(Z1_p,Z1_q)毎に、属性値Z1_pに対応する基本属性の組合せに対応する特徴空間上の点と、属性値Z1_qに対応する基本属性の組合せに対応する特徴空間上の点との間の距離を、距離D1として算出して、変換テーブル1533を生成することができる。   The processor 11 corresponds, for each combination (Z1_p, Z1_q) of the attribute value Z1, a point on the feature space corresponding to the combination of basic attributes corresponding to the attribute value Z1_p and a combination of basic attributes corresponding to the attribute value Z1_q. The conversion table 1533 can be generated by calculating the distance to a point on the feature space as the distance D1.

プロセッサ11は、生成したメンバリスト1532及び変換テーブル1533を、結合システム50に送信する(S740)。その後、プロセッサ11は、第一実施形態と同様に、第一クラスタ情報155を受信し(S330)、その第一クラスタ情報155に基づいて、第一データベース151を加工して、加工後第一データベース157を生成し(S340)、加工後第一データベース157を結合システム50に送信し(S350)、第一データ提供処理を終了する。   The processor 11 transmits the generated member list 1532 and the conversion table 1533 to the coupling system 50 (S740). Thereafter, as in the first embodiment, the processor 11 receives the first cluster information 155 (S330), processes the first database 151 based on the first cluster information 155, and processes the first database 157 is generated (S340), the processed first database 157 is transmitted to the coupling system 50 (S350), and the first data provision processing is ended.

同様に、第二データ提供システム30のプロセッサ31は、結合システム50からメンバリストについての要求信号を受信すると、図6に示す処理に代えて、図15に示す第二データ提供処理を実行する。この第二データ提供処理において、プロセッサ31は、S710と同様、第二グループのメンバに関して、各メンバの属性値Z2を算出する(S810)。図15右領域及び以下に示されるZ2[i]は、メンバiについての属性値Z2を意味する。   Similarly, when the processor 31 of the second data providing system 30 receives a request signal for the member list from the coupling system 50, the processor 31 executes the second data providing process shown in FIG. 15 instead of the process shown in FIG. In the second data provision process, the processor 31 calculates the attribute value Z2 of each member for the members of the second group, as in S710 (S810). The right area in FIG. 15 and Z2 [i] shown below mean the attribute value Z2 for the member i.

メンバiの属性値Z2[i]は、上述した属性値Z1と同様に、メンバiの基本属性の組合せを、その組合せに対応する数値(例えばハッシュ値)に符号化したものである。上記基本属性に関する情報は、第二データベース351内の特徴データから抽出されてもよいし、ストレージ装置35が記憶する第二データベース351とは別の第二グループの会員情報を格納するデータベースから取得されてもよい。   The attribute value Z2 [i] of the member i is obtained by encoding the combination of the basic attributes of the member i into a numerical value (for example, a hash value) corresponding to the combination, similarly to the above-described attribute value Z1. The information on the basic attribute may be extracted from feature data in the second database 351, or may be acquired from a database storing member information of a second group different from the second database 351 stored in the storage device 35. May be

S810において各メンバの属性値Z2を算出した後、プロセッサ31は、第二グループのメンバを連結子ID_Cで表現したメンバリスト3532であって、S810で算出した属性値Z2を付したメンバリスト3532を生成する(S820)。メンバリスト3532の例は、図15右領域に示される。   After calculating the attribute value Z2 of each member in S810, the processor 31 is a member list 3532 in which members of the second group are expressed by the connector ID_C, and the member list 3532 to which the attribute value Z2 calculated in S810 is added is used. Generate (S820). An example of the member list 3532 is shown in the right area of FIG.

更に、プロセッサ31は、属性値Z2の組合せ(Z2_p,Z2_q)を距離D2に変換するための変換テーブル3533を作成する(S830)。変換テーブル3533は、図15右領域に示されるように、属性値Z2の組合せ(Z2_p,Z2_q)毎に、その組合せ(Z2_p,Z2_q)に対応する距離D2が記述されたテーブルである。   Furthermore, the processor 31 creates a conversion table 3533 for converting the combination (Z2_p, Z2_q) of the attribute values Z2 into the distance D2 (S830). The conversion table 3533 is a table in which, for each combination (Z2_p, Z2_q) of the attribute value Z2, a distance D2 corresponding to the combination (Z2_p, Z2_q) is described as shown in the right area of FIG.

プロセッサ31は、属性値Z2の組合せ(Z2_p,Z2_q)毎に、属性値Z2_pに対応する基本属性の組合せに対応する特徴空間上の点と、属性値Z2_qに対応する基本属性の組合せに対応する特徴空間上の点との間の距離を、距離D2として算出して、変換テーブル3533を生成することができる。   The processor 31 corresponds, for each combination (Z2_p, Z2_q) of the attribute value Z2, to a point on the feature space corresponding to the combination of basic attributes corresponding to the attribute value Z2_p and a combination of basic attributes corresponding to the attribute value Z2_q. The conversion table 3533 can be generated by calculating the distance between points on the feature space as the distance D2.

プロセッサ31は、生成したメンバリスト3532及び変換テーブル3533を、結合システム50に送信する(S840)。その後、プロセッサ31は、第一実施形態と同様に、第二クラスタ情報355を受信し(S430)、その第二クラスタ情報355に基づいて、第二データベース351を加工して、加工後第二データベース357を生成し(S440)、加工後第二データベース357を結合システム50に送信し、第二データ提供処理を終了する。   The processor 31 transmits the generated member list 3532 and the conversion table 3533 to the coupling system 50 (S 840). Thereafter, as in the first embodiment, the processor 31 receives the second cluster information 355 (S430), processes the second database 351 based on the second cluster information 355, and processes the second database 352 after processing. 357 is generated (S440), the processed second database 357 is transmitted to the coupling system 50, and the second data provision processing is ended.

結合システム50のプロセッサ51は、第一データ提供システム10から受信したメンバリスト1532及び変換テーブル1533、並びに、第二データ提供システム30から受信したメンバリスト3532及び変換テーブル3533に基づき、S133,S135,S137(図4参照)のそれぞれにおいて、図16に示す処理を実行することができる。   Based on the member list 1532 and the conversion table 1533 received from the first data providing system 10, and the member list 3532 and the conversion table 3533 received from the second data providing system 30, the processor 51 of the coupling system 50 performs S133, S135, The process shown in FIG. 16 can be executed in each of S137 (see FIG. 4).

即ち、S133において、プロセッサ51は、共通メンバに関してメンバ間の距離D1を、メンバリスト1532及び変換テーブル1533に基づいて算出する(S910)。更に、メンバ間の距離D2を、メンバリスト3532及び変換テーブル3533に基づいて算出する(S920)。そして、算出した距離D1及び距離D2に基づいて、メンバ間の距離D=(D1+D21/2を算出する(S930)。 That is, in S133, the processor 51 calculates the distance D1 between members with respect to the common member based on the member list 1532 and the conversion table 1533 (S910). Further, the distance D2 between members is calculated based on the member list 3532 and the conversion table 3533 (S920). Then, based on the calculated distances D1 and D2, the distance D between members = (D1 2 + D2 2 ) 1/2 is calculated (S930).

その後、プロセッサ51は、S620での処理と同様、距離Dから特定される特徴空間上の共通メンバの分布に基づき、距離Dが近い、換言すれば特徴が類似するメンバを、予め定められた数ずつまとめるようにして、共通メンバを複数のクラスタに分割する(S940)。   After that, the processor 51 determines a predetermined number of members having similar distances D, in other words, similar characteristics, based on the distribution of common members on the feature space specified from the distance D, similar to the processing in S620. The common members are divided into a plurality of clusters (S940).

プロセッサ51は、S135においても同様に、図16に従う手順で、第一グループの非共通メンバを、距離Dが近いメンバを予め定められた数ずつまとめるように、複数のクラスタに分割する。S137においても同様に、第二グループの非共通メンバを、距離Dが近いメンバを予め定められた数ずつまとめるように、複数のクラスタに分割する。S135,S137において特定できない距離D1,D2の取り扱いについては、第二実施形態と同様である。   Similarly in S135, the processor 51 divides the non-common members of the first group into a plurality of clusters such that the members having the similar distance D are grouped by a predetermined number in the procedure according to FIG. Similarly, in S137, the non-common members of the second group are divided into a plurality of clusters such that the members having the similar distance D are grouped by a predetermined number. The handling of the distances D1 and D2 that can not be specified in S135 and S137 is the same as that in the second embodiment.

以上、第三実施形態の情報処理システム1について説明したが、第三実施形態においても第二実施形態と同様に、メンバ間の特徴空間上の距離に基づいてクラスタリングを行うので、有意義な結合データベース551を生成可能である。   The information processing system 1 according to the third embodiment has been described above, but in the third embodiment as well, clustering is performed based on the distance between members in the feature space as in the second embodiment. 551 can be generated.

[第四実施形態]
続いて、第四実施形態の情報処理システム1を説明する。以下では、第四実施形態の情報処理システム1の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
Fourth Embodiment
Subsequently, an information processing system 1 of the fourth embodiment will be described. In the following, regarding the configuration of the information processing system 1 of the fourth embodiment, a configuration different from the information processing system 1 of the first embodiment will be selectively described, and related to the same components as the information processing system 1 of the first embodiment. I omit explanation. The configuration given the same reference numerals as the information processing system 1 of the first embodiment may be understood to be the same configuration as the information processing system 1 of the first embodiment unless there is an additional description.

本実施形態の情報処理システム1は、結合システム50がストレージ装置55内に、第一データベース151内で用いられる顧客番号ID_Aと、第二データベース351内で用いられる顧客番号ID_Bとの関係を示す関係表553を記憶する。図17上段には、関係表553を概念的に表す。   In the information processing system 1 of the present embodiment, the coupling system 50 indicates the relationship between the customer number ID_A used in the first database 151 and the customer number ID_B used in the second database 351 in the storage apparatus 55. The table 553 is stored. The upper part of FIG. 17 conceptually shows a relation table 553.

即ち、関係表553は、第一グループ及び第二グループの両者に所属する共通メンバの夫々に関し、共通メンバの顧客番号ID_Aと、顧客番号ID_Bとを関連付ける情報を有する。図17上段に示す関係表553は、更に、各メンバの連結子ID_Cの情報を有するが、この情報は任意であり、なくてもよい。   That is, the relation table 553 has information relating the customer number ID_A of the common member and the customer number ID_B for each of the common members belonging to both the first group and the second group. Although the relationship table 553 shown in the upper part of FIG. 17 further includes information of the connector ID_C of each member, this information is optional and may not be necessary.

関係表553は、第一データベース151及び第二データベース351の管理者から予め提供された情報に基づき、生成され得る。関係表553は、別の者から提供された情報に基づき、生成されてもよい。例えば、ウェブページへのアクセスなどのネットワーク上のユーザ行動を追跡する企業は、その追跡により、同一ユーザに関する複数企業の顧客番号ID_A,ID_Bを入手し得る。関係表553は、このような企業から入手可能な情報に基づいて生成可能である。関係表553は、結合システム50がネットワーク上のユーザ行動を追跡して取得した情報に基づいて生成してもよい。   The relation table 553 may be generated based on information provided in advance from the administrator of the first database 151 and the second database 351. The relationship table 553 may be generated based on information provided by another person. For example, a company tracking user behavior on a network such as access to a web page may obtain customer numbers ID_A, ID_B of multiple companies related to the same user by the tracking. The relationship table 553 can be generated based on information available from such a company. The relationship table 553 may be generated based on information obtained by the coupling system 50 tracking user behavior on the network.

本実施形態では、結合システム50のプロセッサ51が、ユーザからの指示に基づき、図4に示す処理に代えて、図18に示す結合関連処理を実行する。   In the present embodiment, the processor 51 of the coupling system 50 executes coupling-related processing shown in FIG. 18 in place of the processing shown in FIG. 4 based on an instruction from the user.

この結合関連処理において、プロセッサ51は、メンバリストの要求及び受信を行わず、S1010において、S130に対応するクラスタリング処理を行う。このクラスタリング処理(S1010)では、関係表553を参照して、共通メンバを特定し(S131)、共通メンバを複数のクラスタに分割し(S133)、更には、第一グループの非共通メンバを複数のクラスタに分割し(S135)、第二グループの非共通メンバを複数のクラスタに分割する(S137)。   In the connection related processing, the processor 51 does not request and receive a member list, and performs clustering processing corresponding to S130 in S1010. In this clustering process (S1010), a common member is specified with reference to the relationship table 553 (S131), the common member is divided into a plurality of clusters (S133), and a plurality of non-common members of the first group are further divided. (S135), and the non-common member of the second group is divided into a plurality of clusters (S137).

その後、プロセッサ51は、S1020において、第一クラスタ情報1554及び第二クラスタ情報3554を生成し、第一データ提供システム10に、第一クラスタ情報1554を送信し、第二データ提供システム30に、第二クラスタ情報3554を送信する。   After that, the processor 51 generates the first cluster information 1554 and the second cluster information 3554 in S1020, and transmits the first cluster information 1554 to the first data providing system 10, and the second data providing system 30 to the second data providing system 30. Two cluster information 3554 is transmitted.

第一クラスタ情報1554は、図17左下領域に示すように、第一グループのメンバを、第一データベース151が用いる第一グループの顧客番号ID_Aで表現した、第一グループのメンバリストに、各メンバが属するクラスタのクラスタ番号を付して生成される。第二クラスタ情報3554は、図17右下領域に示すように、第二グループのメンバを、第二データベース351が用いる第二グループの顧客番号ID_Bで表現した、第二グループのメンバリストに、各メンバが属するクラスタのクラスタ番号を付して生成される。   The first cluster information 1554, as shown in the lower left area of FIG. 17, represents the members of the first group in the member list of the first group, which is represented by the customer number ID_A of the first group used by the first database 151. Is generated with the cluster number of the cluster to which. The second cluster information 3554 is, as shown in the lower right area of FIG. 17, each member of the second group, represented by the second group customer number ID_B used by the second database 351, in each member list of the second group. It is generated with the cluster number of the cluster to which the member belongs.

続くS1030において、プロセッサ51は、第一データ提供システム10から加工後第一データベース157を受信し、更には、第二データ提供システム30から加工後第二データベース357を受信し(S1040)、これら加工後第一データベース157及び加工後第二データベース357を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置55に格納する(S1050)。その後、図17に示す処理を終了する。   In the subsequent S1030, the processor 51 receives the processed first database 157 from the first data providing system 10, and further receives the processed second database 357 from the second data providing system 30 (S1040). A combined database 551 is generated by combining the back first database 157 and the processed second database 357, and the combined database 551 is stored in the storage device 55 (S1050). Thereafter, the process shown in FIG. 17 is ended.

第一データ提供システム10のプロセッサ11は、図5に示すS310,S320の処理を実行せず、結合システム50から第一クラスタ情報1554を受信すると(S330)、この第一クラスタ情報1554が有する顧客番号ID_Aとクラスタ番号との関連付け情報に基づいて、加工後第一データベース157を生成及び送信することができる(S340,S350)。   The processor 11 of the first data providing system 10 does not execute the processing of S310 and S320 shown in FIG. 5 and receives the first cluster information 1554 from the coupling system 50 (S330), the customer possessed by the first cluster information 1554 The processed first database 157 can be generated and transmitted based on the association information between the number ID_A and the cluster number (S340, S350).

第二データ提供システム30のプロセッサ31は、図6に示すS410,S420の処理を実行せず、結合システム50から第二クラスタ情報3554を受信すると(S430)、この第二クラスタ情報3554が有する顧客番号ID_Bとクラスタ番号との関連付け情報に基づいて、加工後第二データベース357を生成及び送信することができる(S440,S450)。   When the processor 31 of the second data providing system 30 receives the second cluster information 3554 from the coupling system 50 without executing the processes of S410 and S420 shown in FIG. 6 (S430), the customer included in the second cluster information 3554 The processed second database 357 can be generated and transmitted based on the association information between the number ID_B and the cluster number (S440, S450).

以上、第四実施形態の情報処理システム1を説明したが、本実施形態の情報処理システム1も第一実施形態と同様の効果を奏する。   As mentioned above, although the information processing system 1 of 4th embodiment was demonstrated, the information processing system 1 of this embodiment also has an effect similar to 1st embodiment.

[第五実施形態]
続いて、第五実施形態の情報処理システム5を説明する。以下では、第五実施形態の情報処理システム5の構成に関し、第一実施形態の情報処理システム1とは異なる構成を選択的に説明し、第一実施形態の情報処理システム1と同一構成部位に関する説明を省略する。第一実施形態の情報処理システム1と同一符号が付された構成は、特に追加の説明がない限り、第一実施形態の情報処理システム1と同一構成であると理解されてよい。
Fifth Embodiment
Subsequently, an information processing system 5 of the fifth embodiment will be described. In the following, regarding the configuration of the information processing system 5 of the fifth embodiment, a configuration different from the information processing system 1 of the first embodiment will be selectively described, and related to the same components as the information processing system 1 of the first embodiment. I omit explanation. The configuration given the same reference numerals as the information processing system 1 of the first embodiment may be understood to be the same configuration as the information processing system 1 of the first embodiment unless there is an additional description.

本実施形態の情報処理システム5は、図19に示すように、第一実施形態の第二データ提供システム30に対応する機能が、結合システム80に組み込まれた構成にされる。具体的に、この情報処理システム5は、第一実施形態の第一データ提供システム10に対応するデータ提供システム70と、第一実施形態の第二データ提供システム30及び結合システム50に対応する結合システム80と、を備える。   As shown in FIG. 19, the information processing system 5 of this embodiment has a configuration in which the function corresponding to the second data providing system 30 of the first embodiment is incorporated in the coupling system 80. Specifically, the information processing system 5 includes a data providing system 70 corresponding to the first data providing system 10 of the first embodiment, and a combination corresponding to the second data providing system 30 and the coupling system 50 of the first embodiment. And a system 80.

データ提供システム70は、プロセッサ71と、メモリ73と、ストレージ装置75と、を備える。ストレージ装置75は、第一データベース151を格納する。このデータ提供システム70は、第一実施形態の第一データ提供システム10と同一構成であると理解されてよい。プロセッサ71が実行する処理は、第一実施形態のプロセッサ11が実行する処理と基本的に同じであると理解されてよい。   The data providing system 70 includes a processor 71, a memory 73, and a storage device 75. The storage device 75 stores the first database 151. The data providing system 70 may be understood to have the same configuration as the first data providing system 10 of the first embodiment. It may be understood that the processing executed by the processor 71 is basically the same as the processing executed by the processor 11 of the first embodiment.

結合システム80は、データ提供システム70とネットワークNTを通じて通信可能に構成される。この結合システム80は、プロセッサ81と、メモリ83と、ストレージ装置85と、を備える。ストレージ装置85は、第二データベース351を格納する。ストレージ装置85は、プロセッサ81が実行する処理により結合データベース551が生成されたときに、当該結合データベース551を格納する。   The coupling system 80 is configured to be communicable with the data providing system 70 through the network NT. The coupling system 80 includes a processor 81, a memory 83, and a storage device 85. The storage device 85 stores a second database 351. The storage apparatus 85 stores the coupled database 551 when the coupled database 551 is generated by the process executed by the processor 81.

プロセッサ81は、結合データベース551の生成指示がユーザから入力されると、図4に示す処理に代えて、図20に示す結合関連処理を実行する。   When an instruction to generate the combined database 551 is input from the user, the processor 81 executes the connection-related process shown in FIG. 20 instead of the process shown in FIG.

この結合関連処理において、プロセッサ81は、ネットワークNTを通じて、データ提供システム70にメンバリストを要求する要求信号を送信し(S1110)、データ提供システム70から、第一グループのメンバリスト153を取得する(S1120)。   In this connection-related process, the processor 81 transmits a request signal for requesting a member list to the data providing system 70 through the network NT (S1110), and acquires the member list 153 of the first group from the data providing system 70 (S1110) S1120).

その後、取得したメンバリスト153に基づいてクラスタリング処理を実行する(S1130)。このクラスタリング処理(S1130)において、プロセッサ81は、メンバリスト153と第二データベース351とを照合し、第一グループ及び第二グループに共通して存在する共通メンバを特定する。更には、第一グループのメンバリスト153に表されるメンバの内、共通メンバ以外のメンバを、第一グループの非共通メンバとして特定する。この他、第二データベース351に特徴データを有する第二グループのメンバの内、共通メンバ以外のメンバを、第二グループの非共通メンバとして特定する。   Thereafter, clustering processing is executed based on the acquired member list 153 (S1130). In the clustering process (S1130), the processor 81 collates the member list 153 with the second database 351, and identifies a common member commonly existing in the first group and the second group. Furthermore, among members represented in the member list 153 of the first group, members other than common members are specified as non-common members of the first group. In addition, among members of the second group having feature data in the second database 351, members other than common members are specified as non-common members of the second group.

プロセッサ81は、特定した共通メンバ、第一グループの非共通メンバ、及び、第二グループの非共通メンバのそれぞれを、第一実施形態におけるS133,S135,S137の処理と同様の手法で、複数のクラスタに分割する。   The processor 81 determines the plurality of common members, the non-common members of the first group, and the non-common members of the second group in the same manner as the processing of S133, S135, and S137 in the first embodiment. Split into clusters.

プロセッサ81は、このようにしてS1130におけるクラスタリング処理を終了すると、データ提供システム70に第一クラスタ情報155を送信し(S1140)、第一クラスタ情報155に基づく加工後第一データベース157を、データ提供システム70から取得する(S1150)。   The processor 81 transmits the first cluster information 155 to the data providing system 70 when the clustering processing in S1130 is finished (S1140), and provides the processed first database 157 based on the first cluster information 155 as data. It acquires from the system 70 (S1150).

更に、プロセッサ81は、S1130におけるクラスタリング処理の結果に基づいて、ストレージ装置85内の第二データベース351が有する特徴データを、クラスタ毎に統計処理により統合して、クラスタ毎の統合特徴データを生成する。これにより、プロセッサ81は、第二データベース351に基づくクラスタ毎の統合特徴データを備える加工後第二データベース357を生成する(S1160)。   Furthermore, the processor 81 integrates feature data possessed by the second database 351 in the storage apparatus 85 by statistical processing for each cluster based on the result of the clustering process in S1130 to generate integrated feature data for each cluster. . Thereby, the processor 81 generates a second processed database 357 including integrated feature data for each cluster based on the second database 351 (S1160).

その後、プロセッサ81は、データ提供システム70から取得した上記加工後第一データベース157と、自ら生成した上記加工後第二データベース357と、を結合することにより、結合データベース551を生成し、結合データベース551をストレージ装置85に格納する(S1170)。その後、図20に示す処理を終了する。   Thereafter, the processor 81 generates a combined database 551 by combining the first processed database 157 obtained from the data providing system 70 and the second processed database 357 generated by itself, thereby generating a combined database 551. Are stored in the storage device 85 (S1170). Thereafter, the process shown in FIG. 20 is ended.

結合システム80で生成された結合データベース551は、結合システム80側の企業が消費者行動分析や広告配信対象の決定に役立ててもよいし、第一データベース151側の企業に提供されてもよい。本実施形態の情報処理システム5に係る技術も、第一実施形態と同様に、個人情報保護の観点からデータ提供に消極的な企業からのデータ提供を容易にすることができ、更には、統計化されたデータに基づいても、消費者行動分析等に有意義な結合データベースを生成することができる。   The combined database 551 generated by the combined system 80 may be used by a company on the side of the combined system 80 to analyze consumer behavior and to determine an advertisement delivery target, or may be provided to a company on the first database 151 side. Similarly to the first embodiment, the technology relating to the information processing system 5 of the present embodiment can facilitate the provision of data from a company reluctant to provide data from the viewpoint of protection of personal information, and further, the statistics Based on the converted data, it is possible to generate a joint database meaningful for consumer behavior analysis and the like.

以上に第一実施形態から第五実施形態までを説明したが、本開示は、上記実施形態に限定されるものではなく種々の態様を採ることができる。例えば、第五実施形態には、第二実施形態から第四実施形態の技術思想が適用されてもよい。第五実施形態に第四実施形態の技術思想が適用される場合には、例えば、結合システム80が関係表553を有することができ、図20におけるS1110,S1120の処理は省略され得る。   Although the first to fifth embodiments have been described above, the present disclosure is not limited to the above embodiments, and various aspects can be adopted. For example, the technical ideas of the second to fourth embodiments may be applied to the fifth embodiment. When the technical concept of the fourth embodiment is applied to the fifth embodiment, for example, the coupling system 80 can have the relation table 553 and the processing of S1110 and S1120 in FIG. 20 can be omitted.

連結子ID_Cは、メンバに予め割り当てられるものでなくてもよい。連結子ID_Cは、第一データベース151及び第二データベース351の管理者が保有する各メンバの詳細な個人情報を符号化して生成されるものであってもよい。データ提供システム10,30は、このような個人情報を記憶し、個人情報を符号化して連結子ID_Cを生成する機能を有していてもよい。ここでいう個人情報の例には、名前、住所、電話番号、メールアドレス等の情報が含まれる。符号化には、ハッシュ関数が用いられ得る。   The connector ID_C may not be pre-assigned to a member. The connector ID_C may be generated by encoding detailed personal information of each member held by the administrator of the first database 151 and the second database 351. The data providing system 10, 30 may have a function of storing such personal information and encoding the personal information to generate a connector ID_C. Examples of the personal information mentioned here include information such as name, address, telephone number, and e-mail address. A hash function may be used for encoding.

即ち、連結子ID_Cは、個人情報をハッシュ関数に入力して生成されるハッシュ値であってもよい。第一データベース151及び第二データベース351において共通するハッシュ関数で個人情報を符号化して連結子ID_Cを生成すれば、同一人物に関して、第一データベース151の特徴データ及び第二データベース351の特徴データのいずれにも同一の連結子ID_Cを関連付けることができる。不可逆なハッシュ値を連結子ID_Cに用いれば、基本的には、外部に個人情報が漏えいすることもない。ハッシュ値に変換する個人情報は、連結子ID_Cがおよそ各個人に対して固有になる情報であれば、上述の具体例に限定されない。連結子ID_Cに代えて、符号化を伴わない個人情報の一部がその顧客番号ID_A,ID_Bと共に共通メンバの特定のために結合システムに提供されてもよい。   That is, the connector ID_C may be a hash value generated by inputting personal information into the hash function. If personal information is encoded with a common hash function in the first database 151 and the second database 351 to generate the connector ID_C, any of the feature data of the first database 151 and the feature data of the second database 351 regarding the same person. Can also associate the same connector ID_C. Basically, personal information is not leaked to the outside by using an irreversible hash value for the connector ID_C. The personal information to be converted into the hash value is not limited to the above specific example as long as the connector ID_C is information that is approximately unique to each individual. Instead of the connector ID_C, a part of the personal information without coding may be provided to the combined system for the identification of the common member together with the customer number ID_A, ID_B.

この他、上記実施形態では、第一グループ及び第二グループに共通する複数のメンバを、複数のクラスタに分割したが、第一グループ内のメンバと第二グループ内のメンバとのペアに関して、複数のペアを、複数のクラスタに分割し、そのクラスタリング結果に基づいて結合データベース551を生成してもよい。ペアは、第一グループと第二グループとの間で、互いに少なくとも対応するメンバのペアであり得る。ペアは、そのペアに属する二人のメンバが互いに少なくとも対応するメンバのペアであり得る。例えば、互いに少なくとも対応するメンバのペアは、実体が同一であると推定される又は実体が同一である蓋然性が高いメンバのペアであり得る。   Besides, in the above embodiment, although a plurality of members common to the first group and the second group are divided into a plurality of clusters, a plurality of pairs of members in the first group and members in the second group Pairs may be divided into a plurality of clusters, and a combined database 551 may be generated based on the clustering result. The pair may be a pair of members at least corresponding to each other between the first group and the second group. A pair may be a pair of members in which two members belonging to the pair at least correspond to each other. For example, a pair of members that at least correspond to each other may be a pair of members that are presumed to be identical to each other or likely to be identical to each other.

例えば、第四実施形態では、関係表553が、共通メンバの顧客番号ID_Aと、顧客番号ID_Bとを関連付ける情報を有するが、関係表553は、互いに少なくとも対応する第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示す表であってもよい。例えば、関係表553は、同一であると推定される第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示す表であり得る。   For example, in the fourth embodiment, the relationship table 553 includes information that associates the common member customer number ID_A and the customer number ID_B, but the relationship table 553 includes at least members of the first group and the second group that correspond to each other. It may be a table showing a pair with a member of by the association of the customer number ID_A and the customer number ID_B. For example, the relationship table 553 may be a table indicating pairs of members of the first group and members of the second group estimated to be identical, by associating the customer number ID_A with the customer number ID_B.

このような関係表553は、例えば、クッキー(Cookie)リストの照合により生成可能である。周知のように、クッキーは、ウェブページにアクセスする人物の識別のために使用される。ネットワーク上の消費者行動を追跡することによっては、顧客番号ID_Aと対応付けられるクッキーリストと、顧客番号ID_Bと対応付けられるクッキーリストとを、生成可能である。そして、顧客番号ID_Aと対応付けられるクッキーリストと顧客番号ID_Bと対応付けられるクッキーリストとの一致度が高い場合、その顧客番号ID_Aに対応する第一グループのメンバと、顧客番号ID_Bに対応する第二グループのメンバは、同一の消費者である可能性が高いと言える。   Such a relationship table 553 can be generated, for example, by collation of a cookie (Cookie) list. As is well known, cookies are used to identify the person who accesses the web page. By tracking consumer behavior on the network, it is possible to create a cookie list associated with customer number ID_A and a cookie list associated with customer number ID_B. Then, when the matching degree between the cookie list associated with the customer number ID_A and the cookie list associated with the customer number ID_B is high, the members of the first group corresponding to the customer number ID_A and the first corresponding to the customer number ID_B It can be said that members of the two groups are likely to be the same consumer.

従って、クッキーリストの一致度が基準以上である第一グループのメンバと第二グループのメンバとを同一人物であると推定すれば、関係表553として、同一であると推定される第一グループのメンバと第二グループのメンバとのペアを、顧客番号ID_Aと、顧客番号ID_Bとの関連付けにより示した表を生成可能である。   Therefore, if it is presumed that the members of the first group and the members of the second group whose degree of coincidence in the cookie list is equal to or higher than the reference are the same person, the relation table 553 is assumed to be the same as that of the first group. It is possible to create a table showing pairs of members and members of the second group by associating the customer number ID_A with the customer number ID_B.

このような関係表553を用いる情報処理システム1にも、距離情報に基づいたクラスタリングを行う第二実施形態及び第三実施形態の技術を適用可能である。この場合、第一データ提供システム10から結合システム50へは、図11及び図14に示されるメンバリスト1531,1532に代替するメンバリストとして、連結子ID_Cではなく顧客番号ID_Aで各メンバを表すメンバリストを送信することができる。同様に、第二データ提供システム30から結合システム50へは、図12及び図15に示されるメンバリスト3531,3532に代替するメンバリストとして、顧客番号ID_Bで各メンバを表すメンバリストを送信することができる。   The techniques of the second embodiment and the third embodiment that perform clustering based on distance information are also applicable to the information processing system 1 using such a relationship table 553. In this case, from the first data providing system 10 to the coupling system 50, a member list representing each member by the customer number ID_A instead of the connector ID_C as a member list replacing the member lists 1531, 1532 shown in FIGS. You can send the list. Similarly, the second data providing system 30 transmits a member list representing each member by the customer number ID_B as a member list replacing the member lists 3531 and 3532 shown in FIGS. 12 and 15 from the coupling system 50. Can.

この他、上記実施形態では、二つのデータベースを加工して結合する例を説明したが、三つ以上のデータベースを加工して結合する際に、上記実施形態の技術を適用できることは言うまでもない。従って、本開示は、三以上のデータベースを加工して結合する目的で活用されてもよい。この場合、一つのデータベースを中心に複数のデータベースが結合されてもよいし、複数のデータベースが直列に結合されてもよい。   In addition, although the example which processes and connects two databases was demonstrated in the said embodiment, when processing and connecting three or more databases, it can not be overemphasized that the technique of the said embodiment can be applied. Thus, the present disclosure may be exploited for the purpose of processing and combining three or more databases. In this case, a plurality of databases may be linked around one database, or a plurality of databases may be linked in series.

データベースは、消費者と関連する物及び/又は場所を構成体(メンバ)とするグループの特徴データを有するデータベースであってもよい。近年においては、消費者行動が、スマートフォンなどの携帯端末と密接にかかわっている。従って、第一データベース151及び第二データベース351は、消費者に対応する携帯端末毎の特徴データを有していてもよい。   The database may be a database having feature data of a group whose members (members) are objects and / or places associated with the consumer. In recent years, consumer behavior is closely related to portable terminals such as smart phones. Therefore, the first database 151 and the second database 351 may have feature data for each portable terminal corresponding to the consumer.

更に、結合データベース551は、加工後第一データベース157及び加工後第二データベース357への参照情報を有するデータベースとして構成されてもよい。即ち、結合データベース551は、統合特徴データの実体を有していなくてもよく、クラスタ毎の結合データは、加工後第一データベース157及び加工後第二データベース357が有する統合特徴データへのリンク情報又はアドレス情報を有する形態で構成されていてもよい。   Furthermore, the combined database 551 may be configured as a database having reference information to the first processed database 157 and the second processed database 357. That is, the combined database 551 may not have the substance of integrated feature data, and the combined data of each cluster is the link information to the integrated feature data of the first processed database 157 and the second processed database 357. Alternatively, it may be configured in a form having address information.

第二実施形態では、距離D1及び距離D2の情報を用いてクラスタリングが行なわれたが、距離D1及び距離D2のいずれか一方のみがクラスタリングに用いられてもよい。この場合、不要な距離D1,D2の一方を値ゼロとみなして合成距離Dを算出すればよい。不要な距離D1,D2の一方の情報は、データ提供システム10,30から結合システム50に提供されなくてもよい。第三実施形態で、距離D1、D2に代えて用いられる属性値Z1,Z2も同様に、一方のみが用いられる変形例が考えられる。   In the second embodiment, clustering is performed using information of the distance D1 and the distance D2, but only one of the distance D1 and the distance D2 may be used for clustering. In this case, one of the unnecessary distances D1 and D2 may be regarded as the value zero to calculate the combined distance D. Information on one of the unnecessary distances D1 and D2 may not be provided from the data providing system 10 or 30 to the coupling system 50. In the third embodiment, as the attribute values Z1 and Z2 used in place of the distances D1 and D2, similarly, a modification is conceivable in which only one of them is used.

上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。   The functions of one component in the above embodiment may be distributed to a plurality of components. The functions of multiple components may be integrated into one component. A part of the configuration of the above embodiment may be omitted. At least a part of the configuration of the above embodiment may be added to or replaced with the configuration of the other above embodiments. All aspects included in the technical concept specified from the wording described in the claims are an embodiment of the present disclosure.

用語間の対応関係は、次の通りである。結合システム50,80のプロセッサ51,81によって実行されるS130,S1010,S1130の処理は、クラスタリング部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS150,S1030,S1150の処理は、第一取得部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS160,S1040,S1160の処理及びプロセッサ81がS1170においてS1160で生成された加工後データベース357を読み出す処理は、第二取得部によって実現される処理の一例に対応する。プロセッサ51,81によって実行されるS170,S1050,S1170の処理は、結合部によって実現される処理の一例に対応する。第一データ提供システム10のプロセッサ11によって実行されるS340の処理は、第一生成部によって実現される処理の一例に対応する。第二データ提供システム30のプロセッサ31によって実行されるS440の処理及び結合システム80のプロセッサ81によって実行されるS1160の処理は、第二生成部によって実現される処理の一例に対応する。   The correspondence between terms is as follows. The processes of S130, S1010 and S1130 executed by the processors 51 and 81 of the combined system 50 and 80 correspond to an example of the process realized by the clustering unit. The processes of S150, S1030, and S1150 executed by the processors 51 and 81 correspond to an example of the process implemented by the first acquisition unit. The processes of S160, S1040 and S1160 executed by the processors 51 and 81 and the process of the processor 81 reading out the processed database 357 generated in S1160 in S1170 correspond to an example of the process realized by the second acquisition unit. The processes of S170, S1050, and S1170 executed by the processors 51 and 81 correspond to an example of the process realized by the coupling unit. The process of S340 executed by the processor 11 of the first data providing system 10 corresponds to an example of the process implemented by the first generation unit. The process of S440 executed by the processor 31 of the second data providing system 30 and the process of S1160 executed by the processor 81 of the coupling system 80 correspond to an example of the process implemented by the second generation unit.

1…情報処理システム、5…情報処理システム、10…第一データ提供システム、11…プロセッサ、13…メモリ、15…ストレージ装置、30…第二データ提供システム、31…プロセッサ、33…メモリ、35…ストレージ装置、50…結合システム、51…プロセッサ、53…メモリ、55…ストレージ装置、70…データ提供システム、71…プロセッサ、73…メモリ、75…ストレージ装置、80…結合システム、81…プロセッサ、83…メモリ、85…ストレージ装置、151…第一データベース、153…メンバリスト、155…第一クラスタ情報、157…加工後第一データベース、351…第二データベース、353…メンバリスト、355…第二クラスタ情報、357…加工後第二データベース、551…結合データベース、553…関係表、1531…メンバリスト、1532…メンバリスト、1533…変換テーブル、1554…第一クラスタ情報、3531…メンバリスト、3532…メンバリスト、3533…変換テーブル、3554…第二クラスタ情報、NT…ネットワーク。 DESCRIPTION OF SYMBOLS 1 ... Information processing system, 5 ... Information processing system, 10 ... 1st data provision system, 11 ... Processor, 13 ... Memory, 15 ... Storage apparatus, 30 ... 2nd data provision system, 31 ... Processor, 33 ... Memory, 35 ... Storage device 50: Coupling system 51: Processor 53: Memory 55: Storage device 70: Data providing system 71: Processor 73: Memory 75: Storage device 80: Coupling system 81: Processor 81 83: memory, 85: storage device, 151: first database, 153: member list, 155: first cluster information, 157: first database after processing, 351: second database, 353: member list, 355: second Cluster information, 357 ... second database after processing, 551 ... combined data Database, 553 ... relationship table, 1531 ... member list, 1532 ... member list, 1533 ... conversion table, 1554 ... first cluster information, 3531 ... member list, 3532 ... member list, 3533 ... conversion table, 3554 ... second cluster information , NT ... Network.

Claims (17)

第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムであって、前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する情報処理システムにおいて、
前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング部と、
前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成する第一生成部、から前記クラスタ毎の第一統合特徴データを取得する第一取得部と、
前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成する第二生成部、から前記クラスタ毎の第二統合特徴データを取得する第二取得部と、
前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
を備える情報処理システム。
An information processing system for generating a new database based on first and second databases, wherein the first database has feature data representing a first feature of a first group of components, for each component of the first group. In the information processing system, the second database includes, for each of the members of the second group, feature data representing a second feature of the members,
A plurality of construction pairs, each of which is a pair of constructions between the first group and the second group and in which two constructions belonging to the pair at least correspond to each other, are divided into a plurality of clusters; A clustering unit that provides cluster information representing a cluster to which each of the constituent pairs belong;
Based on the cluster information acquired from the clustering unit, feature data corresponding to the plurality of structure pairs included in the first database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster. A first acquisition unit that generates a first integrated feature data as feature data, and a first acquisition unit that acquires a first integrated feature data for each cluster from the first generation unit;
Based on the cluster information acquired from the clustering unit, feature data corresponding to the plurality of constituent pairs included in the second database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster. A second acquisition unit that generates second integrated feature data as the second feature data, and a second acquisition unit that acquires second integrated feature data for each of the clusters from the second generation unit that generates second integrated feature data as the feature data;
Based on the first integrated feature data for each cluster acquired by the first acquisition unit and the second integrated feature data for each cluster acquired by the second acquisition unit, as the new database A combining unit that generates a combined database including combined data obtained by combining the first integrated feature data and the second integrated feature data for each of the clusters;
An information processing system comprising:
請求項1記載の情報処理システムであって、
前記第一及び第二グループの構成体は、消費者であり、前記第一データベースは、前記第一グループの消費者毎に、当該消費者の第一の特徴を表す特徴データを有し、前記第二データベースは、前記第二グループの消費者毎に、当該消費者の第二の特徴を表す特徴データを有する情報処理システム。
The information processing system according to claim 1, wherein
The members of the first and second groups are consumers, and the first database has, for each consumer of the first group, feature data representing a first feature of the consumer, The second database is an information processing system including, for each consumer of the second group, feature data representing a second feature of the consumer.
請求項1又は請求項2記載の情報処理システムであって、
前記第一グループの構成体の夫々には、個別の第一の識別コードが割り当てられ、前記第一データベースは、前記第一グループの構成体毎の特徴データを、当該構成体の前記第一の識別コードと関連付けて記憶し、
前記第二グループの構成体の夫々には、個別の第二の識別コードが割り当てられ、前記第二データベースは、前記第二グループの構成体毎の特徴データを、当該構成体の前記第二の識別コードと関連付けて記憶し、
前記クラスタリング部は、前記第一の識別コードと前記第二の識別コードとの対応関係を表す情報に基づき、前記複数の構成体ペアを特定して前記複数のクラスタに分割し、前記クラスタ情報として、前記第一生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記第一の識別コードと関連付けて表すクラスタ情報を提供し、前記第二生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記第二の識別コードと関連付けて表すクラスタ情報を提供する情報処理システム。
The information processing system according to claim 1 or 2, wherein
Each of the first group of constructs is assigned a separate first identification code, and the first database comprises: feature data for each of the first group of constructs; Store in association with the identification code,
Each of the second group of constructs is assigned a separate second identification code, and the second database is configured to include feature data for each of the second group of constructs in the second group of said constructs. Store in association with the identification code,
The clustering unit identifies the plurality of construction body pairs based on the information indicating the correspondence between the first identification code and the second identification code, divides the plurality of construction pairs into the plurality of clusters, and determines the plurality of clusters as the cluster information. Providing cluster information representing a cluster to which each of the plurality of component pairs belongs in association with the first identification code, and providing the second generator with the plurality of component pairs. An information processing system for providing cluster information representing a cluster to which each belongs in association with the second identification code.
請求項1〜請求項3のいずれか一項に記載の情報処理システムであって、
前記複数の構成体ペアの夫々は、実体が同一であると推定される構成体のペアである情報処理システム。
The information processing system according to any one of claims 1 to 3, wherein
An information processing system, wherein each of the plurality of component pairs is a pair of components whose entities are assumed to be identical.
請求項1又は請求項2記載の情報処理システムであって、
前記第一及び第二データベースは、前記第一データベースと前記第二データベースとの間で共通する識別コードを用いて、各構成体の特徴データを、対応する構成体の識別コードと関連付けて記憶し、
前記クラスタリング部は、前記複数の構成体ペアとして、前記第一データベースと前記第二データベースとの間で同一の識別コードが関連付けられた前記特徴データのペアに対応する構成体ペアの複数を、複数のクラスタに分割し、前記クラスタ情報として、前記第一及び第二生成部に、前記複数の構成体ペアの夫々が属するクラスタを前記識別コードと関連付けて表すクラスタ情報を提供する情報処理システム。
The information processing system according to claim 1 or 2, wherein
The first and second databases store the feature data of each structure in association with the identification code of the corresponding structure using an identification code common to the first database and the second database. ,
The clustering unit includes, as the plurality of constituent pairs, a plurality of constituent pairs corresponding to the pair of the feature data in which the same identification code is associated between the first database and the second database. An information processing system for dividing the data into clusters and representing, as the cluster information, the first and second generation units in association with the identification code and representing the clusters to which each of the plurality of component pairs belongs.
請求項1〜請求項5のいずれか一項に記載の情報処理システムであって、
前記クラスタリング部は、前記複数の構成体ペアを、前記複数の構成体ペア間の類似度に基づき、前記複数のクラスタに分割する情報処理システム。
The information processing system according to any one of claims 1 to 5, wherein
The information processing system, wherein the clustering unit divides the plurality of constituent pairs into the plurality of clusters based on the degree of similarity between the plurality of constituent pairs.
請求項6記載の情報処理システムであって、
前記クラスタリング部は、前記複数の構成体ペア間の前記第一及び第二の特徴の少なくとも一方に関する類似度を特定可能な類似度情報を取得し、前記取得した類似度情報に基づき、前記複数の構成体ペアを、前記第一及び第二の特徴の少なくとも一方が類似する構成体ペアをまとめるように、前記複数のクラスタに分割する情報処理システム。
The information processing system according to claim 6, wherein
The clustering unit acquires similarity information that can specify the similarity of at least one of the first and second features between the plurality of construction body pairs, and the plurality of the clustering units are based on the acquired similarity information. An information processing system, wherein a construction pair is divided into the plurality of clusters such that construction pairs in which at least one of the first and second features is similar are put together.
請求項6又は請求項7記載の情報処理システムであって、
前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記第一の特徴に関する複数の構成体間の類似度を表すリストを、前記クラスタリング部に提供し、
前記第二生成部は、前記第二グループに属する複数の構成体のリストであって、前記第二の特徴に関する複数の構成体間の類似度を表すリストを、前記クラスタリング部に提供し、
前記クラスタリング部は、前記第一生成部及び前記第二生成部から取得した前記リストに基づいて、前記複数の構成体ペアを、前記第一及び第二の特徴が類似する構成体ペアをまとめるように、前記複数のクラスタに分割する情報処理システム。
The information processing system according to claim 6 or 7, wherein
The first generation unit provides the clustering unit with a list representing a similarity between a plurality of constructs related to the first feature, the list being a list of a plurality of constructs belonging to the first group.
The second generation unit provides the clustering unit with a list representing a similarity between a plurality of constructs related to the second feature, the list being a list of a plurality of constructs belonging to the second group.
The clustering unit is configured to combine the plurality of structure pairs into a structure pair having similar first and second features based on the list acquired from the first generation unit and the second generation unit. An information processing system for dividing into a plurality of clusters.
請求項6記載の情報処理システムであって、
前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記構成体毎の属性値を含むリストを、前記クラスタリング部に提供し、
前記クラスタリング部は、前記属性値に基づき、前記複数の構成体ペア間の類似度を判定し、前記判定した類似度に基づき、前記複数の構成体ペアを、前記複数のクラスタに分割する情報処理システム。
The information processing system according to claim 6, wherein
The first generation unit provides the clustering unit with a list including a plurality of constructs belonging to the first group and including attribute values of the constructs.
The clustering unit determines similarity between the plurality of construct pairs based on the attribute value, and divides the plurality of construct pairs into the plurality of clusters based on the determined similarity. system.
請求項6記載の情報処理システムであって、
前記第一生成部は、前記第一グループに属する複数の構成体のリストであって、前記構成体毎の第一の属性値を含むリストを、前記クラスタリング部に提供し、
前記第二生成部は、前記第二グループに属する複数の構成体のリストであって、前記構成体毎の第二の属性値を含むリストを、前記クラスタリング部に提供し、
前記クラスタリング部は、前記第一及び前記第二の属性値に基づき、前記複数の構成体ペア間の類似度を判定し、前記判定した類似度に基づき、前記複数の構成体ペアを、前記複数のクラスタに分割する情報処理システム。
The information processing system according to claim 6, wherein
The first generation unit provides the clustering unit with a list including a plurality of constituents belonging to the first group and including a first attribute value of each of the constituents.
The second generation unit provides the clustering unit with a list including a plurality of constituents belonging to the second group, the list including a second attribute value for each of the constituents.
The clustering unit determines the similarity between the plurality of construction pairs based on the first and second attribute values, and the plurality of construction pairs are determined based on the determined similarity. An information processing system that divides into clusters of.
請求項1〜請求項10のいずれか一項記載の情報処理システムであって、
前記第一生成部及び前記第一データベースは、第一の外部システムに設けられ、前記第二生成部及び前記第二データベースは、前記第一の外部システムとは独立した第二の外部システムに設けられ、前記情報処理システムは、前記第一及び第二の外部システムと通信可能に構成される情報処理システム。
The information processing system according to any one of claims 1 to 10, wherein
The first generation unit and the first database are provided in a first external system, and the second generation unit and the second database are provided in a second external system independent of the first external system. An information processing system configured to be communicable with the first and second external systems.
第一及び第二の外部システムと通信可能な情報処理システムであって、
前記第一の外部システムは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する第一データベースを備え、
前記第二の外部システムは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する第二データベースを備える情報処理システムにおいて、
前記第一の外部システムから前記第一グループに属する複数の構成体のリストを取得し、更には、前記第二の外部システムから前記第二グループに属する複数の構成体のリストを取得し、前記取得したリストに基づいて、前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、前記第一及び第二の外部システムに提供するクラスタリング部と、
前記第一の外部システムが、前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第一統合特徴データを、前記第一の外部システムから取得する第一取得部と、
前記第二の外部システムが、前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第二統合特徴データを、前記第二の外部システムから取得する第二取得部と、
前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
を備える情報処理システム。
An information processing system capable of communicating with first and second external systems, wherein
The first external system is provided with a first database having feature data representing a first feature of each of the first group of components,
In the information processing system, the second external system includes, for each of the members of the second group, a second database having feature data representing a second feature of the members.
Obtaining a list of a plurality of components belonging to the first group from the first external system, and further obtaining a list of a plurality of components belonging to the second group from the second external system; Based on the acquired list, a plurality of clusters of a pair of members between the first group and the second group, in which two members belonging to the pair at least correspond to each other, are referred to as a plurality of clusters A clustering unit for dividing the information into a plurality of clusters and providing cluster information representing a cluster to which each of the plurality of construct pairs belongs to the first and second external systems;
The first external system integrates feature data corresponding to the plurality of construct pairs included in the first database by statistical processing on the basis of the cluster information acquired from the clustering unit. A first acquisition unit for acquiring the generated first integrated feature data for each cluster from the first external system;
The second external system integrates feature data corresponding to the plurality of construct pairs included in the second database by statistical processing on the basis of the cluster information acquired from the clustering unit. A second acquisition unit for acquiring the generated second integrated feature data for each cluster from the second external system;
The first integrated feature data of the same cluster based on the first integrated feature data for each cluster acquired by the first acquisition unit and the second integrated feature data for each cluster acquired by the second acquisition unit A combination unit that generates a combination database including, for each of the clusters, combination data obtained by combining the second integrated feature data and the second integrated feature data;
An information processing system comprising:
外部システムと通信可能に構成された情報処理システムであって、
前記外部システムは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有する第一データベースを備え、
前記情報処理システムは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有する第二データベースを備え、
前記情報処理システムは、更に、
前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割し、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を、前記外部システムに提供するクラスタリング部と、
前記外部システムが、前記クラスタリング部から受信した前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを前記クラスタ毎に統計処理によって統合し、それにより生成した前記クラスタ毎の第一統合特徴データを、前記外部システムから取得する取得部と、
前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合することにより、前記クラスタ毎の第二統合特徴データを生成する生成部と、
前記取得部が取得した前記クラスタ毎の第一統合特徴データと、前記生成部が生成した前記クラスタ毎の第二統合特徴データと、に基づき、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
を備える情報処理システム。
An information processing system configured to be communicable with an external system,
The external system comprises, for each component of the first group, a first database having feature data representing a first feature of the component;
The information processing system comprises, for each of the members of the second group, a second database having feature data representing a second feature of the members,
The information processing system further includes
A plurality of construction pairs, each of which is a pair of constructions between the first group and the second group and in which two constructions belonging to the pair at least correspond to each other, are divided into a plurality of clusters; A clustering unit that provides the external system with cluster information representing a cluster to which each of the constituent pairs belongs;
The external system integrates feature data corresponding to the plurality of construct pairs included in the first database by statistical processing on the basis of the cluster information received from the clustering unit, and generates the data by the statistical processing. An acquisition unit for acquiring first integrated feature data for each cluster from the external system;
Generation is performed to generate second integrated feature data for each cluster by integrating feature data corresponding to the plurality of component pairs of the second database based on the cluster information by statistical processing for each cluster Department,
The first integrated feature data of the same cluster and the second integrated feature data of the same cluster based on the first integrated feature data of each cluster acquired by the acquisition unit and the second integrated feature data of the cluster generated by the generation unit. A combining unit for creating a combined database having combined data for each cluster, combined data being combined with integrated feature data;
An information processing system comprising:
第一及び第二データベースに基づく新たなデータベースを生成する情報処理システムであって、前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、前記第一及び第二グループは、共通する複数の構成体を少なくとも部分的に含む情報処理システムにおいて、
前記共通する複数の構成体を、複数のクラスタに分割し、前記共通する複数の構成体の夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング部と、
前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第一データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成する第一生成部、から前記クラスタ毎の第一統合特徴データを取得する第一取得部と、
前記クラスタリング部から取得した前記クラスタ情報に基づき、前記第二データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成する第二生成部、から前記クラスタ毎の第二統合特徴データを取得する第二取得部と、
前記第一取得部が取得した前記クラスタ毎の第一統合特徴データと、前記第二取得部が取得した前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合部と、
を備える情報処理システム。
An information processing system for generating a new database based on first and second databases, wherein the first database has feature data representing a first feature of a first group of components, for each component of the first group. The second database includes, for each of the second group of structures, feature data representing a second feature of the structures, and the first and second groups include at least a plurality of structures in common. In an information processing system that includes in part:
A clustering unit that divides the plurality of common constituents into a plurality of clusters and provides cluster information representing a cluster to which each of the plurality of common constituents belongs;
Based on the cluster information acquired from the clustering unit, feature data of the plurality of common constituents possessed by the first database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A first acquisition unit that generates a first integrated feature data as feature data; a first acquisition unit that acquires a first integrated feature data for each cluster from the first generation unit;
Based on the cluster information acquired from the clustering unit, feature data of the plurality of common constituents included in the second database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A second generation unit configured to generate second integrated feature data as feature data; and a second acquisition unit configured to obtain second integrated feature data for each cluster from the second generation unit;
Based on the first integrated feature data for each cluster acquired by the first acquisition unit and the second integrated feature data for each cluster acquired by the second acquisition unit, as the new database A combining unit that generates a combined database including combined data obtained by combining the first integrated feature data and the second integrated feature data for each of the clusters;
An information processing system comprising:
請求項1〜請求項12及び請求項14のいずれか一項記載の情報処理システムが備えるクラスタリング部と、第一取得部と、第二取得部と、結合部としての機能をコンピュータに実現させるためのプログラム。   In order to cause a computer to realize functions as a clustering unit, a first acquisition unit, a second acquisition unit, and a coupling unit included in the information processing system according to any one of claims 1 to 12 and claim 14. Programs. 第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法であって、
前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、
前記方法は、
前記第一グループと前記第二グループとの間の構成体のペアであって前記ペアに属する二つの構成体が互いに少なくとも対応する構成体ペアの複数を、複数のクラスタに分割して、前記複数の構成体ペアの夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、
前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第一データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成するデバイス、から前記クラスタ毎の第一統合特徴データを取得する第一取得手順と、
前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第二データベースが有する前記複数の構成体ペアに対応する特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成するデバイス、から前記クラスタ毎の第二統合特徴データを取得する第二取得手順と、
前記第一取得手順により取得された前記クラスタ毎の第一統合特徴データと、前記第二取得手順により取得された前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合手順と、
を含む情報処理方法。
An information processing method for generating a new database based on first and second databases,
The first database has feature data representing a first feature of the first group of components, and the second database includes the feature data of the second group of components. Having feature data representing the second feature,
The method is
A plurality of construction pairs between the first group and the second group, in which two constructions belonging to the pair at least correspond to each other, are divided into a plurality of clusters; A clustering procedure that provides cluster information representing the cluster to which each of the construct pairs belongs;
Based on the cluster information provided by the clustering procedure, feature data corresponding to the plurality of construct pairs included in the first database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A first acquisition procedure for acquiring the first integrated feature data for each cluster from the device for generating the first integrated feature data as the selected feature data;
Based on the cluster information provided by the clustering procedure, feature data corresponding to the plurality of constituent pairs included in the second database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A second acquisition procedure for acquiring second integrated feature data for each cluster from a device for generating second integrated feature data as the selected feature data;
The same as the new database based on the first integrated feature data for each cluster acquired by the first acquisition procedure and the second integrated feature data for each cluster acquired by the second acquisition procedure A combining procedure for creating a combined database having combined data for each cluster that combines the first integrated feature data of the cluster and the second integrated feature data;
Information processing method including:
第一及び第二データベースに基づく新たなデータベースを生成するための情報処理方法であって、
前記第一データベースは、第一グループの構成体毎に、当該構成体の第一の特徴を表す特徴データを有し、前記第二データベースは、第二グループの構成体毎に、当該構成体の第二の特徴を表す特徴データを有し、前記第一及び第二グループは、共通する複数の構成体を少なくとも部分的に含み、
前記方法は、
前記共通する複数の構成体を、複数のクラスタに分割して、前記共通する複数の構成体の夫々が属するクラスタを表すクラスタ情報を提供するクラスタリング手順と、
前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第一データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第一統合特徴データを生成するデバイス、から前記クラスタ毎の第一統合特徴データを取得する第一取得手順と、
前記クラスタリング手順により提供される前記クラスタ情報に基づき、前記第二データベースが有する前記共通する複数の構成体の特徴データを、前記クラスタ毎に統計処理によって統合し、それにより前記クラスタ毎に前記統合された特徴データとしての第二統合特徴データを生成するデバイス、から前記クラスタ毎の第二統合特徴データを取得する第二取得手順と、
前記第一取得手順により取得された前記クラスタ毎の第一統合特徴データと、前記第二取得手順により取得された前記クラスタ毎の第二統合特徴データと、に基づき、前記新たなデータベースとして、同一クラスタの前記第一統合特徴データと前記第二統合特徴データとを結合した結合データを前記クラスタ毎に有する結合データベースを生成する結合手順と、
を含む情報処理方法。
An information processing method for generating a new database based on first and second databases,
The first database has feature data representing a first feature of the first group of components, and the second database includes the feature data of the second group of components. Having feature data representing a second feature, the first and second groups at least partially including a plurality of common components,
The method is
A clustering procedure for dividing the common plurality of structures into a plurality of clusters and providing cluster information representing a cluster to which each of the common plurality of structures belongs;
Based on the cluster information provided by the clustering procedure, feature data of the plurality of common constituents possessed by the first database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A first acquisition procedure for acquiring the first integrated feature data for each cluster from the device for generating the first integrated feature data as the selected feature data;
Based on the cluster information provided by the clustering procedure, feature data of the plurality of common constituents possessed by the second database are integrated by statistical processing for each cluster, whereby the integration is performed for each cluster A second acquisition procedure for acquiring second integrated feature data for each cluster from a device for generating second integrated feature data as the selected feature data;
The same as the new database based on the first integrated feature data for each cluster acquired by the first acquisition procedure and the second integrated feature data for each cluster acquired by the second acquisition procedure A combining procedure for creating a combined database having combined data for each cluster that combines the first integrated feature data of the cluster and the second integrated feature data;
Information processing method including:
JP2017197105A 2017-10-10 2017-10-10 Information processing system, information processing method, and program Active JP6302126B1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017197105A JP6302126B1 (en) 2017-10-10 2017-10-10 Information processing system, information processing method, and program
EP18865414.9A EP3671481A4 (en) 2017-10-10 2018-10-09 Information processing system, data provision system, and related method
PCT/JP2018/037559 WO2019073959A1 (en) 2017-10-10 2018-10-09 Information processing system, data provision system, and related method
US16/754,517 US11593513B2 (en) 2017-10-10 2018-10-09 Information processing system, data provision system, and related method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017197105A JP6302126B1 (en) 2017-10-10 2017-10-10 Information processing system, information processing method, and program

Publications (2)

Publication Number Publication Date
JP6302126B1 JP6302126B1 (en) 2018-03-28
JP2019070973A true JP2019070973A (en) 2019-05-09

Family

ID=61756645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017197105A Active JP6302126B1 (en) 2017-10-10 2017-10-10 Information processing system, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6302126B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020169972A (en) * 2019-04-03 2020-10-15 株式会社ミラック光学 Manual stage with anti-rattling mechanism
JP6803598B1 (en) * 2020-08-04 2020-12-23 Eaglys株式会社 Data sharing systems, data sharing methods, and data sharing programs

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175432A (en) * 2000-12-06 2002-06-21 Gala Inc Method for distributing concept mail to many targets with distribution mediation service device interposed and the same service device
JP2003288464A (en) * 2002-03-28 2003-10-10 Toto Ltd Marketing data providing system
US7636696B1 (en) * 1999-11-19 2009-12-22 Megasoft Consultants, Inc. System, method, and computer program product for maintaining consumer privacy and security in electronic commerce transactions
JP2015230353A (en) * 2014-06-04 2015-12-21 株式会社ロイヤリティマーケティング Information system, integration device, first unit, information processing method, and program
JP2016038780A (en) * 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス Information processing system and program
JP2016126609A (en) * 2015-01-06 2016-07-11 株式会社博報堂Dyホールディングス Information processing system, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636696B1 (en) * 1999-11-19 2009-12-22 Megasoft Consultants, Inc. System, method, and computer program product for maintaining consumer privacy and security in electronic commerce transactions
JP2002175432A (en) * 2000-12-06 2002-06-21 Gala Inc Method for distributing concept mail to many targets with distribution mediation service device interposed and the same service device
JP2003288464A (en) * 2002-03-28 2003-10-10 Toto Ltd Marketing data providing system
JP2015230353A (en) * 2014-06-04 2015-12-21 株式会社ロイヤリティマーケティング Information system, integration device, first unit, information processing method, and program
JP2016038780A (en) * 2014-08-08 2016-03-22 株式会社博報堂Dyホールディングス Information processing system and program
JP2016126609A (en) * 2015-01-06 2016-07-11 株式会社博報堂Dyホールディングス Information processing system, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020169972A (en) * 2019-04-03 2020-10-15 株式会社ミラック光学 Manual stage with anti-rattling mechanism
JP6803598B1 (en) * 2020-08-04 2020-12-23 Eaglys株式会社 Data sharing systems, data sharing methods, and data sharing programs
WO2022030136A1 (en) * 2020-08-04 2022-02-10 Eaglys株式会社 Data sharing system, data sharing method, and data sharing program
JP2022029386A (en) * 2020-08-04 2022-02-17 Eaglys株式会社 Data sharing system, data sharing method, and data sharing program

Also Published As

Publication number Publication date
JP6302126B1 (en) 2018-03-28

Similar Documents

Publication Publication Date Title
CN109344183B (en) Data interaction method and device, computer equipment and storage medium
US9348916B2 (en) Method and system for providing search services for a social media ecosystem
US9292885B2 (en) Method and system for providing social search and connection services with a social media ecosystem
US8694495B2 (en) Information processing device, information processing terminal, information processing method, and program
JP5913722B1 (en) Information processing system and program
CN110225036B (en) Account detection method, device, server and storage medium
US11593513B2 (en) Information processing system, data provision system, and related method
CN105930540A (en) Data processing system
CN105678317B (en) Information processing method and server
MX2012003721A (en) Systems and methods for social graph data analytics to determine connectivity within a community.
JP5649756B1 (en) Information processing system and program.
JP6365915B2 (en) Response device, response system, response method, and recording medium
JP6985518B2 (en) Client, server, and client-server systems adapted to generate personalized recommendations
CA3152848A1 (en) User identifying method and device, and computer equipment
JP6302126B1 (en) Information processing system, information processing method, and program
CN107437182B (en) Data distribution method and device
JP4522430B2 (en) RECOMMENDATION DEVICE AND RECOMMENDATION METHOD
CN113553609B (en) Method and system for predicting service by combining multiple parties based on privacy protection
CN114238397A (en) User data processing method, device, equipment, storage medium and program product
JP7310616B2 (en) Server device, data processing method, and communication program
JP2019197460A (en) Cluster generator, cluster generation method, and cluster generation program
CN112307297A (en) User identification unification method and system based on priority rule
JP6431229B1 (en) Information processing system, information processing method, and computer program
CN113609384B (en) Data subscription method, device and computer storage medium
JP2019175419A (en) Data providing system, data providing method, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171010

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171010

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180301

R150 Certificate of patent or registration of utility model

Ref document number: 6302126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250