JP2023070618A - Information processing system, computer program, and information processing method - Google Patents
Information processing system, computer program, and information processing method Download PDFInfo
- Publication number
- JP2023070618A JP2023070618A JP2022048893A JP2022048893A JP2023070618A JP 2023070618 A JP2023070618 A JP 2023070618A JP 2022048893 A JP2022048893 A JP 2022048893A JP 2022048893 A JP2022048893 A JP 2022048893A JP 2023070618 A JP2023070618 A JP 2023070618A
- Authority
- JP
- Japan
- Prior art keywords
- entities
- data set
- group
- entity
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 66
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000003672 processing method Methods 0.000 title claims description 12
- 239000013598 vector Substances 0.000 claims abstract description 194
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000009467 reduction Effects 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims description 135
- 238000009826 distribution Methods 0.000 claims description 86
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 43
- 230000004927 fusion Effects 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 11
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006399 behavior Effects 0.000 description 44
- 238000004458 analytical method Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000012854 evaluation process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000011946 reduction process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示は、情報処理システム及び情報処理方法に関する。 The present disclosure relates to an information processing system and an information processing method.
従来、商品の販売データに基づき顧客の購買行動を分析することが行われている。顧客によるマスメディアやネットワークコンテンツへの接触行動を分析することも行われている。この他、アンケート形式や対面での質問形式により、顧客に関する多様な情報を収集することが行われている。 2. Description of the Related Art Conventionally, analysis of customer purchasing behavior is performed based on product sales data. Analyzes of customers' contact behavior with respect to mass media and network contents are also performed. In addition, various types of information about customers are collected in the form of questionnaires and face-to-face questions.
異なる手段で収集した複数のデータを共通変数に基づいて結合するデータフュージョン技術も知られている。例えば、出願人は、第一の顧客群に関する第一の特徴を表す第一のデータセットと、第二の顧客群に関する第二の特徴を表す第二のデータセットとを、第一のデータセットと第二のデータセットとの間で共通する変数、例えば、顧客のデモグラフィック属性に基づいて、近しい顧客の第一のデータと第二のデータとを結合するように、結合する技術を既に開示している(例えば、特許文献1参照)。 A data fusion technique is also known that combines a plurality of data collected by different means based on a common variable. For example, applicant may combine a first data set representing a first characteristic about a first group of customers and a second data set representing a second characteristic about a second group of customers into the first data set and a second data set, such as combining first and second data of close customers based on demographic attributes of the customer, such as (See, for example, Patent Document 1).
しかしながら、従来のデータフュージョン技術では、共通変数を用いて近しい顧客を判別するために、結合対象の第一のデータセットと第二のデータセットとの間に、顧客に関する共通変数が必要である。従って、従来技術では、共通変数のないデータ同士を結合することができない。 However, conventional data fusion techniques require a common variable about customers between the first data set and the second data set to be combined in order to use the common variable to determine close customers. Therefore, in the prior art, it is not possible to combine data that do not have common variables.
そこで、本開示の一側面によれば、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを実現可能な技術を提供できることが望ましい。 Therefore, according to one aspect of the present disclosure, the first It is desirable to be able to provide a technique that can realize correspondence between one entity and a second entity.
本開示の一側面によれば、情報処理システムが提供される。情報処理システムは、第一取得部と、第二取得部と、次元削減部と、対応付け部と、を備える。第一取得部は、複数の第一のエンティティに関する第一のデータセットを取得するように構成される。第一のデータセットは、複数の第一のエンティティのそれぞれの特徴を記述し得る。 According to one aspect of the present disclosure, an information processing system is provided. The information processing system includes a first acquisition unit, a second acquisition unit, a dimensionality reduction unit, and an association unit. The first obtaining unit is configured to obtain a first data set for a plurality of first entities. The first data set may describe characteristics of each of the plurality of first entities.
第二取得部は、複数の第二のエンティティに関する第二のデータセットを取得するように構成される。第二のデータセットは、複数の第二のエンティティのそれぞれの特徴を記述し得る。 The second obtaining unit is configured to obtain a second data set for a plurality of second entities. The second data set may describe characteristics of each of the plurality of second entities.
次元削減部は、第一のデータセットから特定される第一の特徴ベクトルの一群、及び、第二のデータセットから特定される第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群を生成するように構成される。第二の低次元特徴ベクトルの一群は、第一の低次元特徴ベクトルの一群と同一次元数の特徴ベクトルの一群であり得る。 The dimension reduction unit performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It is configured to generate a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors. The group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
第一の特徴ベクトルのそれぞれは、複数の第一のエンティティのうちの対応する一つの特徴を表し得る。第二の特徴ベクトルのそれぞれは、複数の第二のエンティティのうちの対応する一つの特徴を表し得る。 Each first feature vector may represent a corresponding feature of the plurality of first entities. Each second feature vector may represent a corresponding feature of the plurality of second entities.
対応付け部は、第一の低次元特徴ベクトルの一群、及び、第二の低次元特徴ベクトルの一群に基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成される。 The associating unit associates each of the plurality of first entities with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. configured to match.
第一のエンティティの集合及び第二のエンティティの集合が互いに共通する母集団又は互いに関係する母集団からの部分集合である場合には、第一の特徴ベクトルと第二の特徴ベクトルとの間に共通変数が存在しなくても、次元削減によって、第一のエンティティの特徴及び第二のエンティティの特徴を、互いに共通する又は関係する成分の組合せで表現することができる。 between the first feature vector and the second feature vector if the first set of entities and the second set of entities are subsets from a common population or a mutually related population Even in the absence of common variables, dimensionality reduction allows features of the first entity and features of the second entity to be represented by combinations of components that are common or related to each other.
すなわち、次元削減によれば、第一の特徴ベクトル及び第二の特徴ベクトルから互いに共通する又は関係する主要な特徴成分を抽出することができる。従って、低次元特徴ベクトルの比較によれば、第一のエンティティと第二のエンティティとの間の適合度を、適切に判別することができる。 That is, according to dimensionality reduction, it is possible to extract main feature components that are common or related to each other from the first feature vector and the second feature vector. Therefore, by comparing the low-dimensional feature vectors, it is possible to appropriately determine the degree of matching between the first entity and the second entity.
従って、本開示の一側面によれば、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを適切に行うことができる。 Therefore, according to one aspect of the present disclosure, the first It is possible to properly associate one entity with a second entity.
本開示の一側面によれば、対応付け部は、第一の低次元特徴ベクトルの一群から特定される第一のエンティティ間の類似度、及び、第二の低次元特徴ベクトルの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることができる。 According to one aspect of the present disclosure, the associating unit is the similarity between the first entities identified from the first group of low-dimensional feature vectors and the second group of low-dimensional feature vectors identified from the Each of the plurality of first entities is divided into a plurality of It can be associated with at least one of the second entities.
第一のエンティティの集合、及び、第二のエンティティの集合が共通する母集団又は互いに関係する母集団からの部分集合である場合には、エンティティ間の類似度に関する相互関係が、母集団と同様に、第一のエンティティの集合と、第二のエンティティの集合との間で、およそ互いに共通する又は関係する。 If the first set of entities and the second set of entities are subsets from a common population or mutually related populations, then the mutual relationships in terms of similarity between the entities are similar to the populations. In addition, the first set of entities and the second set of entities generally have or are related to each other.
従って、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることによれば、第一のエンティティのそれぞれを、同一性の高い又は関係性の強い適切な第二のエンティティに対応付けることができる。 Therefore, each of the plurality of first entities is associated with at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities. Possibly, each first entity can be associated with a suitable second entity that is highly identical or closely related.
本開示の一側面によれば、第一の低次元特徴ベクトルは、第一の特徴空間によって定義され得る。第二の低次元特徴ベクトルは、第二の特徴空間によって定義され得る。対応付け部は、第一の低次元特徴ベクトルの一群から特定される第一の特徴空間における複数の第一のエンティティの分布が、第二の低次元特徴ベクトルの一群から特定される第二の特徴空間における複数の第二のエンティティの分布に適合するように、第一の特徴空間上の複数の第一のエンティティを第二の特徴空間にマッピングするための写像を探索し得る。
対応付け部は、写像に基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成され得る。
According to one aspect of the disclosure, a first low-dimensional feature vector may be defined by a first feature space. A second low-dimensional feature vector may be defined by a second feature space. The associating unit is configured such that the distribution of the plurality of first entities in the first feature space specified from the group of first low-dimensional feature vectors is specified from the group of second low-dimensional feature vectors. A mapping may be searched to map the plurality of first entities on the first feature space to the second feature space to match the distribution of the plurality of second entities in the feature space.
The mapping unit may be configured to map each of the plurality of first entities to at least one of the plurality of second entities based on the mapping.
本開示の一側面によれば、対応付け部は、行列K、行列L、及び行列Hを含む式
行列Kは、N行N列の行列であり得る。第一のエンティティの数は、Nであり得る。第二のエンティティの数は、第一のエンティティと同じであり得る。行列Kは、第i行第j列の要素の値が、複数の第一のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表す第一の類似度行列であり得る。 Matrix K may be a matrix with N rows and N columns. The number of first entities may be N; The number of second entities can be the same as the first entity. The matrix K is a first similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of first entities. obtain.
行列Kにおける第i行第j列の要素の値は、複数の第一のエンティティのうちのi番目のエンティティの第一の低次元特徴ベクトルと、複数の第一のエンティティのうちのj番目のエンティティの第一の低次元特徴ベクトルと、に基づいて算出され得る。 The value of the i-th row and j-th column element in the matrix K is the first low-dimensional feature vector of the i-th entity among the plurality of first entities and the j-th and a first low-dimensional feature vector of the entity.
行列Lは、N行N列の行列であり得る。行列Lは、第i行第j列の要素の値が、複数の第二のエンティティのうちのi番目のエンティティとj番目のエンティティとの間の類似度を表す第二の類似度行列である。 The matrix L may be a matrix with N rows and N columns. The matrix L is a second similarity matrix in which the value of the element in the i-th row and j-th column represents the similarity between the i-th entity and the j-th entity among the plurality of second entities. .
行列Lにおける第i行第j列の要素の値は、複数の第二のエンティティのうちのi番目のエンティティの第二の低次元特徴ベクトルと、複数の第二のエンティティのうちのj番目のエンティティの第二の低次元特徴ベクトルと、に基づいて算出され得る。 The value of the i-th row and j-th column element in the matrix L is the second low-dimensional feature vector of the i-th entity among the plurality of second entities and the j-th feature vector of the plurality of second entities. and a second low-dimensional feature vector of the entity.
行列Hは、N行N列の行列であり得る。行列Hは、第i行第j列の要素の値が、i=jであるとき値1-1/Nを示し、i≠jであるとき値0を示す行列であり得る。
Matrix H may be a matrix with N rows and N columns. The matrix H may be a matrix in which the value of the element in the i-th row and j-th column indicates the
本開示の一側面によれば、対応付け部は、行列Ω*に基づいて、次元削減処理での次元削減方式を変更してもよい。例えば、対応付け部は、第一の低次元特徴ベクトルの一群及び第二の低次元特徴ベクトルの一群のうち、互いに対応する第一の低次元特徴ベクトルと第二の低次元特徴ベクトルとの間の特徴空間上の距離が短くなるように、次元削減処理での次元削減方式を変更してもよい。 According to one aspect of the present disclosure, the associating unit may change the dimensionality reduction method in the dimensionality reduction process based on the matrix Ω * . For example, the associating unit, of the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors, between the first low-dimensional feature vector and the second low-dimensional feature vector corresponding to each other The dimension reduction method in the dimension reduction process may be changed so that the distance in the feature space of is shortened.
本開示の一側面によれば、対応付け部は、行列Ω*に基づいて、次元削減処理での次元削減方式を変更し、変更後の次元削減方式での次元削減処理を、次元削減部に実行させ、それにより新たに得られた第一の低次元特徴ベクトルの一群及び第二の低次元特徴ベクトルの一群に基づいて、値Z(Ω)を最大化する行列Ωを行列Ω*として探索する再探索処理を、所定条件が満足されるまで繰返し実行することにより、行列Ω*を改善し、改善された行列Ω*に基づいて、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けるように構成されてもよい。 According to one aspect of the present disclosure, the associating unit changes the dimensionality reduction method in the dimensionality reduction processing based on the matrix Ω * , and performs the dimensionality reduction processing in the changed dimensionality reduction method to the dimensionality reduction unit. and search the matrix Ω that maximizes the value Z(Ω) as the matrix Ω * based on the group of the first low-dimensional feature vectors and the group of the second low-dimensional feature vectors newly obtained. The matrix Ω * is improved by repeatedly executing the re-search process until a predetermined condition is satisfied, and each of the plurality of first entities is processed by the plurality of second entities based on the improved matrix Ω * . may be configured to correspond to at least one of the entities of
対応付け部がこのように構成される情報処理システムによれば、第一のエンティティと第二のエンティティとの間の対応付けを、高精度に実行することができる。 According to the information processing system in which the associating unit is configured in this manner, associating between the first entity and the second entity can be executed with high accuracy.
本開示の一側面によれば、第一のデータセットは、複数の第一の特徴データを含み得る。複数の第一の特徴データのそれぞれは、複数の第一のエンティティのうちの対応する一つの特徴を表し得る。第二のデータセットは、複数の第二の特徴データを含み得る。複数の第二の特徴データのそれぞれは、複数の第二のエンティティのうちの対応する一つの特徴を表し得る。 According to one aspect of the present disclosure, the first data set may include multiple first feature data. Each of the plurality of first feature data may represent a corresponding one feature of the plurality of first entities. The second data set may include multiple second feature data. Each of the plurality of second feature data may represent a corresponding feature of the plurality of second entities.
本開示の一側面によれば、情報処理システムは、データフュージョン部を更に備え得る。データフュージョン部は、対応付け部による対応付けに基づき、第一のデータセットに含まれる複数の第一の特徴データのそれぞれに、第二のデータセットに含まれる複数の第二の特徴データのうちの一つを結合することによって、拡張データセットを生成するように構成され得る。拡張データセットは、複数の拡張データを備え得る。複数の拡張データのそれぞれは、対応する一つの第一の特徴データと第二の特徴データとの結合データであり得る。 According to one aspect of the present disclosure, the information processing system may further include a data fusion unit. The data fusion unit converts each of the plurality of first feature data included in the first data set to each of the plurality of second feature data included in the second data set based on the association by the associating unit. can be configured to generate an augmented data set by combining one of An extended data set may comprise multiple extended data. Each of the plurality of extended data can be combined data of corresponding one first feature data and second feature data.
こうした情報処理システムによれば、複数のデータセットを結合した情報量の多いデータセットを生成することが可能である。 According to such an information processing system, it is possible to generate a dataset with a large amount of information by combining a plurality of datasets.
本開示の一側面によれば、第一のエンティティは、人であり得る。第二のエンティティは、人であり得る。第一のデータセットは、第一の集団に属する複数の人のそれぞれの第一の特徴を記述するデータセットであり得る。第二のデータセットは、第二の集団の属する複数の人のそれぞれの第二の特徴を記述するデータセットであり得る。 According to one aspect of the disclosure, the first entity may be a person. A second entity can be a person. The first data set may be a data set describing a first characteristic of each of a plurality of persons belonging to the first population. The second data set can be a data set describing a second characteristic of each of the plurality of persons belonging to the second population.
人の行動や関心等に関する特徴は、デモグラフィック属性に大きく影響し、異なる人の集団の間でも、デモグラフィック属性に応じた特徴分布は、大きく変わらないと考えられる。従って、本開示の一側面に係る情報処理システムによれば、共通変数なしで、異なる集団間の人に関する対応付けを、適切に行うことが可能である。 It is believed that features related to human behavior, interests, etc. greatly affect demographic attributes, and that feature distributions according to demographic attributes do not vary greatly even among different groups of people. Therefore, according to the information processing system according to one aspect of the present disclosure, it is possible to appropriately associate people in different groups without common variables.
本開示の一側面によれば、第一の特徴と第二の特徴との組合せは、購買行動に関する特徴と、オンライン空間及びオフライン空間の少なくとも一方の空間における移動に関する特徴、及び/又は、空間上の複数の地点への訪問に関する特徴と、の組合せであり得る。こうした特徴に関係するデータセットに基づいたエンティティの対応付けは、更には、データフュージョンは、人の行動分析に役立つ。 According to one aspect of the present disclosure, the combination of the first feature and the second feature includes a feature related to purchasing behavior, a feature related to movement in at least one of the online space and the offline space, and/or spatially and features relating to visits to multiple points of. Entity matching based on datasets related to these features, and furthermore data fusion, aids in human behavior analysis.
本開示の一側面によれば、第二のデータセットには、複数の第二のエンティティのそれぞれに対応する情報端末の識別情報が関連付けられていてもよい。 According to one aspect of the present disclosure, the second data set may be associated with identification information of information terminals corresponding to each of the plurality of second entities.
本開示の一側面によれば、情報処理システムは、上記識別情報に基づいて、複数の第二のエンティティのうち、情報コンテンツの配信先として選択された第二のエンティティの集合に対応する情報端末の集合に、情報コンテンツを配信するように構成される配信部を備えていてもよい。 According to one aspect of the present disclosure, an information processing system includes an information terminal corresponding to a set of second entities selected as distribution destinations of information content among a plurality of second entities based on the identification information. may comprise a distributor configured to distribute the information content.
本開示の一側面によれば、情報処理システムは、対応付け部により複数の第一のエンティティのいずれかと対応付けられた第二のエンティティの集合の少なくとも一部を、情報コンテンツの配信先に選択する選択部を備えていてもよい。 According to one aspect of the present disclosure, an information processing system selects at least part of a set of second entities associated with one of a plurality of first entities by an associating unit as an information content delivery destination. It may be provided with a selection unit to select.
この情報処理システムは、第一のエンティティ及び第二のエンティティが人であるときに有意義に機能する。上述の配信方式によれば、第一のエンティティと情報端末との対応関係が不明であるときにも、第二のエンティティに関連付けられた情報端末の識別情報を活用して、第一のエンティティに対応する第二のエンティティの情報端末に適切に情報コンテンツを配信することができる。 This information processing system functions meaningfully when the first entity and the second entity are people. According to the distribution method described above, even when the correspondence relationship between the first entity and the information terminal is unknown, the identification information of the information terminal associated with the second entity can be used to send the information to the first entity. The information content can be appropriately distributed to the information terminal of the corresponding second entity.
本開示の一側面によれば、選択部は、対応付け部により複数の第一のエンティティのいずれかと対応付けられた第二のエンティティの集合である第一の集合と、複数の第二のエンティティのうち、第一の集合と特徴が類似する第二の集合と、を情報コンテンツの配信先に選択するように構成されてもよい。こうした配信先の選択によれば、第二のデータセットに基づいて、配信先を適切な範囲で拡張して、情報コンテンツを配信することができる。 According to one aspect of the present disclosure, the selection unit includes a first set that is a set of second entities associated with any of the plurality of first entities by the association unit, and a plurality of second entities. Of these, the second set having similar features to the first set may be selected as the distribution destination of the information content. According to such selection of distribution destinations, it is possible to distribute the information content by expanding the distribution destinations within an appropriate range based on the second data set.
本開示の一側面によれば、第二のデータセットは、複数の第二のエンティティのそれぞれの行動に関する特徴を記述するデータセットであってもよい。この場合、情報処理システムは、複数の第一のエンティティの少なくとも一部のエンティティに関して、エンティティ毎に、第二のデータセットから特定される対応付け部によって当該エンティティに対応付けられた複数の第二のエンティティの少なくとも一つの行動に関する特徴に基づき、当該エンティティの行動に関する推定値を算出する推定部を備えていてもよい。この場合、第一のエンティティ及び第二のエンティティは、人であり得る。 According to one aspect of the present disclosure, the second data set may be a data set describing behavioral characteristics of each of the plurality of second entities. In this case, with respect to at least some of the plurality of first entities, the information processing system provides, for each entity, a plurality of second an estimating unit for calculating an estimated value for the behavior of the entity based on at least one behavioral characteristic of the entity. In this case, the first entity and the second entity may be people.
上述の推定部を備える情報処理システムによれば、第一のデータセットだけでは判別できない第一のエンティティの行動を、第二のデータセットを通じて推定することが可能である。推定は、予測であってもよい。 According to the information processing system including the estimation unit described above, it is possible to estimate the behavior of the first entity, which cannot be determined only by the first data set, through the second data set. An estimate may be a prediction.
本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、次元削減部、及び、対応付け部の少なくとも一部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。 According to one aspect of the present disclosure, a computer program for causing a computer to function as at least part of the first acquisition unit, the second acquisition unit, the dimension reduction unit, and the association unit in the information processing system described above is provided. may be
本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、次元削減部、対応付け部、配信部、及び、選択部の少なくとも一部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。 According to one aspect of the present disclosure, a computer functions as at least a part of the first acquisition unit, the second acquisition unit, the dimension reduction unit, the association unit, the distribution unit, and the selection unit in the information processing system described above. A computer program may be provided for.
本開示の一側面によれば、上述した情報処理システムにおける第一取得部、第二取得部、次元削減部、対応付け部、及び、推定部の少なくとも一部として、コンピュータを機能させるためのコンピュータプログラムが提供されてもよい。これらのコンピュータプログラムは、記録媒体に記録されて、提供されてもよい。 According to one aspect of the present disclosure, a computer for causing a computer to function as at least a part of the first acquisition unit, the second acquisition unit, the dimension reduction unit, the association unit, and the estimation unit in the information processing system described above A program may be provided. These computer programs may be recorded on a recording medium and provided.
本開示の一側面によれば、上述した情報処理システムが実行する方法に対応する情報処理方法が提供されてもよい。本開示の一側面によれば、コンピュータにより実行される情報処理方法が提供されてもよい。情報処理方法は、複数の第一のエンティティに関する第一のデータセットであって、複数の第一のエンティティのそれぞれの特徴を記述する第一のデータセットを取得することを含み得る。 According to one aspect of the present disclosure, an information processing method corresponding to the method executed by the information processing system described above may be provided. According to one aspect of the present disclosure, a computer-implemented information processing method may be provided. The information processing method may include obtaining a first data set relating to a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities.
情報処理方法は、複数の第二のエンティティに関する第二のデータセットであって、複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得することを含み得る。 The information processing method may include obtaining a second data set relating to a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities.
情報処理方法は、第一のデータセットから特定される第一の特徴ベクトルの一群、及び、第二のデータセットから特定される第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群を生成することを含み得る。第二の低次元特徴ベクトルの一群は、第一の低次元特徴ベクトルの一群と同一次元数の特徴ベクトルの一群であり得る。 The information processing method performs dimension reduction processing on a group of first feature vectors identified from the first data set and a group of second feature vectors identified from the second data set, It may include generating a first set of low-dimensional feature vectors corresponding to the first set of feature vectors and a second set of low-dimensional feature vectors corresponding to the second set of feature vectors. The group of second low-dimensional feature vectors may be a group of feature vectors having the same number of dimensions as the group of first low-dimensional feature vectors.
第一の特徴ベクトルのそれぞれは、複数の第一のエンティティのうちの対応する一つの特徴を表し得る。第二の特徴ベクトルのそれぞれは、複数の第二のエンティティのうちの対応する一つの特徴を表し得る。 Each first feature vector may represent a corresponding feature of the plurality of first entities. Each second feature vector may represent a corresponding feature of the plurality of second entities.
情報処理方法は、第一の低次元特徴ベクトルの一群、及び、第二の低次元特徴ベクトルの一群に基づき、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることを含み得る。 The information processing method converts each of the plurality of first entities into at least one of the plurality of second entities based on the set of first low-dimensional feature vectors and the set of second low-dimensional feature vectors. may include matching.
本開示の一側面によれば、対応付けることは、第一の低次元特徴ベクトルの一群から特定される第一のエンティティ間の類似度、及び、第二の低次元特徴ベクトルの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの一つに対応付けることを含み得る。 According to one aspect of the present disclosure, the matching is a measure of similarity between a first entity identified from a first set of low-dimensional feature vectors and a measure of similarity between entities identified from a second set of low-dimensional feature vectors. Based on the similarity between the second entities, each of the plurality of first entities is combined with the plurality of second entities such that the correlation between the first entities with respect to the similarity matches the correlation between the second entities. It may involve mapping to one of two entities.
こうした情報処理方法によれば、上述した情報処理システムと同様に、共通変数によらずに、複数の第一のエンティティに関する第一のデータセットと、複数の第二のエンティティに関する第二のデータセットとに基づいて、第一のエンティティと第二のエンティティとの対応付けを実現可能である。 According to this information processing method, as in the information processing system described above, a first data set regarding a plurality of first entities and a second data set regarding a plurality of second entities are obtained without using a common variable. A correspondence between the first entity and the second entity can be realized based on .
以下に本開示の例示的実施形態を、図面を参照しながら説明する。
<第一実施形態>
本実施形態の情報処理システム1は、汎用コンピュータに専用のコンピュータプログラムPrがインストールされて構成される。情報処理システム1は、図1に示すように、プロセッサ11と、メモリ13と、ストレージ15と、ユーザインタフェース17と、通信インタフェース19とを備える。
Exemplary embodiments of the present disclosure are described below with reference to the drawings.
<First embodiment>
The
プロセッサ11は、ストレージ15に格納されたコンピュータプログラムPrに従う処理を実行する。メモリ13は、RAMを備える一次記憶装置であり、プロセッサ11による処理の実行時に作業エリアとして使用される。
The
ストレージ15は、例えばハードディスクドライブ又はソリッドステートドライブを備える二次記憶装置であり、コンピュータプログラムPrの他、コンピュータプログラムPrに従う処理の実行時に供される各種データを記憶する。
The
ユーザインタフェース17は、情報処理システム1を操作するユーザからの操作信号をプロセッサ11に入力するための入力デバイスと、ユーザに対して各種情報を表示するためのディスプレイと、を備える。入力デバイスの例には、キーボード及びポインティングデバイスが含まれる。
The
通信インタフェース19は、LAN(ローカルエリアネットワーク)インタフェース及びUSB(ユニバーサル・シリアル・シリアル)インタフェースを含み、外部装置との通信に使用される。情報処理システム1は、通信インタフェース19を通じて外部装置との間でデータ送受する。
The
情報処理システム1におけるプロセッサ11は、コンピュータプログラムPrに従う処理の実行により、通信インタフェース19を通じて外部装置から取得した第一のデータセット15Aを、第二のデータセット15Bを用いて拡張した拡張データセット15Cを生成する。
The
拡張データセット15Cは、第一のデータセット15Aに対して、第二のデータセット15Bが備える情報を付加したデータセットである。拡張により、第一のデータセット15Aが記述する各エンティティの情報量は増大する。エンティティは、例えば人である。情報量の増大は、拡張データセット15Cに基づいた人の行動分析や広告配信のために行われる。
The extended data set 15C is a data set obtained by adding information included in the
具体的に、情報処理システム1のプロセッサ11は、ユーザインタフェース17を通じてユーザからの実行指令が入力されると、図2に示す分析処理を実行する。図2に示す分析処理を開始すると、プロセッサ11は、データフュージョン対象の第一のデータセット15Aと第二のデータセット15Bとを取得する(S110,S120)。
Specifically, the
S110,S120において、プロセッサ11は、ストレージ15に予め格納された第一のデータセット15A及び第二のデータセット15Bを、ストレージ15から読み出す。これにより、プロセッサ11は、第一のデータセット15A及び第二のデータセット15Bを取得する。
In S110 and S120, the
取得すべき第一のデータセット15A及び第二のデータセット15Bは、ユーザから指定され得る。ユーザは、データフュージョン対象の第一のデータセット15A及び第二のデータセット15Bを予め収集してストレージ15に格納することができる。
The first data set 15A and the
あるいは、プロセッサ11は、通信インタフェース19を用いた通信により、第一の外部装置から第一のデータセット15Aを取得し、第二の外部装置から第二のデータセット15Bを取得することができる。
Alternatively, the
具体的に、第一のデータセット15Aは、複数の第一のエンティティに関するデータセットであって、第一のエンティティのそれぞれの第一の特徴を記述するデータセットである。第一のデータセット15Aは、第一の特徴データの集合であり、第一の特徴データのそれぞれは、複数の第一のエンティティのうちの対応する一つのエンティティの第一の特徴を表す。
Specifically, the
第二のデータセット15Bは、複数の第二のエンティティに関するデータセットであって、第二のエンティティのそれぞれの第二の特徴を記述するデータセットである。第二の特徴は、第一の特徴とは異なる特徴であり得る。具体的に、第二のデータセット15Bは、第二の特徴データの集合であり、第二の特徴データのそれぞれは、複数の第二のエンティティのうちの対応する一つのエンティティの第二の特徴を表す。
A
第一のエンティティの集合、及び、第二のエンティティの集合は、例えば、互いに共通する母集団における異なる部分集合である。母集団は、人の集合、又は、消費者の集合であり得る。例えば第一のエンティティの集合は、第一の企業の顧客に対応する人の集合であり得て、第二のエンティティの集合は、第一の企業とは異なる第二の企業の顧客に対応する人の集合であり得る。 The first set of entities and the second set of entities are, for example, different subsets of a common population. A population can be a collection of people or a collection of consumers. For example, a first set of entities may be a set of people corresponding to customers of the first company, and a second set of entities correspond to customers of a second company that is different from the first company. It can be a group of people.
あるいは、第一のエンティティの集合は、第一の行動の収集対象とされる人の集合であり得て、第二のエンティティの集合は、第二の行動の収集対象とされる人の集合であり得る。 Alternatively, the first set of entities may be the set of people from whom the first behavior is collected, and the second set of entities is the set of people from whom the second behavior is collected. could be.
図3Aに示される第一のデータセット15Aは、第一の人の集合に関するデータであり、人毎の購買行動に関する特徴データを備える。各特徴データは、対応する人のIDに関連付けて、複数の商品P1,P2,P3,…のそれぞれを、対応する人が購入したかを1又は0の2値で表す。
A
図3Bに示される第二のデータセット15Bは、第二の人の集合に関するデータであり、人毎のウェブコンテンツの閲覧行動に関する特徴データを備える。各特徴データは、対応する人のIDに関連付けて、複数のウェブサイトS1,S2,S3,…のそれぞれについて、対応するウェブサイトを、対応する人が訪問してウェブコンテンツを閲覧したか否かを1又は0の2値で表す。
A
プロセッサ11は、S110において、取得した第一のデータセット15Aに含まれる第一のエンティティ毎の第一の特徴データに基づいて、第一のエンティティ毎のM1次元特徴ベクトルx=(x1,x2,x3,…)を生成する。一例によれば、特徴ベクトルxの要素x1,x2,x3,…は、それぞれ、対応する人の商品P1,P2,P3,…の購買の有無を表し得る。
In S110, the
同様に、プロセッサ11は、S120において、取得した第二のデータセット15Bに含まれる第二のエンティティ毎の第二の特徴データに基づいて、第二のエンティティ毎のM2次元特徴ベクトルy=(y1,y2,y3,…)を生成する。一例によれば、特徴ベクトルyの要素y1,y2,y3,…は、それぞれ、対応する人のウェブサイトS1,S2,S3,…でのウェブコンテンツの閲覧有無を表し得る。
Similarly, in S120, the
その後、プロセッサ11は、特徴ベクトルxの一群に対する次元削減処理(S130)により、各特徴ベクトルxを、M1次元特徴ベクトルから、それより小さいM次元の特徴ベクトルである低次元特徴ベクトルDx=(Dx1,Dx2,…)に変換する。これにより、プロセッサ11は、特徴ベクトルxの一群に対応する低次元特徴ベクトルDxの一群を生成する。図3Aの右下領域は、低次元特徴ベクトルDxの例を、テーブルにより示す。
After that, the
プロセッサ11は更に、特徴ベクトルyの一群に対する次元削減処理(S140)により、各特徴ベクトルyを、M2次元特徴ベクトルから、それより小さいM次元の特徴ベクトルである低次元特徴ベクトルDy=(Dy1,Dy2,…)に変換する。これにより、プロセッサ11は、特徴ベクトルyの一群に対応する低次元特徴ベクトルDyの一群を生成する。低次元特徴ベクトルDyは、低次元特徴ベクトルDxと同一次元数Mの特徴ベクトルである。図3Bの右下領域は、低次元特徴ベクトルDyの例を、テーブルにより示す。
Further, the
低次元空間への写像を実現するためのアルゴリズムの例としては、非負値行列分解(Nonnegative Matrix Factorization)、潜在的ディリクレ分配(latent dirichlet allocation )、特異値分解(singular value decomposition)、及び、確率的潜在意味解析(Probabilistic Latent Semantic Analysis)が知られている。S130,S140における次元削減処理は、これらのアルゴリズムの一つを用いて実行され得る。 Examples of algorithms for realizing mapping to a low-dimensional space include nonnegative matrix factorization, latent dirichlet allocation, singular value decomposition, and stochastic Latent Semantic Analysis is known. The dimensionality reduction process at S130, S140 can be performed using one of these algorithms.
上述したアルゴリズムによれば、特徴ベクトルは、エンティティの個々を強く特徴付ける主要な特徴成分が抽出されるように、あるいは、エンティティの個々を区別するための情報の損失が少ない形式で、低次元化される。 According to the algorithm described above, the feature vectors are reduced in dimension so that the main feature components that strongly characterize the individual entities are extracted, or in a form with less information loss to distinguish the individual entities. be.
その後、プロセッサ11は、低次元特徴ベクトルDxの一群と、低次元特徴ベクトルDyの一群と、に基づいて、第一のエンティティのそれぞれと、第二のエンティティのそれぞれとの対応関係を計算するアライメント処理を行う(S150-S180)。
After that, the
アライメント処理は、カーネライズドソーティング(Kernelized Sorting)の技術を用いて行われる。以下には、カーネライズドソーティングを用いたアライメント処理の詳細を説明するが、アライメント処理は、敵対的学習、Gromov-Wasserstein Alignment技術、又は、不均衡最適輸送(Unbalanced Optimal Transport)技術を用いて実現されてもよい。 Alignment processing is performed using a kernelized sorting technique. The details of alignment processing using kernelized sorting will be described below. Alignment processing is realized using adversarial learning, Gromov-Wasserstein Alignment technology, or Unbalanced Optimal Transport technology. may be
S150において、プロセッサ11は、低次元特徴ベクトルDxの一群を用いて、第一のエンティティの集合に関する類似度行列Kを生成する。類似度行列Kは、N行N列の正方行列である。ここで、Nは、低次元特徴ベクトルDxの個数、換言すれば、第一のエンティティの数である。
At S150, the
類似度行列Kは、第i行第j列の要素の値Kijが、第一のエンティティの集合におけるi番目のエンティティとj番目のエンティティとの間の類似度を表す行列として定義される。 The similarity matrix K is defined as a matrix in which the value Kij of the i-th row and j-th column element represents the similarity between the i-th entity and the j-th entity in the first set of entities.
すなわち、類似度行列Kは、第一のエンティティの集合に関して、エンティティ間の類似度の分布を説明する行列として定義される。換言すれば、類似度行列Kは、第一のエンティティの集合に関して、特徴空間上のエンティティの分布を、エンティティ間の近しさの尺度を用いて説明する行列として定義される。 That is, the similarity matrix K is defined as a matrix that describes the distribution of similarities between entities with respect to the first set of entities. In other words, the similarity matrix K is defined as a matrix that describes the distribution of entities on the feature space with respect to the first set of entities using a measure of closeness between entities.
具体的に、類似度は、i番目のエンティティの低次元特徴ベクトルDxである低次元特徴ベクトルDx[i]と、j番目のエンティティの低次元特徴ベクトルDxである低次元特徴ベクトルDx[j]と、をカーネル関数k(a,b)に代入した値k(Dx[i],Dx[j])として算出される。すなわち、Kij=k(Dx[i],Dx[j])である。 Specifically, the similarity is calculated using a low-dimensional feature vector Dx[i], which is the low-dimensional feature vector Dx of the i-th entity, and a low-dimensional feature vector Dx[j], which is the low-dimensional feature vector Dx of the j-th entity. and are substituted into the kernel function k(a, b) as a value k(Dx[i], Dx[j]). That is, Kij=k(Dx[i], Dx[j]).
カーネル関数k(a,b)の例には、次式で表されるガウシアンRBF(動径基底関数)カーネルが含まれる。このカーネル関数k(a,b)を用いて算出される類似度は、値0から値1までの範囲の値を採る。 Examples of kernel functions k(a,b) include Gaussian RBF (Radial Basis Function) kernels: The similarity calculated using this kernel function k(a, b) takes values ranging from 0 to 1.
S160において、プロセッサ11は、低次元特徴ベクトルDyの一群を用いて、第二のエンティティの集合に関する類似度行列Lを生成する。類似度行列Lは、N行N列の正方行列である。ここで、Nは、低次元特徴ベクトルDyの個数、換言すれば、第二のエンティティの数である。すなわち、第一のエンティティの数と、第二のエンティティの数は、同一である。
At S160,
類似度行列Lは、類似度行列Kと同様に、第i行第j列の要素の値Lijが第二のエンティティの集合のうち、i番目のエンティティとj番目のエンティティとの間の類似度を表す行列として定義される。すなわち、第i行第j列の要素の値Lij=k(Dy[i],Dy[j])である。 In the similarity matrix L, similar to the similarity matrix K, the value Lij of the element in the i-th row and j-th column indicates the similarity between the i-th entity and the j-th entity in the set of second entities. is defined as a matrix representing That is, the value Lij of the element in the i-th row and j-th column is Lij=k(Dy[i], Dy[j]).
続くS170において、プロセッサ11は、類似度行列K及び類似度行列Lを用いて、次式に従う値Z(Ω)を最大化する行列Ωを行列Ω*として探索する。
行列Ω*を探索することは、低次元特徴ベクトルDxの一群から特定される第一のエンティティ間の類似度、及び、低次元特徴ベクトルDyの一群から特定される第二のエンティティ間の類似度に基づき、類似度に関する第一のエンティティ間の相互関係が第二のエンティティ間の相互関係に適合するように、複数の第一のエンティティのそれぞれを、複数の第二のエンティティの少なくとも一つに対応付けることに対応する。 Searching the matrix Ω * is the similarity between a first entity identified from a set of low-dimensional feature vectors Dx and the similarity between a second entity identified from a set of low-dimensional feature vectors Dy each of the plurality of first entities to at least one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities based on Corresponding to correspond.
換言すれば、行列Ω*を探索することは、低次元特徴ベクトルDxの一群から特定される第一のM次元特徴空間における第一のエンティティの分布であって、エンティティ間の類似度で定義される第一のエンティティの分布が、低次元特徴ベクトルDyの一群から特定される第二のM次元特徴空間における第二のエンティティの分布に適合するように、第一のM次元特徴空間上の複数の第一のエンティティを第二のM次元特徴空間にマッピングするための写像を探索することに対応する。 In other words, searching the matrix Ω * is the distribution of the first entity in the first M-dimensional feature space identified from the group of low-dimensional feature vectors Dx, defined by the similarity between the entities. A plurality of to a second M-dimensional feature space.
図4Aの左グラフは、第一のエンティティの分布を概念的に表し、図4Bの左グラフは、第二のエンティティの分布を概念的に表す。図4A及び図4Bに示す例は、技術説明のためだけに、2次元の低次元特徴ベクトルDx,Dyを定義している。符号E11,E12,E13,E14,E15,E16,E17が付された各点は、第一のエンティティのそれぞれの特徴空間上の位置を示す。符号E21,E22,E23,E24,E25,E26,E27が付された各点は、第二のエンティティのそれぞれの特徴空間上の位置を示す。 The left graph in FIG. 4A conceptually represents the distribution of the first entity, and the left graph in FIG. 4B conceptually represents the distribution of the second entity. The examples shown in FIGS. 4A and 4B define two-dimensional low-dimensional feature vectors Dx and Dy for technical explanation only. Each point labeled E11, E12, E13, E14, E15, E16, E17 indicates the position of the first entity on the feature space. Each point labeled E21, E22, E23, E24, E25, E26, E27 indicates the position of the second entity on the feature space.
図4Bから理解できるように、この例によれば、低次元特徴ベクトルDyの成分Dy1は、低次元特徴ベクトルDxの成分Dx2に対応し、低次元特徴ベクトルDyの成分Dy2は、低次元特徴ベクトルDxの成分Dx1に対応する。 As can be understood from FIG. 4B, according to this example, the component Dy1 of the low-dimensional feature vector Dy corresponds to the component Dx2 of the low-dimensional feature vector Dx, and the component Dy2 of the low-dimensional feature vector Dy corresponds to the low-dimensional feature vector It corresponds to the component Dx1 of Dx.
すなわち、図4Aに示す例によれば、第一のエンティティの一群と、第二のエンティティの一群とは、エンティティの配列及び次元の順序が、類似度行列Kと類似度行列Lとの間で異なる形で定義されているだけであり、実質、同じエンティティの集合の類似度分布を示す。 That is, according to the example shown in FIG. 4A , the first group of entities and the second group of entities are such that the entity arrangement and dimension order are between the similarity matrix K and the similarity matrix L. They represent similarity distributions for sets of entities that are essentially the same, only defined differently.
第一のエンティティの一群と、第二のエンティティの一群とが、母集団が同じであるなどの理由により、相互に共通する又は関係する集団的性質を有するときには、特徴ベクトルx,yの低次元化により、情報源の第一のデータセット15Aと第二のデータセット15Bとの間に共通変数がなくとも、各エンティティに本質的な共通する特徴成分を抽出することができる。
Low dimensionality of feature vectors x, y when the first group of entities and the second group of entities have collective properties that are common or related to each other, such as because the populations are the same By the transformation, even if there is no common variable between the first data set 15A and the
但し、このような低次元化によっても、低次元特徴ベクトルDx,Dyが、同じ特徴成分を有するだけで、特徴成分の配列を揃えることはできない。また、第一のデータセット15Aと第二のデータセット15Bとの間でエンティティの配列は揃っていない。
However, even with such a reduction in dimension, the low-dimensional feature vectors Dx and Dy only have the same feature component, and the arrangement of the feature components cannot be aligned. Also, the entities are not aligned between the first data set 15A and the
行列Ω*の探索は、このようにエンティティの配列及び次元の配列の点で、不ぞろいな特徴ベクトルDx,Dyの対応関係を、類似度分布の同一性を手掛かりに、探索する作業に対応する。 The search for the matrix Ω * thus corresponds to the work of searching for the correspondence between irregular feature vectors Dx and Dy in terms of the array of entities and the array of dimensions, using the identity of the similarity distribution as a clue.
続くS180において、プロセッサ11は、行列Ω*に基づいて、第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。行列Ω*における第i行第j列の要素値は、類似度の分布によれば、第一のエンティティの集合のうちi番目のエンティティと、第二のエンティティの集合のうちのj番目のエンティティと、が対応する程度又は可能性の大きさを表す。
At subsequent S180, the
行列Ω*の各要素は、理想的には0又は1を採り、各行について、一行の要素値の合計が1になり、各列について、一列の要素値の合計が1になる。行列Ω*が、こうした理想的な行列であるときには、値が1である要素の行番号の第一のエンティティと、列番号の第二のエンティティとが、互いに対応する。 Each element of the matrix Ω * ideally takes 0 or 1, the sum of the element values in one row is 1 for each row, and the sum of the element values in one column is 1 for each column. When the matrix Ω * is such an ideal matrix, the first entity of the row number and the second entity of the column number of the 1-valued elements correspond to each other.
すなわち、行列Ω*における第i行第j列の要素が、値1であるとき、第一のエンティティの集合のうちi番目のエンティティと、第二のエンティティの集合のうちのj番目のエンティティと、が互いに対応することを示す。
That is, when the i-th row and j-th column element in the matrix Ω * has the
但し、数値計算上において、行列Ω*が、こうした理想的な行列になることはまれである。従って、S180では、次のいずれかの手法で、複数の第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。 However, in numerical calculations, the matrix Ω * is rarely such an ideal matrix. Therefore, in S180, each of the plurality of first entities is associated with at least one of the second entities using one of the following techniques.
(手法1)行列Ω*の第i行において、値が最大の要素を探索する。値が最大の要素が第c列である場合には、第一のエンティティの集合のうちi番目のエンティティを、第二のエンティティの集合のうちc番目のエンティティに対応付ける。これを全ての行について行う。 (Method 1) The i-th row of the matrix Ω * is searched for the element with the maximum value. If the element with the largest value is in the c-th column, the i-th entity in the first set of entities is associated with the c-th entity in the second set of entities. Do this for all rows.
この手法では、第二のエンティティの一つに、複数の第一のエンティティが対応付けられる可能性がある。これを緩和するために、近傍検索が行われてもよい。近傍検索の例としては、Contextual Dissimilarity measureが知られている。 In this approach, one of the second entities may be associated with multiple first entities. To mitigate this, a neighborhood search may be performed. Contextual dissimilarity measure is known as an example of neighborhood search.
(手法2)厳密な一対一の対応付けを行うために、行列Ω*を入力とした最適割当問題を解くことにより、複数の第一のエンティティのそれぞれを、重複しない第二のエンティティの一つに対応付ける。 (Method 2) In order to perform a strict one-to-one correspondence, by solving an optimal assignment problem with the matrix Ω * as an input, each of the plurality of first entities is assigned to one of the non-overlapping second entities. correspond to
S180において、プロセッサ11は更に、第一のエンティティと第二のエンティティの対応関係を説明するテーブルとして、図5に示す対応表を出力することができる。すなわち、第一のエンティティのそれぞれのIDに関連付けて、第二のエンティティのIDを記述する対応表を出力して、ストレージ15に記憶することができる。
At S180, the
更にプロセッサ11は、上記対応付けの結果、又は上記対応表に基づいて、第一のデータセット15Aと、第二のデータセット15Bとを結合して、拡張データセット15Cを生成するデータフュージョン処理を実行する(S190)。
Furthermore, the
拡張データセット15Cは、複数の拡張データを備える。図6に示すように、複数の拡張データのそれぞれは、対応する一つの第一の特徴データと第二の特徴データとの結合データである。 The extended data set 15C comprises multiple extended data. As shown in FIG. 6, each of the plurality of extension data is combined data of corresponding one first feature data and second feature data.
すなわち、プロセッサ11は、対応表が示す対応関係に基づき、第一のデータセット15Aに含まれる複数の第一の特徴データのそれぞれに、第二のデータセット15Bに含まれる複数の第二の特徴データのうちの一つを結合することによって、拡張データセット15Cを生成する。
That is, the
プロセッサ11は、対応表によれば、第一のエンティティの集合のうちのi番目のエンティティと、第二のエンティティの集合のうちj番目のエンティティとが対応付けられているとき、第一のエンティティの集合のうちのi番目のエンティティの特徴を説明する第一の特徴データと、第二のエンティティの集合のうちのj番目のエンティティの特徴を説明する第二の特徴データとを結合して、上記i番目のエンティティの拡張データを生成する。
When the i-th entity in the first entity set and the j-th entity in the second entity set are associated according to the correspondence table, the
このようにして生成された拡張データセット15Cは、ストレージ15に格納される。ストレージ15に格納された拡張データセット15Cは、例えばユーザインタフェース17を通じて入力されるユーザからの指令に基づき、通信インタフェース19を通じて別のシステムに転送される。
The
別のシステムは、例えば広告配信システムであり得る。広告配信システムは、拡張データセット15Cに基づき、広告配信先のエンティティを判別し、対応するエンティティに広告配信することができる。 Another system may be, for example, an advertisement distribution system. Based on the extended data set 15C, the advertisement distribution system can determine the entity to which the advertisement is to be distributed, and distribute the advertisement to the corresponding entity.
S190において、データフュージョン処理を終了すると、プロセッサ11は、図2に示す分析処理を終了する。
In S190, after ending the data fusion process, the
以上に説明したように、本実施形態の情報処理システム1によれば、第一のデータセット15Aと、第二のデータセット15Bとの間に共通変数が存在しなくとも、第一のエンティティのそれぞれと、第二のエンティティのそれぞれと、を類似度の分布から適切に対応付けることができる。
As described above, according to the
本実施形態の技術に基づいて、類似度の分布に基づいて適切に対応付けるためには、第一のエンティティの集合と、第二のエンティティの集合との間において、その類似度分布が、相互に一致する、類似する、又は、関係するのが好ましい条件である。 Based on the technology of the present embodiment, in order to make appropriate correspondence based on the similarity distribution, the similarity distribution between the first entity set and the second entity set must be mutually Matching, similar or related are preferred conditions.
第一のエンティティの集合と、第二のエンティティの集合とが、同じ母集団からの部分集合であるとき、このような好ましい条件はおよそ満足される。従って、例えば、第一のエンティティ及び第二のエンティティが人であるとき、すなわち、第一のデータセット15A及び第二のデータセット15Bとして、人に関する特徴を表すデータセットが取り扱われるとき、本実施形態の技術は、有意義に機能する。
Such favorable conditions are approximately satisfied when the first set of entities and the second set of entities are subsets from the same population. Therefore, for example, when the first entity and the second entity are people, that is, when data sets representing features related to people are handled as the first data set 15A and the
人の行動は、特にデモグラフィック属性に応じた傾向を示すことが多い。従って、第一のデータセット15A及び第二のデータセット15Bが、デモグラフィック属性の分布が互いに類似すると推定される集団からの収集データに基づいたデータセットであるときには、第一のデータセット15A及び第二のデータセット15Bが、共通変数の存在しない、互いに異なる集団に属する人の特徴を説明するデータセットであったり、異なる行動の特徴を説明するデータセットであったりしても、適切に、エンティティ間の対応付けを行い、拡張データセット15Cとして、人の心理・行動分析に役立つデータセットを生成することができる。
Human behavior often shows trends that are particularly dependent on demographic attributes. Therefore, when the first data set 15A and the
上述した例によれば、第一のデータセット15Aは、第一の集団に属する複数の人のそれぞれの購買行動に関する特徴を記述するデータセットであり、第二のデータセット15Bは、第二の集団に属する複数の人のそれぞれのウェブサイト訪問行動/ウェブコンテンツ閲覧行動に関する特徴を記述するデータセットである。
According to the example described above, the first data set 15A is a data set describing the characteristics of purchasing behavior of each of the plurality of people belonging to the first group, and the
しかしながら、第一のデータセット15A及び第二のデータセット15Bの一方には、テレビ視聴行動などの人のメディア接触行動に関する特徴を記述するデータセットが用いられてもよいし、スマートフォン等の携帯端末の使用状況に関する特徴を記述するデータセットが用いられてもよい。
However, one of the first data set 15A and the
更に言えば、第一のデータセット15A及び第二のデータセット15Bの一方には、オフライン空間(すなわち現実空間)における人の移動、例えば複数の場所への訪問、移動経路、及び移動手段に関する特徴を記述するデータセットが用いられてもよいし、オンライン空間における人の移動、具体的には仮想現実(VR)空間の移動やネットサ―フィンに関する特徴を記述するデータセットが用いられてもよい。更に言えば、第一のデータセット15A及び第二のデータセット15Bの一方には、アンケートにより収集されたデータに基づくデータセットが使用されてもよい。
Furthermore, one of the first data set 15A and the
第一のデータセット15Aと第二のデータセット15Bとの組合せとしては、アンケートにより収集されたデータセットと、テレビ視聴行動に関するデータセットとの組合せ、移動履歴に関するデータセットと、購買に関するデータセットとの組合せなども考えられる。
Combinations of the first data set 15A and the
この他、上述した実施形態において、低次元特徴ベクトルDx,Dyの一群に対しては、ZCA白色化、正規化、及び、標準化などの処理が行われてもよい。 In addition, in the above-described embodiment, processing such as ZCA whitening, normalization, and standardization may be performed on the group of low-dimensional feature vectors Dx and Dy.
また、上記実施形態では、低次元特徴ベクトルDx,Dyの次元数Mが、設計者又はユーザにより定められるが、最適な次元数Mを探索するように、情報処理システム1は構成されてもよい。例えば、情報処理システム1は、図2に示す分析処理を、同一のデータセット15A,15Bについて次元数Mを変更しながら繰返し実行して、Z(Ω)の最大値を指標に、最適な次元数Mを自動選定するように構成されてもよい。
In the above embodiment, the number of dimensions M of the low-dimensional feature vectors Dx and Dy is determined by the designer or user, but the
<第二実施形態>
第二実施形態の情報処理システム1は、プロセッサ11が図2に示す分析処理に代えて、図7に示す分析処理を実行するように構成される。以下では、第二実施形態の説明として、プロセッサ11が実行する分析処理の詳細を選択的に説明する。本実施形態において言及されない情報処理システム1の構成は、第一実施形態と同じであると理解されてよい。
<Second embodiment>
The
プロセッサ11は、図7に示す分析処理を開始すると、第一実施形態と同様に、データフュージョン対象の第一のデータセット15Aと第二のデータセット15Bとを取得する(S310,S320)。
When the analysis processing shown in FIG. 7 is started, the
プロセッサ11は、S110での処理と同様に、第一のデータセット15Aに基づいて、第一のエンティティ毎の特徴ベクトルxを生成する(S310)。プロセッサ11は、S120での処理と同様に、第二のデータセット15Bに基づいて、第二のエンティティ毎の特徴ベクトルyを生成する(S320)。
The
更に、プロセッサ11は、S130,S140での処理と同様に、次元削減処理によって、特徴ベクトルxの一群に対応する低次元特徴ベクトルDxの一群を生成し、特徴ベクトルyの一群に対応する低次元特徴ベクトルDyの一群を生成する(S330)。
Further, the
続くS340において、プロセッサ11は、S150,S160,S170での処理と同様の処理を実行する。すなわち、プロセッサ11は、低次元特徴ベクトルDxの一群を用いて、第一のエンティティの集合に関する類似度行列Kを生成し、低次元特徴ベクトルDyの一群を用いて、第二のエンティティの集合に関する類似度行列Lを生成する。
In subsequent S340, the
更に、プロセッサ11は、類似度行列K及び類似度行列Lを用いて、第一実施形態で説明した値Z(Ω)を最大化する行列Ωを行列Ω*として探索する(S340)。ここでは、探索された行列Ω*のことを、対応関係行列Ω*と表現する。
Further, the
その後、プロセッサ11は、繰返し終了条件が満足されたか否かを判断する(S350)。繰返し終了条件が満足されていないと判断すると(S350でNo)、プロセッサ11は、S360の処理を実行する。
After that, the
S360において、プロセッサ11は、S340で探索された対応関係行列Ω*を固定した状態で、Gromov-Wasserstein距離のコストを最小化する次元削減方式を探索する。
At S360, the
対応関係行列Ω*を固定した状態は、第一のエンティティと第二のエンティティとの間の対応関係を固定した状態に対応する。上述したように値Z(Ω)を最大化する行列Ωを対応関係行列Ω*として探索することは、第二の特徴空間における第二のエンティティの分布に適合するように、第一の特徴空間上の複数の第一のエンティティを第二の特徴空間にマッピングするための写像を探索することに対応する。 Fixing the correspondence matrix Ω * corresponds to fixing the correspondence between the first entity and the second entity. Searching the matrix Ω that maximizes the value Z(Ω) as described above as the correspondence matrix Ω * is performed in the first feature space to fit the distribution of the second entity in the second feature space This corresponds to finding a map for mapping the plurality of first entities above to the second feature space.
Gromov-Wasserstein距離のコストは、第一のエンティティの集合を、第二の特徴空間にマッピングしたときの第一のエンティティと第二のエンティティとの間の最適輸送問題における輸送コストに対応する。 The cost of the Gromov-Wasserstein distance corresponds to the transportation cost in the optimal transportation problem between the first entity and the second entity when mapping the first set of entities to the second feature space.
Gromov-Wasserstein距離のコストは、類似度行列K,L及び対応関係行列Ω*を用いて算出可能である。類似度行列Kは、上述の通り、次元削減後の低次元特徴ベクトルDxに基づいて算出された第一のエンティティ間の類似度を要素に含む行列である。類似度行列Lは、次元削減後の低次元特徴ベクトルDyに基づいて算出された第二のエンティティ間の類似度を要素に含む行列である。 The cost of the Gromov-Wasserstein distance can be calculated using the similarity matrices K, L and the correspondence matrix Ω * . The similarity matrix K is, as described above, a matrix whose elements are the degrees of similarity between the first entities calculated based on the reduced-dimensional feature vector Dx. The similarity matrix L is a matrix whose elements are similarities between the second entities calculated based on the reduced-dimensional feature vector Dy.
Gromov-Wasserstein距離のコストを最小化する次元削減方式を探索することは、対応関係行列Ω*で示される第一のエンティティと第二のエンティティとの間の対応関係を最もよく正当化する低次元特徴ベクトルDx,Dyを生成するための次元削減方式を探索することに対応する。 Searching for a dimensionality reduction scheme that minimizes the cost of the Gromov-Wasserstein distance, the low dimensionality that best justifies the correspondence between the first entity and the second entity denoted by the correspondence matrix Ω * It corresponds to searching for a dimensionality reduction scheme for generating feature vectors Dx, Dy.
コストの最小化は、対応関係行列Ω*によれば、互いに対応する第一のエンティティと第二のエンティティとの間の特徴空間上の距離、換言すれば、第一のエンティティの低次元特徴ベクトルDxと、第二のエンティティの低次元特徴ベクトルDyとの間の特徴空間上の距離が短くなるように、次元削減方式を探索することに対応する。 According to the correspondence matrix Ω * , the cost minimization is the distance in the feature space between the first entity and the second entity that correspond to each other, in other words, the low-dimensional feature vector of the first entity It corresponds to searching for a dimensionality reduction scheme that reduces the distance in the feature space between Dx and the low-dimensional feature vector Dy of the second entity.
例えば、M1次元の特徴ベクトルxを、M次元の低次元特徴ベクトルDxに変換する場合には、特徴ベクトルxにM行M1列の変換行列Txを作用させる。M2次元の特徴ベクトルyを、M次元の低次元特徴ベクトルDyに変換する場合には、特徴ベクトルyにM行M2列の変換行列Tyを作用させる。このとき、変換行列Tx,Tyを構成するパラメータmの数は、(M*M1+M*M2)個である。 For example, when transforming an M1-dimensional feature vector x into an M-dimensional low-dimensional feature vector Dx, a transformation matrix Tx of M rows and M1 columns is applied to the feature vector x. When transforming an M2-dimensional feature vector y into an M-dimensional low-dimensional feature vector Dy, a transformation matrix Ty of M rows and M2 columns is applied to the feature vector y. At this time, the number of parameters m constituting the transformation matrices Tx and Ty is (M*M1+M*M2).
次元削減方式の探索は、例えば変換行列Tx,Yyのパラメータmとして、上述のコストを最小化するパラメータmを、勾配法等を用いて探索することにより実現される。 The search for the dimensionality reduction method is realized, for example, by searching for the parameter m that minimizes the above cost as the parameter m of the transformation matrices Tx and Yy using the gradient method or the like.
その後、プロセッサ11は、探索された次元削減方式(例えば変換行列Tx,Ty)で特徴ベクトルx,yを低次元化し、新たな低次元特徴ベクトルDx,Dyを算出する(S370)。
After that, the
プロセッサ11は、新たな低次元特徴ベクトルDxに基づく類似度行列K、及び、新たな低次元特徴ベクトルDyに基づく類似度行列Lを用いて、値Z(Ω)を最大化する行列Ωを、新たな対応関係行列Ω*として探索する(S340)。
The
プロセッサ11は、このようにS360,S370,S340の処理を繰返し実行することによって、マッチング精度の高い対応関係行列Ω*を、より良い次元削減方式と共に再探索する。
By repeatedly executing the processes of S360, S370, and S340 in this manner, the
プロセッサ11は、繰返し終了条件が満足されると(S350でYes)、S380の処理を実行する。繰返し終了条件は、例えば、S340の処理が所定回実行された場合に、あるいは、再探索による対応関係行列Ω*の変化量が一定未満になった場合に満足される。
When the repetition end condition is satisfied (Yes in S350), the
S380において、プロセッサ11は、第一実施形態におけるS180の処理と同様に、繰返し処理の最後に算出された対応関係行列Ω*に基づいて、第一のエンティティのそれぞれを、第二のエンティティの少なくとも一つに対応付ける。プロセッサ11は更に、第一のエンティティと第二のエンティティの対応関係を説明する対応表を記憶及び出力することができる。
In S380, the
その後、プロセッサ11は、S190での処理と同様に、第一のデータセット15Aと、第二のデータセット15Bとを結合して、拡張データセット15Cを生成するデータフュージョン処理を実行し、生成した拡張データセット15Cをストレージ15に格納する(S390)。
After that, similarly to the processing in S190, the
以上に説明した第二実施形態の情報処理システム1は、上述の繰返し処理によって、更に精度よく、第一のエンティティと第二のエンティティとの間の対応付けを行うことができる。従って、対応付けの正しい精度の良い拡張データセット15Cを生成することが可能である。
The
<第三実施形態>
第三実施形態の情報処理システム1は、ユーザインタフェース17を通じたユーザからの実行指示に基づき、プロセッサ11が図8に示す評価処理を実行するように構成される。以下では、第三実施形態の説明として、プロセッサ11が実行する評価処理の詳細を説明する。本実施形態において言及されない情報処理システム1の構成は、第一又は第二実施形態と同じであると理解されてよい。
<Third Embodiment>
The
評価処理は、評価対象のデータセットが、図2又は図7に示す分析処理での対応付け及びデータフュージョンを高精度に実行可能な優良なデータセットであるか否かを評価するために実行される。評価対象のデータセットは、分析処理で、第一のデータセット15A又は第二のデータセット15Bとして使用され得るデータセットに対応する。
The evaluation process is performed to evaluate whether or not the data set to be evaluated is an excellent data set capable of performing the matching and data fusion in the analysis process shown in FIG. 2 or 7 with high accuracy. be. The data set to be evaluated corresponds to a data set that can be used as the
プロセッサ11は、評価処理を開始すると、ユーザから実行指示と共に指定された評価対象のデータセットを取得する(S410)。プロセッサ11は、ストレージ15から指定された評価対象のデータセットを取得することができる。
When starting the evaluation process, the
その後、プロセッサ11は、評価対象のデータセットに基づき、エンティティ毎に、第一の特徴ベクトルx_1と、第二の特徴ベクトルx_2と、を生成する(S420)。評価対象のデータセットは、エンティティ毎に、対応するエンティティの特徴を(Q1+Q2)個の要素で表す特徴データを備えることができる。
プロセッサ11は、(Q1+Q2)個の要素を、Q1個の要素からなる第一の要素群と、Q2個の要素からなる第二の要素群と、に分割することができる。(Q1+Q2)個の要素のそれぞれは、ランダムに、第一の要素群及び第二の要素群のいずれかに分類され得る。
The
プロセッサ11は、評価対象のデータセットに基づいて、エンティティ毎に、対応するエンティティの第一の要素群に関する特徴を記述した第一の特徴ベクトルx_1と、対応するエンティティの第二の要素群に関する特徴を記述した第二の特徴ベクトルx_2と、を生成することができる。
Based on the data set to be evaluated, the
例えば、評価対象のデータセットが、S110,S120,S310,又はS320で特徴ベクトルv=(v[1],v[2],v[3],…,v[Q])が生成され得る要素数Q=(Q1+Q2)の特徴データをエンティティ毎に備える場合、Q1個の要素を含む第一の特徴ベクトルx_1=(v[1],v[2],…,v[Q1])及びQ2個の要素を含む第二の特徴ベクトルx_2=(v[Q1+1],v[Q1+2],…,v[Q1+Q2])が生成され得る。 For example, the data set to be evaluated is an element that can generate a feature vector v=(v[1], v[2], v[3], . When the number Q = (Q1 + Q2) of feature data is provided for each entity, a first feature vector x_1 containing Q1 elements = (v[1], v[2], ..., v[Q1]) and Q2 A second feature vector x_2=(v[Q1+1], v[Q1+2], . . . , v[Q1+Q2]) may be generated containing elements of
第一の特徴ベクトルx_1は、第一のエンティティの集合におけるエンティティ毎の特徴ベクトルxに対応し、第二の特徴ベクトルx_2は、第一のエンティティの集合と同一の第二のエンティティの集合におけるエンティティ毎の特徴ベクトルyに対応する。 The first feature vector x_1 corresponds to the feature vector x for each entity in the first set of entities, and the second feature vector x_2 corresponds to the entity in the same second set of entities as the first set of entities. corresponding to each feature vector y.
その後、プロセッサ11は、S130~S170で実行される処理と同様の処理を、S430,S440において、第一の特徴ベクトルx_1及び第二の特徴ベクトルx_2に対して実行する。
After that, the
S430において、プロセッサ11は、S130,S140での処理と同様に、第一のエンティティ毎の第一の特徴ベクトルx_1及び第二のエンティティ毎の第二の特徴ベクトルx_2に対する次元削減処理を実行して、同次元数の低次元特徴ベクトルDx_1及び低次元特徴ベクトルDx_2を生成する。
In S430, the
プロセッサ11は、第一のエンティティ毎の低次元特徴ベクトルDx_1に基づき、類似度行列Kに対応する第一のエンティティ間の低次元特徴ベクトルDx_1の類似度を表す類似度行列を生成する。プロセッサ11は更に、第二のエンティティ毎の低次元特徴ベクトルDx_2に基づき、類似度行列Lに対応する第二のエンティティ間の低次元特徴ベクトルDx_2の類似度を表す類似度行列を生成する。
The
プロセッサ11は、これらの類似度行列に基づき、値Z(Ω)を最大化する行列Ωを対応関係行列Ω*として探索する(S440)。
Based on these similarity matrices, the
その後、プロセッサ11は、低次元特徴ベクトルDx_1の一群に対応する第一のエンティティの集合と、低次元特徴ベクトルDx_2の一群に対応する第二のエンティティの集合とに関して、対応関係行列Ω*が、第一のエンティティと第二のエンティティとの間の対応関係を正しく表している程度をスコアとして算出する(S450)。
After that, the
これにより、プロセッサ11は、評価対象のデータセットが分析処理による対応付け及びデータフュージョンを高精度に実行可能な優良なデータセットであるか否かを評価する(S450)。
Thereby, the
プロセッサ11は、予めS420で第一のエンティティ毎の特徴ベクトルx_1及び第二のエンティティ毎の特徴ベクトルx_2を生成する際に、第一のエンティティと第二のエンティティとの間の正しい対応関係を記憶しておくことができる。
The
プロセッサ11は、このように対応関係の正解を記憶した環境で、S430,S440において分析処理と同様の処理を実行して対応関係行列Ω*を算出し、対応関係行列Ω*から特定される対応関係を正解と比較する。
例えば、プロセッサ11は、対応関係行列Ω*に基づいて、第一のエンティティのそれぞれを、第二のエンティティの一つと対応付ける処理を、S180,S380での処理と同様に実行する。
For example, the
プロセッサ11は、対応関係行列Ω*に基づいて対応付けられた第一のエンティティと第二のエンティティとが、評価対象のデータセットにおいて同一のエンティティである場合には、対応付けに成功したと判別し、同一のエンティティではない場合には、対応付けに失敗したと判別する。
The
プロセッサ11は、エンティティ全体のうち、対応付けに成功した割合を、評価対象のデータセットのスコアとして算出することができる(S450)。その後、プロセッサ11は、算出したスコアを評価結果として出力し(S460)、評価処理を終了する。
The
一つのデータセットに基づく対応付け及びデータフュージョンを高精度に実行できない場合には、そのデータセットが、集合の特徴に関して高精度な対応付け及びデータフュージョンを実現するために十分な情報又はデータ構造を有していないと推測できる。 If matching and data fusion based on a single dataset cannot be performed with high accuracy, the dataset must contain sufficient information or data structure to achieve high accuracy matching and data fusion of the features of the set. It can be assumed that they do not.
この情報不足は、二つの異なるデータセットに関して分析処理を実行して、対応付け及びデータフュージョンを行う場合の精度にも影響する。従って、上記評価処理によれば、評価対象のデータセットが、共通変数なしのデータフュージョンを高精度に実行可能なデータセットであるかを、事前に推測することができる。 This lack of information also affects the accuracy of matching and data fusion when performing analytical processes on two different data sets. Therefore, according to the evaluation process described above, it is possible to infer in advance whether the data set to be evaluated is a data set in which data fusion without a common variable can be executed with high accuracy.
プロセッサ11は、S460において、スコアの出力により、評価対象のデータセットが優良なデータセットであるか否かを情報処理システム1のユーザに伝達することができる。これにより、ユーザは、分析処理に、適切な第一のデータセット15A及び第二のデータセット15Bの組合せを採用して、信頼性の高い拡張データセット15Cを得ることができる。
In S460, the
また、所望の拡張データセット15Cを得るために、第二のデータセット15Bに結合する第一のデータセット15Aとして、互いに類似する複数のデータセットのいずれかを採用すれば十分である環境が考えられる。
In addition, in order to obtain the desired
例えば、購買行動に関する第一のデータセット15Aと、ウェブサイト訪問行動/ウェブコンテンツ閲覧行動に関する第二のデータセット15Bとを、結合して、拡張データセット15Cを生成することを考える。この場合、第一のデータセット15Aとして、複数の流通組織のいずれか一組織の顧客の購買行動に関するデータセットを用いて、拡張データセット15Cを生成すれば十分であることが考えられる。
For example, consider combining a
複数の流通組織の例には、複数のコンビニエンスストアチェーンが含まれる。各コンビニストアチェーンの購買に関するデータセットには、消費者の購買行動として、同種の購買行動に関する情報が含まれ得る。 Examples of multiple distribution organizations include multiple convenience store chains. A data set regarding purchases of each convenience store chain may include information regarding the same kind of purchasing behavior as consumers' purchasing behavior.
従って、第一のデータセット15Aとしては、複数のコンビニエンスストアチェーンのうちのいずれか一つの顧客の購買行動に関するデータセットを用いて、拡張データセット15Cを生成すれば十分であることが考えられる。
Therefore, as the
上述の評価処理は、第一のデータセット15A(又は第二のデータセット15B)の候補として、複数のデータセットが存在する場合に、これらの複数のデータセットから、対応付け及びデータフュージョンの精度の観点で最適なデータセットを、第一のデータセット15A(又は第二のデータセット15B)として選択するために利用することができる。
In the above-described evaluation process, when there are multiple data sets as candidates for the first data set 15A (or
例えば、プロセッサ11は、S110,S120,S310,S320のいずれかの処理において、必要に応じて、図9に示す選択処理を実行することにより、データフュージョン対象のデータセットの複数の候補から、一つの候補を、データフュージョン対象のデータセットとして採用することができる。S110,S310におけるデータフュージョン対象のデータセットは、第一のデータセット15Aに対応し、S120,S320におけるデータフュージョン対象のデータセットは、第二のデータセット15Bに対応する。
For example, the
図9に示す選択処理を開始すると、プロセッサ11は、データフュージョン対象のデータセットの複数の候補として、複数のデータセットを取得する(S510)。プロセッサ11は、ユーザから指定された複数のデータセットを、ストレージ15から取得することができる。
When the selection process shown in FIG. 9 is started, the
その後、プロセッサ11は、複数のデータセットのうちの一つを、評価対象のデータセットに設定して(S520)、図8に示す評価処理を実行する(S530)。プロセッサ11は、複数のデータセットのすべてに関する評価処理を実行するまで(S540でYes)、データセット毎に、これを評価対象のデータセットに設定して(S520)、評価処理(S530)を実行する処理を繰り返す。これにより、データセット毎に、S450で算出されるスコアを取得する。
After that, the
複数のデータセットのすべてに関して評価処理を実行し、スコアを取得すると(S540でYes)、プロセッサ11は、複数のデータセットのうち、最もスコアの高いデータセットを、データフュージョン対象のデータセットに採用する(S550)。その後、選択処理を終了する。S110,S120,S310,S320において、プロセッサ11は、採用されたデータフュージョン対象のデータセットに基づく特徴ベクトル(x又はy)を生成することができる。
When evaluation processing is performed on all of the plurality of data sets and scores are obtained (Yes in S540), the
このように選択処理を実行して、複数の候補の中から最適なデータセットを選択することによれば、精度の高い拡張データセット15Cを生成することが可能である。
By executing the selection process in this manner and selecting the optimum data set from a plurality of candidates, it is possible to generate the
付言すると、購買行動の例において、データフュージョン対象のデータセットの複数の候補には、消費者の購買行動を異なるパラメータで表すデータセットが含まれ得る。例えば、第一の候補は、エンティティ(消費者)毎に、商品毎の購入個数を要素に含む特徴ベクトルを生成可能なデータセットであり得る。第二の候補は、エンティティ(消費者)毎に、商品毎の購入金額を要素に含む特徴ベクトルを生成可能なデータセットであり得る。 Additionally, in the example of purchasing behavior, the plurality of candidate datasets for data fusion may include datasets representing consumer purchasing behavior with different parameters. For example, the first candidate may be a data set capable of generating a feature vector whose elements include the number of items purchased for each entity (consumer). A second candidate may be a data set capable of generating a feature vector whose elements include the purchase amount of each product for each entity (consumer).
こうした同種の特徴を異なるパラメータで説明する複数のデータセットを用意して、データフュージョンに適したデータセットを選択することは、より良い拡張データセット15Cの生成に繋がる。 Preparing a plurality of data sets that explain similar features with different parameters and selecting a data set suitable for data fusion leads to generation of a better extended data set 15C.
<第四実施形態>
図10に示す第四実施形態の配信システム30は、第一実施形態又は第二実施形態のデータフュージョン技術を用いて、外部から提供されるデータセットである外部データセット35Aと、内部に保持するデータセットである内部データセット35Bとを結合し、それにより生成される拡張データセット35Cに基づいて、広告配信を行うシステムである。
<Fourth embodiment>
The
配信システム30は、図10に示すように、プロセッサ31と、メモリ33と、ストレージ35と、通信インタフェース39とを備える。プロセッサ31は、ストレージ35に格納されたコンピュータプログラムPr1に従う処理を実行する。ストレージ35は、更に、内部データセット35Bを備える。
The
内部データセット35Bは、図11に示すように、ユーザ毎に、対応するユーザの広告IDに関連付けて、対応するユーザのオンライン行動の特徴を説明する特徴データを備える。広告IDは、良く知られるように、広告のために使用される識別コードであって、情報端末に固有のIDである。
As shown in FIG. 11, the
広告IDに関連付けられた特徴データは、対応する広告IDが割り当てられた情報端末を通じて観測されたユーザのオンライン行動の特徴を説明する。オンライン行動には、ウェブサイト訪問行動及びウェブコンテンツ閲覧行動が含まれる。 The feature data associated with the Advertisement ID describes features of the user's online behavior observed through the information terminal assigned the corresponding Advertisement ID. Online behavior includes website visit behavior and web content viewing behavior.
配信システム30は、通信インタフェース39を通じて広域ネットワークと接続され、広域ネットワークを介して、広告配信サービスを提供する。広告配信サービスを利用するサービス利用企業側システム40は、配信システム30に対して、配信対象の広告コンテンツと共に、配信指定情報を提供する。広告コンテンツは、広告用の情報コンテンツである。配信指定情報には、配信ターゲットを指定するターゲット指定情報、及び、配信数を指定する配信数指定情報が含まれる。
The
サービス利用企業側システム40は更に、配信システム30に対し、外部データセット35Aとして、配信先候補に対応する顧客の特徴を説明するデータセットである顧客データセットを提供する。
The service-using
顧客データセットは、例えば、サービス利用企業が運営する店舗を利用する顧客の購買行動に関する特徴を説明するデータセットであり得る。例えば、顧客データセットは、顧客毎の特徴データとして、複数の商品に関する、対応する顧客の商品毎の購買量を説明する特徴データを備えることができる。 The customer data set may be, for example, a data set describing the characteristics of the purchasing behavior of customers who use stores operated by service using companies. For example, the customer data set may comprise, as feature data for each customer, feature data describing the purchase volume for each item of the corresponding customer regarding a plurality of items.
プロセッサ31は、通信インタフェース39を通じてサービス利用企業側システム40から配信要求が入力されると、コンピュータプログラムPr1に基づいて図12に示す配信制御処理を実行する。
When a distribution request is input from the service using
配信制御処理を開始すると、プロセッサ31は、サービス利用企業側システム40から、配信対象の広告コンテンツと共に、ターゲット指定情報及び配信数指定情報を含む配信指定情報、外部データセット35Aとしての顧客データセットを取得する(S610)。
When the distribution control process is started, the
その後、プロセッサ31は、第一のデータセット15Aとして外部データセット35Aを用いて、更には、第二のデータセット15Aとして内部データセット35Bを用いて、分析処理におけるS110~S190の処理と同様の処理を実行することにより、外部データセット35Aと内部データセット35Bとを結合し、拡張データセット35Cを生成する(S620)。
After that, the
外部データセット35Aと内部データセット35Bとの結合により、外部データセット35Aに含まれる顧客毎の特徴データには、内部データセット35Bに含まれる顧客と同一人物である可能性の高いユーザの広告IDが関連付けられる。
By combining the external data set 35A and the
拡張データセット35Cは、エンティティ毎に、対応する顧客の外部データセット35Aが有する特徴データと、対応するユーザの内部データセット35Bが有する特徴データとが結合された拡張データを備える。各拡張データには、内部データセット35Bが有する対応するユーザの広告IDが関連付けられる。
The extended data set 35C includes extended data obtained by combining the feature data of the corresponding customer's external data set 35A and the feature data of the corresponding user's
ここでいうエンティティは、データフュージョンにより互いに対応付けられた顧客とユーザとの組合せのことである。データフュージョンでは、顧客とユーザとが一対一で対応付けられる。例えば、拡張データセット35Cは、図6に示す拡張データセット15Cにおいて図示される「ID2_1」「ID2_2」「ID2_3」の列に、広告IDが記述された構成にされ得る。
An entity here is a combination of a customer and a user that are associated with each other by data fusion. Data fusion creates a one-to-one correspondence between customers and users. For example, the
プロセッサ31は、その後、拡張データセット35C内の各エンティティが配信ターゲットである可能性に関するスコアを算出する(S630)。例えば、外部データセット35Aが顧客の購買行動に関するデータセットであり、内部データセット35Bがユーザのオンライン行動に関するデータセットである場合、プロセッサ31は、拡張データセット35C内の各エンティティの購買行動に関する特徴データとオンライン行動に関する特徴データとを所定の関数に入力して、対応するエンティティが配信ターゲットである可能性を数値化したスコアを算出する。
配信ターゲットは、性別、年齢、購買傾向、オンライン行動傾向、興味、及び関心等の消費者を特徴付けるパラメータにより絞り込まれる配信先の消費者群であり、ターゲット指定情報を通じて指定される。 A distribution target is a group of consumers to whom distribution is to be narrowed down by parameters that characterize consumers such as gender, age, purchasing tendency, online behavior tendency, interest, and concern, and is designated through target designation information.
S630におけるスコア算出後、プロセッサ31は、広告IDが関連付けられているエンティティの一群(換言すれば顧客の一群)のうち、算出されたスコアが高い順に、サービス利用企業側システム40から指定された配信数に対応する数のエンティティを、コンテンツ配信先に決定する(S640)。このようにして、プロセッサ31は、外部データセット35Aに対応する複数の顧客のいずれかと対応付けられた内部データセット35Bに対応する複数のユーザの少なくとも一部を、広告コンテンツの配信先に選択する。
After calculating the score in S630, the
その後、プロセッサ31は、決定したコンテンツ配信先の情報端末に、サービス利用企業側システム40から提供された広告コンテンツを、広域ネットワークを通じて送信する(S650)。広告コンテンツは、コンテンツ配信先の広告IDから識別される情報端末に配信される。その後プロセッサ31は、配信制御処理を終了する。
After that, the
以上に説明した第四実施形態の配信システム30によれば、共通変数なしのデータフォージョン技術を用いて、外部データセット35Aと内部データセット35Bとを結合することにより、広告IDが不明な顧客の特徴データに対して広告IDを関連付けることができる。これにより、広告IDが不明な外部データセット35Aの顧客に対して、広告コンテンツを適切に配信することができる。
According to the
<第五実施形態>
第五実施形態の配信システム30は、プロセッサ31が図12に示す配信制御処理に代えて、図13に示す配信制御処理を実行するように構成される。以下では、第五実施形態の説明として、プロセッサ31が実行する配信制御処理の詳細を選択的に説明する。本実施形態において言及されない配信システム30の構成は、第四実施形態と同じであると理解されてよい。
<Fifth embodiment>
The
本実施形態において、プロセッサ31は、通信インタフェース39を通じてサービス利用企業側システム40から、配信要求が入力されると、図13に示す配信制御処理を実行する。
In this embodiment, when a distribution request is input from the service
配信制御処理を開始すると、プロセッサ31は、サービス利用企業側システム40から、配信対象の広告コンテンツと共に、配信指定情報、外部データセット35Aとしての顧客データセットを取得する(S710)。
When the distribution control process is started, the
但し、ここで取得される配信指定情報は、ターゲット指定情報を含まず、配信数指定情報のみを含む。また、外部データセット35Aとして取得される顧客データセットは、サービス提供企業が絞り込んだ配信ターゲットに対応する顧客群の特徴を説明する特定顧客データセットである。 However, the distribution designation information acquired here does not include target designation information, but only distribution number designation information. Also, the customer data set acquired as the external data set 35A is a specific customer data set that describes the characteristics of the customer group corresponding to the distribution target narrowed down by the service provider company.
その後、プロセッサ31は、S620での処理と同様に、外部データセット35Aと内部データセット35Bとを結合し、拡張データセット35Cを生成する(S720)。拡張データセット35Cは、エンティティ毎に、対応する顧客の外部データセット35Aが有する特徴データと、対応するユーザの内部データセット35Bが有する特徴データとが結合された拡張データを備える。
After that, the
但し、本実施形態では、内部データセット35Bのユーザのすべてに対して外部データセット35Aの顧客が対応付けられることにはならない。本実施形態の拡張データセット35Cは、サービス利用企業側の顧客と対応付けられていないユーザの特徴データも、一つのエンティティの拡張データとして含む。この拡張データは、実質的には拡張されていない内部データセット35Bが有する該当ユーザの特徴データである。
However, in this embodiment, not all users of the
本実施形態では、拡張データセット35Cに対応するエンティティの一群のうち、外部データセット35Aに対応する顧客群に対応付けられたエンティティ群のことをシードと表現し、それ以外のエンティティの一群のことを、非シードと表現する。 In this embodiment, among the group of entities corresponding to the extended data set 35C, the group of entities associated with the group of customers corresponding to the external data set 35A is referred to as a seed, and the other group of entities is referred to as a seed. is expressed as non-seed.
S720の処理後、プロセッサ31は、拡張データセット35Cに基づいて、非シードの各エンティティと、シードの各エンティティとの間の内部データセット35Bが示す特徴の類似度を算出する(S730)。類似度は、非シードの各エンティティと、シードの各エンティティとの間の特徴空間上の距離によって算出され得る。
After the processing of S720, the
類似度の算出後、プロセッサ31は、類似度の高い順に、配信指定情報で指定された配信数に対応する数のエンティティを配信先に決定する(S740)。この際、シードに対応する全てのエンティティも配信先に決定される。
After calculating the degree of similarity,
このようにして、プロセッサ31は、外部データセット35Aに対応する複数の顧客と対応付けられたユーザの集合であるシードの集合と、内部データセット35Bに対応する複数のユーザのうち、シードと特徴が類似するユーザの集合と、を広告コンテンツの配信先に選択する。
In this way, the
その後、プロセッサ31は、S650の処理と同様に、S740で決定したコンテンツ配信先の情報端末に、サービス利用企業側システム40から提供された広告コンテンツを、広域ネットワークを通じて送信する(S750)。その後、配信制御処理を終了する。
After that, the
以上に説明した本実施形態の配信システム30によれば、サービス利用企業側システム40から提供された顧客群のデータセットを基礎に、それら顧客群と共に、顧客群と類似した特徴を示すより大きな集合の消費者の情報端末に、広告コンテンツを配信することができる。従って、本実施形態によれば、多くの消費者に、効率的に広告配信を行うことが可能である。
According to the
<第六実施形態>
第六実施形態の配信システム30は、第四実施形態又は第五実施形態の配信システム30と同様の広告配信サービスと共に、予測サービスを提供するように構成される。
<Sixth Embodiment>
The
具体的には、本実施形態のプロセッサ31は、サービス利用企業側システム40からの実行要求に応じて、図14に示す予測処理を実行するように構成される。以下では、第六実施形態の説明として、プロセッサ31が実行する予測処理の詳細を選択的に説明する。本実施形態において言及されない配信システム30の構成は、第四実施形態又は第五実施形態と同じであると理解されてよい。
Specifically, the
プロセッサ31は、予測処理を開始すると、通信インタフェース39を通じて分析対象のデータセットを、分析条件指定情報と共に、サービス利用企業側システム40から取得する(S810)。分析対象のデータセットは、分析対象の顧客毎の特徴データを備えるデータセットである。
When starting the prediction process, the
分析条件指定情報は、顧客の購入可能性を評価する対象の商品を指定する情報であり得る。予測処理では、指定された対象商品を分析対象の各顧客が購入する可能性が、対象商品の購入数の予測値を算出することによって予測される。ここでの予測は、顧客の行動を推定することに対応し、予測値は、行動に関する推定値に対応する。 The analysis condition designation information may be information that designates a product for which the customer's purchase possibility is evaluated. In the prediction process, the possibility that each analysis target customer will purchase a designated target product is predicted by calculating a predicted value of the number of purchases of the target product. Prediction here corresponds to estimating the customer's behavior, and predicted value corresponds to an estimate of the behavior.
S810の処理実行後、プロセッサ31は、第一のデータセット15Aとして分析対象のデータセットを用いて、更には、第二のデータセット15Bとして内部データセット35Bを用いて、分析処理におけるS110~S170又はS310~S370の処理と同様の処理を実行することにより、分析対象の各顧客と内部データセット35Bに特徴データを有する各ユーザとの対応関係を示す対応関係行列Ω*を算出する(S820)。
After executing the process of S810, the
プロセッサ31は更に、算出された対応関係行列Ω*に基づき、分析対象の顧客毎に、対応する顧客に近しい所定数のユーザを抽出し、内部データセット35Bから特定可能な上記抽出したユーザの対象商品の購入数の重み付け平均により、対応する顧客の対象商品の購入数の予測値を算出する(S830)。このようにしてプロセッサ31は、顧客の購買行動を、対応付けられたユーザの購買行動から推定する。内部データセット35Bは、各ユーザの対象商品の購入数を特定可能な情報を含む。
Further, the
対応関係行列Ω*の各要素は、顧客とユーザとの間の類似度を0~1の値で示す。具体的には、対応関係行列Ω*における第i行第j列の要素は、内部データセット35Bに対応するユーザの集合のうちi番目のユーザと、分析対象のデータセットに対応する顧客の集合のうちのj番目の顧客と、の間の類似度を値0~1で示す。
Each element of the correspondence matrix Ω * indicates the degree of similarity between the customer and the user with a value of 0-1. Specifically, the element of the i-th row and j-th column in the correspondence matrix Ω * is the i-th user among the set of users corresponding to the
重み付け平均は、例えば、類似度を重みとして用いて算出される。重み付け平均は、顧客と近しい3人のユーザとして第一、第二、及び第三のユーザが抽出されたと仮定したとき、次のように算出され得る。 A weighted average is calculated using, for example, the degree of similarity as a weight. A weighted average can be calculated as follows, assuming that the first, second, and third users are extracted as three users close to the customer.
すなわち、顧客と第一のユーザとの類似度がw1、顧客と第二のユーザとの類似度がw2、顧客と第三のユーザとの類似度w3であり、第一のユーザの対象商品購入数がp1、第二のユーザの対象商品購入数がp2であり、第三のユーザの対象商品購入数がp3であるとき、顧客の対象商品の購入数の予測値peは、pe=(w1・p1+w2・p2+w3・p3)/3で算出され得る。 That is, the degree of similarity between the customer and the first user is w1, the degree of similarity between the customer and the second user is w2, and the degree of similarity between the customer and the third user is w3. is p1, the number of purchases of the target product by the second user is p2, and the number of purchases of the target product by the third user is p3, the predicted value pe of the number of purchases of the target product by the customer is pe=(w1 *p1+w2*p2+w3*p3)/3.
対応関係行列Ω*からは、顧客毎に、すべてのユーザとの類似度(換言すれば対応付けの大きさ)を特定可能である。従って、近しいユーザを抽出するプロセスなしに、すべてのユーザの対象商品の購入数の重み付け平均によって、顧客の対象商品の購入数の予測値が算出されてもよい。 From the correspondence matrix Ω * , it is possible to identify the degree of similarity (in other words, magnitude of correspondence) with all users for each customer. Therefore, without the process of extracting close users, a weighted average of the number of purchases of the target product by all users may be used to calculate the expected number of purchases of the target product by the customer.
S830の処理実行後、プロセッサ31は、顧客毎の対応商品の購入数の予測値を記述した予測データを、予測処理の実行要求元に出力する(S840)。その後、プロセッサ31は、図14に示す予測処理を終了する。
After executing the processing of S830, the
別例によれば、プロセッサ31は、S830の処理実行後、予測データを出力することに代えて又は加えて、顧客毎の対応商品の購入数の予測値に基づき、予測値が大きい順に、サービス利用企業から指定された配信数に対応する人数の顧客に対して、対象商品の購入を進める広告コンテンツを配信する処理を実行してもよい(S840)。
According to another example, after executing the process of S830, instead of or in addition to outputting the prediction data, the
以上に、第六実施形態の配信システム30を説明したが、本実施形態によれば、共通変数なしのデータフュージョン技術を用いて、有意義な広告配信サービスを提供でき、更には、有意義なマーケティングソリューションを提供可能である。
The
[その他]
本開示が上述した実施形態に限定されるものではなく、種々の態様を採り得ることは言うまでもない。上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
[others]
It goes without saying that the present disclosure is not limited to the embodiments described above, and can take various forms. A function possessed by one component in the above embodiment may be distributed to a plurality of components. Functions possessed by multiple components may be integrated into one component. A part of the configuration of the above embodiment may be omitted. At least part of the configurations of the above embodiments may be added or replaced with respect to the configurations of other above embodiments. All aspects included in the technical ideas specified by the language in the claims are embodiments of the present disclosure.
1…情報処理システム、11,31…プロセッサ、13,33…メモリ、15,35…ストレージ、15A…第一のデータセット、15B…第二のデータセット、15C…拡張データセット、17…ユーザインタフェース、19,39…通信インタフェース、30…配信システム、35A…外部データセット、35B…内部データセット、35C…拡張データセット、40…サービス利用企業側システム、Pr,Pr1…コンピュータプログラム。
REFERENCE SIGNS
Claims (17)
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得するように構成される第二取得部と、
前記第一のデータセットから特定される第一の特徴ベクトルの一群であって、前記第一の特徴ベクトルのそれぞれが、前記複数の第一のエンティティのうちの対応する一つの特徴を表す第一の特徴ベクトルの一群、及び、前記第二のデータセットから特定される第二の特徴ベクトルの一群であって、前記第二の特徴ベクトルのそれぞれが、前記複数の第二のエンティティのうちの対応する一つの特徴を表す第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、前記第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、前記第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群であって前記第一の低次元特徴ベクトルの一群と同一次元数の第二の低次元特徴ベクトルの一群を生成するように構成される次元削減部と、
前記第一の低次元特徴ベクトルの一群、及び、前記第二の低次元特徴ベクトルの一群に基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けるように構成される対応付け部と、
を備える情報処理システム。 a first acquisition unit configured to acquire a first data set relating to a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities;
a second acquisition unit configured to acquire a second data set relating to a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities;
a first set of first feature vectors identified from the first data set, each of the first feature vectors representing a corresponding feature of one of the plurality of first entities; and a group of second feature vectors identified from the second data set, each of the second feature vectors corresponding to the plurality of second entities A group of first low-dimensional feature vectors corresponding to the group of first feature vectors, and the second group of configured to generate a group of second low-dimensional feature vectors corresponding to a group of feature vectors and having the same number of dimensions as the first group of low-dimensional feature vectors; a dimensionality reduction unit that
Each of the plurality of first entities is associated with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. a mapping unit configured to:
An information processing system comprising
前記第二の低次元特徴ベクトルは、第二の特徴空間によって定義され、
前記対応付け部は、前記第一の低次元特徴ベクトルの一群から特定される前記第一の特徴空間における前記複数の第一のエンティティの分布が、前記第二の低次元特徴ベクトルの一群から特定される前記第二の特徴空間における前記複数の第二のエンティティの分布に適合するように、前記第一の特徴空間上の前記複数の第一のエンティティを前記第二の特徴空間にマッピングするための写像を探索し、前記写像に基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付ける請求項1又は請求項2記載の情報処理システム。 the first low-dimensional feature vector defined by a first feature space;
The second low-dimensional feature vector is defined by a second feature space,
The associating unit identifies, from the group of the second low-dimensional feature vectors, the distribution of the plurality of first entities in the first feature space identified from the group of the first low-dimensional feature vectors. for mapping the plurality of first entities on the first feature space to the second feature space to match the distribution of the plurality of second entities in the second feature space where 3. The information processing system according to claim 1 or 2, wherein a mapping of is searched for, and each of said plurality of first entities is associated with at least one of said plurality of second entities based on said mapping.
前記第一のエンティティの数は、Nであり、前記第二のエンティティの数は、前記第一のエンティティと同じであり、
前記行列Kは、N行N列の行列であって、第i行第j列の要素の値が、前記複数の第一のエンティティのうちのi番目のエンティティの第一の低次元特徴ベクトルと、前記複数の第一のエンティティのうちのj番目のエンティティの第一の低次元特徴ベクトルと、に基づいて算出される前記複数の第一のエンティティのうちの前記i番目のエンティティと前記j番目のエンティティとの間の類似度を表す第一の類似度行列であり、
前記行列Lは、N行N列の行列であって、第i行第j列の要素の値が、前記複数の第二のエンティティのうちのi番目のエンティティの第二の低次元特徴ベクトルと、前記複数の第二のエンティティのうちのj番目のエンティティの第二の低次元特徴ベクトルと、に基づいて算出される前記複数の第二のエンティティのうちの前記i番目のエンティティと前記j番目のエンティティとの間の類似度を表す第二の類似度行列であり、
前記行列Hは、N行N列の行列であって、第i行第j列の要素の値が、i=jであるとき値1-1/Nを示し、i≠jであるとき値0を示す行列である
請求項1又は請求項2記載の情報処理システム。 The associating unit is a formula comprising a matrix K, a matrix L, and a matrix H
the number of said first entities is N, the number of said second entities is the same as said first entity;
The matrix K is a matrix of N rows and N columns, and the value of the element in the i-th row and j-th column is the first low-dimensional feature vector of the i-th entity among the plurality of first entities. , a first low-dimensional feature vector of the j-th entity among the plurality of first entities, and the i-th entity among the plurality of first entities and the j-th entity calculated based on is a first similarity matrix representing the similarity between the entities of
The matrix L is a matrix of N rows and N columns, and the value of the element in the i-th row and j-th column is the second low-dimensional feature vector of the i-th entity among the plurality of second entities. , a second low-dimensional feature vector of the j-th entity among the plurality of second entities, and the i-th entity among the plurality of second entities and the j-th entity calculated based on is a second similarity matrix representing the similarity between the entities of
The matrix H is a matrix of N rows and N columns, and the value of the element in the i-th row and j-th column indicates a value of 1−1/N when i=j, and a value of 0 when i≠j. 3. The information processing system according to claim 1, wherein the matrix indicates
前記行列Ω*に基づいて、前記次元削減処理での次元削減方式を変更し、変更後の前記次元削減方式での前記次元削減処理を、前記次元削減部に実行させ、それにより新たに得られた前記第一の低次元特徴ベクトルの一群及び前記第二の低次元特徴ベクトルの一群に基づいて、前記値Z(Ω)を最大化する行列Ωを行列Ω*として探索する再探索処理を、所定条件が満足されるまで繰返し実行することにより、前記行列Ω*を改善し、改善された行列Ω*に基づいて、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付ける
ように構成される請求項4記載の情報処理システム。 The associating unit
Based on the matrix Ω * , the dimensionality reduction method in the dimensionality reduction processing is changed, and the dimensionality reduction unit executes the dimensionality reduction processing in the changed dimensionality reduction method, thereby newly obtaining a re-search process of searching for the matrix Ω that maximizes the value Z(Ω) as a matrix Ω * based on the first group of low-dimensional feature vectors and the group of the second low-dimensional feature vectors, refining the matrix Ω * by repeatedly performing until a predetermined condition is satisfied; and, based on the refined matrix Ω * , each of the plurality of first entities to the plurality of second entities. 5. The information processing system according to claim 4, configured to correspond to at least one.
前記第二のデータセットは、複数の第二の特徴データを含み、前記複数の第二の特徴データのそれぞれは、前記複数の第二のエンティティのうちの対応する一つの特徴を表し、
前記情報処理システムは、
前記対応付け部による対応付けに基づき、前記第一のデータセットに含まれる前記複数の第一の特徴データのそれぞれに、前記第二のデータセットに含まれる前記複数の第二の特徴データのうちの一つを結合することによって、複数の拡張データを含む拡張データセットであって、前記複数の拡張データのそれぞれが、対応する一つの第一の特徴データと第二の特徴データとの結合データである複数の拡張データを含む拡張データセットを生成するデータフュージョン部
を更に備える請求項1~請求項6のいずれか一項記載の情報処理システム。 the first data set includes a plurality of first feature data, each of the plurality of first feature data representing a corresponding one feature of the plurality of first entities;
the second data set includes a plurality of second feature data, each of the plurality of second feature data representing a corresponding one feature of the plurality of second entities;
The information processing system is
Among the plurality of second feature data included in the second data set, each of the plurality of first feature data included in the first data set based on the matching by the associating unit an extended data set including a plurality of extended data by combining one of 7. The information processing system according to any one of claims 1 to 6, further comprising: a data fusion unit that generates an extension data set including a plurality of extension data that are:
前記第一のデータセットは、第一の集団に属する複数の人のそれぞれの第一の特徴を記述するデータセットであり、
前記第二のデータセットは、第二の集団の属する複数の人のそれぞれの第二の特徴を記述するデータセットである
請求項1~請求項7のいずれか一項記載の情報処理システム。 the first entity and the second entity are people;
the first data set is a data set describing a first characteristic of each of a plurality of people belonging to a first group;
The information processing system according to any one of claims 1 to 7, wherein said second data set is a data set describing second characteristics of each of a plurality of people belonging to a second group.
前記第二のデータセットには、前記複数の第二のエンティティのそれぞれに対応する情報端末の識別情報が関連付けられており、
前記情報処理システムは、
前記識別情報に基づいて、前記複数の第二のエンティティのうち、情報コンテンツの配信先として選択された第二のエンティティの集合に対応する情報端末の集合に、前記情報コンテンツを配信するように構成される配信部と、
前記対応付け部により前記複数の第一のエンティティのいずれかと対応付けられた前記第二のエンティティの集合の少なくとも一部を、前記情報コンテンツの配信先に選択する選択部と、
を備える請求項1~請求項9のいずれか一項記載の情報処理システム。 the first entity and the second entity are people;
the second data set is associated with identification information of an information terminal corresponding to each of the plurality of second entities;
The information processing system is
Based on the identification information, the information content is distributed to a set of information terminals corresponding to a set of second entities selected as distribution destinations of the information content among the plurality of second entities. a delivery unit to be
a selection unit that selects at least part of the set of the second entities associated with one of the plurality of first entities by the association unit as a delivery destination of the information content;
The information processing system according to any one of claims 1 to 9, comprising:
前記第二のデータセットは、前記複数の第二のエンティティのそれぞれの行動に関する特徴を記述し、
前記情報処理システムは、更に、
前記複数の第一のエンティティの少なくとも一部のエンティティに関して、エンティティ毎に、前記第二のデータセットから特定される前記対応付け部によって当該エンティティに対応付けられた前記複数の第二のエンティティの少なくとも一つの行動に関する特徴に基づき、当該エンティティの行動に関する推定値を算出する推定部
を備える請求項1~請求項11のいずれか一項記載の情報処理システム。 the first entity and the second entity are people;
the second data set describes behavioral characteristics of each of the plurality of second entities;
The information processing system further includes:
With respect to at least some of the plurality of first entities, for each entity, at least of the plurality of second entities associated with the entity by the association unit identified from the second data set 12. The information processing system according to any one of claims 1 to 11, further comprising: an estimating unit that calculates an estimated value regarding behavior of the entity based on a feature regarding one behavior.
複数の第一のエンティティに関する第一のデータセットであって、前記複数の第一のエンティティのそれぞれの特徴を記述する第一のデータセットを取得することと、
複数の第二のエンティティに関する第二のデータセットであって、前記複数の第二のエンティティのそれぞれの特徴を記述する第二のデータセットを取得することと、
前記第一のデータセットから特定される第一の特徴ベクトルの一群であって、前記第一の特徴ベクトルのそれぞれが、前記複数の第一のエンティティのうちの対応する一つの特徴を表す第一の特徴ベクトルの一群、及び、前記第二のデータセットから特定される第二の特徴ベクトルの一群であって、前記第二の特徴ベクトルのそれぞれが、前記複数の第二のエンティティのうちの対応する一つの特徴を表す第二の特徴ベクトルの一群に対する次元削減処理を実行することによって、前記第一の特徴ベクトルの一群に対応する第一の低次元特徴ベクトルの一群、及び、前記第二の特徴ベクトルの一群に対応する第二の低次元特徴ベクトルの一群であって前記第一の低次元特徴ベクトルの一群と同一次元数の第二の低次元特徴ベクトルの一群を生成することと、
前記第一の低次元特徴ベクトルの一群、及び、前記第二の低次元特徴ベクトルの一群に基づき、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの少なくとも一つに対応付けることと、
を含む情報処理方法。 A computer-implemented information processing method comprising:
obtaining a first data set for a plurality of first entities, the first data set describing characteristics of each of the plurality of first entities;
obtaining a second data set for a plurality of second entities, the second data set describing characteristics of each of the plurality of second entities;
a group of first feature vectors identified from the first data set, each of the first feature vectors representing a feature of a corresponding one of the plurality of first entities; and a group of second feature vectors identified from the second data set, each of the second feature vectors corresponding to the plurality of second entities A group of first low-dimensional feature vectors corresponding to the group of the first feature vectors, and the second group of generating a group of second low-dimensional feature vectors corresponding to the group of feature vectors and having the same number of dimensions as the group of first low-dimensional feature vectors;
Each of the plurality of first entities is associated with at least one of the plurality of second entities based on the group of first low-dimensional feature vectors and the group of second low-dimensional feature vectors. and
Information processing method including.
前記第一の低次元特徴ベクトルの一群から特定される前記第一のエンティティ間の類似度、及び、前記第二の低次元特徴ベクトルの一群から特定される前記第二のエンティティ間の類似度に基づき、類似度に関する前記第一のエンティティ間の相互関係が前記第二のエンティティ間の相互関係に適合するように、前記複数の第一のエンティティのそれぞれを、前記複数の第二のエンティティの一つに対応付けること
を含む請求項16記載の情報処理方法。 said associating
the similarity between the first entities identified from the group of the first low-dimensional feature vectors and the similarity between the second entities identified from the group of the second low-dimensional feature vectors each of the plurality of first entities to one of the plurality of second entities such that the correlation between the first entities in terms of similarity matches the correlation between the second entities based on 17. The information processing method according to claim 16, comprising:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/041591 WO2023085279A1 (en) | 2021-11-09 | 2022-11-08 | Information processing system, and information processing method |
TW111142613A TW202336607A (en) | 2021-11-09 | 2022-11-08 | Information processing system and method of processing information |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021182537 | 2021-11-09 | ||
JP2021182537 | 2021-11-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7227412B1 JP7227412B1 (en) | 2023-02-21 |
JP2023070618A true JP2023070618A (en) | 2023-05-19 |
Family
ID=85252006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022048893A Active JP7227412B1 (en) | 2021-11-09 | 2022-03-24 | Information processing system, computer program, and information processing method |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7227412B1 (en) |
TW (1) | TW202336607A (en) |
WO (1) | WO2023085279A1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150006559A1 (en) * | 2011-08-31 | 2015-01-01 | Comscore, Inc. | Data Fusion Using Behavioral Factors |
JP2016126609A (en) * | 2015-01-06 | 2016-07-11 | 株式会社博報堂Dyホールディングス | Information processing system, and program |
JP2017097717A (en) * | 2015-11-26 | 2017-06-01 | 株式会社博報堂 | Information processing system and program |
JP2018156299A (en) * | 2017-03-16 | 2018-10-04 | 株式会社ビデオリサーチ | Apparatus and method of investigation data processing |
JP2019092067A (en) * | 2017-11-15 | 2019-06-13 | 株式会社電通 | Information processing apparatus, information processing method, information processing system, and program |
-
2022
- 2022-03-24 JP JP2022048893A patent/JP7227412B1/en active Active
- 2022-11-08 WO PCT/JP2022/041591 patent/WO2023085279A1/en unknown
- 2022-11-08 TW TW111142613A patent/TW202336607A/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150006559A1 (en) * | 2011-08-31 | 2015-01-01 | Comscore, Inc. | Data Fusion Using Behavioral Factors |
JP2016126609A (en) * | 2015-01-06 | 2016-07-11 | 株式会社博報堂Dyホールディングス | Information processing system, and program |
JP2017097717A (en) * | 2015-11-26 | 2017-06-01 | 株式会社博報堂 | Information processing system and program |
JP2018156299A (en) * | 2017-03-16 | 2018-10-04 | 株式会社ビデオリサーチ | Apparatus and method of investigation data processing |
JP2019092067A (en) * | 2017-11-15 | 2019-06-13 | 株式会社電通 | Information processing apparatus, information processing method, information processing system, and program |
Non-Patent Citations (2)
Title |
---|
星野 崇宏: "学習科学研究の妥当性向上へ向けた統計解析法と複数データの統合手法について", 教育システム情報学会誌 VOL.24 NO.3, vol. 第24巻 第3号, JPN6022044103, 1 July 2007 (2007-07-01), pages 216 - 224, ISSN: 0004905385 * |
西尾 義英: "共通変数から推定が容易な潜在変数を融合対象とするデータフュージョン", 電子情報通信学会技術研究報告 VOL.119 NO.413 [ONLINE], vol. 第119巻 第413号, JPN6022044102, 7 February 2020 (2020-02-07), pages 55 - 60, ISSN: 0004905384 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023085279A1 (en) | 2023-05-19 |
JP7227412B1 (en) | 2023-02-21 |
TW202336607A (en) | 2023-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guan et al. | Matrix factorization with rating completion: An enhanced SVD model for collaborative filtering recommender systems | |
Ringel et al. | Visualizing asymmetric competition among more than 1,000 products using big search data | |
JP5913722B1 (en) | Information processing system and program | |
Kumar et al. | Combined artificial bee colony algorithm and machine learning techniques for prediction of online consumer repurchase intention | |
Guidotti et al. | Personalized market basket prediction with temporal annotated recurring sequences | |
JP2018537753A (en) | Recommended methods and devices | |
Dhillon et al. | Modeling dynamic user interests: A neural matrix factorization approach | |
JP2018060469A (en) | Extraction device, extraction method, and extraction program | |
JP6434954B2 (en) | Information processing apparatus, information processing method, and program | |
JP6947768B2 (en) | Estimator, estimation method and estimation program | |
CN111967924A (en) | Commodity recommendation method, commodity recommendation device, computer device, and medium | |
Kashef et al. | Predicting l-CrossSold products using connected components: A clustering-based recommendation system | |
Pai et al. | Modelling visit similarity using click-stream data: A supervised approach | |
JP7227412B1 (en) | Information processing system, computer program, and information processing method | |
JP6258246B2 (en) | Analysis device, analysis method, and program | |
JP6585998B2 (en) | Content determination device | |
JP5011185B2 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
Cen et al. | A map-based gender prediction model for big e-commerce data | |
JP6160018B1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
Chauhan et al. | Customer-Aware Recommender System for Push Notifications in an e-commerce Environment | |
JP7434264B2 (en) | Information processing device, information processing method, and information processing program | |
JP7459041B2 (en) | Information processing device, information processing method, and information processing program | |
JP7208286B2 (en) | Information processing device, information processing method and information processing program | |
JP7303855B2 (en) | Information processing device, information processing method and information processing program | |
Vongsingthong et al. | Classification of university students' behaviors in sharing information on Facebook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220722 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7227412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |