JP6933623B2 - Feature vector generator, feature vector generation method and feature vector generation program - Google Patents
Feature vector generator, feature vector generation method and feature vector generation program Download PDFInfo
- Publication number
- JP6933623B2 JP6933623B2 JP2018178806A JP2018178806A JP6933623B2 JP 6933623 B2 JP6933623 B2 JP 6933623B2 JP 2018178806 A JP2018178806 A JP 2018178806A JP 2018178806 A JP2018178806 A JP 2018178806A JP 6933623 B2 JP6933623 B2 JP 6933623B2
- Authority
- JP
- Japan
- Prior art keywords
- series data
- time series
- time
- feature vector
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラムに関する。 The present invention relates to a feature vector generator, a feature vector generation method, and a feature vector generation program.
幅広い業種で時系列データ分析が使われている。時系列データ分析では、過去のデータに基づいて将来のデータを推定する場面が多い。従来、線形の時系列解析手法(例えば、自己回帰和分移動平均モデル)がよく使われてきたが、機械学習手法も提案されている。機械学習技術は非線形な時系列データや複雑な周期の時系列データにも効果的に対応できる。 Time series data analysis is used in a wide range of industries. In time series data analysis, future data is often estimated based on past data. Conventionally, a linear time series analysis method (for example, an autoregressive integrated moving average model) has been often used, but a machine learning method has also been proposed. Machine learning technology can effectively handle non-linear time-series data and time-series data with complex periods.
近年、時系列データの各アイテムに特徴ベクトルを割り当てることにより、アイテムのクラスタリングや時系列パターンの分類等を行う機械学習技術が提案されている。例えば、非特許文献1には、Word2Vec(Doc2Vec)を利用して、全ユーザの時系列データセットの各アイテムに特徴ベクトルを割り当て、当該特徴ベクトルに基づいて、ユーザにアイテムの推薦を行うことが開示されている。また、非特許文献2には、時系列データのアイテム間の間隔を考慮して、各アイテムに特徴ベクトルの割り当てを行うことが開示されている。
In recent years, a machine learning technique for clustering items and classifying time-series patterns by assigning feature vectors to each item of time-series data has been proposed. For example, in Non-Patent
従来の技術では、1つのドメインに対応する時系列データセットについて、各アイテムに特徴ベクトルを割り当てているものであり、異なるドメインの各アイテムに特徴ベクトルを割り当てることについては考慮されていない。したがって、異なるドメインのそれぞれに対応する時系列データセット間の転移学習を行う場合、これらのデータセットの関連性を考慮できず、転移学習を精度良く行うことができないという問題がある。 In the conventional technique, the feature vector is assigned to each item in the time series data set corresponding to one domain, and the assignment of the feature vector to each item in a different domain is not considered. Therefore, when performing transfer learning between time-series data sets corresponding to each of the different domains, there is a problem that the relevance of these data sets cannot be taken into consideration and the transfer learning cannot be performed accurately.
そこで、本発明はこれらの点に鑑みてなされたものであり、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができる特徴ベクトル生成装置、特徴ベクトル生成方法及び特徴ベクトル生成プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of these points, and is a feature vector generator and feature vector generator capable of generating feature vectors by associating items of time series data corresponding to different domains with each other. It is an object of the present invention to provide a method and a feature vector generation program.
本発明の第1の態様に係る特徴ベクトル生成装置は、イベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻と、前記イベントを発生させたユーザを識別するユーザ識別情報とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部と、複数の前記ユーザ識別情報の対応関係を特定する対応関係特定部と、前記第1時系列データ及び前記第2時系列データに含まれる時刻と、前記対応関係特定部が特定した前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成する統合部と、前記統合部により統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、を備える。 The feature vector generator according to the first aspect of the present invention includes item information indicating an item corresponding to an event, a time when the event occurs, and user identification information that identifies a user who has generated the event. A plurality of time-series data acquisition units for acquiring the first time-series data which is the time-series data of the first domain and the second time-series data which is the time-series data of the second domain. Correspondence relationship between the correspondence relationship specifying unit that specifies the correspondence relationship of the user identification information, the time included in the first time series data and the second time series data, and the user identification information specified by the correspondence relationship identification unit. Based on the above, an integrated unit that generates a plurality of partial time series data by integrating a part of the first time series data and a part of the second time series data, and a plurality of integrated units integrated by the integrated unit. Based on the partial time series data of the above, the feature vector generation unit for generating a feature vector indicating the feature of the item indicated by each of the plurality of item information included in each of the plurality of the partial time series data is provided.
第1時系列データには、所定のイベントに対応するアイテム情報と、前記所定のイベントとは異なるイベントに対応するアイテム情報との少なくともいずれかが含まれており、前記統合部は、前記第1時系列データから、当該第1時系列データに含まれる前記所定のイベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出し、前記第2時系列データから、当該発生時刻以前の期間に対応する時系列データである第2部分時系列データを抽出し、当該第1部分時系列データと、当該第2時系列データとを統合することにより前記部分時系列データを生成してもよい。 The first time-series data includes at least one of item information corresponding to a predetermined event and item information corresponding to an event different from the predetermined event, and the integrated unit includes the first item. From the time-series data, the first partial time-series data including the occurrence time of the predetermined event included in the first time-series data and corresponding to the period before the occurrence time is extracted, and the first partial time-series data is extracted. 2. Extract the second partial time series data, which is the time series data corresponding to the period before the occurrence time, from the time series data, and integrate the first partial time series data with the second time series data. May generate the partial time series data.
前記統合部は、前記第1時系列データに前記所定のイベントに対応するアイテム情報が含まれていない場合には、前記第1時系列データから、任意の期間に対応する時系列データを前記第1部分時系列データとして抽出するとともに、前記第2時系列データから、前記任意の期間に対応する時系列データを前記第2部分時系列データとして抽出し、当該第1部分時系列データと当該第2部分時系列データとを統合することにより部分時系列データを生成してもよい。 When the first time-series data does not include the item information corresponding to the predetermined event, the integration unit obtains the time-series data corresponding to an arbitrary period from the first time-series data. In addition to extracting as one partial time series data, time series data corresponding to the arbitrary period is extracted as the second partial time series data from the second time series data, and the first partial time series data and the first part time series data are extracted. Partial time series data may be generated by integrating with two partial time series data.
前記統合部は、前記部分時系列データに含まれる前記アイテム情報の数が予め定められた数となるように前記部分時系列データを生成してもよい。
前記統合部は、前記第1部分時系列データに含まれるアイテム情報の数が第1の数になるように前記第1部分時系列データを抽出し、前記第2部分時系列データに含まれるアイテム情報の数が第2の数になるように前記第2部分時系列データを抽出してもよい。
The integrated unit may generate the partial time series data so that the number of the item information included in the partial time series data is a predetermined number.
The integration unit extracts the first partial time series data so that the number of item information included in the first partial time series data becomes the first number, and the item included in the second partial time series data. The second partial time series data may be extracted so that the number of information becomes the second number.
前記統合部は、前記第1時系列データにおいて前記第1部分時系列データに含まれるアイテム情報の数が第1の数となる期間を特定し、当該期間に対応する前記第2時系列データを第2部分時系列データとして抽出し、当該第2部分時系列データに含まれるアイテム情報の数が前記第2の数よりも多い場合には、当該第2部分時系列データに含まれるアイテム情報の数が第2の数となるように前記アイテム情報を削減してもよい。 The integration unit specifies a period in which the number of item information included in the first partial time-series data is the first number in the first time-series data, and selects the second time-series data corresponding to the period. When the number of item information included in the second partial time series data is larger than the second number, the item information included in the second partial time series data is extracted as the second partial time series data. The item information may be reduced so that the number becomes the second number.
前記統合部は、前記第1時系列データにおいて前記第1部分時系列データに含まれるアイテム情報の数が第1の数となる期間を特定し、当該期間に対応する前記第2時系列データに含まれるアイテム情報の数が前記第2の数よりも少ない場合には、当該期間を長くして、前記第2部分時系列データに含まれるアイテム情報の数が第2の数となるように前記第2部分時系列データを抽出してもよい。 The integration unit specifies a period in which the number of item information included in the first partial time-series data is the first number in the first time-series data, and the second time-series data corresponding to the period is used. When the number of item information included is smaller than the second number, the period is extended so that the number of item information included in the second partial time series data becomes the second number. The second part time series data may be extracted.
前記統合部は、前記部分時系列データに含まれる前記アイテム情報に対応するイベントが発生した期間が予め定められた所定期間となるように前記部分時系列データを生成してもよい。
前記統合部は、前記部分時系列データに含まれる前記所定のイベントに対応するアイテム情報の数が予め定められた数となるように前記部分時系列データを生成してもよい。
The integrated unit may generate the partial time series data so that the period in which the event corresponding to the item information included in the partial time series data occurs is a predetermined predetermined period.
The integrated unit may generate the partial time series data so that the number of item information corresponding to the predetermined event included in the partial time series data is a predetermined number.
前記生成部は、複数の前記部分時系列データに含まれる前記複数のアイテム情報が示すアイテムの関係を解析することにより、複数のアイテムのそれぞれの特徴ベクトルを生成してもよい。 The generation unit may generate a feature vector of each of the plurality of items by analyzing the relationship between the items indicated by the plurality of item information included in the plurality of the partial time series data.
前記統合部は、前記対応関係特定部が特定した前記ユーザ識別情報の対応関係に基づいて、前記第1時系列データに対応するユーザと同一のユーザに対応する前記第2時系列データを特定し、当該第1時系列データの一部と当該第2時系列データの一部とを統合することにより前記部分時系列データを生成してもよい。 The integration unit identifies the second time-series data corresponding to the same user as the user corresponding to the first time-series data, based on the correspondence of the user identification information specified by the correspondence-specificing unit. , The partial time series data may be generated by integrating a part of the first time series data and a part of the second time series data.
第1時系列データには、所定のイベントと、前記所定のイベントとは異なるイベントとの少なくともいずれかが含まれており、前記生成部は、前記第1時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応する前記ユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応する前記ユーザの特徴ベクトルを第2特徴ベクトルとして生成し、前記特徴ベクトル生成装置は、複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成し、生成した前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類する予測部をさらに備えてもよい。 The first time-series data includes at least one of a predetermined event and an event different from the predetermined event, and the generation unit includes a plurality of item information included in the first time-series data. Based on the feature vector of each of the plurality of items indicated by, the feature vector of the user corresponding to the first time series data is generated as the first feature vector, and a plurality of features included in the second time series data. Based on the feature vector of each of the plurality of items indicated by the item information, the feature vector of the user corresponding to the second time series data is generated as the second feature vector, and the feature vector generator is a plurality of the above. Based on the first feature vector and the result of whether or not the user corresponding to the first feature vector has generated a predetermined event, the user is sent to the predetermined event in response to the input of the user's feature vector. By generating a classifier that classifies the user who generated the above and the user who did not generate the predetermined event and inputting the second feature vector into the generated classifier, the second feature vector can be used. A prediction unit may be further provided to classify the corresponding users into a user who is predicted to generate the predetermined event and a user who is predicted not to generate the predetermined event.
本発明の第2の態様に係る特徴ベクトル生成方法は、コンピュータが実行する、イベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻と、前記イベントを発生させたユーザを識別するユーザ識別情報とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、複数の前記ユーザ識別情報の対応関係を特定するステップと、前記第1時系列データ及び前記第2時系列データに含まれる時刻と、特定された前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成するステップと、統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成するステップと、を備える。 In the feature vector generation method according to the second aspect of the present invention, the item information indicating the item corresponding to the event executed by the computer, the time when the event occurs, and the user who identifies the user who generated the event are identified. A plurality of steps for acquiring the first time-series data which is the time-series data of the first domain and the second time-series data which is the time-series data of the second domain, which is the time-series data including the identification information. Based on the step of specifying the correspondence relationship of the user identification information, the time included in the first time series data and the second time series data, and the correspondence relationship of the specified user identification information. A plurality of steps based on a step of generating a plurality of partial time series data by integrating a part of one time series data and a part of the second time series data, and a plurality of integrated partial time series data. It includes a step of generating a feature vector indicating the feature of the item indicated by each of the plurality of item information included in each of the partial time series data.
本発明の第3の態様に係る特徴ベクトル生成プログラムは、コンピュータを、イベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻と、前記イベントを発生させたユーザを識別するユーザ識別情報とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、複数の前記ユーザ識別情報の対応関係を特定する対応関係特定部、前記第1時系列データ及び前記第2時系列データに含まれる時刻と、前記対応関係特定部が特定した前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成する統合部、及び、前記統合部により統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、として機能させる。 The feature vector generation program according to the third aspect of the present invention uses the computer to display item information indicating an item corresponding to an event, a time when the event occurs, and user identification information that identifies a user who has generated the event. A time-series data acquisition unit that acquires the first time-series data, which is the time-series data of the first domain, and the second time-series data, which is the time-series data of the second domain. Correspondence between the correspondence relationship identification unit for specifying the correspondence relationship of a plurality of the user identification information, the time included in the first time series data and the second time series data, and the user identification information specified by the correspondence relationship identification unit. Based on the relationship, the integration unit that generates a plurality of partial time series data by integrating a part of the first time series data and a part of the second time series data, and the integration unit are integrated. It functions as a feature vector generator that generates a feature vector indicating the feature of the item indicated by each of the plurality of item information included in each of the plurality of the partial time series data based on the plurality of the partial time series data. Let me.
本発明によれば、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができるという効果を奏する。 According to the present invention, it is possible to generate a feature vector by associating items of time series data corresponding to different domains.
[特徴ベクトル生成装置の概要]
図1は、本実施形態に係る特徴ベクトル生成装置の概要を説明する図である。特徴ベクトル生成装置は、異なるドメインの時系列データを統合し、当該時系列データに含まれるアイテムの特徴を示す特徴ベクトルを生成するコンピュータである。
[Overview of feature vector generator]
FIG. 1 is a diagram illustrating an outline of a feature vector generator according to the present embodiment. The feature vector generator is a computer that integrates time series data of different domains and generates a feature vector indicating the features of the items included in the time series data.
特徴ベクトル生成装置は、第1ドメインの時系列データを取得するとともに、第2ドメインの時系列データを取得する(図1の(1))。本実施形態においてドメインは、時系列データの種別に基づいて時系列データを分類するための領域である。本実施形態では、第1ドメインは、例えば、EC(Electronic Commerce)サイトにおけるアイテムの購入に関するユーザの行動を示す時系列データを含む領域であり、第2ドメインは、例えば、任意のウェブサイトにおけるユーザの閲覧行動を示す時系列データを含む領域である。 The feature vector generator acquires the time-series data of the first domain and the time-series data of the second domain ((1) in FIG. 1). In the present embodiment, the domain is an area for classifying time series data based on the type of time series data. In the present embodiment, the first domain is, for example, an area containing time-series data indicating the user's behavior regarding the purchase of an item on an EC (Electronic Commerce) site, and the second domain is, for example, a user on an arbitrary website. This is an area containing time-series data indicating the browsing behavior of.
また、時系列データには、イベントに対応するアイテムを示すアイテム情報と、イベントが発生した時刻と、イベントを発生させたユーザを識別するユーザ識別情報とが含まれている。 In addition, the time-series data includes item information indicating an item corresponding to the event, a time when the event occurred, and user identification information for identifying the user who generated the event.
特徴ベクトル生成装置は、第1ドメインの時系列データ及び第2ドメインの時系列データのうち、共通のユーザの時系列データを特定する。そして、特徴ベクトル生成装置は、共通のユーザの時系列データに含まれる時刻情報に基づいて、共通のユーザの第1ドメインの時系列データの一部と、第2ドメインの時系列データの一部とを統合することにより、部分時系列データを複数生成する(図1の(2))。 The feature vector generator identifies the time-series data of a common user among the time-series data of the first domain and the time-series data of the second domain. Then, the feature vector generator has a part of the time series data of the first domain of the common user and a part of the time series data of the second domain based on the time information included in the time series data of the common user. By integrating with and, a plurality of partial time series data are generated ((2) in FIG. 1).
特徴ベクトル生成装置は、生成した複数の部分時系列データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する(図1の(3))。このようにすることで、特徴ベクトル生成装置は、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
以下、特徴ベクトル生成装置の構成について説明する。
The feature vector generator generates a feature vector indicating the feature of the item indicated by each of the plurality of item information included in each of the generated plurality of partial time series data ((3) in FIG. 1). By doing so, the feature vector generator can generate the feature vector by associating the items of the time series data corresponding to different domains. As a result, the feature vector generator can accurately perform transfer learning between time series data corresponding to different domains.
Hereinafter, the configuration of the feature vector generator will be described.
[特徴ベクトル生成装置1の構成例]
図2は、本実施形態に係る特徴ベクトル生成装置1の構成を示す図である。特徴ベクトル生成装置1は、記憶部11と、制御部12とを備える。
[Configuration example of feature vector generator 1]
FIG. 2 is a diagram showing a configuration of a feature
記憶部11は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等である。記憶部11は、特徴ベクトル生成装置1を機能させるための各種プログラムを記憶する。例えば、記憶部11は、特徴ベクトル生成装置1の制御部12を、時系列データ取得部121、対応関係特定部122、統合部123、特徴ベクトル生成部124及び予測部125として機能させる特徴ベクトル生成プログラムを記憶する。
The
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されている各種プログラムを実行することにより、特徴ベクトル生成装置1に係る機能を制御する。制御部12は、記憶部11に記憶されているプログラムを実行することにより、時系列データ取得部121、対応関係特定部122、統合部123、特徴ベクトル生成部124及び予測部125として機能する。
The
[アイテムの特徴ベクトルの生成]
本実施形態において、時系列データ取得部121、対応関係特定部122、統合部123、特徴ベクトル生成部124は、協働することにより、時系列データに含まれるアイテムの特徴ベクトルを生成する。以下、アイテムの特徴ベクトルの生成に係る時系列データ取得部121、対応関係特定部122、統合部123及び特徴ベクトル生成部124の機能について説明する。
[Generate item feature vector]
In the present embodiment, the time-series
時系列データ取得部121は、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する。例えば、時系列データ取得部121は、ユーザのECサイトにおけるアイテムの閲覧及び購買履歴を示す情報を第1時系列データとして取得するとともに、複数のユーザのそれぞれのウェブサイトの閲覧履歴を示す情報を第2時系列データとして取得する。時系列データ取得部121は、例えば、第1時系列データと第2時系列データとを収集する情報収集サーバ(不図示)から、複数の第1時系列データと、複数の第2時系列データとを所定時間おきに取得する。
The time-series
図3は、本実施形態に係る第1時系列データ及び第2時系列データの例を示す図である。図3(a)には、3つの第1時系列データD1A〜D1Cが示されている。図3(b)には、3つの第2時系列データD2A〜D2Cが示されている。 FIG. 3 is a diagram showing an example of the first time series data and the second time series data according to the present embodiment. FIG. 3A shows three first time series data D1A to D1C. FIG. 3B shows three second time series data D2A to D2C.
第1時系列データには、イベントに対応するアイテムを示すアイテム情報と、イベントが発生した時刻と、イベントを発生させたユーザを識別するユーザ識別情報とを関連付けたイベントデータが複数含まれている。図3に示す例では、v1〜v7、p1、p2、w1〜w6は、イベントデータを示し、イベントデータの表示形態は、イベントの種別を示している。 The first time-series data includes a plurality of event data in which item information indicating an item corresponding to an event, the time when the event occurred, and user identification information for identifying the user who generated the event are associated with each other. .. In the example shown in FIG. 3, v1 to v7, p1, p2, and w1 to w6 indicate event data, and the display form of the event data indicates the type of event.
ここで、アイテムは、例えば、商品やサービスである。本実施形態において、イベントデータに付した符号を、アイテムを識別する識別情報とする。なお、異なる符号のアイテムは、同じアイテムであってもよいし、異なるアイテムであってもよい。例えば、イベントデータp1に対応するアイテムと、イベントデータv1に対応するアイテムは、同じであってもよいし、異なっていてもよい。 Here, the item is, for example, a product or service. In the present embodiment, the code attached to the event data is used as the identification information for identifying the item. Items having different codes may be the same item or different items. For example, the item corresponding to the event data p1 and the item corresponding to the event data v1 may be the same or different.
第1時系列データには、所定のイベントに対応するアイテム情報と、所定のイベントとは異なるイベントに対応するアイテム情報との少なくともいずれかが含まれている。また、第2時系列データにも、所定のイベントとは異なるイベントに対応するアイテム情報が含まれている。 The first time-series data includes at least one of item information corresponding to a predetermined event and item information corresponding to an event different from the predetermined event. Further, the second time series data also includes item information corresponding to an event different from the predetermined event.
例えば、第1時系列データにおいて、所定のイベントは、ユーザがECサイト上でアイテムを購入するイベントである。また、第1時系列データにおいて、所定のイベントとは異なるイベントは、ユーザがECサイトを閲覧するイベントである。図3(a)に示す例では、イベントデータv1〜v7に対応するイベントは、ECサイトを閲覧するイベントであり、イベントデータp1、p2に対応するイベントは、ECサイト上でアイテムを購入するイベントである。また、第2ドメインにおいて、所定のイベントとは異なるイベントは、ウェブサイトを閲覧するイベントである。図3(b)に示す例では、イベントデータw1〜w6に対応するイベントは、ウェブサイトを閲覧するイベントである。 For example, in the first time series data, a predetermined event is an event in which a user purchases an item on an EC site. Further, in the first time series data, an event different from the predetermined event is an event in which the user browses the EC site. In the example shown in FIG. 3A, the event corresponding to the event data v1 to v7 is an event to browse the EC site, and the event corresponding to the event data p1 and p2 is an event to purchase an item on the EC site. Is. Further, in the second domain, an event different from a predetermined event is an event for browsing a website. In the example shown in FIG. 3B, the event corresponding to the event data w1 to w6 is an event for browsing a website.
また、図3に示される矢印は、イベントの発生時刻に対応している。例えば、第1時系列データD1Aでは、ECサイト上で、イベントデータv1、v2、v3に対応するアイテムが順番に閲覧され、その後、イベントデータp1に対応するアイテムが購入されたことを示している。 Further, the arrows shown in FIG. 3 correspond to the time when the event occurs. For example, in the first time series data D1A, it is shown that the items corresponding to the event data v1, v2, and v3 are sequentially browsed on the EC site, and then the items corresponding to the event data p1 are purchased. ..
ユーザ識別情報は、ユーザを一意に特定可能な情報であり、例えば、ユーザが使用する端末に割り当てられたIPアドレスである。なお、ユーザ識別情報として、ECサイトにおいてユーザを識別するために用いられるユーザIDが用いられてもよいし、各ウェブサイトにおいてユーザを識別するために用いられるユーザIDが用いられてもよい。 The user identification information is information that can uniquely identify the user, and is, for example, an IP address assigned to the terminal used by the user. As the user identification information, the user ID used to identify the user on the EC site may be used, or the user ID used to identify the user on each website may be used.
1つの時系列データに含まれる複数のイベントデータには、共通のユーザ識別情報が含まれている。このため、図3に示す例では、説明の便宜上、ユーザ識別情報に対応するユーザを別途表示するものとする。図3に示す例では、ユーザA、ユーザB、ユーザC、ユーザa、ユーザb、ユーザcを、それぞれの時系列データに対応するユーザ識別情報とする。 A plurality of event data included in one time series data includes common user identification information. Therefore, in the example shown in FIG. 3, for convenience of explanation, the user corresponding to the user identification information is separately displayed. In the example shown in FIG. 3, user A, user B, user C, user a, user b, and user c are used as user identification information corresponding to the respective time series data.
第1時系列データは、例えば、ECサイトにおけるアクセス履歴であり、ECサイトにアクセスした端末のIPアドレスと、ECサイトにおけるURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ECサイトにおけるURLには、アイテムが購入された場合に端末に表示される購入完了ページのURL及びアイテムを説明するページのURLが含まれている。アイテムが購入された場合に端末に表示される購入完了ページのURLは、アイテムの購入イベントに対応するアイテム情報に対応しており、アイテムを説明するページのURLは、アイテムの閲覧イベントを示すアイテム情報に対応している。また、URLへのアクセス時刻が、イベントが発生した時刻に対応している。 The first time-series data is, for example, an access history on an EC site, and includes a plurality of event data in which the IP address of the terminal that accessed the EC site, the URL on the EC site, and the access time to the URL are associated with each other. ing. The URL on the EC site includes the URL of the purchase completion page displayed on the terminal when the item is purchased and the URL of the page explaining the item. The URL of the purchase completion page displayed on the terminal when the item is purchased corresponds to the item information corresponding to the item purchase event, and the URL of the page explaining the item corresponds to the item indicating the item browsing event. Corresponds to information. Also, the access time to the URL corresponds to the time when the event occurred.
第2時系列データは、例えば、ウェブサイトにおけるアクセス履歴であり、ウェブサイトにアクセスした端末のIPアドレスと、ウェブサイトにおけるURLと、当該URLへのアクセス時刻とを関連付けたイベントデータが複数含まれている。ウェブサイトにおけるURLには、アイテムを説明するページのURLが含まれている。アイテムを説明するページのURLは、ウェブサイトにおけるアイテムの閲覧イベントに対応するアイテム情報に対応しており、URLへのアクセス時刻が、イベントが発生した時刻に対応している。 The second time-series data is, for example, an access history on a website, and includes a plurality of event data in which the IP address of the terminal that accessed the website, the URL on the website, and the access time to the URL are associated with each other. ing. The URL on the website includes the URL of the page that describes the item. The URL of the page explaining the item corresponds to the item information corresponding to the item browsing event on the website, and the access time to the URL corresponds to the time when the event occurred.
対応関係特定部122は、複数のユーザ識別情報の対応関係を特定する。例えば、対応関係特定部122は、第1時系列データに含まれるユーザ識別情報と、第2時系列データに含まれるユーザ識別情報の一致・不一致を特定することにより、複数のユーザ識別情報の対応関係を特定する。本実施形態では、対応関係特定部122は、第1時系列データのユーザ識別情報と、第2時系列データのユーザ識別情報とが一致する場合、これらの時系列データに対応するユーザが同一のユーザであると判定する。
The correspondence
なお、ユーザ識別情報が、ECサイトにおいてユーザを識別するために用いられるユーザID、及び各ウェブサイトにおいてユーザを識別するために用いられるユーザIDである場合、記憶部11には、これらのユーザIDの対応関係を示す対応関係情報が記憶されている。そして、対応関係特定部122は、記憶部11に記憶されている対応関係情報を参照することにより、複数のユーザ識別情報の対応関係を特定する。
When the user identification information is a user ID used to identify a user on an EC site and a user ID used to identify a user on each website, the
統合部123は、第1時系列データ及び第2時系列データに含まれる時刻と、対応関係特定部122が特定したユーザ識別情報の対応関係とに基づいて、第1時系列データの一部と、第2時系列データの一部とを統合することにより、部分時系列データを複数生成する。
The
具体的には、統合部123は、第1時系列データから、当該第1時系列データに含まれる所定のイベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出する。例えば、統合部123は、第1時系列データから、所定のイベントの発生時刻から30分前までの期間をデータ抽出期間に特定し、データ抽出期間に対応する時系列データを第1部分時系列データとして抽出する。
Specifically, the
図3に示す例では、統合部123は、第1時系列データD1Aから、所定のイベントとしてのアイテムの購入イベントに対応するイベントデータp1と、当該アイテムの購入イベントが発生する前に発生したアイテムの閲覧イベントに対応するイベントデータv1〜v3とを、第1部分時系列データとして抽出する。
In the example shown in FIG. 3, the
続いて、統合部123は、対応関係特定部122が特定したユーザ識別情報の対応関係に基づいて、第1時系列データに対応するユーザと同一のユーザに対応する第2時系列データを特定する。そして、統合部123は、第1時系列データに対応するユーザと同一のユーザに対応する第2時系列データから、当該所定のイベントの発生時刻以前の期間に対応する時系列データである第2部分時系列データを抽出する。例えば、統合部123は、当該第2時系列データから、第1部分時系列データに対して特定されたデータ抽出期間と同じ期間に対応する時系列データを第2部分時系列データとして抽出する。
Subsequently, the
図3に示す例において、第1時系列データD1Aに対応するユーザ識別情報であるユーザAと、第2時系列データD2Aに対応するユーザ識別情報であるユーザaとが対応しており、これらの時系列データに対応するユーザが同一であるものとする。この場合、統合部123は、第2時系列データD2Aから、アイテムの閲覧イベントに対応するイベントデータw1と、イベントデータw2とを第2部分時系列データとして抽出する。ここで、イベントデータw2に対応するイベントの発生時刻は、イベントデータp1に対応するイベントの発生時刻よりも後であるため、統合部123は、イベントデータw2を第2部分時系列データに含めない。
In the example shown in FIG. 3, the user A, which is the user identification information corresponding to the first time series data D1A, and the user a, which is the user identification information corresponding to the second time series data D2A, correspond to each other. It is assumed that the users corresponding to the time series data are the same. In this case, the
そして、統合部123は、当該第1部分時系列データと、当該第2部分時系列データとを統合することにより部分時系列データを生成する。図4は、本実施形態に係る部分時系列データの生成例を示す図である。図4では、図3に示す第1時系列データD1Aから抽出された第1部分時系列データD1A−1と、第2時系列データD2Aから抽出された第2部分時系列データD2A−1が統合され、部分時系列データd1が生成されていることが確認できる。
Then, the
ここで、統合部123は、部分時系列データに含まれるアイテム情報の数が予め定められた数となるように部分時系列データを生成してもよい。例えば、統合部123は、第1部分時系列データに含まれるアイテム情報の数が第1の数になるように第1部分時系列データを抽出するとともに、第2部分時系列データに含まれるアイテム情報の数が第2の数になるよう第2部分時系列データを抽出してもよい。
Here, the
例えば、統合部123は、第1時系列データにおいて、第1部分時系列データに含まれるアイテム情報の数が第1の数となるデータ抽出期間を特定する。そして、統合部123は、特定したデータ抽出期間に対応する第2時系列データを第2部分時系列データとして抽出する。統合部123は、抽出した第2部分時系列データに含まれるアイテム情報の数が第2の数よりも多い場合には、当該第2部分時系列データに含まれるアイテム情報の数が第2の数となるようにイベントデータを削減する。
For example, the
例えば、統合部123は、同一のイベント及びアイテムを示すイベントデータが複数含まれている場合には、これらのイベントデータの一部を削除することによりアイテム情報の数を削減する。このようにすることで、特徴ベクトル生成装置1は、データ抽出期間において第2時系列データに含まれるアイテム情報の数が多い場合であっても、当該アイテム情報の数が第2の数となるように調整することができる。なお、統合部123は、同一のイベント及びアイテムを示すイベントデータが複数含まれている場合に、これらのイベントデータを消去せず、他のイベントデータとイベント及びアイテムが重複していないイベントデータを削除することによりアイテム情報の数を削減するようにしてもよい。
For example, when the
また、統合部123は、特定したデータ抽出期間に対応する第2時系列データに含まれるアイテム情報の数が第2の数よりも少ない場合には、当該データ抽出期間を長くしてもよい。例えば、統合部123は、当該データ抽出期間の終了時刻はそのままとし、開始時刻を、当該開始時刻よりも過去の時刻とし、第2時系列データにおいて、データ抽出期間に含まれるアイテム情報の数が第2の数となるようにデータ抽出期間を長くする。そして、統合部123は、第2部分時系列データに含まれるアイテム情報の数が第2の数となるように第2部分時系列データを抽出する。
Further, when the number of item information included in the second time series data corresponding to the specified data extraction period is smaller than the second number, the
このようにすることで、特徴ベクトル生成装置1は、データ抽出期間において第2時系列データに含まれるアイテム情報の数が少ない場合であっても、当該アイテム情報の数が第2の数となるように調整することができる。
By doing so, the
また、統合部123は、特定したデータ抽出期間に対応する第2時系列データに含まれるアイテム情報の数が第2の数よりも少ない場合には、データ抽出期間に対応する第2時系列データに含まれるアイテム情報を第2部分時系列データに含ませるとともに、当該アイテム情報を複製して第2部分時系列データに含ませることにより、第2部分時系列データに含まれるアイテム情報の数が第2の数になるようにしてもよい。
Further, when the number of item information included in the second time series data corresponding to the specified data extraction period is smaller than the second number, the
なお、統合部123は、第1時系列データにおいて、第1部分時系列データに含まれるアイテム情報の数が第1の数となるようにデータ抽出期間を特定し、当該データ抽出期間に基づいて部分時系列データを生成したが、これに限らない。統合部123は、部分時系列データに含まれるイベントデータに対応するイベントが発生した期間が予め定められた所定期間となるように部分時系列データを生成してもよい。このようにすることで、特徴ベクトル生成装置1は、第1の数及び第2の数に基づいてデータ抽出期間を設定することにより、当該期間が大幅に長くなり、所定のイベントとは関係がないイベントに対応するアイテム情報が部分時系列データに含まれてしまうことを抑制することができる。
In addition, the
また、統合部123は、部分時系列データに含まれる所定のイベントとしてのアイテムの購入イベントに対応するイベントデータが予め定められた数となるように部分時系列データを生成するようにしてもよい。例えば、統合部123は、購入イベントに対応するイベントデータが部分時系列データに1つのみ含まれるように部分時系列データを生成してもよい。例えば、アイテムの購入が短期間に連続した場合、第1のアイテムの購入前のアイテムの閲覧イベントと、第2のアイテムの購入前のアイテムの閲覧イベントとは関係がない可能性が高い。これに対し、特徴ベクトル生成装置1は、アイテムの購入イベントが短期間に連続した場合に、アイテムの購入イベントに関係する可能性が高いアイテムの閲覧イベントに対応するイベントデータのみを部分時系列データに含めることができる。
Further, the
また、統合部123は、所定のイベントに対応するイベントデータが含まれるように部分時系列データを生成したが、これに限らない。統合部123は、第1時系列データに所定のイベントに対応するイベントデータが含まれていない場合には、第1時系列データから、任意の期間に対応する時系列データを第1部分時系列データとして抽出してもよい。この場合、統合部123は、第1時系列データに対応するユーザと同一のユーザに対応する第2時系列データから、当該任意の期間に対応する時系列データを第2部分時系列データとして抽出し、当該第1部分時系列データと当該第2部分時系列データとを統合することにより部分時系列データを生成してもよい。このようにすることで、特徴ベクトル生成装置1は、アイテムの購入が行われなかった場合におけるアイテム閲覧状況に基づく特徴ベクトルを生成することができる。
Further, the
また、統合部123は、対応関係が特定されていないユーザに対応する第1時系列データと第2時系列データとのそれぞれに基づいて、部分時系列データを生成してもよい。例えば、統合部123は、第2時系列データのユーザとの対応関係が特定されていないユーザの第1時系列データから生成した第1部分時系列データをそのまま部分時系列データとして利用してもよい。また、統合部123は、第1時系列データのユーザとの対応関係が特定されていないユーザの第2時系列データから、任意の期間に対応する第2部分時系列データを抽出し、抽出した第2部分時系列データを部分時系列データとして利用してもよい。
Further, the
特徴ベクトル生成部124は、統合部123により統合された複数の部分時系列データに基づいて、複数の部分時系列データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する。
The feature
具体的には、特徴ベクトル生成部124は、複数の部分時系列データに含まれるイベントデータに含まれているアイテム情報を抽出する。特徴ベクトル生成部124は、抽出した複数のアイテム情報が示すアイテムの関係を解析することにより、複数のアイテムのそれぞれの特徴を示す特徴ベクトルを生成する。
Specifically, the feature
例えば、特徴ベクトル生成部124は、複数のアイテムのそれぞれを1つの単語とみなし、複数の部分時系列データのそれぞれにおいて、当該単語を連結した文章を生成する。特徴ベクトル生成部124は、生成した複数の文章について、例えば、Word2Vecを用いることにより、複数のアイテムのそれぞれの特徴ベクトルを生成する。特徴ベクトルの要素数は、例えば、アイテムの数に対応するものとする。
For example, the feature
図5は、図3に示す時系列データに基づいて生成した特徴ベクトルを特徴空間に配置した例を示す図である。なお、図5では、説明の便宜上、特徴空間を二次元に圧縮して特徴空間に配置した例を示している。図5には、マークM1とマークM2とがそれぞれ複数配置されている。これらのマークは、特徴空間上のアイテムの位置を示している。マークM1は、第1時系列データに対応する閲覧イベントに対応するアイテムを示しており、マークM2は、第2時系列データに対応する閲覧イベントに対応するアイテムを示している。 FIG. 5 is a diagram showing an example in which a feature vector generated based on the time series data shown in FIG. 3 is arranged in a feature space. Note that FIG. 5 shows an example in which the feature space is compressed two-dimensionally and arranged in the feature space for convenience of explanation. In FIG. 5, a plurality of marks M1 and marks M2 are arranged. These marks indicate the position of the item in the feature space. The mark M1 indicates an item corresponding to the browsing event corresponding to the first time series data, and the mark M2 indicates an item corresponding to the browsing event corresponding to the second time series data.
また、マークM1と、マークM2には、符号として、v1〜v7、w1〜w6が示されている。この符号は、アイテムを示しており、図3に示すイベントデータの符号と一致している。例えば、図5における、v1が添えられたマークM1は、図3に示す第1時系列データD1Aのイベントデータv1に含まれるアイテム情報が示すアイテムに対応しており、w1が添えられたマークM2は、図3に示す第2時系列データD2Aのイベントデータw1に含まれるアイテム情報が示すアイテムに対応している。 Further, the marks M1 and the mark M2 are indicated with reference numerals v1 to v7 and w1 to w6. This code indicates an item and matches the code of the event data shown in FIG. For example, the mark M1 with v1 in FIG. 5 corresponds to the item indicated by the item information included in the event data v1 of the first time series data D1A shown in FIG. 3, and the mark M2 with w1 is attached. Corresponds to the item indicated by the item information included in the event data w1 of the second time series data D2A shown in FIG.
図3に示す例において、ECサイトにおいてアイテムを閲覧するイベントを示すイベントデータv1、v3と、ウェブサイトにおいてアイテムを閲覧するイベントを示すイベントデータw1、w2は、ECサイトにおいてアイテムを購買するイベントp1の前に出ている頻度が高い。これに対応し、図5では、v1、v2、w1、w2がそれぞれ特徴空間において他のアイテムに比べて近い位置に配置されており、共起していることが確認できる。 In the example shown in FIG. 3, the event data v1 and v3 indicating the event of browsing the item on the EC site and the event data w1 and w2 indicating the event of browsing the item on the website are the event p1 of purchasing the item on the EC site. Frequently appearing in front of. Corresponding to this, in FIG. 5, v1, v2, w1 and w2 are arranged at positions closer to each other in the feature space than other items, and it can be confirmed that they co-occur.
[転移学習及び所定のイベントの発生予測]
本実施形態において、特徴ベクトル生成部124及び予測部125は、協働することにより、異なるドメインに対応する時系列データ間の転移学習を行うとともに、第2時系列データに対応するユーザが、所定のイベントを発生させるか否かを予測する。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を行う学習装置、及び第2時系列データに対応するユーザが所定のイベントを発生させるか否かを予測する予測装置として機能する。以下、転移学習及び所定のイベントの発生予測に係る特徴ベクトル生成部124及び予測部125の機能について説明する。
[Transfer learning and prediction of occurrence of predetermined events]
In the present embodiment, the feature
特徴ベクトル生成部124は、第1時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの特徴ベクトルに基づいて、第1時系列データに対応するユーザの特徴ベクトルを第1特徴ベクトルとして生成する。
The feature
例えば、特徴ベクトル生成部124は、統合部123と同様に、第1時系列データから、当該第1時系列データに含まれる所定のイベントであるアイテムの購入イベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出する。ここで、特徴ベクトル生成部124は、第1部分時系列データに含まれるイベントデータの数が第1の数となるように第1部分時系列データを抽出する。
For example, the feature
また、特徴ベクトル生成部124は、第1時系列データから、所定のイベントであるアイテムの購入イベントに対応するイベントデータが含まれていない期間に対応し、第1の数のイベントデータを含む第1部分時系列データを抽出する。
Further, the feature
そして、特徴ベクトル生成部124は、第1部分時系列データに含まれる複数のアイテム情報のそれぞれに対して生成された特徴ベクトルの平均値(例えば、算出平均値や加重平均値)を算出することにより、第1特徴ベクトルを生成する。
Then, the feature
予測部125は、複数の第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する。
The
例えば、予測部125は、第1特徴ベクトルの生成元となった第1部分時系列データのうち、アイテムの購入イベントを含む部分時系列データを正例データとし、アイテムの購入イベントを含まない部分時系列データを負例データとする。そして、予測部125は、これらの正例データ及び負例データに基づいて機械学習を行うことにより、ユーザの特徴ベクトルの入力に対して、当該ユーザを、アイテムの購入イベントを発生させたユーザと、アイテムの購入イベントを発生させなかったユーザとに分類する分類器を生成する。
For example, the
図6は、本実施形態に係る第1特徴ベクトルに基づいて分類器を学習させた例を示す図である。なお、図6では、説明の便宜上、第1特徴ベクトルを二次元に圧縮して特徴空間に配置した例を示している。図6に示すマークM3は、正例データに対応する第1特徴ベクトルを示し、マークM4は、負例データに対応する第1特徴ベクトルを示している。また、境界線Lは、分類器により第1特徴ベクトルを正例データと負例データとを分類したときの境界線を示している。なお、境界線は、説明の便宜上示すものであり、実際には境界線は生成されるものではない。 FIG. 6 is a diagram showing an example in which the classifier is trained based on the first feature vector according to the present embodiment. Note that FIG. 6 shows an example in which the first feature vector is compressed two-dimensionally and arranged in the feature space for convenience of explanation. The mark M3 shown in FIG. 6 indicates a first feature vector corresponding to the positive example data, and the mark M4 indicates a first feature vector corresponding to the negative example data. Further, the boundary line L indicates a boundary line when the first feature vector is classified into positive example data and negative example data by a classifier. The boundary line is shown for convenience of explanation, and the boundary line is not actually generated.
なお、予測部125は、分類器を生成するにあたり、統合部123が生成した、第2部分時系列データを含む部分時系列データに基づいて第1特徴ベクトルを生成し、当該第1特徴ベクトルを含めて分類器を生成してもよい。図7は、本実施形態に係る第2部分時系列データを含む部分時系列データに基づいて生成された第1特徴ベクトルを含めて分類器を学習させた例を示す図である。図7には、図6と同様に正例データに対応する第1特徴ベクトルを示すマークM3と、負例データに対応する第1特徴ベクトルを示すマークM4とともに、これらのマークと異なるマークM5と、マークM6とが表示されている。
In generating the classifier, the
図7に示すマークM5は、正例データに対応する第1特徴ベクトルであって、第2部分時系列データを含む部分時系列データに基づいて生成された第1特徴ベクトルを示している。また、マークM6は、負例データに対応する第1特徴ベクトルであって、第2部分時系列データを含む部分時系列データに基づいて生成された第1特徴ベクトルを示している。また、境界線L2は、分類器により第1特徴ベクトルを正例データと負例データとを分類したときの境界線を示している。図7に示す例は、図6に示す例に比べて正例データと負例データとが増加したことにより、境界線L2の位置が境界線Lに比べて若干異なっていることが確認できる。 The mark M5 shown in FIG. 7 is a first feature vector corresponding to the positive example data, and indicates a first feature vector generated based on the partial time series data including the second partial time series data. Further, the mark M6 is a first feature vector corresponding to the negative example data, and indicates a first feature vector generated based on the partial time series data including the second partial time series data. Further, the boundary line L2 indicates a boundary line when the first feature vector is classified into positive example data and negative example data by a classifier. In the example shown in FIG. 7, it can be confirmed that the position of the boundary line L2 is slightly different from that of the boundary line L because the positive example data and the negative example data are increased as compared with the example shown in FIG.
特徴ベクトル生成部124は、時系列データ取得部121が取得した第2時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの特徴ベクトルに基づいて、第2時系列データに対応するユーザの特徴ベクトルを第2特徴ベクトルとして生成する。例えば、特徴ベクトル生成部124は、第2時系列データのうち、最新の時刻から所定期間に含まれるイベントデータに基づいて第2部分時系列データを生成する。そして、特徴ベクトル生成部124は、第2部分時系列データに含まれる複数のアイテム情報のそれぞれに対して生成された特徴ベクトルの平均値を算出することにより、第2特徴ベクトルを生成する。なお、特徴ベクトル生成部124が、第2特徴ベクトルを生成するタイミングで時系列データ取得部121が第2時系列データを取得してもよい。
The feature
予測部125は、生成した分類器に第2特徴ベクトルを入力することにより、第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類し、分類結果を示す情報を出力する。
By inputting the second feature vector into the generated classifier, the
図8は、本実施形態に係る分類器により第2特徴ベクトルが分類された例を示す図である。図8に示す例は、図6に対応する分類器により第2特徴ベクトルを分類した例を示しており、図6と同じ境界線Lが表示されている。図8に示すマークM7は、所定のイベントを発生させると予測されたユーザに対応する第2特徴ベクトルを示している。また、マークM8は、所定のイベントを発生させないと予測されたユーザに対応する第2特徴ベクトルを示している。このようにすることで、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
FIG. 8 is a diagram showing an example in which the second feature vector is classified by the classifier according to the present embodiment. The example shown in FIG. 8 shows an example in which the second feature vector is classified by the classifier corresponding to FIG. 6, and the same boundary line L as in FIG. 6 is displayed. The mark M7 shown in FIG. 8 indicates a second feature vector corresponding to the user predicted to generate a predetermined event. Further, the mark M8 indicates a second feature vector corresponding to a user who is predicted not to generate a predetermined event. By doing so, the
[特徴ベクトル生成装置1における処理の流れ]
続いて、特徴ベクトル生成装置1における処理の流れの一例について説明する。まず、特徴ベクトル生成装置1がアイテムの特徴ベクトルを生成するときの処理の流れについて説明する。図9は、本実施形態に係る特徴ベクトル生成装置1がアイテムの特徴ベクトルを生成するときの処理の流れを示すフローチャートである。
[Process flow in feature vector generator 1]
Subsequently, an example of the processing flow in the
まず、時系列データ取得部121は、複数の第1時系列データと複数の第2時系列データを取得する(S1)。
続いて、対応関係特定部122は、複数の第1時系列データに含まれるユーザ識別情報と、複数の第2時系列データに含まれるユーザ識別情報との対応関係を特定する(S2)。
First, the time-series
Subsequently, the correspondence
続いて、統合部123は、第1時系列データ及び第2時系列データに含まれるイベントデータの発生時刻と、S2において特定された対応関係とに基づいて、第1時系列データの一部と第2時系列データの一部とを統合することにより部分時系列データを生成する(S3)。統合部123は、複数の第1時系列データと複数の第2時系列データとに基づいて、部分時系列データを複数生成する。
Subsequently, the
続いて、特徴ベクトル生成部124は、複数の部分時系列データに基づいて、複数の部分時系列データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する(S4)。
Subsequently, the feature
続いて、特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れについて説明する。図10は、本実施形態に係る特徴ベクトル生成装置1が所定のイベントを発生させるユーザを予測するときの処理の流れを示すフローチャートである。なお、本フローチャートの開始時に、時系列データ取得部121が複数の第1時系列データと複数の第2時系列データを取得しており、特徴ベクトル生成部124が複数のアイテムの特徴ベクトルを生成しているものとする。
Next, a processing flow when the feature
まず、特徴ベクトル生成部124は、時系列データ取得部121が取得した第1時系列データに基づいて第1部分時系列データを複数生成する(S11)。
続いて、特徴ベクトル生成部124は、S11において生成された複数の第1部分時系列データのそれぞれについて、当該第1部分時系列データに含まれるアイテム情報が示すアイテムの特徴ベクトルに基づいて第1特徴ベクトルを複数生成する(S12)。
First, the feature
Subsequently, the feature
続いて、予測部125は、S12において生成された複数の第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベント(アイテムの購入イベント)を発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、所定のイベントを発生させたユーザと、当該所定のイベントを発生させなかったユーザとに分類する分類器を生成する(S13)。
Subsequently, the
続いて、特徴ベクトル生成部124は、時系列データ取得部121が取得した第2時系列データに基づいて第2部分時系列データを生成する(S14)。
続いて、特徴ベクトル生成部124は、S14において生成された複数の第2部分時系列データのそれぞれについて、当該第2部分時系列データに含まれるアイテム情報が示すアイテムの特徴ベクトルに基づいて第2特徴ベクトルを複数生成する(S15)。
Subsequently, the feature
Subsequently, the feature
続いて、予測部125は、S13において生成された分類器に、S15において生成された第2特徴ベクトルを入力することにより、当該第2特徴ベクトルに対応するユーザを、所定のイベントを発生させると予測されるユーザと、所定のイベントを発生させないと予測されるユーザとに分類する(S16)。
続いて、予測部125は、S16における分類結果を出力する(S17)。例えば、予測部125は、分類結果を示す情報を含むファイルを生成し、当該ファイルを記憶部11に記憶させる。
Subsequently, the
Subsequently, the
[本実施形態における効果]
以上の通り、本実施形態に係る特徴ベクトル生成装置1は、複数の第1時系列データ及び第2時系列データに含まれる時刻と、第1時系列データ及び第2時系列データに含まれるユーザ識別情報の対応関係とに基づいて、第1時系列データの一部と第2時系列データの一部とを統合することにより部分時系列データを複数生成する。そして、特徴ベクトル生成装置1は、統合された複数の部分時系列データに基づいて、複数の部分時系列データのそれぞれに含まれる複数のアイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する。このようにすることで、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データのアイテムに関連性を持たせて特徴ベクトルを生成することができる。これにより、特徴ベクトル生成装置1は、異なるドメインに対応する時系列データ間の転移学習を精度良く行うことができる。
[Effect in this embodiment]
As described above, the feature
以上、本発明を上記の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。 Although the present invention has been described above using the above-described embodiment, the technical scope of the present invention is not limited to the scope described in the above-described embodiment. It will be apparent to those skilled in the art that various changes or improvements can be made to the above embodiments.
例えば、上述の実施形態では、イベントデータをユーザが発生させたものとしたが、これに限らず、デバイスが発生させたものであってもよい。この場合、イベントデータに含まれるユーザ識別情報は、デバイスを識別するデバイス識別情報であってもよい。 For example, in the above-described embodiment, the event data is generated by the user, but the present invention is not limited to this, and the event data may be generated by the device. In this case, the user identification information included in the event data may be device identification information for identifying the device.
また、上述の実施形態では、特徴ベクトル生成装置1は、同一のユーザの第1時系列データの一部と第2時系列データの一部とを統合することにより部分時系列データを生成したが、これに限らない。例えば、記憶部11に、ユーザの対応情報とともに、ユーザの属性を示す属性情報を記憶させておいてもよい。そして、特徴ベクトル生成装置1は、第1時系列データの一部と、当該第1時系列データのユーザと異なるユーザであって、属性が類似するユーザに対応する第2時系列データの一部とを統合することにより部分時系列データを生成してもよい。
Further, in the above-described embodiment, the
また、上述の実施形態では、特徴ベクトル生成装置1は、第1ドメインの第1時系列データの一部と、第2ドメインの第2時系列データの一部とを統合することにより部分時系列データを生成し、当該部分時系列データに基づいて、アイテムの特徴を示す特徴ベクトルを生成したが、これに限らない。特徴ベクトル生成装置1は、3つ以上のドメインのそれぞれに対応する時系列データの一部を統合することにより部分時系列データを生成し、当該部分時系列データに基づいて、アイテムの特徴を示す特徴ベクトルを生成してもよい。
Further, in the above-described embodiment, the
また、特に、装置の分散・統合の具体的な実施形態は以上に図示するものに限られず、その全部又は一部について、種々の付加等に応じて、又は、機能負荷に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。 Further, in particular, the specific embodiment of the distribution / integration of the apparatus is not limited to those shown above, and all or a part thereof may be arbitrarily added according to various additions or functional loads. It can be functionally or physically distributed / integrated in units.
1・・・特徴ベクトル生成装置、11・・・記憶部、12・・・制御部、121・・・時系列データ取得部、122・・・対応関係特定部、123・・・統合部、124・・・特徴ベクトル生成部、125・・・予測部 1 ... Feature vector generator, 11 ... Storage unit, 12 ... Control unit, 121 ... Time series data acquisition unit, 122 ... Correspondence relationship identification unit, 123 ... Integration unit, 124・ ・ ・ Feature vector generation unit, 125 ・ ・ ・ Prediction unit
Claims (14)
複数の前記ユーザ識別情報の対応関係を特定する対応関係特定部と、
前記第1時系列データ及び前記第2時系列データに含まれる時刻と、前記対応関係特定部が特定した前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成する統合部と、
前記統合部により統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部と、
を備える特徴ベクトル生成装置。 Time-series data including item information indicating an item corresponding to the event, the time when the event occurred, and user identification information for identifying the user who generated the event, and is the time-series data of the first domain. A time-series data acquisition unit that acquires a certain first time-series data and a second time-series data that is time-series data of the second domain.
A correspondence relationship specifying unit that specifies a correspondence relationship between a plurality of the user identification information,
A part of the first time series data and the above based on the time included in the first time series data and the second time series data and the correspondence relationship of the user identification information specified by the correspondence relationship specifying unit. An integration unit that generates multiple partial time series data by integrating a part of the second time series data,
Based on the plurality of the partial time series data integrated by the integration unit, a feature that generates a feature vector indicating the characteristics of the item indicated by each of the plurality of item information included in each of the plurality of the partial time series data. Vector generator and
Feature vector generator with.
前記統合部は、前記第1時系列データから、当該第1時系列データに含まれる前記所定のイベントの発生時刻を含み、当該発生時刻以前の期間に対応する時系列データである第1部分時系列データを抽出し、前記第2時系列データから、当該発生時刻以前の期間に対応する時系列データである第2部分時系列データを抽出し、当該第1部分時系列データと、当該第2時系列データとを統合することにより前記部分時系列データを生成する、
請求項1に記載の特徴ベクトル生成装置。 The first time-series data includes at least one of item information corresponding to a predetermined event and item information corresponding to an event different from the predetermined event.
The integrated unit includes the occurrence time of the predetermined event included in the first time-series data from the first time-series data, and is the time-series data corresponding to the period before the occurrence time. The series data is extracted, and the second partial time series data, which is the time series data corresponding to the period before the occurrence time, is extracted from the second time series data, and the first partial time series data and the second part time series data are extracted. The partial time series data is generated by integrating with the time series data.
The feature vector generator according to claim 1.
請求項2に記載の特徴ベクトル生成装置。 When the first time-series data does not include the item information corresponding to the predetermined event, the integration unit obtains the time-series data corresponding to an arbitrary period from the first time-series data. In addition to extracting as one partial time series data, time series data corresponding to the arbitrary period is extracted as the second partial time series data from the second time series data, and the first partial time series data and the first part time series data are extracted. Generate partial time series data by integrating with two partial time series data,
The feature vector generator according to claim 2.
請求項2又は3に記載の特徴ベクトル生成装置。 The integration unit generates the partial time series data so that the number of the item information included in the partial time series data is a predetermined number.
The feature vector generator according to claim 2 or 3.
請求項4に記載の特徴ベクトル生成装置。 The integration unit extracts the first partial time series data so that the number of item information included in the first partial time series data becomes the first number, and the item included in the second partial time series data. The second partial time series data is extracted so that the number of information becomes the second number.
The feature vector generator according to claim 4.
請求項5に記載の特徴ベクトル生成装置。 The integration unit specifies a period in which the number of item information included in the first partial time-series data is the first number in the first time-series data, and selects the second time-series data corresponding to the period. When the number of item information included in the second partial time series data is larger than the second number, the item information included in the second partial time series data is extracted as the second partial time series data. Reduce the item information so that the number is the second number,
The feature vector generator according to claim 5.
請求項5に記載の特徴ベクトル生成装置。 The integration unit specifies a period in which the number of item information included in the first partial time-series data is the first number in the first time-series data, and the second time-series data corresponding to the period is used. When the number of item information included is smaller than the second number, the period is extended so that the number of item information included in the second partial time series data becomes the second number. Part 2 Extract time series data,
The feature vector generator according to claim 5.
請求項2又は3に記載の特徴ベクトル生成装置。 The integrated unit generates the partial time series data so that the period in which the event corresponding to the item information included in the partial time series data occurs is a predetermined predetermined period.
The feature vector generator according to claim 2 or 3.
請求項2から8のいずれか1項に記載の特徴ベクトル生成装置。 The integrated unit generates the partial time series data so that the number of item information corresponding to the predetermined event included in the partial time series data is a predetermined number.
The feature vector generator according to any one of claims 2 to 8.
請求項2から9のいずれか1項に記載の特徴ベクトル生成装置。 The generation unit generates a feature vector of each of the plurality of items by analyzing the relationship between the items indicated by the plurality of item information included in the plurality of the partial time series data.
The feature vector generator according to any one of claims 2 to 9.
請求項1から10のいずれか1項に記載の特徴ベクトル生成装置。 The integration unit identifies the second time-series data corresponding to the same user as the user corresponding to the first time-series data, based on the correspondence of the user identification information specified by the correspondence-specificing unit. , The partial time series data is generated by integrating a part of the first time series data and a part of the second time series data.
The feature vector generator according to any one of claims 1 to 10.
前記生成部は、前記第1時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの前記特徴ベクトルに基づいて、前記第1時系列データに対応する前記ユーザの特徴ベクトルを第1特徴ベクトルとして生成するとともに、前記第2時系列データに含まれる複数のアイテム情報が示す複数のアイテムのそれぞれの前記特徴ベクトルに基づいて、前記第2時系列データに対応する前記ユーザの特徴ベクトルを第2特徴ベクトルとして生成し、
複数の前記第1特徴ベクトルと、当該第1特徴ベクトルに対応するユーザが所定のイベントを発生させたか否かの結果とに基づいて、ユーザの特徴ベクトルの入力に対して、当該ユーザを、前記所定のイベントを発生させたユーザと、前記所定のイベントを発生させなかったユーザとに分類する分類器を生成し、生成した前記分類器に前記第2特徴ベクトルを入力することにより、前記第2特徴ベクトルに対応するユーザを、前記所定のイベントを発生させると予測されるユーザと、前記所定のイベントを発生させないと予測されるユーザとに分類する予測部をさらに備える、
請求項1から11のいずれか1項に記載の特徴ベクトル生成装置。 The first time series data includes at least one of a predetermined event and an event different from the predetermined event.
The generation unit first obtains the feature vector of the user corresponding to the first time series data based on the feature vector of each of the plurality of items indicated by the plurality of item information included in the first time series data. The user's feature vector corresponding to the second time series data is generated as a feature vector and based on the feature vector of each of the plurality of items indicated by the plurality of item information included in the second time series data. Generated as a second feature vector
Based on the plurality of the first feature vectors and the result of whether or not the user corresponding to the first feature vector has generated a predetermined event, the user is subjected to the input of the user's feature vector. By generating a classifier that classifies a user who has generated a predetermined event and a user who has not generated the predetermined event, and inputting the second feature vector into the generated classifier, the second feature vector is input. It further includes a prediction unit that classifies the users corresponding to the feature vector into a user who is predicted to generate the predetermined event and a user who is predicted not to generate the predetermined event.
The feature vector generator according to any one of claims 1 to 11.
イベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻と、前記イベントを発生させたユーザを識別するユーザ識別情報とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得するステップと、
複数の前記ユーザ識別情報の対応関係を特定するステップと、
前記第1時系列データ及び前記第2時系列データに含まれる時刻と、特定された前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成するステップと、
統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成するステップと、
を備える特徴ベクトル生成方法。 Computer runs,
Time-series data including item information indicating an item corresponding to the event, the time when the event occurred, and user identification information for identifying the user who generated the event, and is the time-series data of the first domain. A step of acquiring a certain first time series data and a second time series data which is time series data of the second domain,
A step of identifying the correspondence between a plurality of the user identification information and
A part of the first time series data and the second time series data based on the correspondence between the time included in the first time series data and the second time series data and the specified user identification information. Steps to generate multiple partial time series data by integrating with a part of
Based on the plurality of integrated partial time series data, a step of generating a feature vector indicating the characteristics of the item indicated by each of the plurality of item information included in each of the plurality of the partial time series data, and a step of generating a feature vector.
A feature vector generation method comprising.
イベントに対応するアイテムを示すアイテム情報と、前記イベントが発生した時刻と、前記イベントを発生させたユーザを識別するユーザ識別情報とを含む時系列データであって、第1ドメインの時系列データである第1時系列データと、第2ドメインの時系列データである第2時系列データとを取得する時系列データ取得部、
複数の前記ユーザ識別情報の対応関係を特定する対応関係特定部、
前記第1時系列データ及び前記第2時系列データに含まれる時刻と、前記対応関係特定部が特定した前記ユーザ識別情報の対応関係とに基づいて、前記第1時系列データの一部と前記第2時系列データの一部とを統合することにより部分時系列データを複数生成する統合部、及び、
前記統合部により統合された複数の前記部分時系列データに基づいて、複数の前記部分時系列データのそれぞれに含まれる複数の前記アイテム情報のそれぞれが示すアイテムの特徴を示す特徴ベクトルを生成する特徴ベクトル生成部、
として機能させる特徴ベクトル生成プログラム。
Computer,
Time-series data including item information indicating an item corresponding to the event, the time when the event occurred, and user identification information for identifying the user who generated the event, and is the time-series data of the first domain. A time-series data acquisition unit that acquires a certain first time-series data and a second time-series data that is time-series data of the second domain.
Correspondence relationship identification unit that specifies the correspondence relationship of a plurality of the user identification information,
A part of the first time series data and the above based on the time included in the first time series data and the second time series data and the correspondence relationship of the user identification information specified by the correspondence relationship specifying unit. An integration unit that generates multiple partial time series data by integrating a part of the second time series data, and
Based on the plurality of the partial time series data integrated by the integration unit, a feature that generates a feature vector indicating the characteristics of the item indicated by each of the plurality of item information included in each of the plurality of the partial time series data. Vector generator,
Feature vector generator to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018178806A JP6933623B2 (en) | 2018-09-25 | 2018-09-25 | Feature vector generator, feature vector generation method and feature vector generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018178806A JP6933623B2 (en) | 2018-09-25 | 2018-09-25 | Feature vector generator, feature vector generation method and feature vector generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020052518A JP2020052518A (en) | 2020-04-02 |
JP6933623B2 true JP6933623B2 (en) | 2021-09-08 |
Family
ID=69997157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018178806A Active JP6933623B2 (en) | 2018-09-25 | 2018-09-25 | Feature vector generator, feature vector generation method and feature vector generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6933623B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022009877A1 (en) * | 2020-07-07 | 2022-01-13 | ||
JP7286259B2 (en) * | 2020-09-07 | 2023-06-05 | Kddi株式会社 | Feature vector generation device, feature vector generation method, and feature vector generation program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176398A (en) * | 2007-01-16 | 2008-07-31 | Sony Corp | Information processing apparatus and method, and program |
JP4796167B2 (en) * | 2009-03-27 | 2011-10-19 | 株式会社デンソーアイティーラボラトリ | Event judgment device |
JP5936240B2 (en) * | 2014-09-12 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Data processing apparatus, data processing method, and program |
-
2018
- 2018-09-25 JP JP2018178806A patent/JP6933623B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020052518A (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7296387B2 (en) | Content generation method and apparatus | |
WO2020048084A1 (en) | Resource recommendation method and apparatus, computer device, and computer-readable storage medium | |
WO2015188699A1 (en) | Item recommendation method and device | |
US11550856B2 (en) | Artificial intelligence for product data extraction | |
JP6753115B2 (en) | Content management device, content management method and program | |
CN111125495A (en) | Information recommendation method, equipment and storage medium | |
CN109325179A (en) | A kind of method and device that content is promoted | |
CN110580489B (en) | Data object classification system, method and equipment | |
JP6933623B2 (en) | Feature vector generator, feature vector generation method and feature vector generation program | |
CN113592605A (en) | Product recommendation method, device, equipment and storage medium based on similar products | |
JP5945206B2 (en) | Product recommendation device, method and program | |
CN108810577B (en) | User portrait construction method and device and electronic equipment | |
JP5056803B2 (en) | Information providing server and information providing method | |
JP7061088B2 (en) | Feature vector generator, feature vector generation method and feature vector generation program | |
CN110347922B (en) | Recommendation method, device, equipment and storage medium based on similarity | |
Bharadhwaj | Layer-wise relevance propagation for explainable recommendations | |
WO2023048807A1 (en) | Hierarchical representation learning of user interest | |
JP7286259B2 (en) | Feature vector generation device, feature vector generation method, and feature vector generation program | |
JP6167029B2 (en) | RECOMMENDATION INFORMATION GENERATION DEVICE AND RECOMMENDATION INFORMATION GENERATION METHOD | |
JP7039525B2 (en) | Information processing equipment, information processing methods, and programs | |
CN108509459B (en) | Data processing method and device | |
CN112802603A (en) | Method and device for predicting influenza degree | |
JP5589009B2 (en) | RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM | |
CN114625954A (en) | Information recommendation method, model training method, information characterization method, device and equipment | |
CN110532454A (en) | A kind of search words recommending method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210819 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6933623 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |