JP2011113104A - Bidirectional cluster division device, method, and program - Google Patents
Bidirectional cluster division device, method, and program Download PDFInfo
- Publication number
- JP2011113104A JP2011113104A JP2009265928A JP2009265928A JP2011113104A JP 2011113104 A JP2011113104 A JP 2011113104A JP 2009265928 A JP2009265928 A JP 2009265928A JP 2009265928 A JP2009265928 A JP 2009265928A JP 2011113104 A JP2011113104 A JP 2011113104A
- Authority
- JP
- Japan
- Prior art keywords
- data
- cluster
- clustering
- bidirectional
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、双方向クラスタ分割装置、方法、及び、プログラムに関し、更に詳しくは、多変量データの集合を、データ間で共通の特徴を持つクラスタに分割する双方向クラスタ分割装置、方法、及び、プログラムに関する。 The present invention relates to a bidirectional cluster dividing device, method, and program, and more particularly, a bidirectional cluster dividing device, method, and method for dividing a set of multivariate data into clusters having common characteristics among the data. Regarding the program.
クラスタリング技術は、データの集合を、共通の特徴を持つクラスタに分割する技術である。多変量データは、あるデータ点が複数の変量から成るデータである。多変量データを変量ごとにクラスタリングする技術は、一方向のクラスタリングと呼ばれている。これに対し、複数の変量を同時にクラスタリングする技術は、双方向クラスタリング(Co-clustering)と呼ばれる。非特許文献1及び2は、双方向クラスタリングが記載された文献である。
The clustering technique is a technique for dividing a data set into clusters having common characteristics. Multivariate data is data in which a data point consists of a plurality of variables. A technique for clustering multivariate data for each variable is called one-way clustering. On the other hand, a technique for simultaneously clustering a plurality of variables is called bidirectional clustering (Co-clustering).
双方向クラスタリングは、特に、自然言語処理の技術として開発されている。自然言語処理の分野では、双方向クラスタリングを、文章と単語とを同時にクラスタリングする際に使用している。双方向クラスタリングでは、文章と単語という多変量データを、文章と単語との共起情報を基に、文章と単語との各部分集合が共起関係になるクラスタにクラスタ分割を行う。 Bidirectional clustering is developed especially as a natural language processing technique. In the field of natural language processing, bidirectional clustering is used to simultaneously cluster sentences and words. In bidirectional clustering, multivariate data such as sentences and words is divided into clusters based on co-occurrence information between sentences and words, and clusters in which each subset of sentences and words has a co-occurrence relationship.
自然言語処理の分野で、双方向クラスタリングを用いずに文章と単語とをクラスタリングする場合には、文章と単語とを別々にクラスタリングする必要がある。文章のクラスタリングでは、各文章に含まれる単語の頻度を特徴として利用し、その特徴が同じ文章が同一クラスタに属するように、クラスタ分割を行う。単語のクラスタリングでは、各単語がどの文章に含まれているかを特徴として利用し、その特徴が同じ単語が同一クラスタに含まれるように、クラスタ分割を行う。 In the field of natural language processing, when sentence and word are clustered without using bidirectional clustering, it is necessary to cluster the sentence and word separately. In sentence clustering, the frequency of words included in each sentence is used as a feature, and cluster division is performed so that sentences having the same feature belong to the same cluster. In word clustering, which sentence contains each word is used as a feature, and cluster division is performed so that words having the same feature are included in the same cluster.
自然言語処理に一方向のクラスタリングを用いる場合、上記のように、文章は単語の特徴を用いてクラスタリングし、単語は文章の特徴を用いてクラスタリングする。このため、クラスタリング処理が冗長になる。また、文書でクラスタリングした結果と、単語でクラスタリングした結果とを組み合わせることで、文書と単語の双方のクラスタリングが実現できる。しかし、一方向のクラスタリングでは、文章と単語とを別々にクラスタリングするために、文章と単語との相関や、共起関係を適切にクラスタに組み込むことが困難である。これに対し、双方向のクラスタリングでは、文書と単語との相関や、共起関係をクラスタに組み込むことができる。 When unidirectional clustering is used for natural language processing, as described above, sentences are clustered using word features, and words are clustered using sentence features. For this reason, the clustering process becomes redundant. Further, by combining the result of clustering with documents and the result of clustering with words, clustering of both documents and words can be realized. However, in the one-way clustering, since sentences and words are clustered separately, it is difficult to appropriately incorporate the correlation between sentences and words and the co-occurrence relationship into the cluster. On the other hand, in bidirectional clustering, the correlation between documents and words and the co-occurrence relationship can be incorporated into the cluster.
特許文献1は、顧客ごとの商品の購買履歴データから、クラスタを抽出する購買情報処理装置が記載された文献である。特許文献1の購買情報処理装置は、購買情報生成手段と、購買情報処理手段とから成る。購買情報生成手段は、購買履歴データにある顧客と商品とをそれぞれ、行及び列の一方の項目として当てはめる。購買情報生成手段は、顧客が購入した履歴がある商品の行列要素と、購入した履歴がない商品の行列要素とに、互いに異なる所定の指標値(0又は1)を付与して、行列テーブルを生成する。
購買情報処理手段は、行列テーブルについて、行ごとの指標値の総和に基づいて行を並び替えると共に、列ごとの指標値の総和に基づいて列を並び替える。購買情報処理手段は、指標値の総和を、昇順又は降順に並び変える。購買情報処理手段は、並び変え後、行列テーブル上の指標値の分布にて規定されるクラスタを抽出する。特許文献1では、このようなクラスタリングを行うことで、顧客情報のクラスタ抽出に要する計算量及び処理時間の低減が可能である。
The purchase information processing means rearranges the rows in the matrix table based on the sum of the index values for each row, and rearranges the columns based on the sum of the index values for each column. The purchase information processing means rearranges the sum of the index values in ascending order or descending order. The purchase information processing means extracts the clusters defined by the distribution of the index values on the matrix table after the rearrangement. In
特許文献2は、時系列データをクラスタリングする時系列データ処理装置が記載された文献である。時系列データは、処理日時などの時間情報、顧客特定情報、及び、商品特定情報を最低限含む。時系列データ処理装置は、時系列データを対象として、商品をその購買顧客が類似する複数のグループにクラスタリングする。時系列データ処理装置は、クラスタ内の任意の2つの商品(商品A、B)に対して、2つの商品が同時に購入されている事例数、Aが購入された後にBが購入された事例数、Bが購入された後にAが購入された事例数をカウントする。時系列データ処理装置は、カウンタした事例数から、2つの商品の順序関係を決定する。
情報化社会が進み、蓄積されたデータも膨大な量になっている。例えば、小売業では、POS(Point of Sales)データと呼ばれる多変量データが大量に蓄積されている。POSデータは、どの顧客が、いつ、どこで、何を購入したかという情報を含む。蓄積されるデータは多変量データだけではなく、各データ点に順序情報が与えられたシーケンスデータも膨大に蓄積されている。シーケンスデータは、データ点に対応したデータであり、多変量データの2以上のキー(属性)に関連する情報が時系列に並んだデータである。多変量データのデータ点に対応してシーケンスデータがある場合、シーケンスデータも考慮した上で、クラスタリングを行うことが好ましいと考えられる。 As the information society advances, the amount of accumulated data has become enormous. For example, in the retail industry, a large amount of multivariate data called POS (Point of Sales) data is accumulated. The POS data includes information on which customers have purchased what, when, where and what. Not only multivariate data but also sequence data in which order information is given to each data point is accumulated in an enormous amount. The sequence data is data corresponding to data points, and is data in which information related to two or more keys (attributes) of multivariate data is arranged in time series. When there is sequence data corresponding to the data points of the multivariate data, it is considered preferable to perform clustering in consideration of the sequence data.
しかし、非特許文献1及び2は、多変量データに対して双方向クラスタリングを行うのみであり、多変量データとシーケンスデータとを同時にクラスタリングすることはできない。特許文献1も、同様に、多変量データに対して双方向クラスタリングを行うのみで、シーケンスデータを考慮して双方向クラスタリングを行うことができない。また、特許文献2は、クラスタリング後に、同じクラスタに属する2つの商品について、時系列データから、どちらの商品が先に購入されたか、又は、同時に購入されたかを求めているに過ぎず、シーケンスデータを考慮したクラスタリングは行っていない。
However, Non-Patent
ここで、非特許文献3には、多変量データとシーケンスデータとをクラスタに分割する技術が記載されている。しかし、非特許文献3におけるクラスタリングは、一方向クラスタリングである。従って、非特許文献3では、多変量データとシーケンスデータとを同時に双方向クラスタリングすることはできない。
Here, Non-Patent
本発明は、多変量データと多変量データに対応したシーケンスデータとを、各変量間、及び、シーケンスデータ間で共通の特徴をもつクラスタに同時に分割可能な双方向クラスタ分割装置、方法、及び、プログラムを提供することを目的とする。 The present invention is a bi-directional cluster division apparatus, method, and method capable of simultaneously dividing multivariate data and sequence data corresponding to the multivariate data into each variable and a cluster having a common feature among the sequence data, and The purpose is to provide a program.
上記目的を達成するために、本発明は、多変量データと多変量データに対応したシーケンスデータとを入力する入力手段と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割する双方向クラスタリング手段とを備える双方向クラスタ分割装置を提供する。 In order to achieve the above object, the present invention performs multi-variate data and sequence data corresponding to the multivariate data, and performs bi-directional clustering on the multivariate data and the sequence data. Bidirectional clustering means for dividing multivariate data and the sequence data into a plurality of clusters using an evaluation function that indicates whether there are many or less common features between each variable included in the cluster and between the sequence data A bi-directional cluster partitioning device is provided.
本発明は、多変量データと多変量データに対応したシーケンスデータとを入力するステップと、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割するステップとを有する双方向クラスタ分割方法を提供する。 The present invention includes a step of inputting multivariate data and sequence data corresponding to the multivariate data, bi-directional clustering is performed on the multivariate data and the sequence data, and the multivariate data is included in the cluster. There is provided a bidirectional cluster dividing method including a step of dividing into a plurality of clusters using an evaluation function indicating whether there are many or less common features between each variable and between sequence data.
本発明は、コンピュータに、多変量データと多変量データに対応したシーケンスデータとを入力する処理と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割する処理とを実行させるプログラムを提供する。 The present invention provides a computer that inputs multivariate data and sequence data corresponding to the multivariate data, and performs bi-directional clustering on the multivariate data and the sequence data, and the multivariate data is clustered. A program for executing a process of dividing into a plurality of clusters using an evaluation function that indicates whether there are many or less common features between each of the variables included in the sequence data and between the sequence data.
本発明は、ユーザからのコンテンツへのリクエストを受け付け、リクエストを送信したユーザとリクエストしたコンテンツとをユーザリクエスト記憶部に記憶するリクエスト受付手段と、ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信手段と、前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成手段と、前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、前記双方向クラスタリング結果に基づいて、前記コンテンツ配信手段がコンテンツに付加すべき広告を決定する広告選択手段とを備える広告配信システムを提供する。 The present invention accepts a request for content from a user and stores request request means for storing the user who transmitted the request and the requested content in the user request storage unit, and the content requested by the user to the content of the advertiser to the user. Content distribution means for adding and transmitting an advertisement including a mechanism for requesting the user, and based on the information stored in the user request storage unit, the user and the advertisement are used as variables, and the user takes the content of the advertiser from the advertisement. Is generated to generate multivariate data indicating whether or not a request has been made, and to generate sequence data corresponding to the multivariate data, in which the requests transmitted until the user requests the content of the advertiser are arranged in time series Generating means, the multivariate data and the sequence An evaluation function that performs bi-directional clustering on the data and indicates whether the multivariate data and the sequence data have many or few common features between the variables included in the cluster and between the sequence data Bi-directional clustering means for dividing the cluster into a plurality of clusters and outputting a bi-directional clustering result; and an advertisement selecting means for determining an advertisement to be added to the content by the content distribution means based on the bi-directional clustering result; An advertisement distribution system is provided.
本発明は、ユーザからのコンテンツへのリクエストを受け付け、リクエストを送信したユーザとリクエストしたコンテンツとをユーザリクエスト記憶部に記憶するリクエスト受付ステップと、ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信ステップと、前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成ステップと、前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、前記双方向クラスタリング結果に基づいて、前記コンテンツに付加すべき広告を決定する広告選択ステップとを有する広告配信方法を提供する。 The present invention accepts a request for content from a user, stores a request requesting user and the requested content in a user request storage unit, the content requested by the user, the content of the advertiser to the user A content distribution step of adding and transmitting an advertisement including a mechanism for requesting a request, and using the information stored in the user request storage unit as a variable between the user and the advertisement, Is generated to generate multivariate data indicating whether or not a request has been made, and to generate sequence data corresponding to the multivariate data, in which the requests transmitted until the user requests the content of the advertiser are arranged in time series Generating step, said multivariate data and previous Bidirectional clustering is performed on sequence data, and the multivariate data is divided into a plurality of evaluation functions using an evaluation function that represents whether there are many or few features common between each variable included in the cluster and between the sequence data. There is provided an advertisement distribution method that includes a bidirectional clustering step of dividing a cluster and outputting a bidirectional clustering result, and an advertisement selection step of determining an advertisement to be added to the content based on the bidirectional clustering result.
本発明は、コンピュータに、ユーザからのコンテンツへのリクエストを受け付け、リクエストを送信したユーザとリクエストしたコンテンツとをユーザリクエスト記憶部に記憶するリクエスト受付処理と、ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信処理と、前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成処理と、前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、前記双方向クラスタリング結果に基づいて、前記コンテンツに付加すべき広告を決定する広告選択処理とを実行させるプログラムを提供する。 The present invention accepts a request for content from a user to a computer, stores the request requesting user and the requested content in a user request storage unit, and advertises the user with the content requested by the user. Based on content distribution processing that adds and transmits an advertisement including a mechanism for requesting the main content, and information stored in the user request storage unit, the user and the advertisement are variables, and the user advertises from the advertisement. In addition to generating multivariate data indicating whether or not the main content has been requested, corresponding to the multivariate data, sequence data in which requests transmitted until the user requests the advertiser content is arranged in time series. Data generation processing to be generated and the multivariate data Bidirectional clustering is performed on the sequence data, and the multivariate data is divided into a plurality of evaluation functions that indicate whether there are many or few features common to each variable included in the cluster and between the sequence data. There is provided a program for executing a bi-directional clustering process for dividing an image into two clusters and outputting a bi-directional clustering result and an ad selection process for determining an advertisement to be added to the content based on the bi-directional clustering result.
本発明は、顧客が商品を購入したという情報を含む売上情報を収集し、該収集した売上情報に基づいて、顧客と商品とを変量とし、顧客が商品を購入したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、顧客が商品を購入したことに関する履歴を時系列で並べたシーケンスデータとを生成するデータ生成手段と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成手段とを備える商品推薦システムを提供する。 The present invention collects sales information including information that a customer has purchased a product, and based on the collected sales information, the customer and the product are used as variables, and the multivariate indicating whether or not the customer has purchased the product. Generating data, and corresponding to the multivariate data, data generating means for generating a sequence data in which histories about the purchase of a product by a customer are arranged in time series, and the multivariate data and the sequence data Bidirectional clustering is performed on the multivariate data and the sequence data by using an evaluation function that indicates whether there are many or few common features between each variable and sequence data included in the cluster. And a bi-directional clustering means for outputting bi-directional clustering results and a customer based on the bi-directional clustering results. Providing products recommendation system and a recommendation item list generating means for determining a product to be.
本発明は、顧客が商品を購入したという情報を含む売上情報を収集し、該収集した売上情報に基づいて、顧客と商品とを変量とし、顧客が商品を購入したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、顧客が商品を購入したことに関する履歴を時系列で並べたシーケンスデータとを生成するデータ生成ステップと、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成ステップとを有する商品推薦方法を提供する。 The present invention collects sales information including information that a customer has purchased a product, and based on the collected sales information, the customer and the product are used as variables, and the multivariate indicating whether or not the customer has purchased the product. A data generation step for generating data, and generating data corresponding to the multivariate data, in which the history regarding the purchase of the product by the customer is arranged in time series, and the multivariate data and the sequence data Bidirectional clustering is performed on the multivariate data and the sequence data by using an evaluation function that indicates whether there are many or few common features between each variable and sequence data included in the cluster. A bi-directional clustering step that outputs a bi-directional clustering result, and based on the bi-directional clustering result, To provide products recommendation method and a recommendation item list generation step of determining a commodity to be recommended to the customer.
本発明は、コンピュータに、顧客が商品を購入したという情報を含む売上情報を収集し、該収集した売上情報に基づいて、顧客と商品とを変量とし、顧客が商品を購入したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、顧客が商品を購入したことに関する履歴を時系列で並べたシーケンスデータとを生成するデータ生成処理と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成処理とを実行させるプログラムを提供する。 The present invention collects sales information including information that a customer has purchased a product on a computer, makes a variable between the customer and the product based on the collected sales information, and determines whether or not the customer has purchased the product. Data generation processing for generating multivariate data to be generated and generating sequence data in which histories relating to the purchase of a product by a customer are arranged in time series corresponding to the multivariate data, and the multivariate data and the sequence Bidirectional clustering is performed on the data, and the evaluation function that indicates whether the multivariate data and the sequence data have many or few common features between each variable included in the cluster and between the sequence data A bi-directional clustering process that divides the data into a plurality of clusters and outputs a bi-directional clustering result; and based on the bi-directional clustering result. Stomach, to provide a program to be executed by the recommendation item list generation process to determine the items to be recommended to the customer.
本発明は、車両の車種と故障個所とを含む故障情報を収集し、該収集した故障情報に基づいて、車種と地域とを変量とし、当該車種に対し当該地域で故障が発生したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、当該車種で過去に発生した故障個所の履歴を時系列で並べたシーケンスデータを生成するデータ生成手段と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成手段とを備える故障予測システムを提供する。 The present invention collects failure information including the vehicle type and failure location of the vehicle, and based on the collected failure information, the vehicle type and the region are variables, and whether or not a failure has occurred in the region for the vehicle type. Data generating means for generating sequence data in which the history of failure locations that occurred in the vehicle model in the past is arranged in time series corresponding to the multivariate data, and the multivariate data And multi-variate data and the sequence data are evaluated with respect to each of the variables included in the cluster and between the sequence data. A bidirectional clustering means for dividing the cluster into a plurality of clusters using a function and outputting a bidirectional clustering result, and based on the bidirectional clustering result Occurrence of a failure to provide a failure prediction system comprising a failure prediction candidate list generating unit to estimate a region expected for vehicles.
本発明は、車両の車種と故障個所とを含む故障情報を収集し、該収集した故障情報に基づいて、車種と地域とを変量とし、当該車種に対し当該地域で故障が発生したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、当該車種で過去に発生した故障個所の履歴を時系列で並べたシーケンスデータを生成するデータ生成ステップと、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成ステップとを有する故障予測方法を提供する。 The present invention collects failure information including the vehicle type and failure location of the vehicle, and based on the collected failure information, the vehicle type and the region are variables, and whether or not a failure has occurred in the region for the vehicle type. A data generation step for generating multivariate data indicating a sequence data in which a history of fault locations that occurred in the vehicle in the past is arranged in time series corresponding to the multivariate data; and the multivariate data And multi-variate data and the sequence data are evaluated with respect to each of the variables included in the cluster and between the sequence data. A bi-directional clustering step of dividing a multi-cluster using a function and outputting a bi-directional clustering result; Zui and provides a failure prediction method and a failure prediction candidate list generating step to estimate the local occurrence of the failure relative to vehicle type is expected.
本発明は、コンピュータに、車両の車種と故障個所とを含む故障情報を収集し、該収集した故障情報に基づいて、車種と地域とを変量とし、当該車種に対し当該地域で故障が発生したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、当該車種で過去に発生した故障個所の履歴を時系列で並べたシーケンスデータを生成するデータ生成処理と、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成処理とを実行させるプログラムを提供する。 The present invention collects failure information including the vehicle type and failure location of the vehicle in a computer, and based on the collected failure information, the vehicle type and the region are variables, and a failure has occurred in the region for the vehicle type. A data generating process for generating multivariate data indicating whether or not, and corresponding to the multivariate data, generating a sequence data in which histories of fault locations that have occurred in the past in the vehicle type are arranged in time series, and Whether bi-directional clustering is performed on multivariate data and sequence data, and the multivariate data and the sequence data have many or less common features between each variable included in the cluster and between the sequence data A bi-directional clustering process for dividing the cluster into a plurality of clusters using an evaluation function representing Based on the results, the occurrence of a fault with respect to vehicles to provide a program for executing the failure prediction candidate list generation process to estimate an area to be predicted.
本発明の双方向クラスタ分割装置、方法、及び、プログラムは、多変量データと多変量データに対応したシーケンスデータとを、各変量間、及び、シーケンスデータ間で共通の特徴をもつクラスタに同時に分割することができる。 The bidirectional cluster dividing apparatus, method, and program according to the present invention simultaneously divide multivariate data and sequence data corresponding to the multivariate data into clusters having characteristics common to each variable and between the sequence data. can do.
以下、図面を参照し、本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る双方向クラスタ分割装置を示している。双方向クラスタ分割装置100は、入力手段101、双方向クラスタリング手段102、クラスタ数算出手段103、及び、出力手段104を備える。双方向クラスタ分割装置100内の各手段の機能は、コンピュータが所定のプログラムを読み込んで実行することで実現可能である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a bidirectional cluster dividing device according to a first embodiment of the present invention. The bidirectional
入力手段101は、多変量データとシーケンスデータとを入力する。多変量データは、2以上の属性を変量とするデータである。シーケンスデータは、多変量データに対応したデータであり、多変量データの2以上のキー(属性)に関連する情報が時系列に並んだデータである。多変量データは、例えば、顧客と商品とを変量とし、顧客が商品を購入したか否かを示すデータとする。シーケンスデータは、例えば、顧客がある商品を購入したというデータ点に対応して、顧客がこれまでにその商品を購入したということに関する履歴を時系列で並べた履歴データとする。 The input means 101 inputs multivariate data and sequence data. Multivariate data is data having two or more attributes as variables. The sequence data is data corresponding to multivariate data, and is data in which information related to two or more keys (attributes) of the multivariate data is arranged in time series. The multivariate data is, for example, data indicating whether or not the customer has purchased the product, with the customer and the product as variables. The sequence data is, for example, history data in which histories related to the fact that the customer has purchased the product so far are arranged in time series corresponding to the data point that the customer has purchased the product.
双方向クラスタリング手段102は、入力データに対し双方向クラスタリングを行う。双方向クラスタリング手段102は、評価関数を用いて、多変量データを複数のクラスタに分割する。評価関数は、多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで、共通した特徴が多いか少ないかを表す関数である。双方向クラスタリング手段102は、例えば、評価関数が共通した特徴が多くなるほど値が小さくなる関数であるとすれば、クラスタごとに計算した評価関数の値の総和が小さくなるように、クラスタ分割を行う。出力手段104は、双方向クラスタリング結果を出力する。
The bidirectional clustering means 102 performs bidirectional clustering on the input data. The bidirectional clustering means 102 divides the multivariate data into a plurality of clusters using the evaluation function. The evaluation function is a function that represents whether the multivariate data has many or few common features between the variables included in the cluster and between the sequence data. For example, if the bi-directional clustering means 102 is a function whose value decreases as the common features of the evaluation function increase, the clustering is performed so that the sum of the evaluation function values calculated for each cluster is small. . The
クラスタ数算出手段103は、双方向クラスタリングにおけるクラスタ分割数を決定する。クラスタ数算出手段103は、初回のクラスタリングでは、クラスタ分割数として所定の初期値を出力する。双方向クラスタリング手段102は、初回のクラスタリングでは、入力データを、所定の初期値の数のクラスタに分割する。クラスタ数算出手段103は、双方向クラスタリング手段102がクラスタリングを行うと、評価関数の値に基づいて、クラスタ分割数を増加させるか否かを決定する。双方向クラスタリング手段102は、クラスタ数算出手段103がクラスタ分割数を増加させると、そのクラスタ分割数でクラスタ分割を再度行う。
The cluster number calculation means 103 determines the number of cluster divisions in bidirectional clustering. The cluster number calculation means 103 outputs a predetermined initial value as the number of cluster divisions in the initial clustering. In the initial clustering, the bidirectional clustering means 102 divides input data into a predetermined number of initial clusters. When the bidirectional clustering means 102 performs clustering, the cluster number calculating means 103 determines whether or not to increase the number of cluster divisions based on the value of the evaluation function. When the cluster
図2は、動作手順を示している。入力手段101は、多変量データとシーケンスデータとを入力する(ステップA1)。図3は、入力データの一例を示している。この例では、多変量データは、誰がどの商品を買ったかを表すデータである。多変量データの変量は、「顧客」と、「商品」との2つである。多変量データの各データに対して、商品購入の曜日履歴のデータ(シーケンスデータ)が付加されている。シーケンスデータは、yikで表現する。シーケンスデータyjkは、顧客jが、過去に商品kを購入した曜日を時系列で並べたデータである。 FIG. 2 shows an operation procedure. The input means 101 inputs multivariate data and sequence data (step A1). FIG. 3 shows an example of input data. In this example, the multivariate data is data representing who bought which product. There are two variables of multivariate data: “customer” and “product”. Data of the day of the week of product purchase (sequence data) is added to each data of the multivariate data. The sequence data is expressed as y ik . The sequence data y jk is data in which the days of purchase of the product k in the past by the customer j are arranged in time series.
なお、顧客が商品を購入したという情報は、所定の期間ごとに求めることができる。所定の期間は、例えば一月単位とする。図3では、顧客Bが商品2を購入したというデータが2つあるが、これは、顧客Bが商品2を購入した期間が異なるためである。例えば、2つの購入データのうちの一方は、顧客Bが商品2を先月購入したというデータに対応し、他方は、顧客Bが商品2を先々月購入したというデータに対応している。また、シーケンスデータy1 2Bは、顧客Bが商品2を購入した先々月の購入曜日履歴を表し、y2 2Bは、顧客Bが商品2を購入した先々月の購入曜日履歴を表している。
Information that a customer has purchased a product can be obtained every predetermined period. The predetermined period is, for example, one month. In FIG. 3, there are two data that customer B purchased
図4は、入力データをテーブル形式(行列形式)で示している。図3に示す入力データを、行列で表すと、図4に示すようになる。入力データの行列を、Dで表す。行列Dの行は顧客を表し、列は商品を表す。行列Dの各要素は、0又は1の値を取る。0は商品を購入していないことを表し、1は商品を購入したことを表す。シーケンスデータは、顧客が商品を購入したことを表すデータ点に付加される。シーケンスデータは、1つのデータ点に対して1つとは限らず、1つのデータ点に複数のシーケンスデータが対応することもあり得る。 FIG. 4 shows the input data in a table format (matrix format). When the input data shown in FIG. 3 is represented by a matrix, it becomes as shown in FIG. A matrix of input data is represented by D. The rows of the matrix D represent customers and the columns represent products. Each element of the matrix D takes a value of 0 or 1. 0 indicates that no product has been purchased, and 1 indicates that a product has been purchased. The sequence data is added to a data point indicating that a customer has purchased a product. The sequence data is not limited to one for one data point, and a plurality of sequence data may correspond to one data point.
双方向クラスタリング手段102は、クラスタ数算出手段103から、多変量データの各変量について、クラスタ分割数を受け取る。双方向クラスタリング手段102は、例えば、変量が2つであるとき、クラスタ数算出手段103から、各変量のクラスタ分割数k、lを受け取る。双方向クラスタリング手段102は、シーケンスデータを考慮しつつ、多変量データを双方向クラスタリングする(ステップA2)。双方向クラスタリング手段102は、多変量データをk×lのクラスタに分割する。双方向クラスタリング手段102は、例えば、クラスタ分割数の初期値として、k=2、l=2を受け取り、多変量データを4つのクラスタに分割する。
The bidirectional clustering means 102 receives the cluster division number for each variable of the multivariate data from the cluster number calculation means 103. For example, when there are two variables, the
双方向クラスタリング手段102は、評価関数を用いてクラスタリングを行う。評価関数には、各クラスタに属するデータが共通した特徴を持っていない度合いを計算する関数を用いる。入力データを双方向クラスタリングしたとき、各クラスタに属するデータが共通した特徴を持つほど、評価関数の値は小さくなる。逆に、各クラスタに属するデータが共通した特徴を持たないほど、評価関数の値は大きくなる。双方向クラスタリング手段102は、評価関数を小さくするようなクラスタ分割を行う。 The bi-directional clustering means 102 performs clustering using the evaluation function. As the evaluation function, a function for calculating the degree to which the data belonging to each cluster does not have a common feature is used. When the input data is bi-directionally clustered, the value of the evaluation function becomes smaller as the data belonging to each cluster has a common feature. Conversely, the value of the evaluation function increases as the data belonging to each cluster does not have a common feature. The bidirectional clustering means 102 performs cluster division so as to reduce the evaluation function.
シーケンスデータを考慮した双方向クラスタリングで用いる評価関数について説明する。分割されたクラスタを、Dij(i=1〜k、j=1〜k)で表す。クラスタリングのコストは、下記式1で定義する。
コストには、MDL(Minimum Description Length)という基準を用いる。各クラスタのコストC(Dij)は、下記式2で定義する。
である。なお、式2において、nu(Dij)=0のときは、
It is. In
式2で定義される関数が、評価関数に該当する。式2において、第1項は、クラスタDijに含まれる多変量データの類似度が高いほど値が小さくなり、第2項(コストDL(y(Dij)))は、クラスタDijに含まれるシーケンスデータの類似度合が高いほど値が小さくなる。コストDL(y(Dij))は、下記式3で定義する。
コストC(Dij)は、クラスタDijに含まれる多変量データとシーケンスデータとの共通した特徴が多いか少ないかを表す。コストC(Dij)の値が小さいほど、共通した特徴が多く、値が大きいほど、共通した特徴が少ない。なお、クラスタDijの属する多変量データが全て同じ値のときは、式2における第1項の値は0となる。その場合、コストC(Dij)は、DL(y(Dij))のみで決まる。例えば、図4で、u=1のデータ点のみで構成されるクラスタのコストは、クラスタに属するデータ点のシーケンスデータの類似度に応じた値のみで決まる。なお、u=0のデータ点のみで構成されるクラスタのコストは、シーケンスデータがないことから0となる。
The cost C (Dij) represents whether the multivariate data and sequence data included in the cluster Dij have many common features or few features. The smaller the value of the cost C (Dij), the more common features, and the larger the value, the fewer common features. When all the multivariate data to which the cluster Dij belongs have the same value, the value of the first term in
クラスタ数算出手段103は、双方向クラスタリング手段102がクラスタ分割を行うと、クラスタ分割結果と評価関数とを用いて、クラスタ数を増加するか否かを決定する(ステップA3)。クラスタ数算出手段103は、例えば、式1で定義されるコストTの値が所定のしきい値を上回るか否かを判断する。クラスタ数算出手段103は、コストTの値がしきい値を上回るときは、クラスタ数を増加すると決定する。
When the bi-directional clustering means 102 performs cluster division, the cluster number calculating means 103 determines whether or not to increase the number of clusters using the cluster division result and the evaluation function (step A3). For example, the cluster
クラスタ数算出手段103にて、クラスタ数を増加させるか否かの判断手法は、特に上記したものには限定されない。例えば、以下のように判断してもよい。クラスタDijに属する多変量データとシーケンスデータとのから、どれか1つのデータ点を取り除く。データ点を1つ取り除いたクラスタをD’ijとする。クラスタ数算出手段103は、データ点を取り除く前後のコスト、C(Dij)とC(D’ij)を計算し、両者を比較する。クラスタ数算出手段103は、C(Dij)>C(D’ij)となるデータ点が存在する場合は、クラスタ数を増加すると決定する。 The method for determining whether or not to increase the number of clusters in the cluster number calculation means 103 is not particularly limited to the above. For example, the determination may be made as follows. Any one data point is removed from the multivariate data and the sequence data belonging to the cluster Dij. Let D'ij be the cluster from which one data point is removed. The cluster number calculation means 103 calculates the costs before and after removing the data points, C (Dij) and C (D′ ij), and compares the two. The cluster number calculation means 103 determines to increase the number of clusters when there is a data point where C (Dij)> C (D′ ij).
クラスタ数算出手段103は、クラスタ数を増加させると決定すると、双方向クラスタリング手段102に、増加後のクラスタ数を通知する。クラスタ数算出手段103は、例えば、現在のクラスタ数をk、lとして、k+1とl、kとl+1、又は、k+1とl+1を、新たなクラスタ数として双方向クラスタリング手段102に通知する。その後、ステップA3からステップA2へ戻り、双方向クラスタリング手段102は、入力データを、通知されたクラスタ数にクラスタ分割する。ステップA2とステップA3とを繰り返し行うことで、適切な分割数のクラスタを得ることができる。
When the cluster
出力手段104は、ステップA3で、クラスタ数算出手段103がクラスタ数を増加させないと決定すると、双方向クラスタリング手段102が行った双方クラスタリングの結果を出力する(ステップA4)。出力手段104は、例えば、クラスタ分割で得られた各クラスタDijについて、各クラスタに属するデータ点の情報を、ディスプレイ等の出力装置に表示する。
When the
図5は、初期クラスタリングの結果を示している。双方向クラスタリング手段102が、入力データ(図4)を初期クラスタ数(k=2、l=2)のクラスタに分割することで、図5に示す4つのクラスタD11、D12、D21、D22が得られる。各クラスタについて、コストを計算すると、
C(D11)=4log(6/4)+2log(6/2)+DL(y1 1A、y1 2B、y2 2B)=1.66+DL(y1 1A、y1 2B、y2 2B)
C(D12)=52log(54/52)+2log(54/2)+DL(y1 5A、y1 28B)=3.72+DL(y1 5A、y1 28B)
C(D21)=7log(9/7)+2log(9/2)+DL(y1 1D、y1 2E)=2.07+DL(y1 1D、y1 2E)
C(D22)=78log(81/78)+3log(81/3)+DL(y1 5D、y2 28E、y1 30C)=5.57+DL(y1 5D、y2 28E、y1 30C)
となる。全体のコストTは、
T=C(D11)+C(D12)+C(D21)+C(D22)
=13.02+DL(y1 1A、y1 2B、y2 2B)+DL(y1 5A、y1 28B)+DL(y1 1D、y1 2E)+DL(y1 5D、y2 28E、y1 30C)
となる。
FIG. 5 shows the result of the initial clustering. The bidirectional clustering means 102 divides the input data (FIG. 4) into clusters having the initial number of clusters (k = 2, l = 2), thereby obtaining four clusters D11, D12, D21, and D22 shown in FIG. It is done. For each cluster, calculating the cost:
C (D11) = 4log (6/4) + 2log (6/2) + DL (y 1 1A , y 1 2B , y 2 2B ) = 1.66 + DL (y 1 1A , y 1 2B , y 2 2B )
C (D12) = 52 log (54/52) +2 log (54/2) + DL (y 1 5A , y 1 28B ) = 3.72 + DL (y 1 5A , y 1 28B )
C (D21) = 7log (9/7) + 2log (9/2) + DL (y 1 1D , y 1 2E ) = 2.07 + DL (y 1 1D , y 1 2E )
C (D22) = 78 log (81/78) +3 log (81/3) + DL (y 1 5D , y 2 28E , y 1 30C ) = 5.57 + DL (y 1 5D , y 2 28E , y 1 30C )
It becomes. The total cost T is
T = C (D11) + C (D12) + C (D21) + C (D22)
= 13.02 + DL (y 1 1A , y 1 2B , y 2 2B ) + DL (y 1 5A , y 1 28B ) + DL (y 1 1D , y 1 2E ) + DL (y 1 5D , y 2 28E , y 1 30C )
It becomes.
図6は、最終的に得られたクラスタリング結果を示している。ステップA2、A3を繰り返し行うことで、「顧客」方向のクラスタ分割数は2に、「商品」方向のクラスタ分割数は3になり、最終的に、図6に示す6個のクラスタD11〜D13、D21〜D23が得られたとする。図6に示すD11〜D13、D21〜D23について、各クラスタのコストを計算すると、
C(D11)=1log(4/1)+3log(4/3)+DL(y1 1A、y1 5A、y1 1D)=0.977+DL(y1 1A、y1 5A、y1 1D)
C(D12)=0
C(D13)=0
C(D21)=0
C(D22)=3log(9/3)+6log(9/6)+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)=2.48+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)
C(D23)=0
となる。全体のコストTは、
T=ΣC(Dij)=3.46+DL(y1 1A、y1 5A、y1 1D)+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)
となる。
FIG. 6 shows the finally obtained clustering result. By repeatedly performing steps A2 and A3, the number of cluster divisions in the “customer” direction is 2, and the number of cluster divisions in the “product” direction is 3. Finally, the six clusters D11 to D13 shown in FIG. , D21 to D23 are obtained. When the cost of each cluster is calculated for D11 to D13 and D21 to D23 shown in FIG.
C (D11) = 1 log (4/1) +3 log (4/3) + DL (y 1 1A , y 1 5A , y 1 1D ) = 0.997 + DL (y 1 1A , y 1 5A , y 1 1D )
C (D12) = 0
C (D13) = 0
C (D21) = 0
C (D22) = 3 log (9/3) +6 log (9/6) + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C ) = 2. 48 + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C )
C (D23) = 0
It becomes. The total cost T is
T = ΣC (Dij) = 3.46 + DL (y 1 1A , y 1 5A , y 1 1D ) + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C )
It becomes.
図5に示すクラスタリング結果におけるコストTと、図6に示すクラスタリング結果におけるコストTとを比較すると、DLの値(シーケンスデータの類似度)を除いて、評価関数の値が下がっていることが確認できる。すなわち、評価関数に基づいて双方向クラスタリングを行うことで、多変量データと多変量データに対応したシーケンスデータを、各変量間及びシーケンスデータ間で共通の特徴を持つクラスタに分割できる。なお、コストTは、上記したものには限定されず、双方向クラスタリングに必要な他のコストを含んでいてもよい。 When the cost T in the clustering result shown in FIG. 5 is compared with the cost T in the clustering result shown in FIG. 6, it is confirmed that the value of the evaluation function is reduced except for the DL value (similarity of sequence data). it can. That is, by performing bi-directional clustering based on the evaluation function, multivariate data and sequence data corresponding to the multivariate data can be divided into clusters having features common to the respective variables and between the sequence data. Note that the cost T is not limited to the above, and may include other costs necessary for bidirectional clustering.
比較例として、シーケンスデータを考慮しない双方向クラスタリングを考える。多変量データとして、2変量データを考える。変量の1つは顧客で、もう1つは商品とする。図7(a)に、多変量データを示す。顧客は、A、B、Cの値を取り、商品は1、2、3の値を取る。多変量データの値は、顧客が商品を購入したか否かを表す。例えば、顧客Aが商品1を購入したとき、顧客Aと商品1とに対応するデータ点の値は1となる。
As a comparative example, consider bidirectional clustering that does not consider sequence data. Consider bivariate data as multivariate data. One variable is the customer and the other is the product. FIG. 7A shows multivariate data. The customer takes A, B, and C values, and the product takes 1, 2, and 3 values. The value of the multivariate data represents whether or not the customer has purchased the product. For example, when customer
図7(a)に示す多変量データに対して、顧客及び商品の双方向でクラスタリングを行うと、図7(b)のクラスタリング結果が得られる。この場合、クラスタ分割数は4である。多変量データに対して双方向クラスタリングを行うことで、顧客A、Cが、商品1、3を購入するというデータ点から成るクラスタと、顧客Bが商品2を購入するというデータ点から成るクラスタとが得られる。このクラスタリング結果から、顧客A、Cが、商品1、3と共通した特徴を持ち、顧客Bは商品2と共通した特徴を持つことがわかる。
When the multivariate data shown in FIG. 7A is clustered in both directions of the customer and the product, the clustering result shown in FIG. 7B is obtained. In this case, the number of cluster divisions is four. By performing bi-directional clustering on multivariate data, a cluster consisting of data points that customers A and
図8は、多変量データとシーケンスデータとを双方向クラスタリングする例を示している。図8(a)は、シーケンスデータが付加された多変量データを示している。シーケンスデータは、例えば、顧客が、過去に商品を購入した曜日を示すデータから成る。シーケンスデータは、顧客が商品を購入したことを示すデータ点、すなわち、値が1のデータ点に添付される。 FIG. 8 shows an example of bidirectional clustering of multivariate data and sequence data. FIG. 8A shows multivariate data to which sequence data is added. The sequence data includes, for example, data indicating the day of the week on which the customer has purchased the product. The sequence data is attached to a data point indicating that a customer has purchased a product, that is, a data point having a value of 1.
図8(a)に示す多変量データを、顧客、商品のみでなく、シーケンスデータを考慮して双方向クラスタリングすると、図8(b)に示すクラスタリング結果が得られる。この場合、クラスタ分割数は6となる。シーケンスデータも考慮して双方向クラスタリングを行うことで、顧客A、Cが、商品1を購入するというデータ点から成るクラスタと、顧客A、Cが商品3を購入するというデータ点から成るクラスタと、顧客Bが商品2を購入するというデータ点から成るクラスタとが得られる。
When the multivariate data shown in FIG. 8A is bi-directionally clustered in consideration of not only customers and products but also sequence data, the clustering result shown in FIG. 8B is obtained. In this case, the number of cluster divisions is 6. By performing bi-directional clustering in consideration of sequence data, a cluster consisting of data points that customers A and C purchase
図8(b)に示す双方向クラスタリング結果から、顧客A、Cは、商品1を同じような購入曜日履歴で購入していることが読み取れる。また、顧客A、Cは、商品3を同じような購入曜日履歴で購入していることが読み取れる。顧客A、Cは、共に商品1及び商品3を購入しているものの、商品1と商品3とが同じクラスタに分類されなかったことから、商品1と商品3とでは、購入曜日履歴が異なるということを読み取ることができる。つまり、顧客A、Cは、商品1を、商品3と同じような曜日間隔で購入していないことが読み取ることができる。商品2については、顧客Bが商品2を購入する曜日履歴は、商品1、3の購入曜日履歴とは異なっていることを読み取ることができる。
From the bidirectional clustering result shown in FIG. 8B, it can be seen that the customers A and C have purchased the
本実施形態では、双方向クラスタリング手段102は、多変量データとシーケンスデータとに対して双方向クラスタリングを行う。評価関数として、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用い、双方向クラスタリングを行うことで、多変量データと多変量データに対応したシーケンスデータとを、各変量間、及び、シーケンスデータ間でそれぞれ共通の特徴をもつクラスタに同時に分割することができる。 In the present embodiment, the bidirectional clustering means 102 performs bidirectional clustering on multivariate data and sequence data. As an evaluation function, multi-variate data and multivariate data are obtained by performing bi-directional clustering using an evaluation function that indicates whether there are many or few common features between each variable included in the cluster and between sequence data. Corresponding sequence data can be simultaneously divided into clusters having common features between the variables and between the sequence data.
また、本実施形態では、双方向クラスタ分割装置100は、クラスタ数算出手段103を有する。クラスタ数算出手段103は、評価関数に基づいてクラスタリング結果が適切であるか否かを判断し、よりよいクラスタリング結果を得るために、クラスタ分割数を増加させる。クラスタリングに際して、いくつのクラスタに分割すればよいかは、事前にわからないことが多い。本実施形態では、クラスタ数算出手段103が、動的にクラスタ数を決定することで、事前に、何個のクラスタに分割すればよいかがわからないときでも、多変量データを、適切な分割数で、クラスタ分割することができる。
In the present embodiment, the bidirectional
図9は、本発明の第2実施形態に係る広告配信システムを示している。広告配信システムは、双方向クラスタ分割装置100とWebサーバ300とを有する。双方向クラスタ分割装置100の構成は、図1に示す第1実施形態における双方向クラスタ分割装置の構成と同様である。Webサーバ300は、ユーザ端末200と、インターネット400などのネットワークを介して接続している。ユーザ端末200は、ユーザに対して、入出力等のインターフェースを提供する。ユーザ端末200は、例えば、パーソナルコンピュータや携帯型の情報端末装置である。
FIG. 9 shows an advertisement distribution system according to the second embodiment of the present invention. The advertisement distribution system includes a bidirectional
広告配信システムは、ユーザがWebコンテンツをリクエストした際に、ユーザがリクエストしたコンテンツに広告を付け加えてユーザに配信する。広告は、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む。より具体的には、広告には、広告主が誘導したいサイトのリンクが含まれており、ユーザが広告をクリックすることで、ユーザが広告主などのサイトを訪問できるようになっている。広告主は、例えば、商品やサービスの詳細情報を掲載したWebページへのリンクを広告に含め、ユーザを、そのWebページに誘導する。 When a user requests web content, the advertisement distribution system adds an advertisement to the content requested by the user and distributes the content to the user. The advertisement includes a mechanism for allowing the user to request the content of the advertiser. More specifically, the advertisement includes a link of a site that the advertiser wants to guide, and the user can click on the advertisement so that the user can visit a site such as the advertiser. The advertiser includes, for example, a link to a web page on which detailed information on products or services is posted, and guides the user to the web page.
ここで、ユーザにコンテンツに付随して広告を配信しても、その広告がユーザの好みと異なれば、ユーザが広告をクリックする可能性は低く、ユーザを訪問させたいサイトに誘導することができる可能性が低くなる。広告主は、ユーザが広告をクリックしなければ、広告配信の効果を得ることが難しい。従って、広告配信システムでは、ユーザの好みに合致した広告を正確に予測することが重要になる。 Here, even if an advertisement is delivered to the user along with the content, if the advertisement is different from the user's preference, the user is unlikely to click on the advertisement and can be directed to a site that the user wants to visit. Less likely. It is difficult for the advertiser to obtain the effect of advertisement distribution unless the user clicks on the advertisement. Therefore, in the advertisement distribution system, it is important to accurately predict an advertisement that matches the user's preference.
Webサーバ300は、双方向クラスタ分割装置100に対し、多変量データ及びシーケンスデータを与える。双方向クラスタ分割装置100は、多変量データと、シーケンスデータとに対して双方向クラスタリングを行う。Webサーバ300は、双方向クラスタ分割装置100から双方向クラスタリング結果を受け取る。Webサーバ300は、双方向クラスタリング結果を用いて、Webコンテンツをリクエストしたユーザに、ユーザの好みに対応した広告を配信する。本実施形態は、協調フィルタリングやコラボレーティブフィルタリングという分野に当てはまる。
The
図10は、ユーザ端末200を示している。ユーザ端末200は、コンテンツリクエスト手段201と、コンテンツ表示手段202とを有する。コンテンツリクエスト手段201は、ユーザが閲覧を希望するコンテンツを、Webサーバ300にリクエストする。コンテンツ表示手段202は、Webサーバ300から、ユーザがリクエストしたコンテンツを取得し、表示する。ユーザ端末200内の各部の機能は、コンピュータが所定のプログラムに従って動作することで実現可能である。
FIG. 10 shows the
コンテンツリクエスト手段201は、例えば、ユーザがスポーツのコンテンツを希望するときは、Webサーバ300にスポーツのコンテンツをリクエストする。また、コンテンツリクエスト手段201は、ユーザが、コンテンツに付随して配信された広告をクリックすると、Webサーバ300に、その広告に対応するコンテンツをリクエストする。
For example, when the user desires sports content, the
図11は、Webサーバ300を示している。Webサーバ300は、コンテンツ配信手段301、ユーザリクエスト記憶部302、コンテンツ記憶部303、広告選択手段304、広告記憶部305、リクエスト受付手段306、クラスタリング制御手段307、出力装置308、入力装置309、及び、クラスタリング結果記憶部310を有する。Webサーバ300内の各部の機能は、コンピュータが所定のプログラムに従って動作することで実現可能である。
FIG. 11 shows the
リクエスト受付手段306は、ユーザからのリクエストを受け付ける。ユーザからのリクエストには、所望のWebページの取得を要求するリクエストと、Web広告に対応するWebページの取得を要求するリクエストとがある。ユーザリクエスト記憶部302は、ユーザからのリクエストに関する情報を記憶する。リクエスト受付手段306は、例えば、ユーザ名、リクエストの内容、リクエストの時刻を、ユーザリクエスト記憶部302に記憶する。
The
コンテンツ記憶部303は、ユーザに配信すべきコンテンツを記憶する。広告記憶部305は、Web広告を記憶する。コンテンツ配信手段301は、コンテンツ記憶部303から、ユーザがリクエストしたコンテンツを取得し、ユーザに配信する。その際、コンテンツ配信手段301は、コンテンツに広告記憶部305が記憶するWeb広告を付け加えて、ユーザにコンテンツを配信する。なお、コンテンツ配信手段301は、ユーザがリクエストしたコンテンツがコンテンツ記憶部303にない場合は、外部サーバにリクエストを転送してもよい。また、ユーザがリクエストしたコンテンツが広告に対応したWebページである場合、コンテンツ配信手段301は、コンテンツにWeb広告を付け加えなくてもよい。
The
クラスタリング制御手段307は、データ生成手段を兼ねている。クラスタリング制御手段307は、双方向クラスタ分割装置100に与えるデータの生成と、双方向クラスタ分割装置100が行う双方向クラスタリングの制御を行う。クラスタリング制御手段307は、例えば、Webサーバ300への全アクセス回数が所定のしきい値を越えると、ユーザリクエスト記憶部302から、全ユーザの過去のコンテンツ訪問履歴を読み出す。クラスタリング制御手段307は、読み出した情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成する。ユーザは、広告をクリックすることで、広告主のコンテンツをリクエストするので、多変量データは、ユーザがどの広告をクリックしたかを示すデータを表していることになる。
The
また、クラスタリング制御手段307は、多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成する。以下では、ユーザが送信したリクエストを時系列で並べたデータを、コンテンツ訪問履歴とも呼ぶ。クラスタリング制御手段307は、どのユーザがどの広告をクリックしたかを示す多変量データと、広告をクリックするまでのコンテンツ訪問履歴(シーケンスデータ)とを、出力装置308に渡すと共に、双方向クラスタ分割装置100に双方向クラスタリングを依頼する。
Further, the
双方向クラスタ分割装置100は、どのユーザがどの広告をクリックしたかを示す多変量データと、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とを、出力装置308を介して入力する。双方向クラスタ分割装置100は、多変量データと、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とに対して、双方向クラスタリングを行う。双方向クラスタ分割装置100は、双方向クラスタリング結果をWebサーバ300に出力する。
The interactive
入力装置309は、双方向クラスタ分割装置100から、双方向クラスタリング結果を入力し、クラスタリング結果記憶部310に渡す。クラスタリング結果記憶部310は、入力装置309から受け取った双方向クラスタリング結果を記憶する。広告選択手段304は、クラスタリング結果記憶部310を参照し、双方向クラスタリング結果に基づいて、ユーザに配信すべきWeb広告を決定する。広告選択手段304は、広告記憶部305からWeb広告を読み出し、コンテンツ配信手段301に与える。
The
以下、動作手順を説明する。広告配信システムの動作は、大きく分けて、双方向クラスタリング処理と、双方向クラスタリング結果を用いた広告配信処理との2つある。図12は、双方向クラスタリング処理の手順を示している。ユーザがコンテンツを要求すると、ユーザ端末200のコンテンツリクエスト手段201は、Webサーバ300に、コンテンツをリクエストする(ステップB1)。ユーザは、あらかじめ属性情報が判明しているユーザであり、Webサーバ300は、どのユーザからのコンテンツリクエストであるかを判別可能であるとする。
The operation procedure will be described below. The operation of the advertisement distribution system is roughly divided into two types, that is, a bidirectional clustering process and an advertisement distribution process using the bidirectional clustering result. FIG. 12 shows the procedure of bidirectional clustering processing. When the user requests content, the
Webサーバ300のリクエスト受付手段306は、ユーザからのリクエストを受け付ける。リクエスト受付手段306は、ユーザ名、リクエストの内容、及び、時刻を、ユーザリクエスト記憶部に記憶する(ステップB2)。また、リクエスト受付手段306は、ユーザからのリクエストをコンテンツ配信手段301に渡す。
The
コンテンツ配信手段301は、コンテンツ記憶部303からリクエストに対応するコンテンツを読み出す。また、コンテンツ配信手段301は、広告選択手段304からWeb広告を受け取る。コンテンツ配信手段301は、コンテンツ記憶部303から読み出したコンテンツにWeb広告を付加して、ユーザ端末200に送信する(ステップB3)。ユーザ端末200のコンテンツ表示手段202は、受信したコンテンツを表示する(ステップB4)。
The
クラスタリング制御手段307は、Webサーバ300への全アクセス回数が所定のしきい値を超えたか否かを判断する。クラスタリング制御手段307は、全アクセス回数がしきい値を超えたと判断すると、ユーザリクエスト記憶部302から、全ユーザの過去のコンテンツ訪問履歴を読み出す(ステップB5)。クラスタリング制御手段307は、読み出したコンテンツ訪問履歴に基づいて、どのユーザがどの広告をクリックしたかを示す多変量データと、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とを生成する。クラスタリング制御手段307は、生成した多変量データ、及び、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とを、双方向クラスタ分割装置100に出力する(ステップB6)。
The
双方向クラスタ分割装置100の双方向クラスタリング手段102(図1)は、入力手段101を介して、多変量データと、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とを入力する。双方向クラスタリング手段102は、多変量データと、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴とに対し、双方向クラスタリングを行う(ステップB7)。双方向クラスタリングの手順は、図2に示す手順と同様である。
The bidirectional clustering unit 102 (FIG. 1) of the bidirectional
双方向クラスタリング手段102は、出力手段104を介して、Webサーバ300に双方向クラスタリング結果を送信する(ステップB8)。Webサーバ300の入力装置309は、双方向クラスタリング結果を受け取ると、受け取った双方向クラスタリング結果をクラスタリング結果記憶部310に記憶する。クラスタリング結果記憶部310は、双方向クラスタリング得結果を記憶する(ステップB9)。
The
図13は、双方向クラスタリング手段102の入力データを示している。多変量データの変量は、「ユーザ」と、「Web広告」との2つである。コンテンツ訪問履歴は、ユーザが広告をクリックするまでのリクエストを時系列で並べたシーケンスデータである。コンテンツ訪問履歴は、例えば、ユーザが広告をクリックしたその日に、ユーザが最初に送信したリクエストから、広告をクリックする直前のリクエストまでを時系列に並べたものである。或いは、コンテンツ訪問履歴は、ユーザが広告をクリックした時点から10個前までのリクエストを時系列に並べたものでもよい。コンテンツ訪問履歴の定義は、特に上記したものに限定されるわけではない。 FIG. 13 shows input data of the bidirectional clustering means 102. There are two variables of multivariate data: “user” and “Web advertisement”. The content visit history is sequence data in which requests until a user clicks on an advertisement are arranged in time series. The content visit history is, for example, a time series of requests from the first request sent by the user on the day when the user clicks on the advertisement to the request immediately before clicking on the advertisement. Alternatively, the content visit history may be a time series of requests up to 10 before the user clicks on the advertisement. The definition of the content visit history is not particularly limited to the above.
コンテンツ訪問履歴(シーケンスデータ)は、yi jkで表す。yi jkは、ユーザkが広告jをクリックしたというデータ点に対応したシーケンスデータであり、ユーザkが広告jをクリックするまでに送信したリクエストを時系列で並べたコンテンツ訪問履歴である。iは、ユーザが広告をクリックしたのが何回目であるかを表している。例えば、y1 jkは、ユーザkが広告jをクリックするのが1回目のときのコンテンツ訪問履歴を表し、y2 jkは、ユーザkが広告jをクリックするのが2回目のときのコンテンツ訪問履歴を表している。 The content visit history (sequence data) is represented by y i jk . y i jk is sequence data corresponding to the data point that the user k clicked the advertisement j, and is a content visit history in which requests transmitted until the user k clicked the advertisement j are arranged in time series. i represents the number of times the user clicked on the advertisement. For example, y 1 jk represents the content visit history when the user k clicks the advertisement j for the first time, and y 2 jk represents the content visit when the user k clicks the advertisement j for the second time. Represents history.
図14は、入力データをテーブル形式(行列形式)で示している。図13に示す入力データを、行列で表すと、図14に示すようになる。入力データの行列を、Dで表す。行列Dの行はユーザを表し、列はWeb広告を表す。行列Dの各要素は、0又は1の値を取る。0はユーザが広告をクリックしていないことを表し、1はユーザが広告をクリックしたことを表す。シーケンスデータは、1つのデータ点に対して1つとは限らず、1つのデータ点に複数のシーケンスデータが対応することもあり得る。 FIG. 14 shows the input data in a table format (matrix format). When the input data shown in FIG. 13 is represented by a matrix, it becomes as shown in FIG. A matrix of input data is represented by D. The rows of the matrix D represent users, and the columns represent web advertisements. Each element of the matrix D takes a value of 0 or 1. 0 indicates that the user has not clicked on the advertisement, and 1 indicates that the user has clicked on the advertisement. The sequence data is not limited to one for one data point, and a plurality of sequence data may correspond to one data point.
図15は、双方向クラスタリング手段102のクラスタリング結果を示している。双方向クラスタリング手段102は、図14に示す多変量データ及びシーケンスデータに対して双方向クラスタリングを行うことで、入力データを、図15に示す6個のクラスタD11〜D13、D21〜D23に分割する。 FIG. 15 shows the clustering result of the bidirectional clustering means 102. The bidirectional clustering means 102 divides input data into six clusters D11 to D13 and D21 to D23 shown in FIG. 15 by performing bidirectional clustering on the multivariate data and sequence data shown in FIG. .
図15に示すD11〜D13、D21〜D23について、各クラスタのコストを計算すると、
C(D11)=1log(4/1)+3log(4/3)+DL(y1 1A、y1 5A、y1 1D)=0.977+DL(y1 1A、y1 5A、y1 1D)
C(D12)=0.0
C(D13)=0.0
C(D21)=0.0
C(D22)=3log(9/3)+6log(9/6)+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)=2.48+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)
C(D23)=0.0
となる。全体のコストTは、
T=ΣC(Dij)=3.46+DL(y1 1A、y1 5A、y1 1D、y1 5D)+DL(y1 2B、y2 2B、y1 28B、y1 2E、y2 28E、y1 2C、y1 30C)
となる。
When the cost of each cluster is calculated for D11 to D13 and D21 to D23 shown in FIG.
C (D11) = 1 log (4/1) +3 log (4/3) + DL (y 1 1A , y 1 5A , y 1 1D ) = 0.997 + DL (y 1 1A , y 1 5A , y 1 1D )
C (D12) = 0.0
C (D13) = 0.0
C (D21) = 0.0
C (D22) = 3 log (9/3) +6 log (9/6) + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C ) = 2. 48 + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C )
C (D23) = 0.0
It becomes. The total cost T is
T = ΣC (Dij) = 3.46 + DL (y 1 1A , y 1 5A , y 1 1D , y 1 5D ) + DL (y 1 2B , y 2 2B , y 1 28B , y 1 2E , y 2 28E , y 1 2C , y 1 30C )
It becomes.
続いて、双方向クラスタリング結果を用いた広告配信処理を説明する。図16は、広告配信処理の手順を示している。ユーザ端末200のコンテンツリクエスト手段201は、Webサーバ300にコンテンツをリクエストする(ステップC1)。リクエスト受付手段306は、ユーザ端末200からのリクエストを受け付ける。ユーザリクエスト記憶部302は、リクエスト受付手段306が受け付けたリクエストを記憶する(ステップC2)。
Subsequently, an advertisement distribution process using the bidirectional clustering result will be described. FIG. 16 shows the procedure of the advertisement distribution process. The
コンテンツ配信手段301は、リクエスト受付手段306からリクエストを受け取る。コンテンツ配信手段301は、リクエストを送信したユーザを識別する情報、例えばユーザ名を広告選択手段304に渡す(ステップC3)。広告選択手段304は、クラスタリング結果記憶部310から、ユーザが属するクラスタの情報を読み出す(ステップC4)。クラスタリング結果記憶部310は、ステップC4では、ユーザが所属するクラスタに所属するユーザのユーザ名と、所属クラスのユーザがクリックしたWeb広告を識別する情報とを読み出す。
The
広告選択手段304は、ステップC4で読み出した情報に基づいて、コンテンツをリクエストしたユーザに配信すべきWeb広告を決定する(ステップC5)。広告選択手段304は、同じクラスタに所属するユーザがクリックした広告を、ユーザに配信する広告の候補とし、その候補の中から、ユーザに配信する広告を決定する。広告選択手段304は、広告の決定では、他のユーザはクリックしたが、コンテンツをリクエストしたユーザがクリックしていない広告があるときは、その広告を、優先的に、ユーザに配信する広告として決定する。
The
図17は、広告配信候補を示している。クラスタ分割結果として、図15に示すクラスタ分割結果が得られているとき、各ユーザに配信すべき広告の候補は、図17に示すようになる。図17において、Web広告配信候補の並び順は、優先順位が高い順とする。例えば、クラスタD11を考える。図15を参照すると、このクラスタに所属するユーザは、ユーザAとユーザDの二人である。また、ユーザAは、広告1と広告5とをクリックし、ユーザDは、広告1をクリックしている。
FIG. 17 shows advertisement distribution candidates. When the cluster division result shown in FIG. 15 is obtained as the cluster division result, advertisement candidates to be distributed to each user are as shown in FIG. In FIG. 17, the order in which the Web advertisement distribution candidates are arranged is the order of priority. For example, consider cluster D11. Referring to FIG. 15, there are two users belonging to this cluster, user A and user D. User A clicks
同じクラスタに所属するユーザは、Web広告に関して好みが似通っていており、そのクラスタに属するWeb広告群に興味があると考えられる。また、双方向クラスタ分割装置100は、どのWebページにアクセスしてから広告をクリックしたかというシーケンスデータも用いて双方向クラスタリングを行うので、同じクラスタに所属するユーザは、コンテンツ訪問履歴に関しても、共通した特徴が多く持つと考えられる。このため、コンテンツをリクエストしたユーザに対して、同じクラスタに所属するユーザのうちの少なくとも一人がクリックしたことがある広告を配信すれば、広告の配信を受けたユーザは、その広告をクリックすると予測できる。
Users belonging to the same cluster have similar preferences regarding Web advertisements and are considered to be interested in Web advertisement groups belonging to the cluster. In addition, since the interactive
クラスタD11に所属するユーザは、広告1と広告5とをクリックしたことがあるので、ユーザAとユーザDとに配信する広告の候補は、広告1と広告5とする。ユーザDは、広告5をクリックしたことがないので、広告選択手段304は、広告5の優先順位を広告1の優先順位よりも高くする。広告選択手段304は、優先順位に従って、広告5、広告1の順で、ユーザDに配信すべき広告を決定する。ユーザAは、広告1と広告5とをクリックしているので、特に優先順位はない。広告選択手段304は、ユーザAに対しては、広告1と広告5との何れかを、ランダムに、ユーザAに配信すべき広告として決定すればよい。
Since the user belonging to the cluster D11 has clicked on the
図16に戻り、広告選択手段304は、配信する広告を決定すると、広告記憶部305からWeb広告を読み出し、コンテンツ配信手段301に与える。広告選択手段304は、決定したWeb広告を識別する情報をコンテンツ配信手段301に渡し、コンテンツ配信手段301が、広告記憶部305からWebコンテンツを読み出してもよい。
Returning to FIG. 16, when the
コンテンツ配信手段301は、コンテンツ記憶部303から、ユーザがリクエストしたコンテンツを読み出す(ステップC6)。コンテンツ配信手段301は、広告選択手段304が決定したWeb広告を、読み出したコンテンツに付け加える(ステップC7)。コンテンツ配信手段301は、Web広告を付け加えたWebコンテンツを、ユーザ端末200に送信する(ステップC8)。ユーザ端末200のコンテンツ表示手段202は、コンテンツ配信手段301が送信した、Web広告を含むWebコンテンツを表示する(ステップC9)。
The
図18は、Web広告が付加されたWebページを示している。コンテンツ配信手段301は、Webページ901内に、広告表示領域902を設け、その広告表示領域902内に、Web広告を埋め込む。Web広告の配信は、特にここで記載したものには限定されない。例えば、WebコンテンツにWeb広告を埋め込まずに、Webコンテンツとは別に、Web広告を配信する形でもよい。
FIG. 18 shows a Web page to which a Web advertisement is added. The
本実施形態では、双方向クラスタ分割装置は、どのユーザがどのWeb広告をクリックしたかというデータを多変量データとし、ユーザがWeb広告をクリックするまでのコンテンツ訪問履歴をシーケンスデータとして、多変量データとシーケンスデータとに対し、双方向クラスタリングを行う。ユーザの特徴は、どのWeb広告をリクエストしたかという情報に加えて、どのようにWeb広告をクリックしたかという情報にも現れる。本実施形態では、多変量データとシーケンスデータとを同時に扱い、それらに対して双方向クラスタリングを行うので、ユーザの特徴や好みを、より正確に抽出できることが期待できる。また、そのような双方向クラスタリングを行った結果を用いて、ユーザに配信する広告を決定することで、ユーザが広告をクリックすることが期待できる。 In this embodiment, the bi-directional cluster partitioning device uses multivariate data as data indicating which user clicked which web advertisement, and multi-variate data using the content visit history until the user clicked the web advertisement as sequence data. Bidirectional clustering is performed on the sequence data. The feature of the user also appears in the information on how to click on the Web advertisement in addition to the information on which Web advertisement is requested. In this embodiment, since multivariate data and sequence data are handled simultaneously and bidirectional clustering is performed on them, it can be expected that user characteristics and preferences can be extracted more accurately. Moreover, it can be expected that the user clicks on the advertisement by determining the advertisement to be distributed to the user using the result of such bidirectional clustering.
図19は、本発明の第3実施形態に係る商品推薦システムを示している。商品推薦システムは、サーバシステム600を有する。サーバシステム600は、双方向クラスタ分割装置100と、データ生成手段601と、推薦商品リスト生成手段602と、クラスタリング結果記憶部603とを有する。サーバシステム600は、クライアントシステム501〜503と、ネットワーク401を介して接続されている。クライアントシステム501〜503は、例えば、小売店に設置される売上管理システムである。サーバシステム600は、小売店の情報を束ねる中央管理システムであり、データセンタなどに設置される。
FIG. 19 shows a product recommendation system according to the third embodiment of the present invention. The product recommendation system has a
クライアントシステム501〜503は、各店舗の売上情報を管理する。売上情報は、例えば、顧客名と、顧客が購入した商品名と、購入日時に関する情報とを含む。サーバシステム600は、クライアントシステムからどの顧客がどの商品を購入したかを示すデータを含む顧客の購入情報を収集する。サーバシステム600は、収集した情報を用いて双方向クラスタリングを行う。多変量データとしてこのような情報を用いる場合、双方向クラスタリング結果を、小売業のマーケティングなどに利用することができる。サーバシステム600は、双方向クラスタリング結果を用いて、顧客に対して今後推薦する商品を決定する。サーバシステム600は、推薦商品の情報を、各店舗のクライアントシステム501〜503に送信する。
The
データ生成手段601は、クライアントシステム501〜503から顧客の購入情報を収集する。データ生成手段601は、収集した顧客の購入情報に基づいて、顧客と商品とを変量とし、顧客が商品を購入したか否かを示す多変量データを生成する。また、データ生成手段601は、多変量データに対応して、顧客が商品を購入したことに関する履歴を時系列で並べたシーケンスデータを生成する。ここでは、シーケンスデータは、顧客の商品購入曜日を時系列に並べた購入曜日履歴であるとする。
The
双方向クラスタ分割装置100の構成は、図1に示す第1実施形態における双方向クラスタ分割装置の構成と同様である。双方向クラスタ分割装置100は、データ生成手段601が生成した多変量データとシーケンスデータとに対して双方向クラスタリングを行う。双方向双方向クラスタ分割装置100は、双方向クラスタリング結果を、クラスタリング結果記憶部603に記憶する。推薦商品リスト生成手段602は、クラスタリング結果記憶部603記憶するクラスタリング結果を用いて、顧客に推薦する商品のリストを生成する。
The configuration of the bidirectional
図20は、動作手順を示している。クライアントシステム501〜503は、それぞれ、ネットワーク401を介して、サーバシステム600に、顧客の購入情報を送信する(ステップD1)。サーバシステム600は、各クライアントから、顧客の購入情報を受け取る。各クライアントがサーバシステム600に顧客の購入情報を送信するタイミングは、クライアントごとに異なっていてもよい。
FIG. 20 shows an operation procedure. Each of the
データ生成手段601は、どの顧客がどの商品を購入したかを示す多変量データと、顧客が商品を購入した曜日の履歴を示す購入曜日履歴とを生成する。データ生成手段601は、生成した多変量データと購入曜日履歴とを、双方向クラスタ分割装置100に出力する(ステップD2)。
The data generation means 601 generates multivariate data indicating which customers have purchased which products and purchase day history indicating the history of the days on which the customers have purchased the products. The
双方向クラスタ分割装置100の双方向クラスタリング手段102(図1)は、入力手段101を介して、多変量データと、購入曜日履歴とを入力する。双方向クラスタリング手段102は、多変量データと、購入曜日履歴とに対し、双方向クラスタリングを行う(ステップD3)。双方向クラスタリングの手順は、図2に示す手順と同様である。双方向クラスタ分割装置100は、双方向クラスタリング結果をクラスタリング結果記憶部603に送り、双方向クラスタリング結果を、クラスタリング結果記憶部603に記憶する(ステップD4)。
Bidirectional clustering means 102 (FIG. 1) of bidirectional
推薦商品リスト生成手段602は、双方向クラスタリング結果記憶部603から双方向クラスタリング結果を読み出し、顧客ごとの推薦商品リストを生成する(ステップD5)。推薦商品リスト生成手段602は、ステップD5では、クラスタごとに、そのクラスタに所属する顧客のうちの少なくとも一人が購入した商品を調べる。推薦商品リスト生成手段602は、顧客ごとに、当該顧客が所属するクラスタに所属する顧客のうちの少なくとも一人が購入した商品のうち、当該顧客が購入していない商品を、推薦商品リストに含める。
The recommended product
推薦商品リスト生成手段602は、推薦商品リストをクライアントシステム501〜503に送信する(ステップD6)。クライアントシステム501〜503は、各顧客に対する推薦商品リストを、サーバシステム600から受信する(ステップD7)。
The recommended product
図21は、双方向クラスタリング手段102の入力データを示している。多変量データの変量は、「顧客」と、「商品」との2つである。購入曜日履歴は、例えば1月単位で、顧客が商品を購入した曜日の履歴を時系列で並べたシーケンスデータである。図22は、双方向クラスタリング結果を示している。双方向クラスタリング手段102が、図21に示す入力データに対して双方向クラスタリングを行うことで、図22に示す、2×3=6つのクラスタが得られたとする。 FIG. 21 shows input data of the bidirectional clustering means 102. There are two variables of multivariate data: “customer” and “product”. The purchase day history is sequence data in which, for example, in January, the customer's purchase day history is arranged in time series. FIG. 22 shows the bidirectional clustering result. Assume that the bi-directional clustering means 102 performs bi-directional clustering on the input data shown in FIG. 21 to obtain 2 × 3 = 6 clusters shown in FIG.
図23は、推薦商品リストを示している。クラスタ分割結果として、図22に示すクラスタ分割結果が得られているとき、各顧客に推薦すべき商品のリスト(推薦商品候補)は、図23に示すようになる。例えば、クラスタD11を考える。図22を参照すると、このクラスタに所属する顧客は、顧客Aと顧客Dの二人である。また、顧客Aは、商品1と商品5とを購入し、顧客Dは、商品1を購入している。
FIG. 23 shows a recommended product list. When the cluster division result shown in FIG. 22 is obtained as the cluster division result, a list of products to be recommended to each customer (recommended product candidates) is as shown in FIG. For example, consider cluster D11. Referring to FIG. 22, there are two customers belonging to this cluster, customer A and customer D. Customer
本実施形態では、顧客、商品、購入曜日履歴に対して双方向クラスタリングを行っており、双方向クラスタリングを行うことで、同じ商品に興味があり、また、商品の購入曜日履歴も類似する顧客を、各クラスタに集めることができる。同じクラスタに所属する顧客は、購入商品に関して好みが似通っていており、また、商品を購入する曜日履歴も共通した特徴が多く含まれていると考えられる。従って、あるクラスタに属する商品に関連したお勧め商品を、そのクラスタに属する顧客に対してお勧めすると、顧客が商品を購入することが期待できる。 In the present embodiment, bi-directional clustering is performed on customers, products, and purchase day histories. By bi-directional clustering, customers who are interested in the same product and have similar purchase day histories of products can be obtained. Can be collected in each cluster. Customers belonging to the same cluster have similar preferences regarding purchased products, and it is considered that there are many common features in the day of the week history of purchasing products. Therefore, if a recommended product related to a product belonging to a cluster is recommended to a customer belonging to the cluster, it can be expected that the customer purchases the product.
推薦商品リスト生成手段602は、クラスタD11に所属する顧客は、商品1と商品5とを購入しているので、顧客Aと顧客Dとに推薦する商品を、商品1と商品5との中から選ぶ。顧客Dは、商品5を購入していないので、推薦商品リスト生成手段602は、顧客Dに推薦する商品を商品5と決定する。顧客Aは、商品1と商品5とを既に購入しているので、推薦商品リスト生成手段602は、顧客Aに推薦する商品はないと判断する。
Since the customer belonging to the cluster D11 has purchased the
本実施形態では、双方向クラスタ分割装置100は、どの顧客がどの商品を購入したかというデータを多変量データとし、顧客が商品を購入した曜日の履歴をシーケンスデータとして、多変量データとシーケンスデータとに対し、双方向クラスタリングを行う。顧客の特徴は、どの商品を購入したかという情報に加えて、どのような曜日履歴で商品を購入したかという情報にも現れる。本実施形態では、多変量データとシーケンスデータとを同時に扱い、それらに対して双方向クラスタリングを行うので、ユーザの特徴や好みを、より正確に抽出できることが期待できる。また、そのような双方向クラスタリングを行った結果を用いて、顧客に推薦する商品を決定することで、ユーザがその後購入することを期待できる商品を、推薦商品とすることができる。
In the present embodiment, the bidirectional
図24は、本発明の第4実施形態に係る故障予測システムを示している。故障予測システムは、サーバシステム800を有する。サーバシステム800は、双方向クラスタ分割装置100と、データ生成手段801と、故障予測候補リスト生成手段802と、クラスタリング結果記憶部803とを有する。サーバシステム800は、クライアントシステム701〜703と、ネットワーク402を介して接続されている。クライアントシステム701〜703は、例えば、自動車販売店や修理工場に設置されている。サーバシステム800は、中央管理システムであり、データセンタなどに設置される。
FIG. 24 shows a failure prediction system according to the fourth embodiment of the present invention. The failure prediction system has a
クライアントシステム701〜703は、自動車の故障情報を管理する。故障情報は、車種と故障個所(故障部品)とを含む。例えば、各車種に対して、複数の地域で故障が起きており、クライアントシステム701〜703は、車種ごとに故障が起こった部品の故障履歴を蓄積しているとする。サーバシステム800は、クライアントシステム701〜703から、故障情報を収集する。サーバシステム800は、クライアントシステムから収集した情報を用いて、双方向クラスタリングを行う。サーバシステム800は、双方向クラスタリング結果を用いて、故障予測を行い、予測結果をクライアントシステム701〜703に送信する。
The
データ生成手段801は、クライアントシステム701〜703から車種ごとの故障情報を収集する。データ生成手段801は、収集した故障情報に基づいて、車種と地域とを変量とし、当該車種に当該地域で故障が発生したか否かを示す多変量データを生成する。また、データ生成手段801は、多変量データに対応して、当該車種で故障が発生したことに関する履歴を時系列で並べたシーケンスデータを生成する。ここでは、シーケンスデータは、過去に故障が発生した部品を時系列に並べた故障部品履歴であるとする。
The
双方向クラスタ分割装置100の構成は、図1に示す第1実施形態における双方向クラスタ分割装置の構成と同様である。双方向クラスタ分割装置100は、車種ごとの故障発生地域と、故障部品履歴とに対して双方向クラスタリングを行う。クラスタリング結果記憶部803は、双方向クラスタ分割装置100のクラスタリング結果を記憶する。故障予測候補リスト生成手段802は、クラスタリング結果記憶部803が記憶するクラスタリング結果を用いて、車種と地域とに対して、今後故障が発生すると予測される部品のリストを生成する。
The configuration of the bidirectional
図25は、動作手順を示している。クライアントシステム701〜703は、それぞれ、ネットワーク402を介して、サーバシステム800に、故障情報を送信する(ステップE1)。サーバシステム800は、各クライアントから、故障情報を受け取る。クライアントシステム701〜703が管理する故障情報は地域が異なっており、サーバシステム800は、どのクライアントから故障情報を受信したかに応じて、故障が発生した地域が判別可能であるとする。或いは、故障情報が地域に関する情報を含んでいてもよい。各クライアントがサーバシステム800に故障情報を送信するタイミングは、クライアントごとに異なっていてもよい。
FIG. 25 shows an operation procedure. Each of the
データ生成手段801は、どの車種にどの地域で故障が発生しているかを示す多変量データと、当該車種で過去に故障が発生した部品の履歴を示す故障部品履歴とを生成する。データ生成手段801は、生成した多変量データと故障部品履歴とを、双方向クラスタ分割装置100に出力する(ステップE2)。
The
双方向クラスタ分割装置100の双方向クラスタリング手段102(図1)は、入力手段101を介して、多変量データと、故障部品履歴とを入力する。双方向クラスタリング手段102は、多変量データと、故障部品履歴とに対し、双方向クラスタリングを行う(ステップE3)。双方向クラスタリングの手順は、図2に示す手順と同様である。双方向クラスタ分割装置100は、双方向クラスタリング結果をクラスタリング結果記憶部803に送り、双方向クラスタリング結果を、クラスタリング結果記憶部803に記憶する(ステップE4)。
Bidirectional clustering means 102 (FIG. 1) of bidirectional
故障予測候補リスト生成手段802は、双方向クラスタリング結果記憶部803から双方向クラスタリング結果を読み出し、車種ごとの故障予測候補リストを生成する(ステップE5)。故障予測候補リスト生成手段802は、ステップE5では、クラスタごとに、そのクラスタに所属する車種の少なくとも一つに故障が発生した地域を調べる。故障予測候補リスト生成手段802は、車種ごとに、当該車種が所属するクラスタに所属する車種のうちの少なくとも一つで故障が発生した地域のうち、当該顧客でまだ故障が発生していない地域を、故障予測候補リストに含める。
The failure prediction candidate list generation unit 802 reads the bidirectional clustering result from the bidirectional clustering
故障予測候補リスト生成手段802は、故障予測候補リストをクライアントシステム701〜703に送信する(ステップE6)。クライアントシステム701〜703は、各顧客に対する故障予測候補リストを、サーバシステム800から受信する(ステップE7)。
The failure prediction candidate list generation unit 802 transmits the failure prediction candidate list to the
図26は、双方向クラスタリング手段102の入力データを示している。多変量データの変量は、「車種」と、「地域」との2つである。故障部品履歴は、例えば1年単位で、当該車種で故障が発生した部品の履歴を時系列で並べたシーケンスデータである。或いは、故障部品履歴は、故障発生以前に故障が発生した過去の故障部品を並べたものでもよい。図27は、双方向クラスタリング結果を示している。双方向クラスタリング手段102が、図26に示す入力データに対して双方向クラスタリングを行うことで、図27に示す、2×3=6つのクラスタが得られたとする。 FIG. 26 shows input data of the bidirectional clustering means 102. There are two variables of the multivariate data: “car type” and “region”. The failure part history is sequence data in which, for example, in a year unit, the history of parts that have failed in the vehicle type is arranged in time series. Alternatively, the failed part history may be a list of past failed parts in which a failure occurred before the failure occurred. FIG. 27 shows the bidirectional clustering result. Assume that the bi-directional clustering means 102 performs bi-directional clustering on the input data shown in FIG. 26 to obtain 2 × 3 = 6 clusters shown in FIG.
図28は、故障予測候補リストを示している。クラスタ分割結果として、図27に示すクラスタ分割結果が得られているとき、各車種に故障が発生すると予測される地域のリスト(故障発生地域候補)は、図28に示すようになる。例えば、クラスタD11を考える。図27を参照すると、このクラスタに所属する車種は、車種Aと車種Dの2つである。また、車種Aは、地域1と地域5とで故障が発生しており、車種Dは、地域1で故障が発生している。
FIG. 28 shows a failure prediction candidate list. When the cluster division result shown in FIG. 27 is obtained as the cluster division result, a list of areas (failure occurrence area candidates) where a failure is predicted to occur in each vehicle type is as shown in FIG. For example, consider cluster D11. Referring to FIG. 27, there are two vehicle types belonging to this cluster, vehicle type A and vehicle type D. Further, the failure of the vehicle type A occurs in the
本実施形態では、車種、地域、故障部品履歴に対して双方向クラスタリングを行っており、双方向クラスタリンを行うことで、同じ地域で故障が発生し、また、故障備品履歴も類似する車種を、各クラスタに集めることができる。同じクラスタに所属する車種は、故障発生地域が同じ傾向にあり、また、故障が発生した部品履歴も共通した特徴を多く含んでいると考えられる。従って、あるクラスタに属する車種は、今後、そのクラスタに所属する地域で故障が発生すると予測できる。 In this embodiment, bi-directional clustering is performed on the vehicle type, region, and failure part history. By performing bi-directional clustering, a failure occurs in the same region, and a vehicle type that has a similar failure equipment history is also obtained. Can be collected in each cluster. The types of vehicles belonging to the same cluster tend to have the same failure occurrence area, and it is considered that the history of parts in which a failure has occurred includes many common features. Therefore, it can be predicted that a vehicle type belonging to a certain cluster will fail in an area belonging to the cluster in the future.
故障予測候補リスト生成手段802は、クラスタD11に所属する車種は、地域1と地域5とで故障が発生しているので、故障発生地域を、地域1と地域5との中から選ぶ。車種Dは、既に地域1で故障が発生しているので、故障予測候補リスト生成手段802は、車種Dで故障の発生が予測される地域を地域5と決定する。車種Aは、既に地域1と地域5とで故障が発生しているので、故障予測候補リスト生成手段802は、車種Aに今後故障が発生すると予測される地域はないと判断する。
The failure prediction candidate list generation means 802 selects the failure occurrence region from the
本実施形態では、双方向クラスタ分割装置100は、どの地域でどの車種に故障が発生しているかというデータを多変量データとし、故障発生部品の履歴をシーケンスデータとして、多変量データとシーケンスデータとに対し、双方向クラスタリングを行う。多変量データとシーケンスデータとに対して双方向クラスタリングを行うことで、車種、地域、故障部品履歴に共通した特徴を持つクラスタに分割することができ、車種と地域で共通の特徴をもつクラスタを発見することができる。クラスタリング結果から、車種ごとに、今後、故障が発生すると予測される地域を予測することができる。サーバシステム800から、故障発生が予測される地域のクライアントシステムに対してどの車種でどのような故障が発生する可能性が高いかを示す情報を送信することで、故障発生に備えることができる。また、故障原因を発見するための調査を早期に行うこともできる。
In the present embodiment, the bidirectional
ここで、双方向クラスタリングでは、通常、事前にクラスタ数を設定する必要がある。本実施形態で言えば、クラスタ数は、全体で発生している故障の数を表している。双方向クラスタリングで事前にクラスタ数を設定する場合、全体として故障が何個発生しているかが不明な状態でも、事前にクラスタ数を決めなければならない。言い換えれば、クラスタリングを行うことで、発生している故障の数を知りたいにもかかわらず、発生している故障の数を事前に決めなくてはならない。本実施形態では、双方向クラスタ分割装置100がクラスタ数算出手段103(図1)を有しているので、事前にクラスタ数を決めておかなくても、適切な分割数でクラスタ分割を行うことができる。応用上、双方向クラスタリングでは、データを入力するだけで、適切な数でクラスタに分割したクラスタリング結果を出力することが重要である。
Here, in bidirectional clustering, it is usually necessary to set the number of clusters in advance. In the present embodiment, the number of clusters represents the total number of failures occurring. When the number of clusters is set in advance by bidirectional clustering, the number of clusters must be determined in advance even if it is unknown how many failures have occurred as a whole. In other words, by performing clustering, it is necessary to determine in advance the number of faults that have occurred, even though it is desired to know the number of faults that have occurred. In the present embodiment, since the bidirectional
なお、上記各実施形態では、多変量データの変量を2つとしているが、変量の数は2つには限定されない。また、多変量データ及びシーケンスデータとの組み合わせは、上記各実施形態で用いたものには限定されない。例えば、多変量データの変量として「顧客」、「商品」を用い、シーケンスデータとして「商品購入履歴」を用いてもよい。或いは、多変量データの変量として「顧客」、「会社名」を用い、シーケンスデータとして「転職履歴」を用いることや、多変量データの変量として「商品」、「Webページ」を用い、シーケンスデータとして「webページで各商品を紹介キャンペーンした日時の履歴」を用いてもよい。更には、多変量データの変量として「部品」、「部品製造会社」を用い、シーケンスデータとして、「部品製造会社が部品を配送した履歴」用いることも可能であり、また、多変量データの変量として「インターネットウィルス名」、「インターネットウィルスの感染が確認された地域」を用い、シーケンスデータとして「1日にウィルスに感染したと報告のあった数の履歴」を用いることもできる。 In each of the above embodiments, the number of variables of multivariate data is two, but the number of variables is not limited to two. Further, the combination of multivariate data and sequence data is not limited to that used in the above embodiments. For example, “customer” and “product” may be used as the variables of the multivariate data, and “product purchase history” may be used as the sequence data. Or, use “customer” and “company name” as variables of multivariate data, use “change of job history” as sequence data, and use “product” and “Web page” as variables of multivariate data. As “history of the date and time when each product was introduced and introduced on the web page” may be used. Furthermore, it is possible to use “parts” and “part manufacturers” as variables of multivariate data, and “history of parts delivered by parts manufacturers” can be used as sequence data. “Internet virus name” and “region where Internet virus infection was confirmed” can be used as the sequence data, and “the history of the number of virus infections reported per day” can be used as the sequence data.
図1では、双方向クラスタ分割装置100はクラスタ数算出手段103を有しているが、クラスタ数算出手段103を持たない構成も可能である。その場合、双方向クラスタリング手段102は、事前に設定されたクラスタ分割数で、クラスタ分割を行えばよい。また、双方向クラスタリング手段102と、クラスタ数算出手段103とは、同一の装置が備えている必要はなく、双方向クラスタリング手段102と、クラスタ数算出手段103とを別の装置に分けて、クラスタリングの実行と、クラスタリング結果の評価とを、異なる装置で行ってもよい。
In FIG. 1, the bidirectional
上記各実施形態では、外部から、多変量データとシーケンスデータとを双方向クラスタ分割装置100に入力する例を説明したが、多変量データとシーケンスデータとの生成は、双方向クラスタ分割装置100内で行ってもよい。例えば、第2実施形態で、Webサーバ300(図11)のクラスタリング制御手段307は、多変量データとシーケンスデータとの生成を行わずに、ユーザリクエスト記憶部302から読み出した各ユーザのリクエスト履歴を、出力装置308を介して双方向クラスタ分割装置100に出力する。双方向クラスタ分割装置100には、データ生成手段を設けておく。双方向クラスタ分割装置100は、クラスタリング制御手段307から入力した情報に基づいて、どのユーザがどのWeb広告をクリックしたかを示す多変量データと、Web広告をクリックするまでのコンテンツ訪問履歴とを生成し、その後、双方向クラスタリングを実施してもよい。
In each of the above embodiments, the example in which multivariate data and sequence data are input from the outside to the bidirectional
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の双方向クラスタ分割装置、広告配信システム、商品推薦システム、故障予測システム、方法、及び、プログラムは、上記実施形態にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。 As described above, the present invention has been described based on the preferred embodiment. However, the bidirectional cluster dividing device, the advertisement distribution system, the product recommendation system, the failure prediction system, the method, and the program of the present invention are limited to the above embodiment. The present invention is not limited, and modifications and changes made from the configuration of the above embodiment are also included in the scope of the present invention.
最後に、本発明の概要について説明する。図29は、本発明の双方向クラスタ分割装置の概略を示している。双方向クラスタ分割装置10は、入力手段11と双方向クラスタリング手段12とを有する。入力手段11は、変量データと多変量データに対応したシーケンスデータとを入力する。双方向クラスタリング手段12は、多変量データとシーケンスデータとに対して双方向クラスタリングを行う。双方向クラスタリング手段12は、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて、多変量データとシーケンスデータとを、複数のクラスタに分割する。
Finally, the outline of the present invention will be described. FIG. 29 shows an outline of the bidirectional cluster dividing apparatus of the present invention. The bidirectional
本発明では、多変量データだけでなく、多変量データに対応したシーケンスデータも同時に双方向クラスタリングする。従って、各変量間、及び、シーケンスデータ間でそれぞれ共通の特徴を持つクラスタに同時に分割することができる。また、データの特徴は、多変量データだけでなく、多変量データに対応したシーケンスデータにも現れる。このため、多変量データとシーケンスデータとを同時に扱い、双方向クラスタリングを行うことで、より正確に、多変量データ間の特徴を抽出できるとことが期待できる。 In the present invention, not only multivariate data but also sequence data corresponding to the multivariate data is simultaneously subjected to bidirectional clustering. Therefore, it is possible to simultaneously divide into clusters having common features between the variables and between the sequence data. Further, data characteristics appear not only in multivariate data but also in sequence data corresponding to the multivariate data. For this reason, it can be expected that features between multivariate data can be extracted more accurately by simultaneously handling multivariate data and sequence data and performing bidirectional clustering.
10:双方向クラスタ分割装置
11:入力手段
12:双方向クラスタリング手段
100:双方向クラスタ分割装置
101:入力手段
102:双方向クラスタリング手段
103:クラスタ数算出手段
104:出力手段
200:ユーザ端末
201:コンテンツリクエスト手段
202:コンテンツ表示手段
300:Webサーバ
301:コンテンツ配信手段
302:ユーザリクエスト記憶部
303:コンテンツ記憶部
304:広告選択手段
305:広告記憶部
306:リクエスト受付手段
307:クラスタリング制御手段
308:出力装置
309:入力装置
310:クラスタリング結果記憶部
400:インターネット
401、402:ネットワーク
501〜503、701〜703:クライアントシステム
600:サーバシステム
601:データ生成手段
602:推薦商品リスト生成手段
603:クラスタリング結果記憶部
800:サーバシステム
801:データ生成手段
802:故障予測候補リスト生成手段
803:クラスタリング結果記憶部
10: Bidirectional cluster dividing device 11: Input means 12: Bidirectional clustering means 100: Bidirectional cluster dividing device 101: Input means 102: Bidirectional clustering means 103: Cluster number calculating means 104: Output means 200: User terminal 201: Content request unit 202: Content display unit 300: Web server 301: Content distribution unit 302: User request storage unit 303: Content storage unit 304: Advertisement selection unit 305: Advertisement storage unit 306: Request reception unit 307: Clustering control unit 308: Output device 309: Input device 310: Clustering result storage unit 400:
Claims (21)
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割する双方向クラスタリング手段とを備える双方向クラスタ分割装置。 Input means for inputting multivariate data and sequence data corresponding to the multivariate data;
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data and the sequence data have many or less features common to each variable included in the cluster and between the sequence data. A bi-directional cluster dividing device comprising bi-directional clustering means for dividing into a plurality of clusters using an evaluation function representing
ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信手段と、
前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成手段と、
前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、
前記双方向クラスタリング結果に基づいて、前記コンテンツ配信手段がコンテンツに付加すべき広告を決定する広告選択手段とを備える広告配信システム。 A request accepting means for accepting a request for content from a user, and storing the requested user and the requested content in a user request storage unit;
A content distribution means for transmitting the content requested by the user with an advertisement including a mechanism for allowing the user to request the content of the advertiser;
Based on the information stored in the user request storage unit, the user and the advertisement are used as variables, and multivariate data indicating whether or not the user has requested the content of the advertiser from the advertisement is generated. Correspondingly, a data generation means for generating sequence data in which the requests sent until the user requests the advertiser's content are arranged in time series,
Is bi-directional clustering performed on the multivariate data and the sequence data, and whether the multivariate data and the sequence data have many common features between each variable and sequence data included in the cluster? A bi-directional clustering means for dividing into a plurality of clusters using an evaluation function representing a small number and outputting bi-directional clustering results;
An advertisement distribution system comprising: an advertisement selection unit that determines an advertisement to be added to the content by the content distribution unit based on the bidirectional clustering result.
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、
前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成手段とを備える商品推薦システム。 Collect sales information including information that the customer has purchased the product, and based on the collected sales information, variable the customer and the product, and generate multivariate data indicating whether the customer has purchased the product In addition, in response to the multivariate data, data generation means for generating sequence data in which histories related to the purchase of a product by a customer are arranged in time series, and
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data and the sequence data have many or less features common to each variable included in the cluster and between the sequence data. Bi-directional clustering means for dividing the multi-cluster into a plurality of clusters using an evaluation function representing
A product recommendation system comprising recommended product list generation means for determining a product recommended for a customer based on the bidirectional clustering result.
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング手段と、
前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成手段とを備える故障予測システム。 Multivariate that collects failure information including vehicle type and failure location of the vehicle, and based on the collected failure information, makes the vehicle type and region variable, and indicates whether or not a failure has occurred in the region for the vehicle type Data generating means for generating data, and corresponding to the multivariate data, generating data of sequence data in which the history of failure locations that occurred in the past in the vehicle type is arranged in time series,
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data and the sequence data have many or less features common to each variable included in the cluster and between the sequence data. Bi-directional clustering means for dividing the multi-cluster into a plurality of clusters using an evaluation function representing
A failure prediction system comprising failure prediction candidate list generation means for estimating a region where a failure is predicted to occur for a vehicle type based on the bidirectional clustering result.
コンピュータが、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割するステップとを有する双方向クラスタ分割方法。 Inputting multivariate data and sequence data corresponding to the multivariate data to a computer;
The computer performs bi-directional clustering on the multivariate data and the sequence data, and whether the multivariate data has many or few features common to each variable included in the cluster and between the sequence data. A bi-directional cluster partitioning method comprising the step of partitioning into a plurality of clusters using a representing evaluation function
コンピュータが、ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信ステップと、
コンピュータが、前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成ステップと、
コンピュータが、前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、
コンピュータが、前記双方向クラスタリング結果に基づいて、前記コンテンツに付加すべき広告を決定する広告選択ステップとを有する広告配信方法。 A request receiving step in which a computer receives a request for content from a user, and stores the requested user and the requested content in a user request storage unit;
A content distribution step in which a computer adds an advertisement including a mechanism for causing the user to request the advertiser's content to the content requested by the user;
Based on the information stored in the user request storage unit, the computer uses the user and the advertisement as variables, and generates multivariate data indicating whether the user has requested the advertiser's content from the advertisement. In response to multivariate data, a data generation step for generating sequence data in which the requests sent before the user requests the content of the advertiser are arranged in time series,
Whether the computer performs bi-directional clustering on the multivariate data and the sequence data, and the multivariate data has many or less common features between the variables included in the cluster and between the sequence data A bi-directional clustering step that divides the data into a plurality of clusters using an evaluation function that represents and outputs bi-directional clustering results;
An advertisement distribution method comprising: an advertisement selection step in which a computer determines an advertisement to be added to the content based on the bidirectional clustering result.
コンピュータが、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、
コンピュータが、前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成ステップとを有する商品推薦方法。 Multivariate data in which a computer collects sales information including information that a customer has purchased a product, and based on the collected sales information, the customer and the product are variables, and the customer has purchased the product. And generating data corresponding to the multivariate data and generating sequence data in which histories relating to the purchase of the product by the customer are arranged in time series, and
The computer performs bi-directional clustering on the multivariate data and the sequence data, and the multivariate data and the sequence data are common to each variable included in the cluster and between the sequence data. A bi-directional clustering step that divides the data into a plurality of clusters using an evaluation function that indicates whether there are many or few, and outputs a bi-directional clustering result;
A product recommendation method comprising: a recommended product list generation step in which a computer determines a product recommended for a customer based on the bidirectional clustering result.
コンピュータが、前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリングステップと、
コンピュータが、前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成ステップとを有する故障予測方法。 The computer collects failure information including the vehicle type and the failure location of the vehicle, and based on the collected failure information, the vehicle type and the region are variables, and whether or not a failure has occurred in the region for the vehicle type. A data generation step of generating sequence data in which the history of failure locations that occurred in the past in the vehicle type is arranged in time series in response to the multivariate data,
The computer performs bi-directional clustering on the multivariate data and the sequence data, and the multivariate data and the sequence data are common to each variable included in the cluster and between the sequence data. A bi-directional clustering step that divides the data into a plurality of clusters using an evaluation function that indicates whether there are many or few, and outputs a bi-directional clustering result;
A failure prediction method comprising: a failure prediction candidate list generation step in which a computer estimates a region where a failure is predicted to occur for a vehicle type based on the bidirectional clustering result.
多変量データと多変量データに対応したシーケンスデータとを入力する処理と、
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割する処理とを実行させるプログラム。 On the computer,
Processing to input multivariate data and sequence data corresponding to the multivariate data;
An evaluation function that performs bidirectional clustering on the multivariate data and the sequence data, and indicates whether the multivariate data has many or few features common to each variable included in the cluster and between the sequence data A program that executes processing to divide into a plurality of clusters using.
ユーザからのコンテンツへのリクエストを受け付け、リクエストを送信したユーザとリクエストしたコンテンツとをユーザリクエスト記憶部に記憶するリクエスト受付処理と、
ユーザがリクエストしたコンテンツに、ユーザに広告主のコンテンツをリクエストさせるための仕組みを含む広告を付加して送信するコンテンツ配信処理と、
前記ユーザリクエスト記憶部に記憶された情報に基づいて、ユーザと広告とを変量とし、ユーザが広告から広告主のコンテンツをリクエストしたか否かを示す多変量データを生成すると共に、前記多変量データ対応して、ユーザが広告主のコンテンツをリクエストするまでに送信したリクエストを時系列で並べたシーケンスデータを生成するデータ生成処理と、
前記多変量データと前記シーケンスデータとに対して双方向クラスタリングを行い、前記多変量データを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、
前記双方向クラスタリング結果に基づいて、前記コンテンツに付加すべき広告を決定する広告選択処理とを実行させるプログラム。 On the computer,
A request reception process for receiving a request for content from a user, and storing the request transmission user and the requested content in a user request storage unit;
A content distribution process in which an advertisement including a mechanism for allowing the user to request the content of the advertiser is added to the content requested by the user and transmitted;
Based on the information stored in the user request storage unit, the user and the advertisement are used as variables, and multivariate data indicating whether or not the user has requested the content of the advertiser from the advertisement is generated. Correspondingly, a data generation process for generating sequence data in which the requests sent until the user requests the advertiser's content are arranged in time series,
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data is evaluated to indicate whether there are many or few features common to each variable included in the cluster and between the sequence data. Bidirectional clustering processing that divides into multiple clusters using functions and outputs bidirectional clustering results;
A program for executing an advertisement selection process for determining an advertisement to be added to the content based on the bidirectional clustering result.
顧客が商品を購入したという情報を含む売上情報を収集し、該収集した売上情報に基づいて、顧客と商品とを変量とし、顧客が商品を購入したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、顧客が商品を購入したことに関する履歴を時系列で並べたシーケンスデータとを生成するデータ生成処理と、
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、
前記双方向クラスタリング結果に基づいて、顧客に推薦する商品を決定する推薦商品リスト生成処理とを実行させるプログラム。 On the computer,
Collect sales information including information that the customer has purchased the product, and based on the collected sales information, variable the customer and the product, and generate multivariate data indicating whether the customer has purchased the product In addition, in response to the multivariate data, a data generation process for generating sequence data in which histories relating to the purchase of a product by a customer are arranged in time series, and
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data and the sequence data have many or less features common to each variable included in the cluster and between the sequence data. A bi-directional clustering process that divides the data into a plurality of clusters using an evaluation function that expresses
A program for executing a recommended product list generation process for determining a product recommended for a customer based on the bidirectional clustering result.
車両の車種と故障個所とを含む故障情報を収集し、該収集した故障情報に基づいて、車種と地域とを変量とし、当該車種に対し当該地域で故障が発生したか否かを示す多変量データを生成すると共に、前記多変量データに対応して、当該車種で過去に発生した故障個所の履歴を時系列で並べたシーケンスデータを生成するデータ生成処理と、
前記多変量データとシーケンスデータとに対して双方向クラスタリングを行い、前記多変量データと前記シーケンスデータとを、クラスタに含まれる各変量間とシーケンスデータ間とのそれぞれで共通した特徴が多いか少ないかを表す評価関数を用いて複数のクラスタに分割し、双方向クラスタリング結果を出力する双方向クラスタリング処理と、
前記双方向クラスタリング結果に基づいて、車種に対して故障の発生が予測される地域を推測する故障予測候補リスト生成処理とを実行させるプログラム。 On the computer,
Multivariate that collects failure information including vehicle type and failure location of the vehicle, and based on the collected failure information, makes the vehicle type and region variable, and indicates whether or not a failure has occurred in the region for the vehicle type A data generation process for generating data, and corresponding to the multivariate data, generating sequence data in which histories of fault locations that occurred in the past in the vehicle type are arranged in time series,
Bidirectional clustering is performed on the multivariate data and the sequence data, and the multivariate data and the sequence data have many or less features common to each variable included in the cluster and between the sequence data. A bi-directional clustering process that divides the data into a plurality of clusters using an evaluation function that expresses
A program that executes a failure prediction candidate list generation process that estimates a region where a failure is predicted to occur for a vehicle type based on the bidirectional clustering result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009265928A JP2011113104A (en) | 2009-11-24 | 2009-11-24 | Bidirectional cluster division device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009265928A JP2011113104A (en) | 2009-11-24 | 2009-11-24 | Bidirectional cluster division device, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011113104A true JP2011113104A (en) | 2011-06-09 |
Family
ID=44235421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009265928A Pending JP2011113104A (en) | 2009-11-24 | 2009-11-24 | Bidirectional cluster division device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011113104A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016136147A1 (en) * | 2015-02-25 | 2016-09-01 | 日本電気株式会社 | Grouping system and recommended-product determination system |
-
2009
- 2009-11-24 JP JP2009265928A patent/JP2011113104A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016136147A1 (en) * | 2015-02-25 | 2016-09-01 | 日本電気株式会社 | Grouping system and recommended-product determination system |
JPWO2016136147A1 (en) * | 2015-02-25 | 2017-12-07 | 日本電気株式会社 | Grouping system and recommended product determination system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9846841B1 (en) | Predicting object identity using an ensemble of predictors | |
US9600581B2 (en) | Personalized recommendations on dynamic content | |
JP6435426B1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
WO2008144444A1 (en) | Ranking online advertisements using product and seller reputation | |
WO2015049797A1 (en) | Data management method, data management device and storage medium | |
US9798753B1 (en) | Search result snapshot histories | |
US20110196690A1 (en) | Method and system of selecting landing pages and optimizing routing efficiency | |
US10042895B1 (en) | Product information integration | |
JP2009265747A (en) | Marketing support system, marketing support method, marketing support program, and computer readable medium | |
US20210012363A1 (en) | Device, method and computer-readable medium for analyzing customer attribute information | |
Ghose et al. | Surviving social media overload: Predicting consumer footprints on product search engines | |
Mikeli et al. | A multi-criteria recommendation method for interval scaled ratings | |
US11941073B2 (en) | Generating and implementing keyword clusters | |
US10719561B2 (en) | System and method for analyzing popularity of one or more user defined topics among the big data | |
KR101334096B1 (en) | Item based recommendation engiine recommending highly associated item | |
US20210090105A1 (en) | Technology opportunity mapping | |
CN117056619A (en) | Method and device for determining user behavior characteristics | |
JP5603678B2 (en) | Demand forecasting apparatus and demand forecasting method | |
Saravanan et al. | Realizing social-media-based analytics for smart agriculture | |
CN111445302A (en) | Commodity sorting method, system and device | |
JP2011113104A (en) | Bidirectional cluster division device, method, and program | |
JP6585998B2 (en) | Content determination device | |
JP7231585B2 (en) | Evaluation device, evaluation method and evaluation program | |
WO2005064511A1 (en) | Campaign dynamic correction system, method thereof, recording medium containing the method, and transmission medium for transmitting the method | |
JP6809148B2 (en) | Program and combination extraction system |