JP5216895B2 - Log processing apparatus and operation method thereof - Google Patents
Log processing apparatus and operation method thereof Download PDFInfo
- Publication number
- JP5216895B2 JP5216895B2 JP2011124039A JP2011124039A JP5216895B2 JP 5216895 B2 JP5216895 B2 JP 5216895B2 JP 2011124039 A JP2011124039 A JP 2011124039A JP 2011124039 A JP2011124039 A JP 2011124039A JP 5216895 B2 JP5216895 B2 JP 5216895B2
- Authority
- JP
- Japan
- Prior art keywords
- logs
- log
- service
- transmission date
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、ログ処理装置およびその動作方法に関するものである。 The present invention relates to a log processing apparatus and an operation method thereof.
協調フィルタリングは、広義には、多くのユーザの嗜好情報を蓄積し、ある利用者(ユーザ)と嗜好の類似した他のユーザの情報を用いて該当ユーザにコンテンツを推奨する技術である。 Collaborative filtering is a technology that, in a broad sense, accumulates preference information of many users and recommends content to relevant users using information on other users who have similar preferences to a certain user (user).
この技術は、利用者間型とアイテム(コンテンツともいう)間型に分類にできる。利用者間型は、推奨を受けるユーザと嗜好パターンが似ているユーザ(類似ユーザという)をまず見つけ、その類似ユーザが好むアイテム群を推奨候補とする技術である。実装にはユーザ同士の類似度を、同じアイテムにつけた評価の相関係数(Pearson相関、順位相関などが用いられる)などによって表し、また、嗜好の予測には、類似度の高いユーザを抽出し、そのアイテムへの評価値を、そのユーザへの類似度で重みを付けし、それらの評価値の加重平均値を予測として用いる。それらの予測値の大きなものから、推奨アイテムとして推奨を行う。表示画面の広さに制約もあるため、小さな予測値を持つアイテムを削除したり、上位3〜10個程度のアイテムを表示するように構成を行う。 This technology can be classified into a type between users and a type between items (also referred to as contents). The inter-user type is a technique that first finds a user (referred to as a similar user) whose preference pattern is similar to the user receiving the recommendation, and sets an item group preferred by the similar user as a recommended candidate. For implementation, the degree of similarity between users is represented by the correlation coefficient (Pearson correlation, rank correlation, etc.) of the evaluation given to the same item, and users with high similarity are extracted for preference prediction. The evaluation value for the item is weighted with the similarity to the user, and the weighted average value of the evaluation values is used as a prediction. Recommendations are made as recommended items from those with large predicted values. Since there is a restriction on the size of the display screen, an item having a small predicted value is deleted, or the upper 3 to 10 items are displayed.
また、アイテム間型では、いろいろな利用者に同じような評価を受けているアイテムは似ているという考え、関心があるアイテムの類似アイテムに利用者は関心を持つという仮定を置き、ユーザの直近の利用履歴にあるアイテムに類似しているアイテムを推奨するものである。実装としては、アイテムの利用ユーザの共起性などでアイテム間の類似度を測り、ユーザの直近の利用履歴にあるアイテムの類似アイテムの推奨を行うことが行われている。 Also, in the item-to-item type, it is assumed that items that receive similar evaluations by various users are similar, and the assumption that users are interested in similar items of the items they are interested in is the closest to the user. Recommend items that are similar to items in your usage history. As an implementation, the similarity between items is measured based on the co-occurrence of the user of the item, and the similar item of the item in the latest usage history of the user is recommended.
これらの技術の詳細については、非特許文献1に解説されている。
Details of these techniques are described in
これらの推奨手法は、サービス内に閉じた推奨や、サービス間で行う(サービス横断推奨と以下呼ぶ)場合でも同一のユーザ数、コンテンツ数、利用頻度の場合は用いることができるが、現実のサービスでは、以下のような問題がある。 These recommended methods can be used in the case of the same number of users, the number of contents, and the frequency of use even when recommendations are closed within the service or between services (hereinafter referred to as cross-service recommendations). Then, there are the following problems.
利用者間型の推奨方法を用いる場合、アイテムの評価値の加重平均値を利用するため、サービス間で大きく利用頻度が異なる場合などでは、利用頻度の低いサービスに属するアイテムの評価値が利用頻度の高いサービスに属するアイテムに比較して、大きな値を持つと考えられるため、推奨として表示されないという問題があった。 When using the inter-user type recommendation method, the weighted average value of the evaluation values of items is used, so the evaluation value of an item belonging to a service with low usage frequency is used when the usage frequency varies greatly between services. There is a problem that it is not displayed as a recommendation because it is considered to have a large value compared to items belonging to services with a high price.
アイテム間型の推奨方法を用いる場合も同様であり、アイテムの利用ユーザの共起性などでアイテム間の類似度を測るため、利用者間型の推奨方法を用いる場合と同様に、利用頻度の低いサービスに属するアイテムが出現しにくいという問題があり、また「あるサービスAに属するコンテンツαからあるサービスBに属するコンテンツβをお勧めする」といった異種のサービス間同士の推奨が起こりにくいという問題があった。 The same applies when using the item-to-item recommendation method, and in order to measure the similarity between items based on the co-occurrence of the user who uses the item. There is a problem that items belonging to a low service are unlikely to appear, and a problem that recommendations between different services such as “recommend content β belonging to a service B from a content α belonging to a service A” is unlikely to occur. there were.
これらの問題は、サービスごとのログの数の不均衡が原因で生じることがわかっている。 These problems are known to be caused by an imbalance in the number of logs per service.
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、コンテンツの推奨に用いるサービスごとのログの数の不均衡さを解消するためのログ処理装置およびその動作方法を提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a log processing apparatus and an operation method thereof for eliminating the imbalance in the number of logs for each service used for content recommendation. Is to provide.
上記の課題を解決するために、第1の本発明は、複数のサービスのそれぞれにおいて1以上のコンテンツで構成されるシリーズが1以上送信可能な場合における送信先のユーザに対しコンテンツを推奨するために蓄積されたログの処理を行うログ処理装置であって、いずれかのサービスのいずれかのシリーズのいずれかのコンテンツがいずれかのユーザのために送信されたことを示す当該送信の送信日時、該コンテンツのコンテンツID、該サービスのサービスID、該シリーズのシリーズIDおよび該ユーザのユーザIDを含むログが蓄積されるログ蓄積部と、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除するログ削除部とを備えることを特徴とするログ処理装置をもって解決手段とする。 In order to solve the above-described problem, the first aspect of the present invention recommends content to a destination user when one or more series composed of one or more contents can be transmitted in each of a plurality of services. A log processing device for processing the log accumulated in the transmission, the transmission date and time of the transmission indicating that any content of any series of any service has been transmitted for any user, Log accumulation unit for accumulating logs including the content ID of the content, the service ID of the service, the series ID of the series, and the user ID of the user, and a set of logs having more than a predetermined number of logs For each set of logs, for each set of user ID and series ID, for each set of logs. A log set that is a set of logs including a series ID is searched from the log storage unit, and for each log set, a predetermined number of logs are selected from the log set in order from the newest transmission date and selected. A log processing apparatus including a log deletion unit that deletes a log that has not been performed is used as a solution means.
例えば、前記ログ処理装置は、サービスIDごとの該サービスIDを含むログの集合におけるログの数の不均衡さを示す係数を求める係数計算部を備え、前記ログ削除部は、前記係数が予め定めた閾値より大きいなら、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する。 For example, the log processing apparatus includes a coefficient calculation unit that obtains a coefficient indicating an imbalance in the number of logs in a set of logs including the service ID for each service ID, and the log deletion unit has the coefficient determined in advance. If it is larger than the threshold, a set of logs having a number of logs larger than a predetermined number is searched from the log storage unit, and for each set of logs, for each set of user ID and series ID, the set of users A log set that is a set of logs including an ID and a series ID is searched from the log storage unit, and for each log set, a predetermined number of logs are selected in order from the newest transmission date and time from the log set. Delete logs that were not selected with.
例えば、前記ログ処理装置は、サービスIDごとの該サービスIDを含むログの集合におけるログの数の不均衡さを示す係数を求める係数計算部を備え、前記ログ削除部は、前記係数が予め定められた閾値より大きいなら、前記ログ蓄積部からログ数の異なる2つのログの集合を検索し、ログ数の少ない該ログの集合の最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に予め定めた係数を乗じた期間長を求め、ログ数の多い該ログの集合から最も新しい送信日時を検出し、該ログの集合の各送信日時について、該検出した送信日時から該求めた期間長だけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合から削除する。 For example, the log processing apparatus includes a coefficient calculation unit that obtains a coefficient indicating an imbalance in the number of logs in a set of logs including the service ID for each service ID, and the log deletion unit has the coefficient determined in advance. If it is greater than the threshold value, two log sets having different numbers of logs are searched from the log storage unit, and the period length from the most recent transmission date / time to the oldest transmission date / time of the log set having a small number of logs is determined. And obtaining a period length obtained by multiplying the period length by a predetermined coefficient, detecting the latest transmission date and time from the set of logs having a large number of logs, and detecting the detected transmission date and time for each transmission date and time of the log set. Whether or not it is included in the period up to the time point that has been traced back by the determined period length, and the log including the transmission date and time determined to be included in the period is selected and the log that has not been selected is collected in the log collection To remove from.
第2の本発明は、複数のサービスのそれぞれにおいて1以上のコンテンツで構成されるシリーズが1以上送信可能な場合における送信先のユーザに対しコンテンツを推奨するために蓄積されたログの処理を行うログ処理装置の動作方法であって、前記ログ処理装置は、いずれかのサービスのいずれかのシリーズのいずれかのコンテンツがいずれかのユーザのために送信されたことを示す当該送信の送信日時、該コンテンツのコンテンツID、該サービスのサービスID、該シリーズのシリーズIDおよび該ユーザのユーザIDを含むログが蓄積されるログ蓄積部を備え、前記動作方法は、前記ログ処理装置が、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除することを特徴とするログ処理装置の動作方法をもって解決手段とする。 The second aspect of the present invention performs processing of logs accumulated to recommend content to a destination user when one or more series composed of one or more contents can be transmitted in each of a plurality of services. A log processing apparatus operating method, wherein the log processing apparatus transmits a transmission date and time of transmission indicating that any content in any series of any service has been transmitted for any user, A log storage unit that stores a log including the content ID of the content, the service ID of the service, the series ID of the series, and the user ID of the user, and the operation method is determined in advance by the log processing device; The log accumulation unit is searched for a set of logs having a larger number of logs, and a user ID and a log are collected for each set of logs. For each group of IDs, a log set that is a set of logs including the user ID and series ID of the group is searched from the log storage unit, and a predetermined number of log sets are obtained from the log set for each log set. The log processing apparatus operating method is characterized in that logs are selected in order from the most recent transmission date and time, and logs that have not been selected are deleted.
例えば、前記ログ処理装置が、予めサービスIDごとの該サービスIDを含むログの集合におけるログの数の不均衡さを示す係数を求め、前記ログ処理装置が、前記係数が予め定めた閾値より大きい場合において、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する。 For example, the log processing device obtains a coefficient indicating an imbalance in the number of logs in a log set including the service ID for each service ID in advance, and the log processing device has the coefficient larger than a predetermined threshold. In this case, a set of logs having a number of logs larger than a predetermined number is searched from the log storage unit, and for each set of logs, for each set of user ID and series ID, the set of user ID and series A log set that is a set of logs including an ID is searched from the log storage unit, and for each log set, a predetermined number of logs are selected from the log set in order from the newest transmission date and time. Delete logs that did not exist.
例えば、前記ログ処理装置が、予めサービスIDごとの該サービスIDを含むログの集合におけるログの数の不均衡さを示す係数を求め、前記ログ処理装置が、前記係数が予め定められた閾値より大きい場合において、前記ログ蓄積部からログ数の異なる2つのログの集合を検索し、ログ数の少ない該ログの集合の最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に予め定めた係数を乗じた期間長を求め、ログ数の多い該ログの集合から最も新しい送信日時を検出し、該ログの集合の各送信日時について、該検出した送信日時から該求めた期間長だけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合から削除する。 For example, the log processing device obtains a coefficient indicating an imbalance in the number of logs in a set of logs including the service ID for each service ID, and the log processing device determines that the coefficient is greater than a predetermined threshold. In the case where the number of logs is large, two log sets having different numbers of logs are searched from the log storage unit, and the period length of the period from the most recent transmission date to the oldest transmission date of the log set having a small number of logs is obtained, The period length obtained by multiplying the period length by a predetermined coefficient is obtained, the latest transmission date / time is detected from the set of logs having a large number of logs, and the respective transmission date / time of the log set is obtained from the detected transmission date / time. Whether or not it is included in the period up to the point of time that is traced back by the length of the selected period, and the log including the transmission date and time determined to be included in the period is selected and the log that has not been selected is the set of logs We want to delete.
本発明によれば、コンテンツの推奨に用いるサービスごとのログの数の不均衡さを解消することができる。 According to the present invention, it is possible to eliminate an imbalance in the number of logs for each service used for content recommendation.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本実施の形態に係るログ処理装置を使用した通信システムの構成を示す図である。 FIG. 1 is a diagram showing a configuration of a communication system using the log processing apparatus according to the present embodiment.
図1において、レコメンドサーバ1は、コンテンツサーバ21、22、…と、ユーザ端末31、32、…とに対し、通信可能なように接続される。各ユーザ端末は、そのユーザ端末を使用する個々のユーザに使用される。本実施の形態に係るログ処理装置は、レコメンドサーバ1に構成される。
1, the
コンテンツサーバ21は、ユーザ端末からのリクエストに応じ、例えば、書籍のデータをそのユーザ端末に送信するサービスを行うものである。 In response to a request from a user terminal, the content server 21 performs, for example, a service for transmitting book data to the user terminal.
コンテンツサーバ22は、ユーザ端末からのリクエストに応じ、例えば、映像のデータをそのユーザ端末に送信するサービスを行うものである。 In response to a request from a user terminal, the content server 22 performs, for example, a service for transmitting video data to the user terminal.
ここでは、1冊の書籍のデータ、1つの映像のデータをいずれもコンテンツという。 Here, the data of one book and the data of one video are both referred to as contents.
本実施の形態では、例えば、長編小説の1巻目、2巻目、…というように、2以上のコンテンツにより構成されるものをシリーズという。また、例えば、ある映画の映像のデータとその続編のデータのような構成もシリーズという。なお、ここでは、単独のコンテンツも1つのシリーズとする。 In the present embodiment, for example, a series composed of two or more contents such as the first volume, the second volume,. Also, for example, a configuration such as video data of a movie and data of its sequel is also called a series. Here, the single content is also one series.
レコメンドサーバ1は、コンテンツサーバから取得したデータを基に、各ユーザに好まれると思われるコンテンツを求め、これを対応するユーザ端末に通知する、つまり、コンテンツを推奨するものである。
The
各コンテンツサーバは、送信可能なコンテンツを蓄積したコンテンツデータベース101と、コンテンツを送信した履歴を示す履歴情報を蓄積した履歴情報データベース102と、コンテンツとシリーズの関係を示すメタ情報を蓄積したメタ情報データベース103とを備える。
Each content server includes a
図2は、履歴情報データベース102の内容の一例を示す図である。
FIG. 2 is a diagram illustrating an example of the contents of the
履歴情報データベース102は、履歴情報を蓄積し、各履歴情報は、該当のコンテンツが送信された送信日時、該コンテンツを示す識別情報(以下、コンテンツIDという)、送信先のユーザ端末を使用するユーザを示す識別情報(以下、ユーザIDという)を有する。
The
図3は、メタ情報データベース103の内容の一例を示す図である。
FIG. 3 is a diagram illustrating an example of the contents of the
メタ情報データベース103は、各コンテンツについてのメタ情報を蓄積し、各メタ情報は、該当のコンテンツのコンテンツID、当該コンテンツを含むシリーズを示す識別情報(以下、シリーズIDという)を有する。
The
図4は、レコメンドサーバ1の概略構成を示すブロック図である。
FIG. 4 is a block diagram illustrating a schematic configuration of the
レコメンドサーバ1は、各コンテンツサーバから取得する履歴情報とメタ情報を基に構成されるログ蓄積部11と、ログ蓄積部11におけるログの数の不均衡さを示すジニ係数GCを求めるジニ係数計算部12と、ログ蓄積部11からログを削除するログ削除部13と、ユーザに好まれると思われるコンテンツをユーザ端末に通知するコンテンツ推奨部14とを備える。
The
図5は、レコメンドサーバ1における処理の流れを示すフローチャートである。
FIG. 5 is a flowchart showing the flow of processing in the
レコメンドサーバ1は、各コンテンツサーバから履歴情報とメタ情報を取得し、ログ蓄積部11を構成する(S1)。
The
図6は、ログ蓄積部11の内容の一例を示す図である。
FIG. 6 is a diagram illustrating an example of the contents of the
ログ蓄積部11は、取得した履歴情報に対応するログを蓄積し、各ログは、該当の履歴情報に含まれていた送信日時、当該履歴情報に含まれていたコンテンツID、取得元のコンテンツサーバに対応するサービスを示す識別情報(以下、サービスIDという)、当該コンテンツIDを含むメタ情報に含まれていたシリーズID、、当該履歴情報に含まれていたユーザIDを有する。
The
図5に戻り、ジニ係数計算部12は、ログ蓄積部11を基にジニ係数GCを計算する(S3)。
Returning to FIG. 5, the Gini
ここでは、ジニ係数計算部12は、まず、式(1)により平均差MDFを計算する。
ここで、nは、サービスの数(コンテンツサーバの数)、xiは、サービスiのサービスIDを含むログの数、xjは、サービスjのサービスIDを含むログの数である。 Here, n is the number of services (the number of content servers), xi is the number of logs including the service ID of service i, and xj is the number of logs including the service ID of service j.
次に、ジニ係数計算部12は、式(2)により平均値μを計算する。
ここで、nは、サービスの数(コンテンツサーバの数)、x1、x2、…は、それぞれ、第1のサービス(例えば、コンテンツサーバ21に対応するサービス)のサービスIDを含むログの数、第2のサービス(例えば、コンテンツサーバ22に対応するサービス)のサービスIDを含むログの数、…、第nのサービスのサービスIDを含むログの数である。 Here, n is the number of services (the number of content servers), x1, x2,... Are the number of logs including the service ID of the first service (for example, the service corresponding to the content server 21), The number of logs including the service ID of the second service (for example, the service corresponding to the content server 22), ..., the number of logs including the service ID of the nth service.
次に、ジニ係数計算部12は、式(3)によりジニ係数GCを計算する。
Next, the Gini
GC=MDF/(2×μ) (3)
ジニ係数GCは、サービスIDごとの該サービスIDを含むログの集合(以下、ログの集合という)におけるログの数の不均衡さを示すものである。ジニ係数GCは、0〜1の範囲に含まれる。ジニ係数GCが1に近いほど不均衡の程度は大きく、ジニ係数GCが0に近いほど不均衡の程度は小さい。不均衡がないとき、つまり、各ログの数が互いに等しいとき、ジニ係数GCは0になる。
GC = MDF / (2 × μ) (3)
The Gini coefficient GC indicates an imbalance in the number of logs in a set of logs (hereinafter referred to as a set of logs) including the service ID for each service ID. The Gini coefficient GC is included in the range of 0-1. The closer the Gini coefficient GC is to 1, the greater the degree of imbalance, and the closer the Gini coefficient GC to 0, the smaller the degree of imbalance. When there is no imbalance, that is, when the number of logs is equal to each other, the Gini coefficient GC becomes zero.
次に、ログ削除部13は、ジニ係数GCが予め定められた値(以下、閾値GCTという)より大きいか否かを判定する(S5)。
Next, the
ログ削除部13は、ジニ係数GCが閾値GCTより大きいなら(S5:YES)、予め定められた数(以下、閾値LTという)より多い数のログを有するログの集合をログ蓄積部11から検索し(S7)、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、ステップS9、S11の処理を行う。
If the Gini coefficient GC is greater than the threshold value GCT (S5: YES), the
ステップS9では、ログ削除部13は、該組のユーザIDおよびシリーズIDを含むログの集合(以下、ログ集合という)をログ蓄積部11から検索する(S9)。
In step S9, the
続くステップS11では、ログ削除部13は、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する(S11)。
In subsequent step S11, the
図7に示すように、ステップS11では、ログ削除部13は、5つのログからなるログ集合から予め定めた数である3に等しい3つのログを送信日時の最も新しいものから順に選択するとともに選択されなかった2つのログを削除する。
As shown in FIG. 7, in step S11, the
図5に戻り、次に、ジニ係数計算部12は、ステップS3と同様に、ジニ係数GCを計算し(S13)、ログ削除部13は、ステップS5と同様に、ジニ係数GCが閾値GCTより大きいか否かを判定する(S15)。
Returning to FIG. 5, next, the Gini
ログ削除部13は、ジニ係数GCが閾値GCTより大きいなら(S15:YES)、閾値LT以下の最も少ない数のログを有するログの集合(以下、ログの集合LLという)をログ蓄積部11から1つ検索し(S17)、ログの集合LLの最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に対し、0〜1の範囲に属する予め定めた係数(例えば、0.5)を乗じた期間長(以下、期間長Tという)を求める(S19)。ログの集合LLの最も新しい送信日時から最も古い送信日時までの期間の期間長が30日で、係数が0.5なら、期間長Tは15日となる。
If the Gini coefficient GC is greater than the threshold GCT (S15: YES), the
次に、ログ削除部13は、閾値LTより多い数のログを有するログの集合(以下、ログの集合LMという)をログ蓄積部11から検索し(S21)、各ログの集合LMについて、ステップS23の処理を行う。
Next, the
ステップS23では、ログの集合LMから最も新しい送信日時(以下、送信日時Pという)を検出し、該ログの集合LMの各送信日時について、送信日時Pから期間長Tだけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合LMから削除する(S23)。 In step S23, the most recent transmission date and time (hereinafter referred to as transmission date and time P) is detected from the log set LM, and each transmission date and time of the log set LM is a period from the transmission date and time P to the time point that is back by the period length T. The log including the transmission date / time determined to be included in the period is selected and the log not selected is deleted from the log set LM (S23).
次に、ジニ係数計算部12は、ステップS3、S13と同様に、ジニ係数GCを計算し(S25)、ログ削除部13は、ステップS5、S15と同様に、ジニ係数GCが閾値GCTより大きいか否かを判定する(S27)。
Next, the Gini
ログ削除部13は、ジニ係数GCが閾値GCTより大きいなら(S27:YES)、ステップ25の過程で計算した平均値μに予め定められた倍数を乗じた値(以下、閾値LT2という)を求め(S29)、閾値LT2より多い数のログを有するログの集合をログ蓄積部11から検索し(S31)、閾値LT2より多い数のログを有するログの集合があれば(S32:YES)、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、ステップS9、S11の処理を行う。ステップS11の後は、ステップS13に進む。
If the Gini coefficient GC is greater than the threshold value GCT (S27: YES), the
さて、ステップS5、S15、または、S27で、ジニ係数GCが閾値GCT以下(NO)であると判定されたなら、または、閾値LT2より多い数のログを有するログの集合がなければ(S32:NO)、コンテンツ推奨部14は、ユーザ毎に、ログ蓄積部11を用いて、該ユーザに好まれると思われるコンテンツのコンテンツIDを予め定められた最大数以下の範囲で求め、該コンテンツIDを含む情報を該ユーザに対応するユーザ端末に送信する(S33)ことで、該ユーザに該コンテンツを推奨し、一連の処理を終了する。
If it is determined in step S5, S15, or S27 that the Gini coefficient GC is equal to or less than the threshold value GCT (NO), or if there is no log set having more logs than the threshold value LT2 (S32: NO), for each user, the
コンテンツ推奨部14は、該ユーザに好まれると思われるコンテンツにより構成されるシリーズのシリーズIDを求め、該シリーズIDを含む情報をユーザ端末に送信する(S33)ことで、該ユーザに該シリーズを構成するコンテンツを推奨してもよい。
The
なお、ユーザに好まれると思われるコンテンツを求めるには、非特許文献1を技術を使用することができる。ここでは、コンテンツ間、シリーズ間、サービス間での関連性が求められ、このような関連性を基に、コンテンツが決定される。
It should be noted that the technology of
仮に、ログ削除部13による削除前のログ蓄積部11(当初のログ蓄積部11)に対して、当該技術を使用した場合、あるサービスのサービスIDを含むログの数が当初のログ蓄積部11において他のサービスIDを含むログの数に比べて極端に少ないときは、そのサービスのコンテンツは、ユーザに好まれると思われるコンテンツとしては認識されず、よって、推奨もされない。
If the technology is used for the log storage unit 11 (initial log storage unit 11) before deletion by the
しかし、ログ削除部13による削除後のログ蓄積部11において、そのサービスのサービスIDを含むログの数は相対的に多くなり、よって、そのサービスのコンテンツを、ユーザに好まれると思われるコンテンツとして推奨することができる。
However, in the
したがって、本実施の形態によれば、レコメンドサーバ1において、送信日時、コンテンツID、サービスID、シリーズIDおよびユーザIDを含むログが蓄積されるログ蓄積部11と、サービスIDごとの該サービスIDを含むログの集合におけるログの数の不均衡さを示すジニ係数GCを求めるジニ係数計算部12と、ジニ係数GCが予め定めた閾値GCTより大きいなら(S5:YES)、予め定められた数(閾値LT)より多い数のログを有するログの集合をログ蓄積部11から検索し(S7)、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合をログ蓄積部11から検索し(S9)、該ログ集合ごとに、該ログ集合から予め定めた数(図7の例では「3」)のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する(S11)ログ削除部13を備えるログ処理装置が構成されるので、サービスごとのログの数の不均衡さを解消することができる。
Therefore, according to the present embodiment, in the
また、ログ削除部13は、ジニ係数GCが閾値GCTより大きいなら(S15:YES)、ログ蓄積部11からログ数の異なる2つのログの集合(ログの集合LL、LM)を検索し(S17、S21)、ログ数の少ない該ログの集合LLの最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に予め定めた係数を乗じた期間長(期間長T)を求め(S19)、ログ数の多い該ログの集合LMから最も新しい送信日時(送信日時P)を検出し、該ログの集合の各送信日時について、該検出した送信日時Pから該求めた期間長Tだけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合から削除する(S23)ので、サービスごとのログの数の不均衡さを解消することができる。
If the Gini coefficient GC is larger than the threshold GCT (S15: YES), the
なお、本実施の形態では、ジニ係数GCを用いたが、サービスごとのログの数の不均衡さを示す係数なら、他のものを用いてもよい。また、不均衡さを示す係数による条件判定を行わず、多数のログを有するログの集合に対して、ログ削除の処理を行うように構成しても良い。 In this embodiment, the Gini coefficient GC is used, but any other coefficient may be used as long as it is a coefficient indicating the imbalance of the number of logs for each service. Further, it may be configured such that log deletion processing is performed on a set of logs having a large number of logs without performing condition determination using a coefficient indicating imbalance.
また、あらかじめ定めたサービス種別に対応するログ集合に対してのみS9、S11を行うように構成しても良い。 Further, S9 and S11 may be performed only for a log set corresponding to a predetermined service type.
なお、本実施の形態に係るログ処理装置としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。 The computer program for causing the computer to function as the log processing apparatus according to the present embodiment can be recorded on a computer-readable recording medium such as a semiconductor memory, a magnetic disk, an optical disk, a magneto-optical disk, or a magnetic tape. It can be widely distributed by being transmitted via a communication network such as the Internet.
1…レコメンドサーバ
11…ログ蓄積部
12…ジニ係数計算部
13…ログ削除部
14…コンテンツ推奨部
21、22…コンテンツサーバ
31、32…ユーザ端末
101…コンテンツデータベース
102…履歴情報データベース
103…メタ情報データベース
DESCRIPTION OF
Claims (7)
いずれかのサービスのいずれかのシリーズのいずれかのコンテンツがいずれかのユーザのために送信されたことを示す当該送信の送信日時、該コンテンツのコンテンツID、該サービスのサービスID、該シリーズのシリーズIDおよび該ユーザのユーザIDを含むログが蓄積されるログ蓄積部と、
予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除するログ削除部と
を備えることを特徴とするログ処理装置。 A log processing device that processes logs accumulated to recommend content to a destination user when one or more series composed of one or more contents can be transmitted in each of a plurality of services,
The transmission date and time of the transmission indicating that any content of any series of any service has been transmitted for any user, the content ID of the content, the service ID of the service, the series of the series A log storage unit for storing a log including an ID and the user ID of the user;
A set of logs having a number of logs larger than a predetermined number is searched from the log storage unit, and for each set of logs, for each set of user ID and series ID, the user ID and series ID of the set are set. A log set that is a set of logs to be included is searched from the log storage unit, and for each log set, a predetermined number of logs from the log set are selected in order from the newest transmission date and time, and logs that are not selected And a log deleting unit that deletes the log.
前記ログ削除部は、前記係数が予め定めた閾値より大きいなら、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する
ことを特徴とする請求項1記載のログ処理装置。 A coefficient calculation unit for obtaining a coefficient indicating an imbalance in the number of logs in a set of logs including the service ID for each service ID;
If the coefficient is greater than a predetermined threshold, the log deletion unit searches the log storage unit for a set of logs having a larger number of logs than a predetermined number, and for each log set, a user ID and For each set of series IDs, a log set, which is a set of logs including the user ID and series ID of the set, is searched from the log storage unit, and a predetermined number of logs from the log set for each log set The log processing apparatus according to claim 1, wherein the logs are selected in order from the most recent transmission date and time, and logs that have not been selected are deleted.
前記ログ削除部は、前記係数が予め定められた閾値より大きいなら、前記ログ蓄積部からログ数の異なる2つのログの集合を検索し、ログ数の少ない該ログの集合の最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に予め定めた係数を乗じた期間長を求め、ログ数の多い該ログの集合から最も新しい送信日時を検出し、該ログの集合の各送信日時について、該検出した送信日時から該求めた期間長だけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合から削除する
ことを特徴とする請求項1記載のログ処理装置。 A coefficient calculation unit for obtaining a coefficient indicating an imbalance in the number of logs in a set of logs including the service ID for each service ID;
If the coefficient is greater than a predetermined threshold, the log deletion unit searches the log storage unit for a set of two logs having different numbers of logs, and starts from the most recent transmission date and time of the set of logs with a small number of logs. The period length of the period up to the oldest transmission date and time is obtained, the period length obtained by multiplying the period length by a predetermined coefficient is obtained, the latest transmission date and time is detected from the set of logs having a large number of logs, and the set of logs For each transmission date and time, it is determined whether or not it is included in a period from the detected transmission date and time to the time point that is back by the determined period length, and a log including the transmission date and time determined to be included in the period is selected. The log processing apparatus according to claim 1, wherein a log that has not been selected is deleted from the set of logs.
前記ログ処理装置は、
いずれかのサービスのいずれかのシリーズのいずれかのコンテンツがいずれかのユーザのために送信されたことを示す当該送信の送信日時、該コンテンツのコンテンツID、該サービスのサービスID、該シリーズのシリーズIDおよび該ユーザのユーザIDを含むログが蓄積されるログ蓄積部を備え、
前記動作方法は、
前記ログ処理装置が、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する
ことを特徴とするログ処理装置の動作方法。 An operation method of a log processing apparatus that processes accumulated logs in order to recommend content to a destination user when one or more series composed of one or more contents can be transmitted in each of a plurality of services. There,
The log processing device includes:
The transmission date and time of the transmission indicating that any content of any series of any service has been transmitted for any user, the content ID of the content, the service ID of the service, the series of the series A log storage unit for storing a log including an ID and the user ID of the user;
The operation method is as follows:
The log processing device searches the log storage unit for a set of logs having a larger number of logs than a predetermined number, and for each set of logs, for each set of user ID and series ID, the set of users A log set that is a set of logs including an ID and a series ID is searched from the log storage unit, and for each log set, a predetermined number of logs are selected in order from the newest transmission date and time from the log set. And an operation method of the log processing apparatus, wherein the log that has not been selected is deleted.
前記ログ処理装置が、前記係数が予め定めた閾値より大きい場合において、予め定められた数より多い数のログを有するログの集合を前記ログ蓄積部から検索し、各ログの集合について、ユーザIDおよびシリーズIDの組ごとに、該組のユーザIDおよびシリーズIDとを含むログの集合であるログ集合を前記ログ蓄積部から検索し、該ログ集合ごとに、該ログ集合から予め定めた数のログを送信日時の最も新しいものから順に選択するとともに選択されなかったログを削除する
ことを特徴とする請求項4記載のログ処理装置の動作方法。 The log processing device obtains a coefficient indicating an imbalance of the number of logs in a set of logs including the service ID for each service ID in advance,
In the case where the log processing device has a coefficient larger than a predetermined threshold, the log processing device searches the log storage unit for a set of logs having a larger number of logs than a predetermined number. And for each set of series IDs, a log set that is a set of logs including the user ID and series ID of the set is searched from the log storage unit, and for each log set, a predetermined number of log sets are obtained from the log set. 5. The operation method of the log processing apparatus according to claim 4, wherein logs are selected in order from the most recent transmission date and time, and logs not selected are deleted.
前記ログ処理装置が、前記係数が予め定められた閾値より大きい場合において、前記ログ蓄積部からログ数の異なる2つのログの集合を検索し、ログ数の少ない該ログの集合の最も新しい送信日時から最も古い送信日時までの期間の期間長を求め、該期間長に予め定めた係数を乗じた期間長を求め、ログ数の多い該ログの集合から最も新しい送信日時を検出し、該ログの集合の各送信日時について、該検出した送信日時から該求めた期間長だけ遡った時点までの期間に含まれるか否か判定し、該期間に含まれると判定された送信日時を含むログを選択するとともに選択されなかったログを該ログの集合から削除する
ことを特徴とする請求項4記載のログ処理装置の動作方法。 The log processing device obtains a coefficient indicating an imbalance of the number of logs in a set of logs including the service ID for each service ID in advance,
When the log processing device searches for a set of two logs having different numbers of logs from the log storage unit when the coefficient is larger than a predetermined threshold, the most recent transmission date / time of the set of logs having a small number of logs To obtain the period length of the period from the oldest transmission date to the oldest transmission date, determine the period length obtained by multiplying the period length by a predetermined coefficient, detect the latest transmission date and time from the set of logs having a large number of logs, For each transmission date and time of the set, it is determined whether or not it is included in a period from the detected transmission date and time to the time point that is back by the determined period length, and a log including the transmission date and time determined to be included in the period is selected The log processing apparatus operating method according to claim 4, further comprising: deleting a log that has not been selected from the set of logs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011124039A JP5216895B2 (en) | 2011-06-02 | 2011-06-02 | Log processing apparatus and operation method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011124039A JP5216895B2 (en) | 2011-06-02 | 2011-06-02 | Log processing apparatus and operation method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012252480A JP2012252480A (en) | 2012-12-20 |
JP5216895B2 true JP5216895B2 (en) | 2013-06-19 |
Family
ID=47525249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011124039A Active JP5216895B2 (en) | 2011-06-02 | 2011-06-02 | Log processing apparatus and operation method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5216895B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2860940B1 (en) * | 2013-09-27 | 2016-09-14 | Alcatel Lucent | Method for caching |
CN110399347B (en) * | 2018-04-23 | 2021-05-18 | 华为技术有限公司 | Alarm log compression method, device and system and storage medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326227A (en) * | 2003-04-22 | 2004-11-18 | Matsushita Electric Ind Co Ltd | Information providing method, information providing system, its program, and program storage medium |
US10339538B2 (en) * | 2004-02-26 | 2019-07-02 | Oath Inc. | Method and system for generating recommendations |
JP2006053616A (en) * | 2004-08-09 | 2006-02-23 | Kddi Corp | Server device, web site recommendation method and program |
JP2006302097A (en) * | 2005-04-22 | 2006-11-02 | Matsushita Electric Ind Co Ltd | Cooperative filter device |
JP5371676B2 (en) * | 2009-10-09 | 2013-12-18 | 株式会社エヌ・ティ・ティ・データ | RECOMMENDED CONTENT EXTRACTION DEVICE, RECOMMENDED CONTENT EXTRACTION METHOD, AND RECOMMENDED CONTENT EXTRACTION PROGRAM |
-
2011
- 2011-06-02 JP JP2011124039A patent/JP5216895B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012252480A (en) | 2012-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101792587B1 (en) | Method and apparatus of predicting preference rating for contents, and method and apparatus for selecting sample contents | |
US9875441B2 (en) | Question recommending method, apparatus and system | |
CN107679211B (en) | Method and device for pushing information | |
CN105701216B (en) | A kind of information-pushing method and device | |
TWI636416B (en) | Method and system for multi-phase ranking for content personalization | |
US10152479B1 (en) | Selecting representative media items based on match information | |
US9098551B1 (en) | Method and system for ranking content by click count and other web popularity signals | |
RU2731654C1 (en) | Method and system for generating push-notifications associated with digital news | |
US8463785B2 (en) | Method and system for generating search collection of query | |
CN104469508A (en) | Method, server and system for performing video positioning based on bullet screen information content | |
EP2407897A1 (en) | Device for determining internet activity | |
KR101764696B1 (en) | Method and System for determination of social network hot topic in consideration of user’s influence and time | |
WO2013095902A2 (en) | A hierarchical behavioral profile | |
US20150161517A1 (en) | Device and method for predicting popularity of social data | |
KR101073358B1 (en) | Apparatus and Method for Information Search on the basis of Tag and Method for Tag Management | |
WO2013095901A1 (en) | A hierarchical behavioral profile | |
CN105183873A (en) | Malicious clicking behavior detection method and device | |
CN109753601A (en) | Recommendation information clicking rate determines method, apparatus and electronic equipment | |
CN110209921B (en) | Method and device for pushing media resource, storage medium and electronic device | |
KR101169170B1 (en) | Method for recommending content based on user preference with time flow | |
KR20200049193A (en) | Method for providing contents and service device supporting the same | |
CN111241381A (en) | Information recommendation method and device, electronic equipment and computer-readable storage medium | |
JP5216895B2 (en) | Log processing apparatus and operation method thereof | |
CN113220974A (en) | Click rate prediction model training and search recall method, device, equipment and medium | |
JP5753056B2 (en) | Search device, document management method, and document search system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5216895 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |