JP5416063B2 - Content recommendation device, content recommendation program and recording medium thereof - Google Patents
Content recommendation device, content recommendation program and recording medium thereof Download PDFInfo
- Publication number
- JP5416063B2 JP5416063B2 JP2010204092A JP2010204092A JP5416063B2 JP 5416063 B2 JP5416063 B2 JP 5416063B2 JP 2010204092 A JP2010204092 A JP 2010204092A JP 2010204092 A JP2010204092 A JP 2010204092A JP 5416063 B2 JP5416063 B2 JP 5416063B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- keyword
- user
- information
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は,文書や,画像,音楽,映像などのコンテンツにアクセスしたユーザに対して,そのコンテンツに関連する別のコンテンツを推薦する技術に関する。 The present invention relates to a technique for recommending another content related to a content, such as a document, an image, music, or video, to a user.
インターネットなどの普及により,ユーザが閲覧可能なコンテンツの総量は増加している。しかし,ユーザが一定時間に閲覧することのできるコンテンツは限られており,大量のコンテンツの中からユーザが興味のあるコンテンツを発見するのがかなり困難な状況になってきている。この問題を解決するためのアプローチの1つとして,推薦が挙げられる。推薦とは,ユーザがあるコンテンツに対して閲覧や評価をした際に,関連する別のコンテンツを提示することにより,ユーザのコンテンツ発見を容易にし,より多くのコンテンツを閲覧してもらうための手法である。 With the spread of the Internet and the like, the total amount of content that can be viewed by users is increasing. However, the content that the user can browse in a certain time is limited, and it has become quite difficult to find the content that the user is interested in from a large amount of content. One approach to solving this problem is recommendation. Recommendation is a method for facilitating user discovery of content by allowing users to browse more content by presenting other related content when browsing or evaluating a certain content. It is.
コンテンツの推薦を行う方法を大別すると,協調フィルタリングと内容ベースフィルタリングの2つに分けられる。 The methods for recommending content can be roughly divided into two types, collaborative filtering and content-based filtering.
協調フィルタリングは,コンテンツに対するユーザの閲覧履歴や評価履歴を利用することにより,ユーザもしくはコンテンツ同士が似ているかどうかを分析し,推薦を行う手法である。協調フィルタリングは,多くのユーザの履歴が得られる場合には精度の高い推薦を行うことができるが,履歴の量が少ない場合には精度が低下してしまうという短所がある。 Collaborative filtering is a technique for analyzing whether a user or content is similar by using a user's browsing history or evaluation history for the content and making a recommendation. Collaborative filtering can provide highly accurate recommendations when a large number of user histories are available, but has the disadvantage that the accuracy decreases when the amount of histories is small.
一方,内容ベースフィルタリングは,コンテンツの内容を比較することにより,類似するコンテンツを推薦する手法である。内容ベースフィルタリングは,多くのユーザの履歴がなくても推薦できるため,視聴数の少ないコンテンツも推薦の対象にすることができるという利点がある。 On the other hand, content-based filtering is a method for recommending similar contents by comparing the contents. Since content-based filtering can be recommended without the history of many users, there is an advantage that content with a small number of viewers can be targeted for recommendation.
内容ベースフィルタリングに関する研究としては,ユーザが高く評価したコンテンツに付与されている属性の出現頻度を計測し,出現頻度の高い属性が付与されているコンテンツを推薦する手法(特許文献1参照)がある。 As research on content-based filtering, there is a method of measuring the frequency of appearance of attributes assigned to content highly evaluated by users and recommending content with attributes with high appearance frequency (see Patent Document 1). .
しかしながら,特許文献1に挙げられている技術では,複数のユーザの履歴を利用する代わりに,推薦対象のユーザの操作履歴を利用するため,高い精度で推薦を行うためには推薦対象のユーザが多くのコンテンツを閲覧している必要がある。そのため,閲覧数の少ないユーザには適切な推薦ができないという問題点がある。
However, in the technique described in
本発明は,このような課題の解決を図り,多数の閲覧履歴情報がないような場合でも,あるコンテンツを閲覧したユーザに対し,そのコンテンツに関連する別の適切なコンテンツの推薦を行うことができるようにすることを目的とする。 The present invention solves such a problem, and even when there is no large number of browsing history information, it is possible to recommend another appropriate content related to the content to the user who has browsed the content. The purpose is to be able to.
本発明は,上記課題を解決するためのものであり,コンテンツに付与された各キーワードに対する重み付けを,コンテンツ集合とそれらに付与されたキーワードの関係を分析することによって算出し,コンテンツ間でキーワードの重み付けを比較することにより,各コンテンツにおいて高い重みを持つキーワードが似ているコンテンツを推薦する。 The present invention is to solve the above-mentioned problem, and calculates the weight for each keyword assigned to the content by analyzing the relationship between the content set and the keyword assigned to them, and By comparing the weights, content with similar keywords with high weights in each content is recommended.
すなわち,本発明は,コンテンツに付与された各キーワードを分析することにより,あるコンテンツに対し,関連する別のコンテンツを発見し,推薦する。キーワードの分析では,コンテンツにおいてキーワードが付与される傾向を分析することにより重み付けを行う。そして,重み付けされたキーワードに基づき,推薦候補となるコンテンツ集合中の各コンテンツに対し,スコア付けを行う。より高く重み付けされたキーワードがより多く付与されているほど,コンテンツの関連スコアは高くなる。コンテンツ推薦装置は,スコア付けにおいて,高いスコアとなったコンテンツを推薦する。 That is, the present invention discovers and recommends another related content for a certain content by analyzing each keyword assigned to the content. In keyword analysis, weighting is performed by analyzing the tendency of keywords to be assigned to content. Then, based on the weighted keyword, scoring is performed for each content in the content set that is a candidate for recommendation. The more highly weighted keywords are given, the higher the related score of the content. The content recommendation device recommends content having a high score in scoring.
コンテンツに付与されているキーワードの重み付けは,次のように行う。キーワード間の共起関係から関係の強さを求めることができる。キーワード間の関係の強さからコンテンツに付与された各キーワードの重みを求める。あるいは,キーワード共起出現の偏りからキーワード自体の重みを決める。コンテンツaとコンテンツbの両者に共通のキーワードの重みの総和を,2つのコンテンツ間の関連スコアとする。こうして,関連スコアの高いコンテンツを選出し,ユーザに推薦する。 The keywords assigned to the content are weighted as follows. The strength of the relationship can be obtained from the co-occurrence relationship between keywords. The weight of each keyword assigned to the content is obtained from the strength of the relationship between the keywords. Alternatively, the weight of the keyword itself is determined from the bias of the keyword co-occurrence appearance. The sum of the weights of keywords common to both content a and content b is used as a related score between the two contents. In this way, content with a high related score is selected and recommended to the user.
関連スコアが閾値以上となるコンテンツ集合のクラスタリングを行い,クラスタリングした結果をユーザに提示するようにしてもよい。 Clustering of a content set having a related score equal to or higher than a threshold value may be performed, and the clustered result may be presented to the user.
また,ユーザのコンテンツ閲覧情報を記憶するユーザ閲覧情報蓄積手段を設け,キーワードの重み付けでは,ユーザ閲覧情報蓄積手段を参照し,ユーザが閲覧した複数のコンテンツの入力を受け付けることにより,複数のコンテンツに付与されたキーワードの情報をもとにキーワードの重みを算出するようにしてもよい。 In addition, user browsing information storage means for storing the user's content browsing information is provided, and in the weighting of keywords, the user browsing information storage means is referred to, and by receiving input of a plurality of contents browsed by the user, a plurality of contents can be stored. The keyword weight may be calculated based on the assigned keyword information.
さらに,ユーザからの入力によって,ユーザが興味のあるキーワードもしくは興味のないキーワードを選択し,選択したキーワードの重みを変更するキーワード重み変更手段を設け,キーワードの重みを変更可能とすることもできる。 Further, it is possible to select a keyword that the user is interested in or not interested by input from the user, and to provide keyword weight changing means for changing the weight of the selected keyword so that the keyword weight can be changed.
本発明により,コンテンツ集合とそれらに付与されたキーワード集合の関係についての情報のみを利用して,コンテンツ間の関連性を算出することができるため,あるコンテンツを閲覧したユーザに対し,コンテンツにおける重要なキーワードに関連する別のコンテンツの推薦を行うことができる。 According to the present invention, it is possible to calculate the relevance between contents by using only the information about the relation between the content set and the keyword set assigned to them. It is possible to recommend another content related to a keyword.
また,本発明は,コンテンツに付与された各キーワードについて,コンテンツとキーワードの関連性の強さを算出し,キーワードの重みとして利用することにより,コンテンツと強く関連しているキーワードが似ているコンテンツを推薦することができる。 In addition, the present invention calculates the strength of relevance between content and keyword for each keyword assigned to the content, and uses it as the weight of the keyword, so that the content strongly related to the content is similar. Can be recommended.
また,本発明は,キーワードごとに話題を絞り込むことができるキーワードであるかを表す具体性を算出し,キーワードの重みとして利用することにより,コンテンツを推薦するために必要な計算量を減らすことができる。 In addition, the present invention can reduce the amount of calculation required for recommending content by calculating the concreteness indicating whether a keyword can narrow down the topic for each keyword and using it as a keyword weight. it can.
また,本発明は,関連スコアが高いいくつかのコンテンツをクラスタリングし,集約してユーザに提示することにより,幅広い内容のコンテンツを推薦することができる。 In addition, according to the present invention, it is possible to recommend a wide variety of contents by clustering several contents with high related scores, collecting them, and presenting them to the user.
また,本発明は,複数のコンテンツの情報を利用して,コンテンツの推薦を行うことにより,多くのコンテンツを閲覧したユーザに対しては,より個人の嗜好を反映したコンテンツを推薦することができる。 Further, according to the present invention, by recommending content using information of a plurality of contents, it is possible to recommend content reflecting personal preference to a user who has browsed many contents. .
また,本発明は,キーワードの重みをユーザが自由に変更可能にすることにより,推薦されたコンテンツがユーザの満足するものでなかった場合に,他のコンテンツを推薦することが可能になる。 Further, according to the present invention, by allowing the user to freely change the weight of the keyword, it is possible to recommend other content when the recommended content is not satisfied by the user.
以下,本発明の実施形態について,図面を用いて説明する。図1は,本発明の実施形態に係るコンテンツ推薦装置を模式的に示す構成図である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram schematically showing a content recommendation device according to an embodiment of the present invention.
コンテンツ推薦装置10は,キーワード蓄積装置100,コンテンツ情報入力部11,キーワード重み付け部12,コンテンツ関連スコア算出部13,推薦コンテンツ決定部14,コンテンツ情報出力部15から構成される。キーワード蓄積装置100には,コンテンツ情報管理テーブル101,キーワード情報管理テーブル102,キーワード・コンテンツ関係管理テーブル103が格納されている。
The
入出力装置20は,コンテンツを閲覧するユーザが利用するディスプレイやキーボードその他の周辺装置であるが,ネットワークを介して接続される端末のようなものであってもよい。また,コンテンツ推薦を利用するシステムでもよい。以下では,コンテンツ推薦装置10を利用する人間またはシステムを“ユーザ”という。
The input /
コンテンツ推薦装置10は,例えば,CPU(Central Processing Unit ),および,ROM(Read Only Memory),RAM(Random Access Memory),HDD(Hard Disk Drive )などの記憶手段,および,記憶手段に展開されたプログラムを含む。図1に示した構成要素の動作を記述したプログラムは,コンテンツ推薦装置10として利用されるコンピュータ上で実行させる,または,ネットワークなどを介してサービスとして実行させることが可能である。キーワード蓄積装置100は,API(Application Program Interface )などを通じてコンテンツやキーワードを取得するプログラムであってもよい。
The
図2は,コンテンツ推薦装置10によるコンテンツ推薦処理の概要を示すフローチャートである。
FIG. 2 is a flowchart showing an outline of content recommendation processing by the
コンテンツ推薦装置10は,コンテンツに付与されたキーワードの情報に基づいて推薦するコンテンツを次のように決定する。まず,ステップS1では,コンテンツ情報入力部11によって,ユーザがアクセスしたコンテンツの情報を取得し,キーワード重み付け部12によって,そのコンテンツに付与されたキーワード集合をキーワード蓄積装置100から取得する。次に,ステップS2では,キーワード重み付け部12によって,各コンテンツとキーワードの関係からコンテンツに付与されたキーワードの重みを算出する。続いて,ステップS3では,コンテンツ関連スコア算出部13によって,コンテンツのキーワードの重みに基づいてコンテンツ間の関連スコアを算出する。その後,ステップS4では,推薦コンテンツ決定部14によって,関連スコアに基づいて推薦するコンテンツを決定し,コンテンツ情報出力部15によって,推薦するコンテンツ集合30を出力する。
The
以上のように,本実施形態では,コンテンツ推薦装置10は,ユーザがコンテンツを閲覧した際,コンテンツに付与されたキーワード集合を取得し(S1),キーワード蓄積装置内に格納されたコンテンツとキーワードの関係を分析することにより,キーワードに対する重み付けを行う(S2)。次に,キーワードの重み付けに基づき,キーワード蓄積装置100に格納された各コンテンツに対するスコア付けを行う(S3)。最後に,より高いスコアのコンテンツから1つもしくは複数を選択し,ユーザに提示する(S4)。
As described above, in this embodiment, the
一度算出したキーワードの重みの値は,キーワード蓄積装置100に格納しておくことにより,次回以降は同じキーワードの重みの算出を省略することができる。また,各キーワードの重みを,必要なときにその都度算出するのではなく,事前にすべてのコンテンツのキーワードについて重みを算出しておき,キーワード蓄積装置100に格納しておくようにしてもよい。
The keyword weight value calculated once is stored in the
キーワード蓄積装置100には,コンテンツ集合およびそれらに付与されたキーワードについてのデータが,例えば図3または図4に示すような,コンテンツ情報管理テーブル101,キーワード情報管理テーブル102,キーワード・コンテンツ関係管理テーブル103のテーブル形式で格納されている。キーワード蓄積装置100は,コンテンツを選択するための検索条件を指定することにより,コンテンツやコンテンツに付与されたキーワードについてのデータを出力する。すなわち,キーワード重み付け部12およびコンテンツ関連スコア算出部13は,キーワード蓄積装置100から,コンテンツを指定することによって,コンテンツの情報およびコンテンツに付与されたキーワード集合を取得することができ,キーワードを指定することによって,キーワードの情報およびキーワードが付与されたコンテンツ集合を取得することができる。
In the
図3の例は,後述する〔キーワードの重み算出の例1〕を利用した場合のキーワード蓄積装置100に格納された情報の例である。キーワード蓄積装置100は,コンテンツ情報管理テーブル101として,管理対象のコンテンツごとに,各コンテンツを一意に識別するコンテンツID,コンテンツの名前およびその説明の情報を記憶している。また,キーワード情報管理テーブル102として,各キーワードを一意に識別するキーワードIDと,キーワードの名前などの情報を記憶している。また,キーワード・コンテンツ関係管理テーブル103として,各コンテンツIDとキーワードIDの組み合わせの情報,およびコンテンツに対するキーワードの重みの値を記憶している。
The example of FIG. 3 is an example of information stored in the
一方,図4の例は,後述する〔キーワードの重み算出の例2〕を利用した場合のキーワード蓄積装置100に格納された情報の例である。コンテンツ情報管理テーブル101として,図3と同様な情報を記憶するが,キーワード情報管理テーブル102では,各キーワードを一意に識別するキーワードIDと,キーワードの名前の他に,キーワードの重みの値を記憶している。キーワード・コンテンツ関係管理テーブル103では,各コンテンツIDとキーワードIDの対応情報を記憶している。
On the other hand, the example of FIG. 4 is an example of information stored in the
図3および図4に示したコンテンツ情報管理テーブル101,キーワード情報管理テーブル102,キーワード・コンテンツ関係管理テーブル103は一例であり,名前や説明などの属性は格納されていなくてもよく,また,他の属性が格納されていてもよい。また,すでに算出し終えたキーワードの重みが格納される領域はなくてもよい。 The content information management table 101, the keyword information management table 102, and the keyword / content relationship management table 103 shown in FIGS. 3 and 4 are examples, and attributes such as names and descriptions may not be stored. May be stored. Further, there may be no area for storing the weights of keywords that have already been calculated.
ユーザが,コンテンツaを閲覧した場合を想定し,コンテンツの推薦手法について説明する。 Assuming that the user browses the content a, a content recommendation method will be described.
〔キーワードの重み算出の例1〕
まず,キーワードの重み付けを算出する第1の手法の例について説明する。キーワードの重みの算出には,例えば,同じコンテンツに付けられたより多くの他のキーワードと強い関連を持つキーワードに対して,より高い重みを与えることが考えられる。
[Keyword weight calculation example 1]
First, an example of a first technique for calculating keyword weights will be described. In calculating the keyword weight, for example, it is conceivable to give a higher weight to a keyword having a strong association with more other keywords attached to the same content.
キーワードの重み付けの計算では,最初に,コンテンツaに付与されたキーワード集合のうち,任意の2キーワード間の関係の強さを算出する。図5に本発明の一実施形態におけるコンテンツに付与されたキーワードについてのキーワード間の関係の強さを算出する例を示す。キーワード間の関係の強さは,例えば,キーワードの出現頻度に対するカイ二乗値により定義することができる。このとき,キーワード間の関係の強さR(A,B)は次の式で与えられる。 In the keyword weighting calculation, first, the strength of the relationship between two arbitrary keywords in the keyword set assigned to the content a is calculated. FIG. 5 shows an example of calculating the strength of the relationship between keywords for keywords assigned to content according to an embodiment of the present invention. The strength of the relationship between keywords can be defined by, for example, a chi-square value for the appearance frequency of keywords. At this time, the strength R (A, B) of the relationship between keywords is given by the following equation.
ただし,Nはキーワード蓄積装置100において蓄積されているコンテンツ集合に存在するコンテンツの総数であり,[A,B],[ ̄A, ̄B],[ ̄A,B],[A, ̄B]は,それぞれキーワードA,Bが共に付与されたコンテンツ数,キーワードA,Bのどちらも付与されていないコンテンツ数,キーワードBは付与されキーワードAは付与されていないコンテンツ数,キーワードAは付与されキーワードBは付与されていないコンテンツ数である。なお,「 ̄A」の「 ̄」は,Aの上に付く記号である(Bも同様)。
Here, N is the total number of contents existing in the content set stored in the
また,[A],[ ̄A],[B],[ ̄B]は,それぞれキーワードAが付与されているコンテンツ数,キーワードAが付与されていないコンテンツ数,キーワードBが付与されているコンテンツ数,キーワードBが付与されていないコンテンツ数である。 [A], [ ̄A], [B], and [ ̄B] are the number of contents to which the keyword A is assigned, the number of contents to which the keyword A is not assigned, and the contents to which the keyword B is assigned. The number of contents to which no keyword B is assigned.
続いて,キーワードの重み付けを決定する。コンテンツaに付与されたキーワードAの重みW(a,A)の値は,例えば,キーワードAとコンテンツaに付与された他のキーワードとの関係の強さの平均値により定義することができる。このとき,W(a,A)は,次の式で与えられる。 Next, keyword weighting is determined. The value of the weight W (a, A) of the keyword A assigned to the content a can be defined by, for example, an average value of the strength of the relationship between the keyword A and another keyword assigned to the content a. At this time, W (a, A) is given by the following equation.
ただし,Ka はコンテンツaに付与されたすべてのキーワードを含む集合であり,NKaはKa に含まれるキーワードの総数である。 However, K a is the set containing all the keywords assigned to the content a, N Ka is the total number of keywords contained in the K a.
以上のキーワードの重み付け手法は,次の知見に基づいている。
[知見1]:より多くのキーワードにより重複して表現されている内容は,コンテンツの主要な内容である。
The above keyword weighting method is based on the following knowledge.
[Knowledge 1]: The content that is expressed redundantly by more keywords is the main content.
コンテンツの全内容において,特に重要な内容については,多くのキーワードが表現しようとするであろう。さらに,本例では,次の知見に基づいて,キーワードとコンテンツとの関連性を求める。
[知見2]:主要な内容を表現するキーワードは,コンテンツとの関連性が高い。
Many keywords will try to express particularly important content in the whole content. Furthermore, in this example, the relationship between the keyword and the content is obtained based on the following knowledge.
[Knowledge 2]: Keywords expressing the main contents are highly related to the contents.
したがって,キーワード同士の内容がどの程度重なり合っているかを分析することにより,キーワードがどの程度コンテンツの主要な内容を表現しているかを分析することができるのである。 Therefore, by analyzing how much the contents of keywords overlap each other, it is possible to analyze how much the keywords express the main contents of the contents.
〔キーワードの重み算出の例2〕
次に,キーワードの重み付けを算出する第2の手法の例について説明する。キーワードの重みの算出には,例えば,キーワードが付与されたときは同じ話題であることが多い場合,すなわち,話題を絞り込むことができるキーワードである場合に,より高い重みを与えることが考えられる。
[Keyword weight calculation example 2]
Next, an example of a second method for calculating keyword weights will be described. In calculating the keyword weight, for example, when a keyword is assigned, the topic is often the same topic, that is, when the keyword can narrow down the topic, a higher weight may be given.
キーワードの重み付けの計算では,最初に,コンテンツに付与された各キーワードについて,全コンテンツにおいて各キーワードと共起するキーワードの集合を取得する。 In the keyword weighting calculation, first, for each keyword assigned to the content, a set of keywords co-occurring with each keyword in all the contents is acquired.
図6は,本発明の一実施形態におけるキーワード間の共起回数の算出例を説明する図である。図6において,キーワードAは,具体性を算出しようとしているキーワードを表している。キーワード蓄積装置100から,キーワードAが付与されたコンテンツをすべて取得し,それらのコンテンツ集合に一度でも付与されているキーワードをすべて取得する。ただし,キーワードA自身は除く。図6の例では,キーワードAと共起するキーワードがキーワードB,キーワードC,キーワードDであったことを表している。各キーワードがキーワードAと共起した回数は,それぞれ,C(A,B),C(A,C),C(A,D)である。すなわち,キーワード蓄積装置100において,キーワードAとキーワードBが共に付与されているコンテンツの数は,C(A,B) 個である。
FIG. 6 is a diagram illustrating an example of calculating the number of co-occurrence between keywords according to an embodiment of the present invention. In FIG. 6, a keyword A represents a keyword whose concreteness is to be calculated. All the contents to which the keyword A is assigned are acquired from the
続いて,キーワードAと共起するキーワードの共起回数の偏りを調べるため,以下の式E(A)の値を計算する。ただし,K′A は,キーワードAと共起したキーワードの集合を表し,NK'A =Σk C(A,k)である(ここで,Σk はk∈K′A の総和を表す)。図6の例では,K′A は,キーワードB,キーワードC,キーワードDからなる集合となる。 Subsequently, in order to examine the deviation of the number of co-occurrence of keywords co-occurring with the keyword A, a value of the following equation E (A) is calculated. Here, K ′ A represents a set of keywords co-occurring with the keyword A, and N K′A = Σ k C (A, k) (where Σ k represents the sum of k∈K ′ A ). ). In the example of FIG. 6, K ′ A is a set including a keyword B, a keyword C, and a keyword D.
キーワードAと共起するキーワードの共起回数の偏りが小さければ,E(A)は大きくなり,偏りが大きければ,E(A)は小さくなる。すなわち,E(A)が小さいほど,具体的なキーワードであるといえる。 If the deviation of the number of co-occurrence of keywords co-occurring with keyword A is small, E (A) becomes large, and if the deviation is large, E (A) becomes small. In other words, the smaller E (A) is, the more specific keyword it is.
最後に,以下の式W(A)の値を計算することにより,キーワードの重みが算出できる。W(A)の値は,キーワードAが具体的であるほど大きな値になる。 Finally, the keyword weight can be calculated by calculating the value of the following equation W (A). The value of W (A) increases as the keyword A is more specific.
ただし,σはパラメータであり,σ>1の任意の値を利用可能である。 However, σ is a parameter, and an arbitrary value of σ> 1 can be used.
以上のキーワードの重み付け手法は,次の知見に基づいている。キーワードは,コンテンツの内容を反映して付与される。例えば,「スポーツ」というキーワードは,テニスや野球やサッカーなどに関係するコンテンツに対して付与される。一方で,「ワールドカップ」というキーワードが付与されるコンテンツは,ほとんどがサッカーに関係するものである。この違いは,「スポーツ」というキーワードと,「ワールドカップ」というキーワードが表している話題の広さが異なるために生じる。 The above keyword weighting method is based on the following knowledge. Keywords are assigned reflecting the content. For example, the keyword “sports” is given to content related to tennis, baseball, soccer, and the like. On the other hand, the content to which the keyword “World Cup” is given is mostly related to soccer. This difference arises because the topic area represented by the keyword “sports” and the keyword “world cup” is different.
そこで,各キーワードと共起するキーワードの偏りに着目する。今,「ワールドカップ」というキーワードが付与されるコンテンツは,サッカーに関係するものが多いため,そのコンテンツに付与されるキーワードもサッカーに関係するものが多いと考えられる。そのため,「ワールドカップ」と共起するキーワードの偏りは大きくなる。逆に,「スポーツ」というキーワードは,さまざまな話題のコンテンツに対して付与されるため,共起するキーワードの偏りは小さくなる。そのため,共起するキーワードの偏りの大きさを分析することによって,キーワードの具体性を判別することができる。 Therefore, we focus on the keyword bias that co-occurs with each keyword. Now, since many contents to which the keyword “World Cup” is assigned are related to soccer, it is considered that many keywords assigned to the contents are also related to soccer. For this reason, the bias of keywords that co-occur with the “World Cup” increases. Conversely, since the keyword “sports” is assigned to content of various topics, the bias of co-occurring keywords is reduced. Therefore, it is possible to determine the concreteness of the keyword by analyzing the magnitude of the bias of the co-occurring keywords.
キーワードの具体性算出の例を図7に示す。図7の例は,「スポーツ」と「ワールドカップ」というキーワードについて具体性を計算した例である。今,「スポーツ」と共起するキーワードが「サッカー」,「テニス」,「野球」であり,共起回数がそれぞれ180回,120回,200回であったとする。このとき,[数1]式のE(A)を計算すると,E(スポーツ)=0.468となる。一方,「ワールドカップ」と共起するキーワードが「サッカー」,「大会」であり,共起回数がそれぞれ90回,10回であったとする。このとき,E(ワールドカップ)=0.141となる。したがって,E(スポーツ)よりE(ワールドカップ)の方が小さいため,「スポーツ」よりも「ワールドカップ」の方が具体的なキーワードであると分かる。
An example of the keyword concreteness calculation is shown in FIG. The example of FIG. 7 is an example in which the concreteness is calculated for the keywords “sports” and “world cup”. Now, assume that keywords that co-occur with “sports” are “soccer”, “tennis”, and “baseball”, and the number of co-occurrence is 180, 120, and 200, respectively. At this time, when E (A) in the
キーワードの重み付けの後,キーワード蓄積装置100内の各コンテンツに対して関連スコアの算出を行う。関連スコアの算出には,例えば,コンテンツに付与されたキーワードの重みの総和を利用することができる。その場合,コンテンツbのスコアは,以下の式S(b)により算出される。
After the keyword weighting, a related score is calculated for each content in the
ただし,コンテンツaはユーザが閲覧を行ったコンテンツであり,Ka はコンテンツaに付与されたすべてのキーワードの集合であり,Kb はコンテンツbに付与されたすべてのキーワードの集合であり,δ(k∈Kb )はコンテンツbにキーワードkが付与されている場合に“1”,それ以外の場合に“0”となる関数である。また,キーワードの重み付けの手法として,キーワードの重み付けを算出する第2の手法を利用した場合,W(a,k)=W(k)であるとする。 However, the content a is content browsed by the user, K a is a set of all keywords assigned to the content a, K b is a set of all keywords assigned to the content b, and δ (KεK b ) is a function that is “1” when the keyword k is assigned to the content b, and “0” otherwise. Further, when the second method for calculating the keyword weight is used as the keyword weighting method, it is assumed that W (a, k) = W (k).
すべてのコンテンツに対して関連スコアを計算し,比較することにより,推薦するコンテンツを決定する。ユーザに推薦するコンテンツが1つの場合には,関連スコアが最も高かったコンテンツを提示し,複数の場合には,関連スコアが高いものから順にいくつかを提示することにより,コンテンツの推薦を行うことができる。 The recommended content is determined by calculating and comparing the related scores for all the content. When there is only one content recommended for the user, the content with the highest related score is presented, and when there are multiple content, the content is recommended by presenting some in order from the highest relevant score. Can do.
また,推薦コンテンツ決定部14において,関連スコアが閾値以上となるコンテンツ集合のクラスタリングを行う手法を用いることにより,推薦候補となるコンテンツをクラスタリングし,幅広い内容のコンテンツを推薦することができる。
In addition, the recommended
例えば,推薦候補となる各コンテンツについて,[数5]式を用いて関連スコアを算出する。続いて,関連スコアが高かった上位n件のコンテンツを取得する。nは任意の値でよい。さらに,それらのコンテンツをクラスタリングすることによって,幅広い内容を持つコンテンツを推薦することが可能になる。 For example, for each content that is a recommendation candidate, a related score is calculated using the formula [5]. Subsequently, the top n content items with the highest related scores are acquired. n may be an arbitrary value. Furthermore, by clustering these contents, it becomes possible to recommend contents with a wide range of contents.
クラスタリングの手法として,例えば,コンテンツに付与されたキーワードに対する重みを要素とするベクトルをk−means法(下記の参考文献1参照)によってクラスタリングすることができる。
As a clustering method, for example, a vector having a weight for a keyword assigned to content as an element can be clustered by a k-means method (see
〔参考文献1〕:J.McQueen ,"Some methods for classification and analysis of multivariate observations" ,In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297 (1967)。 [Reference 1]: J. McQueen, “Some methods for classification and analysis of multivariate observations”, In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297 (1967).
また,さらにユーザの閲覧情報を蓄積し,キーワード重み付け部12は,ユーザが閲覧した複数のコンテンツの入力を受け付けることにより,複数のコンテンツに付与されたキーワードの情報をもとに重みを算出する手法を用いることもできる。この手法を利用することにより,ユーザが閲覧した複数のコンテンツの情報に基づいて,コンテンツの推薦を行うことができる。
Further, the user's browsing information is further accumulated, and the
図8は,ユーザが閲覧した複数のコンテンツ情報に基づいて,コンテンツの推薦を行う場合のコンテンツ推薦装置10の構成例を示す図である。
FIG. 8 is a diagram illustrating a configuration example of the
コンテンツ推薦装置10は,ユーザの閲覧履歴情報を記憶するユーザ閲覧情報蓄積装置110を備える。ユーザ情報入力部16は,推薦するユーザの情報を入力とし,そのユーザが閲覧したコンテンツの情報をユーザ閲覧情報蓄積装置110から取得し,キーワード重み付け部12に伝達する。キーワード重み付け部12は,ユーザが閲覧したすべてのコンテンツに対して付与されたキーワードについて,重み付けを行う。コンテンツ関連スコア算出部13は,キーワードの重みに基づいてコンテンツの関連スコアを算出し,推薦コンテンツ決定部14は,関連スコアが高かったコンテンツを推薦するコンテンツとして,コンテンツ情報出力部15により出力する。
The
例えば,ユーザが閲覧した各コンテンツについて,コンテンツに付与された各キーワードの重みを計算し,それらを合計したものをコンテンツの関連スコアの算出に利用することができる。ユーザが閲覧したコンテンツの集合をCとおくと,コンテンツbのスコアは,以下の式S′(b)により算出される。 For example, for each content viewed by the user, the weight of each keyword assigned to the content can be calculated, and the sum of them can be used to calculate the related score of the content. If the set of contents browsed by the user is C, the score of the contents b is calculated by the following equation S ′ (b).
また,さらにユーザによってキーワードの重みを変更する手段を設け,キーワード重み付け部12において,ユーザが興味のあるキーワードもしくは興味のないキーワードを選択することにより,キーワードの重みを変更可能とすることもできる。この手法を利用することにより,推薦結果が満足のいくものでなかった場合に,ユーザが任意にキーワードの重みを変更し,推薦されるコンテンツを変更することが可能になる。
Furthermore, a means for changing the weight of the keyword by the user can be provided, and the keyword weight can be changed by selecting a keyword in which the user is interested or not interested in the
図9は,ユーザ操作により推薦コンテンツの変更が可能なコンテンツ推薦装置10の構成例を示す図である。
FIG. 9 is a diagram illustrating a configuration example of the
この例では,ユーザは,キーワード重み変更部17に対して,興味のあるキーワード,もしくは,興味のないキーワードを入力することにより,キーワードの重みを増減させることができる。ユーザの操作の後,キーワード重み変更部17はユーザ操作の内容をキーワード重み付け部12に伝達し,キーワード重み付け部12はキーワードの重みを修正する。コンテンツ関連スコア算出部13は,キーワードの重みに基づいてコンテンツの関連スコアを算出し,推薦コンテンツ決定部14は,関連スコアが高かったコンテンツを推薦するコンテンツとして,コンテンツ情報出力部15により出力する。
In this example, the user can increase or decrease the keyword weight by inputting an interesting keyword or an uninterested keyword to the keyword
例えば,あるコンテンツを閲覧したユーザに対して,コンテンツ推薦装置10を利用して,推薦するコンテンツを提示するのと同時に,コンテンツに付与されているキーワードの集合をユーザに提示する。ユーザは,推薦されるコンテンツを変更したい場合に,キーワード集合の中から興味のあるキーワードを選択すると,コンテンツ推薦装置10は,そのキーワードの重みを増やす。もしくは,興味のないキーワードを選択すると,そのキーワードの重みを減らす。そして,変更したキーワードの重みに基づいて,コンテンツのスコアを再計算し,推薦するコンテンツを決定し,ユーザに提示する。
For example, for a user who browses a certain content, using the
以上,本発明の実施形態を説明したが,本発明は上記の実施形態に限定されず,特許請求の範囲に記載された技術的範囲内において変更や応用が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and modifications and applications are possible within the technical scope described in the claims.
10 コンテンツ推薦装置
11 コンテンツ情報入力部
12 キーワード重み付け部
13 コンテンツ関連スコア算出部
14 推薦コンテンツ決定部
15 コンテンツ情報出力部
16 ユーザ情報入力部
17 キーワード重み変更部
100 キーワード蓄積装置
101 コンテンツ情報管理テーブル
102 キーワード情報管理テーブル
103 キーワード・コンテンツ関係管理テーブル
110 ユーザ閲覧情報蓄積装置
DESCRIPTION OF
Claims (9)
ユーザが閲覧したコンテンツの情報を取得するコンテンツ情報入力手段と,
コンテンツに付与されたキーワードを格納したキーワード蓄積手段と,
キーワードとコンテンツの関連性およびキーワードの具体性の少なくとも一方の指標により,キーワードの重み付けを行うキーワード重み付け手段と,
前記ユーザが閲覧したコンテンツと推薦候補となるコンテンツ集合の中の各コンテンツの両方に共通に含まれるキーワードの重みの総和を,前記ユーザが閲覧したコンテンツと前記各コンテンツとの関連スコアとして算出するコンテンツ関連スコア算出手段と,
前記ユーザが閲覧したコンテンツとの関連スコアが大きい1または複数のコンテンツを,推薦コンテンツとして決定する推薦コンテンツ決定手段と,
ユーザに,前記推薦コンテンツの情報を提示するコンテンツ情報出力手段とを備える
ことを特徴とするコンテンツ推薦装置。 A content recommendation device for recommending content to a user,
Content information input means for acquiring information of content viewed by the user;
A keyword storage means for storing keywords assigned to content;
A keyword weighting means for weighting a keyword based on at least one of a keyword-content relevance and a keyword concreteness;
Content that calculates the sum of the weights of keywords that are commonly included in both the content viewed by the user and each content in the recommended candidate content set as a related score between the content viewed by the user and each content A related score calculation means;
Recommended content determining means for determining one or a plurality of content having a large relevance score with the content viewed by the user as recommended content;
A content recommendation device comprising: content information output means for presenting information of the recommended content to a user.
前記キーワード重み付け手段および前記コンテンツ関連スコア算出手段は,前記キーワード蓄積手段から,コンテンツを指定することによって,コンテンツの情報およびコンテンツに付与されたキーワード集合を取得し,キーワードを指定することによって,キーワードの情報およびキーワードが付与されたコンテンツ集合を取得する
ことを特徴とする請求項1に記載のコンテンツ推薦装置。 The keyword storage means stores information on each content to be recommended, information on keywords assigned to the content, and information on each keyword,
The keyword weighting means and the content-related score calculating means acquire content information and a keyword set attached to the content by designating the content from the keyword storage means, and designate the keyword to designate the keyword. The content recommendation apparatus according to claim 1, wherein a content set to which information and a keyword are assigned is acquired.
コンテンツに付与された任意の2キーワードの出現頻度についてのカイ二乗値を計算し,各キーワードと他のキーワードとのカイ二乗値の平均値を計算することにより,コンテンツとキーワードとの関連性を計算し,算出された関連性の大きさを示す値をキーワードの重みとする
ことを特徴とする請求項1または請求項2に記載のコンテンツ推薦装置。 The keyword weighting means is:
Calculate the chi-square value of the appearance frequency of any two keywords assigned to the content, and calculate the average value of the chi-square value of each keyword and other keywords, thereby calculating the relevance between the content and the keyword The content recommendation device according to claim 1, wherein a value indicating the calculated degree of relevance is used as a weight of the keyword.
全コンテンツを対象に,重み付けを行うキーワードと共起するキーワードを取得し,共起するキーワードの共起回数の偏りを計算することにより,キーワードの具体性を示す値を計算し,算出された具体性を示す値をキーワードの重みとする
ことを特徴とする請求項1または請求項2に記載のコンテンツ推薦装置。 The keyword weighting means is:
For all the contents, the keyword that co-occurs with the keyword to be weighted is obtained, and the value indicating the concreteness of the keyword is calculated by calculating the bias of the co-occurrence frequency of the co-occurring keyword. The content recommendation device according to claim 1, wherein a value indicating sex is used as a weight of the keyword.
関連スコアが閾値以上となるコンテンツ集合のクラスタリングを行う
ことを特徴とする請求項1から請求項4までのいずれか1項に記載のコンテンツ推薦装置。 The recommended content determination means includes:
The content recommendation apparatus according to any one of claims 1 to 4, wherein clustering of a content set having a related score equal to or greater than a threshold value is performed.
前記キーワード重み付け手段は,
前記ユーザ閲覧情報蓄積手段を参照し,ユーザが閲覧した複数のコンテンツの入力を受け付けることにより,複数のコンテンツに付与されたキーワードの情報をもとにキーワードの重みを算出する
ことを特徴とする請求項1から請求項5までのいずれか1項に記載のコンテンツ推薦装置。 Furthermore, it has user browsing information storage means for storing the user's content browsing information,
The keyword weighting means is:
The keyword weight is calculated based on the keyword information assigned to the plurality of contents by referring to the user browsing information storage means and accepting input of the plurality of contents browsed by the user. The content recommendation device according to any one of claims 1 to 5.
前記キーワード重み付け手段が算出したキーワードの重みを変更可能とした
ことを特徴とする請求項1から請求項6までのいずれか1項に記載のコンテンツ推薦装置。 In addition, there is a keyword weight changing means for selecting a keyword that the user is interested in or not interested by input from the user, and changing the weight of the selected keyword,
The content recommendation device according to any one of claims 1 to 6, wherein the keyword weight calculated by the keyword weighting means can be changed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010204092A JP5416063B2 (en) | 2010-09-13 | 2010-09-13 | Content recommendation device, content recommendation program and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010204092A JP5416063B2 (en) | 2010-09-13 | 2010-09-13 | Content recommendation device, content recommendation program and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012059183A JP2012059183A (en) | 2012-03-22 |
JP5416063B2 true JP5416063B2 (en) | 2014-02-12 |
Family
ID=46056168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010204092A Active JP5416063B2 (en) | 2010-09-13 | 2010-09-13 | Content recommendation device, content recommendation program and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5416063B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6060833B2 (en) | 2013-06-28 | 2017-01-18 | 株式会社Jvcケンウッド | Information processing apparatus, information processing method, and information processing program |
CN104866490B (en) * | 2014-02-24 | 2019-02-19 | 风网科技(北京)有限公司 | A kind of video intelligent recommended method and its system |
JP5942052B1 (en) * | 2014-12-26 | 2016-06-29 | 株式会社Ubic | Data analysis system, data analysis method, and data analysis program |
US11100287B2 (en) | 2018-10-30 | 2021-08-24 | International Business Machines Corporation | Classification engine for learning properties of words and multi-word expressions |
CN111695041B (en) * | 2020-06-17 | 2023-05-23 | 北京字节跳动网络技术有限公司 | Method and device for recommending information |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3656986B2 (en) * | 2000-02-14 | 2005-06-08 | 日本電信電話株式会社 | Related discovery type information browsing system |
JP3672023B2 (en) * | 2001-04-23 | 2005-07-13 | 日本電気株式会社 | Program recommendation system and program recommendation method |
JP2003203088A (en) * | 2002-01-08 | 2003-07-18 | Nippon Telegr & Teleph Corp <Ntt> | Programmable contents providing method and system, transmission terminal, program and recording medium |
JP2007122513A (en) * | 2005-10-28 | 2007-05-17 | Dainippon Printing Co Ltd | Content retrieval method, and content retrieval server |
JP4910582B2 (en) * | 2006-09-12 | 2012-04-04 | ソニー株式会社 | Information processing apparatus and method, and program |
-
2010
- 2010-09-13 JP JP2010204092A patent/JP5416063B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012059183A (en) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8135739B2 (en) | Online relevance engine | |
US9519685B1 (en) | Tag selection, clustering, and recommendation for content hosting services | |
US8234311B2 (en) | Information processing device, importance calculation method, and program | |
US20190278821A1 (en) | Presenting supplemental content in context | |
US20160224593A1 (en) | Image re-ranking method and apparatus | |
EP3529714B1 (en) | Animated snippets for search results | |
US20090006368A1 (en) | Automatic Video Recommendation | |
US9116992B2 (en) | Providing time series information with search results | |
US11301528B2 (en) | Selecting content objects for recommendation based on content object collections | |
US8463785B2 (en) | Method and system for generating search collection of query | |
TW201447797A (en) | Method and system for multi-phase ranking for content personalization | |
JP5416063B2 (en) | Content recommendation device, content recommendation program and recording medium thereof | |
CN109753601A (en) | Recommendation information clicking rate determines method, apparatus and electronic equipment | |
CN104850537B (en) | The method and device screened to content of text | |
JP5318034B2 (en) | Information providing apparatus, information providing method, and information providing program | |
JP2018073429A (en) | Retrieval device, retrieval method, and retrieval program | |
JP5373743B2 (en) | Similar user extraction method, similar user extraction device, and similar user extraction program | |
US8745059B1 (en) | Clustering queries for image search | |
Oliveira et al. | Automatic tag suggestion based on resource contents | |
JP6310529B1 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
JP6294279B2 (en) | Content recommendation device, content recommendation system, content recommendation method, and program | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
KR101137491B1 (en) | System and Method for Utilizing Personalized Tag Recommendation Model in Web Page Search | |
JP2007052693A (en) | Webpage information display apparatus, processing method and program | |
JP5248376B2 (en) | Information distribution apparatus and information distribution method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5416063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |