JP2012014518A - Inter-content similarity calculation device and inter-content similarity calculation method - Google Patents
Inter-content similarity calculation device and inter-content similarity calculation method Download PDFInfo
- Publication number
- JP2012014518A JP2012014518A JP2010151168A JP2010151168A JP2012014518A JP 2012014518 A JP2012014518 A JP 2012014518A JP 2010151168 A JP2010151168 A JP 2010151168A JP 2010151168 A JP2010151168 A JP 2010151168A JP 2012014518 A JP2012014518 A JP 2012014518A
- Authority
- JP
- Japan
- Prior art keywords
- content
- similarity
- usage
- unit
- usage history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 55
- 230000004913 activation Effects 0.000 claims description 13
- 238000001994 activation Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 12
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、コンテンツ間類似度算出装置及びコンテンツ間類似度算出方法に関する。 The present invention relates to an inter-content similarity calculation apparatus and an inter-content similarity calculation method.
従来から、あるコンテンツに関連性のあるコンテンツを算出する装置として、Amazonに代表されるEC(Electronic Commerce)サイト等での協調フィルタリングを用いたコンテンツ間関連性算出装置が知られている。その他、メタデータ等のコンテンツの内容を表すものを比較することで関連性を算出するコンテンツフィルタリングを用いたコンテンツ間関連性算出装置も知られている(特許文献1参照)。 2. Description of the Related Art Conventionally, an inter-content relevance calculation device using collaborative filtering on an EC (Electronic Commerce) site represented by Amazon is known as a device that calculates content related to a certain content. In addition, an inter-content relevance calculation device using content filtering that calculates relevance by comparing contents representing content such as metadata is also known (see Patent Document 1).
一般に、協調フィルタリングは、ユーザによる各コンテンツへの評価や、閲覧履歴又は購買履歴を大量に必要とするという問題点がある。また、コンテンツフィルタリングは似たような内容のコンテンツのみが関連性の高いものとして算出される為、ユーザが興味のある領域に関して既知のものが検索される可能性が高く、新たな発見が少ないという問題点がある。 In general, collaborative filtering has a problem that a user needs to evaluate each content and a large amount of browsing history or purchasing history. In addition, content filtering is calculated as only relevant content with high relevance, so there is a high possibility that a known one is searched for an area of interest to the user, and there are few new discoveries. There is a problem.
AndroidやWindows Mobile等のオープンプラットフォーム基盤におけるコンテンツ配信システムにおいて、日々新規コンテンツが追加される中で膨大な数のコンテンツの中からユーザが潜在的に求めるコンテンツを効率良く配信する方法が求められる。 In a content distribution system based on an open platform such as Android and Windows Mobile, a method for efficiently distributing content that a user potentially desires from a huge number of contents is required as new content is added every day.
特に携帯端末のコンテンツにおいては、コンテンツ間の関連性として機能の類似性だけでなく、コンテンツが利用される状況の類似性も考えられる。例えば、「天気予報」というコンテンツと「世界の天気」というコンテンツとは、機能の類似性があると考えられる。一方、「路線案内」というコンテンツと「グルメガイド」というコンテンツとは、コンテンツが利用される状況の類似性があると考えられる。この理由は、「グルメガイド」で見つけた飲食店に行くために、同じ時間帯及び同じエリアで「路線案内」を利用する可能性があるからである。 In particular, in the content of a mobile terminal, not only the functional similarity but also the similarity of the situation in which the content is used as the relevance between the contents. For example, the content “weather forecast” and the content “world weather” are considered to have similar functions. On the other hand, it is considered that the content of “route guidance” and the content of “gourmet guide” have similarities in the situation where the content is used. This is because there is a possibility of using “route guidance” in the same time zone and the same area in order to go to the restaurant found in “Gourmet Guide”.
そこで、本発明は、コンテンツ配信システムにおいてユーザが潜在的に求めるコンテンツを効率良く配信するための手段として、利用状況の類似性を考慮に入れてコンテンツ間の類似度を算出することを目的とする。 Therefore, the present invention has an object to calculate the similarity between contents in consideration of the similarity of the usage situation as a means for efficiently distributing the content that the user potentially seeks in the content distribution system. .
本発明のコンテンツ間類似度算出装置は、
コンテンツ間の類似度を算出するコンテンツ間類似度算出装置であって、
コンテンツが携帯端末で起動したときの利用履歴を携帯端末から受信する利用履歴受信部と、
前記利用履歴受信部で受信した利用履歴を、予め設定された利用状況に集計する利用履歴集計部と、
前記利用履歴集計部で集計された利用履歴から、コンテンツ毎に利用状況の特徴ベクトルを生成する利用状況特徴ベクトル化部と、
利用状況の特徴ベクトルに基づいて、コンテンツ間の類似度を算出する類似度算出部と、
を有することを特徴とする。
The inter-content similarity calculation apparatus of the present invention includes:
An inter-content similarity calculation device that calculates the similarity between contents,
A usage history receiver that receives usage history from the mobile device when the content is activated on the mobile device;
A usage history totaling unit that counts the usage history received by the usage history receiving unit into a preset usage status;
A usage status feature vectorization unit that generates a usage status feature vector for each content from the usage history tabulated by the usage history tabulation unit;
A similarity calculation unit that calculates the similarity between contents based on the feature vector of the usage situation;
It is characterized by having.
本発明のコンテンツ間類似度算出方法は、
コンテンツ間の類似度を算出するコンテンツ間類似度算出装置におけるコンテンツ間類似度算出方法であって、
コンテンツが携帯端末で起動したときの利用履歴を携帯端末から受信するステップと、
前記利用履歴受信部で受信した利用履歴を、予め設定された利用状況に集計するステップと、
前記利用履歴集計部で集計された利用履歴から、コンテンツ毎に利用状況の特徴ベクトルを生成するステップと、
利用状況の特徴ベクトルに基づいて、コンテンツ間の類似度を算出するステップと、
を有することを特徴とする。
The content similarity calculation method according to the present invention includes:
An inter-content similarity calculation method in an inter-content similarity calculation device for calculating the similarity between contents,
Receiving usage history from the mobile device when the content starts on the mobile device,
Totalizing the usage history received by the usage history receiving unit into a preset usage status;
Generating a usage state feature vector for each content from the usage history tabulated by the usage history tabulation unit;
Calculating a similarity between contents based on a feature vector of usage status;
It is characterized by having.
本発明の実施例によれば、利用状況の類似性を考慮に入れてコンテンツ間の類似度を算出することが可能になる。 According to the embodiment of the present invention, it is possible to calculate the similarity between contents in consideration of the similarity of the usage situation.
本発明の実施例では、コンテンツ間の類似度を算出するコンテンツ間類似度算出装置が用いられる。コンテンツ間類似度算出装置は、携帯端末と通信可能な検索サーバでもよい。 In the embodiment of the present invention, an inter-content similarity calculating apparatus that calculates the similarity between contents is used. The inter-content similarity calculation device may be a search server that can communicate with the mobile terminal.
コンテンツ間類似度算出装置は、コンテンツが携帯端末で起動したときの時間情報又は位置情報等の利用履歴を携帯端末から受信する。受信した利用履歴は、予め設定された利用状況に集計される。例えば、利用履歴は、エリア毎、利用時間帯毎又は利用時間の長さ毎に集計される。集計された利用履歴から、コンテンツ毎に利用状況の特徴ベクトルが生成される。コンテンツ間の類似度は、利用状況の特徴ベクトルに基づいて算出される。なお、利用状況の特徴ベクトルとは、予め設定されたn個の利用状況とコンテンツとの結びつきの強さを表すn次元ベクトルである。 The inter-content similarity calculation device receives a usage history such as time information or position information when content is activated on a mobile terminal from the mobile terminal. The received usage history is aggregated in a preset usage status. For example, the usage history is aggregated for each area, for each usage time zone, or for each length of usage time. A feature vector of usage status is generated for each content from the totaled usage history. The similarity between contents is calculated based on a feature vector of usage status. The usage state feature vector is an n-dimensional vector representing the strength of connection between n usage states and contents set in advance.
また、メタデータの特徴ベクトルが生成され、コンテンツ間の類似度は、利用状況の特徴ベクトルとメタデータの特徴ベクトルとに基づいて算出されてもよい。メタデータの特徴ベクトルとは、コンテンツのメタデータから抽出されたm個の特徴語とコンテンツとの結びつきの強さを表すm次元ベクトルである。 Also, a metadata feature vector may be generated, and the similarity between contents may be calculated based on the usage state feature vector and the metadata feature vector. The feature vector of metadata is an m-dimensional vector representing the strength of connection between m feature words extracted from the content metadata and the content.
以下、本発明の実施例について詳細に説明する。 Examples of the present invention will be described in detail below.
<通信システムの構成>
まず、本実施例に係る通信システムの全体構成について説明する。図1に示すように、本発明の実施例に係る通信システムは、携帯端末10と、検索サーバ20と、コンテンツ管理サーバ30と、移動通信網40とから構成される。
<Configuration of communication system>
First, the overall configuration of the communication system according to the present embodiment will be described. As shown in FIG. 1, the communication system according to the embodiment of the present invention includes a
検索サーバ20は、コンテンツ間の類似度を算出するコンテンツ間類似度算出装置である。検索サーバ20は、携帯端末10からコンテンツの検索リクエストを受け付け、検索リクエストのコンテンツに関連性の高いコンテンツを検索し、移動通信網40経由で携帯端末10に検索結果を送信する。
The
コンテンツ管理サーバ30は、携帯端末10に配信されるコンテンツを記憶及び管理する装置である。コンテンツとは、コンテンツ管理サーバ30から携帯端末10に提供されるサービス又は情報のことであり、例えば、アプリケーション、データ、映像、音楽、これらの組み合わせ等を含む。
The
図2を参照して、携帯端末10及び検索サーバ20について更に詳細に説明する。携帯端末10は、利用履歴送信部101と、利用履歴格納部102と、利用履歴取得部103と、現在地取得部104と、検索部105とから構成される。
With reference to FIG. 2, the
利用履歴取得部103は、コンテンツを携帯端末10で実行したときに、時間情報等の利用履歴を取得する。例えば、実行したコンテンツ名、起動日時、利用時間の長さを取得する。
The usage
現在地取得部104は、コンテンツを実行したときの位置情報を取得する。例えば、携帯端末10の緯度及び経度を取得する。
The current
利用履歴格納部102は、利用履歴取得部103及び現在地取得部104から取得した内容を記憶する。
The usage
利用履歴送信部101は、利用履歴格納部102に記憶された時間情報及び位置情報等の利用履歴を検索サーバ20に送信する。
The usage
検索部105は、検索サーバ20に検索リクエストを送信し、また、検索サーバ20から検索結果を受信する。検索リクエストは、コンテンツIDであり、検索結果は、検索リクエストのコンテンツと関連性の高いコンテンツのリストである。
The
検索サーバ20は、利用履歴受信部201と、エリア情報取得部202と、利用履歴集計部203と、メタデータ格納部204と、特徴語抽出部205と、メタデータ特徴ベクトル化部206と、利用履歴格納部207と、利用状況特徴ベクトル化部208と、特徴量格納部209と、類似度算出部210と、類似度格納部211と、検索部212とから構成される。
The
利用履歴受信部201は、携帯端末10から時間情報及び位置情報等の利用履歴を受信する。
The usage
エリア情報取得部202は、利用履歴のうち、携帯端末10の緯度及び経度から駅、ショッピングセンター等の周辺施設情報を取得する。周辺施設情報は、検索サーバ20内に周辺施設情報と緯度及び経度情報とを対応付けたデータベース(図示せず)を設けておき、そのデータベースから取得されてもよい。また、周辺施設情報は、外部のサーバから取得されてもよい。
The area
利用履歴集計部203は、コンテンツ毎に、利用履歴受信部201及びエリア情報取得部202から取得した内容を予め設定された利用状況別に集計する。
The usage
利用履歴格納部207は、利用履歴集計部203で集計された内容を記憶する。
The usage
利用状況特徴ベクトル化部208は、各コンテンツの利用状況を表現する利用状況特徴ベクトルを生成する。これにより、各コンテンツの代表的な利用状況が特徴ベクトル化される。
The usage status
メタデータ格納部204は、各コンテンツの名称、カテゴリ、説明文等を含むメタデータを記憶する。
The
特徴語抽出部205は、メタデータ内の説明文からコンテンツを表す特徴的な単語を抽出する。
The feature
メタデータ特徴ベクトル化部206は、抽出された特徴語に基づいて各コンテンツの機能を表現するメタデータ特徴ベクトルを生成する。
The metadata
特徴量格納部209は、利用状況特徴ベクトル化部208及びメタデータ特徴ベクトル化部206により算出された各コンテンツの利用状況特徴ベクトル及びメタデータ特徴ベクトルを記憶する。
The feature
類似度算出部210は、特徴量格納部209に記憶された内容に基づいて利用状況の類似度及びメタデータの類似度を算出し、更に、コンテンツ間の類似度を算出する。
The
類似度格納部211は、類似度算出部210により算出された類似度を記憶する。
The
検索部212は、携帯端末10からの検索リクエストを受け付け、また、類似度の高いコンテンツのリストを携帯端末10に送信する。
The
なお、図2では、携帯端末10が利用履歴を検索サーバ20に送信しているが、検索サーバ20の利用履歴受信部201が携帯端末10を監視して利用履歴を収集してもよい。
In FIG. 2, the
図3に、利用履歴格納部102の利用履歴管理テーブルを示す。利用履歴格納部102には、携帯端末10上で実行されたコンテンツの利用履歴毎に、コンテンツを一意に識別するコンテンツID、起動日時、緯度、経度及び利用時間の長さが記憶される。
FIG. 3 shows a usage history management table of the usage
図4に、利用履歴格納部207の利用履歴管理テーブルを示す。利用履歴格納部207には、コンテンツID毎に、そのコンテンツが起動された利用状況が記憶され、また、その利用状況に該当するコンテンツの起動回数が記憶される。ここで、利用状況は利用状況IDという形で表現される。例えば、利用状況IDの各成分(S01〜S06)は、コンテンツが利用された時間帯(朝、昼、晩)、利用時間の長さ(5分以内、30分以上等)、エリア情報(駅、飲食店、学校、映画館等)等を表す。各成分に、0(該当しない)、1(該当する)が記憶されている。例えば、昼(S02)に駅(S06)でコンテンツID=C0001が利用された場合、(S01,S02,S03,S04,S05,S06)=(0,1,0,0,0,1)に該当する利用状況の起動回数を1だけ増やす。コンテンツの利用履歴は、コンテンツの起動回数(又はダウンロード回数)の多い順にソートされ、各コンテンツのソートされた利用履歴の最下位には、全成分が0となるレコードが挿入される。なお、利用履歴は、時間情報(利用時間帯又は利用時間の長さ)及び位置情報(エリア情報)のいずれかに基づいて集計されてもよく、時間情報及び位置情報の双方に基づいて集計されてもよい。
FIG. 4 shows a usage history management table of the usage
図5に、メタデータ格納部204のメタデータ管理テーブルを示す。メタデータ格納部204には、コンテンツのメタデータがコンテンツID別に記憶されている。コンテンツは、カテゴリによって分類されてもよい。
FIG. 5 shows a metadata management table of the
図6に、特徴量格納部209の特徴量管理テーブルを示す。特徴量格納部209には、抽出された特徴語、利用状況IDの要素数がそれぞれm個、n個とした場合、メタデータ特徴ベクトル化部206により算出されたm次元ベクトル(メタデータ特徴ベクトル)と、利用状況特徴ベクトル化部208により算出されたn次元ベクトル(利用状況特徴ベクトル)と、コンテンツ間の類似度を測定する際に2つの特徴ベクトルの重みを決定する重み係数αが記憶されている。例えば、メタデータ特徴ベクトルは、「路線」、「駅」、「居酒屋」、「天気」、「時刻」というm個の特徴語のそれぞれが出現したか否か、特徴語が出現する確率、特徴語間の共起度等を表す。利用状況特徴ベクトルは、SVM(Support Vector Machine)等により変換されたコンテンツの利用状況を表す。
FIG. 6 shows a feature quantity management table of the feature
図7に、類似度格納部211の類似度管理テーブルを示す。類似度格納部211には、コンテンツIDの組み合わせ(コンテンツID1,コンテンツID2)に対して、メタデータ特徴ベクトルのコサイン類似度(メタデータ類似度)と、利用状況特徴ベクトルのコサイン類似度(利用状況類似度)と、メタデータ類似度と利用状況類似度とをαに応じて重み付けすることで算出されるコンテンツ間類似度と、コンテンツID1のコンテンツを検索キーとした検索リクエストがあった際にコンテンツID2のコンテンツが実際にダウンロードされた回数を示すダウンロードリクエスト数とが記憶されている。
FIG. 7 shows a similarity management table of the
<コンテンツ間類似度算出方法>
次に、検索サーバでのコンテンツ間類似度算出方法について説明する。図8は、本発明の実施例に係る検索サーバ20におけるコンテンツ間類似度算出方法のフローチャートである。
<Method for calculating similarity between contents>
Next, a method for calculating the similarity between contents in the search server will be described. FIG. 8 is a flowchart of the inter-content similarity calculation method in the
まず、検索サーバ20において、メタデータ格納部204に新しいコンテンツが追加されている場合は(ステップS11)、事前準備としてメタデータの特徴ベクトルを生成する(ステップS18)。具体的には、特徴語抽出部205は各コンテンツのメタデータから形態素解析により名詞等の単語を抽出する。抽出された名詞のうち、TFIDF(term frequency inverse document frequency)の閾値処理により、ノイズとなり得るコンテンツの特徴と関係の低い一般的な名詞を判定し、排除する。例えば、格納されたメタデータが図5の内容である場合、「路線」、「駅」「居酒屋」、「天気」、「時刻」といった単語が特徴語として抽出され、「検索」、「表示」といった一般的な単語は排除されることが期待される。ここで抽出されたm個の特徴語を用いて、各コンテンツのメタデータがm次元ベクトル化される。ここで、ベクトルの各成分の決定方法として、当該特徴語が出現するか否かに応じて1(出現する)又は0(出現しない)を代入する方法、特徴語の出現確率や特徴語間の共起度を考慮して重み付けした値を代入する方法がある。算出されたm次元ベクトルは、図6に示す特徴量格納部209の特徴量管理テーブルにおけるメタデータ特徴ベクトルの列に記憶される。
First, in the
そして、類似度算出部210が、コンテンツの全組み合わせに対してメタデータから生成されたm次元ベクトル間のコサイン距離simAを算出する(ステップS19)。例えば、ベクトルviとベクトルvjとのコサイン距離は、以下の式(1)により算出される。
Then, the
一方、携帯端末10において、利用履歴取得部103はコンテンツの起動状況を監視し、コンテンツの起動又は終了イベントを検知し、起動したコンテンツのID、起動日時、利用時間、起動した位置の緯度及び経度を記録する。ここで、測位方法として携帯端末に内蔵されているGPSモジュールを用いる方法と基地局から位置情報を取得する方法がある。利用履歴格納部102に図3のように記憶されたコンテンツの利用履歴は、決められたタイミングで検索サーバ20の利用履歴受信部201に送信される(ステップS12)。
On the other hand, in the
次に、利用履歴集計部203は利用履歴受信部201が受信した利用履歴に対し、緯度及び経度情報をもとにエリア情報取得部202に対して検索を行わせ、コンテンツが起動された位置周辺にある施設情報を求める。更に、時間帯、利用時間の長さ、エリア情報など予め設定したn個の要素からなる利用状況ID別にコンテンツ利用履歴を集計する(ステップS13)。ここで、利用状況IDの各要素は該当する/しないに応じて1/0が代入される。例えば、要素として時間帯が(朝、昼、夜)、利用時間が(5分以内、5〜29分、30〜59分、60分以上)、エリア情報が(駅、飲食店、映画館、コンビニエンスストア)の11個とした場合、朝に駅構内のコンビニエンスストア内で3分コンテンツを利用した履歴は利用状況ID(1,0,0,1,0,0,0,1,0,0,1)として集計される。このように、携帯端末10から受信した全ての履歴は利用状況IDが付与され、利用履歴が利用状況IDに該当する場合には、利用状況IDに対応する起動回数が1だけ増やされる。
Next, the usage
集計された利用履歴は、特徴ベクトル化される(ステップS14)。具体的な手順を図9に示す。集計された利用履歴は、図4に示すようにコンテンツID毎に起動回数の多い順にソートされ、利用履歴格納部207に記憶される(ステップS20)。次に、各コンテンツの最下位部分に全ての成分が0のレコードが挿入される(ステップS21)。ソートされた利用履歴は、SVM(Support Vector Machine)により各コンテンツを代表する一つの利用状況特徴ベクトルに変換され(非特許文献1参照)、特徴量格納部209に記憶される(S22)。起動回数の順番にソートすることで起動回数の多い状況がより強く反映される。利用状況特徴ベクトルは起動回数に依存するため、利用状況特徴ベクトルは、収集した利用履歴に基づいて動的に算出されてもよい。 The totaled usage history is converted into a feature vector (step S14). A specific procedure is shown in FIG. The tabulated usage histories are sorted in descending order of the number of activations for each content ID as shown in FIG. 4 and stored in the usage history storage unit 207 (step S20). Next, a record in which all components are 0 is inserted in the lowest part of each content (step S21). The sorted usage history is converted into one usage status feature vector representing each content by SVM (Support Vector Machine) (see Non-Patent Document 1) and stored in the feature amount storage unit 209 (S22). By sorting in order of the number of activations, the situation where the number of activations is large is reflected more strongly. Since the usage situation feature vector depends on the number of activations, the usage situation feature vector may be dynamically calculated based on the collected usage history.
そして、メタデータ類似度算出部210が、コンテンツの全組み合わせに対して利用状況から生成されたn次元ベクトル間のコサイン距離simBを算出する(ステップS15)。このコサイン距離simBも式(1)と同様に算出される。算出された利用状況特徴ベクトルのコサイン距離simB(メタデータ類似度)は、図7に示す類似度格納部211の類似度管理テーブルにおける利用状況類似度の列に記憶される。
Then, the metadata
ところで、図7に示すように、類似度格納部211にはコンテンツID1のコンテンツを検索キーとして関連検索をした際にコンテンツID2のコンテンツがダウンロードされた回数(ダウンロードリクエスト数)が記憶されている。コンテンツ間類似度算出の際の重み係数αはこのダウンロードリクエスト数に応じて、以下の式(2)により算出される(ステップS16)。
By the way, as shown in FIG. 7, the
図7に示すコンテンツC0001の例では、C0002、C0003、C0004のコンテンツがそれぞれ50回、20回、30回ダウンロードされている。コンテンツC0001の関連コンテンツ検索からのダウンロードリクエスト総数100のうち、simA>simBとなるリクエスト数が20となるため、α=0.2となり、特徴量格納部209の重み係数αとして記憶される。αは各コンテンツに対し算出される値で、0に近づくほど利用状況の近いコンテンツが検索結果として返される。このように、αはダウンロードリクエスト数に応じて動的に変化させてもよい。
In the example of the content C0001 shown in FIG. 7, the contents of C0002, C0003, and C0004 are downloaded 50 times, 20 times, and 30 times, respectively. Of the
次に、コンテンツの全組み合わせに対し、類似度算出部210がsimA、simB、αからコンテンツiとコンテンツjとの間のコンテンツ間類似度simi,jを、以下の式(3)により算出する。
Next, for all combinations of content, the
検索サーバ20の検索部212は、携帯端末10からのリクエストを受信すると、受信したコンテンツIDに対して類似度格納部212に記憶された類似度の高い順にコンテンツが並び替えられたコンテンツリストを配信する。
When receiving the request from the
<実施例の効果>
本発明の実施例によれば、利用状況の類似性を考慮に入れてコンテンツ間の類似度を算出できる。例えば、ユーザが明示的に指定したお気に入りのコンテンツに対し、機能だけでなく似たような利用状況で用いられているコンテンツを提示でき、新たな発見を提供できる。また、ユーザの潜在的な目的に合ったコンテンツに少ない手順で到達できるようになり、クライアント端末、ネットワーク設備等のリソースの利用を低減できる。さらに、コンテンツ毎にメタデータと利用状況のどちらに依存した関連コンテンツが好まれるかが検索結果に反映されるため、不適切なコンテンツの出現を抑える効果がある。
<Effect of Example>
According to the embodiment of the present invention, the similarity between contents can be calculated taking into account the similarity of the usage situation. For example, for a favorite content explicitly specified by the user, not only a function but also a content used in a similar usage situation can be presented, and a new discovery can be provided. In addition, it becomes possible to reach content that meets the user's potential purpose with few procedures, and the use of resources such as client terminals and network equipment can be reduced. Furthermore, since whether the related content depending on the metadata or usage status is preferred for each content is reflected in the search result, there is an effect of suppressing the appearance of inappropriate content.
例えば、ニュースリーダと天気予報や、メディアプレーヤとブックリーダといった機能は異なるが、似たような利用状況で使われがちなコンテンツが関連付けられるようになり、明確なイメージはないが有用なコンテンツを探すといった目的に合致した検索ができる。 For example, although functions such as news reader and weather forecast, media player and book reader are different, content that is likely to be used in similar usage situations will be associated, and there is no clear image but search for useful content Search that matches the purpose.
更に、利用状況及びメタデータの双方を特徴ベクトル化することにより、ユーザが検索キーとして既知のコンテンツをサーバに知らせることで、サーバはそのコンテンツに対して代表的な利用状況及びメタデータの類似するコンテンツのリストを配信できる。 Furthermore, by converting the usage status and metadata into feature vectors, the user informs the server of the known content as a search key, so that the server resembles typical usage status and metadata for the content. A list of contents can be distributed.
更に、αを動的に変化させることで、検索キーに対して利用状況の類似度が高いコンテンツがダウンロードされれば利用状況の類似度の重みを上げ、メタデータの類似度が高いコンテンツがダウンロードされればメタデータの類似度の重みを上げることができる。このため、利用状況に特徴のあるコンテンツと機能に特徴のあるコンテンツのどちらにも対応できる。 Furthermore, by dynamically changing α, if content with a high usage status similarity is downloaded with respect to the search key, the usage status similarity weight is increased, and content with a high metadata similarity is downloaded. If so, the weight of metadata similarity can be increased. For this reason, it is possible to deal with both contents having characteristics of usage and contents having functions.
更に、起動回数の多い順に利用履歴をソートして、SVMにより利用状況特徴ベクトルを生成することで、起動回数の多い利用状況を強く反映したコンテンツに代表的な利用状況を算出できる。 Furthermore, by sorting the usage history in descending order of the number of activations and generating a usage condition feature vector by SVM, it is possible to calculate a typical usage condition for content that strongly reflects the usage condition with a large number of activations.
説明の便宜上、本発明の実施例に係るコンテンツ間類似度算出装置は機能的なブロック図を用いて説明しているが、本発明のコンテンツ間類似度算出装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、コンテンツ間類似度算出装置の各機能部がソフトウェアで実現され、コンピュータ内に実現されてもよい。また、2以上の実施例及び実施例の各構成要素が必要に応じて組み合わせて使用されてもよい。 For convenience of explanation, the inter-content similarity calculation apparatus according to the embodiment of the present invention has been described using a functional block diagram. However, the inter-content similarity calculation apparatus of the present invention may be hardware, software, or their It may be realized in combination. For example, each function unit of the content similarity calculation device may be realized by software and may be realized in a computer. In addition, two or more embodiments and each component of the embodiments may be used in combination as necessary.
以上、本発明の実施例について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。 As mentioned above, although the Example of this invention was described, this invention is not limited to said Example, A various change and application are possible within a claim.
10 携帯端末
101 利用履歴送信部
102 利用履歴格納部
103 利用履歴取得部
104 現在地取得部
105 検索部
20 検索サーバ
201 利用履歴受信部
202 エリア情報取得部
203 利用履歴集計部
204 メタデータ格納部
205 特徴語抽出部
206 メタデータ特徴ベクトル化部
207 利用履歴格納部
208 利用状況特徴ベクトル化部
209 特徴量格納部
210 類似度算出部
211 類似度格納部
212 検索部
DESCRIPTION OF
Claims (8)
コンテンツが携帯端末で起動したときの利用履歴を携帯端末から受信する利用履歴受信部と、
前記利用履歴受信部で受信した利用履歴を、予め設定された利用状況に集計する利用履歴集計部と、
前記利用履歴集計部で集計された利用履歴から、コンテンツ毎に利用状況の特徴ベクトルを生成する利用状況特徴ベクトル化部と、
利用状況の特徴ベクトルに基づいて、コンテンツ間の類似度を算出する類似度算出部と、
を有するコンテンツ間類似度算出装置。 An inter-content similarity calculation device that calculates the similarity between contents,
A usage history receiver that receives usage history from the mobile device when the content is activated on the mobile device;
A usage history totaling unit that counts the usage history received by the usage history receiving unit into a preset usage status;
A usage status feature vectorization unit that generates a usage status feature vector for each content from the usage history tabulated by the usage history tabulation unit;
A similarity calculation unit that calculates the similarity between contents based on the feature vector of the usage situation;
An inter-content similarity calculation device.
前記類似度算出部は、利用状況の特徴ベクトルから利用状況の類似度を算出し、メタデータの特徴ベクトルからメタデータの類似度を算出し、利用状況の類似度とメタデータの類似度とを重み付けることにより、コンテンツ間の類似度を算出する、請求項1に記載のコンテンツ間類似度算出装置。 A metadata feature vectorization unit that generates a metadata feature vector for each content based on words included in the content metadata;
The similarity calculating unit calculates the similarity of the usage situation from the feature vector of the usage situation, calculates the similarity of the metadata from the feature vector of the metadata, and calculates the similarity of the usage situation and the similarity of the metadata. The content similarity calculation apparatus according to claim 1, wherein the similarity between contents is calculated by weighting.
前記利用履歴集計部は、前記利用履歴受信部で受信した利用履歴を、エリア毎に集計する、請求項1乃至5のうちいずれか1項に記載のコンテンツ間類似度算出装置。 From the usage history received by the usage history receiving unit, further comprising an area information acquisition unit for acquiring an area when the content is activated on the mobile terminal,
The inter-content similarity calculation apparatus according to any one of claims 1 to 5, wherein the usage history totaling unit totals the usage history received by the usage history receiving unit for each area.
コンテンツが携帯端末で起動したときの利用履歴を携帯端末から受信するステップと、
前記利用履歴受信部で受信した利用履歴を、予め設定された利用状況に集計するステップと、
前記利用履歴集計部で集計された利用履歴から、コンテンツ毎に利用状況の特徴ベクトルを生成するステップと、
利用状況の特徴ベクトルに基づいて、コンテンツ間の類似度を算出するステップと、
を有するコンテンツ間類似度算出方法。 An inter-content similarity calculation method in an inter-content similarity calculation device for calculating the similarity between contents,
Receiving usage history from the mobile device when the content starts on the mobile device,
Totalizing the usage history received by the usage history receiving unit into a preset usage status;
Generating a usage state feature vector for each content from the usage history tabulated by the usage history tabulation unit;
Calculating a similarity between contents based on a feature vector of usage status;
The content similarity calculation method which has.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151168A JP5442543B2 (en) | 2010-07-01 | 2010-07-01 | Content similarity calculation device and content similarity calculation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151168A JP5442543B2 (en) | 2010-07-01 | 2010-07-01 | Content similarity calculation device and content similarity calculation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014518A true JP2012014518A (en) | 2012-01-19 |
JP5442543B2 JP5442543B2 (en) | 2014-03-12 |
Family
ID=45600850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010151168A Expired - Fee Related JP5442543B2 (en) | 2010-07-01 | 2010-07-01 | Content similarity calculation device and content similarity calculation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5442543B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106737A (en) * | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Device for estimating relationship between proper nouns, method and program |
WO2015016094A1 (en) * | 2013-07-31 | 2015-02-05 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2018518722A (en) * | 2015-04-23 | 2018-07-12 | ロヴィ ガイズ, インコーポレイテッド | Systems and methods for improving accuracy in media asset recommendation models |
JP2018190393A (en) * | 2017-05-01 | 2018-11-29 | 富士通株式会社 | Information processing device, file storing method and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165454A (en) * | 2003-11-28 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Contents recommending device, contents recommending method and contents recommending program |
JP2006113984A (en) * | 2004-10-18 | 2006-04-27 | Sony Corp | Information providing system, metadata collection analysis server, and computer program |
JP2006268100A (en) * | 2005-03-22 | 2006-10-05 | Nippon Telegr & Teleph Corp <Ntt> | Play list generation device, play list generation method, program, and recording medium |
JP2010128927A (en) * | 2008-11-28 | 2010-06-10 | Ntt Docomo Inc | Apparatus and method for generating recommendation information |
-
2010
- 2010-07-01 JP JP2010151168A patent/JP5442543B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165454A (en) * | 2003-11-28 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | Contents recommending device, contents recommending method and contents recommending program |
JP2006113984A (en) * | 2004-10-18 | 2006-04-27 | Sony Corp | Information providing system, metadata collection analysis server, and computer program |
JP2006268100A (en) * | 2005-03-22 | 2006-10-05 | Nippon Telegr & Teleph Corp <Ntt> | Play list generation device, play list generation method, program, and recording medium |
JP2010128927A (en) * | 2008-11-28 | 2010-06-10 | Ntt Docomo Inc | Apparatus and method for generating recommendation information |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106737A (en) * | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Device for estimating relationship between proper nouns, method and program |
WO2015016094A1 (en) * | 2013-07-31 | 2015-02-05 | ソニー株式会社 | Information processing device, information processing method, and program |
JPWO2015016094A1 (en) * | 2013-07-31 | 2017-03-02 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP2018518722A (en) * | 2015-04-23 | 2018-07-12 | ロヴィ ガイズ, インコーポレイテッド | Systems and methods for improving accuracy in media asset recommendation models |
JP2018190393A (en) * | 2017-05-01 | 2018-11-29 | 富士通株式会社 | Information processing device, file storing method and program |
JP7060792B2 (en) | 2017-05-01 | 2022-04-27 | 富士通株式会社 | Information processing equipment, file storage method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5442543B2 (en) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679211B (en) | Method and device for pushing information | |
US8468197B2 (en) | Generic online ranking system and method suitable for syndication | |
US20160179816A1 (en) | Near Real Time Auto-Suggest Search Results | |
KR100462292B1 (en) | A method for providing search results list based on importance information and a system thereof | |
JP4660475B2 (en) | User profile management system | |
US9141960B2 (en) | Venue and event recommendations for a user of a portable media player device | |
US9659265B2 (en) | Methods and systems for collecting and analyzing enterprise activities | |
US9288285B2 (en) | Recommending content in a client-server environment | |
US20110246485A1 (en) | Systems and methods for grouping users based on metadata tag relevance ratings | |
WO2008011142A2 (en) | Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet | |
CN105488205B (en) | Page generation method and device | |
US11423096B2 (en) | Method and apparatus for outputting information | |
US20110010415A1 (en) | Personal information bank system | |
WO2015042290A1 (en) | Identifying gaps in search results | |
JP5442543B2 (en) | Content similarity calculation device and content similarity calculation method | |
JP2007094560A (en) | Service providing method, service providing system, service providing device, service providing terminal and service providing program | |
JP5165422B2 (en) | Information providing system and information providing method | |
KR101350079B1 (en) | Device for providing information, method for providing information, and computer-readable recording medium storing program for providing information | |
KR20130064447A (en) | Method and appratus for providing search results using similarity between inclinations of users and device | |
JP2009301540A (en) | Information retrieval device and information retrieval method | |
JP6217075B2 (en) | Distribution method, distribution apparatus, and distribution program | |
Francese et al. | Lifebook: a mobile personal information management system on the cloud | |
JP2006092023A (en) | Document control computer program, document control device and method | |
US20100251270A1 (en) | Selective Mobile Metering | |
KR100906618B1 (en) | Method and system for user define link search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5442543 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |