JP5727846B2 - シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム - Google Patents

シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム Download PDF

Info

Publication number
JP5727846B2
JP5727846B2 JP2011091927A JP2011091927A JP5727846B2 JP 5727846 B2 JP5727846 B2 JP 5727846B2 JP 2011091927 A JP2011091927 A JP 2011091927A JP 2011091927 A JP2011091927 A JP 2011091927A JP 5727846 B2 JP5727846 B2 JP 5727846B2
Authority
JP
Japan
Prior art keywords
group
item
similarity
item group
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011091927A
Other languages
English (en)
Other versions
JP2012226470A (ja
Inventor
篤信 木村
篤信 木村
中山 彰
彰 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011091927A priority Critical patent/JP5727846B2/ja
Publication of JP2012226470A publication Critical patent/JP2012226470A/ja
Application granted granted Critical
Publication of JP5727846B2 publication Critical patent/JP5727846B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数のアイテムの中からシリーズアイテム群を抽出するシリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラムに関する。
推薦アルゴリズムにおいて、1話目、2話目または1冊目、2冊目と連続し、ユーザが続けて利用したくなるアイテム群(シリーズアイテム群)を抽出することは、推薦の精度を高める上で重要な要素となる。
従来では、EPGやコンテンツのメタデータなどアイテムに付随する情報を元に、シリーズアイテム群を判定する方法がある。
また、特許文献1には、文書集合内のタイムスタンプ付きの文書間の関連性に基づいて、文書集合を特定する文書集合分析装置が記載されている。
特開2008−210024号公報
EPGやコンテンツのメタデータを利用する場合、ユーザのアイテムに対する評価値、利用ログなどが考慮されていなく、サービス提供者が規定したルールでシリーズアイテムが定義される。
シリーズアイテムの定義がサービス提供者の規定に依存する場合、サービス提供者の運用が不完全である(例えば、シリーズアイテムのメタデータが欠落している、シリーズアイテムと判定されるべきでないアイテムにメタデータが付与されている)と、シリーズアイテムの抽出が適切に行えないという問題がある。
また、サービス提供者の運用が推薦エンジン(推薦アルゴリズム)におけるシリーズアイテムの概念と異なる(例えば、シリーズアイテム以外のまとまりも含めた形でメタデータを運用している)場合、適切なシリーズアイテムの抽出ができないという問題もある。
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、シリーズアイテム群の抽出をより適切に行うシリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラムを提供することにある。
上記目的を達成するため、本発明は、シリーズアイテム群抽出システムであって、複数のアイテムのメタデータが記憶されるメタデータ記憶手段と、複数のユーザのアイテム利用履歴が記憶されるログ記憶手段と、前記メタデータ記憶手段のメタデータを用いて、アイテム間の類似度を算出する類似度算出手段と、前記ログ記憶手段のアイテム利用履歴を用いて、所定の期間においてユーザが2つ以上のアイテムを連続して利用している履歴を元に、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を各グループのアイテム数を用いて算出する連続度算出手段と、前記類似度算出手段が算出したアイテム間の類似度を用いて各グループに属するアイテム群の類似度を算出するとともに、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出手段と、を備える。
本発明は、シリーズアイテム群抽出システムであって、複数のアイテムのメタデータが記憶されるメタデータ記憶手段と、複数のユーザのアイテム利用履歴が記憶されるログ記憶手段と、前記メタデータ記憶手段のメタデータを用いて、アイテム間の類似度を算出する類似度算出手段と、前記ログ記憶手段のアイテム利用履歴を用いて、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を算出する連続度算出手段と、前記類似度算出手段が算出したアイテム間の類似度を用いて各グループに属するアイテム群の類似度を算出するとともに、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出手段と、を備え、前記アイテム群抽出手段は、類似度が第1の閾値より大きく、連続度が第2の閾値以下のグループに属するアイテム群を、メタデータにおける関連性が高い同質アイテム群として抽出する。
また、本発明は、コンピュータが行うシリーズアイテム群抽出方法であって、前記コンピュータは、複数のアイテムのメタデータが記憶されるメタデータ記憶部と、複数のユーザのアイテム利用履歴が記憶されるログ記憶部と、を備え、前記メタデータ記憶部のメタデータを用いて、アイテム間の類似度を算出する類似度算出ステップと、前記ログ記憶部のアイテム利用履歴を用いて、所定の期間においてユーザが2つ以上のアイテムを連続して利用している履歴を元に、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を各グループのアイテム数を用いて算出する連続度算出ステップと、前記類似度算出ステップで算出したアイテム間の類似度を用いて、各グループに属するアイテム群の類似度を算出するグループ類似度算出ステップと、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出ステップと、を行う。
本発明は、コンピュータが行うシリーズアイテム群抽出方法であって、前記コンピュータは、複数のアイテムのメタデータが記憶されるメタデータ記憶部と、複数のユーザのアイテム利用履歴が記憶されるログ記憶部と、を備え、前記メタデータ記憶部のメタデータを用いて、アイテム間の類似度を算出する類似度算出ステップと、前記ログ記憶部のアイテム利用履歴を用いて、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を算出する連続度算出ステップと、前記類似度算出ステップで算出したアイテム間の類似度を用いて、各グループに属するアイテム群の類似度を算出するグループ類似度算出ステップと、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出ステップと、を行い、前記アイテム群抽出ステップは、類似度が第1の閾値より大きく、連続度が第2の閾値以下のグループに属するアイテム群を、メタデータにおける関連性が高い同質アイテム群として抽出する。
また、本発明は、前記シリーズアイテム群抽出システムとしてコンピュータを機能させるためのシリーズアイテム群抽出プログラムである。
本発明によれば、シリーズアイテム群の抽出をより適切に行うシリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラムを提供することができる。
本発明の実施形態に係るシリーズアイテム群抽出システムの構成図である。 本実施形態の処理概要を示すフローチャートである。 類似度算出処理を示すフローチャートである。 メタデータ設定テーブルの一例を示す図である。 特徴量抽出テーブルの一例を示す図である。 類似度テーブルの一例を示す図である。 連続度算出処理を示すフローチャートである。 連続度テーブルの一例を示す図である。 シリーズ度算出処理を示すフローチャートである。 連続度テーブルの一例を示す図である。
以下、本発明の実施の形態について、図面を参照して説明する。
本実施形態のアイテムは、映画、テレビ番組、ニュース、本、音楽などの様々なコンテンツであって、デジタルデータ化されたデジタルコンテンツだけでなく、物品(商品など)や場所(レストランや観光地など)などデジタルコンテンツ以外のコンテンツも含まれる。
図1は、本実施形態に係るアイテム群抽出システムの構成図である。本実施形態のアイテム群抽出システムは、メタデータ記憶部11と、メタデータ設定テーブル12と、類似度算出部13と、特徴量抽出テーブルおよび類似度テーブルを記憶する記憶部14と、ログ記憶部15と、連続度算出部16と、連続度テーブルを記憶する記憶部17と、シリーズ度算出部18(アイテム群抽出手段)とを備える。
メタデータ記憶部11には、複数のアイテムのメタデータが記憶(格納)される。メタデータは、アイテムそのものではなく、アイテムに関連するデータであって、例えば、アイテムのタイトル、概要文、タイトルの読み仮名、キャスト、放映時刻などが考えられる。メタデータ設定テーブル12には、各メタデータの類似度算出に用いられるパラメータが設定されている。メタデータ設定テーブル12については、後述する。
類似度算出部13は、メタデータ記憶部11のメタデータを用いて、アイテム間の類似度を算出する。
ログ記憶部15には、ユーザがアイテムを利用したログ(アイテム利用履歴)が記憶(格納)される。
連続度算出部16は、ログ記憶部15の各ユーザのログを用いて、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を算出する。
シリーズ度算出部18は、類似度算出部13が算出したアイテム間の類似度を用いて各グループに属するアイテム群の類似度を算出するとともに、類似度と連続度とを用いて各グループのシリーズ度を算出する。また、シリーズ度算出部18は、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、ユーザが続けて利用したくなるアイテム群(以下、「シリーズアイテム」という)として抽出する。また、シリーズ度算出部18は、類似度が第1の閾値より大きく、連続度が第2の閾値以下のグループに属するアイテム群を、メタデータにおける関連性が高い同質アイテム群として抽出し、類似度が第1の閾値より小さく、連続度が第3の閾値より大きいグループに属するアイテム群を、まとまって利用される可能性が高いパックアイテム群として抽出する。
以上説明したアイテム群抽出システムは、例えば、CPUと、メモリと、HDD等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされたアイテム群抽出システム用のプログラムを実行することにより、アイテム群抽出システムの各機能が実現される。また、アイテム群抽出システムのプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
次に、本実施形態の処理について説明する。
図2は、全体の処理概要を示すフローチャートである。
まず、類似度算出部13は、メタデータ記憶部11の各アイテムのメタデータと、メタデータ設定テーブル12とを用いて各アイテムの特徴量を抽出し、アイテム間の類似度を算出する(S11)。次に、連続度算出部16は、ログ記憶部15のログを用いて各グループのアイテム群の連続度を算出する(S12)。そして、シリーズ度算出部18は、各グループの類似度を算出するとともに、各グループのシリーズ度を算出(S13)、類似度および連続度が比較的大きいグループのアイテム群をシリーズアイテム群として抽出する(S14)。
また、シリーズ度算出部18は、類似度が比較的小さく、連続度が比較的大きいグループのアイテム群をパックアイテム群(まとめ見パックアイテム群)として抽出する(S15)。すなわち、メタデータでは繋がりが明確ではないが(類似度:小)、ユーザがまとめて見る(利用する)傾向にある(連続度:大)アイテム群をまとめ見パックアイテム群とする。
また、シリーズ度算出部18は、類似度が比較的大きく、連続度が比較的小さいグループのアイテム群を同質アイテム群として抽出する(S16)。すなわち、メタデータでは繋がりが明確であるのに(類似度:大)、ユーザがまとめて見る傾向がない(連続度:小)アイテム群を同質アイテム群とする。
図3は、類似度算出部13が行う類似度算出処理(図2:S11)のフローチャートである。
類似度算出部13は、全アイテムの各々に対して特徴量抽出処理(S21〜S24)を行う(S21)。すなわち、メタデータ記憶部11から所定(処理対象)のアイテムのメタデータを読み出す(S22)。本実施形態では、メタデータ設定テーブル12に設定された各メタデータを読み込む。
図4は、メタデータ設定テーブル12の一例を示す図である。メタデータ設定テーブル12には、メタデータの種類(Meta1、Meta2、・・・、Meta5)毎に、内容、類似度算出に用いられる重み係数名、重み係数の値、類似度算出時に用いられる特徴量、類似度算出時に用いられるジャッカード係数算出時が設定されている。
そして、読み込んだ各メタデータについて、当該メタデータに対応する特徴量を抽出し(S23)、特徴量抽出テーブルに記憶する(S24)。図5は、特徴量抽出テーブルの一例であって、アイテム毎に各メタデータの特徴量と特徴量数とが記憶される。
例えば、Meta1(タイトル)およびMeta2(概要文)の場合、形態素解析処理を行い、品詞判定で名詞と、品詞未定義のカタカナとをキーワードとして抽出し、抽出した各キーワード(特徴量)と、抽出したキーワード数(特徴量数)とを特徴量抽出テーブルに記憶する。
また、Meta3(タイトルの読み仮名)の場合、タイトルのかな文字(特徴量)と、かな文字数(特徴量数)とを特徴量抽出テーブルに記憶する。Meta4(キャスト)の場合、キャスト(特徴量)と、キャスト数(特徴量数)とを特徴量抽出テーブルに記憶する。Meta5(放映時刻)の場合、放映時刻(特徴量)と、放映時間帯数(特徴量数)とを特徴量抽出テーブルに記憶する。
全てのアイテムに対して特徴量抽出処理(S21〜S24)を行った後、類似度算出部13は、全ての組み合わせのアイテム間での類似度算出処理(S26〜S30)を行う(S25)。ここでは、アイテムaとアイテムbのアイテム間の類似度算出処理を例として説明する。
まず、メタデータ毎に、ジャッカード係数算出処理(S27、S28)を行う(S26)。すなわち、メタデータ設定テーブル12から対応するメタデータのジャッカード係数算出時の要素を読み出し、メタデータ設定テーブル12に記憶されたアイテムaとアイテムbの対応するメタデータの特徴量とを用いて、読み出した要素の一致数を取得する(S27)。
そして、S27で取得した一致数およびメタデータ設定テーブル12に記憶されたアイテムaとアイテムbの対応するメタデータの特徴量数とを用いてジャッカード係数を算出する(S28)。
例えば、Meta1(タイトル)の場合、図5の特徴量抽出テーブルでは、アイテムaとアイテムbとでは、キーワード1とキーワード2とが一致しているため、一致数「2」を取得し、下記式によりジャッカード係数J(a,b,Meta1)を算出する。なお、ジャッカード係数の数値の範囲は、[0,1]である。
ジャッカード係数J(a,b,Meta1)=
アイテムa・アイテムbのMeta1での一致キーワード数/
(アイテムaのキーワード数+アイテムbのキーワード数
−アイテムa・アイテムbのMeta1での一致キーワード数)
例えば、図5に示す特徴量抽出テーブルの場合、ジャッカード係数J(a,b,Meta1)は以下のとおりである。
J(a,b,Meta1)=2/(3+2−2)
全てのメタデータのジャッカード係数の算出が終了すると、類似度算出部13は、アイテム間の類似度を算出する。すなわち、各メタデータの重み係数をメタデータ設定テーブル12から取得し(S29)、アイテムaとアイテムb間の類似度F (a,b)を下記式により算出し、類似度テーブルに記憶する(S30)。なお、類似度の数値の範囲は、[0,1]である。
類似度F (a,b)=J(a,b,Meta1)×W1+ J(a,b,Meta2) ×W2+・・・J(a,b,Meta m)×Wm・・・)/m
図6は、類似度テーブルの一例を示す図である。このようの、類似度テーブルには、全ての組み合わせのアイテム間の類似度が設定される。
図7は、連続度算出部16が行う連続度算出処理(図2:S12)のフローチャートである。連続度算出処理は、まず、ログ記憶部15にログが記憶されている全てのユーザの各々に対して、S42からS44の処理を行う(S41)。ログ記憶部15には、各ユーザがいずれかのアイテムを利用・使用(アクセス、ダウンロード、閲覧、購入、視聴、予約、移動、入館、飲食など)した履歴が記憶されている。本実施形態のログ記憶部15は、ユーザ毎に、利用時間(時刻)、利用したアイテムなどが記憶されているものとする。
まず、ログ記憶部15に記憶された各ユーザのログから、連続性を抽出するためのログとして、一定期間に利用されたアイテムのアイテムリストを抽出する。具体的には、所定の期間(P1≦P≦P2)に使用されたアイテム数が一定数(例えば10)以上ある場合は(S42:YES)、所定の期間内のアイテムをアイテムリストとして抽出する(S43)。
一定の期間に利用されたアイテム数が一定数より少ない場合(例えば、新規登録のユーザなど)(S42:NO)、一定期間をP1および/またはP2より広げて一定数のアイテムをアイテムリストとして抽出する(S44)。なお、アイテム数が一定数に満たないユーザの場合は、存在するアイテムのみをアイテムリストとして抽出する。
次に、ユーザ毎に抽出したアイテムリストの各々について、グループ化(シリーズとは異なる、一時的なアイテム集合を意味する)を行う(S45)。具体的には、あるユーザのアイテムリストのアイテムの中から、全ての組み合わせで2つのアイテムを選択し、最小のグループ(アイテム数:2)として連続度テーブルに設定する(S46)。連続度算出部16は、連番などによりユニークなグループ名で、選択したアイテム、ユーザ名を、連続度テーブルに登録する。
例えば、アイテムリストに10個のアイテムがある場合、10=45個のグループが生成される。
図8は、連続度テーブルの一例を示す図である。連続度テーブルには、グループ名、アイテム名、ユーザ名、連続度を有する。連続度については、後述する。
なお、2番目以降のユーザのアイテムリストのグループ化を行う場合、同じアイテム群のグループが既に連続度テーブルに登録されている場合、ユーザ名のみを当該グループのユーザ名の欄に追加する。
全てのユーザのアイテムリストについてS46の処理を行った後、連続度テーブルを更新する。具体的には、アイテムの関係が重複するグループがある場合、アイテムを統合した新規グループを作成し、新規グループのグループ名、ユーザ名、アイテム名を登録するとともに、既存のグループを更新する(S47)。
例えば、グループ1(Item1, Item2)、グループ2(Item2,Item3)、グループ3(Item1,Item3)に同じユーザが存在する場合、グループ4(Item1,Item2,Item3)を新規に作成し、より多いアイテム数を含むグループを作成する。
全てのユーザがグループ4に統合される場合は、グループ1,2,3は削除される。また、グループ4に該当しないユーザが存在する場合は、グループ1,2,3が更新される。すなわち、一部のユーザのみグループ4に移行し、残りのユーザはグループ1,2,3に残る。
また、ユーザが一人しかいないグループについては、連続度テーブルから削除する(S48)。
このようなグループ化の処理が終了すると、次に、連続度を算出する。ここでは、アイテム数の多いグループから順に選択し(S49)、最初のアイテム数が最も多いグループは、S50:YESでS51:YESとなるため、連続度テーブルを参照して当該グループの仮の連続度を下記の式により算出する(S52)。
グループの仮の連続度=グループのアイテム数×グループのユーザ数
そして、次に多いアイテム数を持つグループを選択し(S49)、選択したグループが既に仮の連続度を計算したグループ(アイテム数が多い)とアイテムが包含関係にあるグループの場合であって(S50:YES)、選択したグループのユーザ数が既に仮の連続度を計算したグループ(アイテム数が多い)のユーザ数よりも多い場合は(S51:YES)、選択したグループの仮の連続度を算出する(S52)。
また、選択したグループが、既に仮の連続度を計算したグループ(アイテム数が多い)とアイテムが包含関係にないグループの場合(S50:NO)、選択したグループの仮の連続度を算出する(S53)。
また、選択したグループのユーザ数が既に仮の連続度を計算したグループ(アイテム数が多い)のユーザ数以下の場合は(S51:NO)、選択したグループを連続度テーブルから削除する(S56)。
全てのグループの仮の連続度が計算された後、仮の連続度が一定数(例えば50) 以下のグループは、連続性がないとみなし、連続度テーブルから削除する(S53)。そして、全グループの中で最大の仮の連続度(MAX_seq)を抽出し(S54)、全グループの仮の連続度をMAX_seqで除算した値を、グループの連続度として連続度テーブルに記憶する(S55)。
図9は、シリーズ度算出部18が行う処理(図2:S13〜S16)のフローチャートである。シリーズ度算出部18は連続度算出部16が生成した連続度テーブルの全グループに対して、後述する処理を行うことでグループ毎の類似度およびシリーズ度を算出し、シリーズアイテムを抽出する。
シリーズ度算出部18は、連続度テーブルの全てのグループの各々に対して、S62からS66の処理を行う(S61)。すなわち、対象のグループの全てのアイテムについて、アイテム間の類似度を類似度テーブル(図6参照)から抽出し(S62)、類似度が一定値(例えば0.5)を超えるアイテムのみ保持し、一定値以下のアイテムは連続度テーブルから削除する(S63)。
例えば、対象のグループのアイテムとしてItem1,2,3がある場合、Item1とItem2の類似度が0.6、Item2とItem3の類似度が0.3、Item1とItem3の類似度が0.2である場合、Item1,2のみ残し、Item3を削除する。
そして、アイテム間の類似度の標準偏差に対して、±σの範疇であるアイテムのみ、保持し、それ以外のアイテムは連続度テーブルから削除する(S64)。
そして、現時点で連続度テーブルに保持されている各アイテムのアイテム間の類似度の平均が一定値(例えば0.5)を超える場合、類似度の平均を当該グループの類似度として、連続度テーブルに記憶する(S65)。なお、アイテム間の類似度の平均が一定値以下の場合は、当該グループを連続度テーブルから削除する。
そして、S65で算出した類似度と、連続度算出部16が算出した連続度(図7:S55)を用いて、以下の式により、当該グループのシリーズ度を算出する(S66)。
シリーズ度=類似度×連続度
シリーズ度は、各グループがどれくらいまとまっているかを示す指標として用いられる。例えば、実際のコンテンツ推薦の際に、シリーズ度の高いグループのアイテム群から推薦することが考えられる。
図10は、類似度およびシリーズ度が設定された連続度テーブルの一例である。
連続度テーブルの全てのグループについて、類似度およびシリーズ度を算出した後、以下の判定処理により、各グループが「シリーズアイテム群」、「同質アイテム群」、「まとめ見アイテム群」、のいずれかに該当するかを判別する。
具体的には、類似度が一定値A(第1の閾値)より大きく(S67:YES)、連続度が一定値B(第2の閾値)より大きいグループの場合(S68:YES)、当該グループのアイテム群を、ユーザが続けて利用したくなるアイテム群(シリーズアイテム群)と判別する(S69)。
なお、推薦エンジン(不図示)の結果リストにおいて、当該アイテム群(シリーズアイテム群)がある場合は、ユーザの利用ログで未利用となっている最も若い話数を持つアイテムに変換することで、ユーザが直前に見たアイテムの次の話数を推薦して推薦エンジンの精度を高めることができる(S70)。
また、類似度が一定値A(第1の閾値)より大きく(S67:YES)、連続度が一定値B(第2の閾値)以下のグループの場合(S68:NO)、当該グループのアイテム群を、メタデータとしては関連性が強いが、ユーザからはまとめて見られる傾向がないアイテム群(同質アイテム群)と判別する(S71)。
なお、推薦エンジン(不図示)の結果リストにおいて、当該アイテム群(同質アイテム群)が複数ある場合は、ユーザの利用ログに類似するアイテムを選択し、そうでないアイテムを削除することで、推薦エンジンの精度をより高めることができる(S72)。
また、類似度が一定値A(第1の閾値)以下で(S67:NO)、連続度が一定値C(第3の閾値)より大きいグループの場合(S73:YES)、当該グループのアイテム群を、メタデータでは関連性は明確ではないが、ユーザからはまとまって見られる可能性の高いアイテム群(まとめ見パックアイテム群)と判別する(S74)。
なお、推薦エンジン(不図示)の結果リストにおいて、当該アイテム群(まとめ見パックアイテム群)に含まれるアイテムがある場合は、そのアイテムと連続度が高く、かつ、同じシリーズアイテムではないまとめ見パックアイテムを推薦して推薦エンジンの精度を高めることができる(S75)。
また、類似度が一定値A(第1の閾値)以下で(S67:NO)、連続度が一定値C(第3の閾値)以下のグループの場合(S73:NO)、当該グループのアイテム群を、シリーズ等としてまとめるのには相応しくないと判定し、当該グループを連続度テーブルから削除する(S76)。
以上説明した本実施形態では、メタデータから把握されるアイテムの類似度に加えて、アイテムの連続度を指標とし、ユーザが続けて利用したくなるアイテム群(シリーズアイテム群)を抽出する。これにより、本実施形態では、より適切な、精度の高いシリーズアイテム群を抽出することができる。また、メタデータの運用いかんに関わらず、シリーズアイテムの抽出が可能になる。
また、本実施形態では、類似度および連続度が比較的大きいグループのアイテム群をシリーズアイテム群として抽出する。これにより、例えば、あるアイテムを視聴した後に、シリーズアイテムの次の話数を推薦することで、精度の高い推薦を行うことができる。
あるいは、協調フィルタリング系の推薦アルゴリズムにおいて、一つのシリーズアイテム内で複数の話数が視聴された場合に、重み付けを低く設定することで、精度を高く推薦を行うことができる(まとまりのあるコンテンツを複数回推薦せずに、ほかのコンテンツを推薦できる)。
また、本実施形態では、類似度が比較的小さく、連続度が比較的大きいグループのアイテム群を、メタデータでは関連性が明確ではないが、ユーザからはまとまって見られる可能性の高いアイテム群を、まとめ見パックアイテムとして抽出することができる。これによって、メタデータだけでは実現できず、協調フィルタリングのユーザログベースの関連性の高さとも異なる、連続性を持つアイテム群を推薦することができる。
また、本実施形態では、類似度が比較的大きく、連続度が比較的小さいグループのアイテム群を、メタデータとしては関連性が強いが、ユーザからはまとめて見られる傾向がない同質アイテム群として抽出することができる。これによって、同じコンテンツの再放送や画質違いのコンテンツ(高精細度(HD:High Definition)のコンテンツと標準精細度(SD:Standard Definition)のコンテンツ)を判別することができ、過去に同じコンテンツを視聴したユーザに、タイトルなどは微妙に違うが中身は同じコンテンツを推薦せずにすみ、推薦の精度をあげることができる。
また、本実施形態では、類似度に連続度を乗算してシリーズ度を算出することで、段階的なシリーズアイテムらしさをパラメータとして取得することができる。
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
11:メタデータ記憶部
12:メタデータ設定テーブル
13:類似度算出部
14:記憶部
15:ログ記憶部
16:連続度算出部
17:記憶部
18:シリーズ度算出部

Claims (8)

  1. シリーズアイテム群抽出システムであって、
    複数のアイテムのメタデータが記憶されるメタデータ記憶手段と、
    複数のユーザのアイテム利用履歴が記憶されるログ記憶手段と、
    前記メタデータ記憶手段のメタデータを用いて、アイテム間の類似度を算出する類似度算出手段と、
    前記ログ記憶手段のアイテム利用履歴を用いて、所定の期間においてユーザが2つ以上のアイテムを連続して利用している履歴を元に、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を各グループのアイテム数を用いて算出する連続度算出手段と、
    前記類似度算出手段が算出したアイテム間の類似度を用いて各グループに属するアイテム群の類似度を算出するとともに、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出手段と、を備えること
    を特徴とするシリーズアイテム群抽出システム。
  2. シリーズアイテム群抽出システムであって、
    複数のアイテムのメタデータが記憶されるメタデータ記憶手段と、
    複数のユーザのアイテム利用履歴が記憶されるログ記憶手段と、
    前記メタデータ記憶手段のメタデータを用いて、アイテム間の類似度を算出する類似度算出手段と、
    前記ログ記憶手段のアイテム利用履歴を用いて、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を算出する連続度算出手段と、
    前記類似度算出手段が算出したアイテム間の類似度を用いて各グループに属するアイテム群の類似度を算出するとともに、類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出手段と、を備え、
    前記アイテム群抽出手段は、類似度が第1の閾値より大きく、連続度が第2の閾値以下のグループに属するアイテム群を、メタデータにおける関連性が高い同質アイテム群として抽出すること
    を特徴とするシリーズアイテム群抽出システム。
  3. 請求項1または請求項2に記載のシリーズアイテム群抽出システムであって、
    前記アイテム群抽出手段は、類似度が第1の閾値より小さく、連続度が第3の閾値より大きいグループに属するアイテム群を、まとまって利用される可能性が高いパックアイテム群として抽出すること
    を特徴とするシリーズアイテム群抽出システム。
  4. 請求項1または請求項2に記載のシリーズアイテム群抽出システムであって、
    前記アイテム群抽出手段は、各グループのシリーズ度を、類似度に連続度を乗じて算出すること
    を特徴とするシリーズアイテム群抽出システム。
  5. コンピュータが行うシリーズアイテム群抽出方法であって、
    前記コンピュータは、
    複数のアイテムのメタデータが記憶されるメタデータ記憶部と、
    複数のユーザのアイテム利用履歴が記憶されるログ記憶部と、を備え、
    前記メタデータ記憶部のメタデータを用いて、アイテム間の類似度を算出する類似度算出ステップと、
    前記ログ記憶部のアイテム利用履歴を用いて、所定の期間においてユーザが2つ以上のアイテムを連続して利用している履歴を元に、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を各グループのアイテム数を用いて算出する連続度算出ステップと、
    前記類似度算出ステップで算出したアイテム間の類似度を用いて、各グループに属するアイテム群の類似度を算出するグループ類似度算出ステップと、
    類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出ステップと、を行うこと
    を特徴とするシリーズアイテム群抽出方法。
  6. コンピュータが行うシリーズアイテム群抽出方法であって、
    前記コンピュータは、
    複数のアイテムのメタデータが記憶されるメタデータ記憶部と、
    複数のユーザのアイテム利用履歴が記憶されるログ記憶部と、を備え、
    前記メタデータ記憶部のメタデータを用いて、アイテム間の類似度を算出する類似度算出ステップと、
    前記ログ記憶部のアイテム利用履歴を用いて、連続して利用される可能性が高いアイテム群をグループ化し、各グループのアイテム群の連続度を算出する連続度算出ステップと、
    前記類似度算出ステップで算出したアイテム間の類似度を用いて、各グループに属するアイテム群の類似度を算出するグループ類似度算出ステップと、
    類似度が第1の閾値より大きく、連続度が第2の閾値より大きいグループに属するアイテム群を、シリーズアイテム群として抽出するアイテム群抽出ステップと、を行い、
    前記アイテム群抽出ステップは、類似度が第1の閾値より大きく、連続度が第2の閾値以下のグループに属するアイテム群を、メタデータにおける関連性が高い同質アイテム群として抽出すること
    を特徴とするシリーズアイテム群抽出方法。
  7. 請求項5または請求項6に記載のシリーズアイテム群抽出方法であって、
    前記アイテム群抽出ステップは、類似度が第1の閾値より小さく、連続度が第3の閾値より大きいグループに属するアイテム群を、まとまって利用される可能性が高いパックアイテム群として抽出すること
    を特徴とするシリーズアイテム群抽出方法。
  8. 請求項1から請求項4のいずれか一項に記載のシリーズアイテム群抽出システムとしてコンピュータを機能させるためのシリーズアイテム群抽出プログラム。
JP2011091927A 2011-04-18 2011-04-18 シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム Active JP5727846B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011091927A JP5727846B2 (ja) 2011-04-18 2011-04-18 シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011091927A JP5727846B2 (ja) 2011-04-18 2011-04-18 シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム

Publications (2)

Publication Number Publication Date
JP2012226470A JP2012226470A (ja) 2012-11-15
JP5727846B2 true JP5727846B2 (ja) 2015-06-03

Family

ID=47276587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011091927A Active JP5727846B2 (ja) 2011-04-18 2011-04-18 シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム

Country Status (1)

Country Link
JP (1) JP5727846B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6816899B2 (ja) * 2019-04-19 2021-01-20 Bhi株式会社 購入又は予約メールの解析による最適化された取引リコメンドシステム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007312174A (ja) * 2006-05-19 2007-11-29 Sharp Corp 記録再生装置及び記録再生方法
JP2008204235A (ja) * 2007-02-21 2008-09-04 Hitachi Ltd 非類似アイテム推薦方法、推薦装置、及びプログラム
JP2009049516A (ja) * 2007-08-14 2009-03-05 Sony Corp 録画再生装置及び録画再生方法、並びにプログラム
JP4678546B2 (ja) * 2008-09-08 2011-04-27 ソニー株式会社 推薦装置および方法、プログラム、並びに記録媒体

Also Published As

Publication number Publication date
JP2012226470A (ja) 2012-11-15

Similar Documents

Publication Publication Date Title
JP5802745B2 (ja) インテリジェントナビゲーションの方法、装置、およびシステム
CN104160712B (zh) 关联媒体节目的计算机实现的方法、处理电路系统和计算机可读介质
US8234306B2 (en) Information process apparatus, information process method, and program
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US8417692B2 (en) Generalized edit distance for queries
KR100923505B1 (ko) 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법
JP4797069B2 (ja) キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
CN105426514A (zh) 个性化的移动应用app推荐方法
JP2007018285A (ja) 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
WO2017173801A1 (zh) 一种个性化多媒体推荐方法和装置
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
CN105426550A (zh) 一种基于用户质量模型的协同过滤标签推荐方法及系统
Chiny et al. Netflix recommendation system based on TF-IDF and cosine similarity algorithms
JP2018073429A (ja) 検索装置、検索方法および検索プログラム
JP5281104B2 (ja) 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
CN102982018A (zh) 信息处理设备、信息处理方法和程序
JP5406794B2 (ja) 検索クエリ推薦装置及び検索クエリ推薦プログラム
JP2012008900A (ja) 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム
CN108140034B (zh) 使用主题模型基于接收的词项选择内容项目
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
JP5727846B2 (ja) シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
JP6310529B1 (ja) 検索装置、検索方法および検索プログラム
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150403

R150 Certificate of patent or registration of utility model

Ref document number: 5727846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150