JP5908338B2

JP5908338B2 - 特徴語選定サーバ及び特徴語選定方法

Info

Publication number: JP5908338B2
Application number: JP2012107406A
Authority: JP
Inventors: 勝広野口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-05-09
Filing date: 2012-05-09
Publication date: 2016-04-26
Anticipated expiration: 2032-05-09
Also published as: JP2013235421A

Description

本発明は、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバと、当該特徴語選定サーバが行う特徴語選定方法とに関する。

従来、動画や商品等のコンテンツの購入、視聴、閲覧、クリック等の行動がユーザによって行われた場合に、ユーザ行動の対象となったコンテンツのメタデータ（コンテンツに対して記録された関連情報を有するデータ）の出現回数等について計算処理した結果に基づいて、ユーザに対して推薦（レコメンド）するコンテンツを選定する装置が提案されている。

例えば特許文献１に記載の情報処理装置では、行方向又は列方向の少なくとも一方にユーザのプロファイルデータ及びコンテンツのメタデータのデータ項目を有する行列形式のデータ構造でデータを保持している。この構成により、多くの計算処理を単純化して、これにより、様々なアルゴリズムを柔軟に組み合わせることを可能にしている。

ここで、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するためには、上述のユーザ行動の対象となったコンテンツの特徴を示す単語である特徴語を、多くのメタデータから適切に選定することも重要である。

特開２００９−２８９０９２号公報

ところで、表示されるコンテンツの更新頻度が高いニュースサイトや放送サイト等のサービスドメイン、及びコンテンツの表示を新規に行う情報提供サイト等のサービスドメインにおいて、これらのサービスドメインにおけるコンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴は、少ない又は殆ど無い。このため、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが殆ど不可能である。

そこで本発明は、上述の問題点を解消する為になされたものであり、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することを目的とする。

本発明の一形態に係る特徴語選定サーバは、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバであって、複数のコンテンツのメタデータから特徴語の候補を抽出する特徴語候補抽出手段と、コンテンツの検索のために入力された複数のキーワードの履歴情報を取得する取得手段と、取得手段により取得された履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報を生成する生成手段と、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を複数選択する品詞選択手段と、前記特徴語候補抽出手段により抽出された前記特徴語の候補のうち、品詞選択手段により選択された複数の頻出品詞に対応する特徴語を選択する特徴語選択手段と、を備えることを特徴とする。

この特徴語選定サーバによれば、まず、入力された複数のキーワードの履歴情報が取得され、この履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応する特徴語が選択される。これにより、特徴語が品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択されるため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなる。この結果、それぞれの品詞毎に適切な量の特徴語が選択される可能性が高くなることから、ユーザの嗜好に合う推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度で特徴語を選定することが可能になる。また、入力された複数のキーワードの履歴情報に基づいて上述の特徴語が選択されるため、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することが可能になる。

別の形態に係る特徴語選定サーバでは、特徴語選択手段は、品詞選択手段により選択された複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、特徴語の候補から選択してもよい。

この形態では、選択された複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語が特徴語の候補から選択されるため、複数の頻出品詞のそれぞれの出現割合を考慮した特徴語を選択することが可能になる。

別の形態に係る特徴語選定サーバでは、品詞選択手段は、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの頻出品詞を複数選択し、第一所定順位は、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位であってもよい。

この形態では、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位から頻出品詞が複数選択される。これにより、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値より大きい品詞であるために特徴になり難い頻出品詞を、除くことが可能になる。

別の形態に係る特徴語選定サーバでは、品詞選択手段は、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの頻出品詞を複数選択し、第一所定順位は、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位であってもよい。

この形態では、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位から頻出品詞が複数選択される。これにより、複数の品詞が出現回数の多い順に並べられた場合の一番目に高い順位であるために特徴になり難い頻出品詞を、除くことが可能になる。

別の形態に係る特徴語選定サーバでは、第二所定順位は、複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位であってもよい。

この形態では、複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位が、第二所定順位になる。これにより、複数の品詞のそれぞれの出現回数の平均回数以上出現した頻出品詞を選択することが可能になる。

本発明の一形態に係る特徴語選定方法は、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバが行う特徴語選定方法であって、複数のコンテンツのメタデータから特徴語の候補を特徴語選定サーバが抽出する特徴語候補抽出ステップと、コンテンツの検索のために入力された複数のキーワードの履歴情報を特徴語選定サーバが取得する取得ステップと、取得ステップにより取得された履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報を特徴語選定サーバが生成する生成ステップと、生成ステップにより生成された分類情報を特徴語選定サーバが用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を特徴語選定サーバが複数選択する品詞選択ステップと、特徴語候補抽出ステップにより抽出された特徴語の候補のうち、品詞選択ステップにより選択された複数の頻出品詞に対応する特徴語を特徴語選定サーバが選択する特徴語選択ステップと、を有することを特徴とする。

この特徴語選定方法によれば、まず、入力された複数のキーワードの履歴情報が取得され、この履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応する特徴語が選択される。これにより、特徴語が品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択されるため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなる。この結果、それぞれの品詞毎に適切な量の特徴語が選択される可能性が高くなることから、ユーザの嗜好に合う推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度で特徴語を選定することが可能になる。また、入力された複数のキーワードの履歴情報に基づいて上述の特徴語が選択されるため、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することが可能になる。

本発明によれば、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に選定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することができる。

レコメンドサーバを含むシステム全体の機能構成の概略を説明するための機能構成図である。レコメンドサーバの物理構成の概略を説明するための物理構成図である。分類情報の例を示すテーブル構成図である。品詞出現数を横軸とする確率密度関数を表すグラフである。特徴語優先度判定部により選択された複数の頻出品詞のそれぞれの出現割合を示す表である。頻出品詞に対応する特徴語抽出の例を示す表である。レコメンドエンジンによる特徴語選定処理の流れを示すフローチャートである。

以下、添付図面を参照しながら本発明の好適な実施形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明を省略する。

（１）システム全体の構成
まず、本実施形態に係る特徴語選定サーバとしてのレコメンドサーバを含むシステム全体の構成について、図１を用いて説明する。図１は、レコメンドサーバ１００を含むシステム全体の構成の概略を説明するための機能構成図であり、図２は、レコメンドサーバ１００の物理構成の概略を説明するための物理構成図である。レコメンドサーバ１００は、複数のコンテンツ（商品コンテンツを含む）のメタデータから、ユーザの嗜好に合うと思われるコンテンツを特定するための特徴語を選定して、特徴語を多数集録した辞書である特徴辞書を生成するコンピュータ装置である特徴辞書チューニングシステム２０と、上述の特徴辞書を用いてユーザに対してコンテンツを推薦（レコメンド）するコンピュータ装置であるレコメンドシステム１０との集合体である。

サービスドメインＳは、動画サイト、商品サイト、店舗サイト、ニュースサイト等を有して構成される、サービスプロバイダが管理する情報提供及び商品販売サイト群である。各サイトからは、レコメンドサーバ１００に対してコンテンツのメタデータの登録が可能である。クライアント端末Ｃは、スマートフォンＳＰ、コンピュータ端末ＰＣ等のユーザ端末であり、レコメンドサーバ１００に対して、フリーワード入力や履歴登録等を行うとともに、レコメンドサーバ１００よりレコメンド結果を取得する。

レコメンドサーバ１００は、図２に示されるように、主な物理的な構成要素としてＣＰＵ１（Central Processing Unit）、主記憶装置であるＲＡＭ２（Random Access Memory）及びＲＯＭ３（Read Only Memory）、通信を行うための通信モジュール４、並びにハードディスク等の補助記憶装置５等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が動作することにより、レコメンドサーバ１００の機能が発揮される。

レコメンドサーバ１００は、図１に示されるように、主な機能的な構成要素として、レコメンドシステム１０及び特徴辞書チューニングシステム２０を備えている。レコメンドシステム１０は、フリーワードデータＤＢ１１（取得手段）、メタデータＤＢ１２、ログＤＢ１３、ユーザプロファイルＤＢ１４、及びレコメンドプールＤＢ１５を有している。また、特徴辞書チューニングシステム２０は、フリーワード品詞抽出部２１（生成手段）、メタデータ特徴語抽出部２２（特徴語候補抽出手段）、特徴別利用ユーザ数計算部２３、特徴別利用コンテンツ数計算部２４、特徴語優先度判定部２５（品詞選択手段）、特徴語追加部２６（特徴語選択手段）、特徴語削除部２７（特徴語選択手段）、及びバージョン管理部２８を有している。

まず、レコメンドシステム１０の各機能について説明する。フリーワードデータＤＢ１１は、ユーザによってコンテンツの検索のために任意に入力された複数のフリーワード（検索用キーワード、コンテンツや商品に対するコメントとしてのキーワード等）の入力の履歴情報を取得して管理するデータベースである。ユーザは、スマートフォンＳＰ、コンピュータ端末ＰＣ等のクライアント端末Ｃに設けられているフリーワード入力ＩＦを用いて、フリーワードを任意に複数入力することができる。フリーワード入力ＩＦは、ユーザによる任意のワードの入力を受け付けてフリーワード検索を可能にするための入力欄等を表示するインタフェースである。入力されたフリーワード等の情報は、無線通信等によりフリーワードデータＤＢ１１に送信される。

メタデータＤＢ１２は、サービスドメインＳ内に予め格納されている多数のコンテンツから上述のメタデータを取得して管理するデータベースである。サービスドメインＳ内のコンテンツを管理する事業者等は、コンテンツを管理する管理サーバ等に設けられているメタデータ登録ＩＦを用いて、メタデータを登録する。メタデータ登録ＩＦは、入力データとして指定されたコンテンツからメタデータを抽出して出力データとしてメタデータを登録するためのインタフェースである。

ログＤＢ１３は、ユーザによる動画や商品等のコンテンツの購入、視聴、閲覧、クリック等の行動の履歴情報を取得して管理するデータベースである。ユーザの行動の履歴情報は、クライアント端末Ｃにおいて履歴登録ＩＦが動作することにより取得される。履歴登録ＩＦは、クライアント端末Ｃにおけるユーザ行動をログとして登録するためのインタフェースである。

ユーザプロファイルＤＢ１４は、クライアント端末Ｃを利用するユーザに関するプロファイル情報を取得して管理するデータベースである。プロファイル情報は、クライアント端末Ｃにおいてプロファイル登録ＩＦが動作することにより取得される。プロファイル登録ＩＦは、クライアント端末Ｃにおけるプロファイル情報を取得して登録するためのインタフェースである。

レコメンドプールＤＢ１５は、サービスドメインＳにおいて予め定められた変換ルールに沿った形式に上述の特徴語を推薦情報として調整及び変換してクライアント端末Ｃに出力するデータベースである。変換された特徴語である推薦情報は、レコメンド取得ＩＦによりクライアント端末Ｃに出力される。レコメンド取得ＩＦは、変換された推薦情報をクライアント端末Ｃに出力するためのインタフェースである。

次に特徴辞書チューニングシステム２０の各機能について説明する。フリーワード品詞抽出部２１は、フリーワードデータＤＢ１１により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類された分類情報を生成する演算処理部である。本実施形態における品詞には、「名詞」のような文法上の分類に加えて、「ＬＯＣ」（地名）、「ＯＲＧ」（組織名や社名）、「名詞：動作」、「ＰＳＮ」（人名）等のそれぞれの単語が表す意味による分類も含まれる。分類情報の例についての詳細は後述する。

メタデータ特徴語抽出部２２は、メタデータＤＢ１２により取得されたメタデータから単語を抽出することにより、メタデータから特徴語の候補を抽出する演算処理部である。例えば、メタデータ特徴語抽出部２２は、メタデータの出現回数が多いほど、メタデータに含まれる単語を特徴語の候補として抽出しやすくする。

特徴別利用ユーザ数計算部２３は、ログＤＢ１３により取得されたユーザ行動履歴情報に基づいて、特定の特徴語を用いたコンテンツを利用した履歴のあるユーザの数を算出する演算を行う演算処理部である。

特徴別利用コンテンツ数計算部２４は、ログＤＢ１３により取得されたユーザ行動履歴情報に基づいて、特定の特徴語を用いたコンテンツの数を算出する演算を行う演算処理部である。

特徴語優先度判定部２５は、フリーワード品詞抽出部２１、メタデータ特徴語抽出部２２、特徴別利用ユーザ数計算部２３、及び特徴別利用コンテンツ数計算部２４による演算結果を用いて、フリーワードから特徴語を選択するための条件を決定する演算処理部である。例えば、特徴語優先度判定部２５は、フリーワード品詞抽出部２１により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する。そして、特徴語優先度判定部２５は、特徴別の利用に基づく選定より優先して、この頻出品詞に対応するフリーワードを特徴語として選択するための条件に決定する。

なお、特徴語優先度判定部２５においては、上述の複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位を、第一所定順位としてもよい。累積分布関数の値とは、例えば、対象の品詞に関する後述の「累積分布関数ＮＯＲＭＤＩＳＴ値」で示される値のことである。また、所定値は、例えば０．８（８０％）である。ここで示された例によれば、「累積分布関数ＮＯＲＭＤＩＳＴ値」が０．８（８０％）以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位が、第一所定順位となる。

また、特徴語優先度判定部２５においては、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位を、第一所定順位としてもよい。

更に、特徴語優先度判定部２５においては、上述の複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位を、第二所定順位としてもよい。第一所定順位及び第二所定順位の例についての詳細は後述する。

特徴語追加部２６は、特徴語優先度判定部２５により選択された複数の頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択し、選択の結果、追加が必要となった特徴語を追加するデータ処理部である。また、特徴語追加部２６は、特徴語優先度判定部２５により選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択することが可能である。特徴語追加部２６による特徴語の選択方法の例に関する詳細は後述する。

特徴語削除部２７は、特徴語優先度判定部２５により選択された複数の頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択し、選択の結果、削除が必要となった特徴語を削除するデータ処理部である。なお、特徴語削除部２７は、特徴語優先度判定部２５により選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択することが可能である。特徴語削除部２７による特徴語の選択方法の例に関する詳細は後述する。

バージョン管理部２８は、特徴語追加部２６による特徴語の追加、及び特徴語削除部２７による特徴語の削除が行われた後の特徴辞書のバージョン管理を行う記憶管理部である。

（２）分類情報の例
引き続き、フリーワード品詞抽出部２１により生成される分類情報の例について、図３及び図４を用いて説明する。図３は、分類情報の例を示すテーブル構成図であり、図４は、この分類情報における品詞出現数を横軸とする確率密度関数を表すグラフである。

上述したように、フリーワード品詞抽出部２１は、フリーワードデータＤＢ１１により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類されたかを表す分類情報を生成する。次に、フリーワード品詞抽出部２１は、分類情報を基に、１種類の品詞あたりの品詞出現数の平均及び標準偏差を求める。図３に示された例では、合計８３６件のフリーワードのそれぞれが１６種類の品詞に分類されている。この分類情報において、１種類の品詞あたりの品詞出現数の平均ｍは５２．２５である。また、この分類情報において、分散σ^２（即ち、１６種類の品詞のそれぞれの品詞出現数と平均の品詞出現数との差のそれぞれを自乗して得られる値の総和の、１種類の品詞あたりの平均）は、１１１９６．４３８である。更に、標準偏差σは１０５．８１３である。

その後、フリーワード品詞抽出部２１は、上記平均及び標準偏差に対応する確率密度関数を基に累積分布関数ＮＯＲＭＤＩＳＴ値（平均ｍと標準偏差σの正規分布において，ある値までの累積分布の値）を計算する。図４に示された例では、品詞「ＬＯＣ」に対応する累積分布関数ＮＯＲＭＤＩＳＴ値は、ハッチで表された領域の面積で表すことができ、その値は「０．７３６」となる。

（３）特徴語優先度判定
次に、特徴語優先度判定部２５における特徴語優先度判定処理について説明する。特徴語優先度判定部２５は、フリーワード品詞抽出部２１により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する。特徴語優先度判定部２５は、例えば、上述の複数の品詞に対する累積分布関数ＮＯＲＭＤＩＳＴ値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位を第一所定順位と設定してもよい。ここでは、上述の所定値は、０．８（８０％）であると予め設定されているとする。このため、「累積分布関数ＮＯＲＭＤＩＳＴ値が０．８（８０％）以下の複数の品詞のうち、品詞出現数の最多の品詞である「ＬＯＣ」の順位が、第一所定順位であると設定される。

この第一所定順位は、上述のように累積分布関数の値に基づいて設定される代わりに、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位と設定されてもよい。

更に、特徴語優先度判定部２５においては、上述の複数の品詞のそれぞれの出現回数の平均回数（５２．２５）以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位である「Ｎｏ．５」の「ＰＳＮ」が、第二所定順位であると設定されてもよい。

そして、特徴語優先度判定部２５においては、フリーワード品詞抽出部２１により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位（「Ｎｏ．２」の「ＬＯＣ」）から第二所定順位（「Ｎｏ．５」の「ＰＳＮ」）までの頻出品詞（「ＬＯＣ」、「ＯＲＧ」、「名詞：動作」、「ＰＳＮ」の４種類）が、複数選択される。

なお、図３は、サービスドメインＳがニュースサイトである場合の分類情報の例を示しており、サービスドメインＳがニュースサイトである場合、他の商品やコンテンツと比較して「ＬＯＣ」（地名）の品詞が多い。一方、サービスドメインＳが書籍販売サイトである場合、他の商品やコンテンツと比較して「ＰＳＮ」（人名）の品詞が多いものと想定される。このように、サービスドメイン毎に検索に用いられるフリーワードの品詞が異なるため、複数の頻出品詞のそれぞれの出現割合を考慮することで、より各サービスドメインの特徴に合致した特徴語を選択することが可能になる。

（４）特徴語の選択方法の例
引き続き、特徴語追加部２６及び特徴語削除部２７による特徴語の選択方法の例について、図５及び図６を用いて説明する。図５は、特徴語優先度判定部２５により選択された複数の頻出品詞のそれぞれの出現割合を示す表であり、図６は、この出現割合に応じた数だけ、頻出品詞に対応する特徴語を選択する選択方法を表す表である。

上述したように、頻出品詞として「ＬＯＣ」（地名）、「ＯＲＧ」（組織名や社名）、「名詞：動作」、「ＰＳＮ」（人名）の４種類が、図５に示すように選択され、この４種類の頻出品詞における出現割合がそれぞれの頻出品詞について算出されている。例えば、頻出品詞が「ＬＯＣ」（地名）の出現割合は「３７％」である。

ここで、特徴語追加部２６及び特徴語削除部２７は、この出現割合に応じた数だけ、頻出品詞に対応する特徴語を、メタデータ特徴語抽出部２２により抽出された特徴語の候補から選択する。例えば、図６（Ａ）に示すような特徴語の候補がメタデータ特徴語抽出部２２により抽出されたとする。このうち特徴語として合計１１個の特徴語を選択する場合、１１個の「３７％」（「ＬＯＣ」）は約４個に相当するため、「ＬＯＣ」（地名）に分類されたフリーワードから上位４個の名詞である「中国」、「東京」、「米」、「米国」が選択される。同様に、「ＯＲＧ」（組織名や社名）、「名詞：動作」、「ＰＳＮ」（人名）についても特徴語を選択することにより、図６（Ｂ）に表す１１個の特徴語を選択することができる。

（５）特徴語選定処理の流れ
引き続き、レコメンドサーバ１００による特徴語選定処理の流れ（特徴語選定方法）について、図７を用いて説明する。図７は、レコメンドサーバ１００による特徴語選定処理の流れを示すフローチャートである。図７のフローチャートに示される処理は、レコメンドサーバ１００の電源がオンされてからオフされるまでの間、所定のタイミングで繰り返し実行される。

まず、メタデータ特徴語抽出部２２が、メタデータＤＢ１２により取得されたメタデータから単語を抽出することにより、メタデータから特徴語の候補を抽出しておく（特徴語候補抽出ステップ）。そして、フリーワードデータＤＢ１１が、ユーザによってコンテンツの検索のために任意に入力された複数のフリーワード（キーワード）の入力の履歴情報を取得して管理する（ステップＳ０１、取得ステップ）。そして、フリーワード品詞抽出部２１が、フリーワードデータＤＢ１１により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類された分類情報を生成する（ステップＳ０２、生成ステップ）。

次に、特徴語優先度判定部２５が、フリーワード品詞抽出部２１により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する（ステップＳ０３、品詞選択ステップ）。そして、特徴語追加部２６及び特徴語削除部２７が、特徴語優先度判定部２５により選択された複数の頻出品詞のそれぞれの出現割合を算出する（ステップＳ０４、特徴語選択ステップ）。

次に、特徴語追加部２６及び特徴語削除部２７は、算出された出現割合に応じた数だけ、頻出品詞に対応する特徴語を、メタデータ特徴語抽出部２２が抽出した特徴語候補から選択する（ステップＳ０５、特徴語選択ステップ）。そして、一連の処理が終了する。

（６）本実施形態による作用及び効果
引き続き、本実施形態に係るレコメンドサーバ１００による作用及び効果について説明する。レコメンドサーバ１００によれば、まず、入力された複数のフリーワードの履歴情報（フリーワード入力型ユーザ行動履歴）が取得され、この履歴情報に基づいて、複数のフリーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応するフリーワードが複数のコンテンツのメタデータから特徴語として選択される。

これにより、フリーワードが品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択される。このため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなって推薦精度が向上する。この結果、それぞれの品詞毎にバランス良く特徴語が選択される可能性が高くなる。

このことから、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語を、より高い推薦精度で効率的に選定することが可能になる。また、入力された複数のフリーワードの履歴情報に基づいて上述の特徴語が選択されるため、サービスドメインにおけるコンテンツ及び販売商品の内容更新前でも、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することができる。

また、上述のフリーワード入力型ユーザ行動履歴に基づく特徴辞書のチューニングが可能となり、サービスドメインＳに対するＰＶ（ページビュー）やＣＴＲ（クリックスルーレート）といったＫＰＩ（キーパフォーマンスインジケータ）を向上させることができる。

また、レコメンドサーバ１００によれば、図５及び図６に示されるように、選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語が選択されるため、複数の頻出品詞のそれぞれの出現割合を考慮して特徴語を選択することが可能になる。

また、レコメンドサーバ１００によれば、図３及び図４に示されるように、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位から頻出品詞が複数選択される。これにより、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値より大きい品詞であるために特徴になり難い頻出品詞を、除くことが可能になる。

上述のように特定の商品の特徴を示し難い頻出品詞を除くことによる効果を、具体例を挙げて説明する。例えば、多くの種類のチーズ商品が販売されるＷｅｂサイト等のサービスドメインにおいて、「黄色」という「名詞」は、図３に示されるように、大半のチーズ商品のメタデータに含まれる特徴語となる。このため、「黄色」等の名詞は、特定のチーズ商品の特徴になり難い頻出品詞となることから、「黄色」等の名詞を特徴語として選定した結果に基づく推薦商品の適切性（推薦精度）は低くなってしまう。

これに対して、レコメンドサーバ１００によれば、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値（例えば０．８）以下の品詞（「ＬＯＣ」以下の名詞）の中から頻出品詞が選択される。このため、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値（０．８）より大きい品詞（「名詞」）が除かれるため、特徴になり難い頻出品詞に属する「黄色」等の名詞を、除くことが可能になる。この結果、推薦商品の適切性（推薦精度）を高めることができる。

また、レコメンドサーバ１００によれば、図３に示されるように、複数の品詞のそれぞれの出現回数の平均回数（５２．２５）以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位が、第二所定順位になる。これにより、複数の品詞のそれぞれの出現回数の平均回数以上出現した頻出品詞を選択することが可能になる。

（７）変形例
上述の実施例では、上述の複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位を、第二所定順位としている。

しかしながら、第二所定順位を決定するためのルールは特に限定されず、例えば、上述の複数の品詞が出現回数の多い順に並べられた場合の所定順位（例えば五番目に高い順位）を、第二所定順位とするルールを予め決定しておいてもよい。

本発明によれば、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することができる。

１０…レコメンドシステム、１１…フリーワードデータＤＢ、１２…メタデータＤＢ、１３…ログＤＢ、１４…ユーザプロファイルＤＢ、１５…レコメンドプールＤＢ、２０…特徴辞書チューニングシステム、２１…フリーワード品詞抽出部、２２…メタデータ特徴語抽出部、２３…特徴別利用ユーザ数計算部、２４…特徴別利用コンテンツ数計算部、２５…特徴語優先度判定部、２６…特徴語追加部、２７…特徴語削除部、２８…バージョン管理部、１００…レコメンドサーバ、Ｃ…クライアント端末、ＰＣ…コンピュータ端末、Ｓ…サービスドメイン、ＳＰ…スマートフォン。

Claims

複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバであって、
前記複数のコンテンツのメタデータから特徴語の候補を抽出する特徴語候補抽出手段と、
コンテンツの検索のために入力された複数のキーワードの履歴情報を取得する取得手段と、
前記取得手段により取得された前記履歴情報に基づいて、前記複数のキーワードが複数の品詞に分類された分類情報を生成する生成手段と、
前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を複数選択する品詞選択手段と、
前記特徴語候補抽出手段により抽出された前記特徴語の候補のうち、前記品詞選択手段により選択された複数の前記頻出品詞に対応する特徴語を選択する特徴語選択手段と、
を備えることを特徴とする特徴語選定サーバ。
前記特徴語選択手段は、前記品詞選択手段により選択された前記複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、前記頻出品詞に対応する特徴語を、前記特徴語の候補から選択する、
ことを特徴とする請求項１に記載の特徴語選定サーバ。
前記品詞選択手段は、前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの前記頻出品詞を複数選択し、
前記第一所定順位は、前記複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、前記複数の品詞が出現回数の多い順に並べられた場合の最も高い順位である、
ことを特徴とする請求項１又は２に記載の特徴語選定サーバ。
前記品詞選択手段は、前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの前記頻出品詞を複数選択し、
前記第一所定順位は、前記複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位である、
ことを特徴とする請求項１又は２に記載の特徴語選定サーバ。
前記第二所定順位は、前記複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、前記複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位である、
ことを特徴とする請求項３又は４に記載の特徴語選定サーバ。
複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバが行う特徴語選定方法であって、
前記複数のコンテンツのメタデータから特徴語の候補を前記特徴語選定サーバが抽出する特徴語候補抽出ステップと、
コンテンツの検索のために入力された複数のキーワードの履歴情報を前記特徴語選定サーバが取得する取得ステップと、
前記取得ステップにより取得された前記履歴情報に基づいて、前記複数のキーワードが複数の品詞に分類された分類情報を前記特徴語選定サーバが生成する生成ステップと、
前記生成ステップにより生成された前記分類情報を前記特徴語選定サーバが用いて、前記複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を前記特徴語選定サーバが複数選択する品詞選択ステップと、
前記特徴語候補抽出ステップにより抽出された前記特徴語の候補のうち、前記品詞選択ステップにより選択された複数の前記頻出品詞に対応する特徴語を前記特徴語選定サーバが選択する特徴語選択ステップと、
を有することを特徴とする特徴語選定方法。