JP5908338B2 - 特徴語選定サーバ及び特徴語選定方法 - Google Patents

特徴語選定サーバ及び特徴語選定方法 Download PDF

Info

Publication number
JP5908338B2
JP5908338B2 JP2012107406A JP2012107406A JP5908338B2 JP 5908338 B2 JP5908338 B2 JP 5908338B2 JP 2012107406 A JP2012107406 A JP 2012107406A JP 2012107406 A JP2012107406 A JP 2012107406A JP 5908338 B2 JP5908338 B2 JP 5908338B2
Authority
JP
Japan
Prior art keywords
feature word
speech
feature
parts
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012107406A
Other languages
English (en)
Other versions
JP2013235421A (ja
Inventor
勝広 野口
勝広 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012107406A priority Critical patent/JP5908338B2/ja
Publication of JP2013235421A publication Critical patent/JP2013235421A/ja
Application granted granted Critical
Publication of JP5908338B2 publication Critical patent/JP5908338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバと、当該特徴語選定サーバが行う特徴語選定方法とに関する。
従来、動画や商品等のコンテンツの購入、視聴、閲覧、クリック等の行動がユーザによって行われた場合に、ユーザ行動の対象となったコンテンツのメタデータ(コンテンツに対して記録された関連情報を有するデータ)の出現回数等について計算処理した結果に基づいて、ユーザに対して推薦(レコメンド)するコンテンツを選定する装置が提案されている。
例えば特許文献1に記載の情報処理装置では、行方向又は列方向の少なくとも一方にユーザのプロファイルデータ及びコンテンツのメタデータのデータ項目を有する行列形式のデータ構造でデータを保持している。この構成により、多くの計算処理を単純化して、これにより、様々なアルゴリズムを柔軟に組み合わせることを可能にしている。
ここで、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するためには、上述のユーザ行動の対象となったコンテンツの特徴を示す単語である特徴語を、多くのメタデータから適切に選定することも重要である。
特開2009−289092号公報
ところで、表示されるコンテンツの更新頻度が高いニュースサイトや放送サイト等のサービスドメイン、及びコンテンツの表示を新規に行う情報提供サイト等のサービスドメインにおいて、これらのサービスドメインにおけるコンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴は、少ない又は殆ど無い。このため、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが殆ど不可能である。
そこで本発明は、上述の問題点を解消する為になされたものであり、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することを目的とする。
本発明の一形態に係る特徴語選定サーバは、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバであって、複数のコンテンツのメタデータから特徴語の候補を抽出する特徴語候補抽出手段と、コンテンツの検索のために入力された複数のキーワードの履歴情報を取得する取得手段と、取得手段により取得された履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報を生成する生成手段と、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を複数選択する品詞選択手段と、前記特徴語候補抽出手段により抽出された前記特徴語の候補のうち、品詞選択手段により選択された複数の頻出品詞に対応する特徴語を選択する特徴語選択手段と、を備えることを特徴とする。
この特徴語選定サーバによれば、まず、入力された複数のキーワードの履歴情報が取得され、この履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応する特徴語が選択される。これにより、特徴語が品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択されるため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなる。この結果、それぞれの品詞毎に適切な量の特徴語が選択される可能性が高くなることから、ユーザの嗜好に合う推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度で特徴語を選定することが可能になる。また、入力された複数のキーワードの履歴情報に基づいて上述の特徴語が選択されるため、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することが可能になる。
別の形態に係る特徴語選定サーバでは、特徴語選択手段は、品詞選択手段により選択された複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、特徴語の候補から選択してもよい。
この形態では、選択された複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語が特徴語の候補から選択されるため、複数の頻出品詞のそれぞれの出現割合を考慮した特徴語を選択することが可能になる。
別の形態に係る特徴語選定サーバでは、品詞選択手段は、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの頻出品詞を複数選択し、第一所定順位は、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位であってもよい。
この形態では、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位から頻出品詞が複数選択される。これにより、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値より大きい品詞であるために特徴になり難い頻出品詞を、除くことが可能になる。
別の形態に係る特徴語選定サーバでは、品詞選択手段は、生成手段により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの頻出品詞を複数選択し、第一所定順位は、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位であってもよい。
この形態では、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位から頻出品詞が複数選択される。これにより、複数の品詞が出現回数の多い順に並べられた場合の一番目に高い順位であるために特徴になり難い頻出品詞を、除くことが可能になる。
別の形態に係る特徴語選定サーバでは、第二所定順位は、複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位であってもよい。
この形態では、複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位が、第二所定順位になる。これにより、複数の品詞のそれぞれの出現回数の平均回数以上出現した頻出品詞を選択することが可能になる。
本発明の一形態に係る特徴語選定方法は、複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバが行う特徴語選定方法であって、複数のコンテンツのメタデータから特徴語の候補を特徴語選定サーバが抽出する特徴語候補抽出ステップと、コンテンツの検索のために入力された複数のキーワードの履歴情報を特徴語選定サーバが取得する取得ステップと、取得ステップにより取得された履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報を特徴語選定サーバが生成する生成ステップと、生成ステップにより生成された分類情報を特徴語選定サーバが用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を特徴語選定サーバが複数選択する品詞選択ステップと、特徴語候補抽出ステップにより抽出された特徴語の候補のうち、品詞選択ステップにより選択された複数の頻出品詞に対応する特徴語を特徴語選定サーバが選択する特徴語選択ステップと、を有することを特徴とする。
この特徴語選定方法によれば、まず、入力された複数のキーワードの履歴情報が取得され、この履歴情報に基づいて、複数のキーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応する特徴語が選択される。これにより、特徴語が品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択されるため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなる。この結果、それぞれの品詞毎に適切な量の特徴語が選択される可能性が高くなることから、ユーザの嗜好に合う推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度で特徴語を選定することが可能になる。また、入力された複数のキーワードの履歴情報に基づいて上述の特徴語が選択されるため、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することが可能になる。
本発明によれば、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に選定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することができる。
レコメンドサーバを含むシステム全体の機能構成の概略を説明するための機能構成図である。 レコメンドサーバの物理構成の概略を説明するための物理構成図である。 分類情報の例を示すテーブル構成図である。 品詞出現数を横軸とする確率密度関数を表すグラフである。 特徴語優先度判定部により選択された複数の頻出品詞のそれぞれの出現割合を示す表である。 頻出品詞に対応する特徴語抽出の例を示す表である。 レコメンドエンジンによる特徴語選定処理の流れを示すフローチャートである。
以下、添付図面を参照しながら本発明の好適な実施形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明を省略する。
(1)システム全体の構成
まず、本実施形態に係る特徴語選定サーバとしてのレコメンドサーバを含むシステム全体の構成について、図1を用いて説明する。図1は、レコメンドサーバ100を含むシステム全体の構成の概略を説明するための機能構成図であり、図2は、レコメンドサーバ100の物理構成の概略を説明するための物理構成図である。レコメンドサーバ100は、複数のコンテンツ(商品コンテンツを含む)のメタデータから、ユーザの嗜好に合うと思われるコンテンツを特定するための特徴語を選定して、特徴語を多数集録した辞書である特徴辞書を生成するコンピュータ装置である特徴辞書チューニングシステム20と、上述の特徴辞書を用いてユーザに対してコンテンツを推薦(レコメンド)するコンピュータ装置であるレコメンドシステム10との集合体である。
サービスドメインSは、動画サイト、商品サイト、店舗サイト、ニュースサイト等を有して構成される、サービスプロバイダが管理する情報提供及び商品販売サイト群である。各サイトからは、レコメンドサーバ100に対してコンテンツのメタデータの登録が可能である。クライアント端末Cは、スマートフォンSP、コンピュータ端末PC等のユーザ端末であり、レコメンドサーバ100に対して、フリーワード入力や履歴登録等を行うとともに、レコメンドサーバ100よりレコメンド結果を取得する。
レコメンドサーバ100は、図2に示されるように、主な物理的な構成要素としてCPU1(Central Processing Unit)、主記憶装置であるRAM2(Random Access Memory)及びROM3(Read Only Memory)、通信を行うための通信モジュール4、並びにハードディスク等の補助記憶装置5等のハードウェアを備えるコンピュータとして構成される。これらの構成要素が動作することにより、レコメンドサーバ100の機能が発揮される。
レコメンドサーバ100は、図1に示されるように、主な機能的な構成要素として、レコメンドシステム10及び特徴辞書チューニングシステム20を備えている。レコメンドシステム10は、フリーワードデータDB11(取得手段)、メタデータDB12、ログDB13、ユーザプロファイルDB14、及びレコメンドプールDB15を有している。また、特徴辞書チューニングシステム20は、フリーワード品詞抽出部21(生成手段)、メタデータ特徴語抽出部22(特徴語候補抽出手段)、特徴別利用ユーザ数計算部23、特徴別利用コンテンツ数計算部24、特徴語優先度判定部25(品詞選択手段)、特徴語追加部26(特徴語選択手段)、特徴語削除部27(特徴語選択手段)、及びバージョン管理部28を有している。
まず、レコメンドシステム10の各機能について説明する。フリーワードデータDB11は、ユーザによってコンテンツの検索のために任意に入力された複数のフリーワード(検索用キーワード、コンテンツや商品に対するコメントとしてのキーワード等)の入力の履歴情報を取得して管理するデータベースである。ユーザは、スマートフォンSP、コンピュータ端末PC等のクライアント端末Cに設けられているフリーワード入力IFを用いて、フリーワードを任意に複数入力することができる。フリーワード入力IFは、ユーザによる任意のワードの入力を受け付けてフリーワード検索を可能にするための入力欄等を表示するインタフェースである。入力されたフリーワード等の情報は、無線通信等によりフリーワードデータDB11に送信される。
メタデータDB12は、サービスドメインS内に予め格納されている多数のコンテンツから上述のメタデータを取得して管理するデータベースである。サービスドメインS内のコンテンツを管理する事業者等は、コンテンツを管理する管理サーバ等に設けられているメタデータ登録IFを用いて、メタデータを登録する。メタデータ登録IFは、入力データとして指定されたコンテンツからメタデータを抽出して出力データとしてメタデータを登録するためのインタフェースである。
ログDB13は、ユーザによる動画や商品等のコンテンツの購入、視聴、閲覧、クリック等の行動の履歴情報を取得して管理するデータベースである。ユーザの行動の履歴情報は、クライアント端末Cにおいて履歴登録IFが動作することにより取得される。履歴登録IFは、クライアント端末Cにおけるユーザ行動をログとして登録するためのインタフェースである。
ユーザプロファイルDB14は、クライアント端末Cを利用するユーザに関するプロファイル情報を取得して管理するデータベースである。プロファイル情報は、クライアント端末Cにおいてプロファイル登録IFが動作することにより取得される。プロファイル登録IFは、クライアント端末Cにおけるプロファイル情報を取得して登録するためのインタフェースである。
レコメンドプールDB15は、サービスドメインSにおいて予め定められた変換ルールに沿った形式に上述の特徴語を推薦情報として調整及び変換してクライアント端末Cに出力するデータベースである。変換された特徴語である推薦情報は、レコメンド取得IFによりクライアント端末Cに出力される。レコメンド取得IFは、変換された推薦情報をクライアント端末Cに出力するためのインタフェースである。
次に特徴辞書チューニングシステム20の各機能について説明する。フリーワード品詞抽出部21は、フリーワードデータDB11により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類された分類情報を生成する演算処理部である。本実施形態における品詞には、「名詞」のような文法上の分類に加えて、「LOC」(地名)、「ORG」(組織名や社名)、「名詞:動作」、「PSN」(人名)等のそれぞれの単語が表す意味による分類も含まれる。分類情報の例についての詳細は後述する。
メタデータ特徴語抽出部22は、メタデータDB12により取得されたメタデータから単語を抽出することにより、メタデータから特徴語の候補を抽出する演算処理部である。例えば、メタデータ特徴語抽出部22は、メタデータの出現回数が多いほど、メタデータに含まれる単語を特徴語の候補として抽出しやすくする。
特徴別利用ユーザ数計算部23は、ログDB13により取得されたユーザ行動履歴情報に基づいて、特定の特徴語を用いたコンテンツを利用した履歴のあるユーザの数を算出する演算を行う演算処理部である。
特徴別利用コンテンツ数計算部24は、ログDB13により取得されたユーザ行動履歴情報に基づいて、特定の特徴語を用いたコンテンツの数を算出する演算を行う演算処理部である。
特徴語優先度判定部25は、フリーワード品詞抽出部21、メタデータ特徴語抽出部22、特徴別利用ユーザ数計算部23、及び特徴別利用コンテンツ数計算部24による演算結果を用いて、フリーワードから特徴語を選択するための条件を決定する演算処理部である。例えば、特徴語優先度判定部25は、フリーワード品詞抽出部21により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する。そして、特徴語優先度判定部25は、特徴別の利用に基づく選定より優先して、この頻出品詞に対応するフリーワードを特徴語として選択するための条件に決定する。
なお、特徴語優先度判定部25においては、上述の複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位を、第一所定順位としてもよい。累積分布関数の値とは、例えば、対象の品詞に関する後述の「累積分布関数NORMDIST値」で示される値のことである。また、所定値は、例えば0.8(80%)である。ここで示された例によれば、「累積分布関数NORMDIST値」が0.8(80%)以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位が、第一所定順位となる。
また、特徴語優先度判定部25においては、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位を、第一所定順位としてもよい。
更に、特徴語優先度判定部25においては、上述の複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位を、第二所定順位としてもよい。第一所定順位及び第二所定順位の例についての詳細は後述する。
特徴語追加部26は、特徴語優先度判定部25により選択された複数の頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択し、選択の結果、追加が必要となった特徴語を追加するデータ処理部である。また、特徴語追加部26は、特徴語優先度判定部25により選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択することが可能である。特徴語追加部26による特徴語の選択方法の例に関する詳細は後述する。
特徴語削除部27は、特徴語優先度判定部25により選択された複数の頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択し、選択の結果、削除が必要となった特徴語を削除するデータ処理部である。なお、特徴語削除部27は、特徴語優先度判定部25により選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語を、複数のコンテンツのメタデータから選択することが可能である。特徴語削除部27による特徴語の選択方法の例に関する詳細は後述する。
バージョン管理部28は、特徴語追加部26による特徴語の追加、及び特徴語削除部27による特徴語の削除が行われた後の特徴辞書のバージョン管理を行う記憶管理部である。
(2)分類情報の例
引き続き、フリーワード品詞抽出部21により生成される分類情報の例について、図3及び図4を用いて説明する。図3は、分類情報の例を示すテーブル構成図であり、図4は、この分類情報における品詞出現数を横軸とする確率密度関数を表すグラフである。
上述したように、フリーワード品詞抽出部21は、フリーワードデータDB11により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類されたかを表す分類情報を生成する。次に、フリーワード品詞抽出部21は、分類情報を基に、1種類の品詞あたりの品詞出現数の平均及び標準偏差を求める。図3に示された例では、合計836件のフリーワードのそれぞれが16種類の品詞に分類されている。この分類情報において、1種類の品詞あたりの品詞出現数の平均mは52.25である。また、この分類情報において、分散σ(即ち、16種類の品詞のそれぞれの品詞出現数と平均の品詞出現数との差のそれぞれを自乗して得られる値の総和の、1種類の品詞あたりの平均)は、11196.438である。更に、標準偏差σは105.813である。
その後、フリーワード品詞抽出部21は、上記平均及び標準偏差に対応する確率密度関数を基に累積分布関数NORMDIST値(平均mと標準偏差σの正規分布において,ある値までの累積分布の値)を計算する。図4に示された例では、品詞「LOC」に対応する累積分布関数NORMDIST値は、ハッチで表された領域の面積で表すことができ、その値は「0.736」となる。
(3)特徴語優先度判定
次に、特徴語優先度判定部25における特徴語優先度判定処理について説明する。特徴語優先度判定部25は、フリーワード品詞抽出部21により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する。特徴語優先度判定部25は、例えば、上述の複数の品詞に対する累積分布関数NORMDIST値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位を第一所定順位と設定してもよい。ここでは、上述の所定値は、0.8(80%)であると予め設定されているとする。このため、「累積分布関数NORMDIST値が0.8(80%)以下の複数の品詞のうち、品詞出現数の最多の品詞である「LOC」の順位が、第一所定順位であると設定される。
この第一所定順位は、上述のように累積分布関数の値に基づいて設定される代わりに、複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位と設定されてもよい。
更に、特徴語優先度判定部25においては、上述の複数の品詞のそれぞれの出現回数の平均回数(52.25)以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位である「No.5」の「PSN」が、第二所定順位であると設定されてもよい。
そして、特徴語優先度判定部25においては、フリーワード品詞抽出部21により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位(「No.2」の「LOC」)から第二所定順位(「No.5」の「PSN」)までの頻出品詞(「LOC」、「ORG」、「名詞:動作」、「PSN」の4種類)が、複数選択される。
なお、図3は、サービスドメインSがニュースサイトである場合の分類情報の例を示しており、サービスドメインSがニュースサイトである場合、他の商品やコンテンツと比較して「LOC」(地名)の品詞が多い。一方、サービスドメインSが書籍販売サイトである場合、他の商品やコンテンツと比較して「PSN」(人名)の品詞が多いものと想定される。このように、サービスドメイン毎に検索に用いられるフリーワードの品詞が異なるため、複数の頻出品詞のそれぞれの出現割合を考慮することで、より各サービスドメインの特徴に合致した特徴語を選択することが可能になる。
(4)特徴語の選択方法の例
引き続き、特徴語追加部26及び特徴語削除部27による特徴語の選択方法の例について、図5及び図6を用いて説明する。図5は、特徴語優先度判定部25により選択された複数の頻出品詞のそれぞれの出現割合を示す表であり、図6は、この出現割合に応じた数だけ、頻出品詞に対応する特徴語を選択する選択方法を表す表である。
上述したように、頻出品詞として「LOC」(地名)、「ORG」(組織名や社名)、「名詞:動作」、「PSN」(人名)の4種類が、図5に示すように選択され、この4種類の頻出品詞における出現割合がそれぞれの頻出品詞について算出されている。例えば、頻出品詞が「LOC」(地名)の出現割合は「37%」である。
ここで、特徴語追加部26及び特徴語削除部27は、この出現割合に応じた数だけ、頻出品詞に対応する特徴語を、メタデータ特徴語抽出部22により抽出された特徴語の候補から選択する。例えば、図6(A)に示すような特徴語の候補がメタデータ特徴語抽出部22により抽出されたとする。このうち特徴語として合計11個の特徴語を選択する場合、11個の「37%」(「LOC」)は約4個に相当するため、「LOC」(地名)に分類されたフリーワードから上位4個の名詞である「中国」、「東京」、「米」、「米国」が選択される。同様に、「ORG」(組織名や社名)、「名詞:動作」、「PSN」(人名)についても特徴語を選択することにより、図6(B)に表す11個の特徴語を選択することができる。
(5)特徴語選定処理の流れ
引き続き、レコメンドサーバ100による特徴語選定処理の流れ(特徴語選定方法)について、図7を用いて説明する。図7は、レコメンドサーバ100による特徴語選定処理の流れを示すフローチャートである。図7のフローチャートに示される処理は、レコメンドサーバ100の電源がオンされてからオフされるまでの間、所定のタイミングで繰り返し実行される。
まず、メタデータ特徴語抽出部22が、メタデータDB12により取得されたメタデータから単語を抽出することにより、メタデータから特徴語の候補を抽出しておく(特徴語候補抽出ステップ)。そして、フリーワードデータDB11が、ユーザによってコンテンツの検索のために任意に入力された複数のフリーワード(キーワード)の入力の履歴情報を取得して管理する(ステップS01、取得ステップ)。そして、フリーワード品詞抽出部21が、フリーワードデータDB11により取得された履歴情報に基づいて、複数のフリーワードのそれぞれが複数の品詞のいずれかに分類された分類情報を生成する(ステップS02、生成ステップ)。
次に、特徴語優先度判定部25が、フリーワード品詞抽出部21により生成された分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合における第一所定順位から第二所定順位までの頻出品詞を複数選択する(ステップS03、品詞選択ステップ)。そして、特徴語追加部26及び特徴語削除部27が、特徴語優先度判定部25により選択された複数の頻出品詞のそれぞれの出現割合を算出する(ステップS04、特徴語選択ステップ)。
次に、特徴語追加部26及び特徴語削除部27は、算出された出現割合に応じた数だけ、頻出品詞に対応する特徴語を、メタデータ特徴語抽出部22が抽出した特徴語候補から選択する(ステップS05、特徴語選択ステップ)。そして、一連の処理が終了する。
(6)本実施形態による作用及び効果
引き続き、本実施形態に係るレコメンドサーバ100による作用及び効果について説明する。レコメンドサーバ100によれば、まず、入力された複数のフリーワードの履歴情報(フリーワード入力型ユーザ行動履歴)が取得され、この履歴情報に基づいて、複数のフリーワードが複数の品詞に分類された分類情報が生成される。次に、この分類情報を用いて、複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞が複数選択される。そして、選択された複数の頻出品詞に対応するフリーワードが複数のコンテンツのメタデータから特徴語として選択される。
これにより、フリーワードが品詞毎に分類された上で頻出品詞が複数選択され、これら複数の頻出品詞に対応する特徴語が選択される。このため、出現回数によっては偏って多い品詞の特徴語が選択される可能性が低くなって推薦精度が向上する。この結果、それぞれの品詞毎にバランス良く特徴語が選択される可能性が高くなる。
このことから、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語を、より高い推薦精度で効率的に選定することが可能になる。また、入力された複数のフリーワードの履歴情報に基づいて上述の特徴語が選択されるため、サービスドメインにおけるコンテンツ及び販売商品の内容更新前でも、コンテンツの購入、視聴、閲覧、クリックといったユーザ行動の履歴を必要とせずに、特徴語を早期に選定することができる。
また、上述のフリーワード入力型ユーザ行動履歴に基づく特徴辞書のチューニングが可能となり、サービスドメインSに対するPV(ページビュー)やCTR(クリックスルーレート)といったKPI(キーパフォーマンスインジケータ)を向上させることができる。
また、レコメンドサーバ100によれば、図5及び図6に示されるように、選択された複数の頻出品詞のそれぞれの出現割合に応じた数だけ、頻出品詞に対応する特徴語が選択されるため、複数の頻出品詞のそれぞれの出現割合を考慮して特徴語を選択することが可能になる。
また、レコメンドサーバ100によれば、図3及び図4に示されるように、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も高い順位から頻出品詞が複数選択される。これにより、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値より大きい品詞であるために特徴になり難い頻出品詞を、除くことが可能になる。
上述のように特定の商品の特徴を示し難い頻出品詞を除くことによる効果を、具体例を挙げて説明する。例えば、多くの種類のチーズ商品が販売されるWebサイト等のサービスドメインにおいて、「黄色」という「名詞」は、図3に示されるように、大半のチーズ商品のメタデータに含まれる特徴語となる。このため、「黄色」等の名詞は、特定のチーズ商品の特徴になり難い頻出品詞となることから、「黄色」等の名詞を特徴語として選定した結果に基づく推薦商品の適切性(推薦精度)は低くなってしまう。
これに対して、レコメンドサーバ100によれば、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値(例えば0.8)以下の品詞(「LOC」以下の名詞)の中から頻出品詞が選択される。このため、複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値(0.8)より大きい品詞(「名詞」)が除かれるため、特徴になり難い頻出品詞に属する「黄色」等の名詞を、除くことが可能になる。この結果、推薦商品の適切性(推薦精度)を高めることができる。
また、レコメンドサーバ100によれば、図3に示されるように、複数の品詞のそれぞれの出現回数の平均回数(52.25)以上出現した品詞のうち、複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位が、第二所定順位になる。これにより、複数の品詞のそれぞれの出現回数の平均回数以上出現した頻出品詞を選択することが可能になる。
(7)変形例
上述の実施例では、上述の複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、これら複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位を、第二所定順位としている。
しかしながら、第二所定順位を決定するためのルールは特に限定されず、例えば、上述の複数の品詞が出現回数の多い順に並べられた場合の所定順位(例えば五番目に高い順位)を、第二所定順位とするルールを予め決定しておいてもよい。
本発明によれば、ユーザの嗜好に合うと思われる推薦コンテンツを適切に選定するために必要な特徴語の中でより高い推薦精度となる特徴語を早期に決定することが可能な特徴語選定サーバ及び特徴語選定方法を提供することができる。
10…レコメンドシステム、11…フリーワードデータDB、12…メタデータDB、13…ログDB、14…ユーザプロファイルDB、15…レコメンドプールDB、20…特徴辞書チューニングシステム、21…フリーワード品詞抽出部、22…メタデータ特徴語抽出部、23…特徴別利用ユーザ数計算部、24…特徴別利用コンテンツ数計算部、25…特徴語優先度判定部、26…特徴語追加部、27…特徴語削除部、28…バージョン管理部、100…レコメンドサーバ、C…クライアント端末、PC…コンピュータ端末、S…サービスドメイン、SP…スマートフォン。

Claims (6)

  1. 複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバであって、
    前記複数のコンテンツのメタデータから特徴語の候補を抽出する特徴語候補抽出手段と、
    コンテンツの検索のために入力された複数のキーワードの履歴情報を取得する取得手段と、
    前記取得手段により取得された前記履歴情報に基づいて、前記複数のキーワードが複数の品詞に分類された分類情報を生成する生成手段と、
    前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を複数選択する品詞選択手段と、
    前記特徴語候補抽出手段により抽出された前記特徴語の候補のうち、前記品詞選択手段により選択された複数の前記頻出品詞に対応する特徴語を選択する特徴語選択手段と、
    を備えることを特徴とする特徴語選定サーバ。
  2. 前記特徴語選択手段は、前記品詞選択手段により選択された前記複数の頻出品詞における各頻出品詞のそれぞれの出現割合に応じた数だけ、前記頻出品詞に対応する特徴語を、前記特徴語の候補から選択する、
    ことを特徴とする請求項1に記載の特徴語選定サーバ。
  3. 前記品詞選択手段は、前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの前記頻出品詞を複数選択し、
    前記第一所定順位は、前記複数の品詞のそれぞれの出現回数の標準正規分布における累積分布関数の値が所定値以下の品詞のうち、前記複数の品詞が出現回数の多い順に並べられた場合の最も高い順位である、
    ことを特徴とする請求項1又は2に記載の特徴語選定サーバ。
  4. 前記品詞選択手段は、前記生成手段により生成された前記分類情報を用いて、前記複数の品詞が出現回数の多い順に並べられた場合の第一所定順位から第二所定順位までの前記頻出品詞を複数選択し、
    前記第一所定順位は、前記複数の品詞が出現回数の多い順に並べられた場合の二番目に高い順位である、
    ことを特徴とする請求項1又は2に記載の特徴語選定サーバ。
  5. 前記第二所定順位は、前記複数の品詞のそれぞれの出現回数の平均回数以上出現した品詞のうち、前記複数の品詞が出現回数の多い順に並べられた場合の最も低い品詞の順位である、
    ことを特徴とする請求項3又は4に記載の特徴語選定サーバ。
  6. 複数のコンテンツのメタデータから、ユーザの嗜好に合うと思われるコンテンツの特徴により当該コンテンツを特定するための特徴語を選定する特徴語選定サーバが行う特徴語選定方法であって、
    前記複数のコンテンツのメタデータから特徴語の候補を前記特徴語選定サーバが抽出する特徴語候補抽出ステップと、
    コンテンツの検索のために入力された複数のキーワードの履歴情報を前記特徴語選定サーバが取得する取得ステップと、
    前記取得ステップにより取得された前記履歴情報に基づいて、前記複数のキーワードが複数の品詞に分類された分類情報を前記特徴語選定サーバが生成する生成ステップと、
    前記生成ステップにより生成された前記分類情報を前記特徴語選定サーバが用いて、前記複数の品詞が出現回数の多い順に並べられた場合の所定順位までの頻出品詞を前記特徴語選定サーバが複数選択する品詞選択ステップと、
    前記特徴語候補抽出ステップにより抽出された前記特徴語の候補のうち、前記品詞選択ステップにより選択された複数の前記頻出品詞に対応する特徴語を前記特徴語選定サーバが選択する特徴語選択ステップと、
    を有することを特徴とする特徴語選定方法。
JP2012107406A 2012-05-09 2012-05-09 特徴語選定サーバ及び特徴語選定方法 Active JP5908338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012107406A JP5908338B2 (ja) 2012-05-09 2012-05-09 特徴語選定サーバ及び特徴語選定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012107406A JP5908338B2 (ja) 2012-05-09 2012-05-09 特徴語選定サーバ及び特徴語選定方法

Publications (2)

Publication Number Publication Date
JP2013235421A JP2013235421A (ja) 2013-11-21
JP5908338B2 true JP5908338B2 (ja) 2016-04-26

Family

ID=49761500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012107406A Active JP5908338B2 (ja) 2012-05-09 2012-05-09 特徴語選定サーバ及び特徴語選定方法

Country Status (1)

Country Link
JP (1) JP5908338B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272684A (ja) * 1998-03-19 1999-10-08 Mitsubishi Electric Corp 情報提供方法および装置
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation

Also Published As

Publication number Publication date
JP2013235421A (ja) 2013-11-21

Similar Documents

Publication Publication Date Title
JP5662961B2 (ja) レビュー処理方法およびシステム
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
KR100970335B1 (ko) 사용자의 관심 키워드를 업데이트 하는 방법과 그 방법을수행하기 위한 시스템
JP6405343B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5768492B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9552415B2 (en) Category classification processing device and method
US20170228378A1 (en) Extracting topics from customer review search queries
JP5281104B2 (ja) 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体
JP2018504686A (ja) 検索データを処理するための方法及び装置
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5679194B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5256273B2 (ja) 意図抽出装置、方法及びプログラム
JP6433270B2 (ja) コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
JP4755834B2 (ja) 属性評価装置、属性評価方法および属性評価プログラム
JP6960553B2 (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
JP2016197332A (ja) 情報処理システム、情報処理方法、およびコンピュータプログラム
JP2012181565A (ja) 広告管理装置、広告選択装置、広告管理方法、広告管理プログラム及び広告管理プログラムを記録した記録媒体
JP5908338B2 (ja) 特徴語選定サーバ及び特徴語選定方法
JP2019175212A (ja) 情報表示装置、記事ページ生成装置、情報処理装置、情報表示システム及びプログラム
JP6982546B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP2009237824A (ja) 情報分析装置、情報分析方法、及び情報分析プログラム
JP2016192067A (ja) 検索装置
JP2004185135A (ja) 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
JP7072476B2 (ja) 情報処理装置、販売支援システム、情報処理方法、およびプログラム
JP5727846B2 (ja) シリーズアイテム群抽出システム、シリーズアイテム群抽出方法、およびシリーズアイテム群抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160323

R150 Certificate of patent or registration of utility model

Ref document number: 5908338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250