JP5854957B2 - 情報処理装置および特徴語評価方法 - Google Patents

情報処理装置および特徴語評価方法 Download PDF

Info

Publication number
JP5854957B2
JP5854957B2 JP2012204936A JP2012204936A JP5854957B2 JP 5854957 B2 JP5854957 B2 JP 5854957B2 JP 2012204936 A JP2012204936 A JP 2012204936A JP 2012204936 A JP2012204936 A JP 2012204936A JP 5854957 B2 JP5854957 B2 JP 5854957B2
Authority
JP
Japan
Prior art keywords
combination
content
feature
word
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012204936A
Other languages
English (en)
Other versions
JP2014059763A (ja
Inventor
素平 小野
素平 小野
佑介 深澤
佑介 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012204936A priority Critical patent/JP5854957B2/ja
Publication of JP2014059763A publication Critical patent/JP2014059763A/ja
Application granted granted Critical
Publication of JP5854957B2 publication Critical patent/JP5854957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特徴語を評価する情報処理装置および特徴語評価方法に関する。なお、ここで「特徴語」とは、コンテンツの文章のうち、特徴を示す単語・用語をいう。
ユーザの閲覧コンテンツからコンテンツを並び替える技術としてコンテンツフィルタリング方式がある。コンテンツフィルタリング方式では、過去に閲覧したコンテンツ(つまり利用者が満足したと推定されるコンテンツ)と同じ特徴をもつコンテンツが上位にランキングされる。このコンテンツの特徴は、コンテンツに含まれる特徴語によって決定される。
異なるコンテンツ集合間では、同じ嗜好でも別の用語が用いられるケースが多い。そのため、用語が異なると意味的に近い単語であっても、全く別の嗜好と判断されるため、ユーザにコンテンツをレコメンドする際の精度が低下してしまう。
また、コンテンツフィルタリング方式を用いたレコメンドの場合、同一の特徴語を含むコンテンツの履歴を持たないユーザに対し、レコメンドを行うことができない。
そこで、予め関連語を定義しておき、当該関連語を利用してレコメンドすることにより、異なるコンテンツ集合間で、別の用語が用いられていても、適切にレコメンドすることが可能になる。ここで「関連語」とは、意味において一定の関連性を有する用語を意味し、同義語、類義語、上位語、及び下位語などが含まれる。
上記関連語の内、同義語を定義する技術として、評価表現毎にかつカテゴリ毎に集計された各文書データの被修飾語テキストの出現頻度数を集計し、集計した出現頻度数が予め定められた基準を具備した場合に、被修飾語セットに属する被修飾語セットテキストの組を同義語として定義する技術が存在する(例えば、特許文献1)。
特開2012−48291号公報
しかし、特許文献1の方法では、評価語(例えば、親切、高い等)の被修飾語以外の単語については、抽出することはできず、汎用性に欠けるという問題点がある。
そこで、本発明においては、上記の課題を解決するために、より汎用性を有する関連語抽出手法を実行することを目的とする。
上述の課題を解決するために、本発明の情報処理装置は、種別が付された複数のコンテンツにおける、ユーザ単位の履歴を取得する履歴取得手段と、履歴取得手段が取得した履歴を用いて、関連する種別のそれぞれから選択したコンテンツの組み合わせを生成すると共に、当該組み合わせにおける双方のコンテンツを参照したユーザ数の情報である組み合わせ参照数を生成するコンテンツ組み合わせ生成手段と、関連する種別それぞれのコンテンツから特徴語を抽出する特徴語抽出手段と、特徴語抽出手段が抽出した特徴語について、関連する種別それぞれから選択した特徴語の組み合わせのコンテンツの組み合わせ内における出現度を生成する特徴語組み合わせ生成手段と、出現度と組み合わせ参照数とを少なくとも基礎として、当該特徴語の組み合わせの評価を行う評価手段と、評価手段による評価結果に基づいて、前記特徴語の組み合わせが関連語であるか否かを決定する関連語決定手段と、を備えている。
また、本発明の特徴語評価方法は、情報処理装置により実行される特徴語評価方法であって、種別が付された複数のコンテンツにおける、ユーザ単位の履歴を取得する履歴取得ステップと、履歴取得ステップで取得した履歴を用いて、関連する種別のそれぞれから選択したコンテンツの組み合わせを生成すると共に、当該組み合わせにおける双方のコンテンツを参照したユーザ数の情報である組み合わせ参照数を生成するコンテンツ組み合わせ生成ステップと、関連する種別それぞれのコンテンツから特徴語を抽出する特徴語抽出ステップと、特徴語抽出ステップで抽出した特徴語について、関連する種別それぞれから選択した特徴語の組み合わせのコンテンツの組み合わせ内における出現度を生成する特徴語組み合わせ生成ステップと、出現度と組み合わせ参照数とを少なくとも基礎として、当該特徴語の組み合わせの評価を行う評価ステップと、評価ステップによる評価結果に基づいて、特徴語の組み合わせが関連語であるか否かを決定する関連語決定ステップと、を含んでいる。
この発明によれば、関連する種別のコンテンツのそれぞれの組み合わせから抽出した特徴語の組み合わせが、上記コンテンツの組合せに出現する度合いと、当該コンテンツの組み合わせを利用者が利用した履歴の度合いとを用いて、特徴語の組み合わせが互いに関連するか否かを判断しているので、文章の構造に左右されることなく関連語を抽出するができ、汎用性のある関連語の抽出手法を実現できる。また、この発明によれば、ユーザの実際の履歴に基づいて精度の良い関連語を抽出することができる。
また、本発明の情報処理装置において、評価手段は、特徴語が一般語であるか否かを判別するための指標情報をさらに基礎として、特徴語の組み合わせの評価を行うようにしても良い。
この場合、特徴語が一般語であるか否かを判別するための指標情報をさらに基礎として評価するので、一般語が含まれる関連語を生成してしまうことを回避することができる。
また、本発明の情報処理装置において、コンテンツ組み合わせ生成手段が生成した組み合わせの信頼度を生成する組み合わせ信頼度生成手段、をさらに備え、評価手段は、組み合わせ信頼度生成手段が生成した信頼度をさらに基礎として、特徴語の組み合わせの評価を行うようにしても良い。
この場合、組み合わせの信頼度を基礎として、特徴語の組み合わせの評価を行うので、コンテンツの組み合わせの結びつきが強さに基づいて判断することになり、より関連語の精度を高めることができる。
また、本発明の情報処理装置において、組み合わせ信頼度生成手段は、コンテンツの組み合わせのうち、一方のコンテンツを参照することを前提としている度合いをさらに生成し、評価手段は、度合いをさらに基礎として、前記特徴語の組み合わせの評価を行うようにしても良い。
この場合、コンテンツの組み合わせのうち、一方のコンテンツを参照することを前提としている度合いを基礎として、特徴語の組み合わせの評価を行うので、コンテンツの組み合わせの結びつきが強さに基づいて判断することになり、より関連語の精度を高めることができる。
本発明によれば、関連する種別のコンテンツのそれぞれの組み合わせから抽出した特徴語の組み合わせが、上記コンテンツの組合せに出現する度合いと、当該コンテンツの組み合わせを利用者が利用した履歴の度合いとを用いて、特徴語の組み合わせが互いに関連するか否かを判断しているので、文章の構造に左右されることなく関連語を抽出でき、汎用性のある関連語の抽出手法を実現できる。
情報処理装置100の処理概要を説明するための図である。 情報処理装置100の機能を示すブロック図である。 情報処理装置100のハードウェア構成図である。 履歴テーブル120で保持しているデータの一例を示す図である。 コンテンツ組合せ情報130の一例を示す図である。 アソシエーション分析結果情報125の一例を示す図である。 特徴語の特徴語情報135の一例を示す図である。 特徴語組み合わせ情報140の一例を示す図である。 評価結果テーブル145の一例を示す図である。 関連語テーブル150の一例を示す図である。 情報処理装置の処理を示すフローチャートである。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態の情報処理装置100の処理概要を説明するための図である。図1に示すように、情報処理装置100は、ユーザ毎に過去に参照したコンテンツを履歴として管理する履歴テーブル120Aや120Bを保持し、当該履歴テーブル120A及び120Bは、種別毎に分けられたコンテンツ集合毎に管理されているものとする。上記種別は、提供する媒体(静止画、動画等)毎で分けても良いし、コンテンツのジャンル毎で分けても良い。
情報処理装置100は、履歴テーブル120A内のコンテンツと履歴テーブル120B内のコンテンツとの組み合わせ情報を生成する。次に、情報処理装置100は、履歴テーブル120A及び履歴テーブル120Bに含まれるコンテンツから特徴語を抽出すると共に、各履歴テーブル120から抽出した特徴語の組み合わせ情報も生成する。そして、情報処理装置100は、特徴語の組み合わせがコンテンツの組み合わせ内でどの程度使用されているかを示す情報等を基礎として評価値を算出し、当該評価値に基づいて、上記特徴語の組み合わせが関連語となるか否かを判断する。
図2は、本実施形態の情報処理装置100の機能を示すブロック図である。図2に示される通り、この情報処理装置100は、履歴取得部101(履歴取得手段)、コンテンツ組み合わせ生成部102(コンテンツ組み合わせ生成手段)、アソシエーション分析処理部103(組み合わせ信頼度生成手段)、特徴語取得部104(特徴語抽出手段)、特徴語組み合わせリスト生成部105(特徴語組み合わせ生成手段)、特徴語組み合わせリスト評価計算部106(評価手段)、関連語決定部107(関連語決定手段)、コンテンツ集合Aにおける履歴テーブル120A、コンテンツ集合Bにおける履歴テーブル120B、評価結果テーブル145、及び関連語テーブル150を含んで構成されている。なお、コンテンツ集合Aにおける履歴テーブル120A及びコンテンツ集合Bにおける履歴テーブル120Bを合わせて、履歴テーブル120とも呼ぶ。
図3は、情報処理装置100のハードウェア構成図である。図2に示される情報処理装置100は、物理的には、図3に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスクまたは半導体メモリ等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図2における各機能は、図3に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図2に示す機能ブロックに基づいて各機能ブロックを説明する。
履歴取得部101は、履歴テーブル120から履歴を取得する。ここで、履歴テーブル120の例を図4(A)、(B)に示す。図4(A)は、コンテンツ集合Aにおける履歴テーブル120Aで保持している履歴を示し、図4(B)は、コンテンツ集合Bにおける履歴テーブル120Bで保持している履歴を示す。なお、前提として、コンテンツ集合Aの種別とコンテンツ集合Bの種別とが関連しているものとする。
図4(A)、(B)に示すように、履歴テーブル120は、UserID121とコンテンツタイトル122とを有する。図4(A)では、UserID121が「user01」であるユーザが「節約レシピ」というコンテンツや「300円レシピ」というコンテンツを参照したことを示している。図4(B)では、UserID121が「user01」であるユーザが「献立スケジュール」というコンテンツや「今日の献立」というコンテンツを参照したことを示している。なお、本実施形態における履歴テーブル120は、コンテンツタイトル122を保持しているが、コンテンツ自体でも良い。また、ここでいうコンテンツは、Web上の情報全般であり、ブログ、簡易投稿情報などを含んでも良い。
コンテンツ組み合わせ生成部102は、種別が関連しているコンテンツ集合のそれぞれのコンテンツタイトルの組み合わせを生成する。また、コンテンツ組み合わせ生成部102がコンテンツタイトルの組み合わせを生成する際に、当該コンテンツの組み合わせの双方のコンテンツを参照したユーザ数を算出する。ここで、コンテンツ組み合わせ生成部102が生成した情報であるコンテンツ組み合わせ情報の例を図5に示す。
コンテンツ組み合わせ情報130は、コンテンツ集合Aにおけるコンテンツタイトル131と、コンテンツ集合Bにおけるコンテンツタイトル132と、ルール支持度Rij133とを有する。ここでのルール支持度Rijは、コンテンツ集合Aにおけるコンテンツタイトル131と、コンテンツ集合Bにおけるコンテンツタイトル132の双方を参照したユーザ数を意味し、後述する特徴語iと特徴語jとの組み合わせ参照数の基礎となる情報である。
コンテンツ組み合わせ生成部102は、コンテンツ集合Aの全てのコンテンツタイトル(すなわち、履歴テーブル120Aに含まれるコンテンツタイトル122の内、ユニークなコンテンツタイトル)と、コンテンツ集合Bの全てのコンテンツタイトル(すなわち、履歴テーブル120Bに含まれるコンテンツタイトル122の内、ユニークなコンテンツタイトル)との、全ての組み合わせを生成し、当該組み合わせの内、コンテンツ集合Aにおけるコンテンツタイトルをコンテンツ集合Aにおけるコンテンツタイトル131とし、コンテンツ集合Bにおけるコンテンツタイトルをコンテンツ集合Bにおけるコンテンツタイトル132とし、それぞれの組み合わせについて、双方のコンテンツを参照したユーザ数を算出し、当該算出結果をルール支持度Rij133とすることにより、コンテンツ組み合わせ情報130を生成する。なお、情報処理装置100は、コンテンツ組み合わせ生成部102が生成したコンテンツ組み合わせ情報130を、RAM12で保持する。
図5の例では、コンテンツ集合Aにおけるコンテンツタイトル131が「節約レシピ」であり、コンテンツ集合Bにおけるコンテンツタイトル132が「献立スケジュール」であるコンテンツの組み合わせにおけるルール支持度Rij133が「10」であるので、「節約レシピ」を参照し、且つ「献立スケジュール」を参照したユーザ数が10であることを示している。
アソシエーション分析処理部103は、コンテンツ組み合わせ生成部102が生成したコンテンツ組み合わせ情報130のコンテンツの組み合わせについて、アソシエーション分析を行う。なお、アソシエーション分析については、公知技術を流用できる(特開2006−285359号公報参照)。
アソシエーション分析処理部103は、アソシエーション分析した結果情報であるアソシエーション分析結果情報125を生成する。ここで、アソシエーション分析結果情報125の例を図6に示す。
アソシエーション分析結果情報125は、コンテンツ集合Aのコンテンツタイトル126、コンテンツ集合Bのコンテンツタイトル127、信頼度128、及びリフト値129を含む。ここでいう信頼度とは、コンテンツ間の相関の強さを表し、コンテンツ集合Aのコンテンツを参照するユーザがコンテンツ集合Bのコンテンツを参照する割合のパーセント表示である。図6の例の場合、信頼度は、「節約レシピ」を参照したユーザ数に対する、「節約レシピ」及び「献立スケジュール」を参照したユーザ数の割合を算出することにより算出される。また、リフト値は、コンテンツ集合Bのコンテンツタイトル127を参照するユーザがコンテンツ集合Aを参照することを前提としている度合いが高いか否かを示すものである。図6の例の場合、リフト値は、算出済みの信頼度を、「献立スケジュール」を参照したユーザ数で除算することにより算出することができる。
特徴語取得部104は、コンテンツ組み合わせ生成部102が生成したコンテンツ組み合わせ情報130に基づいて、コンテンツの組み合わせのそれぞれのコンテンツタイトル(すなわち、コンテンツ組合せ情報130のコンテンツ集合Aにおけるコンテンツタイトル131及びコンテンツ集合Bにおけるコンテンツタイトル132)について、形態素解析を行い、特徴語を抽出する。なお、特徴語取得部104は、信頼度128又はリフト値129の高いコンテンツの組み合わせを有するコンテンツ組み合わせ情報130のそれぞれのコンテンツタイトルから特徴語を抽出する。これにより、特徴語取得部104は、相関性が高いコンテンツ同士の組み合わせの特徴語を抽出することができる。
そして、特徴語取得部104は、抽出した特徴語について、出現頻度を算出する。具体的に、特徴語取得部104は、コンテンツ集合Aにおけるコンテンツタイトル131から特徴語を抽出した場合、コンテンツ集合Aにおける履歴テーブル120Aのコンテンツタイトル122の内、ユニークなコンテンツタイトルにおいて当該特徴語を含むレコード数を出現頻度として算出し、コンテンツ集合Bにおけるコンテンツタイトル132から特徴語を抽出した場合、コンテンツ集合Bにおける履歴テーブル120Bのコンテンツタイトル122の内、ユニークなコンテンツタイトルにおいて当該特徴語を含むレコード数を出現頻度として算出する。
特徴語取得部104は、抽出した特徴語と、当該特徴語の出現頻度を関連付けた情報である特徴語情報を生成する。なお、特徴語取得部104は、コンテンツ組合せ情報130のコンテンツ集合Aにおけるコンテンツタイトル131から抽出した特徴語についての特徴語情報135Aとし、コンテンツ組合せ情報130のコンテンツ集合Bにおけるコンテンツタイトル131から抽出した特徴語についての特徴語情報135Bとして、別々に特徴語情報を生成する。そして、情報処理装置100は、特徴語取得部104が生成した特徴語情報135A及び特徴語情報135BをRAM12で保持する。続いて、図7(A)、(B)に特徴語情報135A及び特徴語情報135Bを示す。
図7(A)、(B)に示すように、特徴語情報135A及び特徴語情報135Bは、抽出した特徴語136と当該特徴語の出現頻度137とを有する。図7(A)に示す特徴語情報135Aは、コンテンツ組合せ情報130のコンテンツ集合Aにおけるコンテンツタイトル131から抽出した特徴語に関する情報であり、図7(B)に示す特徴語情報135Bは、コンテンツ集合Bにおけるコンテンツタイトル132から抽出した特徴語に関する情報である。
図7(A)によれば、特徴語「節約」は、出現頻度が「1」であることが示されており、図7(B)によれば、特徴語「献立」は、出現頻度が「2」であることが示されている。
特徴語組み合わせリスト生成部105は、特徴語取得部104が抽出した特徴語情報135Aの特徴語136と、特徴語情報135Bの特徴語136との組み合わせを生成すると共に、それらの組み合わせがコンテンツ組み合わせ情報130に出現する回数を算出する。そして、情報処理装置100は、特徴語組み合わせリスト生成部105が生成・算出した情報をRAM12で保持する。ここで、特徴語組み合わせリスト生成部105が生成した情報である特徴語組み合わせ情報140の例を図8に示す。
図8に示すように、コンテンツ組み合わせ情報140は、コンテンツ集合Aの履歴テーブルから抽出した特徴語141と、コンテンツ集合Bの履歴テーブルから抽出した特徴語142と、出現度xij143とを有する。ここで、出現度xijは、コンテンツ集合Aの履歴テーブルから抽出した特徴語iと、コンテンツ集合Bの履歴テーブルから抽出した特徴語jとの組み合わせが、コンテンツ組み合わせ情報130に出現する回数を意味する。例えば、図8の例では、コンテンツ集合Aの履歴テーブルから抽出した特徴語141が「レシピ」で、コンテンツ集合Bの履歴テーブルから抽出した特徴語142が「献立」である特徴語の組み合わせの出現度xij143が「6」であることが示されている。すなわち、コンテンツ組合せ情報130内において、「レシピ」「献立」の組み合わせを含むレコード数が6であることを示している。
特徴語組み合わせリスト評価値計算部106は、特徴語の組み合わせが関連語であるか否かを判断するための評価値を計算する。具体的には、コンテンツ集合Aから抽出した特徴語iとコンテンツ集合Bから抽出した特徴語jとの組み合わせについて評価値を以下の式に基づいて算出する。
Figure 0005854957

上記式中のnは、特徴語情報135Aにおける特徴語iの出現度n137であり、nは、特徴語情報135Bにおける特徴語jの出現度n137であり、xijは、特徴語iと特徴語jの組み合わせがコンテンツ組み合わせ情報140に出現する出現度xij143であり、上記式中のAは、コンテンツ組み合わせ情報140のレコード数である。
そして、上記式中のrijは、コンテンツ集合Aから抽出した特徴語iとコンテンツ集合Bから抽出した特徴語jとを含むコンテンツ組合せ情報130におけるルール支持度Rij133の平均値である。例えば、特徴語iが「レシピ」で、特徴語jが「献立」である場合、特徴語組み合わせリスト評価値計算部106は、コンテンツ組合せ情報130を参照し、コンテンツ集合Aにおけるコンテンツタイトル131に「レシピ」を含み、コンテンツ集合Bにおけるコンテンツタイトル132に「献立」を含むレコードのルール支持度Rij133を取得し、取得したルール支持度Rij133の平均値を算出する。上記rijが、組み合わせ参照数として機能する。なお、rijは、コンテンツ集合Aから抽出した特徴語iとコンテンツ集合Bから抽出した特徴語jとを含むコンテンツ組合せ情報130におけるルール支持度Rij133の平均値に限られず、コンテンツ集合Aから抽出した特徴語iとコンテンツ集合Bから抽出した特徴語jとを含むコンテンツ組合せ情報130におけるルール支持度Rij133の最大値等、他の種々の値でも良い。
特徴語iが「レシピ」で、特徴語jが「献立」である場合に評価値を求める例を説明する。前提として、コンテンツ組み合わせ情報140のレコード数は、「10」とする。すなわち式中のAは、「10」になる。まず、特徴語組み合わせリスト評価値計算部106は、図5に示すコンテンツ組合せ情報130を参照し、コンテンツ集合Aにおけるコンテンツタイトル131に「レシピ」を含み、コンテンツ集合Bにおけるコンテンツタイトル132に「献立」を含むレコードにおけるルール支持度Rij133の平均値を算出する。図5の例では、図5に例示しているレコード全てが、コンテンツ集合Aにおけるコンテンツタイトル131に「レシピ」を含み、コンテンツ集合Bにおけるコンテンツタイトル132に「献立」を含んでいるので、図5に例示しているレコードのルール支持度Rij133の「10」、「5」、「20」、「5」を少なくとも用いてルール支持度Rij133の平均値を算出する。ここで、当該ルール支持度Rij133の平均値が10であったとすると、上記式中のrijは、「10」になる。
次に、特徴語組み合わせリスト評価値計算部106は、図7(A)に示す特徴語情報135Aを参照し、特徴語136が「レシピ」である出現頻度n137を検索して、上記式中のnを特定する。この場合、特徴語136が「レシピ」である出現頻度n137が「3」であるので、上記式中のnは、「3」になる。そして、特徴語組み合わせリスト評価値計算部106は、図7(B)に示す特徴語情報135Bを参照し、特徴語136が「献立」である出現頻度n137を検索して、上記式中のnを特定する。この場合、特徴語136が「献立」である出現頻度n137が「2」であるので、上記式中のnは、「2」になる。
次に、特徴語組み合わせリスト評価値計算部106は、図8に示すコンテンツ組み合わせ情報140を参照し、コンテンツ集合Aの履歴テーブルから抽出した特徴語141が「レシピ」であり、コンテンツ集合Bの履歴テーブルから抽出した特徴語142が「献立」である出現度xij143を検索し、上記式中のxijを特定する。この場合、コンテンツ集合Aの履歴テーブルから抽出した特徴語141が「レシピ」であり、コンテンツ集合Bの履歴テーブルから抽出した特徴語142が「献立」である出現度xij143が「6」であるので、上記式中のxijは、「6」になる。
次に、特徴語組み合わせリスト評価値計算部106は、上記で特定した式中のそれぞれの値を式に代入して、評価値を算出する。上記の例の場合、上記式中のrijが、「10」であり、上記式中のnが、「3」であり、上記式中のnが、「2」であり、上記式中のxijが、「6」であり、上記式中のAが「10」であるので、評価値は、「1」になる。
上記式に記載のように、特徴語情報135Aの出現度n137や、特徴語情報135Bの出現度n137を除算している。特徴語iや特徴語jが一般語である場合、出現度n137や出現度n137の値が高くなり、この結果、評価値が低くなる。すなわち、特徴語情報135Aの出現度n137や、特徴語情報135Bの出現度n137は、特徴語iや特徴語jが一般語であるか否かを判別するための指標情報として機能する。
特徴語組み合わせリスト評価値計算部106は、評価結果の情報を生成し、当該情報を評価結果テーブル145へ格納する。評価テーブル145の例を図9に示す。
図9に示す通り、評価結果テーブル145は、コンテンツ集合Aの特徴語146、コンテンツ集合Bの特徴語147、及び評価値148を有する。特徴語組み合わせリスト評価値計算部106は、評価対象のコンテンツの組み合わせにおける、コンテンツ集合A側から抽出した特徴語をコンテンツ集合Aの履歴テーブルから抽出した特徴語146とし、コンテンツ集合B側から抽出した特徴語をコンテンツ集合Bの履歴テーブルから抽出した特徴語1478とし、それぞれの特徴語についての評価値を、評価値148として、当該情報を評価テーブル145へ格納する。
図9では、コンテンツ集合Aの履歴テーブルから抽出した特徴語146が「レシピ」であり、且つコンテンツ集合Bの履歴テーブルから抽出した特徴語147が「献立」である特徴語の組み合わせは、評価値が「1」になることが示されている。
関連語決定部107は、評価結果テーブル145内の情報を用いて、各特徴語の組み合わせが、関連語に該当するか否かを判断し、関連語に該当する特徴語の組み合わせを関連語管理テーブル150へ格納する。ここで、関連語管理テーブル150で保持している情報の例を図10に示す。
図10に示すように、関連語管理テーブル150は、コンテンツ集合Aを意味する第1集合の特徴語151、コンテンツ集合Bを意味する第2集合の特徴語152、及び評価値153を有する。図10によれば、第1集合の特徴語151が「レシピ」で、第2集合の特徴語152が「献立」である、特徴語の組み合わせが関連語として登録されていることが示されている。
このように構成された情報処理装置100の動作について説明する。図11は、情報処理装置100の処理を示すフローチャートである。
履歴取得部101は、互いに種別が関連するコンテンツ集合Aにおける履歴テーブル120A及びコンテンツ集合Bにおける履歴テーブル120Bから履歴を取得する(S1)。
次に、コンテンツ組み合わせ生成部102は、コンテンツ集合Aに属するコンテンツと、コンテンツ集合Bに属するコンテンツとの全ての組み合わせを生成すると共に、当該組み合わせの双方のコンテンツを参照したユーザ数を算出する(S2)。
次に、アソシエーション分析処理部103は、コンテンツ組み合わせ生成部102が生成したコンテンツの組み合わせについて、各コンテンツの利用ユーザ数と、上記ルール支持度を入力パラメタとして用いて、各コンテンツのアソシエーション分析を行い、情報処理装置100は、アソシエーション分析結果である信頼度等を保持する(S3)。
次に、特徴語取得部104は、相関性が高いコンテンツ同士の組み合わせを特定し、当該コンテンツの組み合わせにおける、それぞれのコンテンツタイトルについて、形態素解析を行い、特徴語を抽出する(S4)。ここで、相関性が高いとは、上記アソシエーション分析処理部103が行ったアソシエーション分析処理による信頼度が高いこと又は/及びリフト値が高いことをいう。よって、特徴語取得部104は、信頼度128又は/及びリフト値129が所定値より高いコンテンツの組み合わせを特定する。なお、相関性が高いコンテンツだけでなく、全てのコンテンツの組み合わせを算出するようにしても良い。この場合は、アソシエーション分析処理を行う必要がない。すなわち、ステップS3を省略することができる。
次に、特徴語組み合わせリスト生成部105は、抽出された特徴語についてすべての組み合わせを生成する(S5)。特徴語組み合わせリスト評価計算部106は、前述の式に基づいて、各特徴語の組み合わせについて評価値を算出する(S6)。
次に、関連語決定部107は、評価値に基づいて関連語を決定し(S7)、処理を終了する。なお、情報処理装置100は、関連語決定部107が決定した関連語を、検索結果の順位を決める際に利用しても良いし、利用者端末へコンテンツのレコメンドをする際に利用しても良い。
以上説明したように、情報処理装置100では、履歴取得部101が、種別が付された複数のコンテンツにおける、ユーザ単位の履歴テーブル120から履歴を取得し、コンテンツ組み合わせ生成部102が、当該履歴を用いて、関連する種別のそれぞれから選択したコンテンツの組み合わせを生成すると共に、当該組み合わせにおける双方のコンテンツを参照したユーザ数の情報である組み合わせ参照数を生成し、特徴語取得部104が、関連する種別それぞれのコンテンツから特徴語を抽出し、特徴語組み合わせリスト生成部105が、関連する種別それぞれから選択した特徴語の組み合わせのコンテンツの組み合わせ内における出現度を生成し、特徴語組み合わせリスト評価値計算部106が、出現度と組み合わせ参照数とを少なくとも基礎として、当該特徴語の組み合わせの評価を行い、関連語決定部107が、当該評価の結果に基づいて、特徴語の組み合わせが関連語であるか否かを決定する。
このように、情報処理装置100は、関連する種別のコンテンツのそれぞれの組み合わせから抽出した特徴語の組み合わせが、上記コンテンツの組合せに出現する度合いと、当該コンテンツの組み合わせを利用者が利用した履歴の度合いとを用いて、特徴語の組み合わせが互いに関連するか否かを判断しているので、文章の構造に左右されることなく、関連語を抽出することができ、汎用性のある関連語の抽出手法を実現できる。また、情報処理装置100は、ユーザの実際の履歴に基づいて精度の良い関連語を抽出することができる。
また、本実施形態の情報処理装置100において、特徴語組み合わせリスト評価値計算部106は、特徴語が一般語であるか否かを判別するための指標情報をさらに基礎とする。これにより、特徴語が一般語であるか否かを判別するための指標情報をさらに基礎として評価するので、一般語が含まれる関連語を生成してしまうことを回避することができる。
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。
上述の実施形態では、特徴語組み合わせリスト評価値計算部106が、上記数式に基づいて評価値を算出する場合について述べたが、上記数式にさらにアソシエーション分析処理部103が生成した信頼度128及び/又はリフト値129を積算した値を評価値とするようにしても良い。
上述の他の実施形態によれば、情報処理装置100において、アソシエーション分析処理部103は、コンテンツ組み合わせ生成部102が生成した組み合わせの信頼度を生成し、特徴語組み合わせリスト評価値計算部106は、アソシエーション分析処理部103が生成した信頼度及び/又は「コンテンツの組み合わせのうち、一方のコンテンツを参照することを前提としている度合い」をさらに基礎として、特徴語の組み合わせの評価を行うことになる。
このように、情報処理装置100は、組み合わせの信頼度及び/又は「コンテンツの組み合わせのうち、一方のコンテンツを参照することを前提としている度合い」を基礎として、特徴語の組み合わせの評価を行うので、コンテンツの組み合わせの結びつきが強さに基づいて判断することになり、より関連語の精度を高めることができる。
上述の実施形態では、上記数式において、特徴語情報135Aの出現度n137や、特徴語情報135Bの出現度n137を除算する場合について述べたが、本発明は、これに限られず、特徴語情報135Aの出現度n137や、特徴語情報135Bの出現度n137を用いずに評価値を算出するようにしても良い。
100…情報処理装置、101…履歴取得部、102…コンテンツ組合せ生成部、103…アソシエーション分析処理部、104…特徴語取得部、105…特徴語組み合わせリスト生成部、106…特徴語組み合わせリスト評価計算部、107…関連語決定部、120…履歴テーブル、145…評価結果テーブル、150…関連語管理テーブル。

Claims (5)

  1. 種別が付された複数のコンテンツにおける、ユーザ単位の履歴を取得する履歴取得手段と、
    前記履歴取得手段が取得した履歴を用いて、関連する種別のそれぞれから選択したコンテンツの組み合わせを生成すると共に、当該組み合わせにおける双方のコンテンツを参照したユーザ数の情報である組み合わせ参照数を生成するコンテンツ組み合わせ生成手段と、
    前記関連する種別それぞれのコンテンツから特徴語を抽出する特徴語抽出手段と、
    前記特徴語抽出手段が抽出した特徴語について、前記関連する種別それぞれから選択した特徴語の組み合わせの前記コンテンツの組み合わせ内における出現度を生成する特徴語組み合わせ生成手段と、
    前記出現度と、前記組み合わせ参照数とを少なくとも基礎として、当該特徴語の組み合わせの評価を行う評価手段と、
    前記評価手段による評価結果に基づいて、前記特徴語の組み合わせが関連語であるか否かを決定する関連語決定手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記評価手段は、前記特徴語が一般語であるか否かを判別するための指標情報をさらに基礎として、前記特徴語の組み合わせの評価を行うことを特徴とする請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、前記コンテンツ組み合わせ生成手段が生成したコンテンツの組み合わせの信頼度を生成する組み合わせ信頼度生成手段、をさらに備え、
    前記評価手段は、前記組み合わせ信頼度生成手段が生成した信頼度をさらに基礎として、前記特徴語の組み合わせの評価を行うことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記組み合わせ信頼度生成手段は、前記コンテンツの組み合わせのうち、一方のコンテンツを参照することを前提としている度合いをさらに生成し、
    前記評価手段は、前記度合いをさらに基礎として、前記特徴語の組み合わせの評価を行うことを特徴とする請求項3に記載の情報処理装置。
  5. 情報処理装置により実行される特徴語評価方法であって、
    種別が付された複数のコンテンツにおける、ユーザ単位の履歴を取得する履歴取得ステップと、
    前記履歴取得ステップで取得した履歴を用いて、関連する種別のそれぞれから選択したコンテンツの組み合わせを生成すると共に、当該組み合わせにおける双方のコンテンツを参照したユーザ数の情報である組み合わせ参照数を生成するコンテンツ組み合わせ生成ステップと、
    前記関連する種別それぞれのコンテンツから特徴語を抽出する特徴語抽出ステップと、
    前記特徴語抽出ステップで抽出した特徴語について、前記関連する種別それぞれから選択した特徴語の組み合わせの前記コンテンツの組み合わせ内における出現度を生成する特徴語組み合わせ生成ステップと、
    前記出現度と、前記組み合わせ参照数とを少なくとも基礎として、当該特徴語の組み合わせの評価を行う評価ステップと、
    前記評価ステップによる評価結果に基づいて、前記特徴語の組み合わせが関連語であるか否かを決定する関連語決定ステップと、
    を含む特徴語評価方法。
JP2012204936A 2012-09-18 2012-09-18 情報処理装置および特徴語評価方法 Active JP5854957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012204936A JP5854957B2 (ja) 2012-09-18 2012-09-18 情報処理装置および特徴語評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012204936A JP5854957B2 (ja) 2012-09-18 2012-09-18 情報処理装置および特徴語評価方法

Publications (2)

Publication Number Publication Date
JP2014059763A JP2014059763A (ja) 2014-04-03
JP5854957B2 true JP5854957B2 (ja) 2016-02-09

Family

ID=50616172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012204936A Active JP5854957B2 (ja) 2012-09-18 2012-09-18 情報処理装置および特徴語評価方法

Country Status (1)

Country Link
JP (1) JP5854957B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011233041A (ja) * 2010-04-28 2011-11-17 Nippon Telegr & Teleph Corp <Ntt> 嗜好推測システムおよび嗜好推測方法
JP5467062B2 (ja) * 2011-01-17 2014-04-09 日本電信電話株式会社 情報推薦装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2014059763A (ja) 2014-04-03

Similar Documents

Publication Publication Date Title
US8630972B2 (en) Providing context for web articles
AU2010300317B2 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
US10169449B2 (en) Method, apparatus, and server for acquiring recommended topic
US20150019951A1 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
US8316026B2 (en) Method and system for keyword management
US20110112824A1 (en) Determining at least one category path for identifying input text
US20110307469A1 (en) System and method for query suggestion based on real-time content stream
US20120330932A1 (en) Presenting supplemental content in context
US20140379719A1 (en) System and method for tagging and searching documents
US9552415B2 (en) Category classification processing device and method
US20150120708A1 (en) Information aggregation, classification and display method and system
US9460165B2 (en) Retrieval device, retrieval system, retrieval method, retrieval program, and computer-readable recording medium storing retrieval program
KR20130092310A (ko) 상품 추천 시스템
Patankar et al. A bias aware news recommendation system
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US9996529B2 (en) Method and system for generating dynamic themes for social data
JP5424393B2 (ja) 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
CN113392329A (zh) 内容推荐方法、装置、电子设备及存储介质
US20220292127A1 (en) Information management system
JP2020135673A (ja) 投稿評価システム及び方法
JP5854957B2 (ja) 情報処理装置および特徴語評価方法
Colavizza A diachronic study of historiography
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151208

R150 Certificate of patent or registration of utility model

Ref document number: 5854957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250