JP6412338B2 - 興味キーワード抽出装置及び興味キーワード抽出プログラム - Google Patents

興味キーワード抽出装置及び興味キーワード抽出プログラム Download PDF

Info

Publication number
JP6412338B2
JP6412338B2 JP2014098777A JP2014098777A JP6412338B2 JP 6412338 B2 JP6412338 B2 JP 6412338B2 JP 2014098777 A JP2014098777 A JP 2014098777A JP 2014098777 A JP2014098777 A JP 2014098777A JP 6412338 B2 JP6412338 B2 JP 6412338B2
Authority
JP
Japan
Prior art keywords
interest
keyword
program
extraction
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014098777A
Other languages
English (en)
Other versions
JP2015215794A (ja
Inventor
苗村 昌秀
昌秀 苗村
クリピングデル サイモン
クリピングデル サイモン
高橋 正樹
正樹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014098777A priority Critical patent/JP6412338B2/ja
Publication of JP2015215794A publication Critical patent/JP2015215794A/ja
Application granted granted Critical
Publication of JP6412338B2 publication Critical patent/JP6412338B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、興味キーワード抽出装置及び興味キーワード抽出プログラムに係り、特にユーザ毎に興味があるキーワードを適切に抽出するための興味キーワード抽出装置及び興味キーワード抽出プログラムに関する。
ユーザが興味のあるキーワード(以下、必要に応じて「興味キーワード」という)を抽出する技術は、情報の推薦処理やユーザの嗜好推定を行うシステムへの利用を考慮しているものが多い。従来の興味キーワードの推定技術では、ユーザのコンテンツへの履歴情報を蓄積して解析するものが主流である。また、上述した技術は、例えばスマートフォンやタブレット端末、Personal Computer(PC)等での使用を目的とした類似の手法が存在する(例えば、特許文献1参照)。特許文献1では、スマートフォンやPC等の操作履歴情報から興味のある提示画面の範囲を特定し、その範囲の画像情報をキャプチャして解析することにより、興味の対象を抽出している。
また、従来では、ユーザの対象コンテンツへのアクセス履歴情報からコンテンツ内容の言語部分を解析して、興味のあるキーワードを抽出する手法が存在する(例えば、特許文献2参照)。特許文献2では、カテゴリレベルの嗜好とキーワードレベルの嗜好の両方を考慮した推薦を行っている。
また、上述した特許文献2での限定的なキーワード抽出を改良し、抽出したキーワード集合から特徴空間を生成してその特徴空間での特徴ベクトルで類似度計算をする手法がある(例えば、特許文献3参照)。
特開2013−47909号公報 特開2010−262383号公報 特開2013−210923号公報
しかしながら、上述した特許文献1に示すような興味対象の抽出は、キャプチャ画面内の文字情報を画像認識する手法が用いられているため、精度として安定していない。また、興味対象の抽出は、ユーザの明示的な情報に頼っており、ユーザとの自然なインタラクション中での抽出でないため、ユーザインタフェースとして使い勝手も悪いと予想される。
また、上述した特許文献2に示すキーワードは、ユーザがアクセスしたコンテンツに含まれている固有名詞に限られており、キーワードの抽出が限定的なものとなっている。また、キーワードの抽出は、ユーザのアクセスした履歴情報を直接的に使って行っており、ユーザ側のコンテクスト情報を取り入れていないので、表層的なキーワード抽出となっている。
また、上述した特許文献3に示す特徴空間の生成方法は、コンテンツへの履歴情報とキーワードの出現有無の関係をベースにしたアドホックな手法であり汎用性に乏しい。
つまり、上述した従来手法では、視聴者(ユーザ)の自然な番組の視聴態度から番組内の興味を持った内容を興味キーワードとして抽出することはできない。したがって、視聴者の嗜好を特定でき、個人に適応した情報の提供が実現できなかった。
本発明は、上述した問題点に鑑みなされたものであり、ユーザ毎に興味があるキーワードを適切に抽出するための興味キーワード抽出装置及び興味キーワード抽出プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
本発明の一つの態様としては、番組視聴時に対する視聴状況から視聴者が興味のある興味キーワードを抽出する興味キーワード抽出装置において、視聴者の視聴履歴情報から、視聴者に視聴された番組の、所定の区間での内容に関する各キーワードに対し、前記各キーワードに対応する前記番組の視聴時間に応じた重み付けを行い、興味分野を所定の領域で示した興味領域と、該興味領域を特徴付ける興味モデルのパラメータを学習する学習手段と、前記学習手段により得られる前記興味モデルのパラメータを用いて、視聴中の番組に対応付けられた番組内容を表すキーワード列と前記視聴者の視聴状況とから、前記視聴者が興味があると推定されるキーワードを興味キーワードとして抽出する抽出手段とを有することを特徴とする。
また本発明の一つの態様としては、コンピュータを、上述した興味キーワード抽出装置が有する各手段として機能させるための興味キーワード抽出プログラムである。
本発明によれば、ユーザ毎に興味があるキーワードを適切に抽出することができる。
本実施形態における興味キーワード抽出装置の機能構成の一例を示す図である。 興味モデル学習処理の一例を示すフローチャートである。 興味キーワード抽出処理の一例を示すフローチャートである。 本実施形態での興味モデルの概念を模式的に示した図である。 本実施形態における学習フェーズと抽出フェーズとを具体的に説明するための図である。 キーワードのグループ化処理を説明するための図である。 興味モデルによる順位付け処理を説明するための図である。 グループ領域とグループキーワードに割り当てられた確率値を説明するための図である。
<本実施形態について>
本実施形態は、例えばテレビ受像機やスマートフォン、タブレット端末、PC等を用いた番組視聴時(以下、必要に応じて「TV視聴時」という)における視聴者(ユーザ)の視聴行動を解析することにより、視聴者が潜在的に興味を持っていると想定される複数の興味キーワードを抽出する手法に関する。本実施形態では、例えばTV視聴時に視聴者が興味を有した時間における番組の内容(番組出演者、タイトル、あらすじ等から得られる各キーワード)や視聴者の行動内容、番組内容を表現する情報等を照合して、視聴者が潜在的に興味を持っている内容を表す興味キーワードを複数抽出する仕組みを提供する。
例えば、本実施形態では、視聴者個人が定常的に持っている興味が複数の興味領域(興味分野を所定の領域で示したもの)から構成されているとの仮定に基づき、既に蓄積されたデータを用いた学習処理における興味キーワードの抽出に必要なパラメータの特定と、それらのパラメータを用いた新規データに対する興味キーワードの抽出処理とから構成される。
学習処理では、個人の既存の視聴行動履歴と視聴番組内容を表す情報(例えば、キーワード列等)とを統合して学習することにより、潜在的興味領域パラメータと興味領域を特徴付けるパラメータを特定し、個人を識別するための認証ID情報と紐付けて記憶する。ここで、新規キーワードデータに対する興味キーワードの抽出は、学習処理で特定した領域パラメータと領域毎の特徴パラメータとを利用して、個人の新規キーワードデータに対する興味の度合いを表す尤度を算出して、その尤度が規定以上の値であるキーワードを興味キーワード候補として抽出する。
推定した興味キーワードを活用することにより、視聴者の興味に対する詳細な情報を提供したり、広げたりすることが可能なテレビユーザーインターフェースの実現が可能となる。
<興味キーワード抽出装置:機能構成例>
本実施形態における興味キーワード抽出装置の機能構成例について図を用いて説明する。図1は、本実施形態における興味キーワード抽出装置の機能構成の一例を示す図である。図1に示す興味キーワード抽出装置10は、学習手段11と、抽出手段12とを有する。
学習手段11は、興味度重み付け手段21と、興味モデル生成手段22と、シソーラス辞書データベース(以下、データベースを「DB」という)23と、認証手段24と、個人別興味モデルパラメータDB25とを有する。また、抽出手段12は、興味度重み付け手段31と、興味キーワード抽出手段32と、情報提示手段33とを有する。
興味度重み付け手段21は、番組内容を表すキーワード列41と、視聴状況42を入力し、各キーワードと視聴状況42とからそのユーザに対する興味度の重み付け処理を行う。また、興味度重み付け手段21は、例えばキーワード毎に予め設定された属性等に応じてグループ分けを行ってもよい。
番組内容を表すキーワード列41とは、番組のタイトル、出演者、番組内容、放送時間、ジャンル、あらすじ等の情報であるが、これに限定されるものではない。
上述した番組内容を表すキーワード列41とは、例えば番組毎に予め設定されているメタデータ(例えば、EPG(Electronic Program Guide)に含まれている情報や、分単位で詳細に設定された番組の出演者情報や映像情報、画面に表示されている文字(例えば、字幕等)や画像等を含む番組情報等である。本実施形態では、上述した番組情報等を参照し、TV視聴時における視聴者の番組への興味度を推定する。興味度重み付け手段21は、その時点及び前後の時間帯における番組内容に関係する情報や視聴者の行動内容等から興味の対象についての重み付けを行う。上述したEPGには、番組情報だけでなく、タイトルやジャンル、出演者等の様々な情報が含まれる。
また、上述した視聴状況42とは、視聴者が各時間にどの番組を表示させていたかを示すものであり、例えば番組の変更(チャンネルの切り替え)行為等の各種行動内容であるが、これに限定されるものではない。視聴状況42は、ユーザによるリモコン操作等によりテレビ受像機に表示される番組が変更された場合やテレビ受像機の電源がON/OFFされた場合に、それぞれの事象に対応する情報がユーザ情報等と共に、テレビ受像機等から通信ネットワークを介して興味キーワード抽出装置10に送信される。
また、視聴状況42は、例えば視聴者毎の視聴状況を認識するための任意の入力信号であってもよい。入力信号としては、例えばカメラ(撮像手段)等で撮影された視聴者の映像やマイク等の音声取得手段から入力された視聴者の音声情報等の観測情報等があるが、これに限定されるものではない。
興味モデル生成手段22は、興味度重み付け手段21から得られるユーザ毎の興味度と予め設定されたシソーラス辞書DB23とを用いて興味モデルを生成する。例えば、興味モデル生成手段22は、シソーラス辞書DB23を用いて個人別の番組内容や行動内容等から興味分野の領域の占有確率分布を求める。また、興味モデル生成手段22は、例えば占有確率分布等から抽象度の高い興味対象を興味内容予測モデルとして個人別興味モデルパラメータDB25に追加する。このように興味対象をDBに格納することで、興味内容の予測モデルを、より広範な興味対象に拡張することができる。
ここで、シソーラス辞書DB23とは、例えば番組の興味キーワードや出演者名等の言葉を、同義語や意味上の類似関係、包含関係等によって分類した辞書やデータベース等であるが、これに限定されるものではない。上述したシソーラス辞書DB23を用いることで、例えば番組の興味キーワードが「シマウマ」である場合に、その言葉の拡張した興味内容として「動物」、「アフリカ」等といった興味内容の拡張を行うことができる。
認証手段24は、興味度重み付け手段21に入力された番組内容を表すキーワード列41と視聴状況42に対応する視聴者(ユーザ)の個人情報43を入力し、入力した個人情報と、興味モデル生成手段22により生成された興味モデルとを統合して個人別興味モデルパラメータDB25として保存する。また、認証手段24は、例えば個人別興味モデルパラメータDB25により含まれる個人情報と、外部から入力される個人情報43とを照合して興味キーワード抽出装置10の使用の可否を判断してもよい。
ここで、個人情報とは、個人を識別するための識別情報(例えば、ユーザID、パスワード等)だけでなく、例えばテレビ受像機等の番組を表示する装置(表示装置)を操作する遠隔操作手段(リモートコントローラ(以下、「リモコン」という))等に設けられた各種操作ボタンを使用したときの情報であってもよい。また、ユーザは、例えばテレビ受像機に内蔵又は外付けされたカメラ(撮像手段)を用いて自分の顔画像を撮影し、その撮影された顔画像を個人情報43として入力してもよい。
個人別興味モデルパラメータDB25は、認証時に使用する個人情報、個人の蓄積情報、個人情報43との照合結果、視聴状況42、情報提示内容等が記憶されるが、これに限定されるものではない。個人別興味モデルパラメータDB25に記憶される個人情報の一例としては、ユーザID、パスワード、IPアドレス等のアドレス情報、年齢や性別、趣味、特技、嗜好情報等を含むプロファイル情報、顔画像、及び指紋情報等の生体情報等のうち、少なくとも1つの情報である。また、個人別興味モデルパラメータDB25は、ユーザ毎の興味内容を予測する興味内容予測モデル等を有する。
また、図1に示す抽出手段12において、興味重み付け手段31は、学習手段11における興味度重み付け手段21と同様に、番組内容を表すキーワード列44と、視聴状況45とを入力し、興味度の重み付け処理を行う。なお、上述した番組内容を表すキーワード列41と、視聴状況42とは、学習用のデータ(視聴履歴情報)であり、番組内容を表すキーワード列44と、視聴状況45とは、興味キーワードを抽出して対応する情報を提示するための抽出用のデータである。
興味キーワード抽出手段32は、興味度重み付け手段31と、シソーラス辞書DB23と、個人別興味モデルパラメータDB25とを用いて興味キーワードを抽出する。
情報提示手段33は、興味キーワード抽出手段32により得られる興味キーワードや、興味キーワードに対応する番組情報や関連情報等の興味情報46をユーザ等に提示する。なお、情報提示手段33は、興味キーワードを出力する場合に、興味の大きさ(度合い)を表す指標も合わせて出力することによって、例えばユーザによる興味キーワードの選択等を簡単にする。この場合、興味キーワードの優先順位(尤度)等に基づいて上位から所定数の興味キーワードを提示してもよいが、提示方法は、これに限定されるものではない。
ここで、上述した番組内容を表すキーワード列41,44、視聴状況42,45、及び個人情報43は、予め興味キーワード抽出装置10に設けられる記憶手段(図示せず)等に記憶されてもよい。また、シソーラス辞書DB23及び個人別興味モデルパラメータDB25は、1つの記憶手段として管理されていてもよい。
<興味キーワード抽出処理の一例>
次に、上述した興味キーワード抽出装置10における興味キーワード抽出処理の一例について、フローチャートを用いて説明する。なお、本実施形態では、興味モデルの学習処理(学習フェーズ)と抽出処理(抽出フェーズ)とに大別できるため、それぞれを分けて説明する。
<興味モデル学習処理>
図2は、興味モデル学習処理の一例を示すフローチャートである。図2の例において、学習手段11は、番組のキーワード列Xn(t)を取得する(S01)。S01の処理において、キーワード列Xn(t)とは、例えば時系列(時間t)で得られる番組の情報(例えば、字幕等)から切り出した1又は複数のキーワードを有するキーワード列Xn(例えば、番組のタイトルやジャンル、演出、登場人物、セリフ等)であるが、これに限定されるものではない。
次に、学習手段11は、それぞれのキーワードが属するグループのワード列に変換する(S02)。S02の処理では、グループ処理として、例えば対象人物の属するグループワード列gXn(t)(例えば、各人物名を野球選手、サッカー選手、歌手、政治家等)でグループ分けを行う。
次に、学習手段11は、時系列における視聴状況42を入力し、入力した視聴状況信号列に対して重み付け処理を行う(S03)。例えば、ある視聴者は、サッカーに興味があるが、野球や歌手には興味がない場合に、サッカーは他のワードよりも優先度が高くする等の処理行う。興味があるキーワードの抽出は、例えばキーワードに対応する視聴時間の累計やヒストグラム等を用いて推定することができるが、これに限定されるものではない。
次に、学習手段11は、学習に十分なデータが記憶されたか否かを判断する(S04)。S04の処理では、例えば、予め設定された閾値以上の数に対して重み付け処理を行ったか否かにより判断することができるが、これに限定されるものではない。
S04の処理において、学習に十分なデータが記憶されていない場合(S04において、NO)、S02の処理に戻る。また、S04の処理において、学習に十分なデータが記憶された場合(S04において、YES)、学習手段11は、興味分野の領域の占有確率分布を求める(S05)。
次に、学習手段11は、パラメータkの初期値に0をセットし(S06)、興味の領域kに属しているデータを取り出し(S07)、興味分野q毎の統計量を計算する(S08)。
次に、学習手段11は、興味分野領域の処理が終了したか否かを判断し(S09)、興味分野領域が終了していない場合(S09において、NO)、kに1増加して(S10)、S07の処理に戻り、次の興味の領域(興味分野領域)kに対して後続の処理を行う。また、S09の処理において、興味分野領域を終了する場合(S09において、YES)、興味モデルパラメータを出力する(S11)。
<興味キーワード抽出処理>
図3は、興味キーワード抽出処理の一例を示すフローチャートである。図3の例において、抽出手段12は、視聴番組からのキーワード列Xを取得し(S21)、学習処理と同様にグループ化処理を行う(S22)。
次に、抽出手段12は、学習結果のパラメータを入力し、グループワード毎に上述した興味モデルパラメータ(学習パラメータ)に基づいて出現確率を計算する(S23)。次に、抽出手段12は、確率の大きさに基づいて順位付けを行い(S24)、例えば最も順位の高いグループワード、又は最高順位から所定数のグループワードに含まれるキーワードを抽出する逆グループ化を行う(S25)。
ここで、S25の処理では、例えば新規のキーワードから興味キーワードを抽出する際に、入力キーワードをグループ化したキーワードに変換し、変換されたグループキーワードで興味キーワード(興味グループキーワード)の抽出を行い、その抽出結果を、グループ化を行った処理の逆変換で復元処理を行って元の興味キーワードの集合(グループに含まれる各キーワード)での順位付け情報を得る処理である。
次に、抽出手段12は、視聴番組からの興味キーワード列を出現確率が大き順に提示して処理を終了する(S26)。なお、S26の処理では、視聴番組からの興味キーワード列を出現確率が大きい方から所定数を提示してもよい。
上述した処理により、本実施形態では、視聴者のテレビ視聴における興味の内容を興味キーワードとして抽出する際、過去の視聴者が興味を持ったときの時間における番組内容や視聴者の行動内容を統計的に学習して視聴者の興味モデルのパラメータを推定し、そのパラメータを利用することにより新しい番組視聴時の興味キーワードを抽出することができる。
なお、上述した図2に示す学習処理は、図3に示す抽出処理の実行前に処理されることが好ましいが、連続して行わなくてもよい。また、学習処理の結果を用いて図3に示す抽出処理を複数回行ってもよい。
<具体例>
本実施形態における興味キーワード抽出手法では、視聴者が興味を持って視聴していたコンテンツの内容(例えば、番組内容等)を統計的に解析することにより、視聴者の興味の対象である興味内容を興味キーワードとして抽出する。
具体的には、視聴者の視聴した情報(視聴状況)を収集して解析することにより、個々の視聴者の興味領域とその興味領域を特徴付けるパラメータで形成される興味モデルを構築する。また、本実施形態では、構築した興味モデルのパラメータを利用して、新規に出現したキーワードから視聴者の興味内容を反映した興味キーワードを抽出する。そして、上述した処理を元のキーワード空間を縮退させた(グループ化された)空間で行い、その興味キーワード空間で抽出した情報を元のキーワード空間に逆変換することで、最終的な興味キーワードを出力する。
また、本実施形態では、上述した処理を行う時に、視聴者の視聴状況より得られた興味視聴の度合いを表すベクトルで重み付けた情報等で処理することにより、視聴者の視聴時の振る舞いを考慮した処理を実現することができる。また、上述した処理で興味モデルに基づく統計処理を導入し、出力として興味の大きさ(度合い)を表す指標も出力することによって、例えばユーザによる興味キーワードの選択等を簡単にする。
<興味モデル生成について>
次に、上述した興味モデル生成手段22における興味モデル生成の具体例について説明する。本実施形態では、視聴者の番組に対する興味の持ち方を興味モデルとして定式化し、その興味モデルのパラメータを利用することで新しい番組を視聴した時の興味対象を、適切に抽出して興味キーワードとして出力することができる。
興味モデルは、視聴者個々が潜在的にどのような範囲の興味を持っているかを複数の領域に分けて、それぞれの興味領域の占有確率と、それら領域に特徴的なパラメータとの組み合わせで表現したものである。このような興味モデルの構築は、例えば視聴者が既に視聴した番組(コンテンツ)と、その時の視聴状況とを統計的な学習処理で求めることができ、データ収集方法や解析手順等は、例えば本出願人により出願された特願2013−180199号に記載された手法を踏襲できる。
まず、最初に興味キーワード抽出手法における興味モデル構築のための前提条件について述べる。視聴者個人が本来持っている興味分野、すなわち興味領域は、個人毎に異なる。例えば、料理好きな人、スポーツ好きな人、又は音楽好きな人がいるように、人によってどの領域に興味を高く示すかは異なる。
一般的に、個人毎の興味領域は複数あり、その数は個人によって異なる。また、各興味領域は、個人にとってその興味領域がどれくらい割合で占めているかを示す占有確率として表現することができる。代表的な確率分布は、ディレクリ分布(Dirichlet distribution)である。ディレクリ分布では、人がどの領域にどのくらいの重みで興味を持っているかを確率変数として数値化を行う。例えば、「スポーツ」に「0.4」、「料理」に「0.3」、「音楽」に「0.2」、「その他」に「0.1」というように興味分野への興味度合いを数値化できる。
また、それぞれの興味領域を特徴付けるものとして、その興味領域を代表するキーワード集合がある。これは、興味分野毎に全てのキーワード(この場合、処理で扱う有限のキーワード集合)に対して、対象分野にどのくらい属しているかを表すことができる。
また、興味領域を特徴付ける興味キーワード集合は、その興味領域との関係の深さを確率分布として表現できる。通常は、その確率分布は多項分布で表現することができる。例えば、興味分野として、料理、スポーツ、音楽があるが、例えば、「aaa(aaaは、ある有名な歌手名を示す)」というワードは、本業が歌手であるが、料理番組に出演していることもあるので、それぞれの分野に対する出現確率の比率は、「料理:スポーツ:音楽=(3/V):(1/V):(8/V)」等といった数値で表すようなことが可能である。ここでVは、それぞれの分野毎にキーワードの出現を確率分布にするためのキーワード全体での正規化項である。
以上の前提条件より、視聴者毎の興味モデルを構築するということは、興味モデルを表現するパラメータを推定することと等価となる。図4は、本実施形態での興味モデルの概念を模式的に示した図である。なお、図4では、概念空間での潜在興味分布の模式図を示している。
図4に示すq〜qは、それぞれグループ化された興味領域を示しており、興味領域は、キーワード群に対する多項分布をとる。ここで、図4に示すθは、各興味領域を多項分布で定義した集合(興味モデルパラメータの一例)を示し、θに含まれる各p(x)は、その興味領域(グループ内)のキーワードに対する出現確率(例えば、所属する興味領域の中で、そのキーワードが出現する確率がどのぐらいあるか)を示している。
つまり、図4の例では、例えばサッカーという興味領域(グループ)の中で、日本代表、欧州サッカー、選手名、監督名、チーム名等の各キーワードがどのくらい興味があるか、その興味領域に従った観測値(キーワード)の出現確率を示している。また、各キーワードは、1つの興味領域だけに存在する場合もあるが、そのほとんどが複数の興味領域に存在する。
また、上述した興味領域は多次元であるため、図4のように2次元で表現すると各興味領域が異なる形状で表現される。なお、図4に示す領域の形状は、あくまでも概念的に示した一例であり、これに限定されるものではない。
本実施形態において、興味モデルパラメータは、興味領域の占有確率分布のパラメータと、それぞれの興味領域における興味キーワード集合の確率分布のパラメータとなる。つまり、図4に示すように定義付けた興味モデルパラメータを、視聴者の視聴状況データと、番組内容等から学習して推定し、その推定結果を新規のTV視聴時のデータを用いた抽出処理に用いることにより興味キーワードを高精度に抽出することができる。
図5は、本実施形態における学習フェーズと抽出フェーズとを具体的に説明するための図である。上述したように本実施形態は、キーワード等による興味モデルの学習フェーズと、興味キーワード抽出フェーズの2つに大別される。
図5に示す学習フェーズでは、既に視聴済みの番組に関するデータとその時の視聴状況データとを入力として興味モデルパラメータを学習する過程を示している。図5の例における入力は、番組の内容データがX、視聴状況データがWで表わされている。番組内容データのXは、番組のシーンや一定時間に区切られた区間での番組内容に関係するキーワード集合である。このキーワード集合の抽出は、例えば、番組に付加されている字幕データや番組映像中のオープンキャプションから形態素解析等の自然言語処理を用いて抽出することができる。また、個々のキーワードは、それぞれ識別コードを付けることによってシンボル化している。このXを数式表現したのが以下に示す(1)式である。
Figure 0006412338
(1)式では、キーワードのシンボル化の一例を示す。(1)式に示すように、各列が番組における区切られた時間(例えば、シーン区切り(複数の番組に渡る))を示し、各行はその単位シーン毎に番組内容として抽出されたキーワード(出現単語)又はキーワードの頻度情報(出現確率)等を示す。このとき、キーワードは、識別IDでシンボル化されており、そのシンボル毎に管理されている。
また、本実施形態では、各視聴者の視聴状況でキーワードの重み付け処理を行う。
ここで、本実施形態において、番組内容を表すキーワード集合をそのまま使って興味モデルを生成することも原理的には可能であるが、キーワードの種類は膨大な数があり、それらをカバーする興味モデルを構築するためには時間を要求する場合がある。そこで、本実施形態では、興味キーワードのグループ化(次元圧縮)処理G(X)である。
また、本実施形態では、視聴状況データによる重み付けベクトルWは、以下に示す(2)式のように表現することができる。
Figure 0006412338
上述した(1)式と(2)式の積であるw・G(x)の行列で表現されるCxから興味モデルパラメータを推定することにより、視聴者毎の視聴状況を考慮した興味モデルの生成が可能となる。
ここで、キーワードのグループ化処理について説明する。図6は、キーワードのグループ化処理を説明するための図である。この処理は、図6に示すように、膨大なキーワード空間を縮退させてコンパクトな空間に変換する処理である。この処理を抽出したキーワード集合Xに施すことにより、元のキーワード空間では重なりがなくてもグループ化された空間(以下、必要に応じて「グループキーワード(Gx)空間」という)では重なりが生じ、少ないキーワード集合でも効率的に興味モデルの構築ができるようになる。例えば、元のキーワードとして「松○秀○」、「上○浩○」というキーワードが存在している場合、元のキーワード空間での処理では両者のキーワードは異なる要素として扱うことになるが、ある種のグループ化処理(次元圧縮処理)を施すことにより両者が「元A球団のプロ野球選手で大リーガーとなった選手」という括りで同じグループの要素であるとみなした場合、両者はグループ化空間(縮退キーワード空間)では「元A球団のプロ野球選手で大リーガーとなった選手」のグループとして同じ種類の信号として扱うことができるような仕組みである。
本実施形態において、興味モデル構築に採用している統計的な解析手法は、データの偏りが多いほど有効となる。そのため、グループキーワード空間で処理を行う方が効率的となる。
グループ化処理としては、図6に示すように元のキーワード集合から主成分要素を求めたり、キーワード間の類似関係によりキーワードのリダイレクト関係を築いたり、又はWikipedia(登録商標)登録のキーワードに定義されているようなキーワードの上位カテゴリへのマッピング情報を利用したりすることにより実現することができるが、これに限定されるものではない。
なお、新規番組視聴でのキーワード抽出は、例えば、上述したグループ化処理の逆変換処理を施すことにより、元のキーワードでどの部分がキーワードに該当するか等も求めることができる。
このように、グループキーワードでCx(w・G(x))を作成するまでが処理全体の準備処理(学習フェーズ)で、Cxが準備できれば、例えば既存のノンパラメトリックベイズ推定処理に即した方法で興味モデルパラメータの推定ができる。興味モデルパラメータの推定は、観測データであるCxが興味モデルを基に生成された結果であるという仮定に基づき、ベイズ理論を用いて観測データxから興味モデルパラメータを推定する枠組みである。
この枠組みを具体的に説明すると、キーワードの生成過程は、まず、興味の領域が決まる(例えば、複数の興味領域の存在を仮定すると、Q={q,・・・,qK−1})。次に、定められた興味領域に従った分布でキーワード列が表現される(例えば、Θ={θ,...,θ})。次に、上述した興味領域の確率分布に基づいて、興味のキーワードが得られる(例えば、p(x|θ))。これにより、視聴者毎に視聴データから(G,Θ)を学習することができる。なお、Qは、latent variablesであり、Θは、latent variable毎のキーワード出現のMultinomial distributionを示す。
また、本実施形態における興味パラメータの推定は、例えばDirichlet Mixture Modelに本実施形態におけるCxを適用することにより実現できる。
Dirichlet Mixture Modelについては、例えば「Y.W.Teh,M.I.Jordan,M.J.Beal,D.M.Blei.2006.,'Hierarchical Dirichlet processes.Journal of the American',Statistical Association,101(476):1566-1581.」や、「Blei,D.,A.Ng,M.Jordan.,'Latent Dirichlet allocation.'Journal of Machine Learning Research,3:993-1022,2003.」に記載されているが、これらに限定されるものではない。
これにより、本実施形態では、図5に示すように興味モデルパラメータ(図5に示す学習パラメータ)における興味領域グループQ={q,・・・,q}、及び興味領域に対応したデータの出現確率(多項分布)に対応するΘ={θ,...,θ}を求めることができる。
また、上述したように興味モデルパラメータ(図5に示す学習パラメータ)が求まれば、興味モデルパラメータを利用することにより新規の視聴番組のシーンから興味キーワードを抽出することができる。
また、本実施形態において、興味キーワードの抽出フェーズの処理は、上述した学習フェーズと同様、シーンのキーワード群をグループ化処理でグループキーワード群に変換し、それ以後の処理は学習で得た興味モデルパラメータを用いた統計的な推定処理を行う。キーワード部分の処理の構成を簡単に記述したのが図7である。
図7は、興味モデルによるキーワード順位付け処理を説明するための図である。この中で興味モデルの順位付けは、興味モデルパラメータを用いた統計的予測処理で以下の手順から構成される。
まず、G(x)の興味領域を推定する((3)式)。次に、G(x)に含まれる単独キーワードG(x[j])の尤度を推定する((4)式)。次に、上述した興味領域と尤度のそれぞれの値の積を各キーワードの興味確率と定義する((5)式)。この結果を大きい順番に並べて、図7に示すように上位から所定数のキーワードとして出力する(例えば、図5に示す尤度の高いG(x)出力top_G(xnew))。
Figure 0006412338
なお、上述した各式において、xは、時刻iにおけるキーワード集合を表し、x[j]は、そのキーワード集合のうち、j番目の単体のキーワードを表す。また、これらのキーワードをグルーピングして分類した結果をG(x)で表している。また、x−iは、時刻i以前に出現したキーワードの全てを集めた集合を表す。Θは、興味領域毎のキーワードの出現頻度を表す多項確率分布の全体のパラメータ集合を表し、θは、個別の興味領域に対するパラメータを表す。したがって、興味領域qに対するパラメータは、θqiと表すことができる。また、p()は確率を表す。
ここで、順位付けされるキーワードは、グループキーワードであるため、元のキーワード群に戻すためには、図5に示すようにグループ化処理G(・)の逆変換処理(逆グループ化処理G−1(x))が必要である。これにより、例えば、図5に示す興味キーワードtop_xnewを出力することができる。
上述した処理を更に具体的に説明する。なお、以下の説明では、便宜上、興味分野や興味キーワード空間、グループキーワード空間を極力限定しているが、実際の応用ではこれに限定されるものではない。
例えば、視聴者Aが視聴中の番組で興味のある人物キーワードをその興味の高い順番に提示する処理を考える。ここで扱うキーワード空間とグループキーワード空間は以下のようになる。
興味キーワード空間:[安○信○、松○秀○、三○知○、○鳳]
グループキーワード:[政治家、野球選手、サッカー選手、相撲力士,音楽家]
視聴者Aの興味モデルはすでに学習フェーズで取得済みで、以下のような確率分布となっているとする。例えば、視聴者Aの興味領域の潜在的な確率分布を3つの分布q1,q2,q3を持つと仮定して「(q1,q2,q3)=(1/2,1/6,1/3)」とする。
更に、それぞれのグループ毎のグループキーワードの出現確率は、
q1の興味領域=[1/6,1/6,1/2,1/12,1/12]
q2の興味領域=[1/8,1/4,1/8,1/8,3/8]
q3の興味領域=[1/12,1/12,1/12,3/4,1/12]
と仮定する。
q1、q2、q3のグループキーワードの出現確率の分布から、q1が主にサッカー、q2が主に音楽、q3が主に相撲への興味が支配的な領域であるといえる。これらの興味領域に対して視聴者Aの潜在的にq1,q3,q2の順番で興味を持っていることが興味領域の潜在的確率分布から分かる。
ここで、いま視聴者Aが、番組を興味を持って見ている区間の番組内容情報として、「安○首相の主催する食事会で、元大リーグの松○秀○氏と元サッカー日本代表の三○知○と横綱○鳳関が今後の日本のスポーツ行政について議論を交わした。」が得られたと仮定する。この文章から既存の言語言語処理を用いることで、人物に関するキーワードが[安○首相,松○秀○,三○知○,○鳳]というキーワードが抽出される。また、グループ化処理で、上記の人物キーワードは[政治家、野球選手、サッカー選手、相撲力士]に変換され、例えば人物キーワードが初めて現れるキーワードであってもグループキーワードとして既出のキーワードとして扱うことができるようになる。
以下、それぞれのグループ領域とグループキーワードに割り当てられた確率値を整理すると、図8のようになる。図8は、グループ領域とグループキーワードに割り当てられた確率値を説明するための図である。
図8において、事前(潜在興味領域)が、上述した(3)式で得られる値に相当し、人物名の行の値が(4)式で得られる値に相当する。したがって、(5)式の計算は、それぞれの人物毎に事前の値と対象の人物行の内積計算で求めることができ,以下の結果になる。
・政治家の確率
(1/2)*(1/6)+(1/6)*(1/8)+(1/3)*(1/12)=0.132
・野球選手の確率
(1/2)*(1/6)+(1/6)*(1/8)+(1/3)*(1/12)=0.132
・サッカー選手の確率
(1/2)*(1/2)+(1/6)*(1/8)+(1/3)*(1/12)=0.299
・相撲力士の確率
(1/2)*(1/12)+(1/6)*(1/8)+(1/3)*(3/4)=0.3125
上述した結果より視聴者Aが興味のある人物キーワードとして、興味確率が0.3125の相撲力士である「○鳳」で、次に興味確率0.299のサッカー選手である「三○知○」の順番で興味キーワードとして提示される。なお、本実施形態では、興味キーワードと共に上述した確率値(指標の一例)を対応する視聴者Aに出力してもよい。
<実行プログラム(興味キーワード抽出プログラム)>
ここで、上述した興味キーワード抽出装置10は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶媒体、ROM(Read Only Memory)等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインターフェイスを備えたコンピュータによって構成することができる。
したがって、興味キーワード抽出装置10が有する各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、このプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、本実施形態では、上述した各構成における処理をコンピュータ(ハードウェア)に実行させるための実行プログラム(興味キーワード抽出プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、上述したハードウェアと、プログラム等からなるソフトウェアとを協働させて上述した興味キーワード抽出処理(学習処理、抽出処理)を実現することができる。
上述したように本実施形態によれば、、ユーザ毎の興味に対応する興味キーワードを適切に抽出することができる。また、本実施形態によれば、視聴者が視聴中の番組の何に興味を持っているかを興味キーワードとして出力することができる。このような処理で得た視聴者の興味内容を集計することにより、視聴者の嗜好を特定でき、個人に適応した情報の提供処理が実現できる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、上述した実施形態の構成要素を全部又は複数を組み合わせることも可能である。
10 興味キーワード抽出装置
11 学習手段
12 抽出手段
21 興味度重み付け手段
22 興味モデル生成手段
23 シソーラス辞書データベース
24 認証手段
25 個人別興味モデルパラメータDB
31 興味度重み付け手段
32 興味キーワード抽出手段
33 情報提示手段
41,44 番組内容を表すキーワード列
42,45 視聴状況
43 個人情報
46 興味情報

Claims (6)

  1. 番組視聴時に対する視聴状況から視聴者が興味のある興味キーワードを抽出する興味キーワード抽出装置において、
    視聴者の視聴履歴情報から、視聴者に視聴された番組の、所定の区間での内容に関する各キーワードに対し、前記各キーワードに対応する前記番組の視聴時間に応じた重み付けを行い、興味分野を所定の領域で示した興味領域と、該興味領域を特徴付ける興味モデルのパラメータを学習する学習手段と、
    前記学習手段により得られる前記興味モデルのパラメータを用いて、視聴中の番組に対応付けられた番組内容を表すキーワード列と前記視聴者の視聴状況とから、前記視聴者が興味があると推定されるキーワードを興味キーワードとして抽出する抽出手段とを有することを特徴とする興味キーワード抽出装置。
  2. 前記学習手段は、
    前記興味モデルを学習する場合に、学習用のキーワード集合をグループ化させたキーワード空間に変換し、変換されたグループキーワード空間で前記興味モデルのパラメータを学習することを特徴とする請求項1に記載の興味キーワード抽出装置。
  3. 前記抽出手段は、
    前記学習手段により学習した前記興味モデルのパラメータを利用して、前記各キーワードに含まれない新規のキーワード集合から興味の大きさを示す指標で順位付けされた興味キーワードを出力することを特徴とする請求項1又は2に記載の興味キーワード抽出装置。
  4. 前記抽出手段は、
    前記興味キーワードに興味の大きさを有する指標を合わせて出力することを特徴とする請求項3に記載の興味キーワード抽出装置。
  5. 前記抽出手段は、
    前記グループキーワード空間で前記興味キーワードの抽出を行った後、抽出結果に基づいて、前記グループキーワード空間へ変換した後、逆変換を行った元のキーワード集合から興味キーワードを抽出することを特徴とする請求項2に記載の興味キーワード抽出装置。
  6. コンピュータを、
    請求項1乃至5の何れか1項に記載の興味キーワード抽出装置が有する各手段として機能させるための興味キーワード抽出プログラム。
JP2014098777A 2014-05-12 2014-05-12 興味キーワード抽出装置及び興味キーワード抽出プログラム Expired - Fee Related JP6412338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014098777A JP6412338B2 (ja) 2014-05-12 2014-05-12 興味キーワード抽出装置及び興味キーワード抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014098777A JP6412338B2 (ja) 2014-05-12 2014-05-12 興味キーワード抽出装置及び興味キーワード抽出プログラム

Publications (2)

Publication Number Publication Date
JP2015215794A JP2015215794A (ja) 2015-12-03
JP6412338B2 true JP6412338B2 (ja) 2018-10-24

Family

ID=54752613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014098777A Expired - Fee Related JP6412338B2 (ja) 2014-05-12 2014-05-12 興味キーワード抽出装置及び興味キーワード抽出プログラム

Country Status (1)

Country Link
JP (1) JP6412338B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073677A (ja) * 2000-09-05 2002-03-12 Zenrin Co Ltd 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置
JP2002251412A (ja) * 2001-02-22 2002-09-06 Canon Inc 文書検索装置および方法ならびに記憶媒体
JP2005115790A (ja) * 2003-10-09 2005-04-28 Sony Corp 情報検索方法、情報表示装置及びプログラム
JP2010055409A (ja) * 2008-08-28 2010-03-11 Nec Personal Products Co Ltd キーワード抽出装置、キーワード抽出方法及びプログラム

Also Published As

Publication number Publication date
JP2015215794A (ja) 2015-12-03

Similar Documents

Publication Publication Date Title
JP6986527B2 (ja) ビデオを処理する方法及び装置
CN106326391B (zh) 多媒体资源推荐方法及装置
CN110598048B (zh) 视频检索方法及视频检索映射关系生成方法、装置
JP2022508163A (ja) ユーザタグ生成方法並びにその、装置、コンピュータプログラム及びコンピュータ機器
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
CN109753601B (zh) 推荐信息点击率确定方法、装置及电子设备
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
JP6093200B2 (ja) 情報検索装置及び情報検索プログラム
JP4487018B2 (ja) 関連シーン付与装置及び関連シーン付与方法
WO2018094723A1 (en) Automatically detecting contents expressing emotions from a video and enriching an image index
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
CN104899306B (zh) 信息处理方法、信息显示方法及装置
Qian et al. Cross-domain collaborative learning in social multimedia
KR102312999B1 (ko) 광고 편성 장치 및 방법
JP6668892B2 (ja) アイテム推薦プログラム、アイテム推薦方法およびアイテム推薦装置
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN111444387A (zh) 视频分类方法、装置、计算机设备和存储介质
KR20160062667A (ko) 미디어 리소스를 제공하는 방법 및 장치
Lokoč et al. Using an interactive video retrieval tool for lifelog data
JP6486165B2 (ja) 候補キーワード評価装置及び候補キーワード評価プログラム
Rudinac et al. Multimodal classification of violent online political extremism content with graph convolutional networks
US10339146B2 (en) Device and method for providing media resource
JP2008123210A (ja) 情報検索装置及び情報検索方法
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
JP6639040B2 (ja) 情報検索装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180928

R150 Certificate of patent or registration of utility model

Ref document number: 6412338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees