JP2014153977A

JP2014153977A - コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム

Info

Publication number: JP2014153977A
Application number: JP2013024103A
Authority: JP
Inventors: Yoshiki Konishi; 良紀小西; Daiki Kudo; 大樹工藤; Hirofumi Nishikawa; 博文西川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-02-12
Filing date: 2013-02-12
Publication date: 2014-08-25

Abstract

【課題】動画コンテンツにおいて、関連するコメント数が多い映像シーンを注目シーンとして決定して、この注目シーンのみにタグを付与する場合、コメント数が少ない映像シーンについては、実際に視聴をするまでは、個人が視聴したい情報が含まれているかどうかがわからないと問題があった。
【解決手段】動画コンテンツの内容を把握するために必要十分な数の要約タグを出力して、動画コンテンツに付与することにより、ユーザが動画コンテンツを実際に視聴することなく、内容を確認したり、所望の映像シーンを検索したりすることを可能する。
【選択図】図１

Description

本発明は、テレビ放送や動画共有サイトにて提供される動画コンテンツについて、内容を適切に要約したタグを付与するためのコンテンツ解析装置等に関する。

近年、HDD（Hard Disk Drive）やフラッシュメモリ等の電子的記録媒体の価格低下により、テレビ放送などの動画コンテンツを記録するための装置の容量が増加している。一方で、ユーザが電子的記録媒体に記録した動画コンテンツの視聴に使用できる時間は有限であるため、記録した動画コンテンツを効率的に視聴する方法が必要とされている。

従来、記録した動画コンテンツを効率的に視聴する方法として、動画コンテンツを映像シーンに分割し、映像シーンの内容に関連するタグやコメントを各映像シーンに付与しておくことで、ユーザが動画コンテンツ中から視聴したい箇所を容易に検索できるシステムが知られている（例えば、特許文献１参照）。

さらに、動画コンテンツの再生機のインターネットへの接続が一般的になってきたことから、インターネット上のブログ（Web log）やtwitter（登録商標）などのミニブログ（mini web log）等のサービスから動画コンテンツに関する不特定第３者のコメントを収集し、動画コンテンツに付与するタグやコメントを自動生成する技術が考案されている。このような技術においては、インターネット上の動画コンテンツに関するコメントを分析して、時間当たりのコメント数に基づいて注目する映像シーンを決定し、この映像シーン毎にタグを付与する技術が知られている（例えば、特許文献２参照）。この技術は、時間当たりのコメント数が増加する箇所を注目する映像シーンとして決定し、この映像シーン周辺のコメントを解析することにより、人名や特徴的単語を抽出し、タグとして付与するものである。

特開２００６−１５７６９１号公報特開２０１２−１５５６９５号公報

しかしながら、動画コンテンツの中でユーザが視聴したい映像シーンは、個人によって異なっている。すなわち、コメントをしているユーザが少ない映像シーンであっても、視聴する個人にとっては重要な情報が含まれている場合がある。特許文献２に記載の技術では、関連するコメント数が多い映像シーンを注目シーンとして決定して、この注目シーンのみにタグを付与しているため、コメント数が少ない映像シーンについては、実際に視聴をするまでは、個人が視聴したい情報が含まれているかどうかがわからないという問題があった。

本発明は、上述のような課題を解決するためになされたものであって、関連するコメント数の多寡のみでタグの付与を決定するのではなく、動画コンテンツの内容を把握するために必要十分な数の要約タグを出力して、動画コンテンツに付与することにより、ユーザが動画コンテンツを実際に視聴することなく、内容を確認したり、所望の映像シーンを検索したりすることを可能とするコンテンツ解析装置を得るものである。

この発明に係るコンテンツ解析装置は、動画コンテンツに関連するコメントを当該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、コメント収集部が収集したコメントから単語を抽出する単語抽出部と、単語抽出部が抽出した単語から、当該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部とを有するものである。

本発明のコンテンツ解析装置においては、動画コンテンツの内容を示した要約タグを生成することで、ユーザが動画コンテンツを視聴することなしに内容を確認することが可能となる。

実施の形態１に係るコンテンツ解析装置の構成を示す図。実施の形態１に係るコンテンツ解析装置にて生成される出現頻度ヒストグラムを示す図。実施の形態１に係るコンテンツ解析装置において、キーワードの抽出方法を示す図。実施の形態１に係るコンテンツ解析装置において、キーワードと非キーワードの出現頻度ヒストグラムを示す図。実施の形態２に係るコンテンツ解析装置の構成を示す図。実施の形態３に係るコンテンツ再生装置の構成を示す図。

実施の形態１．
図１は、この発明を実施するための実施の形態１におけるコンテンツ解析装置の構成を示すものである。図１に示すように、実施の形態１におけるコンテンツ解析装置は、インターネットを介してtwitter等のミニブログから動画コンテンツに関するコメントを収集するコメント収集部１、コメント収集部１が収集したコメントを解析して、コメントに含まれる単語を抽出する単語抽出部２、単語抽出部２が抽出した単語について注目区間を検出する注目区間検出部３、単語抽出部２が抽出した単語からキーワードを抽出するキーワード抽出部４、キーワード抽出部４が抽出したキーワードをクラスタリングするクラスタ生成部５、クラスタ生成部５がクラスタリングしたクラスタに対する要約タグを生成する要約タグ生成部６から構成されている。

次にこのように構成されたコンテンツ解析装置の動作について説明する。まず、コメント収集部１は、インターネットを介してミニブログサービスのサーバにアクセスし、ミニブログに書き込まれた、解析の対象とする動画コンテンツに関するコメントを、コメントが投稿された時間と合わせて収集する。例えば、ミニブログがtwitterである場合には、所定の時間内に投稿された、特定の単語を含む投稿コメント（tweet）を取得するＡＰＩ（Application Programming Interface）が知られている（下記、URL参照）。また、対象とする動画コンテンツがテレビ番組である場合には、当該動画コンテンツに関する投稿コメントには、動画コンテンツの番組名や放送局に関するハッシュタグ（＃と文字列で表される）が付加されているために、番組名や放送局を含むtweetを取得することで、動画コンテンツに関する投稿コメントを取得することが可能となる。
「Documentation | Twitter Developers」https://dev.twitter.com/docs

また、このコンテンツ解析装置に電子番組表によるテレビ番組の録画機能が設けられている場合には、電子番組表から録画する動画コンテンツのタイトルや出演者などの情報を取得し、このタイトルや出演者を含むコメントを収集してもよい。さらに、電子番組表から動画コンテンツの概要を記述したテキストを取得して、このテキストから所定の単語を抽出して、この単語を含むコメントを収集しても良い。テキストから単語を抽出する手法としては、後述する形態素解析など、周知の解析方法を利用できる。

次に、単語抽出部２は、コメント収集部１が抽出したコメントを解析し、このコメントに含まれている単語を抽出する。この単語の抽出には、例えば形態素解析による解析が用いられる。ここで、形態素解析とは、文章を、意味のある単語に区切り、予め用意してあるデータベース状の単語辞書を利用して品詞や内容を判別する技術である。また、形態素とは、文章を構成する要素のうち、意味をもつ最小の単位のことである。形態素解析については、例えばオープンソースの形態素解析エンジンであるMeCabなどが知られている。

複数のコメントを形態素解析によって形態素に分離した後、形態素の出現順序を解析して、所定の回数以上同じ順序で出現する形態素列があれば、その形態素列を単一の単語と判断して出力する。例えば、「バール」「の」「よう」「な」「もの」という形態素列が、収集した複数のコメントの中で所定の回数以上出現する場合は、単語抽出部２はこの形態素列「バールのようなもの」を単一の単語として判断して、単語として出力する。一方、同じ順序で出現する形態素列が所定の回数未満である場合には、形態素列を構成する形態素をそれぞれ単一の単語と判断して、単語として出力する。尚、単語抽出部２が出力する単語には、抽出元であるコメント収集部１が収集したコメントに対応づけられた投稿時刻と同じ時間の情報が対応づけられている。

次に、注目区間検出部３は、単語抽出部２が抽出した単語を解析して、各単語について出現頻度が所定の値以上になる注目区間を検出する。すなわち、各単語における注目区間は、その単語が出現する出現頻度が高い区間を示している。図２は、単語抽出部２が抽出した特定の単語の出現回数を、この単語に対応付けられた投稿時刻ごとにグラフ化したヒストグラムを示すものである。図２の例では、投稿時刻に表示された時刻から３分間での単語の出現回数を１時間分グラフ化した出現頻度ヒストグラムを示している。以下、図２を用いて、注目区間の検出方法について説明する。

まず、各単語について一定時間内の出現回数を集計した図２に示すような出現頻度ヒストグラムを作成する。そして、この出現頻度ヒストグラムにおいて、出現回数が連続して所定の閾値を上回る区間を注目区間候補とする。そして、注目区間候補が複数ある場合には、複数の注目区間候補のうち、最も単語の出現回数が多いものを注目区間として決定する。図２の例では、出現回数の閾値を５回として設定しているので、２３：１２：００〜２３：２７：００（区間１）および２３：３９：００〜２３：４８：００（区間２）の２つの区間が注目区間候補となるが、区間１は区間２に比べて単語の出現回数が多いため、区間１が注目区間として決定される。尚、閾値の決定については、全ての単語について同じ値を使用しても良いが、単語毎に異なる閾値を用いても良い。例えば、文字数が多い単語については閾値を低く設定し、文字数が少ない単語については閾値を高く設定するなどの設定方法が考えられる。また、文字数以外にも動画コンテンツの長さなどに基づいて、閾値を設定することも可能である。また、上述の例では、注目区間候補を決定する場合、出現回数が連続して閾値を上回る区間から選択しているが、出現回数を収集する区間を長くとったような場合は、必ずしも連続して閾値を上回る区間でなくてもよい。

次に、キーワード抽出部４は、単語抽出部２が抽出した各単語について、注目区間検出部３が検出した注目区間に基づいて、単語の出現回数の偏り率Ｒ_Ｃと、動画コンテンツの再生時間に占める注目区間の割合Ｒ_Ｌに算出し、これらに基づいて単語からキーワードを抽出する。Ｒ_ＣおよびＲ_Ｌは下式によって算出する。
Ｒ_Ｃ＝（注目区間における単語の出現回数）／（単語の総出現回数）・・・（１）
Ｒ_Ｌ＝（注目区間の長さ）／（動画コンテンツの総時間）・・・（２）
（１）および（２）式にて算出したＲ_ＣおよびＲ_Ｌについて、Ｒ_Ｃが所定の閾値以上かつＲＲ_Ｌが所定の閾値以下となる単語を、キーワードとして抽出する。図３は、●にて示す各単語を、単語毎に算出したＲ_ＣおよびＲ_Ｌの値でマッピングした図である。図３の例では、Ｒ_Ｃの閾値を０．７、Ｒ_Ｌの閾値を０．３にした例であるが、閾値の値はこれらの値に限られず、適宜設定可能である。

上記の例では、キーワード抽出部４は、Ｒ_ＣおよびＲ_Ｌに基づいて単語からキーワードを抽出したが、キーワードの抽出方法はこれに限られない。例えば、図２に示される出現頻度ヒストグラムが単峰性を有するときに、この単語をキーワードとして抽出する方法であっても良い。出現頻度ヒストグラムが単峰性であるか否かの判定は、出現頻度ヒストグラムが極大となる点をもとめ、極大点が単一の場合は単峰性であると判断する。また、極大点が複数の場合には、これらの極大点の間に出現頻度が連続して所定の回数以下となるヒストグラムの谷が存在する場合には単峰性であると判断する。その他の場合には、単峰性ではないと判断する。ただし、ヒストグラムの単峰性を判定する手法は種々知られており、上記の方法に限られるものではない。

すなわち、キーワード抽出部４におけるキーワードは、単語抽出部２が抽出した単語のうち、出現する偏りを考慮し、この偏りが大きい単語が優先的に抽出されることになる。図４は、キーワード抽出部４によってキーワードとして抽出された単語と、キーワードとは選定されなかった非キーワードの単語との出現頻度ヒストグラムを示したものである。
図４に示すように、動画コンテンツにおける単語の出現回数が同じ場合であっても、出現回数が投稿時刻に対して偏っている単語がキーワードとして抽出される。

次に、クラスタ生成部５は、キーワード抽出部４が抽出したキーワードをクラスタリングして、類似性の高いキーワードで構成されるクラスタを出力する。キーワードのクラスタリングの手法としては、階層的手法を用いることが可能である。この階層的手法では、まず各キーワードそれぞれを初期クラスタの重心とする。その後、各クラスタのペアについての距離を求める。任意のクラスタＡとクラスタＢのペアの距離は、下記式にて算出することができる。

（３）式において、∩は積集合、∪は和集合を意味している。従って、（クラスタＡの注目区間 ∩ クラスタＢの注目区間）とは、クラスタＡとクラスタＢの注目区間が重なり合う時間を示しており、（クラスタＡの注目区間 ∪ クラスタＢの注目区間）とは、クラスタＡまたはクラスタＢの少なくともいずれかの注目区間である時間を示している。（３）式にて算出した距離について、最も短い距離であるクラスタのペアを統合して新しいクラスタとする。クラスタＡとクラスタＢを統合して新しいクラスタとした場合には、この新しいクラスタの注目区間を（クラスタＡの注目区間 ∪ クラスタＢの注目区間）と定義する。上記のように、クラスタペアの距離の算出と統合を、クラスタペア間の最小距離が所定の値を上回るまで繰り返す。

なお、クラスタ生成部５でのクラスタリングの手法は、階層的手法に限る必要はない。例えば、予備的なクラスタリングによりクラスタ数を決定し、非階層的手法でクラスタリングを行っても良い。このような手法の例として、各キーワードの出現回数が最大となる点を階層的手法でクラスタリングしてクラスタ数を決定し、その後k-means法でクラスリングを行っても良い。また、x-mean法等のクラスタを自動的に決定するアルゴリズムを用いても良い。

さらに、クラスタのペアの距離の算出には、クラスタに含まれるキーワードの出現頻度ヒストグラムを用いても良い。この場合、クラスタＡとクラスタＢの距離は、ヒストグラムインタセクションの逆数を用いる。ヒストグラムインタセクションは、クラスタＡ、クラスタＢそれぞれの出現頻度ヒストグラムのｉ番目の出現回数の値をそれぞれa[i]、b[i]とした場合、Σ(min(a[i],b[i])で算出することができる。また、クラスタを統合して新たなクラスタとした場合、新たなクラスタの出現頻度ヒストグラムは、統合前の両クラスタの出現頻度ヒストグラムの平均を用いることが可能である。上述した、出現頻度ヒストグラムを用いてクラスタのペアの算出をする場合には、注目区間の長さを利用しないために、注目区間検出部３での処理を省略しても良い。

次に、要約タグ生成部６はクラスタ生成部５にて生成された各クラスタについて、解析対象の動画コンテンツの内容を示す要約タグを出力する。

要約タグ生成部６は、まず各クラスタから、注目区間における出現回数が高い順にキーワードを複数個選択する。尚、注目区間を検出していない場合には、動画コンテンツにおける出現回数が高い順に選択する。選択するキーワードの数は、アプリケーションに応じて適切に設定すれば良い。その後、選択されたキーワードを、このキーワードが注目区間において最初に出現する時間と共に要約タグとして出力する。この、キーワードが注目区間において最初に出現する時刻は、単語抽出部２によって抽出した単語に対応づけられた投稿時刻を参照することにより、算出可能である。

上記の例では、要約タグ生成部６は、選択したキーワードで構成された要約タグを生成したが、要約タグは、コメント生成部１が収集したコメントの中から、選択したキーワードを最も多く含むコメントで構成しても良い。この場合は、キーワードが出現する時刻とは、このキーワードを含むコメントが投稿された時刻となるので、要約タグはコメントとこのコメントの投稿時刻として出力される。要約タグにコメントを含む場合、キーワードのみを用いるよりも適切に、動画コンテンツの内容を表すことが可能となる。尚、選択したキーワードを最も多く含むコメントが複数ある場合には、最も投稿時刻が早いものを要約タグに含む構成にする。これは、コメントの投稿時刻は、動画コンテンツにおいて関連する内容が出現するタイミングより遅くなる傾向があるためである。

また、要約タグ生成部６は、全てのクラスタについて要約タグを生成せずに、一部のクラスタのみについて要約タグを生成する構成にしても良い。例えば、クラスタに含まれるキーワードが少ない場合には、適切な要約タグを生成することは困難であるために、キーワードを複数個含むクラスタについてのみ、要約タグを生成する構成にすることが考えられる。また、クラスタ生成部５によって、キーワードをクラスタリングする際に、キーワードを１つしか含まないクラスタについては、このクラスタを破棄し要約タグ生成部６に送信しない構成にしても良い。

以上詳述したように、本実施の形態１におけるコンテンツ解析装置によれば、解析対象とする動画コンテンツに対して、予めシーン分割等の処理を行うことを必要とせずに、動画コンテンツの内容を把握するために必要な要約タグを生成することが可能であるので、生成した要約タグを動画コンテンツと共に、または、動画コンテンツと関連づけて記録しておくことで、ユーザが動画コンテンツを視聴することなしに内容を確認することが可能となる。

また、本実施の形態１においては、コンテンツ解析装置として説明したが、同種の構成を有するハードウェアにおけるコンテンツ解析方法として本実施の形態を理解することもできる。また、同種の動作を実施させるコンテンツ解析プログラムとして本実施の形態を理解することも可能である。

実施の形態２．
図５は、この発明を実施するための実施の形態２におけるコンテンツ解析装置の構成を示すものである。図５において、図１と対応する構成については同一番号を付し、説明を省略する。本実施の形態２におけるコンテンツ解析装置は、キーワード抽出部４がキーワードを抽出する際に参照するキーワード辞書７、クラスタ生成部５がキーワードをクラスタリングする際に参照する関連度辞書８を有する点で実施の形態１と相違する。

キーワード辞書７は、キーワード候補となる単語と重みのペアを保存するデータベースであり、外部から編集可能である。例えば、ユーザが関心のある単語等に対して、その優先順位に応じた重みと共に、適宜登録しておくものである。

キーワード抽出部４は、キーワードを抽出する際に、キーワード辞書７を参照して、登録されている単語については、無条件にキーワードとして抽出するように構成することが可能である。または、キーワード辞書７に登録されている単語については、関連づけられている重みを、実施の形態１で説明したＲ_Ｃおよび／またはＲ_Ｌの値に乗算して、キーワードの抽出を行うように構成することも可能である。この場合、キーワード辞書７に登録する単語について、Ｒ_Ｃについては、１よりも大きい重みを、Ｒ_Ｌについては０より大きく１未満の重みを関連づけて登録しておくことにより、よりキーワードとして抽出される可能性が高くなる。このような構成を取ることにより、要約タグが所望の単語に関連する内容で出力されやすくなるという効果を奏する。

また、関連度辞書８は、類似性のある２つの単語にその関連度を対応づけて保存しておくデータベースであり、クラスタ生成部５によるクラスタリングの結果に基づき更新されるものである。

クラスタ生成部５は、キーワードをクラスタリングする際に、関連度辞書８を参照して、類似性のあるキーワード同士が同じクラスタに統合され易いように処理する。例えば、関連度辞書８に「ゆびわ」と「リング」とが、類似性があるものとして登録されており、その関連度が１．５（関連度は０より大きく、関連度が高いほど２つの単語の類似性が高いものとする。）であるとする。この場合、実施の形態１で説明した階層的手法でクラスタリングを行う場合、クラスタＡが「ゆびわ」という単語を含み、クラスタＢが「リング」という単語を含む場合には、式（３）にて算出するクラスタＡとクラスタＢの距離に、関連度の逆数である１／１．５＝２／３を乗じた値を新たな距離とする構成にする。このような構成にすることで、関連する単語を含むクラスタ間の距離を短くすることが可能となり、より同一のクラスタに統合される可能性が高くなる。また、クラスタリングを階層的手法で実施しない場合でも、関連度を参照して、２つの単語が同じクラスタに含まれる可能性が高くなる処理を実施することが可能である。さらに、０＜関連度＜１となるような関連度を設定した場合には、関連度の逆数は１より大きくなるために、クラスタ間の距離を長くすることが可能になる。このような関連度は、類似性の低い単語の組に対して設定される。

さらに、クラスタ生成部５は、同じクラスタに含まれる２つの単語については類似性が高くなるように関連度を更新し、異なるクラスタに含まれる２つの単語については類似性が低くなるように関連度を更新する。このように関連度を更新することにより、一般的な単語間の類似性を反映させることが可能になる。

その他の構成や処理は、実施の形態１と同様であるため、説明を省略する。

以上詳述したように、本実施の形態２におけるコンテンツ解析装置によれば、キーワード辞書７および関連度辞書８を利用することで、出力される要約タグの内容をより細かく制御することが可能となる。

また、上述の説明では、実施の形態２におけるコンテンツ解析装置は、キーワード辞書７と関連度辞書８とのいずれも有する構成としているが、いずれか一方を有するような構成としてもよい。

実施の形態３．
図６は、この発明を実施するための実施の形態３におけるコンテンツ再生システムの構成を示すものである。図６に示すように、本実施の形態３におけるコンテンツ再生システムは、実施の形態１または２で説明したコンテンツ解析装置を内蔵し、動画コンテンツを録画、再生するＨＤＤレコーダ１０、ＨＤＤレコーダ１０とインターネットを介して接続された動画コンテンツに関するコメントが記録されるコメントサーバ２０、操作端末３０、ＨＤＤレコーダ１０が録画した動画コンテンツを表示する表示装置４０から構成されている。

次に、このように構成されたコンテンツ解析システムの動作について説明する。ＨＤＤレコーダ１０は、動画コンテンツを録画する際、内部のコンテンツ解析装置により、コメントサーバ２０から、録画した動画コンテンツに関するコメントを、このコメントの投稿時刻と合わせて取得する。さらに、ＨＤＤレコーダ１０は、動画コンテンツの録画が完了すると、内部のコンテンツ解析装置により、要約タグを生成し、動画コンテンツに関連づけて記録する。

ＨＤＤレコーダ１０は、録画された動画コンテンツを再生する際に、スマートフォンなどの操作端末３０に、この録画された動画コンテンツに対応づけられた要約タグを配信して表示させる。操作端末３０は、表示された要約タグを選択することで、要約タグで指定された時刻に対応する箇所から動画コンテンツを再生するようにＨＤＤレコーダ１０に指示をして、テレビ等の表示装置４０に動画コンテンツを表示させる。

また、要約タグは操作端末３０に表示させるのではなく、表示装置４０に表示させても良い。この場合、ユーザはリモコン等を利用して、表示装置４０に表示された要約タグを選択することで、要約タグで指定された時刻に対応する箇所から動画コンテンツを再生することができる。

本実施の形態３におけるコンテンツ解析システムにおいては、ＨＤＤレコーダ１０内にコンテンツ解析装置を組み込んでいるので、動画コンテンツ再生の際に、所望の箇所から再生をすることが可能となる。

１コメント収集部、２単語抽出部、３注目区間検出部、４キーワード抽出部、５クラスタ生成部、６要約タグ生成部

Claims

動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、
前記コメント収集部が収集したコメントから単語を抽出する単語抽出部と、
前記単語抽出部が抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、
前記キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、
前記クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部と
を有することを特徴とするコンテンツ解析装置。
前記単語抽出部が抽出した単語について、該単語の出現頻度に基づいて注目区間を検出する注目区間検出部をさらに有し、
前記キーワード抽出部は、
前記単語抽出部が抽出した単語から、該単語の前記注目区間検出部が検出した注目区間での出現回数に基づいて前記キーワードを抽出する
ことを特徴とする請求項１に記載のコンテンツ解析装置。
前記キーワード抽出部は、
前記単語抽出部が抽出した単語から、該単語の前記動画コンテンツ内での総出現回数と前記注目区間での出現回数との比に基づいて前記キーワードを抽出する
ことを特徴とする請求項２に記載のコンテンツ解析装置。
前記キーワード抽出部は、
前記単語抽出部が抽出した単語から、前記動画コンテンツの総時間と前記注目区間の長さとの比に基づいて前記キーワードを抽出する
ことを特徴とする請求項２または請求項３に記載のコンテンツ解析装置。
前記キーワード抽出部は、
前記単語抽出部が抽出した単語について出現頻度ヒストグラムを算出し、該出現頻度ヒストグラムが単峰性を有する単語を前記キーワードとして抽出する
ことを特徴とする請求項１に記載のコンテンツ解析装置。
前記単語抽出部は、
前記コメントを形態素解析することにより前記単語を抽出する
ことを特徴とする請求項１乃至請求項５のいずれかに記載のコンテンツ解析装置。
前記クラスタ生成部は、
前記キーワード抽出部が抽出したキーワード間の距離に基づいてクラスタリングをする
ことを特徴とする請求項１乃至請求項６のいずれかに記載のコンテンツ解析装置。
前記要約タグ生成部は、
前記コメント収集部が収集したコメントから、前記クラスタ生成部が生成したクラスタに含まれるキーワードを最も多く含むコメントを要約タグとして生成する
ことを特徴とする請求項１乃至請求項７のいずれかに記載のコンテンツ解析装置。
キーワード候補となる単語とこの単語に対する重みとを複数保存するキーワード辞書をさらに有し、
前記キーワード抽出部は、
前記キーワード辞書に保存されている単語を前記重みの大きさに基づいて優先的にキーワードとして抽出する
ことを特徴とする請求項１乃至請求項８のいずれかに記載のコンテンツ解析装置。
類似性のある単語同士を関連度に対応づけて保存する関連度辞書をさらに有し、
前記クラスタ生成部は、
前記キーワードをクラスタリングする際に、前記関連度辞書に類似性があるとして保存されているキーワード同士を、前記関連度に基づいて優先的に同一のクラスタに統合する
ことを特徴とする請求項１乃至請求項９のいずれかに記載のコンテンツ解析装置。
前記関連度辞書は、
前記クラスタ生成部でのクラスタリングの結果に基づいて、前記関連度が更新される
ことを特徴とする請求項１０に記載のコンテンツ解析装置。
動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集ステップと、
前記コメント収集ステップで収集したコメントから単語を抽出する単語抽出ステップと、
前記単語抽出ステップで抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出ステップと、
前記キーワード抽出ステップで抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成ステップと、
前記クラスタ生成ステップで生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成ステップと
を有することを特徴とするコンテンツ解析方法。
コンテンツ解析装置に動画コンテンツを解析させるプログラムであって、
前記コンテンツ解析装置を、
前記動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、
前記コメント収集部が収集したコメントから単語を抽出する単語抽出部と、
前記単語抽出部が抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、
前記キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、
前記クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部と
を有する装置として動作させることを特徴とするコンテンツ解析プログラム。
請求項１乃至請求項１１のいずれかに記載のコンテンツ解析装置を内蔵した、動画コンテンツを録画、再生するコンテンツ再生装置と、
前記コンテンツ再生装置とインターネットを介して接続され、前記動画コンテンツに関するコメントが記録されるサーバと、
前記コンテンツ再生装置の操作をするための操作端末と、
前記コンテンツ再生装置が再生する動画コンテンツを表示する表示装置と
を有することを特徴とするコンテンツ再生システム。