JP2014153977A - コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム - Google Patents

コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム Download PDF

Info

Publication number
JP2014153977A
JP2014153977A JP2013024103A JP2013024103A JP2014153977A JP 2014153977 A JP2014153977 A JP 2014153977A JP 2013024103 A JP2013024103 A JP 2013024103A JP 2013024103 A JP2013024103 A JP 2013024103A JP 2014153977 A JP2014153977 A JP 2014153977A
Authority
JP
Japan
Prior art keywords
word
keyword
cluster
content
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013024103A
Other languages
English (en)
Inventor
Yoshiki Konishi
良紀 小西
Daiki Kudo
大樹 工藤
Hirofumi Nishikawa
博文 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013024103A priority Critical patent/JP2014153977A/ja
Publication of JP2014153977A publication Critical patent/JP2014153977A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】動画コンテンツにおいて、関連するコメント数が多い映像シーンを注目シーンとして決定して、この注目シーンのみにタグを付与する場合、コメント数が少ない映像シーンについては、実際に視聴をするまでは、個人が視聴したい情報が含まれているかどうかがわからないと問題があった。
【解決手段】動画コンテンツの内容を把握するために必要十分な数の要約タグを出力して、動画コンテンツに付与することにより、ユーザが動画コンテンツを実際に視聴することなく、内容を確認したり、所望の映像シーンを検索したりすることを可能する。
【選択図】 図1

Description

本発明は、テレビ放送や動画共有サイトにて提供される動画コンテンツについて、内容を適切に要約したタグを付与するためのコンテンツ解析装置等に関する。
近年、HDD(Hard Disk Drive)やフラッシュメモリ等の電子的記録媒体の価格低下により、テレビ放送などの動画コンテンツを記録するための装置の容量が増加している。一方で、ユーザが電子的記録媒体に記録した動画コンテンツの視聴に使用できる時間は有限であるため、記録した動画コンテンツを効率的に視聴する方法が必要とされている。
従来、記録した動画コンテンツを効率的に視聴する方法として、動画コンテンツを映像シーンに分割し、映像シーンの内容に関連するタグやコメントを各映像シーンに付与しておくことで、ユーザが動画コンテンツ中から視聴したい箇所を容易に検索できるシステムが知られている(例えば、特許文献1参照)。
さらに、動画コンテンツの再生機のインターネットへの接続が一般的になってきたことから、インターネット上のブログ(Web log)やtwitter(登録商標)などのミニブログ(mini web log)等のサービスから動画コンテンツに関する不特定第3者のコメントを収集し、動画コンテンツに付与するタグやコメントを自動生成する技術が考案されている。このような技術においては、インターネット上の動画コンテンツに関するコメントを分析して、時間当たりのコメント数に基づいて注目する映像シーンを決定し、この映像シーン毎にタグを付与する技術が知られている(例えば、特許文献2参照)。この技術は、時間当たりのコメント数が増加する箇所を注目する映像シーンとして決定し、この映像シーン周辺のコメントを解析することにより、人名や特徴的単語を抽出し、タグとして付与するものである。
特開2006−157691号公報 特開2012−155695号公報
しかしながら、動画コンテンツの中でユーザが視聴したい映像シーンは、個人によって異なっている。すなわち、コメントをしているユーザが少ない映像シーンであっても、視聴する個人にとっては重要な情報が含まれている場合がある。特許文献2に記載の技術では、関連するコメント数が多い映像シーンを注目シーンとして決定して、この注目シーンのみにタグを付与しているため、コメント数が少ない映像シーンについては、実際に視聴をするまでは、個人が視聴したい情報が含まれているかどうかがわからないという問題があった。
本発明は、上述のような課題を解決するためになされたものであって、関連するコメント数の多寡のみでタグの付与を決定するのではなく、動画コンテンツの内容を把握するために必要十分な数の要約タグを出力して、動画コンテンツに付与することにより、ユーザが動画コンテンツを実際に視聴することなく、内容を確認したり、所望の映像シーンを検索したりすることを可能とするコンテンツ解析装置を得るものである。
この発明に係るコンテンツ解析装置は、動画コンテンツに関連するコメントを当該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、コメント収集部が収集したコメントから単語を抽出する単語抽出部と、単語抽出部が抽出した単語から、当該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部とを有するものである。
本発明のコンテンツ解析装置においては、動画コンテンツの内容を示した要約タグを生成することで、ユーザが動画コンテンツを視聴することなしに内容を確認することが可能となる。
実施の形態1に係るコンテンツ解析装置の構成を示す図。 実施の形態1に係るコンテンツ解析装置にて生成される出現頻度ヒストグラムを示す図。 実施の形態1に係るコンテンツ解析装置において、キーワードの抽出方法を示す図。 実施の形態1に係るコンテンツ解析装置において、キーワードと非キーワードの出現頻度ヒストグラムを示す図。 実施の形態2に係るコンテンツ解析装置の構成を示す図。 実施の形態3に係るコンテンツ再生装置の構成を示す図。
実施の形態1.
図1は、この発明を実施するための実施の形態1におけるコンテンツ解析装置の構成を示すものである。図1に示すように、実施の形態1におけるコンテンツ解析装置は、インターネットを介してtwitter等のミニブログから動画コンテンツに関するコメントを収集するコメント収集部1、コメント収集部1が収集したコメントを解析して、コメントに含まれる単語を抽出する単語抽出部2、単語抽出部2が抽出した単語について注目区間を検出する注目区間検出部3、単語抽出部2が抽出した単語からキーワードを抽出するキーワード抽出部4、キーワード抽出部4が抽出したキーワードをクラスタリングするクラスタ生成部5、クラスタ生成部5がクラスタリングしたクラスタに対する要約タグを生成する要約タグ生成部6から構成されている。
次にこのように構成されたコンテンツ解析装置の動作について説明する。まず、コメント収集部1は、インターネットを介してミニブログサービスのサーバにアクセスし、ミニブログに書き込まれた、解析の対象とする動画コンテンツに関するコメントを、コメントが投稿された時間と合わせて収集する。例えば、ミニブログがtwitterである場合には、所定の時間内に投稿された、特定の単語を含む投稿コメント(tweet)を取得するAPI(Application Programming Interface)が知られている(下記、URL参照)。また、対象とする動画コンテンツがテレビ番組である場合には、当該動画コンテンツに関する投稿コメントには、動画コンテンツの番組名や放送局に関するハッシュタグ(#と文字列で表される)が付加されているために、番組名や放送局を含むtweetを取得することで、動画コンテンツに関する投稿コメントを取得することが可能となる。
「Documentation | Twitter Developers」https://dev.twitter.com/docs
また、このコンテンツ解析装置に電子番組表によるテレビ番組の録画機能が設けられている場合には、電子番組表から録画する動画コンテンツのタイトルや出演者などの情報を取得し、このタイトルや出演者を含むコメントを収集してもよい。さらに、電子番組表から動画コンテンツの概要を記述したテキストを取得して、このテキストから所定の単語を抽出して、この単語を含むコメントを収集しても良い。テキストから単語を抽出する手法としては、後述する形態素解析など、周知の解析方法を利用できる。
次に、単語抽出部2は、コメント収集部1が抽出したコメントを解析し、このコメントに含まれている単語を抽出する。この単語の抽出には、例えば形態素解析による解析が用いられる。ここで、形態素解析とは、文章を、意味のある単語に区切り、予め用意してあるデータベース状の単語辞書を利用して品詞や内容を判別する技術である。また、形態素とは、文章を構成する要素のうち、意味をもつ最小の単位のことである。形態素解析については、例えばオープンソースの形態素解析エンジンであるMeCabなどが知られている。
複数のコメントを形態素解析によって形態素に分離した後、形態素の出現順序を解析して、所定の回数以上同じ順序で出現する形態素列があれば、その形態素列を単一の単語と判断して出力する。例えば、「バール」「の」「よう」「な」「もの」という形態素列が、収集した複数のコメントの中で所定の回数以上出現する場合は、単語抽出部2はこの形態素列「バールのようなもの」を単一の単語として判断して、単語として出力する。一方、同じ順序で出現する形態素列が所定の回数未満である場合には、形態素列を構成する形態素をそれぞれ単一の単語と判断して、単語として出力する。尚、単語抽出部2が出力する単語には、抽出元であるコメント収集部1が収集したコメントに対応づけられた投稿時刻と同じ時間の情報が対応づけられている。
次に、注目区間検出部3は、単語抽出部2が抽出した単語を解析して、各単語について出現頻度が所定の値以上になる注目区間を検出する。すなわち、各単語における注目区間は、その単語が出現する出現頻度が高い区間を示している。図2は、単語抽出部2が抽出した特定の単語の出現回数を、この単語に対応付けられた投稿時刻ごとにグラフ化したヒストグラムを示すものである。図2の例では、投稿時刻に表示された時刻から3分間での単語の出現回数を1時間分グラフ化した出現頻度ヒストグラムを示している。以下、図2を用いて、注目区間の検出方法について説明する。
まず、各単語について一定時間内の出現回数を集計した図2に示すような出現頻度ヒストグラムを作成する。そして、この出現頻度ヒストグラムにおいて、出現回数が連続して所定の閾値を上回る区間を注目区間候補とする。そして、注目区間候補が複数ある場合には、複数の注目区間候補のうち、最も単語の出現回数が多いものを注目区間として決定する。図2の例では、出現回数の閾値を5回として設定しているので、23:12:00〜23:27:00(区間1)および23:39:00〜23:48:00(区間2)の2つの区間が注目区間候補となるが、区間1は区間2に比べて単語の出現回数が多いため、区間1が注目区間として決定される。尚、閾値の決定については、全ての単語について同じ値を使用しても良いが、単語毎に異なる閾値を用いても良い。例えば、文字数が多い単語については閾値を低く設定し、文字数が少ない単語については閾値を高く設定するなどの設定方法が考えられる。また、文字数以外にも動画コンテンツの長さなどに基づいて、閾値を設定することも可能である。また、上述の例では、注目区間候補を決定する場合、出現回数が連続して閾値を上回る区間から選択しているが、出現回数を収集する区間を長くとったような場合は、必ずしも連続して閾値を上回る区間でなくてもよい。
次に、キーワード抽出部4は、単語抽出部2が抽出した各単語について、注目区間検出部3が検出した注目区間に基づいて、単語の出現回数の偏り率Rと、動画コンテンツの再生時間に占める注目区間の割合Rに算出し、これらに基づいて単語からキーワードを抽出する。RおよびRは下式によって算出する。
=(注目区間における単語の出現回数)/(単語の総出現回数) ・・・ (1)
=(注目区間の長さ)/(動画コンテンツの総時間) ・・・ (2)
(1)および(2)式にて算出したRおよびRについて、Rが所定の閾値以上かつRRが所定の閾値以下となる単語を、キーワードとして抽出する。図3は、●にて示す各単語を、単語毎に算出したRおよびRの値でマッピングした図である。図3の例では、Rの閾値を0.7、Rの閾値を0.3にした例であるが、閾値の値はこれらの値に限られず、適宜設定可能である。
上記の例では、キーワード抽出部4は、RおよびRに基づいて単語からキーワードを抽出したが、キーワードの抽出方法はこれに限られない。例えば、図2に示される出現頻度ヒストグラムが単峰性を有するときに、この単語をキーワードとして抽出する方法であっても良い。出現頻度ヒストグラムが単峰性であるか否かの判定は、出現頻度ヒストグラムが極大となる点をもとめ、極大点が単一の場合は単峰性であると判断する。また、極大点が複数の場合には、これらの極大点の間に出現頻度が連続して所定の回数以下となるヒストグラムの谷が存在する場合には単峰性であると判断する。その他の場合には、単峰性ではないと判断する。ただし、ヒストグラムの単峰性を判定する手法は種々知られており、上記の方法に限られるものではない。
すなわち、キーワード抽出部4におけるキーワードは、単語抽出部2が抽出した単語のうち、出現する偏りを考慮し、この偏りが大きい単語が優先的に抽出されることになる。図4は、キーワード抽出部4によってキーワードとして抽出された単語と、キーワードとは選定されなかった非キーワードの単語との出現頻度ヒストグラムを示したものである。
図4に示すように、動画コンテンツにおける単語の出現回数が同じ場合であっても、出現回数が投稿時刻に対して偏っている単語がキーワードとして抽出される。
次に、クラスタ生成部5は、キーワード抽出部4が抽出したキーワードをクラスタリングして、類似性の高いキーワードで構成されるクラスタを出力する。キーワードのクラスタリングの手法としては、階層的手法を用いることが可能である。この階層的手法では、まず各キーワードそれぞれを初期クラスタの重心とする。その後、各クラスタのペアについての距離を求める。任意のクラスタAとクラスタBのペアの距離は、下記式にて算出することができる。
Figure 2014153977
(3)式において、∩は積集合、∪は和集合を意味している。従って、(クラスタAの注目区間 ∩ クラスタBの注目区間)とは、クラスタAとクラスタBの注目区間が重なり合う時間を示しており、(クラスタAの注目区間 ∪ クラスタBの注目区間)とは、クラスタAまたはクラスタBの少なくともいずれかの注目区間である時間を示している。(3)式にて算出した距離について、最も短い距離であるクラスタのペアを統合して新しいクラスタとする。クラスタAとクラスタBを統合して新しいクラスタとした場合には、この新しいクラスタの注目区間を(クラスタAの注目区間 ∪ クラスタBの注目区間)と定義する。上記のように、クラスタペアの距離の算出と統合を、クラスタペア間の最小距離が所定の値を上回るまで繰り返す。
なお、クラスタ生成部5でのクラスタリングの手法は、階層的手法に限る必要はない。例えば、予備的なクラスタリングによりクラスタ数を決定し、非階層的手法でクラスタリングを行っても良い。このような手法の例として、各キーワードの出現回数が最大となる点を階層的手法でクラスタリングしてクラスタ数を決定し、その後k-means法でクラスリングを行っても良い。また、x-mean法等のクラスタを自動的に決定するアルゴリズムを用いても良い。
さらに、クラスタのペアの距離の算出には、クラスタに含まれるキーワードの出現頻度ヒストグラムを用いても良い。この場合、クラスタAとクラスタBの距離は、ヒストグラムインタセクションの逆数を用いる。ヒストグラムインタセクションは、クラスタA、クラスタBそれぞれの出現頻度ヒストグラムのi番目の出現回数の値をそれぞれa[i]、b[i]とした場合、Σ(min(a[i],b[i])で算出することができる。また、クラスタを統合して新たなクラスタとした場合、新たなクラスタの出現頻度ヒストグラムは、統合前の両クラスタの出現頻度ヒストグラムの平均を用いることが可能である。上述した、出現頻度ヒストグラムを用いてクラスタのペアの算出をする場合には、注目区間の長さを利用しないために、注目区間検出部3での処理を省略しても良い。
次に、要約タグ生成部6はクラスタ生成部5にて生成された各クラスタについて、解析対象の動画コンテンツの内容を示す要約タグを出力する。
要約タグ生成部6は、まず各クラスタから、注目区間における出現回数が高い順にキーワードを複数個選択する。尚、注目区間を検出していない場合には、動画コンテンツにおける出現回数が高い順に選択する。選択するキーワードの数は、アプリケーションに応じて適切に設定すれば良い。その後、選択されたキーワードを、このキーワードが注目区間において最初に出現する時間と共に要約タグとして出力する。この、キーワードが注目区間において最初に出現する時刻は、単語抽出部2によって抽出した単語に対応づけられた投稿時刻を参照することにより、算出可能である。
上記の例では、要約タグ生成部6は、選択したキーワードで構成された要約タグを生成したが、要約タグは、コメント生成部1が収集したコメントの中から、選択したキーワードを最も多く含むコメントで構成しても良い。この場合は、キーワードが出現する時刻とは、このキーワードを含むコメントが投稿された時刻となるので、要約タグはコメントとこのコメントの投稿時刻として出力される。要約タグにコメントを含む場合、キーワードのみを用いるよりも適切に、動画コンテンツの内容を表すことが可能となる。尚、選択したキーワードを最も多く含むコメントが複数ある場合には、最も投稿時刻が早いものを要約タグに含む構成にする。これは、コメントの投稿時刻は、動画コンテンツにおいて関連する内容が出現するタイミングより遅くなる傾向があるためである。
また、要約タグ生成部6は、全てのクラスタについて要約タグを生成せずに、一部のクラスタのみについて要約タグを生成する構成にしても良い。例えば、クラスタに含まれるキーワードが少ない場合には、適切な要約タグを生成することは困難であるために、キーワードを複数個含むクラスタについてのみ、要約タグを生成する構成にすることが考えられる。また、クラスタ生成部5によって、キーワードをクラスタリングする際に、キーワードを1つしか含まないクラスタについては、このクラスタを破棄し要約タグ生成部6に送信しない構成にしても良い。
以上詳述したように、本実施の形態1におけるコンテンツ解析装置によれば、解析対象とする動画コンテンツに対して、予めシーン分割等の処理を行うことを必要とせずに、動画コンテンツの内容を把握するために必要な要約タグを生成することが可能であるので、生成した要約タグを動画コンテンツと共に、または、動画コンテンツと関連づけて記録しておくことで、ユーザが動画コンテンツを視聴することなしに内容を確認することが可能となる。
また、本実施の形態1においては、コンテンツ解析装置として説明したが、同種の構成を有するハードウェアにおけるコンテンツ解析方法として本実施の形態を理解することもできる。また、同種の動作を実施させるコンテンツ解析プログラムとして本実施の形態を理解することも可能である。
実施の形態2.
図5は、この発明を実施するための実施の形態2におけるコンテンツ解析装置の構成を示すものである。図5において、図1と対応する構成については同一番号を付し、説明を省略する。本実施の形態2におけるコンテンツ解析装置は、キーワード抽出部4がキーワードを抽出する際に参照するキーワード辞書7、クラスタ生成部5がキーワードをクラスタリングする際に参照する関連度辞書8を有する点で実施の形態1と相違する。
キーワード辞書7は、キーワード候補となる単語と重みのペアを保存するデータベースであり、外部から編集可能である。例えば、ユーザが関心のある単語等に対して、その優先順位に応じた重みと共に、適宜登録しておくものである。
キーワード抽出部4は、キーワードを抽出する際に、キーワード辞書7を参照して、登録されている単語については、無条件にキーワードとして抽出するように構成することが可能である。または、キーワード辞書7に登録されている単語については、関連づけられている重みを、実施の形態1で説明したRおよび/またはRの値に乗算して、キーワードの抽出を行うように構成することも可能である。この場合、キーワード辞書7に登録する単語について、Rについては、1よりも大きい重みを、Rについては0より大きく1未満の重みを関連づけて登録しておくことにより、よりキーワードとして抽出される可能性が高くなる。このような構成を取ることにより、要約タグが所望の単語に関連する内容で出力されやすくなるという効果を奏する。
また、関連度辞書8は、類似性のある2つの単語にその関連度を対応づけて保存しておくデータベースであり、クラスタ生成部5によるクラスタリングの結果に基づき更新されるものである。
クラスタ生成部5は、キーワードをクラスタリングする際に、関連度辞書8を参照して、類似性のあるキーワード同士が同じクラスタに統合され易いように処理する。例えば、関連度辞書8に「ゆびわ」と「リング」とが、類似性があるものとして登録されており、その関連度が1.5(関連度は0より大きく、関連度が高いほど2つの単語の類似性が高いものとする。)であるとする。この場合、実施の形態1で説明した階層的手法でクラスタリングを行う場合、クラスタAが「ゆびわ」という単語を含み、クラスタBが「リング」という単語を含む場合には、式(3)にて算出するクラスタAとクラスタBの距離に、関連度の逆数である1/1.5=2/3を乗じた値を新たな距離とする構成にする。このような構成にすることで、関連する単語を含むクラスタ間の距離を短くすることが可能となり、より同一のクラスタに統合される可能性が高くなる。また、クラスタリングを階層的手法で実施しない場合でも、関連度を参照して、2つの単語が同じクラスタに含まれる可能性が高くなる処理を実施することが可能である。さらに、0<関連度<1となるような関連度を設定した場合には、関連度の逆数は1より大きくなるために、クラスタ間の距離を長くすることが可能になる。このような関連度は、類似性の低い単語の組に対して設定される。
さらに、クラスタ生成部5は、同じクラスタに含まれる2つの単語については類似性が高くなるように関連度を更新し、異なるクラスタに含まれる2つの単語については類似性が低くなるように関連度を更新する。このように関連度を更新することにより、一般的な単語間の類似性を反映させることが可能になる。
その他の構成や処理は、実施の形態1と同様であるため、説明を省略する。
以上詳述したように、本実施の形態2におけるコンテンツ解析装置によれば、キーワード辞書7および関連度辞書8を利用することで、出力される要約タグの内容をより細かく制御することが可能となる。
また、上述の説明では、実施の形態2におけるコンテンツ解析装置は、キーワード辞書7と関連度辞書8とのいずれも有する構成としているが、いずれか一方を有するような構成としてもよい。
実施の形態3.
図6は、この発明を実施するための実施の形態3におけるコンテンツ再生システムの構成を示すものである。図6に示すように、本実施の形態3におけるコンテンツ再生システムは、実施の形態1または2で説明したコンテンツ解析装置を内蔵し、動画コンテンツを録画、再生するHDDレコーダ10、HDDレコーダ10とインターネットを介して接続された動画コンテンツに関するコメントが記録されるコメントサーバ20、操作端末30、HDDレコーダ10が録画した動画コンテンツを表示する表示装置40から構成されている。
次に、このように構成されたコンテンツ解析システムの動作について説明する。HDDレコーダ10は、動画コンテンツを録画する際、内部のコンテンツ解析装置により、コメントサーバ20から、録画した動画コンテンツに関するコメントを、このコメントの投稿時刻と合わせて取得する。さらに、HDDレコーダ10は、動画コンテンツの録画が完了すると、内部のコンテンツ解析装置により、要約タグを生成し、動画コンテンツに関連づけて記録する。
HDDレコーダ10は、録画された動画コンテンツを再生する際に、スマートフォンなどの操作端末30に、この録画された動画コンテンツに対応づけられた要約タグを配信して表示させる。操作端末30は、表示された要約タグを選択することで、要約タグで指定された時刻に対応する箇所から動画コンテンツを再生するようにHDDレコーダ10に指示をして、テレビ等の表示装置40に動画コンテンツを表示させる。
また、要約タグは操作端末30に表示させるのではなく、表示装置40に表示させても良い。この場合、ユーザはリモコン等を利用して、表示装置40に表示された要約タグを選択することで、要約タグで指定された時刻に対応する箇所から動画コンテンツを再生することができる。
本実施の形態3におけるコンテンツ解析システムにおいては、HDDレコーダ10内にコンテンツ解析装置を組み込んでいるので、動画コンテンツ再生の際に、所望の箇所から再生をすることが可能となる。
1 コメント収集部、2 単語抽出部、3 注目区間検出部、4 キーワード抽出部、5 クラスタ生成部、6 要約タグ生成部

Claims (14)

  1. 動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、
    前記コメント収集部が収集したコメントから単語を抽出する単語抽出部と、
    前記単語抽出部が抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、
    前記キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、
    前記クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部と
    を有することを特徴とするコンテンツ解析装置。
  2. 前記単語抽出部が抽出した単語について、該単語の出現頻度に基づいて注目区間を検出する注目区間検出部をさらに有し、
    前記キーワード抽出部は、
    前記単語抽出部が抽出した単語から、該単語の前記注目区間検出部が検出した注目区間での出現回数に基づいて前記キーワードを抽出する
    ことを特徴とする請求項1に記載のコンテンツ解析装置。
  3. 前記キーワード抽出部は、
    前記単語抽出部が抽出した単語から、該単語の前記動画コンテンツ内での総出現回数と前記注目区間での出現回数との比に基づいて前記キーワードを抽出する
    ことを特徴とする請求項2に記載のコンテンツ解析装置。
  4. 前記キーワード抽出部は、
    前記単語抽出部が抽出した単語から、前記動画コンテンツの総時間と前記注目区間の長さとの比に基づいて前記キーワードを抽出する
    ことを特徴とする請求項2または請求項3に記載のコンテンツ解析装置。
  5. 前記キーワード抽出部は、
    前記単語抽出部が抽出した単語について出現頻度ヒストグラムを算出し、該出現頻度ヒストグラムが単峰性を有する単語を前記キーワードとして抽出する
    ことを特徴とする請求項1に記載のコンテンツ解析装置。
  6. 前記単語抽出部は、
    前記コメントを形態素解析することにより前記単語を抽出する
    ことを特徴とする請求項1乃至請求項5のいずれかに記載のコンテンツ解析装置。
  7. 前記クラスタ生成部は、
    前記キーワード抽出部が抽出したキーワード間の距離に基づいてクラスタリングをする
    ことを特徴とする請求項1乃至請求項6のいずれかに記載のコンテンツ解析装置。
  8. 前記要約タグ生成部は、
    前記コメント収集部が収集したコメントから、前記クラスタ生成部が生成したクラスタに含まれるキーワードを最も多く含むコメントを要約タグとして生成する
    ことを特徴とする請求項1乃至請求項7のいずれかに記載のコンテンツ解析装置。
  9. キーワード候補となる単語とこの単語に対する重みとを複数保存するキーワード辞書をさらに有し、
    前記キーワード抽出部は、
    前記キーワード辞書に保存されている単語を前記重みの大きさに基づいて優先的にキーワードとして抽出する
    ことを特徴とする請求項1乃至請求項8のいずれかに記載のコンテンツ解析装置。
  10. 類似性のある単語同士を関連度に対応づけて保存する関連度辞書をさらに有し、
    前記クラスタ生成部は、
    前記キーワードをクラスタリングする際に、前記関連度辞書に類似性があるとして保存されているキーワード同士を、前記関連度に基づいて優先的に同一のクラスタに統合する
    ことを特徴とする請求項1乃至請求項9のいずれかに記載のコンテンツ解析装置。
  11. 前記関連度辞書は、
    前記クラスタ生成部でのクラスタリングの結果に基づいて、前記関連度が更新される
    ことを特徴とする請求項10に記載のコンテンツ解析装置。
  12. 動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集ステップと、
    前記コメント収集ステップで収集したコメントから単語を抽出する単語抽出ステップと、
    前記単語抽出ステップで抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出ステップと、
    前記キーワード抽出ステップで抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成ステップと、
    前記クラスタ生成ステップで生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成ステップと
    を有することを特徴とするコンテンツ解析方法。
  13. コンテンツ解析装置に動画コンテンツを解析させるプログラムであって、
    前記コンテンツ解析装置を、
    前記動画コンテンツに関連するコメントを該コメントが投稿された投稿時刻と共に外部のサーバから収集するコメント収集部と、
    前記コメント収集部が収集したコメントから単語を抽出する単語抽出部と、
    前記単語抽出部が抽出した単語から、該単語の出現回数と該出現回数の投稿時刻に対する偏りに基づいて、キーワードを抽出するキーワード抽出部と、
    前記キーワード抽出部が抽出したキーワードをクラスタリングし、類似性の高いキーワードを含むクラスタを生成するクラスタ生成部と、
    前記クラスタ生成部が生成したクラスタに、該クラスタに含まれるキーワードと該キーワードが出現する時刻とを含む要約タグを生成する要約タグ生成部と
    を有する装置として動作させることを特徴とするコンテンツ解析プログラム。
  14. 請求項1乃至請求項11のいずれかに記載のコンテンツ解析装置を内蔵した、動画コンテンツを録画、再生するコンテンツ再生装置と、
    前記コンテンツ再生装置とインターネットを介して接続され、前記動画コンテンツに関するコメントが記録されるサーバと、
    前記コンテンツ再生装置の操作をするための操作端末と、
    前記コンテンツ再生装置が再生する動画コンテンツを表示する表示装置と
    を有することを特徴とするコンテンツ再生システム。
JP2013024103A 2013-02-12 2013-02-12 コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム Pending JP2014153977A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013024103A JP2014153977A (ja) 2013-02-12 2013-02-12 コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013024103A JP2014153977A (ja) 2013-02-12 2013-02-12 コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム

Publications (1)

Publication Number Publication Date
JP2014153977A true JP2014153977A (ja) 2014-08-25

Family

ID=51575774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013024103A Pending JP2014153977A (ja) 2013-02-12 2013-02-12 コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム

Country Status (1)

Country Link
JP (1) JP2014153977A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101773573B1 (ko) * 2016-05-03 2017-09-01 네이버 주식회사 동영상 컨텐츠 서버 및 이에 의한 동영상 컨텐츠의 제공 방법, 단말 장치 및 이에 의한 동영상 컨텐츠의 재생 방법
CN107454437A (zh) * 2016-06-01 2017-12-08 深圳市维杰乐思科技有限公司 一种视频标注方法及其装置、服务器
JP2019046017A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2019153150A (ja) * 2018-03-05 2019-09-12 Kddi株式会社 サーバ装置及びプログラム
JP2021518027A (ja) * 2018-12-27 2021-07-29 チャイナ ユニオンペイ カンパニー リミテッド セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
WO2021171384A1 (ja) * 2020-02-25 2021-09-02 日本電信電話株式会社 クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101773573B1 (ko) * 2016-05-03 2017-09-01 네이버 주식회사 동영상 컨텐츠 서버 및 이에 의한 동영상 컨텐츠의 제공 방법, 단말 장치 및 이에 의한 동영상 컨텐츠의 재생 방법
CN107454437A (zh) * 2016-06-01 2017-12-08 深圳市维杰乐思科技有限公司 一种视频标注方法及其装置、服务器
CN107454437B (zh) * 2016-06-01 2020-04-14 深圳市妙思创想教育科技有限公司 一种视频标注方法及其装置、服务器
JP2019046017A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2019153150A (ja) * 2018-03-05 2019-09-12 Kddi株式会社 サーバ装置及びプログラム
JP2021518027A (ja) * 2018-12-27 2021-07-29 チャイナ ユニオンペイ カンパニー リミテッド セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
JP7164701B2 (ja) 2018-12-27 2022-11-01 チャイナ ユニオンペイ カンパニー リミテッド セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
WO2021171384A1 (ja) * 2020-02-25 2021-09-02 日本電信電話株式会社 クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム
JPWO2021171384A1 (ja) * 2020-02-25 2021-09-02
JP7428233B2 (ja) 2020-02-25 2024-02-06 日本電信電話株式会社 クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム

Similar Documents

Publication Publication Date Title
JP5795580B2 (ja) タイムベースメディアにおけるソーシャルインタレストの推定および表示
US9396763B2 (en) Computer-assisted collaborative tagging of video content for indexing and table of contents generation
WO2017096877A1 (zh) 一种推荐方法和装置
JP2019212290A (ja) ビデオを処理する方法及び装置
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
US20170257654A1 (en) Methods and apparatus for alerting users to media events of interest using social media analysis
US8478759B2 (en) Information presentation apparatus and mobile terminal
CN108292322B (zh) 使用从查看环境捕捉的信号的媒体数据文件的组织、检索、注释和呈现
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
CN106844685B (zh) 用于识别网站的方法、装置及服务器
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
CN107547922B (zh) 信息处理方法、装置、系统及计算机可读存储介质
CN113779381A (zh) 资源推荐方法、装置、电子设备和存储介质
CN112287168A (zh) 用于生成视频的方法和装置
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
CN113407775B (zh) 视频搜索方法、装置及电子设备
Sun et al. Ranking highlights in personal videos by analyzing edited videos
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP5102883B2 (ja) ユーザ発言抽出装置とその方法と、プログラム